메인 콘텐츠로 건너뛰기
LLM Evaluation Jobs은 CoreWeave가 관리하는 인프라를 사용해 LLM 모델의 성능을 평가하는 벤치마킹 프레임워크입니다. 최신 업계 표준 모델 평가 벤치마크 중에서 선택한 다음, W&B Models의 자동 리더보드와 차트를 활용해 결과를 확인하고, 분석하고, 공유할 수 있습니다. LLM Evaluation Jobs를 사용하면 GPU 인프라를 직접 배포하고 유지 관리하는 복잡함을 덜 수 있습니다.
LLM 평가 작업은 W&B Multi-tenant Cloud에서 프리뷰 기능으로 제공됩니다. 프리뷰 기간에는 컴퓨팅이 무료입니다. 자세히 알아보기

작동 방식

몇 단계만으로 모델 체크포인트 또는 공개적으로 액세스할 수 있는 호스팅된 OpenAI 호환 모델을 평가할 수 있습니다.
  1. W&B Models에서 평가 작업을 설정합니다. 리더보드 생성 여부 등의 벤치마크와 설정을 정의합니다.
  2. 평가 작업을 실행합니다.
  3. 결과와 리더보드를 확인하고 분석합니다.
동일한 대상 프로젝트에 대해 평가 작업을 실행할 때마다 해당 프로젝트의 리더보드가 자동으로 업데이트됩니다.
평가 작업 리더보드 예시

다음 단계

자세한 내용

가격

LLM Evaluation Jobs는 완전관리형 CoreWeave 컴퓨트에서 널리 사용되는 벤치마크를 사용해 모델 체크포인트 또는 호스팅 API를 평가하므로, 인프라를 직접 관리할 필요가 없습니다. 유휴 시간이 아니라 실제로 사용한 리소스에 대해서만 비용을 지불합니다. 가격은 컴퓨트와 저장소 두 가지 컴포넌트로 구성됩니다. 컴퓨트는 공개 프리뷰 기간 동안 무료이며, 정식 출시 시 가격을 공지할 예정입니다. 저장된 결과에는 Models run에 저장된 메트릭과 예제별 트레이스가 포함됩니다. 저장소는 데이터 볼륨에 따라 월별로 청구됩니다. 프리뷰 기간 동안 LLM Evaluation Jobs는 Multi-tenant Cloud에서만 사용할 수 있습니다. 자세한 내용은 가격 페이지를 참조하세요.

작업 제한

개별 평가 작업에는 다음과 같은 제한이 있습니다.
  • 평가할 모델의 최대 크기는 컨텍스트를 포함해 86GB입니다.
  • 각 작업은 GPU 2개로 제한됩니다.

요구 사항

  • 모델 체크포인트를 평가하려면 모델 가중치를 vLLM 호환 artifact로 패키징해야 합니다. 자세한 내용과 예제 코드는 예시: 모델 준비를 참조하세요.
  • OpenAI 호환 모델을 평가하려면 공개 URL로 접근할 수 있어야 하며, 인증에 사용할 API 키를 포함한 팀 시크릿을 조직 관리자 또는 팀 관리자가 구성해야 합니다.
  • 일부 벤치마크는 점수 산정에 OpenAI 모델을 사용합니다. 이러한 벤치마크를 실행하려면 조직 관리자 또는 팀 관리자가 필요한 API 키가 포함된 팀 시크릿을 구성해야 합니다. 벤치마크에 이 요구 사항이 있는지는 Evaluation benchmark catalog를 참조하세요.
  • 일부 벤치마크는 Hugging Face의 제한된 데이터셋에 대한 접근 권한이 필요합니다. 이러한 벤치마크를 실행하려면 조직 관리자 또는 팀 관리자가 Hugging Face에서 해당 제한 데이터셋에 대한 접근 권한을 요청하고, Hugging Face 사용자 액세스 token을 생성한 다음, 이를 팀 시크릿으로 구성해야 합니다. 벤치마크에 이 요구 사항이 있는지는 Evaluation benchmark catalog를 참조하세요.
이 요구 사항을 충족하는 방법에 대한 자세한 내용과 지침은 다음을 참조하세요.