メインコンテンツへスキップ
LLM Evaluation Jobs は、CoreWeave が管理するインフラストラクチャーを利用して LLM モデルのパフォーマンスを評価するためのベンチマーク フレームワークです。最新の業界標準に準拠した包括的なモデル評価ベンチマークから選択し、W&B Models の自動リーダーボードやチャートを使って結果の確認、分析、共有を行えます。LLM Evaluation Jobs を使えば、GPU インフラストラクチャーを自分でデプロイして維持管理する複雑さを解消できます。
LLM 評価ジョブは、W&B Multi-tenant Cloudプレビュー版として提供されています。プレビュー期間中は、コンピュートを無料で利用できます。詳細はこちら

仕組み

モデル チェックポイントまたは一般公開されているホスト型の OpenAI 互換モデルを、わずか数 step で評価できます。
  1. W&B Models で評価ジョブを設定します。ベンチマークや設定 (リーダーボードを生成するかどうかなど) を定義します。
  2. 評価ジョブを Launch します。
  3. 結果とリーダーボードを確認し、分析します。
同じ宛先プロジェクトに対して評価ジョブを Launch するたびに、そのプロジェクトのリーダーボードは自動的に更新されます。
評価ジョブのリーダーボードの例

次のステップ

詳細情報

Pricing

LLM Evaluation Jobs は、モデル チェックポイントまたはホスト型 API を、一般的なベンチマークに対してフルマネージドの CoreWeave コンピュート上で評価します。インフラストラクチャーを管理する必要はありません。料金は、アイドル時間ではなく、実際に消費したリソースに対してのみ発生します。料金は、コンピュートとストレージの 2 つの要素で構成されます。コンピュートはパブリックプレビュー期間中は無料で、料金は一般提供時にお知らせします。保存される結果には、メトリクスと、Models の runs に保存された各サンプルのトレースが含まれます。ストレージは、データ量に応じて毎月課金されます。プレビュー期間中、LLM Evaluation Jobs を利用できるのは Multi-tenant Cloud のみです。詳しくは Pricing ページを参照してください。

ジョブの制限

個々の評価ジョブには、次の制限があります。
  • 評価対象のモデルの最大サイズは、コンテキストを含めて 86 GB です。
  • 各ジョブで使用できる GPU は 2 基までです。

要件

  • モデル チェックポイントを評価するには、モデルの重みを VLLM 互換のartifactとしてパッケージ化する必要があります。詳細とコード例については、例: モデルを準備するを参照してください。
  • OpenAI 互換モデルを評価するには、そのモデルに公開 URL でアクセスできる必要があります。また、認証用のAPIキーを含むチームシークレットを、組織またはチーム管理者が設定する必要があります。
  • 一部のベンチマークでは、スコアリングに OpenAI モデルを使用します。これらのベンチマークを実行するには、組織またはチーム管理者が必要なAPIキーを含むチームシークレットを設定する必要があります。ベンチマークにこの要件があるかどうかを確認するには、評価ベンチマークカタログを参照してください。
  • 一部のベンチマークでは、Hugging Face のgated datasetへのアクセスが必要です。これらのベンチマークのいずれかを実行するには、組織またはチーム管理者が Hugging Face でgated datasetへのアクセスをリクエストし、Hugging Face のユーザーアクセストークンを生成して、チームシークレットとして設定する必要があります。ベンチマークにこの要件があるかどうかを確認するには、評価ベンチマークカタログを参照してください。
これらの要件を満たすための詳細と手順については、以下を参照してください。