メインコンテンツへスキップ
LLM 評価ジョブは、W&B Multi-tenant Cloudプレビュー版として提供されています。プレビュー期間中は、コンピュートを無料で利用できます。詳細はこちら
このページでは、LLM Evaluation Jobs がカテゴリ別に提供する評価ベンチマークを一覧表示します。 一部のベンチマークを実行するには、チーム管理者が必要なAPIキーをチームスコープのシークレットとして追加する必要があります。評価ジョブの設定時には、チームのどのメンバーでもそのシークレットを指定できます。
  • OpenAI Model Scorer 列が true のベンチマークでは、スコアリングにOpenAIのモデルを使用します。組織管理者またはチーム管理者は、OpenAI APIキーをチームシークレットとして追加する必要があります。この要件があるベンチマークで評価ジョブを設定する場合は、Scorer API key フィールドにそのシークレットを指定します。
    • Gated Hugging Face Dataset 列にリンクがあるベンチマークでは、アクセス制限付きのHugging Faceデータセットへのアクセスが必要です。組織管理者またはチーム管理者は、Hugging Faceでそのデータセットへのアクセスをリクエストし、Hugging Faceのユーザーアクセストークンを作成して、そのアクセストークンを使ったチームシークレットを設定する必要があります。この要件があるベンチマークを設定する場合は、Hugging Face Token フィールドにそのシークレットを指定します。

知識

科学、言語、一般的な推論など、さまざまな分野にわたる事実知識を評価します。
評価タスク ID
OpenAI スコアラー
アクセス制限付き Hugging Face データセット説明
BoolQboolq自然言語の質問に基づく二択のはい/いいえ問題
GPQA Diamondgpqa_diamond大学院レベルの科学問題 (最高品質のサブセット)
HLEhleはい人間レベルの評価ベンチマーク
Lingolylingolyはい言語学オリンピックの問題
Lingoly Toolingoly_tooはい拡張版の言語学チャレンジ問題
MMIUmmiu大規模マルチタスク言語理解ベンチマーク
MMLU (0-shot)mmlu_0_shot例示なしの大規模マルチタスク言語理解
MMLU (5-shot)mmlu_5_shot5 例付きの大規模マルチタスク言語理解
MMLU-Prommlu_proMMLU のより難しい版
ONET M6onet_m6職業知識ベンチマーク
PAWSpaws言い換えに対する敵対的な単語置換
SevenLLM MCQ (English)sevenllm_mcq_en英語の多肢選択式問題
SevenLLM MCQ (Chinese)sevenllm_mcq_zh中国語の多肢選択式問題
SevenLLM QA (English)sevenllm_qa_en英語の質問応答
SevenLLM QA (Chinese)sevenllm_qa_zh中国語の質問応答
SimpleQAsimpleqaはいシンプルな事実ベースの質問応答
SimpleQA Verifiedsimpleqa_verified回答が検証された SimpleQA のサブセット
WorldSenseworldsense世界知識と常識の理解を評価

推論

論理的思考、問題解決、および常識に基づく推論能力を評価します。
評価タスク IDOpenAI スコアラーアクセス制限付き HF データセット説明
AGIE AQUA-RATagie_aqua_rat解答根拠付きの代数的な質問応答
AGIE LogiQA (English)agie_logiqa_en英語の論理推論問題
AGIE LSAT Analytical Reasoningagie_lsat_arLSAT の分析的推論 (ロジックゲーム) 問題
AGIE LSAT Logical Reasoningagie_lsat_lrLSAT の論理推論問題
ARC Challengearc_challenge推論を要する難度の高い科学問題 (AI2 Reasoning Challenge)
ARC Easyarc_easyARC データセットの比較的易しい科学問題セット
BBHbbhBIG-Bench Hard: BIG-Bench から抽出された難度の高いタスク
CoCoNotcoconot反事実的な常識推論ベンチマーク
CommonsenseQAcommonsense_qa常識推論問題
HellaSwaghellaswag常識に基づく自然言語推論
MUSRmusr多段階推論ベンチマーク
PIQApiqa物理常識推論
WinoGrandewinogrande代名詞の照応解析による常識推論

数学

初等レベルから競技レベルまで、さまざまな難易度の数学の問題解決能力を評価します。
評価タスク IDOpenAI スコアラーアクセス制限付き HF データセット説明
AGIE Mathagie_mathAGIE ベンチマークスイートにおける高度な数学的推論
AGIE SAT Mathagie_sat_mathSAT の数学問題
AIME 2024aime20242024 年の American Invitational Mathematics Examination の問題
AIME 2025aime20252025 年の American Invitational Mathematics Examination の問題
GSM8Kgsm8kGrade School Math 8K: 複数 step の数学文章題
InfiniteBench Math Calcinfinite_bench_math_calc長いコンテキスト内での数学計算
InfiniteBench Math Findinfinite_bench_math_find長いコンテキスト内での数学的パターンの発見
MATHmath競技レベルの数学問題
MGSMmgsm多言語の小学校レベルの数学

コード

デバッグ、コード実行結果の予測、関数呼び出しなど、プログラミングやソフトウェア開発の能力を評価します。
評価タスク IDOpenAI スコアラーアクセス制限付き HF データセット説明
BFCLbfclBerkeley Function Calling Leaderboard: 関数呼び出しとツール使用の能力を評価
InfiniteBench Code Debuginfinite_bench_code_debug長文コンテキストでのコードデバッグタスク
InfiniteBench Code Runinfinite_bench_code_run長文コンテキストでのコード実行結果予測

読解

複雑なテキストに対する読解力と情報抽出を評価します。
評価タスク IDOpenAI スコアラーアクセス制限付き HF データセット説明
AGIE LSAT Reading Comprehensionagie_lsat_rcLSAT の読解パッセージと設問
AGIE SAT Englishagie_sat_enパッセージ付きの SAT の読解・ライティング問題
AGIE SAT English (No Passage)agie_sat_en_without_passageパッセージを伴わない SAT 英語問題
DROPdropDiscrete Reasoning Over Paragraphs: 数値推論を要する読解問題
RACE-Hrace_h英語試験由来の読解問題 (高難度)
SQuADsquadStanford 質問応答データセット: Wikipedia 記事を対象とした抽出的質問応答

長文コンテキスト

情報検索やパターン認識を含め、長文コンテキストを処理して推論する能力を評価します。
評価タスク IDOpenAI スコアラーアクセス制限付き HF データセット説明
InfiniteBench KV Retrievalinfinite_bench_kv_retrieval長文コンテキストにおけるキーと値の検索
InfiniteBench LongBook (English)infinite_bench_longbook_choice_eng長編書籍を対象とした多肢選択問題
InfiniteBench LongDialogue QA (English)infinite_bench_longdialogue_qa_eng長い対話に基づく質問応答
InfiniteBench Number Stringinfinite_bench_number_string長いシーケンスにおける数値パターン認識
InfiniteBench Passkeyinfinite_bench_passkey長文コンテキストからの情報検索
NIAHniah干し草の山の中の針: 長文コンテキストにおける検索テスト

安全性

アラインメント、バイアス検出、有害コンテンツへの耐性、真実性を評価します。
評価タスク IDOpenAI スコアラーアクセス制限付き HF データセット説明
AgentHarmagentharmはい有害なエージェントの振る舞いや悪用シナリオに対するモデルの耐性をテストします
AgentHarm Benignagentharm_benignはい誤検知率を測定するための AgentHarm の無害なベースラインです
Agentic Misalignmentagentic_misalignmentエージェント的な振る舞いにおける潜在的なミスアラインメントを評価します
AHBahbAgent Harmful Behavior: 有害なエージェント的行動に対する耐性をテストします
AIRBenchair_bench敵対的な指示に対する耐性をテストします
BBEHbbeh有害な振る舞いを評価するためのバイアスベンチマークです
BBEH Minibbeh_miniBBEH ベンチマークの小規模版です
BBQbbq質問応答のためのバイアスベンチマークです
BOLDboldオープンエンドな言語生成データセットにおけるバイアス
CYSE3 Visual Prompt Injectioncyse3_visual_prompt_injection視覚的プロンプトインジェクション攻撃に対する耐性をテストします
Make Me Paymake_me_pay金融詐欺や不正行為のシナリオに対する耐性をテストします
MASKmaskはいはい機微情報に対するモデルの処理をテストします
Personality BFIpersonality_BFIビッグファイブ性格特性評価
Personality TRAITpersonality_TRAITはい包括的な性格特性評価
SOSBenchsosbenchはい安全性と監督に関するストレステストです
StereoSetstereoset言語モデルにおけるステレオタイプ的なバイアスを測定します
StrongREJECTstrong_reject有害なリクエストを拒否するモデルの能力をテストします
Sycophancysycophancyおもねるような振る舞いの傾向を評価します
TruthfulQAtruthfulqaモデルの真実性と虚偽に対する耐性をテストします
UCCBuccbUnsafe Content Classification Benchmark
WMDP Biowmdp_bio生物学分野における危険な知識をテストします
WMDP Chemwmdp_chem化学分野における危険な知識をテストします
WMDP Cyberwmdp_cyberサイバーセキュリティ分野における危険な知識をテストします
XSTestxstestはい過剰拒否を検出するための誇張的な安全性テストです

専門分野別

医学、化学、法律、生物学、その他の専門分野における専門知識を評価します。
評価タスク IDOpenAI スコアラーアクセス制限付き HF データセット説明
ChemBenchchembench化学知識と問題解決のベンチマーク
HealthBenchhealthbenchはいヘルスケアおよび医療知識の評価
HealthBench Consensushealthbench_consensusはい専門家のコンセンサスに基づくヘルスケア関連の質問
HealthBench Hardhealthbench_hardはい難易度の高いヘルスケアシナリオ
LabBench Cloning Scenarioslab_bench_cloning_scenarios実験計画とクローニング
LabBench DBQAlab_bench_dbqaラボシナリオ向けのデータベース質問応答
LabBench FigQAlab_bench_figqa科学的文脈における図の解釈
LabBench LitQAlab_bench_litqa研究向けの文献ベースの質問応答
LabBench ProtocolQAlab_bench_protocolqa実験プロトコルの理解
LabBench SeqQAlab_bench_seqqa生物学的配列解析に関する質問
LabBench SuppQAlab_bench_suppqa補足資料の解釈
LabBench TableQAlab_bench_tableqa科学論文における表の解釈
MedQAmedqa医師免許試験の問題
PubMedQApubmedqa研究論文の要旨に基づく生物医学の質問応答
SEC-QA v1sec_qa_v1SEC提出書類の質問応答
SEC-QA v1 (5-shot)sec_qa_v1_5_shot5例を用いた SEC-QA
SEC-QA v2sec_qa_v2更新版の SEC提出書類ベンチマーク
SEC-QA v2 (5-shot)sec_qa_v2_5_shot5例を用いた SEC-QA v2

マルチモーダル

画像入力とテキスト入力を組み合わせた、視覚と言語の理解を評価します。
評価タスク IDOpenAI スコアラーアクセス制限付き HF データセット説明
DocVQAdocvqa文書画像に関する質問応答
MathVistamathvista視覚的コンテキストと数学を組み合わせた数学的推論
MMMU Multiple Choicemmmu_multiple_choice多肢選択形式のマルチモーダル理解
MMMU Openmmmu_open自由回答形式のマルチモーダル理解
V*Star Bench Attribute Recognitionvstar_bench_attribute_recognition視覚属性認識タスク
V*Star Bench Spatial Relationshipvstar_bench_spatial_relationship_reasoning視覚入力を用いた空間推論

指示追従

特定の指示や書式要件への準拠を評価します。
評価タスク IDOpenAI スコアラーアクセス制限付き HF データセット説明
IFEvalifeval指示に正確に従う能力をテストします

システム

基本的なシステムの検証と事前チェック。
評価タスク IDOpenAI スコアラーアクセス制限付き HF データセット説明
Pre-Flightpre_flight基本的なシステムチェックと検証用テスト

次のステップ