株式会社オブライト
AI2026-05-17

Benchmark(ベンチマーク)

別名: Benchmark / AI評価指標 / ベンチマーク評価

LLMや他のAIモデルの性能を標準化されたタスク・データセットで測定・比較するための評価指標・評価セット。MMLU・HumanEval・SWE-bench・HLE等が代表例。


概要

ベンチマークはAIモデルの能力を客観的に比較するための標準試験です。MMLU(知識・推論)・HumanEval(コード生成)・SWE-bench(実際のGitHubバグ修正)・MATH(数学)・GPQA/HLE(博士レベル科学)などが広く使われています。2026年のフロンティアモデルはSWE-bench Verifiedで80〜90%超のスコアを記録しています。

限界と注意点

モデルがベンチマークデータで過学習(contamination)しスコアが過大評価される問題があります。また、ベンチマーク性能と実業務での有用性が必ずしも一致しないため、実際のユースケースで評価するEval Harnessの活用が重要です。

関連コラム

AI
Qwen3.5-9B vs GPT-4o-mini vs Claude Haiku|2026年SLM徹底比較ガイド
2026年の主要SLM3モデル——Qwen3.5-9B・GPT-4o-mini・Claude 3.5 Haikuをベンチマーク・コスト・日本語品質・マルチモーダル・プライバシーなど多角的に比較。ローカル推論 vs クラウドAPI、用途別の最適モデル選定指針を解説します。品川区のAI導入コンサルティングならOflight Inc.にお任せください。
AI
Codex vs Claude Code vs Cursor vs Copilot — 2026年AIコーディングツール徹底比較【図解付き】
OpenAI Codex・Claude Code・Cursor・GitHub Copilotを価格・機能・SWE-bench・ユースケースで徹底比較。選定フローチャートと併用戦略で最適なAIコーディング環境を構築しよう。
AI
Claude Opus 4.7完全解説 — SWE-bench 87.6%・Vision 98.5%・xhigh推論モードで進化した最新フラグシップ【2026年4月16日リリース】
2026年4月16日にAnthropicがリリースしたClaude Opus 4.7は、SWE-bench Verified 87.6%・Vision精度98.5%・新しいxhigh Effort Controlを搭載。Opus 4.6と同価格でコーディングエージェント・マルチモーダル能力を大幅強化した最新フラグシップの全機能を解説します。
AI
2026年4月ローカルLLM最新全体像 — 主要10モデル完全比較ガイド【Ollama対応表付き】
2026年4月時点の主要ローカルLLM10モデルを徹底比較。SWE-benchスコア・日本語性能・VRAM要件・Ollamaコマンド・ライセンスを一覧化。Gemma 4、Llama 4、Qwen 3.5、GLM-5.1、Kimi K2.5、MiniMax M2.5など最新モデルを網羅したガイド。

関連用語

お気軽にご相談ください

お問い合わせ