本文へスキップ

株式会社オブライト

「SWE-bench」のコラム

4件の記事

Cognition AI の FrontierCode 徹底解説——「マージ可能か」を問う新世代コーディング AI ベンチマーク

2026年6月8日、Cognition AI が発表した **FrontierCode** は製品ではなくコーディング AI 評価ベンチマーク。「テストが通る」だけでなく「OSS メンテナーがそのままマージできる品質か」を6軸で測定する。SWE-bench Verified との違い、Diamond/Main/Extended の3段階データセット、Claude Opus 4.8 が Diamond 13.4%で首位に立った公式結果、日本企業のコードレビュー文化との親和性まで詳しく解説する。

Cognition AIFrontierCodeSWE-bench

Claude Opus 4.7完全解説 — SWE-bench 87.6%・Vision 98.5%・xhigh推論モードで進化した最新フラグシップ【2026年4月16日リリース】

2026年4月16日にAnthropicがリリースしたClaude Opus 4.7は、SWE-bench Verified 87.6%・Vision精度98.5%・新しいxhigh Effort Controlを搭載。Opus 4.6と同価格でコーディングエージェント・マルチモーダル能力を大幅強化した最新フラグシップの全機能を解説します。

Claude Opus 4.7AnthropicSWE-bench

GLM-5.1完全ガイド — SWE-bench Pro世界1位を達成したオープンソースLLM【2026年4月最新】

Z.aiが2026年4月7日にリリースしたGLM-5.1は、SWE-bench Proで58.4%を達成しGPT-5.4やClaude Opus 4.6を超えた世界初のオープンソースLLM。744Bパラメータ（40Bアクティブ）のMoEアーキテクチャ、MITライセンス、8時間自律タスクなど最新情報を完全解説。

GLM-5.1Z.aiSWE-bench

MiniMax M2.5完全ガイド — Lightning AttentionでSWE-bench 80.2%を達成したMoEモデル【2026年版】

MiniMax M2.5は独自のLightning AttentionによりコーディングベンチマークSWE-bench Verifiedで80.2%を達成したオープンMoEモデル。230B総パラメータ・10Bアクティブ。アーキテクチャ・ライセンス・導入手順を完全解説。

MiniMax M2.5SWE-benchLightning Attention