株式会社オブライト
サービス
私たちについて
会社概要
コラム
用語集
お問い合わせ
English
English
メニューを開く
コラム
SWE-bench
「SWE-bench」のコラム
4件の記事
AI
2026-06-10
Cognition AI の FrontierCode 徹底解説——「マージ可能か」を問う新世代コーディング AI ベンチマーク
2026年6月8日、Cognition AI が発表した **FrontierCode** は製品ではなくコーディング AI 評価ベンチマーク。「テストが通る」だけでなく「OSS メンテナーがそのままマージできる品質か」を6軸で測定する。SWE-bench Verified との違い、Diamond/Main/Extended の3段階データセット、Claude Opus 4.8 が Diamond 13.4%で首位に立った公式結果、日本企業のコードレビュー文化との親和性まで詳しく解説する。
Cognition AI
FrontierCode
SWE-bench
AI
2026-04-17
Claude Opus 4.7完全解説 — SWE-bench 87.6%・Vision 98.5%・xhigh推論モードで進化した最新フラグシップ【2026年4月16日リリース】
2026年4月16日にAnthropicがリリースしたClaude Opus 4.7は、SWE-bench Verified 87.6%・Vision精度98.5%・新しいxhigh Effort Controlを搭載。Opus 4.6と同価格でコーディングエージェント・マルチモーダル能力を大幅強化した最新フラグシップの全機能を解説します。
Claude Opus 4.7
Anthropic
SWE-bench
AI
2026-04-10
GLM-5.1完全ガイド — SWE-bench Pro世界1位を達成したオープンソースLLM【2026年4月最新】
Z.aiが2026年4月7日にリリースしたGLM-5.1は、SWE-bench Proで58.4%を達成しGPT-5.4やClaude Opus 4.6を超えた世界初のオープンソースLLM。744Bパラメータ(40Bアクティブ)のMoEアーキテクチャ、MITライセンス、8時間自律タスクなど最新情報を完全解説。
GLM-5.1
Z.ai
SWE-bench
AI
2026-04-10
MiniMax M2.5完全ガイド — Lightning AttentionでSWE-bench 80.2%を達成したMoEモデル【2026年版】
MiniMax M2.5は独自のLightning AttentionによりコーディングベンチマークSWE-bench Verifiedで80.2%を達成したオープンMoEモデル。230B総パラメータ・10Bアクティブ。アーキテクチャ・ライセンス・導入手順を完全解説。
MiniMax M2.5
SWE-bench
Lightning Attention