Claude Sonnet 5 徹底解説 — 2026年6月30日 Anthropic 公開、SWE-bench Verified 92.4% で Opus 4.6 超え(+12pt) 1M コンテキスト・OSWorld-Verified 88.3% で人間専門家 72.4% を上回り、GPQA Diamond 96.2% / ARC-AGI-2 84.7% Introductory $2/$10 per M tok(〜2026-08-31)→ Standard $3/$15、Claude Free / Pro / Claude Code Pro のデフォルトモデルに
Anthropic が2026年6月30日に Claude Sonnet 5 を公開 しました(公式リリース / System Card / TechCrunch 報道 / VentureBeat)。
最大の衝撃: 中位 Sonnet 階層で Opus 4.6 を 12pt 抜き — SWE-bench Verified 92.4%(Opus 4.6 は 80.8%)、OSWorld-Verified 88.3%(人間専門家ベースライン 72.4% を 15.9pt 上回る)、GPQA Diamond 96.2%(Gemini 3.1 Pro 94.3% 超え)、ARC-AGI-2 84.7%(Gemini 3.1 Pro 77.1% を 7.6pt 超え)。1M トークンのコンテキストウィンドウ(Opus 4.8 と同等)、出力上限 128K。
Anthropic IPO 直前の戦略的価格設定: 2026年8月31日まで Introductory $2 / M input・$10 / M output、以降 Standard $3 / $15(Sonnet 4.6 同価格)。新トークナイザで同入力が ~1.0–1.35× トークン換算 される点に注意。GPT-5.5・Gemini 3.1 Pro・自社 Opus 4.8 全てを価格で下回る。
default model 化: claude.ai Free / Pro のデフォルト、Claude Code Pro のデフォルト、API(claude-sonnet-5)/ AWS Bedrock / Vertex AI / Managed Agents 全配信チャネルで利用可。Zapier の Daniel Shepard 氏「以前の Sonnet は途中で止まっていたタスクを Sonnet 5 は最後まで完了させる」と評価(TechCrunch)。
安全性: Sonnet 4.6 より misalignment 低下、サイバー攻撃safeguards デフォルト有効、Firefox 脆弱性作成テストで 0.0% 成功率(実用悪用不可)。
戦略文脈: agentic 能力は業界で「table stakes」化、競争軸は コスト効率・信頼性・自律タスク完遂 に移行。Anthropic は IPO に向けて Opus 階層と Sonnet 階層の境界を破壊して 大量生産ワークロードでのコストパフォーマンス を取りに来た格好。
TL;DR — Claude Sonnet 5 を一言で
Anthropic が2026年6月30日に Claude Sonnet 5 を公開 しました(公式リリース / System Card)。
4 つの要点:
1. 中位 Sonnet 階層が Opus 4.6 を 12pt 超え — SWE-bench Verified 92.4%(Opus 4.6 = 80.8%)
2. 1M トークンコンテキスト + 128K 出力上限 — Opus 4.8 と同等の context、大規模リポジトリ・長文ドキュメントを 1 リクエストで扱える
3. Introductory $2 / $10 per M tok(〜2026-08-31)→ Standard $3 / $15 — Opus 4.8 / GPT-5.5 / Gemini 3.1 Pro を価格で下回り、agentic 用途のコスト破壊
4. claude.ai Free / Pro / Claude Code Pro のデフォルトモデル、API・AWS Bedrock・Vertex AI・Managed Agents 全配信
本コラムは Kimi K2.7-Code・Ornith-1.0・Grok Build・Cursor iOS と並ぶ「2026年6〜7月のフロンティアモデル戦線」整理として位置づけられます。
リリース概要
| 項目 | 内容 |
|---|---|
| 公開日 | 2026年6月30日 |
| モデル文字列 | claude-sonnet-5(バリエーション: claude-sonnet-5-20260630) |
| 開発元 | Anthropic |
| コンテキストウィンドウ | 1,000,000 トークン(1M) |
| 最大出力 | 128K トークン |
| デフォルト化 | claude.ai Free / Pro、Claude Code Pro |
| 配信チャネル | API / AWS Bedrock / Google Vertex AI / Managed Agents |
| トークナイザ | 新トークナイザ — 同じ入力が ~1.0–1.35× トークン換算(料金影響あり) |
ベンチマーク — 中位モデルが上位を超える異例の世代
| ベンチマーク | Sonnet 5 | Sonnet 4.6 | Opus 4.6 | 比較対象 |
|---|---|---|---|---|
| SWE-bench Verified(agentic coding) | 92.4% | — | 80.8% | Opus 4.6 を +11.6pt |
| OSWorld-Verified(computer use) | 88.3% | 78.5% | — | 人間専門家 72.4% を +15.9pt |
| GPQA Diamond(PhD レベル科学) | 96.2% | — | — | Gemini 3.1 Pro 94.3% を +1.9pt |
| ARC-AGI-2(抽象推論) | 84.7% | — | — | Gemini 3.1 Pro 77.1% を +7.6pt |
| Agentic coding 集計(The New Stack) | 63.2% | 58.1% | — | Sonnet 4.6 比 +5.1pt |
| Humanity's Last Exam(w/tools 参考値) | — | 46.8% | — | Sonnet 5 は更に向上の見込み |
最も注目すべき指標は SWE-bench Verified 92.4%。これまで 80% 超は Opus 階層と OpenAI / Google フラッグシップに限られていた 領域で、Sonnet 階層が +12pt の単一世代ジャンプ を達成。同価格帯の競合(GPT-5.5・Gemini 3.1 Pro)と比較しても優位、Opus 4.8(推定 ~95% 前後)に肉薄する。
OSWorld-Verified(computer use・ブラウザ・ターミナル操作)88.3% は 人間専門家を 15.9 ポイント上回る という業界初の領域。コンピュータ操作系エージェント(Sakana Fugu・Claude Code Agent View)の実用性が一段階引き上げられた。
GPQA Diamond 96.2% は Gemini 3.1 Pro(94.3%)の記録を更新。ARC-AGI-2 84.7% も同様に Gemini 3.1 Pro 77.1% を 7.6pt 上回り、抽象推論で Anthropic がトップに復帰した。
価格 — Introductory $2/$10、Standard $3/$15
Introductory pricing(〜2026年8月31日):
- Input: $2.00 / 1M tokens
- Output: $10.00 / 1M tokens
Standard pricing(2026年9月1日以降):
- Input: $3.00 / 1M tokens
- Output: $15.00 / 1M tokens
(Sonnet 4.6 と同価格)
重要な caveat — 新トークナイザ: Sonnet 5 は 新しいトークナイザを採用 しており、同じ入力テキストが 約 1.0〜1.35 倍のトークン数 にカウントされます。実質コストは表示単価より高くなる可能性があり、実利用量で要見積もり。
競合との価格比較(公開情報ベース、output token / 1M):
- Claude Sonnet 5: $10(Introductory)/ $15(Standard)
- Claude Opus 4.8: $75(output)
- GPT-5.5: $25-30 帯(推定)
- Gemini 3.1 Pro: $15-20 帯(推定)
- Gemini 3.5 Flash: $0.30-0.50(より安いが性能は別軸)
- Kimi K2.7-Code: $4.00(Modified MIT、ただしデータ越境論点)
Sonnet 5 は GPT-5.5 / Gemini 3.1 Pro / 自社 Opus 4.8 全てを価格で下回りつつ、ベンチで肉薄/超える という業界の力学を破壊する価格設定。
Agentic 能力 — 「途中で止まらない」エージェント
Anthropic は Sonnet 5 を 「最も agentic な Sonnet」 と位置づけており、以下の改善を強調:
- 長時間タスクの完遂率向上 — 以前の Sonnet が途中で停止していた multi-step タスクを最後まで完了
- ツール使用の安定性 — ブラウザ・ターミナル・ファイル操作の信頼性
- 計画立案 — 複雑タスクの自律的なステップ分解
- デバッグ能力 — エラー認識と自己修正
Zapier の Daniel Shepard 氏のコメント(TechCrunch 報道):
> "earlier Sonnet versions would stall on multi-step tasks — Sonnet 5 finishes them end-to-end."
> (以前の Sonnet バージョンは複数ステップタスクで止まることがあったが、Sonnet 5 は最後まで完走する)
この改善が automation プラットフォーム業界全体での Sonnet 5 採用 を加速させる見込み。agmsg / Cursor iOS / Claude Code 等の multi-agent 連携ワークフロー で、Sonnet 5 をデフォルトモデルにする組織が増えると予想されます。
安全性 — Misalignment 低下と cyber safeguards
System Card 公開値の主な安全性指標:
- Misaligned behavior rates が Sonnet 4.6 より明確に低下
- Cyber safeguards がデフォルトで有効化
- Firefox 脆弱性作成テストで 0.0% 成功率 — 実用可能なエクスプロイトを生成できない(攻撃利用への安全性)
- 構造化されたリスク評価(Bio・Chem・Cyber・Persuasion 等の領域)
Anthropic は 「能力向上と安全性向上の両立」 を Sonnet 5 のリリース文で繰り返し強調しており、企業導入の安全性要件にも対応しやすい設計。
戦略文脈 — Anthropic IPO と Opus / Sonnet 階層の融解
Sonnet 5 のリリースは Anthropic の IPO 直前 のタイミングで行われ、戦略的意図が読み取れます。
(1) 階層境界の意図的な破壊: Sonnet 5 が Opus 4.6 をベンチで超え、Opus 4.8 にも肉薄。「中位モデル」という階層概念自体を再定義し、Opus 階層の高価格モデルを購入していた企業を Sonnet 5 に誘導 することで 量で稼ぐ モデル。
(2) 価格戦争への参戦: GPT-5.5 / Gemini 3.1 Pro / Opus 4.8 すべてを下回る価格設定。Introductory $2/$10 は 生産ワークロードの大量採用 を目論み、Standard $3/$15 への移行で ロックイン。
(3) IPO に向けた使用量メトリクス強化: agentic 能力を「table stakes」化することで、API トークン消費量とアクティブエージェント数 を主要 KPI に。IPO 価格評価で使用量成長率が重要視される中での戦略的価格設定。
(4) Claude Code のデフォルト化: 開発者ワークフローの中心である Claude Code で Sonnet 5 をデフォルトにすることで、開発者経済圏の支配 を強化。
競合との位置付け(2026年7月時点)
| モデル | 公開 | SWE-bench Verified | Output 価格 / 1M | Context |
|---|---|---|---|---|
| Claude Sonnet 5 | 2026-06-30 | 92.4% | $10(Intro)/ $15(Std) | 1M |
| Claude Opus 4.8 | 2026 春 | ~95% 前後(推定) | $75 | 1M |
| Claude Opus 4.6 | 2025 末 | 80.8% | $75 | 200K |
| Kimi K2.7-Code | 2026-06-12 | vendor 公開なし(社内ベンチのみ) | $4.00 | 256K |
| Ornith-1.0-397B | 2026-06-26 | 82.4%(vendor) | OSS(セルフホスト) | 262K |
| GPT-5.5 | 2026 春 | 推定 88-92% | $25-30 帯 | 256K |
| Gemini 3.1 Pro | 2026 春 | 推定 85-90% | $15-20 帯 | 2M |
Sonnet 5 の差別化軸:
1. コーディング・computer use ベンチで価格帯内ベスト
2. 1M context + 128K output の長文処理
3. Claude エコシステム統合(Claude Code・Cursor iOS・Managed Agents)
4. Introductory 価格は今後 2 ヶ月の試用期間
想定ユースケース
- 大量 API 呼び出しのコード生成・レビュー(CI / CD パイプライン統合)
- 長文ドキュメント要約・解析(1M context を活用、契約書・論文・コードベース)
- multi-step エージェント自動化(タスク完遂率向上)
- computer use 自動化(OSWorld 88.3%、ブラウザ・ターミナル操作)
- 科学・研究用途(GPQA 96.2%、PhD レベル質問)
- Claude Code でのデフォルト開発体験
留保・批判的考察
(1) 新トークナイザによる実質コスト増: 単価は表示通りだが、同じ文章が ~1.0–1.35× トークン換算される影響で実利用コストは見かけより高くなる可能性。
(2) Introductory 価格の期限: $2/$10 は 2026年8月31日まで。9月以降は $3/$15 に上がるため、長期予算計画では Standard 価格を前提に。
(3) 第三者ベンチの独立検証は今後: 92.4% / 88.3% / 96.2% / 84.7% は Anthropic 公表値。公開リーダーボード(SWE-bench 公式・LMSys Arena 等)での独立スコア収束は今後数週間。
(4) Opus 4.8 完全代替ではない: 一部の最難問領域では Opus 4.8 が依然優位の可能性。Anthropic も「ほとんどのユースケース」と表現しており、極端な高負荷タスクは Opus 4.8 検証推奨。
(5) Claude Agent SDK Credit billing 撤回 precedent: 2026 年の Anthropic は課金体系・価格を複数回変更しており、Introductory 期間中・期間後の価格運用変更リスクは残る。
まとめ
Claude Sonnet 5 は 2026年6月30日に Anthropic が公開した、中位 Sonnet 階層が Opus 階層を凌駕する異例の世代モデル。SWE-bench Verified 92.4%・OSWorld-Verified 88.3%・GPQA Diamond 96.2%・ARC-AGI-2 84.7% の 公表値での圧倒的指標、1M context + 128K output、Introductory $2/$10 の戦略的価格設定、Claude Free / Pro / Claude Code Pro のデフォルト化 という4つの軸で、Anthropic IPO 直前の市場ポジション確立を目指す重要リリース。
業界へのインパクト:
1. Opus / Sonnet 階層の境界融解 — 「中位モデル」という階層概念の再定義
2. agentic 能力が table stakes 化 — 競争は cost / 信頼性 / 自律完遂に移行
3. 価格戦争の激化 — GPT-5.5 / Gemini 3.1 Pro / OSS 勢への直接的圧力
4. Claude Code 経由の開発者囲い込み — エコシステム支配の強化
留保: 新トークナイザによる実質コスト、Introductory 期限(8/31)、第三者独立ベンチ収束待ち、極端高負荷では Opus 4.8 検証要、Anthropic 課金体系変更履歴。導入検討時には自社ユースケースでの PoC 実測が必須です。
本トピックに関連する弊社サービスとして AI コンサルティング・OpenClaw 導入セットアップ・ソフトウェア開発 があります。Claude Sonnet 5 を含む LLM 切替・API 移行・エージェント自動化の検討は お問い合わせ からどうぞ。
References
公式(一次ソース):
- Anthropic 公式リリース — Introducing Claude Sonnet 5
- System Card — Claude Sonnet 5(2026-06-30)
- Claude Platform Docs — Models overview
- @ClaudeDevs 公式アナウンス
第三者報道・解説:
- TechCrunch — Anthropic launches Claude Sonnet 5 as a cheaper way to run agents
- VentureBeat — Anthropic launches Claude Sonnet 5 at a steep discount
- The New Stack — Sonnet 5 closes the gap with Opus 4.8
- The Decoder — Sonnet 5 closes the gap to the pricier Opus model series
- TheNextWeb — Anthropic launches Claude Sonnet 5, a cheaper agent model
- DEV Community — Benchmarks are kind of insane
- Nerova — Pricing, availability, and AI agent implications
- WaveSpeed Blog — Everything we know about Fennec
- Lushbinary — Developer guide & benchmarks
- Requesty — Anthropic claude-sonnet-5 API pricing
- OpenRouter — claude-sonnet-5-20260630
関連コラム:
- Cursor iOS — Composer 2.5 + モバイルエージェント
- Kimi K2.7-Code
- Ornith-1.0 — DeepReinforce agentic coding LLM
- Grok Build — xAI CLI コーディングエージェント
- Sakana Fugu — オーケストレーション・モデル
- Claude Code Agent View — 並列オーケストレーション
- agmsg — CLI エージェント間メッセージング
- Loop Engineering — Maker-Checker パラダイム
- Claude Agent SDK Credit billing 撤回
- ローカル LLM 2026年6月最新版
お気軽にご相談ください
お問い合わせ