株式会社オブライト
AI2026-07-01

Claude Sonnet 5 徹底解説 — 2026年6月30日 Anthropic 公開、SWE-bench Verified 92.4% で Opus 4.6 超え(+12pt) 1M コンテキスト・OSWorld-Verified 88.3% で人間専門家 72.4% を上回り、GPQA Diamond 96.2% / ARC-AGI-2 84.7% Introductory $2/$10 per M tok(〜2026-08-31)→ Standard $3/$15、Claude Free / Pro / Claude Code Pro のデフォルトモデルに

Anthropic が2026年6月30日に Claude Sonnet 5 を公開 しました(公式リリース / System Card / TechCrunch 報道 / VentureBeat)。

最大の衝撃: 中位 Sonnet 階層で Opus 4.6 を 12pt 抜きSWE-bench Verified 92.4%(Opus 4.6 は 80.8%)、OSWorld-Verified 88.3%(人間専門家ベースライン 72.4% を 15.9pt 上回る)、GPQA Diamond 96.2%Gemini 3.1 Pro 94.3% 超え)、ARC-AGI-2 84.7%(Gemini 3.1 Pro 77.1% を 7.6pt 超え)。1M トークンのコンテキストウィンドウ(Opus 4.8 と同等)、出力上限 128K。

Anthropic IPO 直前の戦略的価格設定: 2026年8月31日まで Introductory $2 / M input・$10 / M output、以降 Standard $3 / $15Sonnet 4.6 同価格)。新トークナイザで同入力が ~1.0–1.35× トークン換算 される点に注意。GPT-5.5・Gemini 3.1 Pro・自社 Opus 4.8 全てを価格で下回る。

default model 化: claude.ai Free / Pro のデフォルトClaude Code Pro のデフォルト、API(claude-sonnet-5)/ AWS Bedrock / Vertex AI / Managed Agents 全配信チャネルで利用可。Zapier の Daniel Shepard 氏「以前の Sonnet は途中で止まっていたタスクを Sonnet 5 は最後まで完了させる」と評価(TechCrunch)。

安全性: Sonnet 4.6 より misalignment 低下、サイバー攻撃safeguards デフォルト有効、Firefox 脆弱性作成テストで 0.0% 成功率(実用悪用不可)。

戦略文脈: agentic 能力は業界で「table stakes」化、競争軸は コスト効率・信頼性・自律タスク完遂 に移行。Anthropic は IPO に向けて Opus 階層と Sonnet 階層の境界を破壊して 大量生産ワークロードでのコストパフォーマンス を取りに来た格好。


TL;DR — Claude Sonnet 5 を一言で

Anthropic が2026年6月30日に Claude Sonnet 5 を公開 しました(公式リリース / System Card)。

4 つの要点:

1. 中位 Sonnet 階層が Opus 4.6 を 12pt 超え — SWE-bench Verified 92.4%(Opus 4.6 = 80.8%)
2. 1M トークンコンテキスト + 128K 出力上限 — Opus 4.8 と同等の context、大規模リポジトリ・長文ドキュメントを 1 リクエストで扱える
3. Introductory $2 / $10 per M tok(〜2026-08-31)→ Standard $3 / $15 — Opus 4.8 / GPT-5.5 / Gemini 3.1 Pro を価格で下回り、agentic 用途のコスト破壊
4. claude.ai Free / Pro / Claude Code Pro のデフォルトモデル、API・AWS Bedrock・Vertex AI・Managed Agents 全配信

本コラムは Kimi K2.7-CodeOrnith-1.0Grok BuildCursor iOS と並ぶ「2026年6〜7月のフロンティアモデル戦線」整理として位置づけられます。

リリース概要

項目内容
公開日2026年6月30日
モデル文字列claude-sonnet-5(バリエーション: claude-sonnet-5-20260630
開発元Anthropic
コンテキストウィンドウ1,000,000 トークン(1M)
最大出力128K トークン
デフォルト化claude.ai Free / Pro、Claude Code Pro
配信チャネルAPI / AWS Bedrock / Google Vertex AI / Managed Agents
トークナイザ新トークナイザ — 同じ入力が ~1.0–1.35× トークン換算(料金影響あり)

ベンチマーク — 中位モデルが上位を超える異例の世代

ベンチマークSonnet 5Sonnet 4.6Opus 4.6比較対象
SWE-bench Verified(agentic coding)92.4%80.8%Opus 4.6 を +11.6pt
OSWorld-Verified(computer use)88.3%78.5%人間専門家 72.4% を +15.9pt
GPQA Diamond(PhD レベル科学)96.2%Gemini 3.1 Pro 94.3% を +1.9pt
ARC-AGI-2(抽象推論)84.7%Gemini 3.1 Pro 77.1% を +7.6pt
Agentic coding 集計(The New Stack)63.2%58.1%Sonnet 4.6 比 +5.1pt
Humanity's Last Exam(w/tools 参考値)46.8%Sonnet 5 は更に向上の見込み

最も注目すべき指標は SWE-bench Verified 92.4%。これまで 80% 超は Opus 階層と OpenAI / Google フラッグシップに限られていた 領域で、Sonnet 階層が +12pt の単一世代ジャンプ を達成。同価格帯の競合(GPT-5.5・Gemini 3.1 Pro)と比較しても優位、Opus 4.8(推定 ~95% 前後)に肉薄する。

OSWorld-Verified(computer use・ブラウザ・ターミナル操作)88.3%人間専門家を 15.9 ポイント上回る という業界初の領域。コンピュータ操作系エージェント(Sakana FuguClaude Code Agent View)の実用性が一段階引き上げられた。

GPQA Diamond 96.2% は Gemini 3.1 Pro(94.3%)の記録を更新ARC-AGI-2 84.7% も同様に Gemini 3.1 Pro 77.1% を 7.6pt 上回り、抽象推論で Anthropic がトップに復帰した。

価格 — Introductory $2/$10、Standard $3/$15

Introductory pricing(〜2026年8月31日):

- Input: $2.00 / 1M tokens
- Output: $10.00 / 1M tokens

Standard pricing(2026年9月1日以降):

- Input: $3.00 / 1M tokens
- Output: $15.00 / 1M tokens
(Sonnet 4.6 と同価格)

重要な caveat — 新トークナイザ: Sonnet 5 は 新しいトークナイザを採用 しており、同じ入力テキストが 約 1.0〜1.35 倍のトークン数 にカウントされます。実質コストは表示単価より高くなる可能性があり、実利用量で要見積もり

競合との価格比較(公開情報ベース、output token / 1M):

- Claude Sonnet 5: $10(Introductory)/ $15(Standard)
- Claude Opus 4.8: $75(output)
- GPT-5.5: $25-30 帯(推定)
- Gemini 3.1 Pro: $15-20 帯(推定)
- Gemini 3.5 Flash: $0.30-0.50(より安いが性能は別軸)
- Kimi K2.7-Code: $4.00(Modified MIT、ただしデータ越境論点)

Sonnet 5 は GPT-5.5 / Gemini 3.1 Pro / 自社 Opus 4.8 全てを価格で下回りつつ、ベンチで肉薄/超える という業界の力学を破壊する価格設定。

Agentic 能力 — 「途中で止まらない」エージェント

Anthropic は Sonnet 5 を 「最も agentic な Sonnet」 と位置づけており、以下の改善を強調:

- 長時間タスクの完遂率向上 — 以前の Sonnet が途中で停止していた multi-step タスクを最後まで完了
- ツール使用の安定性 — ブラウザ・ターミナル・ファイル操作の信頼性
- 計画立案 — 複雑タスクの自律的なステップ分解
- デバッグ能力 — エラー認識と自己修正

Zapier の Daniel Shepard 氏のコメント(TechCrunch 報道):

> "earlier Sonnet versions would stall on multi-step tasks — Sonnet 5 finishes them end-to-end."
> (以前の Sonnet バージョンは複数ステップタスクで止まることがあったが、Sonnet 5 は最後まで完走する)

この改善が automation プラットフォーム業界全体での Sonnet 5 採用 を加速させる見込み。agmsg / Cursor iOS / Claude Code 等の multi-agent 連携ワークフロー で、Sonnet 5 をデフォルトモデルにする組織が増えると予想されます。

安全性 — Misalignment 低下と cyber safeguards

System Card 公開値の主な安全性指標:

- Misaligned behavior rates が Sonnet 4.6 より明確に低下
- Cyber safeguards がデフォルトで有効化
- Firefox 脆弱性作成テストで 0.0% 成功率 — 実用可能なエクスプロイトを生成できない(攻撃利用への安全性)
- 構造化されたリスク評価(Bio・Chem・Cyber・Persuasion 等の領域)

Anthropic は 「能力向上と安全性向上の両立」 を Sonnet 5 のリリース文で繰り返し強調しており、企業導入の安全性要件にも対応しやすい設計。

戦略文脈 — Anthropic IPO と Opus / Sonnet 階層の融解

Sonnet 5 のリリースは Anthropic の IPO 直前 のタイミングで行われ、戦略的意図が読み取れます。

(1) 階層境界の意図的な破壊: Sonnet 5 が Opus 4.6 をベンチで超え、Opus 4.8 にも肉薄。「中位モデル」という階層概念自体を再定義し、Opus 階層の高価格モデルを購入していた企業を Sonnet 5 に誘導 することで 量で稼ぐ モデル。

(2) 価格戦争への参戦: GPT-5.5 / Gemini 3.1 Pro / Opus 4.8 すべてを下回る価格設定。Introductory $2/$10 は 生産ワークロードの大量採用 を目論み、Standard $3/$15 への移行で ロックイン

(3) IPO に向けた使用量メトリクス強化: agentic 能力を「table stakes」化することで、API トークン消費量とアクティブエージェント数 を主要 KPI に。IPO 価格評価で使用量成長率が重要視される中での戦略的価格設定。

(4) Claude Code のデフォルト化: 開発者ワークフローの中心である Claude Code で Sonnet 5 をデフォルトにすることで、開発者経済圏の支配 を強化。

競合との位置付け(2026年7月時点)

モデル公開SWE-bench VerifiedOutput 価格 / 1MContext
Claude Sonnet 52026-06-3092.4%$10(Intro)/ $15(Std)1M
Claude Opus 4.82026 春~95% 前後(推定)$751M
Claude Opus 4.62025 末80.8%$75200K
Kimi K2.7-Code2026-06-12vendor 公開なし(社内ベンチのみ)$4.00256K
Ornith-1.0-397B2026-06-2682.4%(vendor)OSS(セルフホスト)262K
GPT-5.52026 春推定 88-92%$25-30 帯256K
Gemini 3.1 Pro2026 春推定 85-90%$15-20 帯2M

Sonnet 5 の差別化軸:

1. コーディング・computer use ベンチで価格帯内ベスト
2. 1M context + 128K output の長文処理
3. Claude エコシステム統合(Claude Code・Cursor iOS・Managed Agents)
4. Introductory 価格は今後 2 ヶ月の試用期間

想定ユースケース

- 大量 API 呼び出しのコード生成・レビュー(CI / CD パイプライン統合)
- 長文ドキュメント要約・解析(1M context を活用、契約書・論文・コードベース)
- multi-step エージェント自動化(タスク完遂率向上)
- computer use 自動化(OSWorld 88.3%、ブラウザ・ターミナル操作)
- 科学・研究用途(GPQA 96.2%、PhD レベル質問)
- Claude Code でのデフォルト開発体験

留保・批判的考察

(1) 新トークナイザによる実質コスト増: 単価は表示通りだが、同じ文章が ~1.0–1.35× トークン換算される影響で実利用コストは見かけより高くなる可能性。

(2) Introductory 価格の期限: $2/$10 は 2026年8月31日まで。9月以降は $3/$15 に上がるため、長期予算計画では Standard 価格を前提に。

(3) 第三者ベンチの独立検証は今後: 92.4% / 88.3% / 96.2% / 84.7% は Anthropic 公表値。公開リーダーボード(SWE-bench 公式・LMSys Arena 等)での独立スコア収束は今後数週間。

(4) Opus 4.8 完全代替ではない: 一部の最難問領域では Opus 4.8 が依然優位の可能性。Anthropic も「ほとんどのユースケース」と表現しており、極端な高負荷タスクは Opus 4.8 検証推奨。

(5) Claude Agent SDK Credit billing 撤回 precedent: 2026 年の Anthropic は課金体系・価格を複数回変更しており、Introductory 期間中・期間後の価格運用変更リスクは残る。

まとめ

Claude Sonnet 5 は 2026年6月30日に Anthropic が公開した、中位 Sonnet 階層が Opus 階層を凌駕する異例の世代モデル。SWE-bench Verified 92.4%・OSWorld-Verified 88.3%・GPQA Diamond 96.2%・ARC-AGI-2 84.7% の 公表値での圧倒的指標1M context + 128K outputIntroductory $2/$10 の戦略的価格設定、Claude Free / Pro / Claude Code Pro のデフォルト化 という4つの軸で、Anthropic IPO 直前の市場ポジション確立を目指す重要リリース。

業界へのインパクト:

1. Opus / Sonnet 階層の境界融解 — 「中位モデル」という階層概念の再定義
2. agentic 能力が table stakes 化 — 競争は cost / 信頼性 / 自律完遂に移行
3. 価格戦争の激化 — GPT-5.5 / Gemini 3.1 Pro / OSS 勢への直接的圧力
4. Claude Code 経由の開発者囲い込み — エコシステム支配の強化

留保: 新トークナイザによる実質コスト、Introductory 期限(8/31)、第三者独立ベンチ収束待ち、極端高負荷では Opus 4.8 検証要、Anthropic 課金体系変更履歴。導入検討時には自社ユースケースでの PoC 実測が必須です。

本トピックに関連する弊社サービスとして AI コンサルティングOpenClaw 導入セットアップソフトウェア開発 があります。Claude Sonnet 5 を含む LLM 切替・API 移行・エージェント自動化の検討は お問い合わせ からどうぞ。

References

公式(一次ソース):
- Anthropic 公式リリース — Introducing Claude Sonnet 5
- System Card — Claude Sonnet 5(2026-06-30)
- Claude Platform Docs — Models overview
- @ClaudeDevs 公式アナウンス

第三者報道・解説:
- TechCrunch — Anthropic launches Claude Sonnet 5 as a cheaper way to run agents
- VentureBeat — Anthropic launches Claude Sonnet 5 at a steep discount
- The New Stack — Sonnet 5 closes the gap with Opus 4.8
- The Decoder — Sonnet 5 closes the gap to the pricier Opus model series
- TheNextWeb — Anthropic launches Claude Sonnet 5, a cheaper agent model
- DEV Community — Benchmarks are kind of insane
- Nerova — Pricing, availability, and AI agent implications
- WaveSpeed Blog — Everything we know about Fennec
- Lushbinary — Developer guide & benchmarks
- Requesty — Anthropic claude-sonnet-5 API pricing
- OpenRouter — claude-sonnet-5-20260630

関連コラム:
- Cursor iOS — Composer 2.5 + モバイルエージェント
- Kimi K2.7-Code
- Ornith-1.0 — DeepReinforce agentic coding LLM
- Grok Build — xAI CLI コーディングエージェント
- Sakana Fugu — オーケストレーション・モデル
- Claude Code Agent View — 並列オーケストレーション
- agmsg — CLI エージェント間メッセージング
- Loop Engineering — Maker-Checker パラダイム
- Claude Agent SDK Credit billing 撤回
- ローカル LLM 2026年6月最新版

お気軽にご相談ください

お問い合わせ