Ornith-1.0 徹底解説 — DeepReinforce が2026年6月26日に公開した『エージェント・コーディング特化』MIT オープン重みモデルファミリー 3 サイズ(9B Dense / 35B MoE / 397B MoE)、すべて262K context・Qwen 3.5 + Gemma 4 ベース・BF16 + FP8 + GGUF 提供 SWE-Bench Verified 82.4%(397B)/ 75.6%(35B)/ 69.4%(9B)、SWE-Bench Pro 62.2% で OSS 同サイズ帯 SOTA を主張 強化学習で『解の rollout だけでなく scaffolding 自体も最適化』する self-improving 設計 OpenHands / Hermes Agent / OpenClaw 互換、ClawEval ベンチも公開 — オブライト OpenClaw 利用者にも直接関係
DeepReinforce が2026年6月26日に Ornith-1.0 を公開 しました(公式 / Hugging Face コレクション)。エージェント・コーディング特化のオープンウェイト LLM ファミリー で、MIT ライセンス・地域制限なし。
3つのサイズで提供: Ornith-1.0-9B(dense、~19GB BF16)/ Ornith-1.0-35B(MoE)/ Ornith-1.0-397B(MoE、Qwen 3.5 + Gemma 4 ベース)。全サイズが 262K context、FP8 / GGUF 量子化版も同時公開。
ベンチマーク(公式公表値、同サイズ帯 OSS の SOTA を主張):
| ベンチ | 9B | 35B | 397B |
|---|---|---|---|
| SWE-Bench Verified | 69.4% | 75.6% | 82.4% |
| SWE-Bench Pro | 42.9% | 50.4% | 62.2% |
| SWE-Bench Multilingual | — | — | 78.9% |
| Terminal-Bench 2.1 | 43.1% | 64.2% | 77.5-78.2% |
| NL2Repo | 27.2% | 34.6% | 48.2% |
| ClawEval | — | — | 77.1% |
設計思想: 強化学習で 解の rollout だけでなく scaffolding(解を導くエージェント構造)自体も最適化。自己改善型の agentic coding という、Loop Engineering の Maker-Checker 思想と地続きのアプローチ。`<think>...</think>` ブロックでの推論モード、function calling、ツールユース対応。
配布・運用: vLLM ≥ 0.19.1 / SGLang ≥ 0.5.9 / Transformers ≥ 5.8.1 / Docker + llama.cpp / Ollama。OpenAI 互換 API エンドポイント。9B は単一 80GB GPU で十分、35B / 397B は 8×80GB GPU ノード(TP=8)。エージェントフレームワーク互換: OpenHands / Hermes Agent / [OpenClaw](../services/openclaw-setup)(弊社サービスとも直接互換、ClawEval も同社で公式評価対象に)。
DeepReinforce の系譜: 強化学習を CUDA / 行列演算 / コード生成に応用してきた研究組織。過去に CUDA-L1(3.12× 平均 GPU 高速化)・CUDA-L2(cuBLAS 超え HGEMM カーネル)・IterX(MLSys 2026 NVIDIA Track) を発表。Ornith-1.0 はその RL ノウハウを LLM 自己改善に応用した最新作。
位置付け: 同時期の Kimi K2.7-Code(1T MoE / 32B active)・GLM-5.2(Intelligence Index v4.1 で 51 点 / OSS 首位)と並び、2026年6月の agentic coding OSS 戦線の最先端。中国系(Kimi / GLM)に対し MIT ライセンス + 地域制限なし + 米国ベースの法務調達優位 が差別化。
留保事項: ベンチは DeepReinforce 自社公表値で、第三者リーダーボードでの独立検証は2026年6月26日時点で未確立。ベンダーレポート段階の数値である点には留意が必要です。
本コラム末尾に Ornith-1.0 を含むローカル LLM の導入・PoC・継続保守の3つの問い合わせ導線 を設置しています。
TL;DR — Ornith-1.0 を一言で
DeepReinforce が2026年6月26日に Ornith-1.0 を公開 しました(公式 / Hugging Face コレクション)。
4つの要点:
1. エージェント・コーディング特化のオープンウェイト LLM — MIT ライセンス・地域制限なし 2. 3つのサイズで同時公開 — 9B Dense / 35B MoE / 397B MoE、すべて 262K context、FP8 / GGUF 量子化版も同時提供 3. SWE-Bench Verified 82.4%(397B)/ 75.6%(35B)/ 69.4%(9B)、SWE-Bench Pro 62.2%、Terminal-Bench 2.1 77.5-78.2% — 同サイズ帯 OSS の SOTA を主張 4. 設計の特異点: 強化学習で解の rollout だけでなく scaffolding 自体も最適化 する self-improving 思想。OpenHands / Hermes Agent / OpenClaw 互換、ClawEval(OpenClaw 評価)も公式ベンチに含む
本コラムは Kimi K2.7-Code 解説・ローカル LLM 2026年6月最新版・Loop Engineeringと並ぶ「2026年6月の agentic coding 戦線」整理として位置づけられます。
リリース概要 — 3 サイズ同時投入
| 項目 | 内容 |
|---|---|
| 公開日 | 2026年6月26日(Hugging Face コレクション、本日付) |
| 開発元 | DeepReinforce(`deepreinforce-ai`) |
| ライセンス | MIT(全モデル、商用・改変・再配布完全自由、地域制限なし) |
| モデル | Ornith-1.0-9B(dense)/ Ornith-1.0-35B(MoE)/ Ornith-1.0-397B(MoE) |
| 量子化版 | 397B FP8 / 35B GGUF / 9B GGUF を同時公開 |
| ベース | Qwen 3.5(35B / 397B)+ Gemma 4(397B のみ) |
| コンテキスト長 | 262,144 トークン(全サイズ共通) |
| データ型 | BF16(FP8 / GGUF 量子化版あり) |
| 推論モード | `<think>...</think>` ブロック対応 |
| ツール対応 | OpenAI 互換 function calling |
DeepReinforce とは — 強化学習の研究組織
DeepReinforce は強化学習を GPU 最適化・コード生成に応用してきた研究組織です。これまでに以下を発表:
- [CUDA-L1](https://github.com/deepreinforce-ai/CUDA-L1): Contrastive Reinforcement Learning による CUDA 最適化フレームワーク。250 種の実 GPU タスクで平均 3.12× の高速化 を達成(MarkTechPost 2025-08) - [CUDA-L2](https://github.com/deepreinforce-ai/CUDA-L2): 行列乗算で cuBLAS を上回る RL ベースカーネル合成、RTX 3090 HGEMM(2026-03)・A100 HGEMM(2026-01)リリース - IterX: MLSys 2026 NVIDIA Track で H100 / B200 上の大幅高速化を発表 - Ornith-1.0(本コラム対象): 同じ RL ノウハウを LLM 自己改善 に応用した最新作
「強化学習を実問題で動かす」という一貫したテーマがあり、Ornith-1.0 もその文脈で読むのが正確です。
設計思想 — 「解 + scaffolding」を同時最適化する self-improving 設計
Ornith-1.0 の最大の特徴は 強化学習で「解の rollout」だけでなく「scaffolding(その解を導くエージェント構造そのもの)」も最適化 する点です。
通常の RLHF / RLAIF は、入力 → 出力 という1対1の最適化です。Ornith-1.0 は 入力 → エージェントが取る思考・ツール呼び出し系列(scaffolding)→ 最終出力 という一連のプロセス全体を強化学習で最適化します。これにより:
- モデル自身が「どう問題を分解するか」を学習 - どのツールをいつ呼ぶか、その判断戦略が モデル重みに埋め込まれる - エージェントフレームワーク(OpenHands / Hermes / OpenClaw)の上で動かしたとき、scaffolding が学習されているため少ない試行で正解に到達
これは Loop Engineering の Maker-Checker パターン を モデルの学習目的関数に内在化 したアプローチで、論理的には Sakana Fugu のオーケストレーション・モデル とは別系統(Fugu は複数 LLM を束ねる、Ornith は単一 LLM の中で scaffolding を学習)です。
ベンチマーク — 公式公表値(同サイズ帯 OSS の SOTA を主張)
| ベンチマーク | 9B Dense | 35B MoE | 397B MoE |
|---|---|---|---|
| SWE-Bench Verified | 69.4% | 75.6% | 82.4% |
| SWE-Bench Pro | 42.9% | 50.4% | 62.2% |
| SWE-Bench Multilingual | — | — | 78.9% |
| Terminal-Bench 2.1 (Terminus-2) | 43.1% | 64.2% | 77.5-78.2% |
| NL2Repo | 27.2% | 34.6% | 48.2% |
| ClawEval | — | — | 77.1% |
注目点:
- 397B が SWE-Bench Verified で 82.4% — オープンウェイトでこの水準は Kimi K2.7-Code(公式未公開、ベンダー独自ベンチのみ)と並ぶトップ層 - 35B(中規模 MoE)が SWE-Bench Verified 75.6% — 商用 Claude Opus 4.8 / GPT-5.5 系と肉薄、コンシューマ GPU 構成(8×RTX 5090 等)で動かせる現実解 - 9B Dense が SWE-Bench Verified 69.4% — 単一 80GB GPU(あるいは RTX 5090 1枚)で動作する frontier-class エージェント - ClawEval 77.1%(397B) — OpenClaw は弊社サービスでもあり、DeepReinforce が独立にこれを評価対象に入れている事実は agentic coding 業界での OpenClaw の存在感を示す
重要な caveat: これらは DeepReinforce 自社公表値 です。SWE-Bench 公式リーダーボード(swebench.com)への登録や、Aider polyglot / LiveCodeBench / Cognition FrontierCode などへの第三者検証スコアは2026年6月26日時点で未確立。本格採用前には PoC で自社案件・自社コードでの実測 が必須です。
アーキテクチャ詳細
Ornith-1.0-9B(Dense):
- 9B dense transformer - 262K context、BF16 - 単一 80GB GPU(VRAM 使用量 ~19GB)または RTX 5090 1枚(32GB)で十分な余裕 - Tensor parallelism でマルチ GPU シャーディングも可 - 個人開発者・SMB の現実的な本番運用候補
Ornith-1.0-35B(MoE):
- 35B Mixture-of-Experts - Qwen 3.5 ベース - 262K context、BF16 - 推奨 8×80GB GPU ノード(TP=8)、ただし量子化版(GGUF)でより軽い構成も可 - ベンチ上は Qwen 3.5-35B / Gemma 4-31B を上回ると公式主張 - 中堅企業の本番運用の本命
Ornith-1.0-397B(MoE):
- 397B Mixture-of-Experts - Qwen 3.5 + Gemma 4 ベース のハイブリッド構成 - 262K context、BF16(FP8 量子化版あり) - 推奨 8×80GB GPU ノード(TP=8) - SWE-Bench Verified 82.4% / SWE-Bench Pro 62.2% / Terminal-Bench 2.1 77.5-78.2% で同サイズ帯 OSS SOTA 主張 - 大企業・本格 SI 案件の旗艦
配布・運用環境
推奨推論エンジン:
- vLLM ≥ 0.19.1 — production GPU サーバ - SGLang ≥ 0.5.9 — エージェントワークフロー(RadixAttention) - Transformers ≥ 5.8.1 — Hugging Face 標準 - Docker + llama.cpp — CPU / エッジ、GGUF 量子化版で - Ollama — 個人 PoC
API 互換性: OpenAI 互換エンドポイント(vLLM / SGLang サーバ経由)。既存ツール(Claude Code、Cursor、Aider、Cline、cmux 等)に設定変更だけで切り替え可能。
エージェントフレームワーク互換性 — OpenClaw を含む
Ornith-1.0 は以下のエージェントフレームワークと公式互換です:
- OpenHands - Hermes Agent(Nous Research) - [OpenClaw](../services/openclaw-setup)(弊社サービス、ClawEval が DeepReinforce 公式ベンチに含まれている)
OpenClaw 利用者への影響: 弊社の OpenClaw 導入セットアップ を既に運用中のお客様は、Ornith-1.0 を OpenClaw のバックエンド LLM として組み込むことが技術的に容易です。LLM API キーの差し替え + 推論エンドポイント設定で切り替えでき、ベンチマーク上は ClawEval 77.1% の性能を引き出せます(397B の場合)。
弊社のOpenClaw 月額保守プラン(ライト ¥9,800 / スタンダード ¥19,800 / プレミアム ¥49,800)には LLM モデル切り替え・API 仕様変更対応 が含まれているため、Ornith-1.0 への移行サポートも対象です。
競合との位置付け(2026年6月時点 agentic coding OSS)
| モデル | サイズ | ライセンス | SWE-Bench Verified | 公式公開ベンチ | 開発元国 |
|---|---|---|---|---|---|
| Ornith-1.0-397B | 397B MoE | MIT | 82.4%(自社主張) | SWE-Bench / Terminal-Bench / NL2Repo / ClawEval | 米国(推定) |
| Kimi K2.7-Code | 1T MoE / 32B active | Modified MIT | 公式 SWE-bench 未公開 | Kimi 内製ベンチのみ | 中国 |
| GLM-5.2 | TBD | MIT | TBD | Intelligence Index v4.1 = 51 | 中国 |
| MiniMax M3 | TBD | OSS | — | SWE-Bench Pro 59.0% | 中国 |
| Claude Opus 4.8 | クローズド | 商用 | ~75-80% | フロンティア | 米国 |
| GPT-5.5 | クローズド | 商用 | ~80% | フロンティア | 米国 |
Ornith-1.0 の差別化軸:
1. 3 サイズ完備の MIT オープン重み — 個人 PC(9B)から大企業(397B)まで同じ系譜でカバー 2. 米国(推定)ベースで地域制限なし — 中国系(Kimi / GLM / MiniMax)のデータ越境論点を回避 3. 公開ベンチが SWE-Bench 標準スイートを含む — Kimi K2.7-Code が自社ベンチのみだったのと対照的に、第三者比較がしやすい構造 4. scaffolding の RL 最適化 — エージェント運用での実プロジェクト性能で差をつける独自設計 5. ClawEval を公式評価対象に — OpenClaw 利用者には強い親和性
想定ユースケース
- 大規模リファクタリング・複数ファイル PR(35B / 397B) - CI / CD 内での自動コードレビュー(9B / 35B) - エージェント型 SWE-Bench スタイル課題(全サイズ) - Terminal エージェント(cline / Aider / cmux 経由、35B 推奨) - マルチターン・ツール呼び出しワークフロー - OpenClaw / OpenHands / Hermes での agentic コーディング - オンプレ・データ主権重視の SI 案件
オブライト視点 — Ornith-1.0 をどう活用するか
弊社の AI コンサルティング で日本企業に推奨する組み込み方:
ステップ1: 9B モデルで PoC(¥198K〜の導入診断)
Ornith-1.0-9B は RTX 5090 1枚 / 単一 80GB GPU で動くため、PoC 段階の機材コストが極小。社内のコーディング業務(CI 自動レビュー / 内部 SDK ドキュメント Q&A / バグトリアージ)に対して、自社データで実測 ROI を取るのが最速。
ステップ2: 35B / 397B で本番(¥498K〜の PoC ビルド、¥5M〜のフル SI)
35B は 8×H100 / B200 ノード 1台 で本番可、397B は B200 ×4 / H200 ×8 級。国内 GPU クラウド(さくら高火力 / GMO GPU / AWS Tokyo p5)または Intec ¥5M〜の SIパターンで導入。
ステップ3: OpenClaw + Ornith で agentic 業務自動化([OpenClaw 月額保守](../services/openclaw-setup) ¥9.8K-¥49.8K)
弊社 OpenClaw 利用者は、Ornith-1.0 をバックエンド LLM に組み込むことで ClawEval 77.1% 級の性能を社内エージェントで実現可能。LLM 切り替え + プロンプト最適化 は OpenClaw 月額保守の対象作業です。
公式に確認できなかった事項
2026年6月26日時点で本調査で確認できなかった項目:
- DeepReinforce 本社所在地・経営陣・資金調達状況(公式 deep-reinforce.com が WebFetch で 403 を返したため Web 経由では未確認) - API SaaS 提供の有無・価格(オンプレ / セルフホストのみ想定の可能性) - 日本リージョン専用エンドポイントの有無 - SWE-Bench 公式リーダーボード([swebench.com](https://www.swebench.com/))への登録予定 - Cognition FrontierCode / Aider polyglot / LiveCodeBench / BigCodeBench での第三者スコア - VS Code / JetBrains / IntelliJ 公式拡張の有無 - AIME / GPQA-Diamond / MMLU など汎用ベンチでの性能(コーディング特化のため意図的に公開していない可能性)
本格採用前に Hugging Face コレクション と DeepReinforce GitHub で最新情報を再確認してください。
Ornith-1.0 を含むローカル LLM のご相談 — 3つの導線
Ornith-1.0 やその他のローカル LLM の 導入・PoC ビルド・継続保守 について、オブライトでは以下の3つのご相談導線をご用意しています。
① 導入相談・要件定義(¥198,000〜)
「自社案件に Ornith-1.0 が合うか」「9B / 35B / 397B のどれを選ぶべきか」「OpenClaw との組み合わせは?」を1〜2週間でレポート化します。
② オンプレ構築・PoC(¥498,000〜)
Ornith-1.0 を選定モデルに PoC 構築・ファインチューン・推論エンジン設定・量子化 までを4〜8週間で。GPU 選定(RTX 5090 単体〜B200 ノード)と ROI 実測 も含めて。
③ 継続保守・運用(¥9,800〜¥80,000/月)
Ornith-1.0 の モデル更新追従・量子化見直し・新リリース評価・KPI モニタ・OpenClaw バックエンド切り替え を継続支援します。
- OpenClaw 構築済みの方: OpenClaw 月額保守 — ライト ¥9,800/月 / スタンダード ¥19,800/月 / プレミアム ¥49,800/月 - AI コンサル継続支援: ライト ¥30,000/月(月1回定例 + 新モデル追従)/ スタンダード ¥80,000/月(月2回 + プロンプト改善 + 月次 KPI レビュー + 研修・FAQ 更新)/ プレミアム要相談
FAQ
Q1. Ornith-1.0 は商用利用 OK ですか? A. MIT ライセンスなので完全自由。商用利用・改変・再配布すべて OK、地域制限なし、追加契約不要。ベース重み(Qwen 3.5 / Gemma 4)の派生ライセンス義務だけ最終確認推奨です。
Q2. 中国系 OSS(Kimi K2.7-Code / GLM-5.2)との違いは? A. データ越境論点が違います。Ornith-1.0 は MIT・地域制限なしで、API 経由のデータが中国に渡るリスクなし。性能は SWE-Bench Verified で Kimi K2.7-Code と同等水準(397B で 82.4%)、米国(推定)ベース + MIT という調達上の優位が明確。詳細は Kimi K2.7-Code コラムを参照。
Q3. RTX 5090 1枚で動かせますか? A. 9B は余裕で動作(BF16 で ~19GB、32GB VRAM の半分)。35B は GGUF 量子化版(Q4 / Q5)なら 1枚で動作するが、262K フル context では複数枚推奨。397B は 1枚では不可、8×80GB GPU ノード or 4×B200 が必要。
Q4. SWE-Bench Verified 82.4% は本当に Claude Opus 4.8 を超えますか? A. DeepReinforce 自社公表値です。SWE-Bench 公式リーダーボード未登録、独立検証なし。本番採用前に自社案件・自社コードでの PoC 実測が必須。ただ、9B でも 69.4% を主張している点は注目に値します。
Q5. OpenClaw との組み合わせは? A. 公式互換 で、ClawEval が DeepReinforce 公式ベンチに含まれます(397B で 77.1%)。弊社の OpenClaw 導入セットアップ ですでに運用中のお客様は、LLM バックエンドを Ornith-1.0 に切り替えるだけで導入可能。[OpenClaw 月額保守](../services/openclaw-setup) で切り替え作業を代行できます。
Q6. 9B / 35B / 397B のどれを選べばよいですか? A. 個人開発者 / SMB の PoC = 9B、中堅企業の本番 = 35B、大企業のフラッグシップ = 397B。9B は単一 GPU で動くため PoC コスト極小、35B はパフォーマンス/コストバランス最良、397B は SOTA 性能だが 8×H100 級が必要。
Q7. scaffolding の RL 最適化は他モデルと何が違いますか? A. モデル重み内に「エージェント運用の経験」が埋め込まれている イメージ。同じプロンプトでも、Ornith-1.0 は "どう問題を分解するか・どのツールをいつ呼ぶか" を学習済みなので、scaffolding なしの bare LLM より少ない試行で正解到達が期待できます。ただし数値裏付けは DeepReinforce 公式の主張ベースで、第三者比較データはまだ限定的です。
Q8. CUDA-L1 / CUDA-L2 / IterX との関係は? A. 同じ RL 系の研究組織からの成果物。CUDA-L1 / L2 は GPU 最適化、IterX は推論最適化、Ornith-1.0 は LLM そのものの自己改善 という階層構造。DeepReinforce の RL ノウハウが LLM 領域に応用された最新作と読むのが正確。
まとめ
Ornith-1.0 は 2026年6月26日に DeepReinforce が公開した、エージェント・コーディング特化の MIT オープン重み LLM ファミリー です。9B / 35B / 397B の3サイズ、すべて 262K context、強化学習で scaffolding 自体を最適化する self-improving 設計、SWE-Bench Verified 82.4%(397B 自社主張)。
最大の意義: 1. MIT + 地域制限なし — 中国系 OSS のデータ越境論点を完全回避 2. 3 サイズ完備 — 個人 PC から大企業フラッグシップまで一気通貫 3. 公開ベンチが SWE-Bench 標準 — Kimi K2.7-Code の自社ベンチ独占と対照的 4. ClawEval 公式評価 — オブライト OpenClaw 利用者には特に親和性が高い
留保: ベンチは自社公表値、独立検証は今後。本格採用には PoC 必須。
オブライトでは、Ornith-1.0 を含むローカル LLM の導入相談・PoC 構築・OpenClaw 連携を一気通貫で支援しています。本コラム末尾の3つの導線からお気軽にご相談ください。
References
公式(一次ソース): - DeepReinforce 公式 Ornith-1.0 ページ - Hugging Face コレクション Ornith-1.0 - Hugging Face: Ornith-1.0-9B - Hugging Face: Ornith-1.0-35B - Hugging Face: Ornith-1.0-397B - DeepReinforce GitHub - DeepReinforce X (@deep_reinforce) DeepReinforce 過去成果物: - CUDA-L1 GitHub - CUDA-L2 GitHub - CUDA-L1 Blog (公式) - MarkTechPost — CUDA-L1 紹介記事 ベンチマーク: - SWE-Bench 公式 関連弊社コラム: - Kimi K2.7-Code(同期間競合) - ローカル LLM 2026年6月最新版 - Loop Engineering — scaffolding 概念の母体 - Sakana Fugu — 別系統のオーケストレーション - Cognition FrontierCode ベンチマーク - PLaMo 3.0 Prime - Claude Code Agent View - Cursor Automations - cmux(Manaflow) - Liquid AI 日本語特化2モデル 弊社サービス: - AI コンサルティング - OpenClaw 導入セットアップ - ソフトウェア開発 お問い合わせ: - AI 導入相談・PoC - OpenClaw + Ornith 連携・継続保守 - カスタム開発・SI 注記: DeepReinforce の本社所在地、経営陣、資金調達、API SaaS 提供、日本リージョン専用エンドポイント、SWE-Bench 公式リーダーボード登録、Cognition FrontierCode / Aider polyglot / LiveCodeBench での第三者スコア、VS Code / JetBrains 公式拡張、AIME / GPQA-Diamond / MMLU での汎用性能は2026年6月26日時点で公式・第三者ともに確認できず。本格採用前に Hugging Face モデルカードと DeepReinforce GitHub で最新情報を再確認してください。
お気軽にご相談ください
お問い合わせ