コラム
Ornith-1.0 徹底解説 — DeepReinforce が2026年6月26日に公開した『エージェント・コーディング特化』MIT オープン重みモデルファミリー 3 サイズ（9B Dense / 35B MoE / 397B MoE）、すべて262K context・Qwen 3.5 + Gemma 4 ベース・BF16 + FP8 + GGUF 提供 SWE-Bench Verified 82.4%（397B）/ 75.6%（35B）/ 69.4%（9B）、SWE-Bench Pro 62.2% で OSS 同サイズ帯 SOTA を主張強化学習で『解の rollout だけでなく scaffolding 自体も最適化』する self-improving 設計 OpenHands / Hermes Agent / OpenClaw 互換、ClawEval ベンチも公開 — オブライト OpenClaw 利用者にも直接関係

AI2026-06-26

Ornith-1.0 徹底解説 — DeepReinforce が2026年6月26日に公開した『エージェント・コーディング特化』MIT オープン重みモデルファミリー 3 サイズ（9B Dense / 35B MoE / 397B MoE）、すべて262K context・Qwen 3.5 + Gemma 4 ベース・BF16 + FP8 + GGUF 提供 SWE-Bench Verified 82.4%（397B）/ 75.6%（35B）/ 69.4%（9B）、SWE-Bench Pro 62.2% で OSS 同サイズ帯 SOTA を主張強化学習で『解の rollout だけでなく scaffolding 自体も最適化』する self-improving 設計 OpenHands / Hermes Agent / OpenClaw 互換、ClawEval ベンチも公開 — オブライト OpenClaw 利用者にも直接関係

DeepReinforce が2026年6月26日に Ornith-1.0 を公開 しました（公式 / Hugging Face コレクション）。エージェント・コーディング特化のオープンウェイト LLM ファミリー で、MIT ライセンス・地域制限なし。

3つのサイズで提供: Ornith-1.0-9B（dense、~19GB BF16）/ Ornith-1.0-35B（MoE）/ Ornith-1.0-397B（MoE、Qwen 3.5 + Gemma 4 ベース）。全サイズが 262K context、FP8 / GGUF 量子化版も同時公開。

ベンチマーク（公式公表値、同サイズ帯 OSS の SOTA を主張）:

| ベンチ | 9B | 35B | 397B |
|---|---|---|---|
| SWE-Bench Verified | 69.4% | 75.6% | 82.4% |
| SWE-Bench Pro | 42.9% | 50.4% | 62.2% |
| SWE-Bench Multilingual | — | — | 78.9% |
| Terminal-Bench 2.1 | 43.1% | 64.2% | 77.5-78.2% |
| NL2Repo | 27.2% | 34.6% | 48.2% |
| ClawEval | — | — | 77.1% |

設計思想: 強化学習で 解の rollout だけでなく scaffolding（解を導くエージェント構造）自体も最適化。自己改善型の agentic coding という、Loop Engineering の Maker-Checker 思想と地続きのアプローチ。`<think>...</think>` ブロックでの推論モード、function calling、ツールユース対応。

配布・運用: vLLM ≥ 0.19.1 / SGLang ≥ 0.5.9 / Transformers ≥ 5.8.1 / Docker + llama.cpp / Ollama。OpenAI 互換 API エンドポイント。9B は単一 80GB GPU で十分、35B / 397B は 8×80GB GPU ノード（TP=8）。エージェントフレームワーク互換: OpenHands / Hermes Agent / [OpenClaw](../services/openclaw-setup)（弊社サービスとも直接互換、ClawEval も同社で公式評価対象に）。

DeepReinforce の系譜: 強化学習を CUDA / 行列演算 / コード生成に応用してきた研究組織。過去に CUDA-L1（3.12× 平均 GPU 高速化）・CUDA-L2（cuBLAS 超え HGEMM カーネル）・IterX（MLSys 2026 NVIDIA Track） を発表。Ornith-1.0 はその RL ノウハウを LLM 自己改善に応用した最新作。

位置付け: 同時期の Kimi K2.7-Code（1T MoE / 32B active）・GLM-5.2（Intelligence Index v4.1 で 51 点 / OSS 首位）と並び、2026年6月の agentic coding OSS 戦線の最先端。中国系（Kimi / GLM）に対し MIT ライセンス + 地域制限なし + 米国ベースの法務調達優位 が差別化。

留保事項: ベンチは DeepReinforce 自社公表値で、第三者リーダーボードでの独立検証は2026年6月26日時点で未確立。ベンダーレポート段階の数値である点には留意が必要です。

本コラム末尾に Ornith-1.0 を含むローカル LLM の導入・PoC・継続保守の3つの問い合わせ導線 を設置しています。

Ornith DeepReinforce Open Weight Agentic Coding RL MIT License SWE-Bench OpenClaw

TL;DR — Ornith-1.0 を一言で

DeepReinforce が2026年6月26日に Ornith-1.0 を公開 しました（公式 / Hugging Face コレクション）。

4つの要点:

1. エージェント・コーディング特化のオープンウェイト LLM — MIT ライセンス・地域制限なし 2. 3つのサイズで同時公開 — 9B Dense / 35B MoE / 397B MoE、すべて 262K context、FP8 / GGUF 量子化版も同時提供 3. SWE-Bench Verified 82.4%（397B）/ 75.6%（35B）/ 69.4%（9B）、SWE-Bench Pro 62.2%、Terminal-Bench 2.1 77.5-78.2% — 同サイズ帯 OSS の SOTA を主張 4. 設計の特異点: 強化学習で解の rollout だけでなく scaffolding 自体も最適化 する self-improving 思想。OpenHands / Hermes Agent / OpenClaw 互換、ClawEval（OpenClaw 評価）も公式ベンチに含む

本コラムは Kimi K2.7-Code 解説・ローカル LLM 2026年6月最新版・Loop Engineeringと並ぶ「2026年6月の agentic coding 戦線」整理として位置づけられます。

リリース概要 — 3 サイズ同時投入

項目	内容
公開日	2026年6月26日（Hugging Face コレクション、本日付）
開発元	DeepReinforce（`deepreinforce-ai`）
ライセンス	MIT（全モデル、商用・改変・再配布完全自由、地域制限なし）
モデル	Ornith-1.0-9B（dense）/ Ornith-1.0-35B（MoE）/ Ornith-1.0-397B（MoE）
量子化版	397B FP8 / 35B GGUF / 9B GGUF を同時公開
ベース	Qwen 3.5（35B / 397B）+ Gemma 4（397B のみ）
コンテキスト長	262,144 トークン（全サイズ共通）
データ型	BF16（FP8 / GGUF 量子化版あり）
推論モード	`<think>...</think>` ブロック対応
ツール対応	OpenAI 互換 function calling

DeepReinforce とは — 強化学習の研究組織

DeepReinforce は強化学習を GPU 最適化・コード生成に応用してきた研究組織です。これまでに以下を発表:

- [CUDA-L1](https://github.com/deepreinforce-ai/CUDA-L1): Contrastive Reinforcement Learning による CUDA 最適化フレームワーク。250 種の実 GPU タスクで平均 3.12× の高速化 を達成（MarkTechPost 2025-08） - [CUDA-L2](https://github.com/deepreinforce-ai/CUDA-L2): 行列乗算で cuBLAS を上回る RL ベースカーネル合成、RTX 3090 HGEMM（2026-03）・A100 HGEMM（2026-01）リリース - IterX: MLSys 2026 NVIDIA Track で H100 / B200 上の大幅高速化を発表 - Ornith-1.0（本コラム対象）: 同じ RL ノウハウを LLM 自己改善 に応用した最新作

「強化学習を実問題で動かす」という一貫したテーマがあり、Ornith-1.0 もその文脈で読むのが正確です。

設計思想 — 「解 + scaffolding」を同時最適化する self-improving 設計

Ornith-1.0 の最大の特徴は 強化学習で「解の rollout」だけでなく「scaffolding（その解を導くエージェント構造そのもの）」も最適化 する点です。

通常の RLHF / RLAIF は、入力 → 出力 という1対1の最適化です。Ornith-1.0 は 入力 → エージェントが取る思考・ツール呼び出し系列（scaffolding）→ 最終出力 という一連のプロセス全体を強化学習で最適化します。これにより:

- モデル自身が「どう問題を分解するか」を学習 - どのツールをいつ呼ぶか、その判断戦略がモデル重みに埋め込まれる - エージェントフレームワーク（OpenHands / Hermes / OpenClaw）の上で動かしたとき、scaffolding が学習されているため少ない試行で正解に到達

これは Loop Engineering の Maker-Checker パターンを モデルの学習目的関数に内在化 したアプローチで、論理的には Sakana Fugu のオーケストレーション・モデルとは別系統（Fugu は複数 LLM を束ねる、Ornith は単一 LLM の中で scaffolding を学習）です。

ベンチマーク — 公式公表値（同サイズ帯 OSS の SOTA を主張）

ベンチマーク	9B Dense	35B MoE	397B MoE
SWE-Bench Verified	69.4%	75.6%	82.4%
SWE-Bench Pro	42.9%	50.4%	62.2%
SWE-Bench Multilingual	—	—	78.9%
Terminal-Bench 2.1 (Terminus-2)	43.1%	64.2%	77.5-78.2%
NL2Repo	27.2%	34.6%	48.2%
ClawEval	—	—	77.1%

注目点:

- 397B が SWE-Bench Verified で 82.4% — オープンウェイトでこの水準は Kimi K2.7-Code（公式未公開、ベンダー独自ベンチのみ）と並ぶトップ層 - 35B（中規模 MoE）が SWE-Bench Verified 75.6% — 商用 Claude Opus 4.8 / GPT-5.5 系と肉薄、コンシューマ GPU 構成（8×RTX 5090 等）で動かせる現実解 - 9B Dense が SWE-Bench Verified 69.4% — 単一 80GB GPU（あるいは RTX 5090 1枚）で動作する frontier-class エージェント - ClawEval 77.1%（397B） — OpenClaw は弊社サービスでもあり、DeepReinforce が独立にこれを評価対象に入れている事実は agentic coding 業界での OpenClaw の存在感を示す

重要な caveat: これらは DeepReinforce 自社公表値 です。SWE-Bench 公式リーダーボード（swebench.com）への登録や、Aider polyglot / LiveCodeBench / Cognition FrontierCode などへの第三者検証スコアは2026年6月26日時点で未確立。本格採用前には PoC で自社案件・自社コードでの実測 が必須です。

アーキテクチャ詳細

Ornith-1.0-9B（Dense）:

- 9B dense transformer - 262K context、BF16 - 単一 80GB GPU（VRAM 使用量 ~19GB）または RTX 5090 1枚（32GB）で十分な余裕 - Tensor parallelism でマルチ GPU シャーディングも可 - 個人開発者・SMB の現実的な本番運用候補

Ornith-1.0-35B（MoE）:

- 35B Mixture-of-Experts - Qwen 3.5 ベース - 262K context、BF16 - 推奨 8×80GB GPU ノード（TP=8）、ただし量子化版（GGUF）でより軽い構成も可 - ベンチ上は Qwen 3.5-35B / Gemma 4-31B を上回ると公式主張 - 中堅企業の本番運用の本命

Ornith-1.0-397B（MoE）:

- 397B Mixture-of-Experts - Qwen 3.5 + Gemma 4 ベース のハイブリッド構成 - 262K context、BF16（FP8 量子化版あり） - 推奨 8×80GB GPU ノード（TP=8） - SWE-Bench Verified 82.4% / SWE-Bench Pro 62.2% / Terminal-Bench 2.1 77.5-78.2% で同サイズ帯 OSS SOTA 主張 - 大企業・本格 SI 案件の旗艦

配布・運用環境

推奨推論エンジン:

- vLLM ≥ 0.19.1 — production GPU サーバ - SGLang ≥ 0.5.9 — エージェントワークフロー（RadixAttention） - Transformers ≥ 5.8.1 — Hugging Face 標準 - Docker + llama.cpp — CPU / エッジ、GGUF 量子化版で - Ollama — 個人 PoC

API 互換性: OpenAI 互換エンドポイント（vLLM / SGLang サーバ経由）。既存ツール（Claude Code、Cursor、Aider、Cline、cmux 等）に設定変更だけで切り替え可能。

エージェントフレームワーク互換性 — OpenClaw を含む

Ornith-1.0 は以下のエージェントフレームワークと公式互換です:

- OpenHands - Hermes Agent（Nous Research） - [OpenClaw](../services/openclaw-setup)（弊社サービス、ClawEval が DeepReinforce 公式ベンチに含まれている)

OpenClaw 利用者への影響: 弊社の OpenClaw 導入セットアップを既に運用中のお客様は、Ornith-1.0 を OpenClaw のバックエンド LLM として組み込むことが技術的に容易です。LLM API キーの差し替え + 推論エンドポイント設定で切り替えでき、ベンチマーク上は ClawEval 77.1% の性能を引き出せます（397B の場合）。

弊社のOpenClaw 月額保守プラン（ライト ¥9,800 / スタンダード ¥19,800 / プレミアム ¥49,800）には LLM モデル切り替え・API 仕様変更対応 が含まれているため、Ornith-1.0 への移行サポートも対象です。

競合との位置付け（2026年6月時点 agentic coding OSS）

モデル	サイズ	ライセンス	SWE-Bench Verified	公式公開ベンチ	開発元国
Ornith-1.0-397B	397B MoE	MIT	82.4%（自社主張）	SWE-Bench / Terminal-Bench / NL2Repo / ClawEval	米国（推定）
Kimi K2.7-Code	1T MoE / 32B active	Modified MIT	公式 SWE-bench 未公開	Kimi 内製ベンチのみ	中国
GLM-5.2	TBD	MIT	TBD	Intelligence Index v4.1 = 51	中国
MiniMax M3	TBD	OSS	—	SWE-Bench Pro 59.0%	中国
Claude Opus 4.8	クローズド	商用	~75-80%	フロンティア	米国
GPT-5.5	クローズド	商用	~80%	フロンティア	米国

Ornith-1.0 の差別化軸:

1. 3 サイズ完備の MIT オープン重み — 個人 PC（9B）から大企業（397B）まで同じ系譜でカバー 2. 米国（推定）ベースで地域制限なし — 中国系（Kimi / GLM / MiniMax）のデータ越境論点を回避 3. 公開ベンチが SWE-Bench 標準スイートを含む — Kimi K2.7-Code が自社ベンチのみだったのと対照的に、第三者比較がしやすい構造 4. scaffolding の RL 最適化 — エージェント運用での実プロジェクト性能で差をつける独自設計 5. ClawEval を公式評価対象に — OpenClaw 利用者には強い親和性

想定ユースケース

- 大規模リファクタリング・複数ファイル PR（35B / 397B） - CI / CD 内での自動コードレビュー（9B / 35B） - エージェント型 SWE-Bench スタイル課題（全サイズ） - Terminal エージェント（cline / Aider / cmux 経由、35B 推奨） - マルチターン・ツール呼び出しワークフロー - OpenClaw / OpenHands / Hermes での agentic コーディング - オンプレ・データ主権重視の SI 案件

オブライト視点 — Ornith-1.0 をどう活用するか

弊社の AI コンサルティングで日本企業に推奨する組み込み方:

ステップ1: 9B モデルで PoC（¥198K〜の導入診断）

Ornith-1.0-9B は RTX 5090 1枚 / 単一 80GB GPU で動くため、PoC 段階の機材コストが極小。社内のコーディング業務（CI 自動レビュー / 内部 SDK ドキュメント Q&A / バグトリアージ）に対して、自社データで実測 ROI を取るのが最速。

ステップ2: 35B / 397B で本番（¥498K〜の PoC ビルド、¥5M〜のフル SI）

35B は 8×H100 / B200 ノード 1台 で本番可、397B は B200 ×4 / H200 ×8 級。国内 GPU クラウド（さくら高火力 / GMO GPU / AWS Tokyo p5）または Intec ¥5M〜の SIパターンで導入。

ステップ3: OpenClaw + Ornith で agentic 業務自動化（[OpenClaw 月額保守](../services/openclaw-setup) ¥9.8K-¥49.8K）

弊社 OpenClaw 利用者は、Ornith-1.0 をバックエンド LLM に組み込むことで ClawEval 77.1% 級の性能を社内エージェントで実現可能。LLM 切り替え + プロンプト最適化 は OpenClaw 月額保守の対象作業です。

公式に確認できなかった事項

2026年6月26日時点で本調査で確認できなかった項目:

- DeepReinforce 本社所在地・経営陣・資金調達状況（公式 deep-reinforce.com が WebFetch で 403 を返したため Web 経由では未確認） - API SaaS 提供の有無・価格（オンプレ / セルフホストのみ想定の可能性） - 日本リージョン専用エンドポイントの有無 - SWE-Bench 公式リーダーボード（[swebench.com](https://www.swebench.com/)）への登録予定 - Cognition FrontierCode / Aider polyglot / LiveCodeBench / BigCodeBench での第三者スコア - VS Code / JetBrains / IntelliJ 公式拡張の有無 - AIME / GPQA-Diamond / MMLU など汎用ベンチでの性能（コーディング特化のため意図的に公開していない可能性）

本格採用前に Hugging Face コレクションと DeepReinforce GitHub で最新情報を再確認してください。

Ornith-1.0 を含むローカル LLM のご相談 — 3つの導線

Ornith-1.0 やその他のローカル LLM の 導入・PoC ビルド・継続保守 について、オブライトでは以下の3つのご相談導線をご用意しています。

① 導入相談・要件定義（¥198,000〜）

「自社案件に Ornith-1.0 が合うか」「9B / 35B / 397B のどれを選ぶべきか」「OpenClaw との組み合わせは？」を1〜2週間でレポート化します。

👉 導入相談のお問い合わせ（AI コンサルティング）

② オンプレ構築・PoC（¥498,000〜）

Ornith-1.0 を選定モデルに PoC 構築・ファインチューン・推論エンジン設定・量子化 までを4〜8週間で。GPU 選定（RTX 5090 単体〜B200 ノード）と ROI 実測 も含めて。

👉 PoC 構築・本番 SI のお問い合わせ

③ 継続保守・運用（¥9,800〜¥80,000/月）

Ornith-1.0 の モデル更新追従・量子化見直し・新リリース評価・KPI モニタ・OpenClaw バックエンド切り替え を継続支援します。

- OpenClaw 構築済みの方: OpenClaw 月額保守 — ライト ¥9,800/月 / スタンダード ¥19,800/月 / プレミアム ¥49,800/月 - AI コンサル継続支援: ライト ¥30,000/月（月1回定例 + 新モデル追従）/ スタンダード ¥80,000/月（月2回 + プロンプト改善 + 月次 KPI レビュー + 研修・FAQ 更新）/ プレミアム要相談

👉 継続保守のお問い合わせ（OpenClaw 保守）

FAQ

Q1. Ornith-1.0 は商用利用 OK ですか？ A. MIT ライセンスなので完全自由。商用利用・改変・再配布すべて OK、地域制限なし、追加契約不要。ベース重み（Qwen 3.5 / Gemma 4）の派生ライセンス義務だけ最終確認推奨です。

Q2. 中国系 OSS（Kimi K2.7-Code / GLM-5.2）との違いは？ A. データ越境論点が違います。Ornith-1.0 は MIT・地域制限なしで、API 経由のデータが中国に渡るリスクなし。性能は SWE-Bench Verified で Kimi K2.7-Code と同等水準（397B で 82.4%）、米国（推定）ベース + MIT という調達上の優位が明確。詳細は Kimi K2.7-Code コラムを参照。

Q3. RTX 5090 1枚で動かせますか？ A. 9B は余裕で動作（BF16 で ~19GB、32GB VRAM の半分）。35B は GGUF 量子化版（Q4 / Q5）なら 1枚で動作するが、262K フル context では複数枚推奨。397B は 1枚では不可、8×80GB GPU ノード or 4×B200 が必要。

Q4. SWE-Bench Verified 82.4% は本当に Claude Opus 4.8 を超えますか？ A. DeepReinforce 自社公表値です。SWE-Bench 公式リーダーボード未登録、独立検証なし。本番採用前に自社案件・自社コードでの PoC 実測が必須。ただ、9B でも 69.4% を主張している点は注目に値します。

Q5. OpenClaw との組み合わせは？ A. 公式互換 で、ClawEval が DeepReinforce 公式ベンチに含まれます（397B で 77.1%）。弊社の OpenClaw 導入セットアップですでに運用中のお客様は、LLM バックエンドを Ornith-1.0 に切り替えるだけで導入可能。[OpenClaw 月額保守](../services/openclaw-setup) で切り替え作業を代行できます。

Q6. 9B / 35B / 397B のどれを選べばよいですか？ A. 個人開発者 / SMB の PoC = 9B、中堅企業の本番 = 35B、大企業のフラッグシップ = 397B。9B は単一 GPU で動くため PoC コスト極小、35B はパフォーマンス/コストバランス最良、397B は SOTA 性能だが 8×H100 級が必要。

Q7. scaffolding の RL 最適化は他モデルと何が違いますか？ A. モデル重み内に「エージェント運用の経験」が埋め込まれている イメージ。同じプロンプトでも、Ornith-1.0 は "どう問題を分解するか・どのツールをいつ呼ぶか" を学習済みなので、scaffolding なしの bare LLM より少ない試行で正解到達が期待できます。ただし数値裏付けは DeepReinforce 公式の主張ベースで、第三者比較データはまだ限定的です。

Q8. CUDA-L1 / CUDA-L2 / IterX との関係は？ A. 同じ RL 系の研究組織からの成果物。CUDA-L1 / L2 は GPU 最適化、IterX は推論最適化、Ornith-1.0 は LLM そのものの自己改善 という階層構造。DeepReinforce の RL ノウハウが LLM 領域に応用された最新作と読むのが正確。

まとめ

Ornith-1.0 は 2026年6月26日に DeepReinforce が公開した、エージェント・コーディング特化の MIT オープン重み LLM ファミリー です。9B / 35B / 397B の3サイズ、すべて 262K context、強化学習で scaffolding 自体を最適化する self-improving 設計、SWE-Bench Verified 82.4%（397B 自社主張）。

最大の意義: 1. MIT + 地域制限なし — 中国系 OSS のデータ越境論点を完全回避 2. 3 サイズ完備 — 個人 PC から大企業フラッグシップまで一気通貫 3. 公開ベンチが SWE-Bench 標準 — Kimi K2.7-Code の自社ベンチ独占と対照的 4. ClawEval 公式評価 — オブライト OpenClaw 利用者には特に親和性が高い

留保: ベンチは自社公表値、独立検証は今後。本格採用には PoC 必須。

オブライトでは、Ornith-1.0 を含むローカル LLM の導入相談・PoC 構築・OpenClaw 連携を一気通貫で支援しています。本コラム末尾の3つの導線からお気軽にご相談ください。

References

公式（一次ソース）: - DeepReinforce 公式 Ornith-1.0 ページ - Hugging Face コレクション Ornith-1.0 - Hugging Face: Ornith-1.0-9B - Hugging Face: Ornith-1.0-35B - Hugging Face: Ornith-1.0-397B - DeepReinforce GitHub - DeepReinforce X (@deep_reinforce) DeepReinforce 過去成果物: - CUDA-L1 GitHub - CUDA-L2 GitHub - CUDA-L1 Blog (公式) - MarkTechPost — CUDA-L1 紹介記事ベンチマーク: - SWE-Bench 公式関連弊社コラム: - Kimi K2.7-Code（同期間競合） - ローカル LLM 2026年6月最新版 - Loop Engineering — scaffolding 概念の母体 - Sakana Fugu — 別系統のオーケストレーション - Cognition FrontierCode ベンチマーク - PLaMo 3.0 Prime - Claude Code Agent View - Cursor Automations - cmux（Manaflow） - Liquid AI 日本語特化2モデル弊社サービス: - AI コンサルティング - OpenClaw 導入セットアップ - ソフトウェア開発お問い合わせ: - AI 導入相談・PoC - OpenClaw + Ornith 連携・継続保守 - カスタム開発・SI 注記: DeepReinforce の本社所在地、経営陣、資金調達、API SaaS 提供、日本リージョン専用エンドポイント、SWE-Bench 公式リーダーボード登録、Cognition FrontierCode / Aider polyglot / LiveCodeBench での第三者スコア、VS Code / JetBrains 公式拡張、AIME / GPQA-Diamond / MMLU での汎用性能は2026年6月26日時点で公式・第三者ともに確認できず。本格採用前に Hugging Face モデルカードと DeepReinforce GitHub で最新情報を再確認してください。

お気軽にご相談ください

お問い合わせ