株式会社オブライト
AI2026-06-26

Ornith-1.0 徹底解説 — DeepReinforce が2026年6月26日に公開した『エージェント・コーディング特化』MIT オープン重みモデルファミリー 3 サイズ(9B Dense / 35B MoE / 397B MoE)、すべて262K context・Qwen 3.5 + Gemma 4 ベース・BF16 + FP8 + GGUF 提供 SWE-Bench Verified 82.4%(397B)/ 75.6%(35B)/ 69.4%(9B)、SWE-Bench Pro 62.2% で OSS 同サイズ帯 SOTA を主張 強化学習で『解の rollout だけでなく scaffolding 自体も最適化』する self-improving 設計 OpenHands / Hermes Agent / OpenClaw 互換、ClawEval ベンチも公開 — オブライト OpenClaw 利用者にも直接関係

DeepReinforce が2026年6月26日に Ornith-1.0 を公開 しました(公式 / Hugging Face コレクション)。エージェント・コーディング特化のオープンウェイト LLM ファミリー で、MIT ライセンス・地域制限なし

3つのサイズで提供: Ornith-1.0-9B(dense、~19GB BF16)/ Ornith-1.0-35B(MoE)/ Ornith-1.0-397B(MoE、Qwen 3.5 + Gemma 4 ベース)。全サイズが 262K contextFP8 / GGUF 量子化版も同時公開

ベンチマーク(公式公表値、同サイズ帯 OSS の SOTA を主張):

| ベンチ | 9B | 35B | 397B |
|---|---|---|---|
| SWE-Bench Verified | 69.4% | 75.6% | 82.4% |
| SWE-Bench Pro | 42.9% | 50.4% | 62.2% |
| SWE-Bench Multilingual | — | — | 78.9% |
| Terminal-Bench 2.1 | 43.1% | 64.2% | 77.5-78.2% |
| NL2Repo | 27.2% | 34.6% | 48.2% |
| ClawEval | — | — | 77.1% |

設計思想: 強化学習で 解の rollout だけでなく scaffolding(解を導くエージェント構造)自体も最適化。自己改善型の agentic coding という、Loop Engineering の Maker-Checker 思想と地続きのアプローチ。`<think>...</think>` ブロックでの推論モード、function calling、ツールユース対応。

配布・運用: vLLM ≥ 0.19.1 / SGLang ≥ 0.5.9 / Transformers ≥ 5.8.1 / Docker + llama.cpp / Ollama。OpenAI 互換 API エンドポイント。9B は単一 80GB GPU で十分、35B / 397B は 8×80GB GPU ノード(TP=8)。エージェントフレームワーク互換: OpenHands / Hermes Agent / [OpenClaw](../services/openclaw-setup)(弊社サービスとも直接互換、ClawEval も同社で公式評価対象に)。

DeepReinforce の系譜: 強化学習を CUDA / 行列演算 / コード生成に応用してきた研究組織。過去に CUDA-L1(3.12× 平均 GPU 高速化)CUDA-L2(cuBLAS 超え HGEMM カーネル)IterX(MLSys 2026 NVIDIA Track) を発表。Ornith-1.0 はその RL ノウハウを LLM 自己改善に応用した最新作。

位置付け: 同時期の Kimi K2.7-Code(1T MoE / 32B active)・GLM-5.2(Intelligence Index v4.1 で 51 点 / OSS 首位)と並び、2026年6月の agentic coding OSS 戦線の最先端。中国系(Kimi / GLM)に対し MIT ライセンス + 地域制限なし + 米国ベースの法務調達優位 が差別化。

留保事項: ベンチは DeepReinforce 自社公表値で、第三者リーダーボードでの独立検証は2026年6月26日時点で未確立。ベンダーレポート段階の数値である点には留意が必要です。

本コラム末尾に Ornith-1.0 を含むローカル LLM の導入・PoC・継続保守の3つの問い合わせ導線 を設置しています。


TL;DR — Ornith-1.0 を一言で

DeepReinforce が2026年6月26日に Ornith-1.0 を公開 しました(公式 / Hugging Face コレクション)。

4つの要点:

1. エージェント・コーディング特化のオープンウェイト LLM — MIT ライセンス・地域制限なし 2. 3つのサイズで同時公開 — 9B Dense / 35B MoE / 397B MoE、すべて 262K context、FP8 / GGUF 量子化版も同時提供 3. SWE-Bench Verified 82.4%(397B)/ 75.6%(35B)/ 69.4%(9B)、SWE-Bench Pro 62.2%、Terminal-Bench 2.1 77.5-78.2% — 同サイズ帯 OSS の SOTA を主張 4. 設計の特異点: 強化学習で解の rollout だけでなく scaffolding 自体も最適化 する self-improving 思想。OpenHands / Hermes Agent / OpenClaw 互換、ClawEval(OpenClaw 評価)も公式ベンチに含む

本コラムは Kimi K2.7-Code 解説ローカル LLM 2026年6月最新版Loop Engineeringと並ぶ「2026年6月の agentic coding 戦線」整理として位置づけられます。

リリース概要 — 3 サイズ同時投入

項目内容
公開日2026年6月26日(Hugging Face コレクション、本日付)
開発元DeepReinforce`deepreinforce-ai`
ライセンスMIT(全モデル、商用・改変・再配布完全自由、地域制限なし)
モデルOrnith-1.0-9B(dense)/ Ornith-1.0-35B(MoE)/ Ornith-1.0-397B(MoE)
量子化版397B FP8 / 35B GGUF / 9B GGUF を同時公開
ベースQwen 3.5(35B / 397B)+ Gemma 4(397B のみ)
コンテキスト長262,144 トークン(全サイズ共通)
データ型BF16(FP8 / GGUF 量子化版あり)
推論モード`<think>...</think>` ブロック対応
ツール対応OpenAI 互換 function calling

DeepReinforce とは — 強化学習の研究組織

DeepReinforce は強化学習を GPU 最適化・コード生成に応用してきた研究組織です。これまでに以下を発表:

- [CUDA-L1](https://github.com/deepreinforce-ai/CUDA-L1): Contrastive Reinforcement Learning による CUDA 最適化フレームワーク。250 種の実 GPU タスクで平均 3.12× の高速化 を達成(MarkTechPost 2025-08) - [CUDA-L2](https://github.com/deepreinforce-ai/CUDA-L2): 行列乗算で cuBLAS を上回る RL ベースカーネル合成、RTX 3090 HGEMM(2026-03)・A100 HGEMM(2026-01)リリース - IterX: MLSys 2026 NVIDIA Track で H100 / B200 上の大幅高速化を発表 - Ornith-1.0(本コラム対象): 同じ RL ノウハウを LLM 自己改善 に応用した最新作

強化学習を実問題で動かす」という一貫したテーマがあり、Ornith-1.0 もその文脈で読むのが正確です。

設計思想 — 「解 + scaffolding」を同時最適化する self-improving 設計

Ornith-1.0 の最大の特徴は 強化学習で「解の rollout」だけでなく「scaffolding(その解を導くエージェント構造そのもの)」も最適化 する点です。

通常の RLHF / RLAIF は、入力 → 出力 という1対1の最適化です。Ornith-1.0 は 入力 → エージェントが取る思考・ツール呼び出し系列(scaffolding)→ 最終出力 という一連のプロセス全体を強化学習で最適化します。これにより:

- モデル自身が「どう問題を分解するか」を学習 - どのツールをいつ呼ぶか、その判断戦略が モデル重みに埋め込まれる - エージェントフレームワーク(OpenHands / Hermes / OpenClaw)の上で動かしたとき、scaffolding が学習されているため少ない試行で正解に到達

これは Loop Engineering の Maker-Checker パターンモデルの学習目的関数に内在化 したアプローチで、論理的には Sakana Fugu のオーケストレーション・モデル とは別系統(Fugu は複数 LLM を束ねる、Ornith は単一 LLM の中で scaffolding を学習)です。

ベンチマーク — 公式公表値(同サイズ帯 OSS の SOTA を主張)

ベンチマーク9B Dense35B MoE397B MoE
SWE-Bench Verified69.4%75.6%82.4%
SWE-Bench Pro42.9%50.4%62.2%
SWE-Bench Multilingual78.9%
Terminal-Bench 2.1 (Terminus-2)43.1%64.2%77.5-78.2%
NL2Repo27.2%34.6%48.2%
ClawEval77.1%

注目点:

- 397B が SWE-Bench Verified で 82.4% — オープンウェイトでこの水準は Kimi K2.7-Code(公式未公開、ベンダー独自ベンチのみ)と並ぶトップ層 - 35B(中規模 MoE)が SWE-Bench Verified 75.6% — 商用 Claude Opus 4.8 / GPT-5.5 系と肉薄、コンシューマ GPU 構成(8×RTX 5090 等)で動かせる現実解 - 9B Dense が SWE-Bench Verified 69.4%単一 80GB GPU(あるいは RTX 5090 1枚)で動作する frontier-class エージェント - ClawEval 77.1%(397B)OpenClaw は弊社サービスでもあり、DeepReinforce が独立にこれを評価対象に入れている事実は agentic coding 業界での OpenClaw の存在感を示す

重要な caveat: これらは DeepReinforce 自社公表値 です。SWE-Bench 公式リーダーボード(swebench.com)への登録や、Aider polyglot / LiveCodeBench / Cognition FrontierCode などへの第三者検証スコアは2026年6月26日時点で未確立。本格採用前には PoC で自社案件・自社コードでの実測 が必須です。

アーキテクチャ詳細

Ornith-1.0-9B(Dense):

- 9B dense transformer - 262K context、BF16 - 単一 80GB GPU(VRAM 使用量 ~19GB)または RTX 5090 1枚(32GB)で十分な余裕 - Tensor parallelism でマルチ GPU シャーディングも可 - 個人開発者・SMB の現実的な本番運用候補

Ornith-1.0-35B(MoE):

- 35B Mixture-of-Experts - Qwen 3.5 ベース - 262K context、BF16 - 推奨 8×80GB GPU ノード(TP=8)、ただし量子化版(GGUF)でより軽い構成も可 - ベンチ上は Qwen 3.5-35B / Gemma 4-31B を上回ると公式主張 - 中堅企業の本番運用の本命

Ornith-1.0-397B(MoE):

- 397B Mixture-of-Experts - Qwen 3.5 + Gemma 4 ベース のハイブリッド構成 - 262K context、BF16(FP8 量子化版あり) - 推奨 8×80GB GPU ノード(TP=8) - SWE-Bench Verified 82.4% / SWE-Bench Pro 62.2% / Terminal-Bench 2.1 77.5-78.2% で同サイズ帯 OSS SOTA 主張 - 大企業・本格 SI 案件の旗艦

配布・運用環境

推奨推論エンジン:

- vLLM ≥ 0.19.1 — production GPU サーバ - SGLang ≥ 0.5.9 — エージェントワークフロー(RadixAttention) - Transformers ≥ 5.8.1 — Hugging Face 標準 - Docker + llama.cpp — CPU / エッジ、GGUF 量子化版で - Ollama — 個人 PoC

API 互換性: OpenAI 互換エンドポイント(vLLM / SGLang サーバ経由)。既存ツール(Claude Code、Cursor、Aider、Cline、cmux 等)に設定変更だけで切り替え可能

エージェントフレームワーク互換性 — OpenClaw を含む

Ornith-1.0 は以下のエージェントフレームワークと公式互換です:

- OpenHands - Hermes Agent(Nous Research) - [OpenClaw](../services/openclaw-setup)(弊社サービス、ClawEval が DeepReinforce 公式ベンチに含まれている)

OpenClaw 利用者への影響: 弊社の OpenClaw 導入セットアップ を既に運用中のお客様は、Ornith-1.0 を OpenClaw のバックエンド LLM として組み込むことが技術的に容易です。LLM API キーの差し替え + 推論エンドポイント設定で切り替えでき、ベンチマーク上は ClawEval 77.1% の性能を引き出せます(397B の場合)。

弊社のOpenClaw 月額保守プラン(ライト ¥9,800 / スタンダード ¥19,800 / プレミアム ¥49,800)には LLM モデル切り替え・API 仕様変更対応 が含まれているため、Ornith-1.0 への移行サポートも対象です。

競合との位置付け(2026年6月時点 agentic coding OSS)

モデルサイズライセンスSWE-Bench Verified公式公開ベンチ開発元国
Ornith-1.0-397B397B MoEMIT82.4%(自社主張)SWE-Bench / Terminal-Bench / NL2Repo / ClawEval米国(推定)
Kimi K2.7-Code1T MoE / 32B activeModified MIT公式 SWE-bench 未公開Kimi 内製ベンチのみ中国
GLM-5.2TBDMITTBDIntelligence Index v4.1 = 51中国
MiniMax M3TBDOSSSWE-Bench Pro 59.0%中国
Claude Opus 4.8クローズド商用~75-80%フロンティア米国
GPT-5.5クローズド商用~80%フロンティア米国

Ornith-1.0 の差別化軸:

1. 3 サイズ完備の MIT オープン重み — 個人 PC(9B)から大企業(397B)まで同じ系譜でカバー 2. 米国(推定)ベースで地域制限なし — 中国系(Kimi / GLM / MiniMax)のデータ越境論点を回避 3. 公開ベンチが SWE-Bench 標準スイートを含む — Kimi K2.7-Code が自社ベンチのみだったのと対照的に、第三者比較がしやすい構造 4. scaffolding の RL 最適化 — エージェント運用での実プロジェクト性能で差をつける独自設計 5. ClawEval を公式評価対象に — OpenClaw 利用者には強い親和性

想定ユースケース

- 大規模リファクタリング・複数ファイル PR(35B / 397B) - CI / CD 内での自動コードレビュー(9B / 35B) - エージェント型 SWE-Bench スタイル課題(全サイズ) - Terminal エージェント(cline / Aider / cmux 経由、35B 推奨) - マルチターン・ツール呼び出しワークフロー - OpenClaw / OpenHands / Hermes での agentic コーディング - オンプレ・データ主権重視の SI 案件

オブライト視点 — Ornith-1.0 をどう活用するか

弊社の AI コンサルティング で日本企業に推奨する組み込み方:

ステップ1: 9B モデルで PoC(¥198K〜の導入診断)

Ornith-1.0-9B は RTX 5090 1枚 / 単一 80GB GPU で動くため、PoC 段階の機材コストが極小。社内のコーディング業務(CI 自動レビュー / 内部 SDK ドキュメント Q&A / バグトリアージ)に対して、自社データで実測 ROI を取るのが最速。

ステップ2: 35B / 397B で本番(¥498K〜の PoC ビルド、¥5M〜のフル SI)

35B は 8×H100 / B200 ノード 1台 で本番可、397B は B200 ×4 / H200 ×8 級。国内 GPU クラウド(さくら高火力 / GMO GPU / AWS Tokyo p5)または Intec ¥5M〜の SIパターンで導入。

ステップ3: OpenClaw + Ornith で agentic 業務自動化([OpenClaw 月額保守](../services/openclaw-setup) ¥9.8K-¥49.8K)

弊社 OpenClaw 利用者は、Ornith-1.0 をバックエンド LLM に組み込むことで ClawEval 77.1% 級の性能を社内エージェントで実現可能。LLM 切り替え + プロンプト最適化 は OpenClaw 月額保守の対象作業です。

公式に確認できなかった事項

2026年6月26日時点で本調査で確認できなかった項目:

- DeepReinforce 本社所在地・経営陣・資金調達状況(公式 deep-reinforce.com が WebFetch で 403 を返したため Web 経由では未確認) - API SaaS 提供の有無・価格(オンプレ / セルフホストのみ想定の可能性) - 日本リージョン専用エンドポイントの有無 - SWE-Bench 公式リーダーボード([swebench.com](https://www.swebench.com/))への登録予定 - Cognition FrontierCode / Aider polyglot / LiveCodeBench / BigCodeBench での第三者スコア - VS Code / JetBrains / IntelliJ 公式拡張の有無 - AIME / GPQA-Diamond / MMLU など汎用ベンチでの性能(コーディング特化のため意図的に公開していない可能性)

本格採用前に Hugging Face コレクションDeepReinforce GitHub で最新情報を再確認してください。

Ornith-1.0 を含むローカル LLM のご相談 — 3つの導線

Ornith-1.0 やその他のローカル LLM の 導入・PoC ビルド・継続保守 について、オブライトでは以下の3つのご相談導線をご用意しています。

① 導入相談・要件定義(¥198,000〜)

「自社案件に Ornith-1.0 が合うか」「9B / 35B / 397B のどれを選ぶべきか」「OpenClaw との組み合わせは?」を1〜2週間でレポート化します。

② オンプレ構築・PoC(¥498,000〜)

Ornith-1.0 を選定モデルに PoC 構築・ファインチューン・推論エンジン設定・量子化 までを4〜8週間で。GPU 選定(RTX 5090 単体〜B200 ノード)と ROI 実測 も含めて。

③ 継続保守・運用(¥9,800〜¥80,000/月)

Ornith-1.0 の モデル更新追従・量子化見直し・新リリース評価・KPI モニタ・OpenClaw バックエンド切り替え を継続支援します。

- OpenClaw 構築済みの方: OpenClaw 月額保守 — ライト ¥9,800/月 / スタンダード ¥19,800/月 / プレミアム ¥49,800/月 - AI コンサル継続支援: ライト ¥30,000/月(月1回定例 + 新モデル追従)/ スタンダード ¥80,000/月(月2回 + プロンプト改善 + 月次 KPI レビュー + 研修・FAQ 更新)/ プレミアム要相談

FAQ

Q1. Ornith-1.0 は商用利用 OK ですか? A. MIT ライセンスなので完全自由。商用利用・改変・再配布すべて OK、地域制限なし、追加契約不要。ベース重み(Qwen 3.5 / Gemma 4)の派生ライセンス義務だけ最終確認推奨です。

Q2. 中国系 OSS(Kimi K2.7-Code / GLM-5.2)との違いは? A. データ越境論点が違います。Ornith-1.0 は MIT・地域制限なしで、API 経由のデータが中国に渡るリスクなし。性能は SWE-Bench Verified で Kimi K2.7-Code と同等水準(397B で 82.4%)、米国(推定)ベース + MIT という調達上の優位が明確。詳細は Kimi K2.7-Code コラムを参照。

Q3. RTX 5090 1枚で動かせますか? A. 9B は余裕で動作(BF16 で ~19GB、32GB VRAM の半分)。35B は GGUF 量子化版(Q4 / Q5)なら 1枚で動作するが、262K フル context では複数枚推奨。397B は 1枚では不可、8×80GB GPU ノード or 4×B200 が必要。

Q4. SWE-Bench Verified 82.4% は本当に Claude Opus 4.8 を超えますか? A. DeepReinforce 自社公表値です。SWE-Bench 公式リーダーボード未登録、独立検証なし。本番採用前に自社案件・自社コードでの PoC 実測が必須。ただ、9B でも 69.4% を主張している点は注目に値します。

Q5. OpenClaw との組み合わせは? A. 公式互換 で、ClawEval が DeepReinforce 公式ベンチに含まれます(397B で 77.1%)。弊社の OpenClaw 導入セットアップ ですでに運用中のお客様は、LLM バックエンドを Ornith-1.0 に切り替えるだけで導入可能。[OpenClaw 月額保守](../services/openclaw-setup) で切り替え作業を代行できます

Q6. 9B / 35B / 397B のどれを選べばよいですか? A. 個人開発者 / SMB の PoC = 9B、中堅企業の本番 = 35B、大企業のフラッグシップ = 397B。9B は単一 GPU で動くため PoC コスト極小、35B はパフォーマンス/コストバランス最良、397B は SOTA 性能だが 8×H100 級が必要。

Q7. scaffolding の RL 最適化は他モデルと何が違いますか? A. モデル重み内に「エージェント運用の経験」が埋め込まれている イメージ。同じプロンプトでも、Ornith-1.0 は "どう問題を分解するか・どのツールをいつ呼ぶか" を学習済みなので、scaffolding なしの bare LLM より少ない試行で正解到達が期待できます。ただし数値裏付けは DeepReinforce 公式の主張ベースで、第三者比較データはまだ限定的です。

Q8. CUDA-L1 / CUDA-L2 / IterX との関係は? A. 同じ RL 系の研究組織からの成果物。CUDA-L1 / L2 は GPU 最適化、IterX は推論最適化、Ornith-1.0 は LLM そのものの自己改善 という階層構造。DeepReinforce の RL ノウハウが LLM 領域に応用された最新作と読むのが正確。

まとめ

Ornith-1.0 は 2026年6月26日に DeepReinforce が公開した、エージェント・コーディング特化の MIT オープン重み LLM ファミリー です。9B / 35B / 397B の3サイズ、すべて 262K context、強化学習で scaffolding 自体を最適化する self-improving 設計、SWE-Bench Verified 82.4%(397B 自社主張)。

最大の意義: 1. MIT + 地域制限なし — 中国系 OSS のデータ越境論点を完全回避 2. 3 サイズ完備 — 個人 PC から大企業フラッグシップまで一気通貫 3. 公開ベンチが SWE-Bench 標準 — Kimi K2.7-Code の自社ベンチ独占と対照的 4. ClawEval 公式評価 — オブライト OpenClaw 利用者には特に親和性が高い

留保: ベンチは自社公表値、独立検証は今後。本格採用には PoC 必須。

オブライトでは、Ornith-1.0 を含むローカル LLM の導入相談・PoC 構築・OpenClaw 連携を一気通貫で支援しています。本コラム末尾の3つの導線からお気軽にご相談ください。

References

公式(一次ソース): - DeepReinforce 公式 Ornith-1.0 ページ - Hugging Face コレクション Ornith-1.0 - Hugging Face: Ornith-1.0-9B - Hugging Face: Ornith-1.0-35B - Hugging Face: Ornith-1.0-397B - DeepReinforce GitHub - DeepReinforce X (@deep_reinforce) DeepReinforce 過去成果物: - CUDA-L1 GitHub - CUDA-L2 GitHub - CUDA-L1 Blog (公式) - MarkTechPost — CUDA-L1 紹介記事 ベンチマーク: - SWE-Bench 公式 関連弊社コラム: - Kimi K2.7-Code(同期間競合) - ローカル LLM 2026年6月最新版 - Loop Engineering — scaffolding 概念の母体 - Sakana Fugu — 別系統のオーケストレーション - Cognition FrontierCode ベンチマーク - PLaMo 3.0 Prime - Claude Code Agent View - Cursor Automations - cmux(Manaflow) - Liquid AI 日本語特化2モデル 弊社サービス: - AI コンサルティング - OpenClaw 導入セットアップ - ソフトウェア開発 お問い合わせ: - AI 導入相談・PoC - OpenClaw + Ornith 連携・継続保守 - カスタム開発・SI 注記: DeepReinforce の本社所在地、経営陣、資金調達、API SaaS 提供、日本リージョン専用エンドポイント、SWE-Bench 公式リーダーボード登録、Cognition FrontierCode / Aider polyglot / LiveCodeBench での第三者スコア、VS Code / JetBrains 公式拡張、AIME / GPQA-Diamond / MMLU での汎用性能は2026年6月26日時点で公式・第三者ともに確認できず。本格採用前に Hugging Face モデルカードと DeepReinforce GitHub で最新情報を再確認してください。

お気軽にご相談ください

お問い合わせ