株式会社オブライト
AI2026-06-22

Loop Engineering 徹底解説 — Prompt → Context → Harness の次に来た2026年6月の新潮流、Anthropic Boris Cherny の「もうプロンプトは書かない、ループを書く」発言で結晶化、Addy Osmani 命名・Maker/Checker・Worktrees・Skills・Durable State の6要素を Claude Code の Automations / Sub-agents 機能群で実装する設計学

2026年6月に Google Chrome DevRel リードの Addy Osmani"Loop Engineering" ブログ記事 で命名・体系化し、Anthropic Claude Code 責任者 Boris Cherny「I don it prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write loops.(もう Claude にプロンプトを打っていない。Claude にプロンプトを打って次に何をするか考えるループを動かしている。私の仕事はループを書くことだ)」 発言(The New Stack 報道)で一気に英語圏・日本語圏に波及した AI エンジニアリングの新潮流 を、一次ソース中心に整理しました。系譜: Prompt Engineering(2022-2024)→ Context Engineering(2025、Shopify CEO Tobi Lütke 提唱、Anthropic 公式 Effective Context Engineering で結晶化)→ Harness Engineering(2026前半)→ Loop Engineering(2026年6月〜) の4世代論。思想: Peter Steinberger の原典的フレーズ「You should be designing loops that prompt your agents(プロンプトを書くのではなく、エージェントをプロンプトするループを設計せよ)」。構成6要素: (1) Automations / Trigger(時間・イベントで起動する心拍)、(2) Worktrees(並列サブエージェントの git 衝突回避)、(3) Skills(SKILL.md / CLAUDE.md による intent debt 削減)、(4) Plugins / Connectors(MCP による実行権限)、(5) Maker / Checker Sub-agents(生成と検証の分離)、(6) Durable State(メモリはコンテキストではなくディスクに置く)。Inner Loop vs Outer Loop の区別、Claude Code の `/goal` / Automations / Worktrees / Skills / Sub-agents が「Loop Engineering の道具立て」として再解釈される構造、日本での Qiita / Zenn / DevelopersIO / note / OptiMax での急速な記事化、「Cognitive Surrender(思考の放棄)」「Loop Brittleness」「Verifier 誤判定」「HITL 過剰承認疲れ」「暴走ループ・コスト爆発」の5大リスクまで、率直に整理しています。


TL;DR — Loop Engineering を一言で

2026年6月、AI エンジニアリングの世界に Loop Engineering(ループエンジニアリング) という新しい言葉が定着しました。きっかけは Google Chrome DevRel リードの Addy Osmani が公開した "Loop Engineering" ブログ記事 と、Anthropic Claude Code 責任者 Boris Cherny の以下の発言です(The New Stack 報道):

> "I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write loops." > (もう Claude にプロンプトを打っていない。Claude にプロンプトを打って次に何をするか考えるループを動かしている。私の仕事はループを書くことだ)

3つの要点:

1. 系譜の最先端: Prompt Engineering(2022-2024)→ Context Engineering(2025)→ Harness Engineering(2026前半)→ Loop Engineering(2026年6月〜) 2. 思想転換: 単発の LLM 呼び出しを最適化する発想から、LLM・ツール・環境・人間がループする 全体システムを設計する 発想へ 3. Claude Code の既存機能で実装可能: Automations / Worktrees / Skills / Sub-agents / `/goal` が「Loop Engineering の道具立て」として再解釈された

本コラムは Claude Code Agent View 並列オーケストレーションCognition FrontierCodecmux(Manaflow)Cursor AutomationsForward Deployed Engineer と並ぶ、2026年エージェント時代の概念整理シリーズです。

用語の起源 — 誰がいつどこで提唱したか

命名: Addy Osmani(Google Chrome DevRel リード、書籍 *Learning JavaScript Design Patterns* 著者)。2026年6月、自身のブログ記事 "Loop Engineering" で用語を体系化。

思想的トリガー: 著名 iOS 開発者 Peter Steinberger の発言「You should be designing loops that prompt your agents(プロンプトを書くのではなく、エージェントをプロンプトするループを設計せよ)」がオリジナルのフレーズで、Osmani / Greyling 等が引用して概念化しました。

権威付け: Anthropic Claude Code 責任者 Boris Cherny の前述発言が決定打。Claude Code を作っている当人が「自分はもうプロンプトを書かない、ループを書く」と公言したことで、用語が一気に正当性を得ました。

現状判定: Anthropic / OpenAI / Cognition の 公式ドキュメントにはまだ明示採用されていない ものの、複数の一次・二次ソースで一貫した定義が共有されており、既存機能群を貫く解釈フレームワーク として急速に定着している段階です。日本でも「ループエンジニアリング」が定訳化しつつあります。

4世代の系譜 — Prompt → Context → Harness → Loop

世代焦点提唱期代表ソース
Prompt Engineeringモデルへの「話し方」(few-shot、CoT、ロールプレイ)2022-2024OpenAI Cookbook、PromptingGuide.ai
Context Engineeringモデルに「見せるもの」(履歴、RAG、状態、メモリ)2025Shopify CEO Tobi Lütke が提唱、Anthropic 公式 Effective Context Engineering で結晶化
Harness Engineering単一セッションの足場(ツール、制約、フィードバック)2026前半Karpathy 系の Software 3.0 言説
Loop Engineering「いつ・誰が・どの頻度で」エージェントを回すか2026年6月〜Addy Osmani、Boris Cherny、Cobus Greyling

Prompt → Context は「what to say → what to show」のシフト、Context → Harness は「what to show → how to support」のシフト、そして Harness → Loop は「how to support → who orchestrates whom and when」という 時間軸とシステム境界の拡張 です。

定義(複数ソースの統合)

Addy Osmani の定義:

> "Loop engineering is replacing yourself as the person who prompts the agent. You design the system that does it instead." > (ループエンジニアリングとは、エージェントにプロンプトを打つ役割を自分自身から取り除き、それを代わりに行うシステムを設計する営みである)

Cobus Greyling の定義 (Substack):

> ワークを発見し、サブエージェントにタスクを渡し、結果を検証し、状態を永続化し、次のアクションをスケジュールまたは目標達成まで判断する自律システムを設計すること。

explainx.ai の定義 (What Is Loop Engineering?):

> "What system should I build so the agent finds the work, does it, verifies it, and remembers what it did — without me in the loop at all?" > (エージェントが自ら仕事を見つけ、実行し、検証し、何をしたか覚えてくれる — 自分はループの外に出る — そんなシステムをどう作るか?)

共通項: 人間がプロンプトを書く役を降りる、エージェントが自走する、検証と状態永続化が組み込まれている、終了条件と次アクションが自動判定される。

Inner Loop vs Outer Loop — 古典 ReAct と Loop Engineering の対象範囲

Loop Engineering 議論で頻出する Inner Loop / Outer Loop の区別:

Inner Loop(古典 ReAct ループ): 1セッション内の reason → act → observe → repeat。Plan-Act-Observe-Reflect。Reflexion / ReAct / CodeAct 等の論文系譜。LLM 内部 + ツール呼び出しの単一サイクル

Outer Loop(Loop Engineering の対象):

- タイマー・イベント起動(Automations) - サブエージェント起動(Maker / Checker 分離) - 結果検証(Verifier) - 状態永続化(STATE.md / JSON / Linear ボード) - 次アクション判定(目標達成 or 継続)

つまり Loop Engineering は Inner Loop の最適化ではなく、Inner Loop を駆動・監視・終了させる Outer Loop の設計学 です(Oracle Developers Blog "The Agent Loop Decoded: Three Levels" が3階層モデルで詳述)。

構成6要素(Osmani / Greyling 系統で合意ある型)

1. Automations / Trigger(自動起動の心拍)

スケジュール(cron)またはイベント(PR open、Slack mention、ファイル変更)で自動起動する仕組み。Claude Code の Automations、Cursor の Agents Window、GitHub Actions の `claude-code` が該当。人間が「実行ボタン」を押さない ことが Loop Engineering の本質。

2. Worktrees(並列実行の衝突回避)

複数のサブエージェントが同時にコード変更する場合、git worktree で 独立したチェックアウト を渡す。これがないと並列ループはすぐにファイル衝突で破綻する。Claude Code の Workflow 機能で `isolation: "worktree"` オプションとして実装済み。

3. Skills(SKILL.md / CLAUDE.md による intent 外部化)

プロジェクト固有の知識(命名規則、テスト方針、デプロイ手順)を SKILL.md / CLAUDE.md に書き出すことで、毎回プロンプトに含める "intent debt(意図の負債)" を削減。Osmani は「言わなくても伝わる前提を増やすほどループは安定する」と強調。

4. Plugins / Connectors(実行権限を MCP で渡す)

PR を開く、チケットを更新する、デプロイをトリガする等の 副作用付き実行権限 を MCP(Model Context Protocol)経由で渡す。これがないと「エージェントが提案するだけ、人間が実行する」状態が続き、Loop が閉じない。

5. Maker / Checker Sub-agents(生成と検証の分離)

生成者と検証者を別エージェント に分けるのが Loop Engineering の必須パターン。Anthropic Engineering Blog "How we contain Claude" で「the model is too kind to grade its own homework(モデルは自分の宿題を採点するには優しすぎる)」と表現された問題への対処。Cognition FrontierCode ベンチでもこの分離が高スコアの鍵。

6. Durable State(メモリはコンテキストではなくディスクに置く)

ループは長時間動くため、コンテキストウィンドウを記憶として使うのは破綻する。STATE.md、JSON ファイル、Linear / Jira ボード、Postgres など 外部の永続ストア に状態を吐き出し、次サイクルで読み込む。mem0.ai の "memory-first design" 論 が代表的。

主要提唱者・実践者

- Boris Cherny(Anthropic / Claude Code lead)— 用語の権威源 / The New Stack - Peter Steinberger(元 PSPDFKit / 著名 iOS 開発者)— 原典フレーズ「designing loops that prompt your agents」 - Addy Osmani(Google Chrome DevRel)— 命名・体系化 / addyosmani.com - Cobus Greyling(コンサルタント)— Medium / Substack で連載 / "Loop Engineering Playbook" - Anthropic Engineering Blog"How we contain Claude")— ループ封じ込め設計を公開 - Steve Kinney(フロントエンドエンジニア)— "The Anatomy of an Agent Loop" - mem0.ai(メモリスタートアップ)— メモリファースト設計

具体的手法・パターン

Loop Engineering の現場で使われる定石パターン:

- Plan-Act-Observe-Reflect: Inner Loop の基本骨格、ReAct / Reflexion の後継 - Self-correcting Loop: テスト失敗を観測して即修正、CI が壊れたら自動 revert - Critic / Verifier Loop(Maker-Checker): 別エージェントが点検、合格までやり直し - Sandbox Loop: Docker / Worktree で隔離、ロールバック前提でリスクを取る - Eval-driven Loop: オフライン評価指標(SWE-bench Verified、Cognition FrontierCode 等)で継続改善 - HITL Loop: 人間レビューがブレーキ機構、PR 承認待ちで一時停止 - Workflow Pipeline: Claude Code の Workflow / Phase / Sub-agents 連携で複雑なフローを表現

ツール・フレームワーク

ツールLoop Engineering の道具立てとしての位置
Claude Agent SDK / Claude CodeAutomations / Worktrees / Skills / Sub-agents / `/goal` の完全装備
LangGraphStateGraph によるループプリミティブ(条件分岐、サイクル)
OpenAI Agents SDK旧 Swarm 系列の後継、handoffs / sessions / guardrails
Cognition Conductor / DevinFrontierCode 連動の長時間タスク
Vercel AI SDK loopsTypeScript 系の loop primitives
Pydantic AI / Instructor型付きループ(出力スキーマ強制)
Microsoft AutoGen 2.xマルチエージェント対話の標準

Claude Code は事実上の参照実装 という位置づけが共有されつつあります。

ベンチマーク・評価 — ループの質を測る軸

単発タスクのベンチ(HumanEval、MBPP)から、エージェントループのベンチ(Cognition FrontierCode、SWE-bench Verified、SWE-bench Pro)に評価軸がシフト。Loop の質を測る新しい軸:

- 終了判定精度: 無限ループ抑止、fail-fast 性能 - トークン効率: 不要な再考を減らす能力 - コスト効率: 同じ成果を出すドル換算コスト - 検証器の信頼性(Verifier accuracy): Checker サブエージェントの偽陽性 / 偽陰性率 - 回復力(Recovery): 失敗からの再起動・状態復元の堅牢性

日本企業・コミュニティの動き(2026年6月)

2026年6月中旬から Qiita / Zenn / DevelopersIO / note で記事が急増。代表例:

中国語圏でも GitHub に "loop-engineering-orange-book"(橙皮书) という二言語 PDF 解説が公開されています。

リスク・批判 — Loop Engineering の5大論点

Loop Engineering の華々しさの裏で、英語・日本語ソースで共通して指摘される5大リスク:

1. 暴走ループ / コスト爆発 終了条件が甘いとトークン消費が指数的に膨らむ。Claude Opus 4.8 出力単価 $75/1M でループが暴走すると数時間で数百ドルの請求になる例が報告。hard limit(max iterations / max cost)の設定が必須

2. Verifier の誤判定 "The model is too kind to grade its own homework" — 同じモデルに生成と検証を両方やらせると、自分の出力に甘い採点をつける。生成と検証は別エージェント・別モデルに分ける のが定石。理想は 検証器がほぼ完璧 であること。

3. HITL 過剰承認疲れ 通知過多で人間が機械的に承認するようになり、HITL がブレーキとして機能しなくなる。承認単位の粒度設計 が重要(細かすぎても粗すぎても破綻)。

4. Loop Brittleness(本番分布での脆性) ベンチでは強くても本番の特殊ケースで崩れる。Cognition FrontierCode が「ベンチ vs 本番」のギャップを測るために設計された背景もここ。

5. Cognitive Surrender(思考の放棄) Osmani が 最も強く警鐘を鳴らす論点。生成速度に理解が追いつかず、エンジニアが「コードを読まずに承認する」状態に陥る。intent debt(意図の負債) が雪だるま式に蓄積し、最終的に メンテ不能なコードベース が生まれる。Osmani は「ループは速いほどよくない。理解できる速度で回すべき」と書いています。

実務への落とし込み — オブライト視点

オブライトの AI コンサルティング / ソフトウェア開発 の現場で日本企業に推奨している Loop Engineering 導入ステップ:

ステップ1: Inner Loop(ReAct)を Claude Code で1案件動かす まず1つの小さなタスクで `/goal` または通常の Claude Code セッションで自走させ、観察ログを取る。「どこで暴走するか」「どこで止めるべきか」を体感 することが先。

ステップ2: Maker-Checker 分離 Workflow 機能で生成エージェントと検証エージェントを分離。検証側は 「refute(反証)」をデフォルト に設定し、合格までやり直し。

ステップ3: Durable State 導入 STATE.md / Linear / Jira / Notion DB 等にループ状態を吐き出す。コンテキストウィンドウを記憶として使うのを止める。

ステップ4: Automations(時間/イベント起動) GitHub Actions / Cron / Slack イベントで自動起動。人間が「実行ボタン」を押す箇所を1つずつ消していく。

ステップ5: ハードリミット + HITL 暴走防止の hard limit(max iterations、max cost、max duration)を設定。重要な副作用(本番デプロイ、課金、外部 API 呼び出し)は HITL の承認ゲートを残す。

ステップ6: Eval-driven 改善 Cognition FrontierCode のような独立ベンチで継続評価。ループのコスト効率・終了判定精度・Verifier accuracy を定量モニタ。

競合概念との位置づけ

概念関係
Prompt Engineering旧世代、Loop Engineering の中で個別ステップとして残存
Context Engineering1つ前の世代、Loop Engineering の Inner Loop の入力設計に対応
Harness EngineeringLoop Engineering の単一セッション版(Outer Loop なし)
Agent Loop(Anthropic 用語)Inner Loop の同義語、Claude Code 内部のステップ
Inner / Outer Loop(Devin 用語)Loop Engineering が採用した区分そのもの
ReAct / Reflexion / CodeActInner Loop の代表的論文系譜
Plan-Act-Observe-ReflectInner Loop の動詞表現
AgentOps / LLMOpsLoop Engineering の運用・監視側面
Workflow EngineeringLangGraph / Temporal 系の用語、Loop Engineering と概念的に重複

FAQ

Q1. Loop Engineering は Prompt Engineering の単なる言い換えですか? A. 違います。Prompt Engineering は1回の LLM 呼び出しの入力を最適化する営みで、Loop Engineering は 複数回の呼び出しを束ねる Outer Loop システムを設計する 営み。粒度と時間軸が大きく異なります。

Q2. Anthropic は公式にこの用語を採用していますか? A. 2026年6月22日時点で Anthropic 公式ドキュメントには明示採用されていません。Claude Code 責任者 Boris Cherny の個人発言(The New Stack)と、Anthropic Engineering Blog の "How we contain Claude" でループ封じ込め設計を扱っているのが現状。ただし Claude Code の Automations / Worktrees / Skills / Sub-agents は 完全に Loop Engineering の道具立て として作られています。

Q3. LangGraph / OpenAI Agents SDK との関係は? A. Loop Engineering は 抽象的なパラダイム、LangGraph / Agents SDK は その実装ツール。LangGraph の StateGraph が Outer Loop の状態遷移を、サブエージェントが Maker/Checker を、checkpoint が Durable State を担います。

Q4. 日本語訳は何が定着しつつありますか? A. 「ループエンジニアリング」がほぼ定訳化。Qiita / Zenn / DevelopersIO / note / OptiMax で同表記。「ループ設計」と訳すケースも一部ありますが、英語の含意(システム全体を組む)を保持したい場合は「ループエンジニアリング」が正確。

Q5. 暴走ループのコスト爆発を防ぐには? A. hard limit を3層で設ける: (1) max iterations(例: 100ステップ)、(2) max cost(例: $10 / loop)、(3) max duration(例: 30分)。いずれかに到達したら強制終了し、人間に通知。Claude Code の Workflow には `budget` パラメータが既に組み込み済み。

Q6. Verifier の誤判定(同モデルが自分を甘く採点)への対策は? A. (1) 別モデルを使う(生成は Claude、検証は GPT-5.5 / Gemini 3.1 Pro 等)、(2) 同モデルでも「refute をデフォルト」とする敵対的プロンプト(3) 複数 verifier の多数決(4) 多角的視点(correctness / security / performance)で別 verifier を立てる、の4対策が定石。

Q7. Osmani の言う「Cognitive Surrender」を避けるには? A. (1) ループが生成したコードを必ず読む時間を確保する(2) PR レビューを人間が最終承認する(3) 説明可能性(なぜこの変更か)を SKILL.md / STATE.md に記録させる(4) ループ速度を意図的に落とす(速いほどよくない)。Osmani は「理解できる速度で回せ」を繰り返し書いています。

Q8. Forward Deployed Engineer(FDE)との関係は? A. FDE顧客現場に張り付いて Loop を組む人 という新しい職種定義に重なります。Loop は組織固有の業務に最適化する必要があり、汎用フレームワークだけでは作れない。FDE が顧客と一緒に Loop を設計・運用する。両者は表裏一体です。

まとめ

Loop Engineering は 2026年6月に定着した、AI エンジニアリングの新潮流 です。Addy Osmani が命名し、Anthropic Claude Code 責任者 Boris Cherny の「もうプロンプトは書かない、ループを書く」発言で正当性を得ました。Prompt → Context → Harness → Loop という4世代の系譜の最先端に位置し、「単発の LLM 呼び出しを最適化する」発想から「LLM・ツール・環境・人間がループする全体システムを設計する」発想への移行 を体現しています。

実務的には Claude Code の既存機能群(Automations / Worktrees / Skills / Sub-agents / `/goal`)が事実上の参照実装 で、Maker-Checker 分離・Durable State・Hard Limit・HITL ゲートの4点セットが導入の最低限。リスクは 暴走ループ・Verifier 誤判定・HITL 疲れ・Loop Brittleness・Cognitive Surrender の5つで、特に最後の「思考の放棄」が Osmani の最大の警鐘です。

今後の展望: Anthropic / OpenAI / Cognition のいずれかが公式ドキュメントで「Loop Engineering」用語を採用すると、業界標準として固定化されるでしょう。2026年後半に向けて、Loop の品質を測る独立ベンチ(FrontierCode の延長線)、Loop デバッガ(DevTools 的なツール)、Loop マーケットプレイス(業界別の標準ループパターン共有)といったエコシステムの拡張が予想されます。

References

命名・思想: - Addy Osmani — Loop Engineering - The New Stack — Loop Engineering / Boris Cherny 発言 - Cobus Greyling — Loop Engineering (Substack) - Cobus Greyling — Loop Engineering Playbook (Medium) - explainx.ai — What Is Loop Engineering? - Lushbinary — Loop Engineering Guide 技術解説: - Anthropic — Effective Context Engineering for AI Agents - Anthropic — How we contain Claude - Oracle Developers — Agent Loop Decoded: Three Levels - Steve Kinney — Anatomy of an Agent Loop - mem0.ai — Loop Engineering: Memory-First Design - Callsphere — Inside Claude Code's Agent Loop 日本語解説(2026年6月): - Qiita y-morimatsu — Loop Engineering とは - Qiita Simon_Zhang — ループエンジニアリング徹底解説 - Qiita Syoitu — 入門から実践 - Zenn suwash — Loop Engineering 入門 - Zenn ino_h — Claude Code /goal で自走するループ - Zenn acrosstudioblog — もうプロンプトを書くな - DevelopersIO — Loop Engineering 実践 - note MAKE A CHANGE — 概念と注意点 - OptiMax — ループエンジニアリング 導入5ステップ - GitHub — loop-engineering-orange-book (中文/EN) 関連コラム: - Claude Code Agent View 並列オーケストレーション - Cognition FrontierCode ベンチマーク解説 - cmux(Manaflow) - Cursor Automations / Agents Window - Forward Deployed Engineer (FDE) - Hermes Agent Skills/Tools - Kimi K2.7-Code - Claude Agent SDK Credit Billing Change

お気軽にご相談ください

お問い合わせ