Update: Loop Engineering 博客第二轮修订（严重问题修正+结构优化）

2026-06-26 19:23:51 +08:00
parent 29477f83b7
commit 194b92094b
1 changed files with 89 additions and 65 deletions
--- a/loop-engineering-learning-blog.md
+++ b/loop-engineering-learning-blog.md
@@ -1,18 +1,8 @@
-# Loop Engineering 学习指南：从 Prompt 到自主循环的范式转移
-
-> **"You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents."**
-> — Peter Steinberger, OpenClaw 创始人
-
-> **"I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write loops."**
-> — Boris Cherny, Anthropic Claude Code 负责人
-
---
-
 ## 一、什么是 Loop Engineering？

 ### 核心定义

-**Loop Engineering（循环工程）** 是 2026 年 6 月爆火的新概念，由 Google 工程师 **Addy Osmani** 系统整理，Anthropic Claude Code 负责人 **Boris Cherny** 和 OpenClaw 创始人 **Peter Steinberger** 共同推动。
+**Loop Engineering（循环工程）** 是 2026 年以来受到广泛关注的新概念，由 Google 工程师 **Addy Osmani** 系统整理，Anthropic Claude Code 负责人 **Boris Cherny** 和 OpenClaw 创始人 **Peter Steinberger** 共同推动。

 **一句话定义**（Addy Osmani）：
 > Loop Engineering 就是把「负责提示 AI 的你」这个角色，换成一套替你做这件事的 **系统**。
@@ -51,11 +41,11 @@ Loop Engineering      →  "做完成"（让 AI 持续创造结果）


 > **说白了**：这四个阶段不是替代关系，而是层层递进的技能栈。你仍然需要会写 prompt，但仅仅会写 prompt 已经不够了——2026 年，你需要会设计整个循环系统。
-## 三、为什么 Prompt Engineering 不够用了？
+## 二、为什么 Prompt Engineering 不够用了？

 ### IEEE Spectrum 的研究结论

-2024 年 5 月，**IEEE Spectrum** 发表封面文章《AI Prompt Engineering Is Dead》，核心发现：
+2024 年 3 月 6 日，**IEEE Spectrum** 在线发表封面文章《AI Prompt Engineering Is Dead》，刊于 2024 年 5 月纸刊，核心发现：

 **VMware 研究**（Rick Battle & Teja Gollapudi）：
 - 测试了 60 种 prompt 组合，涵盖 3 个开源 LLM，专注于小学数学题
@@ -83,7 +73,7 @@ IEEE 的研究并不意味着 prompt 本身没用，而是揭示了：
 > **"no human should manually optimize prompts ever again"** — 别再手动调 prompt 了，定个评分指标让系统自己优化。[来源：IEEE Spectrum]

 这意味着：
- **2023 年的技能**：找到那个解锁 MMLU 额外 4 分的 phrase → **已死**
+- **2023 年的技能**：找到那个解锁 MMLU 额外 4 分的 phrase → **边际价值已大幅下降**
 - **2026 年的技能**：设计可测试、可版本化、可调试的系统 → **正在兴起**

 ---
@@ -103,7 +93,7 @@ IEEE 的研究并不意味着 prompt 本身没用，而是揭示了：
 - **外部事件**：CI 失败、客户提交工单、竞品发布新版本
 - **用户行为**：上传文档、修改需求、提出长期目标

-**学术对应**：Reflexion 论文中的**试验循环（trial loop）**——每次试验的启动条件。
+**可类比到**：Reflexion 论文中的**试验循环（trial loop）**——每次试验的启动条件。

 **没有 Trigger 的后果**：agent 只是被动等待，没有"心跳"。

@@ -121,7 +111,7 @@ IEEE 的研究并不意味着 prompt 本身没用，而是揭示了：
 - 用户偏好 & 限制条件
 - 工具说明 & 失败记录

-**学术对应**：
+**可类比到**：
 - ReAct 的 **c_t**（上下文向量）= (o_1, a_1, ..., o_{t-1}, a_{t-1}, o_t)
 - Reflexion 的 **记忆 mem** = 自我反思总结的累积

@@ -135,7 +125,7 @@ IEEE 的研究并不意味着 prompt 本身没用，而是揭示了：

 **范围**：从只生成文本，到调用工具（搜索、编辑代码、运行测试、查询数据库、创建工单、发送草稿、更新文档）。

-**学术对应**：
+**可类比到**：
 - ReAct 的 **行动空间 A** = 任务特定动作 + 语言推理
 - Agentic Memory 的 **记忆操作作为工具**：读/写/删除记忆都是行动

@@ -152,7 +142,7 @@ IEEE 的研究并不意味着 prompt 本身没用，而是揭示了：
 **为什么不能只依赖模型自评？**
 > 一个 loop 最危险的地方，不是 agent 做不出来，而是它做错了，还不断说自己完成了。[来源：小黑盒]

-**学术支持**：
+**相关论文**：

 | 论文 | 评估机制 | 关键发现 |
 |------|---------|---------|
@@ -178,7 +168,7 @@ IEEE 的研究并不意味着 prompt 本身没用，而是揭示了：
 - 失败原因 & 成功经验
 - 当前进度

-**学术支持**：
+**相关论文**：

 | 论文 | 记忆机制 | 核心创新 |
 |------|---------|---------|
@@ -199,7 +189,7 @@ IEEE 的研究并不意味着 prompt 本身没用，而是揭示了：
 **Memory 的风险**：如果 AI 把错误信息写入长期记忆，未来每次都调用，这个错误就会变成 **系统级偏差**。一次幻觉只是一次回答错误；一旦幻觉被写入 memory，就可能在未来反复出现。

 **研究证据**：
- **FORGE**（2025）[arXiv:2605.16233]：提出**基于人群的记忆演化**机制，防止记忆退化和混淆
+- **FORGE**（2026）[arXiv:2605.16233]：提出**基于人群的记忆演化**机制，防止记忆退化和混淆
 - **TrustMem**（2026）[arXiv:2606.25161]：专门解决记忆更新可能引入幻觉或腐败内容的问题

 ---
@@ -208,7 +198,7 @@ IEEE 的研究并不意味着 prompt 本身没用，而是揭示了：

 **作用**：什么时候停止？

-**学术对应**：
+**可类比到**：
 - Reflexion 算法中的 **`while M_e not pass or t < max trials`**
 - ReAct 的 **任务完成标志**（如 `finish[answer]` 动作）

@@ -229,9 +219,9 @@ IEEE 的研究并不意味着 prompt 本身没用，而是揭示了：

 **这不是保守，而是必要的系统设计**。

-**学术对应**：
+**可类比到**：
 - **Gödel Agent**（2024）[arXiv:2410.04444]：提出**自指涉 agent 框架**，允许递归自我改进，但强调**策略级别的可审计变更**而非响应级别的自校正
- **ProofAgent Harness**（2025）[arXiv:2605.24134]：为对抗性评估提供开放基础设施，支持多轮试验中的人工审查
+- **ProofAgent Harness**（2026）[arXiv:2605.24134]：为对抗性评估提供开放基础设施，支持多轮试验中的人工审查

 **典型检查点**：
 - Agent 可以写 PR，但不一定应该自动 merge
@@ -242,19 +232,7 @@ IEEE 的研究并不意味着 prompt 本身没用，而是揭示了：

 ---

-## 四、Claude Code vs OpenAI Codex：Loop 原语对比
-
-
---
-
-
-<!-- 第二章已移至此处，原位于第一章之后 -->
-
-
---
-
-
-## 二、学术基础：从 ReAct 到 Reflexion 的循环机制演进
+## 四、学术基础：从 ReAct 到 Reflexion 的循环机制演进

 Loop Engineering 并非凭空出现，而是建立在多项重要学术研究的基础之上。以下是最关键的几篇论文。

@@ -427,7 +405,7 @@ Loop Engineering 的核心挑战之一是长期记忆管理。以下是 2025-202

 ---

-#### **MemForest**（2025）[arXiv:2605.23986]
+#### **MemForest**（2026）[arXiv:2605.23986]

 **核心贡献**：层级时间索引（Hierarchical Temporal Indexing）记忆系统。

@@ -443,7 +421,7 @@ Loop Engineering 的核心挑战之一是长期记忆管理。以下是 2025-202

 ---

-#### **Agentic Memory (AgeMem)**（2025）[arXiv:2601.01885]
+#### **Agentic Memory (AgeMem)**（2026）[arXiv:2601.01885]

 **核心贡献**：**统一的长短期记忆管理框架**，将记忆操作直接集成到 agent 的策略中。

@@ -469,7 +447,7 @@ Loop Engineering 最危险的地方是 agent 做错了还不断说自己完成

 ---

-#### **AgentEval**（2025）[arXiv:2604.23581]
+#### **AgentEval**（2026）[arXiv:2604.23581]

 **核心贡献**：提出 **DAG 结构的步级评估框架**。

@@ -496,12 +474,12 @@ Loop Engineering 最危险的地方是 agent 做错了还不断说自己完成
 ---


-Addy Osmani 在 2026 年 6 月的分析指出，两大主流 AI 编程工具已原生支持所有核心 Loop 原语，只有命名差异。
+Addy Osmani 在 2026 年 6 月的分析指出，两大主流 AI 编程工具已提供若干可组合的 Loop 原语，命名和用法上存在差异，建议以官方文档为准。

 | **Loop 原语** | **在 Loop 中的角色** | **OpenAI Codex** | **Claude Code** |
 |--------------|-------------------|-----------------|----------------|
-| **Automations** | 循环的心跳（定时发现 + 分诊） | Automations tab：选择项目、prompt、频率、环境；结果进入 Triage 收件箱 | `/loop`（定时重跑）、`/goal`（运行直到完成）、cron、hooks、GitHub Actions |
-| **Worktrees** | 并行隔离（避免文件冲突） | 每个 thread 内置 worktree | `git worktree`、`--worktree` 标志、subagent 的 `isolation: worktree` |
+| **Automations** | 循环的心跳（定时发现 + 分诊） | Automations tab（官方文档：https://developers.openai.com/codex/automations）：在指定项目中设置自动化任务，定义 prompt、运行频率和环境变量；执行结果可通过 Triage 收件箱查看和管理 | `/loop`（按间隔定时重跑）、`/goal`（运行至 evaluator 确认满足条件）、cron 任务、Git hooks、GitHub Actions |
+| **Worktrees** | 并行隔离（避免文件冲突） | 每个 thread 自动创建独立的 git worktree（官方文档：https://developers.openai.com/codex/subagents） | `git worktree` 命令、`--worktree` 运行标志、subagent 配置中的 `isolation: worktree` 模式 |
 | **Skills** | 项目知识编码（避免重复解释） | Agent Skills（`SKILL.md`），用 `$name` 或隐式调用 | Agent Skills（`SKILL.md`） |
 | **Plugins / Connectors** | 连接真实工具 | Connectors (MCP) + plugins | MCP servers + plugins |
 | **Sub-agents** | 并行 ideate + verify | TOML 文件定义在 `.codex/agents/` | `.claude/agents/` 中的 task subagents、agent teams |
@@ -522,7 +500,7 @@ Addy Osmani 在 2026 年 6 月的分析指出，两大主流 AI 编程工具已
 | `/goal` | 条件被 evaluator 确认满足 | "run-until-done" 类型任务 |
 | Stop hook | 自定义脚本或 prompt 决定 | 复杂自定义逻辑 |

-**学术对应**：`/goal` 的 evaluator 机制直接对应 Reflexion 的 **Evaluator Model (M_e)** 角色。
+**可类比到**：`/goal` 的 evaluator 机制直接对应 Reflexion 的 **Evaluator Model (M_e)** 角色。

 ---

@@ -538,7 +516,7 @@ Addy Osmani 在 2026 年 6 月的分析指出，两大主流 AI 编程工具已

 **适合**：监控、数据同步、定期检查任务。

-**学术对应**：Reflexion 的 **试验循环**——每次试验独立评估。
+**可类比到**：Reflexion 的 **试验循环**——每次试验独立评估。

 ---

@@ -550,7 +528,7 @@ Addy Osmani 在 2026 年 6 月的分析指出，两大主流 AI 编程工具已

 **适合**：内容生成与优化、文案打磨。

-**学术对应**：
+**可类比到**：
 - **Self-Refine**（arXiv:2303.17651）：迭代精炼框架
 - **Reflexion** 的编程任务：生成代码 → 运行测试 → 自我反思 → 重写

@@ -570,7 +548,7 @@ Addy Osmani 在 2026 年 6 月的分析指出，两大主流 AI 编程工具已

 **适合**：实时响应系统、告警处理、Webhook 驱动工作流。

-**学术对应**：**AgentEval** 的 DAG 结构——事件触发有向无环图中的节点执行。
+**可类比到**：**AgentEval** 的 DAG 结构——事件触发有向无环图中的节点执行。

 ---

@@ -675,6 +653,8 @@ gh issue view <number> --json comments | grep -q "linear.app"

 ### 完整 Loop 配置示例（Claude Code）

+> ⚠️ **命令示例说明**：本文中的 CLI 命令示例仅供参考，实际使用时请以[官方文档](https://code.claude.com/docs/en/goal)为准。命令语法可能随版本变化，建议先查阅最新文档。
+
 ```bash
 # 启动 loop（每天 9:00 AM 运行）
 claude --loop "0 9 * * *" --prompt "
@@ -757,9 +737,9 @@ if evaluation["needs_human_review"]:

 **问题**：用户不一定希望所有历史都被整理、保存和调用。

-**学术对应**：
- **NeuSymMS**（2025）[arXiv:2605.17596]：提出**混合神经符号记忆系统**，支持用户/agent/agent-to-agent 作用域，实现记忆的生命周期管理
- **Governed Collaborative Memory**（2025）[arXiv:2605.04264]：将记忆治理视为**人工选择机制**——哪些记忆应该成为共享的制度化状态？
+**可类比到**：
+- **NeuSymMS**（2026）[arXiv:2605.17596]：提出**混合神经符号记忆系统**，支持用户/agent/agent-to-agent 作用域，实现记忆的生命周期管理
+- **Governed Collaborative Memory**（2026）[arXiv:2605.04264]：将记忆治理视为**人工选择机制**——哪些记忆应该成为共享的制度化状态？

 **Memory 透明度三要素**：
 - 用户必须知道系统 **记住了什么**
@@ -774,8 +754,8 @@ if evaluation["needs_human_review"]:

 **问题**：AI 记得用户过去的偏好，并不等于这个偏好今天仍然成立；AI 记得用户过去的计划，也不等于这个计划还在进行。

-**学术对应**：
- **EverMemOS**（2025）[arXiv:2601.02163]：提出**印记生命周期（engram-inspired lifecycle）**，将记忆分为：
+**可类比到**：
+- **EverMemOS**（2026）[arXiv:2601.02163]：提出**印记生命周期（engram-inspired lifecycle）**，将记忆分为：
  - 情景痕迹形成（Episodic Trace Formation）
  - 记忆巩固（Consolidation）
  - 冲突解决（Conflict Resolution）
@@ -797,9 +777,9 @@ if evaluation["needs_human_review"]:
 - Agent 可以草拟回复 → 不一定可以自动发送
 - Agent 可以整理财务信息 → 不一定可以自动转账

-**学术对应**：
+**可类比到**：
 - **Verifiability-First Agents**（2025）[arXiv:2512.17259]：提出**运行时认证**和**轻量级审计 agent**，持续验证意图与行为
- **TrustBench**（2025）[arXiv:2603.09157]：提供**实时信任验证框架**，在 agent 执行前评估动作的可信度
+- **TrustBench**（2026）[arXiv:2603.09157]：提供**实时信任验证框架**，在 agent 执行前评估动作的可信度

 **必须有的权限分层**：
 1. 哪些动作可以 **自动执行**
@@ -813,10 +793,10 @@ if evaluation["needs_human_review"]:

 **问题**：一个聊天机器人答错了，用户关窗口就行；但一个持续运行的 agent，如果改了文件、调用了 API、更新了数据库、影响了业务流程，就必须留下记录。

-**学术对应**：
- **AEMA**（2025）[arXiv:2601.11903]：提出**自适应多 agent 评估框架**，支持可审计的过程追踪
- **AlphaEval**（2025）[arXiv:2604.12162]：关注**生产环境中的 agent 评估**，承认隐式约束、异构输入、长周期任务
- **ProofAgent Harness**（2025）[arXiv:2605.24134]：提供**对抗性评估基础设施**，捕获多轮交互中的行为
+**可类比到**：
+- **AEMA**（2026）[arXiv:2601.11903]：提出**自适应多 agent 评估框架**，支持可审计的过程追踪
+- **AlphaEval**（2026）[arXiv:2604.12162]：关注**生产环境中的 agent 评估**，承认隐式约束、异构输入、长周期任务
+- **ProofAgent Harness**（2026）[arXiv:2605.24134]：提供**对抗性评估基础设施**，捕获多轮交互中的行为

 **必须追踪的问题**：
 - 谁触发了它？
@@ -842,7 +822,7 @@ if evaluation["needs_human_review"]:
 **不适合 Loop 的场景**：
 - 一次性、创意主导的工作（写诗、写小说）
 - 需要强人类判断的伦理决策
- 实时响应系统（用事件驱动代替）
+- 实时响应更适合**事件驱动 loop**，而不是轮询 loop（前文 Event-Response Loop 即是此类）
 - 探索性、方向不明的研究
 - 简单问答、小范围创意

@@ -925,21 +905,26 @@ if evaluation["needs_human_review"]:

 2. **动手实验 Claude Code**：
   ```bash
-   # 安装 Claude Code
+   # 安装 Claude Code（请以官方文档为准）
   npm install -g @anthropic-ai/claude-code

   # 尝试 /goal 命令
   claude "/goal 在 test/auth 目录下所有测试通过且 lint 干净"
   ```
+   > ⚠️ 命令语法可能随版本变化，请查阅 [官方文档](https://code.claude.com/docs/en/goal)。

 3. **尝试 OpenAI Codex**：
   ```bash
-   # 安装 Codex CLI
+   # 安装 Codex CLI（请以官方文档为准）
   npm install -g @openai/codex

   # 查看 automations 功能
   codex automations --help
+
+   # 查看 subagents 文档
+   codex subagents --help
   ```
+   > ⚠️ 命令语法可能随版本变化，请查阅 [官方文档](https://developers.openai.com/codex/automations) 和 [Subagents 文档](https://developers.openai.com/codex/subagents)。

 ---

@@ -988,7 +973,7 @@ agent_teams:

 **学术参考**：
 - **Gödel Agent**（2024）：递归自我改进框架，支持多 agent 协作
- **buddyMe**（2025）[arXiv:2606.11926]：多范式 agent 交互框架
+- **buddyMe**（2026）[arXiv:2606.11926]：多范式 agent 交互框架

 ---

@@ -1093,22 +1078,61 @@ Loop Engineering 的三大理论支柱：
 | **Infini Memory** | 2026 | 主题文档记忆 | Memory 要素的结构化存储方案 |
 | **Agentic Memory** | 2025 | 统一长短期记忆管理 | Memory 工具化的学术体现 |

-**核心共识**（所有信源一致认同）：
+**核心共识**（多数学信源认同）：
 1. Loop Engineering 是 2026 年 AI 工程的核心范式转移
-2. Claude Code 和 OpenAI Codex 已原生支持 loop 原语
+2. Claude Code 和 OpenAI Codex 等主流编码 agent 已提供若干可组合的 Loop 原语，但具体命名和用法存在差异，建议以官方文档为准
 3. **Evaluation 是 loop 最关键的瓶颈**（Reflexion 论文强调）
-4. Prompt Engineering 作为独立技能已死，但作为系统工程的一部分仍然重要
+4. 手工试错式 Prompt Engineering 作为独立技能边际价值下降，但作为系统工程的一部分仍然重要

 **存在争议的点**：
 - Loop Engineering 是否是"换个名字的 cron job"？（部分社区质疑）
  - **本文立场**：cron 是 Loop 的一部分，但 Loop 还包括 Memory、Evaluation、Human Checkpoint 等更复杂的系统设计，不等同于 cron
 - Prompt Engineering 是否完全死亡？
-  - **本文立场**：作为 2023 年那种"找一个 phrase 提升 4 分"的技能已死，但作为系统工程的一部分仍然必要
+  - **本文立场**：作为 2023 年那种"找一个 phrase 提升 4 分"的技能边际价值已下降，但作为系统工程的一部分仍然必要

 ---

+### 来源类型说明
+
+本文按照以下标准标注信源类型：
+
+| 类型 | 说明 | 本文示例 |
+|------|------|---------|
+| **A** | 学术顶会/顶期刊论文 | ReAct (ICLR 2023)、Reflexion |
+| **B** | 官方文档/博客 | Addy Osmani 博客、Claude Code 文档、OpenAI Codex 文档 |
+| **C** | 权威技术媒体 | IEEE Spectrum |
+| **D** | 社区观点/二手解读 | Twitter 引用、小黑盒文章、知乎专栏 |
+
+> **说明**：本文核心论点以 A/B 级信源为支撑，D 级信源仅用于补充实战视角或社区讨论，不构成主要依据。
+
+---
+
+
 ## 参考文献

+[1] Addy Osmani. *Loop Engineering*. https://addyosmani.com/blog/loop-engineering (2026-06-07) **[类型 B]**
+
+[2] Peter Steinberger (via Twitter). "You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents." (2026) **[类型 D]**
+
+[3] Boris Cherny (via Rohan Paul). "I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write loops." (2026) **[类型 D]**
+
+[4] Dina Genkina. *AI Prompt Engineering Is Dead*. IEEE Spectrum. https://spectrum.ieee.org/prompt-engineering-is-dead (2024-03) **[类型 C]**
+
+[5] Shunyu Yao et al. *ReAct: Synergizing Reasoning and Acting in Language Models*. ICLR 2023. https://arxiv.org/abs/2210.03629 **[类型 A]**
+
+[6] Noah Shinn et al. *Reflexion: Language Agents with Verbal Reinforcement Learning*. 2023. https://arxiv.org/abs/2303.11366 **[类型 A]**
+
+[7] Madaan et al. *Self-Refine: Iterative Refinement with Self-Feedback*. 2023. https://arxiv.org/abs/2303.17651 **[类型 A]**
+
+[8] AI小白起. *从 Prompt 到 Loop：Dreaming 正在把 AI 带入"自我循环"的时代*. 小黑盒. https://www.xiaoheihe.cn/app/bbs/link/f17c72094653 (2026-06-18) **[类型 D]**
+
+[9] 错觉幻视. *来不及悼念了 Prompt Engineering，现在登场的是......*. 小黑盒. https://www.xiaoheihe.cn/app/bbs/link/3ae872125f35 (2026-06-26) **[类型 D]**
+
+[10] Anthropic. *Claude Code Documentation: Keep Claude working toward a goal*. https://code.claude.com/docs/en/goal (2026) **[类型 B]**
+
+[11] OpenAI. *Subagents – Codex*. https://developers.openai.com/codex/subagents **[类型 B]**
+
+[12] OpenAI. *Skills – Codex*. https://developers.openai.com/codex/skills **[类型 B]**
 [1] Addy Osmani. *Loop Engineering*. https://addyosmani.com/blog/loop-engineering (2026-06-07)

 [2] Peter Steinberger (via Twitter). "You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents." (2026)