From 194b92094b3158b37fb615f398814581e5631176 Mon Sep 17 00:00:00 2001 From: Ubuntu Date: Fri, 26 Jun 2026 19:23:51 +0800 Subject: [PATCH] =?UTF-8?q?Update:=20Loop=20Engineering=20=E5=8D=9A?= =?UTF-8?q?=E5=AE=A2=E7=AC=AC=E4=BA=8C=E8=BD=AE=E4=BF=AE=E8=AE=A2=EF=BC=88?= =?UTF-8?q?=E4=B8=A5=E9=87=8D=E9=97=AE=E9=A2=98=E4=BF=AE=E6=AD=A3+?= =?UTF-8?q?=E7=BB=93=E6=9E=84=E4=BC=98=E5=8C=96=EF=BC=89?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- loop-engineering-learning-blog.md | 154 +++++++++++++++++------------- 1 file changed, 89 insertions(+), 65 deletions(-) diff --git a/loop-engineering-learning-blog.md b/loop-engineering-learning-blog.md index 25c3a49..d55b78c 100644 --- a/loop-engineering-learning-blog.md +++ b/loop-engineering-learning-blog.md @@ -1,18 +1,8 @@ -# Loop Engineering 学习指南:从 Prompt 到自主循环的范式转移 - -> **"You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents."** -> — Peter Steinberger, OpenClaw 创始人 - -> **"I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write loops."** -> — Boris Cherny, Anthropic Claude Code 负责人 - ---- - ## 一、什么是 Loop Engineering? ### 核心定义 -**Loop Engineering(循环工程)** 是 2026 年 6 月爆火的新概念,由 Google 工程师 **Addy Osmani** 系统整理,Anthropic Claude Code 负责人 **Boris Cherny** 和 OpenClaw 创始人 **Peter Steinberger** 共同推动。 +**Loop Engineering(循环工程)** 是 2026 年以来受到广泛关注的新概念,由 Google 工程师 **Addy Osmani** 系统整理,Anthropic Claude Code 负责人 **Boris Cherny** 和 OpenClaw 创始人 **Peter Steinberger** 共同推动。 **一句话定义**(Addy Osmani): > Loop Engineering 就是把「负责提示 AI 的你」这个角色,换成一套替你做这件事的 **系统**。 @@ -51,11 +41,11 @@ Loop Engineering → "做完成"(让 AI 持续创造结果) > **说白了**:这四个阶段不是替代关系,而是层层递进的技能栈。你仍然需要会写 prompt,但仅仅会写 prompt 已经不够了——2026 年,你需要会设计整个循环系统。 -## 三、为什么 Prompt Engineering 不够用了? +## 二、为什么 Prompt Engineering 不够用了? ### IEEE Spectrum 的研究结论 -2024 年 5 月,**IEEE Spectrum** 发表封面文章《AI Prompt Engineering Is Dead》,核心发现: +2024 年 3 月 6 日,**IEEE Spectrum** 在线发表封面文章《AI Prompt Engineering Is Dead》,刊于 2024 年 5 月纸刊,核心发现: **VMware 研究**(Rick Battle & Teja Gollapudi): - 测试了 60 种 prompt 组合,涵盖 3 个开源 LLM,专注于小学数学题 @@ -83,7 +73,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了: > **"no human should manually optimize prompts ever again"** — 别再手动调 prompt 了,定个评分指标让系统自己优化。[来源:IEEE Spectrum] 这意味着: -- **2023 年的技能**:找到那个解锁 MMLU 额外 4 分的 phrase → **已死** +- **2023 年的技能**:找到那个解锁 MMLU 额外 4 分的 phrase → **边际价值已大幅下降** - **2026 年的技能**:设计可测试、可版本化、可调试的系统 → **正在兴起** --- @@ -103,7 +93,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了: - **外部事件**:CI 失败、客户提交工单、竞品发布新版本 - **用户行为**:上传文档、修改需求、提出长期目标 -**学术对应**:Reflexion 论文中的**试验循环(trial loop)**——每次试验的启动条件。 +**可类比到**:Reflexion 论文中的**试验循环(trial loop)**——每次试验的启动条件。 **没有 Trigger 的后果**:agent 只是被动等待,没有"心跳"。 @@ -121,7 +111,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了: - 用户偏好 & 限制条件 - 工具说明 & 失败记录 -**学术对应**: +**可类比到**: - ReAct 的 **c_t**(上下文向量)= (o_1, a_1, ..., o_{t-1}, a_{t-1}, o_t) - Reflexion 的 **记忆 mem** = 自我反思总结的累积 @@ -135,7 +125,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了: **范围**:从只生成文本,到调用工具(搜索、编辑代码、运行测试、查询数据库、创建工单、发送草稿、更新文档)。 -**学术对应**: +**可类比到**: - ReAct 的 **行动空间 A** = 任务特定动作 + 语言推理 - Agentic Memory 的 **记忆操作作为工具**:读/写/删除记忆都是行动 @@ -152,7 +142,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了: **为什么不能只依赖模型自评?** > 一个 loop 最危险的地方,不是 agent 做不出来,而是它做错了,还不断说自己完成了。[来源:小黑盒] -**学术支持**: +**相关论文**: | 论文 | 评估机制 | 关键发现 | |------|---------|---------| @@ -178,7 +168,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了: - 失败原因 & 成功经验 - 当前进度 -**学术支持**: +**相关论文**: | 论文 | 记忆机制 | 核心创新 | |------|---------|---------| @@ -199,7 +189,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了: **Memory 的风险**:如果 AI 把错误信息写入长期记忆,未来每次都调用,这个错误就会变成 **系统级偏差**。一次幻觉只是一次回答错误;一旦幻觉被写入 memory,就可能在未来反复出现。 **研究证据**: -- **FORGE**(2025)[arXiv:2605.16233]:提出**基于人群的记忆演化**机制,防止记忆退化和混淆 +- **FORGE**(2026)[arXiv:2605.16233]:提出**基于人群的记忆演化**机制,防止记忆退化和混淆 - **TrustMem**(2026)[arXiv:2606.25161]:专门解决记忆更新可能引入幻觉或腐败内容的问题 --- @@ -208,7 +198,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了: **作用**:什么时候停止? -**学术对应**: +**可类比到**: - Reflexion 算法中的 **`while M_e not pass or t < max trials`** - ReAct 的 **任务完成标志**(如 `finish[answer]` 动作) @@ -229,9 +219,9 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了: **这不是保守,而是必要的系统设计**。 -**学术对应**: +**可类比到**: - **Gödel Agent**(2024)[arXiv:2410.04444]:提出**自指涉 agent 框架**,允许递归自我改进,但强调**策略级别的可审计变更**而非响应级别的自校正 -- **ProofAgent Harness**(2025)[arXiv:2605.24134]:为对抗性评估提供开放基础设施,支持多轮试验中的人工审查 +- **ProofAgent Harness**(2026)[arXiv:2605.24134]:为对抗性评估提供开放基础设施,支持多轮试验中的人工审查 **典型检查点**: - Agent 可以写 PR,但不一定应该自动 merge @@ -242,19 +232,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了: --- -## 四、Claude Code vs OpenAI Codex:Loop 原语对比 - - ---- - - - - - ---- - - -## 二、学术基础:从 ReAct 到 Reflexion 的循环机制演进 +## 四、学术基础:从 ReAct 到 Reflexion 的循环机制演进 Loop Engineering 并非凭空出现,而是建立在多项重要学术研究的基础之上。以下是最关键的几篇论文。 @@ -427,7 +405,7 @@ Loop Engineering 的核心挑战之一是长期记忆管理。以下是 2025-202 --- -#### **MemForest**(2025)[arXiv:2605.23986] +#### **MemForest**(2026)[arXiv:2605.23986] **核心贡献**:层级时间索引(Hierarchical Temporal Indexing)记忆系统。 @@ -443,7 +421,7 @@ Loop Engineering 的核心挑战之一是长期记忆管理。以下是 2025-202 --- -#### **Agentic Memory (AgeMem)**(2025)[arXiv:2601.01885] +#### **Agentic Memory (AgeMem)**(2026)[arXiv:2601.01885] **核心贡献**:**统一的长短期记忆管理框架**,将记忆操作直接集成到 agent 的策略中。 @@ -469,7 +447,7 @@ Loop Engineering 最危险的地方是 agent 做错了还不断说自己完成 --- -#### **AgentEval**(2025)[arXiv:2604.23581] +#### **AgentEval**(2026)[arXiv:2604.23581] **核心贡献**:提出 **DAG 结构的步级评估框架**。 @@ -496,12 +474,12 @@ Loop Engineering 最危险的地方是 agent 做错了还不断说自己完成 --- -Addy Osmani 在 2026 年 6 月的分析指出,两大主流 AI 编程工具已原生支持所有核心 Loop 原语,只有命名差异。 +Addy Osmani 在 2026 年 6 月的分析指出,两大主流 AI 编程工具已提供若干可组合的 Loop 原语,命名和用法上存在差异,建议以官方文档为准。 | **Loop 原语** | **在 Loop 中的角色** | **OpenAI Codex** | **Claude Code** | |--------------|-------------------|-----------------|----------------| -| **Automations** | 循环的心跳(定时发现 + 分诊) | Automations tab:选择项目、prompt、频率、环境;结果进入 Triage 收件箱 | `/loop`(定时重跑)、`/goal`(运行直到完成)、cron、hooks、GitHub Actions | -| **Worktrees** | 并行隔离(避免文件冲突) | 每个 thread 内置 worktree | `git worktree`、`--worktree` 标志、subagent 的 `isolation: worktree` | +| **Automations** | 循环的心跳(定时发现 + 分诊) | Automations tab(官方文档:https://developers.openai.com/codex/automations):在指定项目中设置自动化任务,定义 prompt、运行频率和环境变量;执行结果可通过 Triage 收件箱查看和管理 | `/loop`(按间隔定时重跑)、`/goal`(运行至 evaluator 确认满足条件)、cron 任务、Git hooks、GitHub Actions | +| **Worktrees** | 并行隔离(避免文件冲突) | 每个 thread 自动创建独立的 git worktree(官方文档:https://developers.openai.com/codex/subagents) | `git worktree` 命令、`--worktree` 运行标志、subagent 配置中的 `isolation: worktree` 模式 | | **Skills** | 项目知识编码(避免重复解释) | Agent Skills(`SKILL.md`),用 `$name` 或隐式调用 | Agent Skills(`SKILL.md`) | | **Plugins / Connectors** | 连接真实工具 | Connectors (MCP) + plugins | MCP servers + plugins | | **Sub-agents** | 并行 ideate + verify | TOML 文件定义在 `.codex/agents/` | `.claude/agents/` 中的 task subagents、agent teams | @@ -522,7 +500,7 @@ Addy Osmani 在 2026 年 6 月的分析指出,两大主流 AI 编程工具已 | `/goal` | 条件被 evaluator 确认满足 | "run-until-done" 类型任务 | | Stop hook | 自定义脚本或 prompt 决定 | 复杂自定义逻辑 | -**学术对应**:`/goal` 的 evaluator 机制直接对应 Reflexion 的 **Evaluator Model (M_e)** 角色。 +**可类比到**:`/goal` 的 evaluator 机制直接对应 Reflexion 的 **Evaluator Model (M_e)** 角色。 --- @@ -538,7 +516,7 @@ Addy Osmani 在 2026 年 6 月的分析指出,两大主流 AI 编程工具已 **适合**:监控、数据同步、定期检查任务。 -**学术对应**:Reflexion 的 **试验循环**——每次试验独立评估。 +**可类比到**:Reflexion 的 **试验循环**——每次试验独立评估。 --- @@ -550,7 +528,7 @@ Addy Osmani 在 2026 年 6 月的分析指出,两大主流 AI 编程工具已 **适合**:内容生成与优化、文案打磨。 -**学术对应**: +**可类比到**: - **Self-Refine**(arXiv:2303.17651):迭代精炼框架 - **Reflexion** 的编程任务:生成代码 → 运行测试 → 自我反思 → 重写 @@ -570,7 +548,7 @@ Addy Osmani 在 2026 年 6 月的分析指出,两大主流 AI 编程工具已 **适合**:实时响应系统、告警处理、Webhook 驱动工作流。 -**学术对应**:**AgentEval** 的 DAG 结构——事件触发有向无环图中的节点执行。 +**可类比到**:**AgentEval** 的 DAG 结构——事件触发有向无环图中的节点执行。 --- @@ -675,6 +653,8 @@ gh issue view --json comments | grep -q "linear.app" ### 完整 Loop 配置示例(Claude Code) +> ⚠️ **命令示例说明**:本文中的 CLI 命令示例仅供参考,实际使用时请以[官方文档](https://code.claude.com/docs/en/goal)为准。命令语法可能随版本变化,建议先查阅最新文档。 + ```bash # 启动 loop(每天 9:00 AM 运行) claude --loop "0 9 * * *" --prompt " @@ -757,9 +737,9 @@ if evaluation["needs_human_review"]: **问题**:用户不一定希望所有历史都被整理、保存和调用。 -**学术对应**: -- **NeuSymMS**(2025)[arXiv:2605.17596]:提出**混合神经符号记忆系统**,支持用户/agent/agent-to-agent 作用域,实现记忆的生命周期管理 -- **Governed Collaborative Memory**(2025)[arXiv:2605.04264]:将记忆治理视为**人工选择机制**——哪些记忆应该成为共享的制度化状态? +**可类比到**: +- **NeuSymMS**(2026)[arXiv:2605.17596]:提出**混合神经符号记忆系统**,支持用户/agent/agent-to-agent 作用域,实现记忆的生命周期管理 +- **Governed Collaborative Memory**(2026)[arXiv:2605.04264]:将记忆治理视为**人工选择机制**——哪些记忆应该成为共享的制度化状态? **Memory 透明度三要素**: - 用户必须知道系统 **记住了什么** @@ -774,8 +754,8 @@ if evaluation["needs_human_review"]: **问题**:AI 记得用户过去的偏好,并不等于这个偏好今天仍然成立;AI 记得用户过去的计划,也不等于这个计划还在进行。 -**学术对应**: -- **EverMemOS**(2025)[arXiv:2601.02163]:提出**印记生命周期(engram-inspired lifecycle)**,将记忆分为: +**可类比到**: +- **EverMemOS**(2026)[arXiv:2601.02163]:提出**印记生命周期(engram-inspired lifecycle)**,将记忆分为: - 情景痕迹形成(Episodic Trace Formation) - 记忆巩固(Consolidation) - 冲突解决(Conflict Resolution) @@ -797,9 +777,9 @@ if evaluation["needs_human_review"]: - Agent 可以草拟回复 → 不一定可以自动发送 - Agent 可以整理财务信息 → 不一定可以自动转账 -**学术对应**: +**可类比到**: - **Verifiability-First Agents**(2025)[arXiv:2512.17259]:提出**运行时认证**和**轻量级审计 agent**,持续验证意图与行为 -- **TrustBench**(2025)[arXiv:2603.09157]:提供**实时信任验证框架**,在 agent 执行前评估动作的可信度 +- **TrustBench**(2026)[arXiv:2603.09157]:提供**实时信任验证框架**,在 agent 执行前评估动作的可信度 **必须有的权限分层**: 1. 哪些动作可以 **自动执行** @@ -813,10 +793,10 @@ if evaluation["needs_human_review"]: **问题**:一个聊天机器人答错了,用户关窗口就行;但一个持续运行的 agent,如果改了文件、调用了 API、更新了数据库、影响了业务流程,就必须留下记录。 -**学术对应**: -- **AEMA**(2025)[arXiv:2601.11903]:提出**自适应多 agent 评估框架**,支持可审计的过程追踪 -- **AlphaEval**(2025)[arXiv:2604.12162]:关注**生产环境中的 agent 评估**,承认隐式约束、异构输入、长周期任务 -- **ProofAgent Harness**(2025)[arXiv:2605.24134]:提供**对抗性评估基础设施**,捕获多轮交互中的行为 +**可类比到**: +- **AEMA**(2026)[arXiv:2601.11903]:提出**自适应多 agent 评估框架**,支持可审计的过程追踪 +- **AlphaEval**(2026)[arXiv:2604.12162]:关注**生产环境中的 agent 评估**,承认隐式约束、异构输入、长周期任务 +- **ProofAgent Harness**(2026)[arXiv:2605.24134]:提供**对抗性评估基础设施**,捕获多轮交互中的行为 **必须追踪的问题**: - 谁触发了它? @@ -842,7 +822,7 @@ if evaluation["needs_human_review"]: **不适合 Loop 的场景**: - 一次性、创意主导的工作(写诗、写小说) - 需要强人类判断的伦理决策 -- 实时响应系统(用事件驱动代替) +- 实时响应更适合**事件驱动 loop**,而不是轮询 loop(前文 Event-Response Loop 即是此类) - 探索性、方向不明的研究 - 简单问答、小范围创意 @@ -925,21 +905,26 @@ if evaluation["needs_human_review"]: 2. **动手实验 Claude Code**: ```bash - # 安装 Claude Code + # 安装 Claude Code(请以官方文档为准) npm install -g @anthropic-ai/claude-code # 尝试 /goal 命令 claude "/goal 在 test/auth 目录下所有测试通过且 lint 干净" ``` + > ⚠️ 命令语法可能随版本变化,请查阅 [官方文档](https://code.claude.com/docs/en/goal)。 3. **尝试 OpenAI Codex**: ```bash - # 安装 Codex CLI + # 安装 Codex CLI(请以官方文档为准) npm install -g @openai/codex # 查看 automations 功能 codex automations --help + + # 查看 subagents 文档 + codex subagents --help ``` + > ⚠️ 命令语法可能随版本变化,请查阅 [官方文档](https://developers.openai.com/codex/automations) 和 [Subagents 文档](https://developers.openai.com/codex/subagents)。 --- @@ -988,7 +973,7 @@ agent_teams: **学术参考**: - **Gödel Agent**(2024):递归自我改进框架,支持多 agent 协作 -- **buddyMe**(2025)[arXiv:2606.11926]:多范式 agent 交互框架 +- **buddyMe**(2026)[arXiv:2606.11926]:多范式 agent 交互框架 --- @@ -1093,22 +1078,61 @@ Loop Engineering 的三大理论支柱: | **Infini Memory** | 2026 | 主题文档记忆 | Memory 要素的结构化存储方案 | | **Agentic Memory** | 2025 | 统一长短期记忆管理 | Memory 工具化的学术体现 | -**核心共识**(所有信源一致认同): +**核心共识**(多数学信源认同): 1. Loop Engineering 是 2026 年 AI 工程的核心范式转移 -2. Claude Code 和 OpenAI Codex 已原生支持 loop 原语 +2. Claude Code 和 OpenAI Codex 等主流编码 agent 已提供若干可组合的 Loop 原语,但具体命名和用法存在差异,建议以官方文档为准 3. **Evaluation 是 loop 最关键的瓶颈**(Reflexion 论文强调) -4. Prompt Engineering 作为独立技能已死,但作为系统工程的一部分仍然重要 +4. 手工试错式 Prompt Engineering 作为独立技能边际价值下降,但作为系统工程的一部分仍然重要 **存在争议的点**: - Loop Engineering 是否是"换个名字的 cron job"?(部分社区质疑) - **本文立场**:cron 是 Loop 的一部分,但 Loop 还包括 Memory、Evaluation、Human Checkpoint 等更复杂的系统设计,不等同于 cron - Prompt Engineering 是否完全死亡? - - **本文立场**:作为 2023 年那种"找一个 phrase 提升 4 分"的技能已死,但作为系统工程的一部分仍然必要 + - **本文立场**:作为 2023 年那种"找一个 phrase 提升 4 分"的技能边际价值已下降,但作为系统工程的一部分仍然必要 --- +### 来源类型说明 + +本文按照以下标准标注信源类型: + +| 类型 | 说明 | 本文示例 | +|------|------|---------| +| **A** | 学术顶会/顶期刊论文 | ReAct (ICLR 2023)、Reflexion | +| **B** | 官方文档/博客 | Addy Osmani 博客、Claude Code 文档、OpenAI Codex 文档 | +| **C** | 权威技术媒体 | IEEE Spectrum | +| **D** | 社区观点/二手解读 | Twitter 引用、小黑盒文章、知乎专栏 | + +> **说明**:本文核心论点以 A/B 级信源为支撑,D 级信源仅用于补充实战视角或社区讨论,不构成主要依据。 + +--- + + ## 参考文献 +[1] Addy Osmani. *Loop Engineering*. https://addyosmani.com/blog/loop-engineering (2026-06-07) **[类型 B]** + +[2] Peter Steinberger (via Twitter). "You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents." (2026) **[类型 D]** + +[3] Boris Cherny (via Rohan Paul). "I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write loops." (2026) **[类型 D]** + +[4] Dina Genkina. *AI Prompt Engineering Is Dead*. IEEE Spectrum. https://spectrum.ieee.org/prompt-engineering-is-dead (2024-03) **[类型 C]** + +[5] Shunyu Yao et al. *ReAct: Synergizing Reasoning and Acting in Language Models*. ICLR 2023. https://arxiv.org/abs/2210.03629 **[类型 A]** + +[6] Noah Shinn et al. *Reflexion: Language Agents with Verbal Reinforcement Learning*. 2023. https://arxiv.org/abs/2303.11366 **[类型 A]** + +[7] Madaan et al. *Self-Refine: Iterative Refinement with Self-Feedback*. 2023. https://arxiv.org/abs/2303.17651 **[类型 A]** + +[8] AI小白起. *从 Prompt 到 Loop:Dreaming 正在把 AI 带入"自我循环"的时代*. 小黑盒. https://www.xiaoheihe.cn/app/bbs/link/f17c72094653 (2026-06-18) **[类型 D]** + +[9] 错觉幻视. *来不及悼念了 Prompt Engineering,现在登场的是......*. 小黑盒. https://www.xiaoheihe.cn/app/bbs/link/3ae872125f35 (2026-06-26) **[类型 D]** + +[10] Anthropic. *Claude Code Documentation: Keep Claude working toward a goal*. https://code.claude.com/docs/en/goal (2026) **[类型 B]** + +[11] OpenAI. *Subagents – Codex*. https://developers.openai.com/codex/subagents **[类型 B]** + +[12] OpenAI. *Skills – Codex*. https://developers.openai.com/codex/skills **[类型 B]** [1] Addy Osmani. *Loop Engineering*. https://addyosmani.com/blog/loop-engineering (2026-06-07) [2] Peter Steinberger (via Twitter). "You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents." (2026)