Update: Loop Engineering 博客第二轮修订(严重问题修正+结构优化)

This commit is contained in:
Ubuntu
2026-06-26 19:23:51 +08:00
parent 29477f83b7
commit 194b92094b

View File

@@ -1,18 +1,8 @@
# Loop Engineering 学习指南:从 Prompt 到自主循环的范式转移
> **"You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents."**
> — Peter Steinberger, OpenClaw 创始人
> **"I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write loops."**
> — Boris Cherny, Anthropic Claude Code 负责人
---
## 一、什么是 Loop Engineering
### 核心定义
**Loop Engineering循环工程** 是 2026 年 6 月爆火的新概念,由 Google 工程师 **Addy Osmani** 系统整理Anthropic Claude Code 负责人 **Boris Cherny** 和 OpenClaw 创始人 **Peter Steinberger** 共同推动。
**Loop Engineering循环工程** 是 2026 年以来受到广泛关注的新概念,由 Google 工程师 **Addy Osmani** 系统整理Anthropic Claude Code 负责人 **Boris Cherny** 和 OpenClaw 创始人 **Peter Steinberger** 共同推动。
**一句话定义**Addy Osmani
> Loop Engineering 就是把「负责提示 AI 的你」这个角色,换成一套替你做这件事的 **系统**。
@@ -51,11 +41,11 @@ Loop Engineering → "做完成"(让 AI 持续创造结果)
> **说白了**:这四个阶段不是替代关系,而是层层递进的技能栈。你仍然需要会写 prompt但仅仅会写 prompt 已经不够了——2026 年,你需要会设计整个循环系统。
## 、为什么 Prompt Engineering 不够用了?
## 、为什么 Prompt Engineering 不够用了?
### IEEE Spectrum 的研究结论
2024 年 5 月,**IEEE Spectrum** 发表封面文章《AI Prompt Engineering Is Dead》核心发现
2024 年 3 6 日**IEEE Spectrum** 在线发表封面文章《AI Prompt Engineering Is Dead》刊于 2024 年 5 月纸刊,核心发现:
**VMware 研究**Rick Battle & Teja Gollapudi
- 测试了 60 种 prompt 组合,涵盖 3 个开源 LLM专注于小学数学题
@@ -83,7 +73,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了:
> **"no human should manually optimize prompts ever again"** — 别再手动调 prompt 了,定个评分指标让系统自己优化。[来源IEEE Spectrum]
这意味着:
- **2023 年的技能**:找到那个解锁 MMLU 额外 4 分的 phrase → **已死**
- **2023 年的技能**:找到那个解锁 MMLU 额外 4 分的 phrase → **边际价值已大幅下降**
- **2026 年的技能**:设计可测试、可版本化、可调试的系统 → **正在兴起**
---
@@ -103,7 +93,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了:
- **外部事件**CI 失败、客户提交工单、竞品发布新版本
- **用户行为**:上传文档、修改需求、提出长期目标
**学术对应**Reflexion 论文中的**试验循环trial loop**——每次试验的启动条件。
**可类比到**Reflexion 论文中的**试验循环trial loop**——每次试验的启动条件。
**没有 Trigger 的后果**agent 只是被动等待,没有"心跳"。
@@ -121,7 +111,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了:
- 用户偏好 & 限制条件
- 工具说明 & 失败记录
**学术对应**
**可类比到**
- ReAct 的 **c_t**(上下文向量)= (o_1, a_1, ..., o_{t-1}, a_{t-1}, o_t)
- Reflexion 的 **记忆 mem** = 自我反思总结的累积
@@ -135,7 +125,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了:
**范围**:从只生成文本,到调用工具(搜索、编辑代码、运行测试、查询数据库、创建工单、发送草稿、更新文档)。
**学术对应**
**可类比到**
- ReAct 的 **行动空间 A** = 任务特定动作 + 语言推理
- Agentic Memory 的 **记忆操作作为工具**:读/写/删除记忆都是行动
@@ -152,7 +142,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了:
**为什么不能只依赖模型自评?**
> 一个 loop 最危险的地方,不是 agent 做不出来,而是它做错了,还不断说自己完成了。[来源:小黑盒]
**学术支持**
**相关论文**
| 论文 | 评估机制 | 关键发现 |
|------|---------|---------|
@@ -178,7 +168,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了:
- 失败原因 & 成功经验
- 当前进度
**学术支持**
**相关论文**
| 论文 | 记忆机制 | 核心创新 |
|------|---------|---------|
@@ -199,7 +189,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了:
**Memory 的风险**:如果 AI 把错误信息写入长期记忆,未来每次都调用,这个错误就会变成 **系统级偏差**。一次幻觉只是一次回答错误;一旦幻觉被写入 memory就可能在未来反复出现。
**研究证据**
- **FORGE**2025[arXiv:2605.16233]:提出**基于人群的记忆演化**机制,防止记忆退化和混淆
- **FORGE**2026[arXiv:2605.16233]:提出**基于人群的记忆演化**机制,防止记忆退化和混淆
- **TrustMem**2026[arXiv:2606.25161]:专门解决记忆更新可能引入幻觉或腐败内容的问题
---
@@ -208,7 +198,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了:
**作用**:什么时候停止?
**学术对应**
**可类比到**
- Reflexion 算法中的 **`while M_e not pass or t < max trials`**
- ReAct 的 **任务完成标志**(如 `finish[answer]` 动作)
@@ -229,9 +219,9 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了:
**这不是保守,而是必要的系统设计**
**学术对应**
**可类比到**
- **Gödel Agent**2024[arXiv:2410.04444]:提出**自指涉 agent 框架**,允许递归自我改进,但强调**策略级别的可审计变更**而非响应级别的自校正
- **ProofAgent Harness**2025[arXiv:2605.24134]:为对抗性评估提供开放基础设施,支持多轮试验中的人工审查
- **ProofAgent Harness**2026[arXiv:2605.24134]:为对抗性评估提供开放基础设施,支持多轮试验中的人工审查
**典型检查点**
- Agent 可以写 PR但不一定应该自动 merge
@@ -242,19 +232,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了:
---
## 四、Claude Code vs OpenAI CodexLoop 原语对比
---
<!-- 第二章已移至此处,原位于第一章之后 -->
---
## 二、学术基础:从 ReAct 到 Reflexion 的循环机制演进
## 四、学术基础:从 ReAct 到 Reflexion 的循环机制演进
Loop Engineering 并非凭空出现,而是建立在多项重要学术研究的基础之上。以下是最关键的几篇论文。
@@ -427,7 +405,7 @@ Loop Engineering 的核心挑战之一是长期记忆管理。以下是 2025-202
---
#### **MemForest**2025[arXiv:2605.23986]
#### **MemForest**2026[arXiv:2605.23986]
**核心贡献**层级时间索引Hierarchical Temporal Indexing记忆系统。
@@ -443,7 +421,7 @@ Loop Engineering 的核心挑战之一是长期记忆管理。以下是 2025-202
---
#### **Agentic Memory (AgeMem)**2025[arXiv:2601.01885]
#### **Agentic Memory (AgeMem)**2026[arXiv:2601.01885]
**核心贡献****统一的长短期记忆管理框架**,将记忆操作直接集成到 agent 的策略中。
@@ -469,7 +447,7 @@ Loop Engineering 最危险的地方是 agent 做错了还不断说自己完成
---
#### **AgentEval**2025[arXiv:2604.23581]
#### **AgentEval**2026[arXiv:2604.23581]
**核心贡献**:提出 **DAG 结构的步级评估框架**。
@@ -496,12 +474,12 @@ Loop Engineering 最危险的地方是 agent 做错了还不断说自己完成
---
Addy Osmani 在 2026 年 6 月的分析指出,两大主流 AI 编程工具已原生支持所有核心 Loop 原语,只有命名差异
Addy Osmani 在 2026 年 6 月的分析指出,两大主流 AI 编程工具已提供若干可组合的 Loop 原语,命名和用法上存在差异,建议以官方文档为准
| **Loop 原语** | **在 Loop 中的角色** | **OpenAI Codex** | **Claude Code** |
|--------------|-------------------|-----------------|----------------|
| **Automations** | 循环的心跳(定时发现 + 分诊) | Automations tab:选择项目、prompt、频率环境;结果进入 Triage 收件箱 | `/loop`(定时重跑)、`/goal`(运行直到完成、cron、hooks、GitHub Actions |
| **Worktrees** | 并行隔离(避免文件冲突) | 每个 thread 内置 worktree | `git worktree`、`--worktree` 标志、subagent 的 `isolation: worktree` |
| **Automations** | 循环的心跳(定时发现 + 分诊) | Automations tab官方文档https://developers.openai.com/codex/automations在指定项目中设置自动化任务定义 prompt、运行频率环境变量;执行结果可通过 Triage 收件箱查看和管理 | `/loop`按间隔定时重跑)、`/goal`(运行至 evaluator 确认满足条件、cron 任务、Git hooks、GitHub Actions |
| **Worktrees** | 并行隔离(避免文件冲突) | 每个 thread 自动创建独立的 git worktree官方文档https://developers.openai.com/codex/subagents | `git worktree` 命令、`--worktree` 运行标志、subagent 配置中的 `isolation: worktree` 模式 |
| **Skills** | 项目知识编码(避免重复解释) | Agent Skills`SKILL.md`),用 `$name` 或隐式调用 | Agent Skills`SKILL.md` |
| **Plugins / Connectors** | 连接真实工具 | Connectors (MCP) + plugins | MCP servers + plugins |
| **Sub-agents** | 并行 ideate + verify | TOML 文件定义在 `.codex/agents/` | `.claude/agents/` 中的 task subagents、agent teams |
@@ -522,7 +500,7 @@ Addy Osmani 在 2026 年 6 月的分析指出,两大主流 AI 编程工具已
| `/goal` | 条件被 evaluator 确认满足 | "run-until-done" 类型任务 |
| Stop hook | 自定义脚本或 prompt 决定 | 复杂自定义逻辑 |
**学术对应**`/goal` 的 evaluator 机制直接对应 Reflexion 的 **Evaluator Model (M_e)** 角色。
**可类比到**`/goal` 的 evaluator 机制直接对应 Reflexion 的 **Evaluator Model (M_e)** 角色。
---
@@ -538,7 +516,7 @@ Addy Osmani 在 2026 年 6 月的分析指出,两大主流 AI 编程工具已
**适合**:监控、数据同步、定期检查任务。
**学术对应**Reflexion 的 **试验循环**——每次试验独立评估。
**可类比到**Reflexion 的 **试验循环**——每次试验独立评估。
---
@@ -550,7 +528,7 @@ Addy Osmani 在 2026 年 6 月的分析指出,两大主流 AI 编程工具已
**适合**:内容生成与优化、文案打磨。
**学术对应**
**可类比到**
- **Self-Refine**arXiv:2303.17651):迭代精炼框架
- **Reflexion** 的编程任务:生成代码 → 运行测试 → 自我反思 → 重写
@@ -570,7 +548,7 @@ Addy Osmani 在 2026 年 6 月的分析指出,两大主流 AI 编程工具已
**适合**实时响应系统、告警处理、Webhook 驱动工作流。
**学术对应****AgentEval** 的 DAG 结构——事件触发有向无环图中的节点执行。
**可类比到****AgentEval** 的 DAG 结构——事件触发有向无环图中的节点执行。
---
@@ -675,6 +653,8 @@ gh issue view <number> --json comments | grep -q "linear.app"
### 完整 Loop 配置示例Claude Code
> ⚠️ **命令示例说明**:本文中的 CLI 命令示例仅供参考,实际使用时请以[官方文档](https://code.claude.com/docs/en/goal)为准。命令语法可能随版本变化,建议先查阅最新文档。
```bash
# 启动 loop每天 9:00 AM 运行)
claude --loop "0 9 * * *" --prompt "
@@ -757,9 +737,9 @@ if evaluation["needs_human_review"]:
**问题**:用户不一定希望所有历史都被整理、保存和调用。
**学术对应**
- **NeuSymMS**2025[arXiv:2605.17596]:提出**混合神经符号记忆系统**,支持用户/agent/agent-to-agent 作用域,实现记忆的生命周期管理
- **Governed Collaborative Memory**2025[arXiv:2605.04264]:将记忆治理视为**人工选择机制**——哪些记忆应该成为共享的制度化状态?
**可类比到**
- **NeuSymMS**2026[arXiv:2605.17596]:提出**混合神经符号记忆系统**,支持用户/agent/agent-to-agent 作用域,实现记忆的生命周期管理
- **Governed Collaborative Memory**2026[arXiv:2605.04264]:将记忆治理视为**人工选择机制**——哪些记忆应该成为共享的制度化状态?
**Memory 透明度三要素**
- 用户必须知道系统 **记住了什么**
@@ -774,8 +754,8 @@ if evaluation["needs_human_review"]:
**问题**AI 记得用户过去的偏好并不等于这个偏好今天仍然成立AI 记得用户过去的计划,也不等于这个计划还在进行。
**学术对应**
- **EverMemOS**2025[arXiv:2601.02163]:提出**印记生命周期engram-inspired lifecycle**,将记忆分为:
**可类比到**
- **EverMemOS**2026[arXiv:2601.02163]:提出**印记生命周期engram-inspired lifecycle**,将记忆分为:
- 情景痕迹形成Episodic Trace Formation
- 记忆巩固Consolidation
- 冲突解决Conflict Resolution
@@ -797,9 +777,9 @@ if evaluation["needs_human_review"]:
- Agent 可以草拟回复 → 不一定可以自动发送
- Agent 可以整理财务信息 → 不一定可以自动转账
**学术对应**
**可类比到**
- **Verifiability-First Agents**2025[arXiv:2512.17259]:提出**运行时认证**和**轻量级审计 agent**,持续验证意图与行为
- **TrustBench**2025[arXiv:2603.09157]:提供**实时信任验证框架**,在 agent 执行前评估动作的可信度
- **TrustBench**2026[arXiv:2603.09157]:提供**实时信任验证框架**,在 agent 执行前评估动作的可信度
**必须有的权限分层**
1. 哪些动作可以 **自动执行**
@@ -813,10 +793,10 @@ if evaluation["needs_human_review"]:
**问题**:一个聊天机器人答错了,用户关窗口就行;但一个持续运行的 agent如果改了文件、调用了 API、更新了数据库、影响了业务流程就必须留下记录。
**学术对应**
- **AEMA**2025[arXiv:2601.11903]:提出**自适应多 agent 评估框架**,支持可审计的过程追踪
- **AlphaEval**2025[arXiv:2604.12162]:关注**生产环境中的 agent 评估**,承认隐式约束、异构输入、长周期任务
- **ProofAgent Harness**2025[arXiv:2605.24134]:提供**对抗性评估基础设施**,捕获多轮交互中的行为
**可类比到**
- **AEMA**2026[arXiv:2601.11903]:提出**自适应多 agent 评估框架**,支持可审计的过程追踪
- **AlphaEval**2026[arXiv:2604.12162]:关注**生产环境中的 agent 评估**,承认隐式约束、异构输入、长周期任务
- **ProofAgent Harness**2026[arXiv:2605.24134]:提供**对抗性评估基础设施**,捕获多轮交互中的行为
**必须追踪的问题**
- 谁触发了它?
@@ -842,7 +822,7 @@ if evaluation["needs_human_review"]:
**不适合 Loop 的场景**
- 一次性、创意主导的工作(写诗、写小说)
- 需要强人类判断的伦理决策
- 实时响应系统(用事件驱动代替
- 实时响应更适合**事件驱动 loop**,而不是轮询 loop前文 Event-Response Loop 即是此类
- 探索性、方向不明的研究
- 简单问答、小范围创意
@@ -925,21 +905,26 @@ if evaluation["needs_human_review"]:
2. **动手实验 Claude Code**
```bash
# 安装 Claude Code
# 安装 Claude Code(请以官方文档为准)
npm install -g @anthropic-ai/claude-code
# 尝试 /goal 命令
claude "/goal 在 test/auth 目录下所有测试通过且 lint 干净"
```
> ⚠️ 命令语法可能随版本变化,请查阅 [官方文档](https://code.claude.com/docs/en/goal)。
3. **尝试 OpenAI Codex**
```bash
# 安装 Codex CLI
# 安装 Codex CLI(请以官方文档为准)
npm install -g @openai/codex
# 查看 automations 功能
codex automations --help
# 查看 subagents 文档
codex subagents --help
```
> ⚠️ 命令语法可能随版本变化,请查阅 [官方文档](https://developers.openai.com/codex/automations) 和 [Subagents 文档](https://developers.openai.com/codex/subagents)。
---
@@ -988,7 +973,7 @@ agent_teams:
**学术参考**
- **Gödel Agent**2024递归自我改进框架支持多 agent 协作
- **buddyMe**2025[arXiv:2606.11926]:多范式 agent 交互框架
- **buddyMe**2026[arXiv:2606.11926]:多范式 agent 交互框架
---
@@ -1093,22 +1078,61 @@ Loop Engineering 的三大理论支柱:
| **Infini Memory** | 2026 | 主题文档记忆 | Memory 要素的结构化存储方案 |
| **Agentic Memory** | 2025 | 统一长短期记忆管理 | Memory 工具化的学术体现 |
**核心共识**所有信源一致认同):
**核心共识**多数学信源认同):
1. Loop Engineering 是 2026 年 AI 工程的核心范式转移
2. Claude Code 和 OpenAI Codex 已原生支持 loop 原语
2. Claude Code 和 OpenAI Codex 等主流编码 agent 已提供若干可组合的 Loop 原语,但具体命名和用法存在差异,建议以官方文档为准
3. **Evaluation 是 loop 最关键的瓶颈**Reflexion 论文强调)
4. Prompt Engineering 作为独立技能已死,但作为系统工程的一部分仍然重要
4. 手工试错式 Prompt Engineering 作为独立技能边际价值下降,但作为系统工程的一部分仍然重要
**存在争议的点**
- Loop Engineering 是否是"换个名字的 cron job"?(部分社区质疑)
- **本文立场**cron 是 Loop 的一部分,但 Loop 还包括 Memory、Evaluation、Human Checkpoint 等更复杂的系统设计,不等同于 cron
- Prompt Engineering 是否完全死亡?
- **本文立场**:作为 2023 年那种"找一个 phrase 提升 4 分"的技能已死,但作为系统工程的一部分仍然必要
- **本文立场**:作为 2023 年那种"找一个 phrase 提升 4 分"的技能边际价值已下降,但作为系统工程的一部分仍然必要
---
### 来源类型说明
本文按照以下标准标注信源类型:
| 类型 | 说明 | 本文示例 |
|------|------|---------|
| **A** | 学术顶会/顶期刊论文 | ReAct (ICLR 2023)、Reflexion |
| **B** | 官方文档/博客 | Addy Osmani 博客、Claude Code 文档、OpenAI Codex 文档 |
| **C** | 权威技术媒体 | IEEE Spectrum |
| **D** | 社区观点/二手解读 | Twitter 引用、小黑盒文章、知乎专栏 |
> **说明**:本文核心论点以 A/B 级信源为支撑D 级信源仅用于补充实战视角或社区讨论,不构成主要依据。
---
## 参考文献
[1] Addy Osmani. *Loop Engineering*. https://addyosmani.com/blog/loop-engineering (2026-06-07) **[类型 B]**
[2] Peter Steinberger (via Twitter). "You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents." (2026) **[类型 D]**
[3] Boris Cherny (via Rohan Paul). "I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write loops." (2026) **[类型 D]**
[4] Dina Genkina. *AI Prompt Engineering Is Dead*. IEEE Spectrum. https://spectrum.ieee.org/prompt-engineering-is-dead (2024-03) **[类型 C]**
[5] Shunyu Yao et al. *ReAct: Synergizing Reasoning and Acting in Language Models*. ICLR 2023. https://arxiv.org/abs/2210.03629 **[类型 A]**
[6] Noah Shinn et al. *Reflexion: Language Agents with Verbal Reinforcement Learning*. 2023. https://arxiv.org/abs/2303.11366 **[类型 A]**
[7] Madaan et al. *Self-Refine: Iterative Refinement with Self-Feedback*. 2023. https://arxiv.org/abs/2303.17651 **[类型 A]**
[8] AI小白起. *从 Prompt 到 LoopDreaming 正在把 AI 带入"自我循环"的时代*. 小黑盒. https://www.xiaoheihe.cn/app/bbs/link/f17c72094653 (2026-06-18) **[类型 D]**
[9] 错觉幻视. *来不及悼念了 Prompt Engineering现在登场的是......*. 小黑盒. https://www.xiaoheihe.cn/app/bbs/link/3ae872125f35 (2026-06-26) **[类型 D]**
[10] Anthropic. *Claude Code Documentation: Keep Claude working toward a goal*. https://code.claude.com/docs/en/goal (2026) **[类型 B]**
[11] OpenAI. *Subagents Codex*. https://developers.openai.com/codex/subagents **[类型 B]**
[12] OpenAI. *Skills Codex*. https://developers.openai.com/codex/skills **[类型 B]**
[1] Addy Osmani. *Loop Engineering*. https://addyosmani.com/blog/loop-engineering (2026-06-07)
[2] Peter Steinberger (via Twitter). "You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents." (2026)