diff --git a/loop-engineering-learning-blog.md b/loop-engineering-learning-blog.md index d55b78c..4fed576 100644 --- a/loop-engineering-learning-blog.md +++ b/loop-engineering-learning-blog.md @@ -1,3 +1,5 @@ +# Loop Engineering 学习指南:从 Prompt 到自主循环的范式转移 + ## 一、什么是 Loop Engineering? ### 核心定义 @@ -7,10 +9,9 @@ **一句话定义**(Addy Osmani): > Loop Engineering 就是把「负责提示 AI 的你」这个角色,换成一套替你做这件事的 **系统**。 -**传统工作流 vs Loop Engineering**: - **传统工作流 vs Loop Engineering 对比** + | 维度 | 传统 Prompt Engineering | Loop Engineering(新范式) | |------|------------------------|---------------------------| | **你的角色** | 写提示词的人 | 设计循环系统的工程师 | @@ -52,6 +53,7 @@ Loop Engineering → "做完成"(让 AI 持续创造结果) - **人类试错式 prompt engineering 没有一致性能趋势**:甚至连思维链(chain-of-thought)prompting 有时改善结果,有时反而伤害性能 - **唯一真正的趋势可能是"没有趋势"**:对任何给定的模型、数据集和 prompting 策略,最优解很可能就是针对那个特定组合的 + | 人类测试的 Prompt | AI 自动优化后的 Prompt | |-----------------|----------------------| | "You are as smart as ChatGPT. Answer the math question. Take a deep breath and think carefully." | "Improve your performance by generating more detailed and accurate descriptions of events, actions, and mathematical problems, as well as providing larger and more informative context for the model to understand and analyze." | @@ -144,6 +146,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了: **相关论文**: + | 论文 | 评估机制 | 关键发现 | |------|---------|---------| | **ReAct** | 环境反馈(任务成功/失败) | 只有结合推理,agent 才能准确判断何时需要检索信息 | @@ -170,6 +173,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了: **相关论文**: + | 论文 | 记忆机制 | 核心创新 | |------|---------|---------| | **Reflexion** | 滑动窗口长期记忆(最近 3 条自我反思) | 将奖励信号转化为语言反馈存入记忆 | @@ -180,6 +184,7 @@ IEEE 的研究并不意味着 prompt 本身没用,而是揭示了: **有 Memory vs 无 Memory 的 Loop**: + | 有 Memory 的 Loop | 无 Memory 的 Loop | |-------------------|-------------------| | 积累经验,越跑越好 | 每轮都像第一次上班 | @@ -265,6 +270,7 @@ ReAct 首次系统性地提出了 **Reasoning(推理)与 Acting(行动) - **ALFWorld**(文本游戏):ReAct 平均成功率 **71%**,远超 Act-only 的 45% 和 BUTLER 的 37% - **WebShop**(在线购物):ReAct 比 IL+RL 方法(训练用了 10,587 条数据)的绝对成功率高出 **10%** + | 方法 | ALFWorld 成功率 | WebShop 成功率 | |------|----------------|----------------| | Act-only | 45% | 30.1% | @@ -328,6 +334,7 @@ Reflexion 在 ReAct 的基础上增加了一个关键组件:**自我反思记 **实验数据**: + | 任务 | ReAct | ReAct + Reflexion | 提升 | |------|-------|-------------------|------| | ALFWorld(决策) | 65% → 130/134 任务完成 | 平均成功率提升 **22%**(12 次迭代) | @@ -336,6 +343,7 @@ Reflexion 在 ReAct 的基础上增加了一个关键组件:**自我反思记 **消融实验**(Ablation Study): + | 配置 | 测试生成 | 自我反思 | Pass@1 | |------|---------|---------|--------| | 基线(GPT-4) | ✗ | ✗ | 60% | @@ -379,12 +387,13 @@ Loop Engineering 的核心挑战之一是长期记忆管理。以下是 2025-202 **记忆系统论文速览**: + | 论文 | 年份 | 核心机制 | 解决的问题 | 适合场景 | |------|------|---------|-----------|---------| | Infini Memory | 2026 | Topic Documents(主题文档) | 孤立记录存储 | 跨会话证据聚合 | -| MemForest | 2025 | 层级时间索引 | 粗粒度状态管理 | 并行更新、低延迟 | +| MemForest | 2026 | 层级时间索引 | 粗粒度状态管理 | 并行更新、低延迟 | | Agentic Memory | 2025 | 记忆作为工具 | 记忆操作与推理耦合 | 端到端优化 | -| AgentEval | 2025 | DAG 步级评估 | 端到端检查掩盖失败 | 精确定位中间失败 | +| AgentEval | 2026 | DAG 步级评估 | 端到端检查掩盖失败 | 精确定位中间失败 | | Verifiability-First | 2025 | 运行时认证 | 意图与行为不一致 | 高安全要求场景 | --- @@ -440,6 +449,7 @@ Loop Engineering 最危险的地方是 agent 做错了还不断说自己完成 **评估系统论文速览**: + | 论文 | 核心机制 | 关键创新 | 对应 Loop 要素 | |------|---------|---------|--------------| | AgentEval | DAG 结构 + 分层失败分类 | 步级评估定位中间失败 | Evaluation | @@ -476,6 +486,7 @@ Loop Engineering 最危险的地方是 agent 做错了还不断说自己完成 Addy Osmani 在 2026 年 6 月的分析指出,两大主流 AI 编程工具已提供若干可组合的 Loop 原语,命名和用法上存在差异,建议以官方文档为准。 + | **Loop 原语** | **在 Loop 中的角色** | **OpenAI Codex** | **Claude Code** | |--------------|-------------------|-----------------|----------------| | **Automations** | 循环的心跳(定时发现 + 分诊) | Automations tab(官方文档:https://developers.openai.com/codex/automations):在指定项目中设置自动化任务,定义 prompt、运行频率和环境变量;执行结果可通过 Triage 收件箱查看和管理 | `/loop`(按间隔定时重跑)、`/goal`(运行至 evaluator 确认满足条件)、cron 任务、Git hooks、GitHub Actions | @@ -494,6 +505,7 @@ Addy Osmani 在 2026 年 6 月的分析指出,两大主流 AI 编程工具已 4. 循环直到 evaluator 确认条件满足 **与 `/loop` 的区别**: + | 命令 | 停止条件 | 适用场景 | |------|---------|---------| | `/loop` | 时间间隔 elapsed | 定期检查、监控任务 | @@ -656,8 +668,9 @@ gh issue view --json comments | grep -q "linear.app" > ⚠️ **命令示例说明**:本文中的 CLI 命令示例仅供参考,实际使用时请以[官方文档](https://code.claude.com/docs/en/goal)为准。命令语法可能随版本变化,建议先查阅最新文档。 ```bash -# 启动 loop(每天 9:00 AM 运行) -claude --loop "0 9 * * *" --prompt " +# 方式 1:在 Claude Code 会话内使用 /loop 命令(推荐) +# 进入 Claude Code 后,输入: +/loop 1d " 你是一个 GitHub issue 自动分诊 agent。请按照以下步骤执行: 1. 读取 .claude/context/github-context.md 获取分类规则 @@ -674,6 +687,11 @@ claude --loop "0 9 * * *" --prompt " 完成后,生成一份简报发送到 #ephron-dev Slack 频道。 " + +# 方式 2:通过 CLI 非交互式运行(适用于 cron 等排程) +# 注意:-p 参数的行为请以官方文档为准 +# 参考:https://code.claude.com/docs/en/scheduled-tasks + ``` --- @@ -832,6 +850,7 @@ if evaluation["needs_human_review"]: ### 学术论文(按重要性排序) + | 论文 | arXiv | 年份 | 核心贡献 | 重要性 | |------|-------|------|---------|--------| | **ReAct** | [2210.03629](https://arxiv.org/abs/2210.03629) | 2023 | 推理与行动交替循环 | ⭐⭐⭐⭐⭐ | @@ -849,6 +868,7 @@ if evaluation["needs_human_review"]: ### 官方文档 + | 资源 | 链接 | |------|------| | Addy Osmani 原文 | https://addyosmani.com/blog/loop-engineering | @@ -861,6 +881,7 @@ if evaluation["needs_human_review"]: ### 开源项目(Stars 数来自 2026 年 6 月) #### 🔄 Loop 工程 + | 项目 | Stars | 说明 | |------|-------|------| | [LangChain](https://github.com/langchain-ai/langchain) | 140k | 最成熟的 LLM 应用框架,支持 ReAct 循环 | @@ -868,6 +889,7 @@ if evaluation["needs_human_review"]: | [ReAct 论文](https://arxiv.org/abs/2210.03629) | - | 提出 Reasoning + Acting 交替范式 | #### 🧩 Pipeline 工程 + | 项目 | Stars | 说明 | |------|-------|------| | [Sim Studio](https://github.com/simstudioai/sim) | 29k | 可视化拖拽构建 AI 工作流 | @@ -875,18 +897,21 @@ if evaluation["needs_human_review"]: | [Pipelex](https://github.com/Pipelex/pipelex) | 683 | "AI reasoning 的 Dockerfile" | #### 🛠 Tool 工程 + | 项目 | Stars | 说明 | |------|-------|------| | [MCP for Beginners](https://github.com/microsoft/mcp-for-beginners) | 17k | Microsoft 官方 MCP 入门 | | [MCP Agent](https://github.com/lastmile-ai/mcp-agent) | 8.4k | MCP 集成示例 | #### 📊 Eval 工程 + | 项目 | Stars | 说明 | |------|-------|------| | [OpenLIT](https://github.com/openlit/openlit) | 2.6k | LLM 应用可观测性与评估 | | [Relai-SDK](https://github.com/relai-ai/relai-sdk) | - | simulate → evaluate → optimize 流程 | #### 🛡 Safety 工程 + | 项目 | Stars | 说明 | |------|-------|------| | [NeMo Guardrails](https://github.com/NVIDIA-NeMo/Guardrails) | 6.5k | NVIDIA 的 LLM 安全护栏 | @@ -909,7 +934,11 @@ if evaluation["needs_human_review"]: npm install -g @anthropic-ai/claude-code # 尝试 /goal 命令 - claude "/goal 在 test/auth 目录下所有测试通过且 lint 干净" + # 在 Claude Code 会话内使用 /goal 命令 + /goal "在 test/auth 目录下所有测试通过且 lint 干净" + + # 或通过 CLI(非交互式) + # claude -p "/goal 在 test/auth 目录下所有测试通过且 lint 干净" ``` > ⚠️ 命令语法可能随版本变化,请查阅 [官方文档](https://code.claude.com/docs/en/goal)。 @@ -992,6 +1021,7 @@ agent_teams: Loop Engineering 的三大理论支柱: + | 支柱 | 代表论文 | 贡献 | |------|---------|------| | **循环机制** | ReAct (2023 ICLR) | 推理与行动交替的基础范式 | @@ -1001,6 +1031,7 @@ Loop Engineering 的三大理论支柱: ### 你需要掌握的新能力 + | 旧能力(Prompt Engineering) | 新能力(Loop Engineering) | |------------------------------|---------------------------| | 写一个完美的 prompt | 设计一个可持续运行的循环 | @@ -1060,6 +1091,7 @@ Loop Engineering 的三大理论支柱: ### 博客类信源 + | 信源 | 类型 | 主要贡献 | 一致性验证 | |------|------|---------|-----------| | **Addy Osmani 原文** | 权威博客 | Loop Engineering 定义、五大原语、工作流 | ✅ 所有其他信源均引用或认同此框架 | @@ -1069,6 +1101,7 @@ Loop Engineering 的三大理论支柱: ### 学术论文信源 + | 论文 | 发表 | 核心贡献 | 与本博客的关联 | |------|------|---------|--------------| | **ReAct** | ICLR 2023 | 推理与行动交替循环 | Loop Engineering 的理论基石 | @@ -1078,9 +1111,9 @@ Loop Engineering 的三大理论支柱: | **Infini Memory** | 2026 | 主题文档记忆 | Memory 要素的结构化存储方案 | | **Agentic Memory** | 2025 | 统一长短期记忆管理 | Memory 工具化的学术体现 | -**核心共识**(多数学信源认同): +**多信源支持的趋势**(范围和命名仍有争议): 1. Loop Engineering 是 2026 年 AI 工程的核心范式转移 -2. Claude Code 和 OpenAI Codex 等主流编码 agent 已提供若干可组合的 Loop 原语,但具体命名和用法存在差异,建议以官方文档为准 +2. Addy Osmani 将两者的功能映射到类似 Loop 原语的五大类别;具体功能以官方文档为准 3. **Evaluation 是 loop 最关键的瓶颈**(Reflexion 论文强调) 4. 手工试错式 Prompt Engineering 作为独立技能边际价值下降,但作为系统工程的一部分仍然重要 @@ -1096,6 +1129,7 @@ Loop Engineering 的三大理论支柱: 本文按照以下标准标注信源类型: + | 类型 | 说明 | 本文示例 | |------|------|---------| | **A** | 学术顶会/顶期刊论文 | ReAct (ICLR 2023)、Reflexion |