# AI 日报 Pipeline 每日自动抓取 AI 行业动态,去重→归类→改写→发布到 [blog.ephron.ren](https://blog.ephron.ren)。 ## 仓库结构 ``` ai-daily-report/ ├── README.md ← 本文件 ├── script/ │ ├── ai_daily_blog_pipeline.py ← 主脚本(~1100 行,纯 Python) │ ├── run_meta.json ← 最近一次运行元数据 │ └── blog_markdown.md ← 最近一次发布的博文 ├── skill/ │ ├── SKILL.md ← Hermes Agent 技能文档 │ └── references/ │ ├── llm-config-auto-follow.md ← LLM 配置自动跟随机制 │ ├── mimo-api-performance.md ← MiMo API 性能基准测试 │ ├── rendering-guide.md ← 博文渲染 & 导览格式 │ └── timeout-config.md ← 超时配置参考 └── cron/ └── config.json ← Cron 作业设置 ``` ## Pipeline 流程(4 阶段) | 阶段 | 做什么 | 是否调 LLM | |------|--------|-----------| | Stage 0 | 脚本去重(difflib,纯 Python) | ❌ | | Stage 1 | LLM 语义去重 | ✅ 1 次调用 | | Stage 2 | 并行改写摘要 + 分类 | ✅ 2 次并发调用 | | Stage 3 | LLM 生成今日导览 | ✅ 1 次调用 | | Stage 4 | 组装 + 发布到博客 | ❌ | ## 数据源 | 来源 | 类型 | 备注 | |------|------|------| | AI HOT | API | 主要来源,分类齐全 | | 橘鸦 AI 早报 | RSS(content:encoded) | 每日 ~09:34 发布 | | InfoQ AI | RSS | 英文技术管理 | | 量子位 | RSS | 中文 AI 新闻 | | MIT 科技评论 AI | RSS | 英文前沿报道 | ## 关键配置 - **Cron**: 每天 10:00 CST 执行,`no_agent` 模式 - **超时**: 脚本 600s,LLM 600s,RSS 25s,橘鸦 45s - **LLM**: 自动跟随 Hermes 主模型配置 - **去重**: 只去重不精选,保留全部非重复条目 - **风格**: 无 emoji、无参考编号、无建议/评论、大白话 ## 上次运行 来自 `run_meta.json`: - 日期:2026-06-04 - 原始条目:39 | 去重后:38 - AI HOT:32 | InfoQ:2 | 量子位:5 | 橘鸦:0(超时) - 已发布:https://blog.ephron.ren/posts/ai-2026-06-04 ## 2026-06-04 修复 修复了橘鸦源长期不工作的问题: 1. 解析从 RSS `content:encoded` 获取内容,消除第二次 HTTP 请求 2. 修复正则 `\\s*` → `\s*`(白字符类错误) 3. 修复 `.*?` → `[^<]*?`(防止概览节渗漏) 4. 橘鸦超时从 25s 提升至 45s