dd12755ff13f5231ae79d2d70e7e2e93d5564d46
AI 日报 Pipeline
每日自动抓取 AI 行业动态,去重→归类→改写→发布到 blog.ephron.ren。
仓库结构
ai-daily-report/
├── README.md ← 本文件
├── script/
│ ├── ai_daily_blog_pipeline.py ← 主脚本(~1100 行,纯 Python)
│ ├── run_meta.json ← 最近一次运行元数据
│ └── blog_markdown.md ← 最近一次发布的博文
├── skill/
│ ├── SKILL.md ← Hermes Agent 技能文档
│ └── references/
│ ├── llm-config-auto-follow.md ← LLM 配置自动跟随机制
│ ├── mimo-api-performance.md ← MiMo API 性能基准测试
│ ├── rendering-guide.md ← 博文渲染 & 导览格式
│ └── timeout-config.md ← 超时配置参考
└── cron/
└── config.json ← Cron 作业设置
Pipeline 流程(4 阶段)
| 阶段 | 做什么 | 是否调 LLM |
|---|---|---|
| Stage 0 | 脚本去重(difflib,纯 Python) | ❌ |
| Stage 1 | LLM 语义去重 | ✅ 1 次调用 |
| Stage 2 | 并行改写摘要 + 分类 | ✅ 2 次并发调用 |
| Stage 3 | LLM 生成今日导览 | ✅ 1 次调用 |
| Stage 4 | 组装 + 发布到博客 | ❌ |
数据源
| 来源 | 类型 | 备注 |
|---|---|---|
| AI HOT | API | 主要来源,分类齐全 |
| 橘鸦 AI 早报 | RSS(content:encoded) | 每日 ~09:34 发布 |
| InfoQ AI | RSS | 英文技术管理 |
| 量子位 | RSS | 中文 AI 新闻 |
| MIT 科技评论 AI | RSS | 英文前沿报道 |
关键配置
- Cron: 每天 10:00 CST 执行,
no_agent模式 - 超时: 脚本 600s,LLM 600s,RSS 25s,橘鸦 45s
- LLM: 自动跟随 Hermes 主模型配置
- 去重: 只去重不精选,保留全部非重复条目
- 风格: 无 emoji、无参考编号、无建议/评论、大白话
上次运行
来自 run_meta.json:
- 日期:2026-06-04
- 原始条目:39 | 去重后:38
- AI HOT:32 | InfoQ:2 | 量子位:5 | 橘鸦:0(超时)
- 已发布:https://blog.ephron.ren/posts/ai-2026-06-04
2026-06-04 修复
修复了橘鸦源长期不工作的问题:
- 解析从 RSS
content:encoded获取内容,消除第二次 HTTP 请求 - 修复正则
\\s*→\s*(白字符类错误) - 修复
.*?→[^<]*?(防止概览节渗漏) - 橘鸦超时从 25s 提升至 45s
Description
Languages
Python
100%