init: AI日报 pipeline 完整代码 + 技能文档 + 运行记录

This commit is contained in:
2026-06-04 10:38:44 +08:00
commit 94e18ce22d
10 changed files with 1728 additions and 0 deletions

67
README.md Normal file
View File

@@ -0,0 +1,67 @@
# AI 日报 Pipeline
每日自动抓取 AI 行业动态,去重→归类→改写→发布到 [blog.ephron.ren](https://blog.ephron.ren)。
## 仓库结构
```
ai-daily-report/
├── README.md ← 本文件
├── script/
│ ├── ai_daily_blog_pipeline.py ← 主脚本(~1100 行,纯 Python
│ ├── run_meta.json ← 最近一次运行元数据
│ └── blog_markdown.md ← 最近一次发布的博文
├── skill/
│ ├── SKILL.md ← Hermes Agent 技能文档
│ └── references/
│ ├── llm-config-auto-follow.md ← LLM 配置自动跟随机制
│ ├── mimo-api-performance.md ← MiMo API 性能基准测试
│ ├── rendering-guide.md ← 博文渲染 & 导览格式
│ └── timeout-config.md ← 超时配置参考
└── cron/
└── config.json ← Cron 作业设置
```
## Pipeline 流程4 阶段)
| 阶段 | 做什么 | 是否调 LLM |
|------|--------|-----------|
| Stage 0 | 脚本去重difflib纯 Python | ❌ |
| Stage 1 | LLM 语义去重 | ✅ 1 次调用 |
| Stage 2 | 并行改写摘要 + 分类 | ✅ 2 次并发调用 |
| Stage 3 | LLM 生成今日导览 | ✅ 1 次调用 |
| Stage 4 | 组装 + 发布到博客 | ❌ |
## 数据源
| 来源 | 类型 | 备注 |
|------|------|------|
| AI HOT | API | 主要来源,分类齐全 |
| 橘鸦 AI 早报 | RSScontent:encoded | 每日 ~09:34 发布 |
| InfoQ AI | RSS | 英文技术管理 |
| 量子位 | RSS | 中文 AI 新闻 |
| MIT 科技评论 AI | RSS | 英文前沿报道 |
## 关键配置
- **Cron**: 每天 10:00 CST 执行,`no_agent` 模式
- **超时**: 脚本 600sLLM 600sRSS 25s橘鸦 45s
- **LLM**: 自动跟随 Hermes 主模型配置
- **去重**: 只去重不精选,保留全部非重复条目
- **风格**: 无 emoji、无参考编号、无建议/评论、大白话
## 上次运行
来自 `run_meta.json`
- 日期2026-06-04
- 原始条目39 | 去重后38
- AI HOT32 | InfoQ2 | 量子位5 | 橘鸦0超时
- 已发布https://blog.ephron.ren/posts/ai-2026-06-04
## 2026-06-04 修复
修复了橘鸦源长期不工作的问题:
1. 解析从 RSS `content:encoded` 获取内容,消除第二次 HTTP 请求
2. 修复正则 `\\s*``\s*`(白字符类错误)
3. 修复 `.*?``[^<]*?`(防止概览节渗漏)
4. 橘鸦超时从 25s 提升至 45s