68 lines
2.5 KiB
Markdown
68 lines
2.5 KiB
Markdown
# AI 日报 Pipeline
|
||
|
||
每日自动抓取 AI 行业动态,去重→归类→改写→发布到 [blog.ephron.ren](https://blog.ephron.ren)。
|
||
|
||
## 仓库结构
|
||
|
||
```
|
||
ai-daily-report/
|
||
├── README.md ← 本文件
|
||
├── script/
|
||
│ ├── ai_daily_blog_pipeline.py ← 主脚本(~1100 行,纯 Python)
|
||
│ ├── run_meta.json ← 最近一次运行元数据
|
||
│ └── blog_markdown.md ← 最近一次发布的博文
|
||
├── skill/
|
||
│ ├── SKILL.md ← Hermes Agent 技能文档
|
||
│ └── references/
|
||
│ ├── llm-config-auto-follow.md ← LLM 配置自动跟随机制
|
||
│ ├── mimo-api-performance.md ← MiMo API 性能基准测试
|
||
│ ├── rendering-guide.md ← 博文渲染 & 导览格式
|
||
│ └── timeout-config.md ← 超时配置参考
|
||
└── cron/
|
||
└── config.json ← Cron 作业设置
|
||
```
|
||
|
||
## Pipeline 流程(4 阶段)
|
||
|
||
| 阶段 | 做什么 | 是否调 LLM |
|
||
|------|--------|-----------|
|
||
| Stage 0 | 脚本去重(difflib,纯 Python) | ❌ |
|
||
| Stage 1 | LLM 语义去重 | ✅ 1 次调用 |
|
||
| Stage 2 | 并行改写摘要 + 分类 | ✅ 2 次并发调用 |
|
||
| Stage 3 | LLM 生成今日导览 | ✅ 1 次调用 |
|
||
| Stage 4 | 组装 + 发布到博客 | ❌ |
|
||
|
||
## 数据源
|
||
|
||
| 来源 | 类型 | 备注 |
|
||
|------|------|------|
|
||
| AI HOT | API | 主要来源,分类齐全 |
|
||
| 橘鸦 AI 早报 | RSS(content:encoded) | 每日 ~09:34 发布 |
|
||
| InfoQ AI | RSS | 英文技术管理 |
|
||
| 量子位 | RSS | 中文 AI 新闻 |
|
||
| MIT 科技评论 AI | RSS | 英文前沿报道 |
|
||
|
||
## 关键配置
|
||
|
||
- **Cron**: 每天 10:00 CST 执行,`no_agent` 模式
|
||
- **超时**: 脚本 600s,LLM 600s,RSS 25s,橘鸦 45s
|
||
- **LLM**: 自动跟随 Hermes 主模型配置
|
||
- **去重**: 只去重不精选,保留全部非重复条目
|
||
- **风格**: 无 emoji、无参考编号、无建议/评论、大白话
|
||
|
||
## 上次运行
|
||
|
||
来自 `run_meta.json`:
|
||
- 日期:2026-06-04
|
||
- 原始条目:39 | 去重后:38
|
||
- AI HOT:32 | InfoQ:2 | 量子位:5 | 橘鸦:0(超时)
|
||
- 已发布:https://blog.ephron.ren/posts/ai-2026-06-04
|
||
|
||
## 2026-06-04 修复
|
||
|
||
修复了橘鸦源长期不工作的问题:
|
||
1. 解析从 RSS `content:encoded` 获取内容,消除第二次 HTTP 请求
|
||
2. 修复正则 `\\s*` → `\s*`(白字符类错误)
|
||
3. 修复 `.*?` → `[^<]*?`(防止概览节渗漏)
|
||
4. 橘鸦超时从 25s 提升至 45s
|