init: AI日报 pipeline 完整代码 + 技能文档 + 运行记录
This commit is contained in:
67
README.md
Normal file
67
README.md
Normal file
@@ -0,0 +1,67 @@
|
||||
# AI 日报 Pipeline
|
||||
|
||||
每日自动抓取 AI 行业动态,去重→归类→改写→发布到 [blog.ephron.ren](https://blog.ephron.ren)。
|
||||
|
||||
## 仓库结构
|
||||
|
||||
```
|
||||
ai-daily-report/
|
||||
├── README.md ← 本文件
|
||||
├── script/
|
||||
│ ├── ai_daily_blog_pipeline.py ← 主脚本(~1100 行,纯 Python)
|
||||
│ ├── run_meta.json ← 最近一次运行元数据
|
||||
│ └── blog_markdown.md ← 最近一次发布的博文
|
||||
├── skill/
|
||||
│ ├── SKILL.md ← Hermes Agent 技能文档
|
||||
│ └── references/
|
||||
│ ├── llm-config-auto-follow.md ← LLM 配置自动跟随机制
|
||||
│ ├── mimo-api-performance.md ← MiMo API 性能基准测试
|
||||
│ ├── rendering-guide.md ← 博文渲染 & 导览格式
|
||||
│ └── timeout-config.md ← 超时配置参考
|
||||
└── cron/
|
||||
└── config.json ← Cron 作业设置
|
||||
```
|
||||
|
||||
## Pipeline 流程(4 阶段)
|
||||
|
||||
| 阶段 | 做什么 | 是否调 LLM |
|
||||
|------|--------|-----------|
|
||||
| Stage 0 | 脚本去重(difflib,纯 Python) | ❌ |
|
||||
| Stage 1 | LLM 语义去重 | ✅ 1 次调用 |
|
||||
| Stage 2 | 并行改写摘要 + 分类 | ✅ 2 次并发调用 |
|
||||
| Stage 3 | LLM 生成今日导览 | ✅ 1 次调用 |
|
||||
| Stage 4 | 组装 + 发布到博客 | ❌ |
|
||||
|
||||
## 数据源
|
||||
|
||||
| 来源 | 类型 | 备注 |
|
||||
|------|------|------|
|
||||
| AI HOT | API | 主要来源,分类齐全 |
|
||||
| 橘鸦 AI 早报 | RSS(content:encoded) | 每日 ~09:34 发布 |
|
||||
| InfoQ AI | RSS | 英文技术管理 |
|
||||
| 量子位 | RSS | 中文 AI 新闻 |
|
||||
| MIT 科技评论 AI | RSS | 英文前沿报道 |
|
||||
|
||||
## 关键配置
|
||||
|
||||
- **Cron**: 每天 10:00 CST 执行,`no_agent` 模式
|
||||
- **超时**: 脚本 600s,LLM 600s,RSS 25s,橘鸦 45s
|
||||
- **LLM**: 自动跟随 Hermes 主模型配置
|
||||
- **去重**: 只去重不精选,保留全部非重复条目
|
||||
- **风格**: 无 emoji、无参考编号、无建议/评论、大白话
|
||||
|
||||
## 上次运行
|
||||
|
||||
来自 `run_meta.json`:
|
||||
- 日期:2026-06-04
|
||||
- 原始条目:39 | 去重后:38
|
||||
- AI HOT:32 | InfoQ:2 | 量子位:5 | 橘鸦:0(超时)
|
||||
- 已发布:https://blog.ephron.ren/posts/ai-2026-06-04
|
||||
|
||||
## 2026-06-04 修复
|
||||
|
||||
修复了橘鸦源长期不工作的问题:
|
||||
1. 解析从 RSS `content:encoded` 获取内容,消除第二次 HTTP 请求
|
||||
2. 修复正则 `\\s*` → `\s*`(白字符类错误)
|
||||
3. 修复 `.*?` → `[^<]*?`(防止概览节渗漏)
|
||||
4. 橘鸦超时从 25s 提升至 45s
|
||||
Reference in New Issue
Block a user