Files
ai-daily-report/README.md

68 lines
2.5 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# AI 日报 Pipeline
每日自动抓取 AI 行业动态,去重→归类→改写→发布到 [blog.ephron.ren](https://blog.ephron.ren)。
## 仓库结构
```
ai-daily-report/
├── README.md ← 本文件
├── script/
│ ├── ai_daily_blog_pipeline.py ← 主脚本(~1100 行,纯 Python
│ ├── run_meta.json ← 最近一次运行元数据
│ └── blog_markdown.md ← 最近一次发布的博文
├── skill/
│ ├── SKILL.md ← Hermes Agent 技能文档
│ └── references/
│ ├── llm-config-auto-follow.md ← LLM 配置自动跟随机制
│ ├── mimo-api-performance.md ← MiMo API 性能基准测试
│ ├── rendering-guide.md ← 博文渲染 & 导览格式
│ └── timeout-config.md ← 超时配置参考
└── cron/
└── config.json ← Cron 作业设置
```
## Pipeline 流程4 阶段)
| 阶段 | 做什么 | 是否调 LLM |
|------|--------|-----------|
| Stage 0 | 脚本去重difflib纯 Python | ❌ |
| Stage 1 | LLM 语义去重 | ✅ 1 次调用 |
| Stage 2 | 并行改写摘要 + 分类 | ✅ 2 次并发调用 |
| Stage 3 | LLM 生成今日导览 | ✅ 1 次调用 |
| Stage 4 | 组装 + 发布到博客 | ❌ |
## 数据源
| 来源 | 类型 | 备注 |
|------|------|------|
| AI HOT | API | 主要来源,分类齐全 |
| 橘鸦 AI 早报 | RSScontent:encoded | 每日 ~09:34 发布 |
| InfoQ AI | RSS | 英文技术管理 |
| 量子位 | RSS | 中文 AI 新闻 |
| MIT 科技评论 AI | RSS | 英文前沿报道 |
## 关键配置
- **Cron**: 每天 10:00 CST 执行,`no_agent` 模式
- **超时**: 脚本 600sLLM 600sRSS 25s橘鸦 45s
- **LLM**: 自动跟随 Hermes 主模型配置
- **去重**: 只去重不精选,保留全部非重复条目
- **风格**: 无 emoji、无参考编号、无建议/评论、大白话
## 上次运行
来自 `run_meta.json`
- 日期2026-06-04
- 原始条目39 | 去重后38
- AI HOT32 | InfoQ2 | 量子位5 | 橘鸦0超时
- 已发布https://blog.ephron.ren/posts/ai-2026-06-04
## 2026-06-04 修复
修复了橘鸦源长期不工作的问题:
1. 解析从 RSS `content:encoded` 获取内容,消除第二次 HTTP 请求
2. 修复正则 `\\s*``\s*`(白字符类错误)
3. 修复 `.*?``[^<]*?`(防止概览节渗漏)
4. 橘鸦超时从 25s 提升至 45s