AI 日报 Pipeline

每日自动抓取 AI 行业动态,去重→归类→改写→发布到 blog.ephron.ren

仓库结构

ai-daily-report/
├── README.md                            ← 本文件
├── script/
│   ├── ai_daily_blog_pipeline.py        ← 主脚本(~1100 行,纯 Python
│   ├── run_meta.json                    ← 最近一次运行元数据
│   └── blog_markdown.md                 ← 最近一次发布的博文
├── skill/
│   ├── SKILL.md                         ← Hermes Agent 技能文档
│   └── references/
│       ├── llm-config-auto-follow.md    ← LLM 配置自动跟随机制
│       ├── mimo-api-performance.md      ← MiMo API 性能基准测试
│       ├── rendering-guide.md           ← 博文渲染 & 导览格式
│       └── timeout-config.md            ← 超时配置参考
└── cron/
    └── config.json                      ← Cron 作业设置

Pipeline 流程4 阶段)

阶段 做什么 是否调 LLM
Stage 0 脚本去重difflib纯 Python
Stage 1 LLM 语义去重 1 次调用
Stage 2 并行改写摘要 + 分类 2 次并发调用
Stage 3 LLM 生成今日导览 1 次调用
Stage 4 组装 + 发布到博客

数据源

来源 类型 备注
AI HOT API 主要来源,分类齐全
橘鸦 AI 早报 RSScontent:encoded 每日 ~09:34 发布
InfoQ AI RSS 英文技术管理
量子位 RSS 中文 AI 新闻
MIT 科技评论 AI RSS 英文前沿报道

关键配置

  • Cron: 每天 10:00 CST 执行,no_agent 模式
  • 超时: 脚本 600sLLM 600sRSS 25s橘鸦 45s
  • LLM: 自动跟随 Hermes 主模型配置
  • 去重: 只去重不精选,保留全部非重复条目
  • 风格: 无 emoji、无参考编号、无建议/评论、大白话

上次运行

来自 run_meta.json

2026-06-04 修复

修复了橘鸦源长期不工作的问题:

  1. 解析从 RSS content:encoded 获取内容,消除第二次 HTTP 请求
  2. 修复正则 \\s*\s*(白字符类错误)
  3. 修复 .*?[^<]*?(防止概览节渗漏)
  4. 橘鸦超时从 25s 提升至 45s
Description
No description provided
Readme 213 KiB
Languages
Python 100%