first commit

2026-05-10 13:52:46 +08:00
commit ccc63d1e70
4583 changed files with 584341 additions and 0 deletions
--- a/mlops/mimo-capabilities/references/mimo-v2.5-tts-official-doc.md
+++ b/mlops/mimo-capabilities/references/mimo-v2.5-tts-official-doc.md
@@ -0,0 +1,65 @@
+# MiMo-V2.5-TTS Series 官方文档摘要
+
+来源：https://platform.xiaomimimo.com/docs/zh-CN/news/v2.5-tts-release
+
+## 三款模型
+
+| 模型 | 用途 | 特点 |
+|------|------|------|
+| MiMo-V2.5-TTS | 内置精品音色 | 开箱即用，支持语速、情绪、语气精细控制 |
+| MiMo-V2.5-TTS-VoiceDesign | 音色设计 | 一句话定义全新音色，无需参考音频 |
+| MiMo-V2.5-TTS-VoiceClone | 音色克隆 | 少量样本高保真复刻，支持风格叠加 |
+
+## 核心能力
+
+### 1. 精准风格指令遵循
+- 从简短单句指令到整份导演笔记都能稳定理解
+- 支持情绪、语气、语速、发声方式、语言风格等多维度
+- 像给演员说戏一样描述，模型会落到对应演绎
+
+### 2. 灵活音频标签控制
+- 行内标签控制情绪、状态、风格
+- 支持中英双语和开放文本描述
+- 支持多标签叠加（用 `｜` 分隔）
+
+### 3. 丰富文本理解
+- 无 prompt 也能自动捕捉情感弧线
+- 自动识别说话人身份（年龄、气质、角色类型）
+
+## VoiceDesign 详情
+
+**适用场景**：游戏NPC、动画角色、虚拟主播、品牌IP、有声剧的非典型嗓音
+
+**描述维度**：
+- 年龄、性别、口音、音质、发声方式、性格气质
+- 支持复杂、模糊、甚至相互矛盾的描述
+- 不局限于"男/女/青年/老年"粗粒度标签
+
+**案例**：
+- "一位中年男性，说标准普通话，嗓音低沉有磁性，带有轻微的沙哑质感，像纪录片旁白解说员"
+- "一位年迈的老先生，说带北方口音的普通话，语速缓慢而沉稳，嗓音略带沙哑和沧桑感"
+
+## VoiceClone 详情
+
+**特点**：
+- 短至数秒参考音频，无需训练/标注/微调
+- 保留音色身份 + 气息、节奏、习惯性停顿
+- 复用全部控制能力（指令、标签、导演剧本）
+
+**案例**：
+- 参考音频 → 克隆音色 → 叠加风格指令（"用尖锐刻薄的嗓音，带着狐假虎威的得意感"）
+
+## 导演剧本级输入
+
+支持 CHARACTER/SCENE/DIRECTION 分层：
+- CHARACTER：人物身份、背景、性格
+- SCENE：场景环境、情境
+- DIRECTION：详细发声指导（共鸣、语调、气声、咬字）
+
+## 相关资源
+
+- MiMo Studio：https://aistudio.xiaomimimo.com/#/c
+- 使用指南：https://platform.xiaomimimo.com/docs/usage-guide/speech-synthesis-v2.5
+- Skills 开源：https://github.com/XiaomiMiMo/MiMo-Skills
+- ASR 开源：https://github.com/XiaomiMiMo/MiMo-V2.5-ASR
+- 更多案例：https://mimo.xiaomi.com/mimo-v2-5-tts
--- a/mlops/mimo-capabilities/references/sensenova-api.md
+++ b/mlops/mimo-capabilities/references/sensenova-api.md
@@ -0,0 +1,61 @@
+# SenseNova API 配置
+
+## 基本信息
+
+| 字段 | 值 |
+|------|-----|
+| Base URL | `https://token.sensenova.cn/v1` |
+| API Key | 存储在 `~/.hermes/.env` 的 `SN_API_KEY` |
+| 协议 | OpenAI 兼容 |
+
+## 可用模型
+
+| 模型 | MODEL ID | 用途 | 调用限制 |
+|------|----------|------|----------|
+| SenseNova 6.7 Flash-Lite | `sensenova-6.7-flash-lite` | 多模态智能体（文本+图像理解+工具调用） | 每 5 小时 1500 次 |
+| SenseNova U1 Fast | `sensenova-u1-fast` | 信息图生成专用 | 每 5 小时 1500 次 |
+| DeepSeek V4 Flash | `deepseek-v4-flash` | 高性能对话（思考/非思考模式、256K 上下文） | 每 5 小时 150 次 |
+
+## 注意事项
+
+- **限流策略**：按 5 小时窗口计数，不是按分钟
+- **DeepSeek 限流最严**：只有 150 次/5小时，是其他模型的 1/10，深度研究等高频场景建议用 sensenova-6.7-flash-lite
+- **sensenova-6.7-flash-lite 支持图像输入**：可传 `image_url` 类型的 content 块
+- **上下文长度**：256K tokens（最大输入 252K，最大输出 64K）
+- **sensenova-u1-fast** 是图像生成专用，不支持对话接口
+
+## 调用示例
+
+```bash
+curl https://token.sensenova.cn/v1/chat/completions \
+  -H "Authorization: Bearer $SN_API_KEY" \
+  -H "Content-Type: application/json" \
+  -d '{
+    "model": "sensenova-6.7-flash-lite",
+    "messages": [{"role": "user", "content": "你好"}],
+    "max_tokens": 500,
+    "reasoning_effort": "none"
+  }'
+```
+
+## 已安装的 SenseNova Skills
+
+| Skill | 厂商绑定 | 说明 |
+|-------|----------|------|
+| sn-image-base | 🔗 绑定 SenseNova | 图像生成/识别/文本优化，调用 SenseNova 专用 API |
+| sn-infographic | 🔗 绑定 SenseNova | 信息图生成，依赖 sn-image-base |
+| sn-deep-research | 🔄 可替换 | 深度研究编排，纯 LLM 调用 |
+| sn-research-planning | 🔄 可替换 | 研究规划 |
+| sn-dimension-research | 🔄 可替换 | 单维度取证 |
+| sn-research-synthesis | 🔄 可替换 | 综合判断 |
+| sn-research-report | 🔄 可替换 | 终稿写作/改写 |
+| sn-report-format-discovery | 🔄 可替换 | 报告形态发现 |
+| sn-md-to-html-report | 🔄 可替换 | Markdown 转 HTML 阅读视图 |
+| sn-search-academic | 🔄 可替换 | 学术搜索（ArXiv/Semantic Scholar/PubMed/Wikipedia） |
+| sn-search-code | 🔄 可替换 | 开发者搜索（GitHub/Stack Overflow/Hacker News/HuggingFace） |
+| sn-search-social-cn | 🔄 可替换 | 中文社交搜索（B站/知乎/抖音） |
+| sn-search-social-en | 🔄 可替换 | 英文社交搜索（Reddit/Twitter/YouTube） |
+
+## 免费套餐
+
+在 [SenseNova 控制台 token-plan](https://platform.sensenova.cn/token-plan) 申请。