first commit
This commit is contained in:
@@ -0,0 +1,65 @@
|
||||
# MiMo-V2.5-TTS Series 官方文档摘要
|
||||
|
||||
来源:https://platform.xiaomimimo.com/docs/zh-CN/news/v2.5-tts-release
|
||||
|
||||
## 三款模型
|
||||
|
||||
| 模型 | 用途 | 特点 |
|
||||
|------|------|------|
|
||||
| MiMo-V2.5-TTS | 内置精品音色 | 开箱即用,支持语速、情绪、语气精细控制 |
|
||||
| MiMo-V2.5-TTS-VoiceDesign | 音色设计 | 一句话定义全新音色,无需参考音频 |
|
||||
| MiMo-V2.5-TTS-VoiceClone | 音色克隆 | 少量样本高保真复刻,支持风格叠加 |
|
||||
|
||||
## 核心能力
|
||||
|
||||
### 1. 精准风格指令遵循
|
||||
- 从简短单句指令到整份导演笔记都能稳定理解
|
||||
- 支持情绪、语气、语速、发声方式、语言风格等多维度
|
||||
- 像给演员说戏一样描述,模型会落到对应演绎
|
||||
|
||||
### 2. 灵活音频标签控制
|
||||
- 行内标签控制情绪、状态、风格
|
||||
- 支持中英双语和开放文本描述
|
||||
- 支持多标签叠加(用 `|` 分隔)
|
||||
|
||||
### 3. 丰富文本理解
|
||||
- 无 prompt 也能自动捕捉情感弧线
|
||||
- 自动识别说话人身份(年龄、气质、角色类型)
|
||||
|
||||
## VoiceDesign 详情
|
||||
|
||||
**适用场景**:游戏NPC、动画角色、虚拟主播、品牌IP、有声剧的非典型嗓音
|
||||
|
||||
**描述维度**:
|
||||
- 年龄、性别、口音、音质、发声方式、性格气质
|
||||
- 支持复杂、模糊、甚至相互矛盾的描述
|
||||
- 不局限于"男/女/青年/老年"粗粒度标签
|
||||
|
||||
**案例**:
|
||||
- "一位中年男性,说标准普通话,嗓音低沉有磁性,带有轻微的沙哑质感,像纪录片旁白解说员"
|
||||
- "一位年迈的老先生,说带北方口音的普通话,语速缓慢而沉稳,嗓音略带沙哑和沧桑感"
|
||||
|
||||
## VoiceClone 详情
|
||||
|
||||
**特点**:
|
||||
- 短至数秒参考音频,无需训练/标注/微调
|
||||
- 保留音色身份 + 气息、节奏、习惯性停顿
|
||||
- 复用全部控制能力(指令、标签、导演剧本)
|
||||
|
||||
**案例**:
|
||||
- 参考音频 → 克隆音色 → 叠加风格指令("用尖锐刻薄的嗓音,带着狐假虎威的得意感")
|
||||
|
||||
## 导演剧本级输入
|
||||
|
||||
支持 CHARACTER/SCENE/DIRECTION 分层:
|
||||
- CHARACTER:人物身份、背景、性格
|
||||
- SCENE:场景环境、情境
|
||||
- DIRECTION:详细发声指导(共鸣、语调、气声、咬字)
|
||||
|
||||
## 相关资源
|
||||
|
||||
- MiMo Studio:https://aistudio.xiaomimimo.com/#/c
|
||||
- 使用指南:https://platform.xiaomimimo.com/docs/usage-guide/speech-synthesis-v2.5
|
||||
- Skills 开源:https://github.com/XiaomiMiMo/MiMo-Skills
|
||||
- ASR 开源:https://github.com/XiaomiMiMo/MiMo-V2.5-ASR
|
||||
- 更多案例:https://mimo.xiaomi.com/mimo-v2-5-tts
|
||||
61
mlops/mimo-capabilities/references/sensenova-api.md
Normal file
61
mlops/mimo-capabilities/references/sensenova-api.md
Normal file
@@ -0,0 +1,61 @@
|
||||
# SenseNova API 配置
|
||||
|
||||
## 基本信息
|
||||
|
||||
| 字段 | 值 |
|
||||
|------|-----|
|
||||
| Base URL | `https://token.sensenova.cn/v1` |
|
||||
| API Key | 存储在 `~/.hermes/.env` 的 `SN_API_KEY` |
|
||||
| 协议 | OpenAI 兼容 |
|
||||
|
||||
## 可用模型
|
||||
|
||||
| 模型 | MODEL ID | 用途 | 调用限制 |
|
||||
|------|----------|------|----------|
|
||||
| SenseNova 6.7 Flash-Lite | `sensenova-6.7-flash-lite` | 多模态智能体(文本+图像理解+工具调用) | 每 5 小时 1500 次 |
|
||||
| SenseNova U1 Fast | `sensenova-u1-fast` | 信息图生成专用 | 每 5 小时 1500 次 |
|
||||
| DeepSeek V4 Flash | `deepseek-v4-flash` | 高性能对话(思考/非思考模式、256K 上下文) | 每 5 小时 150 次 |
|
||||
|
||||
## 注意事项
|
||||
|
||||
- **限流策略**:按 5 小时窗口计数,不是按分钟
|
||||
- **DeepSeek 限流最严**:只有 150 次/5小时,是其他模型的 1/10,深度研究等高频场景建议用 sensenova-6.7-flash-lite
|
||||
- **sensenova-6.7-flash-lite 支持图像输入**:可传 `image_url` 类型的 content 块
|
||||
- **上下文长度**:256K tokens(最大输入 252K,最大输出 64K)
|
||||
- **sensenova-u1-fast** 是图像生成专用,不支持对话接口
|
||||
|
||||
## 调用示例
|
||||
|
||||
```bash
|
||||
curl https://token.sensenova.cn/v1/chat/completions \
|
||||
-H "Authorization: Bearer $SN_API_KEY" \
|
||||
-H "Content-Type: application/json" \
|
||||
-d '{
|
||||
"model": "sensenova-6.7-flash-lite",
|
||||
"messages": [{"role": "user", "content": "你好"}],
|
||||
"max_tokens": 500,
|
||||
"reasoning_effort": "none"
|
||||
}'
|
||||
```
|
||||
|
||||
## 已安装的 SenseNova Skills
|
||||
|
||||
| Skill | 厂商绑定 | 说明 |
|
||||
|-------|----------|------|
|
||||
| sn-image-base | 🔗 绑定 SenseNova | 图像生成/识别/文本优化,调用 SenseNova 专用 API |
|
||||
| sn-infographic | 🔗 绑定 SenseNova | 信息图生成,依赖 sn-image-base |
|
||||
| sn-deep-research | 🔄 可替换 | 深度研究编排,纯 LLM 调用 |
|
||||
| sn-research-planning | 🔄 可替换 | 研究规划 |
|
||||
| sn-dimension-research | 🔄 可替换 | 单维度取证 |
|
||||
| sn-research-synthesis | 🔄 可替换 | 综合判断 |
|
||||
| sn-research-report | 🔄 可替换 | 终稿写作/改写 |
|
||||
| sn-report-format-discovery | 🔄 可替换 | 报告形态发现 |
|
||||
| sn-md-to-html-report | 🔄 可替换 | Markdown 转 HTML 阅读视图 |
|
||||
| sn-search-academic | 🔄 可替换 | 学术搜索(ArXiv/Semantic Scholar/PubMed/Wikipedia) |
|
||||
| sn-search-code | 🔄 可替换 | 开发者搜索(GitHub/Stack Overflow/Hacker News/HuggingFace) |
|
||||
| sn-search-social-cn | 🔄 可替换 | 中文社交搜索(B站/知乎/抖音) |
|
||||
| sn-search-social-en | 🔄 可替换 | 英文社交搜索(Reddit/Twitter/YouTube) |
|
||||
|
||||
## 免费套餐
|
||||
|
||||
在 [SenseNova 控制台 token-plan](https://platform.sensenova.cn/token-plan) 申请。
|
||||
Reference in New Issue
Block a user