Files
agent-skills/mlops/mimo-capabilities/references/mimo-v2.5-tts-official-doc.md
Hermes Agent ccc63d1e70 first commit
2026-05-10 13:52:46 +08:00

66 lines
2.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# MiMo-V2.5-TTS Series 官方文档摘要
来源https://platform.xiaomimimo.com/docs/zh-CN/news/v2.5-tts-release
## 三款模型
| 模型 | 用途 | 特点 |
|------|------|------|
| MiMo-V2.5-TTS | 内置精品音色 | 开箱即用,支持语速、情绪、语气精细控制 |
| MiMo-V2.5-TTS-VoiceDesign | 音色设计 | 一句话定义全新音色,无需参考音频 |
| MiMo-V2.5-TTS-VoiceClone | 音色克隆 | 少量样本高保真复刻,支持风格叠加 |
## 核心能力
### 1. 精准风格指令遵循
- 从简短单句指令到整份导演笔记都能稳定理解
- 支持情绪、语气、语速、发声方式、语言风格等多维度
- 像给演员说戏一样描述,模型会落到对应演绎
### 2. 灵活音频标签控制
- 行内标签控制情绪、状态、风格
- 支持中英双语和开放文本描述
- 支持多标签叠加(用 `` 分隔)
### 3. 丰富文本理解
- 无 prompt 也能自动捕捉情感弧线
- 自动识别说话人身份(年龄、气质、角色类型)
## VoiceDesign 详情
**适用场景**游戏NPC、动画角色、虚拟主播、品牌IP、有声剧的非典型嗓音
**描述维度**
- 年龄、性别、口音、音质、发声方式、性格气质
- 支持复杂、模糊、甚至相互矛盾的描述
- 不局限于"男/女/青年/老年"粗粒度标签
**案例**
- "一位中年男性,说标准普通话,嗓音低沉有磁性,带有轻微的沙哑质感,像纪录片旁白解说员"
- "一位年迈的老先生,说带北方口音的普通话,语速缓慢而沉稳,嗓音略带沙哑和沧桑感"
## VoiceClone 详情
**特点**
- 短至数秒参考音频,无需训练/标注/微调
- 保留音色身份 + 气息、节奏、习惯性停顿
- 复用全部控制能力(指令、标签、导演剧本)
**案例**
- 参考音频 → 克隆音色 → 叠加风格指令("用尖锐刻薄的嗓音,带着狐假虎威的得意感"
## 导演剧本级输入
支持 CHARACTER/SCENE/DIRECTION 分层:
- CHARACTER人物身份、背景、性格
- SCENE场景环境、情境
- DIRECTION详细发声指导共鸣、语调、气声、咬字
## 相关资源
- MiMo Studiohttps://aistudio.xiaomimimo.com/#/c
- 使用指南https://platform.xiaomimimo.com/docs/usage-guide/speech-synthesis-v2.5
- Skills 开源https://github.com/XiaomiMiMo/MiMo-Skills
- ASR 开源https://github.com/XiaomiMiMo/MiMo-V2.5-ASR
- 更多案例https://mimo.xiaomi.com/mimo-v2-5-tts