# MiMo-V2.5-TTS Series 官方文档摘要 来源:https://platform.xiaomimimo.com/docs/zh-CN/news/v2.5-tts-release ## 三款模型 | 模型 | 用途 | 特点 | |------|------|------| | MiMo-V2.5-TTS | 内置精品音色 | 开箱即用,支持语速、情绪、语气精细控制 | | MiMo-V2.5-TTS-VoiceDesign | 音色设计 | 一句话定义全新音色,无需参考音频 | | MiMo-V2.5-TTS-VoiceClone | 音色克隆 | 少量样本高保真复刻,支持风格叠加 | ## 核心能力 ### 1. 精准风格指令遵循 - 从简短单句指令到整份导演笔记都能稳定理解 - 支持情绪、语气、语速、发声方式、语言风格等多维度 - 像给演员说戏一样描述,模型会落到对应演绎 ### 2. 灵活音频标签控制 - 行内标签控制情绪、状态、风格 - 支持中英双语和开放文本描述 - 支持多标签叠加(用 `|` 分隔) ### 3. 丰富文本理解 - 无 prompt 也能自动捕捉情感弧线 - 自动识别说话人身份(年龄、气质、角色类型) ## VoiceDesign 详情 **适用场景**:游戏NPC、动画角色、虚拟主播、品牌IP、有声剧的非典型嗓音 **描述维度**: - 年龄、性别、口音、音质、发声方式、性格气质 - 支持复杂、模糊、甚至相互矛盾的描述 - 不局限于"男/女/青年/老年"粗粒度标签 **案例**: - "一位中年男性,说标准普通话,嗓音低沉有磁性,带有轻微的沙哑质感,像纪录片旁白解说员" - "一位年迈的老先生,说带北方口音的普通话,语速缓慢而沉稳,嗓音略带沙哑和沧桑感" ## VoiceClone 详情 **特点**: - 短至数秒参考音频,无需训练/标注/微调 - 保留音色身份 + 气息、节奏、习惯性停顿 - 复用全部控制能力(指令、标签、导演剧本) **案例**: - 参考音频 → 克隆音色 → 叠加风格指令("用尖锐刻薄的嗓音,带着狐假虎威的得意感") ## 导演剧本级输入 支持 CHARACTER/SCENE/DIRECTION 分层: - CHARACTER:人物身份、背景、性格 - SCENE:场景环境、情境 - DIRECTION:详细发声指导(共鸣、语调、气声、咬字) ## 相关资源 - MiMo Studio:https://aistudio.xiaomimimo.com/#/c - 使用指南:https://platform.xiaomimimo.com/docs/usage-guide/speech-synthesis-v2.5 - Skills 开源:https://github.com/XiaomiMiMo/MiMo-Skills - ASR 开源:https://github.com/XiaomiMiMo/MiMo-V2.5-ASR - 更多案例:https://mimo.xiaomi.com/mimo-v2-5-tts