ephron_ren/agent-skills

Files

Hermes Agent ccc63d1e70 first commit

2026-05-10 13:52:46 +08:00

2.5 KiB

Raw Permalink Blame History

MiMo-V2.5-TTS Series 官方文档摘要

来源：https://platform.xiaomimimo.com/docs/zh-CN/news/v2.5-tts-release

三款模型

模型	用途	特点
MiMo-V2.5-TTS	内置精品音色	开箱即用，支持语速、情绪、语气精细控制
MiMo-V2.5-TTS-VoiceDesign	音色设计	一句话定义全新音色，无需参考音频
MiMo-V2.5-TTS-VoiceClone	音色克隆	少量样本高保真复刻，支持风格叠加

核心能力

1. 精准风格指令遵循

从简短单句指令到整份导演笔记都能稳定理解
支持情绪、语气、语速、发声方式、语言风格等多维度
像给演员说戏一样描述，模型会落到对应演绎

2. 灵活音频标签控制

行内标签控制情绪、状态、风格
支持中英双语和开放文本描述
支持多标签叠加（用 ｜ 分隔）

3. 丰富文本理解

无 prompt 也能自动捕捉情感弧线
自动识别说话人身份（年龄、气质、角色类型）

VoiceDesign 详情

适用场景：游戏NPC、动画角色、虚拟主播、品牌IP、有声剧的非典型嗓音

描述维度：

年龄、性别、口音、音质、发声方式、性格气质
支持复杂、模糊、甚至相互矛盾的描述
不局限于"男/女/青年/老年"粗粒度标签

案例：

"一位中年男性，说标准普通话，嗓音低沉有磁性，带有轻微的沙哑质感，像纪录片旁白解说员"
"一位年迈的老先生，说带北方口音的普通话，语速缓慢而沉稳，嗓音略带沙哑和沧桑感"

VoiceClone 详情

特点：

短至数秒参考音频，无需训练/标注/微调
保留音色身份 + 气息、节奏、习惯性停顿
复用全部控制能力（指令、标签、导演剧本）

案例：

参考音频 → 克隆音色 → 叠加风格指令（"用尖锐刻薄的嗓音，带着狐假虎威的得意感"）

导演剧本级输入

支持 CHARACTER/SCENE/DIRECTION 分层：

CHARACTER：人物身份、背景、性格
SCENE：场景环境、情境
DIRECTION：详细发声指导（共鸣、语调、气声、咬字）

相关资源

MiMo Studio：https://aistudio.xiaomimimo.com/#/c
使用指南：https://platform.xiaomimimo.com/docs/usage-guide/speech-synthesis-v2.5
Skills 开源：https://github.com/XiaomiMiMo/MiMo-Skills
ASR 开源：https://github.com/XiaomiMiMo/MiMo-V2.5-ASR
更多案例：https://mimo.xiaomi.com/mimo-v2-5-tts