IndexTTS2零样本TTS模型
IndexTTS2是B站Index SpeechTeam于2025年9月8日开源的零样本TTS模型,在自回归架构中实现毫秒级时长控制与情感-音色解耦,适配视频配音、虚拟主播等强同步与强表现力场景,支持本地部署与商业使用。以下从核心特性、技术架构、应用场景、部署与竞品对比展开说明。 核心特性 1. 精确时长控制(全球首创自回归适配方案)两种生成模式:显式指定token数量实现毫秒级时长控制(误差率<0.02%),适配视频配音口型对齐;自由自回归生成保留自然韵律。 a. 支持0.75×-1.25×速度调节,通过标点控制停顿(逗号0.2秒、句号0.5秒等),符合真人说话习惯。 2. 情感-音色解耦与多模态情感控制分离建模:可独立控制音色与情感,支持不同说话人的音色与情感提示组合,实现“音色复刻+指定情感”的自然合成。 a. 多模态输入:文本标注情绪(如“愤怒”)、情感参考音频、Qwen3驱动的自然语言情感描述,覆盖7+类基础情绪。 3. 零样本语音克隆与高保真度5秒语音即可复刻音色,支持方言与口音还原,中文场景下通过“字符-拼音混合建模”解决多音字、生僻字误读问题。 a. 采用GPT潜在表示增强语音稳定性,BigVGANv2声码器保障音质,在词错误率(WER)、说话人相似度与情感保真度上达SOTA水平。 4. 中文优化与多语言支持拼音纠错:手动标注拼音避免误读(如“银行yínháng”“单shàn老师”)。 a. 多语言:支持中英等,基于Conformer条件编码器提升训练稳定性与音色相似度。 技术架构(三模块流水线) 模块 功能 技术亮点 Text-to-Semantic(T2S) 文本转语义token 字符-拼音混合建模,支持拼音标注与时长控制指令 Semantic-to-Mel(S2M) 语义token转梅尔频谱 […]