简介说明
IndexTTS2 是一个强大的自回归零样本文本转语音系统,实现了前所未有的语音生成控制能力。通过先进的情感表达、
精确的时长控制和即时语音克隆功能,它可以生成自然、富有表现力的多语言语音合成。采用 Apache 2.0 许可证发布,完全开源且可用于商业用途。
IndexTTS2 的核心功能
探索使 IndexTTS2 成为富有表现力、可控文本转语音生成理想选择的强大功能。
零样本语音克隆
仅需几秒钟音频即可即时克隆任何声音,无需训练。在不同内容和情感中实现高保真语音重现和说话人一致性。
情感表达控制
将音色与情感解耦以实现独立控制。使用文本描述引导情感表达(开心、悲伤、兴奋、愤怒),同时保持声音身份和自然度。
精确时长控制
首个将准确时长控制与自然生成相结合的自回归 TTS。实现精确的语音时间控制,而不牺牲表现力或韵律质量。
多语言支持
原生支持中文(普通话)、英文和中英文混合合成。跨语言边界保持自然的发音和语调。
拼音发音控制
通过拼音标注对中文文本进行高级发音控制。解决歧义发音并确保复杂上下文中的准确汉字朗读。
高自然度与清晰度
与现有模型相比,具有更优的词错误率(WER)和情感保持度。实现类人自然度评分,具有卓越的清晰度和可懂度。
## 项目简介
本项目基于 `IndexTTS2` 搭建,提供本地化的零样本文本转语音能力。
它可以通过一段参考音频克隆音色,并结合文本内容生成对应语音;同时支持情感控制、术语读音管理、示例管理和 WebUI 交互操作,适合用于配音、角色语音生成、短句播报、内容创作和本地测试。
使用方法
1.使用7zip 或者其他解压工具 解压到没有中文的目录。
2.双击 start_webui.bat启动,等待弹出网页就可以使用了。
## 核心能力
### 1. 零样本音色克隆
- 上传一段参考音频后,可以让模型模仿该说话人的音色生成新语音。
- 支持直接上传本地音频,也支持在界面中管理和复用参考音频。
### 2. 文本转语音生成
- 输入目标文本即可生成语音。
- 支持中文和英文场景。
- 可结合参考音频实现“同音色不同文本”的语音生成。
### 3. 情感控制
项目支持多种情感控制方式:
- 与音色参考音频保持相同情感
- 使用单独的情感参考音频
- 使用情感向量控制
- 使用情感描述文本控制
可用于生成平静、喜悦、低落、愤怒等不同风格的语音表达。
### 4. 分句生成与高级参数控制
- 支持长文本自动分句处理。
- 可设置每段最大 Token 数,平衡生成质量与速度。
- 可调节采样参数,如 `top_p`、`top_k`、`temperature`、`num_beams`、`repetition_penalty`、`max_mel_tokens` 等。
适合对生成结果进行更细粒度的控制。
## WebUI 扩展功能
除了模型原有能力外,本项目的 WebUI 还额外加入了适合日常使用的功能增强。
### 5. 多音字文本预处理
- 可在生成前对指定关键词做文本替换。
- 适合修正多音字、固定发音和特殊口语读法。
- 支持添加、更新、删除规则。
- 支持词库导入与导出。
- 支持预处理结果预览和复制。
例如:
```text
倒 -> dao3
```
生成前可把特定词语替换成期望读音,减少错误发音。
### 6. 自定义术语词汇读音
- 可为专业术语、自定义词汇、品牌名、人名等设置单独读法。
- 支持分别设置中文读法和英文读法。
- 适合处理模型默认发音不准确的专有词汇。
### 7. 停顿与拉长音控制
当前 WebUI 支持在文本中直接使用简码控制停顿和局部拉长音。
支持的停顿写法:
```text
[pause=300]
[sil=500]
【停顿=200】
```
支持的拉长音写法:
```text
啊~
啊~~
啊~~~
啊[stretch=1.5]
嗯[elong=1.8x]
好[拉长=1.3倍]
```
示例:
```text
今天天气真好啊~[pause=300]我们继续测试。
```
说明:
- 停顿建议单次 `200~500ms`
- 拉长音建议 `1.2~1.8` 倍
- 连续 `~` 会逐步加长
- 倍数过大可能出现失真
### 8. Examples 示例管理
WebUI 提供了示例数据管理能力,方便快速复用常用配置。
- 支持把当前配置保存到 `Examples`
- 支持按名称筛选
- 支持关键字搜索
- 支持分页浏览
- 支持切换每页显示数量
- 支持删除示例
- 支持显示当前选中示例,避免误删
适合保存常用的角色音色、情感组合和测试文本。
### 9. 参考音频管理
支持对参考音频进行本地管理:
- 搜索
- 分页查看
- 预览播放
- 选中回填
- 上传新音频
- 替换旧音频
- 重命名
- 删除
适合维护自己的音色素材库。
## 适用场景
本项目适合以下场景:
- AI 配音与旁白生成
- 角色台词生成
- 有声内容创作
- 短视频配音
- 术语播报与专业文本试读
- 本地化 TTS 调试与实验
## 使用方式概览
### 启动
常见启动方式:
- 运行 [start_webui.bat](/e:/index-tts-main/start_webui.bat)
- 或直接运行 [webui.py](/e:/index-tts-main/webui.py)
### 基本流程
1. 上传或选择音色参考音频
2. 输入要生成的文本
3. 按需设置情感、术语读音、多音字规则、停顿或拉长音
4. 点击“生成语音”
5. 在生成结果中试听和保存
## 项目特点总结
- 支持零样本音色克隆
- 支持情感控制
- 支持术语和多音字发音修正
- 支持文本内停顿与拉长音控制
- 支持示例库和参考音频库管理
- 提供本地 WebUI,适合中文用户直接使用
## 说明
- 精确时长控制是 `IndexTTS2` 的研究方向之一,但公开版并未完全开放所有原生时长控制能力。
- 当前项目中的“停顿”和“拉长音”功能,主要通过 WebUI 层的分段合成与后处理实现,适合实际使用,但并不等同于模型原生公开接口。
- 如果后续需要,还可以继续扩展更多文本控制简码,例如重音、弱读、局部变速等。
图片预览
1.上传音频,输入文本即可直接生成
2.输入名字点击保存即可把音频保存到模型库,下次方便调用

3.多音字预处理,可以将多音字准确的读音标记,如果是一篇文章存在两个不同读音,可以手动标注更准确

4.支持手动设置情感值,使用情感参考音频,自定义术语库等


5.支持情感描述控制,并且支持 停顿,拉长音调标签。

6.支持分句长度,连读或者停顿Token设置

7.支持声音模型库管理,增删改查,分页跳页每页显示控制等

下载地址
https://github.com/index-tts/index-tts
https://pan.baidu.com/s/1PChhdaUPQQxXzkFJ0ARPZw?pwd=yn2z 提取码: yn2z
我用夸克网盘给你分享了「IndexTTS2最新版一键包 支持情绪控制 支持声音停顿 多音字读音控制 声音拉长」,点击链接或复制整段内容,打开「夸克APP」即可获取。
/~8d643XzfyX~:/
链接:https://pan.quark.cn/s/7922cdd3943a






评论抢沙发