更新说明
IndexTTS 2026-06-02 版本更新,重点优化多线路调度、共享主模型和云端资源利用策略,同时新增启动页真实进度显示、运行日志页面、音色库压缩包导入导出,并修复专家模式批量生成、声音克隆情绪应用及 WebUI 重复初始化等问题。
1. 启动页面进一步完善,加载过程更直观
- 启动占位页改为真实进度显示,覆盖端口打开、模型检查、模型加载、CUDA 初始化、Gradio 启动等关键阶段。
- 去掉原先固定 5 秒整页刷新的方式,避免加载页面反复闪烁。
- 启动页新增启动时间与已耗时显示,加载过程更清晰。
2. 新增运行日志页面,便于查看后台进度和排查问题
- 新增顶层 `运行日志` 页面。
- 页面显示的是启动窗口 / 终端窗口的实时运行输出日志。
- 支持刷新日志、清空日志,日志文本可直接复制。
- 启动页中的日志入口也会优先读取窗口运行日志,方便云端用户排查模型加载、CUDA 初始化以及生成耗时等问题。
3. 新增音色库压缩包导入导出功能,方便迁移使用
- 新增音色库压缩包形式的导出能力,方便备份和迁移。
- 需要注意的是:必须先手动将音频文件上传到音色库,再进行导出,导出的压缩包才能被正确识别和导入。
- 压缩包内包含音色库配置文件,大家也可以自行解压查看格式,并按该格式打包测试。
4. 持续优化多线路调度、共享主模型与云端资源利用策略
这次依旧重点优化了多线路调度、共享主模型和云端资源利用策略。以 4090D 24G 显卡(仙宫入门卡)为例,
在默认配置下,示例长文本(7371 字符)已经可以做到约 1265.68 秒完成生成。至于 48G 显卡,建议大家自行研究不同参数组合。
测试说明:
- 测试文本约 21KB
- 总字符数 7300+
- 短文本生成速度会更快
测试文本下载:
- 百度网盘:https://pan.baidu.com/s/1avWaUeVBkZgMF6EOmtd2jw?pwd=rm3v
参数建议:
- 16G:建议先从较低的 W/P 手动测试,例如 `1W/1P` 或 `2W/2P`
- 24G 长文:优先测试 `3W/3P + 独立主模型 + 长文智能多路`
- 48G 长文:不要直接默认 `6W/6P` 一定更快,建议先对比 `3W/3P` 的长文策略档
- 如果出现 CUDA 报错、启动变慢或总耗时反而增加,建议直接降低 W/P
5. 修复专家模式批量生成时情绪配置可能被旧数据覆盖的问题
- 之前在表格中看到的情绪、强度、模式,例如 `高兴 / 中等 / 加强`,在批量生成时可能会被旧的情绪表覆盖回 `平静 / 中等 / 普通`
- 单行“重生成”一直可以正确读取当前情绪,但批量生成此前存在不一致
- 现在批量生成会以当前专家工作台可见行为准,不再让过期的 `workshop_emotion_plan` 覆盖用户已经在表格中修改好的情绪配置
6. 修复切换页面后声音克隆情绪未正确应用的问题,并调整情感控制页面
- 修复切换页面后,声音克隆页面中的情绪设置没有正确生效的问题
- “使用情感描述文本控制”中的示例改为下拉选择方式
- 默认状态为 `不使用示例`,情感描述文本保持空白,方便直接手动输入
- 当前提供的示例包括:温柔安慰、开心明亮、严肃正式、生气压抑、爆发愤怒、悲伤克制、哭腔委屈、害怕紧张、冷淡疏离、旁白叙述
- 继续保留 `覆盖当前描述 / 追加到当前描述` 两种写入方式
7. 修复 WebUI 启动时 TTS 可能被重复初始化的问题
- 启动页完成模型加载后,进入 `main()` 时会直接复用已加载模型,不再重复执行第二轮模型 / WETEXT 初始化
- 如果日志中看到 `WebUI TTS runtime already initialized; reusing loaded models`,说明模型复用已经生效
图片预览
载入界面

音色库:导入音色库压缩包与导出音色库压缩包

运行日志界面

云端镜像体验地址
https://www.xiangongyun.com/image/detail/dd21c91f-e2eb-4068-b6c7-d426b40a68e7
相关内容







评论抢沙发