小红书开源语音克隆工具dots.tts:开源高拟真语音合成工具,文字一键变自然人声

文章目录(快捷跳转)

简介说明

dots.tts 是 小红书rednote-hilab 发布的开源文本转语音项目,主打高自然度语音生成和音色克隆。它可以把输入文字转换成清晰、自然、有表现力的语音,也可以结合参考音频生成接近指定音色的声音。

和普通语音合成工具相比,dots.tts 的亮点在于它采用连续式语音建模路线,官方定位为 2B 参数规模的端到端自回归 TTS 系统。简单理解,它不是只做机械朗读,而是更关注语音的自然度、相似度和表达稳定性。

官方版本提供了推理代码、训练代码、命令行工具、Python API 和 Gradio Web Demo。开发者可以直接测试模型,也可以把它接入自己的应用;研究者则可以基于官方代码继续做微调、训练和语音生成实验。

dots.tts 支持多种使用方式:

  • 普通文本转语音:输入文字,生成自然语音。
  • 参考音频克隆:上传参考音频,让生成声音更接近目标音色。
  • 多语言生成:支持中文、英文以及更多语言标签。
  • 流式生成:适合低延迟播放或对话类应用。
  • 训练和蒸馏:适合研究者继续微调或优化模型。

官方发布了多个模型检查点,包括 dots.tts-base、dots.tts-soar 和 dots.tts-mf。base 是基础模型,soar 更适合高质量语音克隆,mf 则更偏向推理速度。用户可以根据质量和速度需求选择不同版本。

如果想体验音色克隆,官方建议参考音频保持在 10 秒左右,音频要清晰、自然、低噪音。如果填写参考音频转写,文字必须和音频里实际说的话一致,否则可能影响生成稳定性。

dots.tts 也支持通过语言参数指定语种,例如中文、英文或自动识别。对于多语言文本、跨语言配音和口音实验,明确指定语言标签通常更容易得到稳定结果。

整体来看,dots.tts 适合三类用户:想快速体验 AI 配音的创作者,想本地部署语音合成能力的开发者,以及想研究高质量 TTS 模型的技术用户。它既是一个实用的开源语音合成工具,也是一套值得研究的语音生成框架。

需要注意的是,dots.tts 具备高拟真语音生成能力。使用语音克隆功能时,应确保参考音频来源合法并获得授权,不要用于冒充他人、诈骗、误导传播或其他不当用途。公开发布 AI 合成音频时,也建议清楚标注音频由 AI 生成。

如果你正在寻找一款开源、可本地部署、支持语音克隆和多语言生成的 AI 语音合成项目,dots.tts 是一个很值得关注的选择。

使用技巧
参考音频保持在10秒左右。更长的音频效果不会更好。
--prompt-text 应该和参考音频中实际说的对应。不匹配会降低稳定性,可能导致字级错误。
高质量的参考提供更好的克隆——偏好高采样率、低背景噪音、无拖尾噪音和自然语音。
尝试不同的种子值来调整韵律变化。每个种子产生不同的节奏和音准——如果默认感觉不对,可以多次重新采样。
如果质量不够好,就增加数步数。更多的采样步骤会用计算换取更清晰的输出和更好的表现力。
多音用拼音强制发音。用带有音调标记的拼音替换输入文本中的字符——例如,写入以强制读取为 。仅使用带有音调拼音的音调(, , );

编号表格如同或不被识别。当重播无法解决多音误读时,这很有用。我生平不hào此道好hàohǎohàobāhao4ha4o

支持语言

MiniMax 多语言(24 种语言)
MiniMax-Speech多语言测试集上的每语言WER / SIM测试(每语言100句话×2名参考说话者)。最高平均SIM卡(83.9,SCA),

dots.tts变体在24种语言中有19种直接领先单语SIM卡,并追平另外2种。内容忠实度与高资源/西欧分割中最强系统相当,而在低资源长尾语言中,SIM仍被保留,表现略逊。

许可
dots.tts 的代码和发布的检查点均采用 Apache 2.0 许可。

下载地址

https://github.com/rednote-hilab/dots.tts

https://pan.baidu.com/s/1szJe_U044jd-ERAiO0ScoQ?pwd=3bx1 提取码: 3bx1

https://pan.quark.cn/s/9eecf1c31f87

未经允许不得转载:网站源码、软件资源与技术教程分享 - 今夕资源网 » 小红书开源语音克隆工具dots.tts:开源高拟真语音合成工具,文字一键变自然人声
扫码在手机上阅读本页
赞(0)

评论抢沙发

评论前必须登录!