小红书开源语音克隆工具dots.tts：开源高拟真语音合成工具，文字一键变自然人声

文章目录（快捷跳转）

简介说明
使用技巧
支持语言
许可
下载地址
扫码在手机上阅读本页

简介说明

dots.tts 是小红书rednote-hilab 发布的开源文本转语音项目，主打高自然度语音生成和音色克隆。它可以把输入文字转换成清晰、自然、有表现力的语音，也可以结合参考音频生成接近指定音色的声音。

和普通语音合成工具相比，dots.tts 的亮点在于它采用连续式语音建模路线，官方定位为 2B 参数规模的端到端自回归 TTS 系统。简单理解，它不是只做机械朗读，而是更关注语音的自然度、相似度和表达稳定性。

官方版本提供了推理代码、训练代码、命令行工具、Python API 和 Gradio Web Demo。开发者可以直接测试模型，也可以把它接入自己的应用；研究者则可以基于官方代码继续做微调、训练和语音生成实验。

dots.tts 支持多种使用方式：

普通文本转语音：输入文字，生成自然语音。
参考音频克隆：上传参考音频，让生成声音更接近目标音色。
多语言生成：支持中文、英文以及更多语言标签。
流式生成：适合低延迟播放或对话类应用。
训练和蒸馏：适合研究者继续微调或优化模型。

官方发布了多个模型检查点，包括 dots.tts-base、dots.tts-soar 和 dots.tts-mf。base 是基础模型，soar 更适合高质量语音克隆，mf 则更偏向推理速度。用户可以根据质量和速度需求选择不同版本。

如果想体验音色克隆，官方建议参考音频保持在 10 秒左右，音频要清晰、自然、低噪音。如果填写参考音频转写，文字必须和音频里实际说的话一致，否则可能影响生成稳定性。

dots.tts 也支持通过语言参数指定语种，例如中文、英文或自动识别。对于多语言文本、跨语言配音和口音实验，明确指定语言标签通常更容易得到稳定结果。

整体来看，dots.tts 适合三类用户：想快速体验 AI 配音的创作者，想本地部署语音合成能力的开发者，以及想研究高质量 TTS 模型的技术用户。它既是一个实用的开源语音合成工具，也是一套值得研究的语音生成框架。

需要注意的是，dots.tts 具备高拟真语音生成能力。使用语音克隆功能时，应确保参考音频来源合法并获得授权，不要用于冒充他人、诈骗、误导传播或其他不当用途。公开发布 AI 合成音频时，也建议清楚标注音频由 AI 生成。

如果你正在寻找一款开源、可本地部署、支持语音克隆和多语言生成的 AI 语音合成项目，dots.tts 是一个很值得关注的选择。

使用技巧
参考音频保持在10秒左右。更长的音频效果不会更好。
--prompt-text 应该和参考音频中实际说的对应。不匹配会降低稳定性，可能导致字级错误。
高质量的参考提供更好的克隆——偏好高采样率、低背景噪音、无拖尾噪音和自然语音。
尝试不同的种子值来调整韵律变化。每个种子产生不同的节奏和音准——如果默认感觉不对，可以多次重新采样。
如果质量不够好，就增加数步数。更多的采样步骤会用计算换取更清晰的输出和更好的表现力。
多音用拼音强制发音。用带有音调标记的拼音替换输入文本中的字符——例如，写入以强制读取为。仅使用带有音调拼音的音调（，，）;

编号表格如同或不被识别。当重播无法解决多音误读时，这很有用。我生平不hào此道好hàohǎohàobāhao4ha4o

支持语言

MiniMax 多语言（24 种语言）
MiniMax-Speech多语言测试集上的每语言WER / SIM测试（每语言100句话×2名参考说话者）。最高平均SIM卡（83.9，SCA），

dots.tts变体在24种语言中有19种直接领先单语SIM卡，并追平另外2种。内容忠实度与高资源/西欧分割中最强系统相当，而在低资源长尾语言中，SIM仍被保留，表现略逊。

许可
dots.tts 的代码和发布的检查点均采用 Apache 2.0 许可。

下载地址

https://github.com/rednote-hilab/dots.tts

https://pan.baidu.com/s/1szJe_U044jd-ERAiO0ScoQ?pwd=3bx1 提取码: 3bx1

https://pan.quark.cn/s/9eecf1c31f87