文章目录(快捷跳转)
简介说明
Fun-CosyVoice 3.0 官方能力与可移动一键包介绍
Fun-CosyVoice 3.0 是一款基于大型语言模型(LLM)的先进文本转语音(TTS)系统,重点强化了内容一致性、
说话者相似性和韵律自然性,适合多语言语音合成、零样本音色克隆和风格控制等场景。相比前代方案,它在可控性、自然度和实用性上都更进一步。
官方程序提供了完整的能力边界,而这套一键包则把这些能力做成了更容易部署、更容易迁移、也更容易上手的本地版本。它适合做快速演示、日常测试和本地稳定使用。
如果你想先体验官方能力,再直接切换到一键包环境,这种组合方式会更实用。
可用标签:
[breath] 短吸气、 [quick_breath] 快速吸气、 [laughter] 笑声、 <laughter>...</laughter> 笑着说、 [cough] 咳嗽、 [clucking] 咂舌、 [noise] 噪声、 [accent] 口音、 [hissing] 气声、 [sigh] 叹气、 [vocalized-noise] 人声噪声、 [lipsmack] 抿嘴声、 [mn] 嗯声、
一、先看官方程序
如果先从官方程序本身来看,CosyVoice 3.0 的定位非常明确:它不是单纯的“把文字读出来”,而是更强调“像真人一样说出来,并且可以按要求说”。
| 能力 | 说明 |
|---|---|
| 多语言覆盖 | 支持中文、英语、日语、韩语、德语、西班牙语、法语、意大利语、俄语等常用语言。 |
| 方言/口音支持 | 支持广东话、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、江西话、闽南话、宁夏话、山西话、陕西话、山东话、上海话、四川话、天津话、云南话等多种中文方言/口音。 |
| 零样本克隆 | 支持多语言、跨语言零声段克隆,可用少量参考音频复刻目标音色。 |
| 发音修复 | 支持中文拼音和英语 CMU 音素修复,提升发音可控性。 |
| 文本规范化 | 对数字、符号、特殊格式文本有更好的处理能力。 |
| 流式输出 | 支持低延迟流式推理,适合实时场景。 |
| 指令控制 | 支持通过 instruct 文本控制语言、方言、情绪、语速、音量和说话风格。 |
官方项目地址:https://github.com/FunAudioLLM/CosyVoice
二、解压即用一键包
这套一键包是在官方能力基础上做的本地整合,重点解决“环境难配、模型难下、路径难迁移、启动步骤多”这几个问题。它的目标很直接:让用户尽量少碰命令行,打开就能用。
| 项目 | 说明 |
|---|---|
| 本地运行环境 | Python 环境放在项目目录内,减少对系统环境的依赖。 |
| 本地模型存放 | 模型文件统一放在项目目录下,方便迁移和备份。 |
| 相对路径设计 | 启动脚本采用相对目录组织,拷贝到别的机器后更容易继续使用。 |
| 自动打开网页 | 启动后直接打开 WebUI,减少手动操作。 |
| 官方示例整合 | 内置官方功能示例,包括预训练音色、3s 极速复刻、跨语种复刻、自然语言控制、方言示例和外语示例。 |
| 说明补全 | 补充了可用标签、instruct 文本说明、模式说明和使用注意事项。 |
三、这个整合包能带来什么
- 安装更省事,不需要反复配置外部 Python 环境。
- 模型和程序放在一起,迁移目录更方便。
- 官方示例可以直接切换,适合快速体验。
- 支持方言和外语示例,适合测试不同语言效果。
- 对新手更友好,打开网页后按提示操作即可。
四、适合哪些人
- 想快速体验 CosyVoice 的用户。
- 需要经常换机器、拷贝目录的用户。
- 不想手动折腾模型和环境安装的用户。
- 希望直接在网页里试方言、外语、风格和情绪控制的用户。
五、使用方式
- 双击启动脚本。
- 等待依赖和模型准备完成。
- 浏览器自动打开 WebUI。
- 选择模式,填写文本,点击生成。
图片预览



下载地址
https://github.com/FunAudioLLM/CosyVoice
https://pan.quark.cn/s/f0065453d7bc
https://pan.baidu.com/s/10myT5FiiOKcNPxoDTmdsZg?pwd=6scm 提取码: 6scm







评论抢沙发