AI声音克隆软件 CosyVoice今夕一键整合包解压即用阿里巴巴通义实验室开源 github斩获22K星标

文章目录（快捷跳转）

简介说明
一、先看官方程序
二、解压即用一键包
三、这个整合包能带来什么
四、适合哪些人
五、使用方式
图片预览
下载地址
扫码在手机上阅读本页

简介说明

Fun-CosyVoice 3.0 官方能力与可移动一键包介绍
Fun-CosyVoice 3.0 是一款基于大型语言模型（LLM）的先进文本转语音（TTS）系统，重点强化了内容一致性、

说话者相似性和韵律自然性，适合多语言语音合成、零样本音色克隆和风格控制等场景。相比前代方案，它在可控性、自然度和实用性上都更进一步。

官方程序提供了完整的能力边界，而这套一键包则把这些能力做成了更容易部署、更容易迁移、也更容易上手的本地版本。它适合做快速演示、日常测试和本地稳定使用。

如果你想先体验官方能力，再直接切换到一键包环境，这种组合方式会更实用。

可用标签：

[breath] 短吸气、

[quick_breath] 快速吸气、

[laughter] 笑声、

<laughter>...</laughter> 笑着说、

[cough] 咳嗽、

[clucking] 咂舌、

[noise] 噪声、

[accent] 口音、

[hissing] 气声、

[sigh] 叹气、

[vocalized-noise] 人声噪声、

[lipsmack] 抿嘴声、

[mn] 嗯声、

一、先看官方程序

如果先从官方程序本身来看，CosyVoice 3.0 的定位非常明确：它不是单纯的“把文字读出来”，而是更强调“像真人一样说出来，并且可以按要求说”。

能力	说明
多语言覆盖	支持中文、英语、日语、韩语、德语、西班牙语、法语、意大利语、俄语等常用语言。
方言/口音支持	支持广东话、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、江西话、闽南话、宁夏话、山西话、陕西话、山东话、上海话、四川话、天津话、云南话等多种中文方言/口音。
零样本克隆	支持多语言、跨语言零声段克隆，可用少量参考音频复刻目标音色。
发音修复	支持中文拼音和英语 CMU 音素修复，提升发音可控性。
文本规范化	对数字、符号、特殊格式文本有更好的处理能力。
流式输出	支持低延迟流式推理，适合实时场景。
指令控制	支持通过 instruct 文本控制语言、方言、情绪、语速、音量和说话风格。

官方项目地址：https://github.com/FunAudioLLM/CosyVoice

二、解压即用一键包

这套一键包是在官方能力基础上做的本地整合，重点解决“环境难配、模型难下、路径难迁移、启动步骤多”这几个问题。它的目标很直接：让用户尽量少碰命令行，打开就能用。

项目	说明
本地运行环境	Python 环境放在项目目录内，减少对系统环境的依赖。
本地模型存放	模型文件统一放在项目目录下，方便迁移和备份。
相对路径设计	启动脚本采用相对目录组织，拷贝到别的机器后更容易继续使用。
自动打开网页	启动后直接打开 WebUI，减少手动操作。
官方示例整合	内置官方功能示例，包括预训练音色、3s 极速复刻、跨语种复刻、自然语言控制、方言示例和外语示例。
说明补全	补充了可用标签、instruct 文本说明、模式说明和使用注意事项。