AI声音克隆软件 CosyVoice今夕一键整合包解压即用 阿里巴巴通义实验室开源 github斩获22K星标

文章目录(快捷跳转)

简介说明

Fun-CosyVoice 3.0 官方能力与可移动一键包介绍
Fun-CosyVoice 3.0 是一款基于大型语言模型(LLM)的先进文本转语音(TTS)系统,重点强化了内容一致性、

说话者相似性和韵律自然性,适合多语言语音合成、零样本音色克隆和风格控制等场景。相比前代方案,它在可控性、自然度和实用性上都更进一步。

官方程序提供了完整的能力边界,而这套一键包则把这些能力做成了更容易部署、更容易迁移、也更容易上手的本地版本。它适合做快速演示、日常测试和本地稳定使用。

如果你想先体验官方能力,再直接切换到一键包环境,这种组合方式会更实用。

可用标签:

[breath] 短吸气、

[quick_breath] 快速吸气、

[laughter] 笑声、

<laughter>...</laughter> 笑着说、

[cough] 咳嗽、

[clucking] 咂舌、

[noise] 噪声、

[accent] 口音、

[hissing] 气声、

[sigh] 叹气、

[vocalized-noise] 人声噪声、

[lipsmack] 抿嘴声、

[mn] 嗯声、

一、先看官方程序

如果先从官方程序本身来看,CosyVoice 3.0 的定位非常明确:它不是单纯的“把文字读出来”,而是更强调“像真人一样说出来,并且可以按要求说”。

能力 说明
多语言覆盖 支持中文、英语、日语、韩语、德语、西班牙语、法语、意大利语、俄语等常用语言。
方言/口音支持 支持广东话、东北话、甘肃话、贵州话、河南话、湖北话、湖南话、江西话、闽南话、宁夏话、山西话、陕西话、山东话、上海话、四川话、天津话、云南话等多种中文方言/口音。
零样本克隆 支持多语言、跨语言零声段克隆,可用少量参考音频复刻目标音色。
发音修复 支持中文拼音和英语 CMU 音素修复,提升发音可控性。
文本规范化 对数字、符号、特殊格式文本有更好的处理能力。
流式输出 支持低延迟流式推理,适合实时场景。
指令控制 支持通过 instruct 文本控制语言、方言、情绪、语速、音量和说话风格。

官方项目地址:https://github.com/FunAudioLLM/CosyVoice

二、解压即用一键包

这套一键包是在官方能力基础上做的本地整合,重点解决“环境难配、模型难下、路径难迁移、启动步骤多”这几个问题。它的目标很直接:让用户尽量少碰命令行,打开就能用。

项目 说明
本地运行环境 Python 环境放在项目目录内,减少对系统环境的依赖。
本地模型存放 模型文件统一放在项目目录下,方便迁移和备份。
相对路径设计 启动脚本采用相对目录组织,拷贝到别的机器后更容易继续使用。
自动打开网页 启动后直接打开 WebUI,减少手动操作。
官方示例整合 内置官方功能示例,包括预训练音色、3s 极速复刻、跨语种复刻、自然语言控制、方言示例和外语示例。
说明补全 补充了可用标签、instruct 文本说明、模式说明和使用注意事项。

三、这个整合包能带来什么

  • 安装更省事,不需要反复配置外部 Python 环境。
  • 模型和程序放在一起,迁移目录更方便。
  • 官方示例可以直接切换,适合快速体验。
  • 支持方言和外语示例,适合测试不同语言效果。
  • 对新手更友好,打开网页后按提示操作即可。

四、适合哪些人

  • 想快速体验 CosyVoice 的用户。
  • 需要经常换机器、拷贝目录的用户。
  • 不想手动折腾模型和环境安装的用户。
  • 希望直接在网页里试方言、外语、风格和情绪控制的用户。

五、使用方式

  • 双击启动脚本。
  • 等待依赖和模型准备完成。
  • 浏览器自动打开 WebUI。
  • 选择模式,填写文本,点击生成。

图片预览

CosyVoice一键整合包
CosyVoice一键整合包解压即用
CosyVoice使用示例集合图片
下载地址
https://github.com/FunAudioLLM/CosyVoice

https://pan.quark.cn/s/f0065453d7bc

https://pan.baidu.com/s/10myT5FiiOKcNPxoDTmdsZg?pwd=6scm 提取码: 6scm

未经允许不得转载:网站源码、软件资源与技术教程分享 - 今夕资源网 » AI声音克隆软件 CosyVoice今夕一键整合包解压即用 阿里巴巴通义实验室开源 github斩获22K星标
扫码在手机上阅读本页
赞(0)

评论抢沙发

评论前必须登录!