简介说明
MOSS-TTS-Nano ONNX一键包708M 仅0.1B参数 轻量化部署无压力 无需显卡 在CPU上运行 支持 CLI、网页演示、Python API、浏览器扩展 支持中文、英文、日语、韩语等近 20 种语言
基于 MOSI 的开源多语言微型语音生成模型。AI和OpenMOSS团队。设计用于实时语音生成,并且部署栈足够简单,方便本地演示、网页服务和轻量级产品集成。
MOSS-TTS-Nano 专注于 TTS 部署中实际中最重要的部分:小规模、低延迟、足够优质的实时产品质量,以及简单的本地部署。它采用纯自回归的音频分词器 + LLM 流水线,使推理工作流程对终端用户和网页演示用户都友好。
## 项目亮点
- 超轻量级:仅 0.1B 参数,轻量化部署无压力
- CPU 原生支持:单核 CPU 即可流畅流式推理
- ONNX CPU 版本:效率翻倍,彻底脱离 PyTorch 依赖
- 完整语音克隆流程:支持参考音频一键克隆音色
- 多语言覆盖:支持中文、英文、日语、韩语等近 20 种语言
- 高音质输出:48kHz 双声道音频,听感自然
- 开箱即用:支持 CLI、网页演示、Python API、浏览器扩展
## 快速更新日志
- 2026.04.17:发布 ONNX CPU 版本,效率提升近 2 倍,支持浏览器直接运行
- 2026.04.16:开放模型微调代码,支持自定义训练
- 2026.04.14:发布 MOSS-TTS-Nano-Reader 浏览器阅读工具
- 2026.04.10:正式发布 MOSS-TTS-Nano 开源项目
## 在线体验
- 在线 Demo:https://openmoss.github.io/MOSS-TTS-Nano-Demo/
- HuggingFace:OpenMOSS-Team/MOSS-TTS-Nano
---
## 快速上手部署
### 环境配置(Conda)
conda create -n moss-tts-nano python=3.12 -y conda activate moss-tts-nano git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git cd MOSS-TTS-Nano pip install -r requirements.txt pip install -e .
### 依赖修复(安装失败时执行)
conda install -c conda-forge pynini=2.1.6.post1 -y pip install git+https://github.com/WhizZest/WeTextProcessing.git pip install -r requirements.txt
---
## 语音克隆推理
### 基础语音克隆(infer.py)
python infer.py \ --prompt-audio-path assets/audio/zh_1.wav \ --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"
生成音频默认保存至:
`generated_audio/infer_output.wav`
---
## 启动本地网页演示
python app.py
访问地址:
http://127.0.0.1:18083
---
## ONNX CPU 推理(推荐)
### ONNX 语音克隆
python infer_onnx.py \ --prompt-audio-path assets/audio/zh_1.wav \ --text "Welcome to the ONNX Runtime CPU demo."
### 指定模型目录
python infer_onnx.py \ --model-dir /path/to/models \ --prompt-audio-path assets/audio/zh_1.wav \ --text "Welcome to the ONNX Runtime CPU demo."
### ONNX 网页演示
python app_onnx.py
访问地址:
http://127.0.0.1:18083
---
## CLI 命令使用
### 生成语音
moss-tts-nano generate \ --prompt-speech assets/audio/zh_1.wav \ --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"
### ONNX 后端生成
moss-tts-nano generate \ --backend onnx \ --prompt-speech assets/audio/zh_1.wav \ --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"
### 启动网页服务
moss-tts-nano serve
### ONNX 网页服务
moss-tts-nano serve --backend onnx
---
## 模型微调
微调教程已内置,执行:
./finetuning/README.md
---
## MOSS-Audio-Tokenizer-Nano
作为 MOSS 全系列 TTS 模型的共享音频骨干,MOSS-Audio-Tokenizer-Nano 仅约 20M 参数,支持 48kHz 立体声,采用 RVQ 量化实现高压缩比、高重建质量,为语音生成提供统一高质量音频编码能力。
---
## MOSS-TTS 模型家族
- MOSS-TTS:旗舰级零样本语音克隆,长文本合成
- MOSS-TTS-Local-Transformer:1.7B 轻量旗舰风格模型
- MOSS-TTSD-v1.0:多说话人对话语音生成
- MOSS-VoiceGenerator:文本直接生成音色,无需参考音频
- MOSS-SoundEffect:环境音、音效生成模型
- MOSS-TTS-Realtime:低延迟实时语音代理模型
---
## 如果你在研究或产品中使用MOSS-TTS的工作,请注明:
@misc{openmoss2026mossttsnano,
title={MOSS-TTS-Nano},
author={OpenMOSS Team},
year={2026},
howpublished={GitHub repository},
url={https://github.com/OpenMOSS/MOSS-TTS-Nano}
}
@misc{gong2026mossttstechnicalreport,
title={MOSS-TTS Technical Report},
author={Yitian Gong et al.},
year={2026},
eprint={2603.18090},
archivePrefix={arXiv},
primaryClass={cs.SD}
}
@misc{gong2026mossaudiotokenizerscalingaudiotokenizers,
title={MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models},
author={Yitian Gong et al.},
year={2026},
eprint={2602.10934},
archivePrefix={arXiv},
primaryClass={cs.SD}
}
---
适用场景
- 轻量级语音助手 / 智能朗读工具
- 浏览器插件、网页端实时语音
- 本地离线 TTS、语音克隆工具
- 小程序 / APP 低资源语音合成
- 教学课件、有声内容快速生成
- 开发者二次封装 API 服务
图片预览


运行占用
运行内存3-4G
无需显卡
下载地址
https://github.com/OpenMOSS/MOSS-TTS-Nano
https://pan.baidu.com/s/15OriTQMAw5jvDsQ11YHm_g?pwd=x372 提取码: x372






评论抢沙发