MOSS-TTS-Nano ONNX708M 仅0.1B参数轻量化部署无压力无需显卡在CPU上运行

文章目录（快捷跳转）

简介说明
图片预览
运行占用
下载地址
扫码在手机上阅读本页

简介说明

MOSS-TTS-Nano ONNX一键包708M 仅0.1B参数轻量化部署无压力无需显卡在CPU上运行支持 CLI、网页演示、Python API、浏览器扩展支持中文、英文、日语、韩语等近 20 种语言
基于 MOSI 的开源多语言微型语音生成模型。AI和OpenMOSS团队。设计用于实时语音生成，并且部署栈足够简单，方便本地演示、网页服务和轻量级产品集成。
MOSS-TTS-Nano 专注于 TTS 部署中实际中最重要的部分：小规模、低延迟、足够优质的实时产品质量，以及简单的本地部署。它采用纯自回归的音频分词器 + LLM 流水线，使推理工作流程对终端用户和网页演示用户都友好。

## 项目亮点
- 超轻量级：仅 0.1B 参数，轻量化部署无压力
- CPU 原生支持：单核 CPU 即可流畅流式推理
- ONNX CPU 版本：效率翻倍，彻底脱离 PyTorch 依赖
- 完整语音克隆流程：支持参考音频一键克隆音色
- 多语言覆盖：支持中文、英文、日语、韩语等近 20 种语言
- 高音质输出：48kHz 双声道音频，听感自然
- 开箱即用：支持 CLI、网页演示、Python API、浏览器扩展

## 快速更新日志
- 2026.04.17：发布 ONNX CPU 版本，效率提升近 2 倍，支持浏览器直接运行
- 2026.04.16：开放模型微调代码，支持自定义训练
- 2026.04.14：发布 MOSS-TTS-Nano-Reader 浏览器阅读工具
- 2026.04.10：正式发布 MOSS-TTS-Nano 开源项目

## 在线体验
- 在线 Demo：https://openmoss.github.io/MOSS-TTS-Nano-Demo/
- HuggingFace：OpenMOSS-Team/MOSS-TTS-Nano

---

## 快速上手部署
### 环境配置（Conda）

conda create -n moss-tts-nano python=3.12 -y
conda activate moss-tts-nano

git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano

pip install -r requirements.txt
pip install -e .

### 依赖修复（安装失败时执行）

conda install -c conda-forge pynini=2.1.6.post1 -y
pip install git+https://github.com/WhizZest/WeTextProcessing.git
pip install -r requirements.txt

---

## 语音克隆推理
### 基础语音克隆（infer.py）

python infer.py \
  --prompt-audio-path assets/audio/zh_1.wav \
  --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"

生成音频默认保存至：
`generated_audio/infer_output.wav`

---

## 启动本地网页演示

python app.py

访问地址：
http://127.0.0.1:18083

---

## ONNX CPU 推理（推荐）
### ONNX 语音克隆

python infer_onnx.py \
  --prompt-audio-path assets/audio/zh_1.wav \
  --text "Welcome to the ONNX Runtime CPU demo."

### 指定模型目录

python infer_onnx.py \
  --model-dir /path/to/models \
  --prompt-audio-path assets/audio/zh_1.wav \
  --text "Welcome to the ONNX Runtime CPU demo."

### ONNX 网页演示

python app_onnx.py

访问地址：
http://127.0.0.1:18083

---

## CLI 命令使用
### 生成语音

moss-tts-nano generate \
  --prompt-speech assets/audio/zh_1.wav \
  --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"

### ONNX 后端生成

moss-tts-nano generate \
  --backend onnx \
  --prompt-speech assets/audio/zh_1.wav \
  --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"

### 启动网页服务

moss-tts-nano serve

### ONNX 网页服务

moss-tts-nano serve --backend onnx

---

## 模型微调
微调教程已内置，执行：

./finetuning/README.md

---

## MOSS-Audio-Tokenizer-Nano
作为 MOSS 全系列 TTS 模型的共享音频骨干，MOSS-Audio-Tokenizer-Nano 仅约 20M 参数，支持 48kHz 立体声，采用 RVQ 量化实现高压缩比、高重建质量，为语音生成提供统一高质量音频编码能力。

---

## MOSS-TTS 模型家族
- MOSS-TTS：旗舰级零样本语音克隆，长文本合成
- MOSS-TTS-Local-Transformer：1.7B 轻量旗舰风格模型
- MOSS-TTSD-v1.0：多说话人对话语音生成
- MOSS-VoiceGenerator：文本直接生成音色，无需参考音频
- MOSS-SoundEffect：环境音、音效生成模型
- MOSS-TTS-Realtime：低延迟实时语音代理模型

---

## 如果你在研究或产品中使用MOSS-TTS的工作，请注明：

@misc{openmoss2026mossttsnano,
  title={MOSS-TTS-Nano},
  author={OpenMOSS Team},
  year={2026},
  howpublished={GitHub repository},
  url={https://github.com/OpenMOSS/MOSS-TTS-Nano}
}

@misc{gong2026mossttstechnicalreport,
  title={MOSS-TTS Technical Report},
  author={Yitian Gong et al.},
  year={2026},
  eprint={2603.18090},
  archivePrefix={arXiv},
  primaryClass={cs.SD}
}

@misc{gong2026mossaudiotokenizerscalingaudiotokenizers,
  title={MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models},
  author={Yitian Gong et al.},
  year={2026},
  eprint={2602.10934},
  archivePrefix={arXiv},
  primaryClass={cs.SD}
}

---
适用场景
- 轻量级语音助手 / 智能朗读工具
- 浏览器插件、网页端实时语音
- 本地离线 TTS、语音克隆工具
- 小程序 / APP 低资源语音合成
- 教学课件、有声内容快速生成
- 开发者二次封装 API 服务
图片预览
MOSS-TTS-Nano ONNX一键包708M 仅0.1B参数轻量化部署无压力无需显卡在CPU上运行支持 CLI、网页演示、Python API、浏览器扩展支持中文、英文、日语、韩语等近 20 种语言 - AI语音生成, CPU实时TTS, CPU语音合成