MOSS-TTS-Nano ONNX一键包708M 仅0.1B参数 轻量化部署无压力 无需显卡 在CPU上运行 支持 CLI、网页演示、Python API、浏览器扩展 支持中文、英文、日语、韩语等近 20 种语言

文章目录(快捷跳转)

简介说明

MOSS-TTS-Nano ONNX一键包708M 仅0.1B参数 轻量化部署无压力 无需显卡 在CPU上运行 支持 CLI、网页演示、Python API、浏览器扩展 支持中文、英文、日语、韩语等近 20 种语言
基于 MOSI 的开源多语言微型语音生成模型。AI和OpenMOSS团队。设计用于实时语音生成,并且部署栈足够简单,方便本地演示、网页服务和轻量级产品集成。
MOSS-TTS-Nano 专注于 TTS 部署中实际中最重要的部分:小规模、低延迟、足够优质的实时产品质量,以及简单的本地部署。它采用纯自回归的音频分词器 + LLM 流水线,使推理工作流程对终端用户和网页演示用户都友好。

## 项目亮点
- 超轻量级:仅 0.1B 参数,轻量化部署无压力
- CPU 原生支持:单核 CPU 即可流畅流式推理
- ONNX CPU 版本:效率翻倍,彻底脱离 PyTorch 依赖
- 完整语音克隆流程:支持参考音频一键克隆音色
- 多语言覆盖:支持中文、英文、日语、韩语等近 20 种语言
- 高音质输出:48kHz 双声道音频,听感自然
- 开箱即用:支持 CLI、网页演示、Python API、浏览器扩展

## 快速更新日志
- 2026.04.17:发布 ONNX CPU 版本,效率提升近 2 倍,支持浏览器直接运行
- 2026.04.16:开放模型微调代码,支持自定义训练
- 2026.04.14:发布 MOSS-TTS-Nano-Reader 浏览器阅读工具
- 2026.04.10:正式发布 MOSS-TTS-Nano 开源项目

## 在线体验
- 在线 Demo:https://openmoss.github.io/MOSS-TTS-Nano-Demo/
- HuggingFace:OpenMOSS-Team/MOSS-TTS-Nano

---

## 快速上手部署
### 环境配置(Conda)

conda create -n moss-tts-nano python=3.12 -y
conda activate moss-tts-nano

git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano

pip install -r requirements.txt
pip install -e .

### 依赖修复(安装失败时执行)

conda install -c conda-forge pynini=2.1.6.post1 -y
pip install git+https://github.com/WhizZest/WeTextProcessing.git
pip install -r requirements.txt

---

## 语音克隆推理
### 基础语音克隆(infer.py)

python infer.py \
  --prompt-audio-path assets/audio/zh_1.wav \
  --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"

生成音频默认保存至:
`generated_audio/infer_output.wav`

---

## 启动本地网页演示

python app.py

访问地址:
http://127.0.0.1:18083

---

## ONNX CPU 推理(推荐)
### ONNX 语音克隆

python infer_onnx.py \
  --prompt-audio-path assets/audio/zh_1.wav \
  --text "Welcome to the ONNX Runtime CPU demo."

### 指定模型目录

python infer_onnx.py \
  --model-dir /path/to/models \
  --prompt-audio-path assets/audio/zh_1.wav \
  --text "Welcome to the ONNX Runtime CPU demo."

### ONNX 网页演示

python app_onnx.py

访问地址:
http://127.0.0.1:18083

---

## CLI 命令使用
### 生成语音

moss-tts-nano generate \
  --prompt-speech assets/audio/zh_1.wav \
  --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"

### ONNX 后端生成

moss-tts-nano generate \
  --backend onnx \
  --prompt-speech assets/audio/zh_1.wav \
  --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"

### 启动网页服务

moss-tts-nano serve

### ONNX 网页服务

moss-tts-nano serve --backend onnx

---

## 模型微调
微调教程已内置,执行:

./finetuning/README.md

---

## MOSS-Audio-Tokenizer-Nano
作为 MOSS 全系列 TTS 模型的共享音频骨干,MOSS-Audio-Tokenizer-Nano 仅约 20M 参数,支持 48kHz 立体声,采用 RVQ 量化实现高压缩比、高重建质量,为语音生成提供统一高质量音频编码能力。

---

## MOSS-TTS 模型家族
- MOSS-TTS:旗舰级零样本语音克隆,长文本合成
- MOSS-TTS-Local-Transformer:1.7B 轻量旗舰风格模型
- MOSS-TTSD-v1.0:多说话人对话语音生成
- MOSS-VoiceGenerator:文本直接生成音色,无需参考音频
- MOSS-SoundEffect:环境音、音效生成模型
- MOSS-TTS-Realtime:低延迟实时语音代理模型

---

## 如果你在研究或产品中使用MOSS-TTS的工作,请注明:

@misc{openmoss2026mossttsnano,
  title={MOSS-TTS-Nano},
  author={OpenMOSS Team},
  year={2026},
  howpublished={GitHub repository},
  url={https://github.com/OpenMOSS/MOSS-TTS-Nano}
}

@misc{gong2026mossttstechnicalreport,
  title={MOSS-TTS Technical Report},
  author={Yitian Gong et al.},
  year={2026},
  eprint={2603.18090},
  archivePrefix={arXiv},
  primaryClass={cs.SD}
}

@misc{gong2026mossaudiotokenizerscalingaudiotokenizers,
  title={MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models},
  author={Yitian Gong et al.},
  year={2026},
  eprint={2602.10934},
  archivePrefix={arXiv},
  primaryClass={cs.SD}
}

---
适用场景
- 轻量级语音助手 / 智能朗读工具
- 浏览器插件、网页端实时语音
- 本地离线 TTS、语音克隆工具
- 小程序 / APP 低资源语音合成
- 教学课件、有声内容快速生成
- 开发者二次封装 API 服务
图片预览

运行占用

运行内存3-4G

无需显卡

 

下载地址
https://github.com/OpenMOSS/MOSS-TTS-Nano

https://pan.baidu.com/s/15OriTQMAw5jvDsQ11YHm_g?pwd=x372 提取码: x372

https://pan.quark.cn/s/06fcf9bcf3aa

未经允许不得转载:今夕资源网 » MOSS-TTS-Nano ONNX一键包708M 仅0.1B参数 轻量化部署无压力 无需显卡 在CPU上运行 支持 CLI、网页演示、Python API、浏览器扩展 支持中文、英文、日语、韩语等近 20 种语言
扫二维码手机阅读本页
赞(0)

评论抢沙发

评论前必须登录!