Whisper 在线字幕生成说明

当前工具提供 tiny 和 base 两个模型级别，并由访客浏览器从 ModelScope 外部仓库加载模型文件后完成转写。tiny 更适合先快速跑通流程，base 更适合需要更稳识别结果的中文口播、课程录音和采访整理。

tiny 和 base 怎么选

如果你第一次使用在线音频转字幕，建议先选 tiny。它的模型文件更小，加载和初始化压力更低，更适合确认浏览器、网络和音频格式是否能正常跑通。确认流程正常后，如果你更看重中文识别稳定性，再选择 base 会更合适。

浏览器需要先从 ModelScope 加载配置文件、分词器文件和 ONNX 模型文件，再初始化 WebAssembly 运行环境。首次加载时这些步骤都会比较明显；浏览器缓存命中后，再次打开同一模型通常会更快。

Q：现在支持哪些 Whisper 模型级别？
当前页面提供 tiny 和 base 两个级别。tiny 更适合先快速跑通流程，base 更适合希望中文识别更稳的音频整理场景。

Q：为什么第一次加载模型会等得更久？
当前工具由访客浏览器从 ModelScope 外部仓库加载模型文件，第一次需要下载配置、分词器和 ONNX 模型文件，所以等待会更明显；后续命中浏览器缓存时会更快。

Q：tiny 和 base 应该怎么选？
如果只是先确认音频能不能转字幕，建议选择 tiny；如果已经能稳定跑通，并且希望中文口播、课程录音或采访整理更稳，可以再选择 base。

Q：这个工具会把音频传到服务器识别吗？
当前转写路线以浏览器内处理为主，模型从 ModelScope 加载到访客浏览器后执行识别，不再走服务器端转写脚本。

今夕在线音频转文本工具提供官方在线版，也整理了可供学习和二次部署的开源版本。想本地化部署、查看实现思路或基于浏览器端 Whisper 转写方案继续开发，可以先阅读开源项目介绍。