音频转字幕工具
返回工具导航 转字幕工具首页 开始转字幕 音频转 SRT 说明 Whisper 说明 加载失败排查

Whisper 在线字幕生成说明

当前工具提供 tiny 和 base 两个模型级别,并由访客浏览器从 ModelScope 外部仓库加载模型文件后完成转写。tiny 更适合先快速跑通流程,base 更适合需要更稳识别结果的中文口播、课程录音和采访整理。

tiny 和 base 怎么选

如果你第一次使用在线音频转字幕,建议先选 tiny。它的模型文件更小,加载和初始化压力更低,更适合确认浏览器、网络和音频格式是否能正常跑通。确认流程正常后,如果你更看重中文识别稳定性,再选择 base 会更合适。

为什么首次加载会慢

浏览器需要先从 ModelScope 加载配置文件、分词器文件和 ONNX 模型文件,再初始化 WebAssembly 运行环境。首次加载时这些步骤都会比较明显;浏览器缓存命中后,再次打开同一模型通常会更快。

常见问题

Q:现在支持哪些 Whisper 模型级别?
当前页面提供 tiny 和 base 两个级别。tiny 更适合先快速跑通流程,base 更适合希望中文识别更稳的音频整理场景。
Q:为什么第一次加载模型会等得更久?
当前工具由访客浏览器从 ModelScope 外部仓库加载模型文件,第一次需要下载配置、分词器和 ONNX 模型文件,所以等待会更明显;后续命中浏览器缓存时会更快。
Q:tiny 和 base 应该怎么选?
如果只是先确认音频能不能转字幕,建议选择 tiny;如果已经能稳定跑通,并且希望中文口播、课程录音或采访整理更稳,可以再选择 base。
Q:这个工具会把音频传到服务器识别吗?
当前转写路线以浏览器内处理为主,模型从 ModelScope 加载到访客浏览器后执行识别,不再走服务器端转写脚本。

开源项目说明

今夕在线音频转文本工具提供官方在线版,也整理了可供学习和二次部署的开源版本。想本地化部署、查看实现思路或基于浏览器端 Whisper 转写方案继续开发,可以先阅读开源项目介绍。

相关推荐