在线音频转字幕 / 在线音频转文本工具

在线音频转字幕，支持生成 SRT 文件、LRC 结果和文本稿

适合课程录音、中文口播、采访录音、MP3 音频和视频配音内容整理。上传后可直接完成在线音频转文本、在线音频转 SRT 文件、在线 MP3 转字幕和在线转 LRC 等常见操作。

立即开始转字幕查看 SRT 使用说明 GitHub 开源

支持在线音频转文本支持在线音频转 SRT / LRC / TXT 支持 MP3 转字幕整理适合先生成字幕初稿，再继续校对和剪辑

准备中

等待选择音频。

当前还没有开始处理。

上传与设置

音频或视频文件

识别语言

模型级别

模型来源

浏览器会从 ModelScope 加载 Whisper tiny 模型并在浏览器内完成识别。模型文件首次加载需要一定时间，后续会被浏览器缓存。

输出字形

当前模型说明

当前默认路线 默认使用 ModelScope 外部仓库，并由访客浏览器完成主要识别流程

预计耗时 tiny 通常最快；base 更稳，但首次加载和转写时间都会更长。

识别精度 tiny 适合先出初稿；base 更适合中文口播和更正式的转写。

为什么会慢 系统需要先准备识别模型，再处理音频并执行转写。音频越长、模型越大，整体等待时间通常也会更明显。

适合场景 tiny 适合先跑通流程；base 适合更追求稳定性的课程录音、口播和访谈。

当前就绪状态 当前提供 tiny 和 base，是否可直接使用取决于当前网络是否能访问 ModelScope。

提示：当前只保留浏览器加载 ModelScope 外部模型这一条路线，转写过程由访客浏览器完成。

等待上传音频。

字幕结果

TXT 结果

SRT 结果

LRC 结果

适合先出字幕初稿可先把课程录音、采访音频或口播内容转成文字，再继续做校对和精修。

支持常用字幕格式可直接复制或导出 TXT、SRT、LRC，方便进入剪辑、字幕校正和内容整理流程。

适合中文音频整理更适合中文口播、课程录音、讲解内容和需要先生成字幕文本的常见场景。

时间分段预览

暂无结果。

常见问题

Q：这个工具适合哪些内容？
适合课程录音、会议录音、采访内容、中文口播、讲解音频、MP3 音频和需要先生成字幕初稿的视频配音内容。

Q：为什么第一次转字幕会慢一些？
第一次使用时需要先准备模型文件和转写环境，完成后才会进入正式识别阶段，所以首次等待通常会更明显。

Q：为什么不同模型耗时不同？
模型越大，准备时间和识别时间通常都会更长，但对应的中文识别稳定性也往往会更好一些。

Q：第一次应该怎么选模型？
建议先用 tiny 跑通一次音频转字幕流程；如果你觉得识别结果还不够稳，再切换到 base 会更合适。

Q：可以导出哪些结果格式？
当前支持 TXT 文字稿、SRT 字幕文件和 LRC 时间轴结果，适合在线音频转文本、在线音频转 SRT 文件和在线 MP3 转 LRC 等常见使用场景。

开源项目说明

今夕在线音频转文本工具提供官方在线版，也整理了可供学习和二次部署的开源版本。想本地化部署、查看实现思路或基于浏览器端 Whisper 转写方案继续开发，可以先阅读开源项目介绍。

查看开源项目介绍