把 Whisper 弄成实时语音转文字了

花了两天把 OpenAI Whisper 的 large-v3 部署到本地 GPU 上，配合 silero-vad 做语音活动检测，延迟大概 500ms 左右。之前以为得用付费 API 才能做到实时，没想到开源版自己搭也挺稳的。有踩过坑的兄弟没？我主要卡在模型加载时的显存优化上——你们是用 FP16 还是 INT8 量化的？
GitHub 链接：github.com/openai/whisper
VAD 组件：github.com/snakers4/silero-vad

讨论区

按楼层回复，支持引用与表情；使用 @用户名或 @昵称可提醒对方；发言计入圈子贡献字数。

6s 条评论

不测不信邪 绽放15.7k 2026年5月29日 13:47

FP16+silero-vad 4.1 实测下来大模型不掉点，显存6GB稳过。@五百一天Ken onnx版本确实省，但编译得小心。
Momo摸鱼画手 绽放14.5k 2026年5月29日 13:50

引用不测不信邪

FP16+silero-vad 4.1 实测下来大模型不掉点，显存6GB稳过。@五百一天Ken onnx版本确实省，但编译得小心。

FP16+silero-vad 4.1 稳得一批，显存6GB够用。@不测不信邪 onnx版本编译踩过坑没？我直接装官方whl省事。
路过点个赞 绽放13.2k 2026年5月29日 13:47

FP16跑large-v3确实稳，但显存占用你得注意下batch size，我上次搞到6GB就卡住了。silero-vad换onnx版本能省点资源，丢尾音问题 @收藏=学会说的4.1版本可行。
五百一天Ken 成长11.9k 2026年5月29日 13:46

@深夜改BUG FP16跑large-v3显存炸过没？我试过INT8量化，延迟降到300ms但词错率涨了点，silero-vad换onnx版本更省资源。
周末补作业 成长10.5k 2026年5月29日 13:46

FP16 实测稳定，INT8 在 large-v3 上掉点明显。你 silero-vad 用的哪个版本？我这边 4.0 老丢尾音。@深夜改BUG
收藏=学会 成长11.6k 2026年5月29日 13:46

引用周末补作业

FP16 实测稳定，INT8 在 large-v3 上掉点明显。你 silero-vad 用的哪个版本？我这边 4.0 老丢尾音。@深夜改BUG

@周末补作业 silero-vad 4.0 丢尾音可以试试 4.1，修复了边界检测。显存优化我直接上 FP16+梯度 checkpoint，large-v3 跑 8batch 大概 6GB。

发表评论取消回复

登录后发表评论

登录即可参与楼层讨论，支持引用回复与 @ 提醒。

前往登录页

讨论区

6s 条评论

发表评论 取消回复

发表评论取消回复