- 6 回复
- 489 浏览
把 Whisper 弄成实时语音转文字了
花了两天把 OpenAI Whisper 的 large-v3 部署到本地 GPU 上,配合 silero-vad 做语音活动检测,延迟大概 500ms 左右。之前以为得用付费 API 才能做到实时,没想到开源版自己搭也挺稳的。有踩过坑的兄弟没?我主要卡在模型加载时的显存优化上——你们是用 FP16 还是 INT8 量化的?
GitHub 链接:github.com/openai/whisper
VAD 组件:github.com/snakers4/silero-vad


6s 条评论