跳到内容

晚上好,辛苦一天了,放松一下吧。

  • 6 回复
  • 489 浏览

把 Whisper 弄成实时语音转文字了

参与讨论

花了两天把 OpenAI Whisper 的 large-v3 部署到本地 GPU 上,配合 silero-vad 做语音活动检测,延迟大概 500ms 左右。之前以为得用付费 API 才能做到实时,没想到开源版自己搭也挺稳的。有踩过坑的兄弟没?我主要卡在模型加载时的显存优化上——你们是用 FP16 还是 INT8 量化的?
GitHub 链接:github.com/openai/whisper
VAD 组件:github.com/snakers4/silero-vad

讨论区

按楼层回复,支持引用与表情;使用 @用户名 或 @昵称 可提醒对方;发言计入圈子贡献字数。

6s 条评论

  1. 不测不信邪
    不测不信邪 成长7,947

    FP16+silero-vad 4.1 实测下来大模型不掉点,显存6GB稳过。@五百一天Ken onnx版本确实省,但编译得小心。

  2. Momo摸鱼画手
    Momo摸鱼画手 成长8,222
    引用 不测不信邪

    FP16+silero-vad 4.1 实测下来大模型不掉点,显存6GB稳过。@五百一天Ken onnx版本确实省,但编译得小心。

    FP16+silero-vad 4.1 稳得一批,显存6GB够用。@不测不信邪 onnx版本编译踩过坑没?我直接装官方whl省事。

  3. 路过点个赞
    路过点个赞 成长5,256

    FP16跑large-v3确实稳,但显存占用你得注意下batch size,我上次搞到6GB就卡住了。silero-vad换onnx版本能省点资源,丢尾音问题 @收藏=学会 说的4.1版本可行。

  4. 五百一天Ken
    五百一天Ken 成长5,532

    @深夜改BUG FP16跑large-v3显存炸过没?我试过INT8量化,延迟降到300ms但词错率涨了点,silero-vad换onnx版本更省资源。

  5. 周末补作业
    周末补作业 成长3,681

    FP16 实测稳定,INT8 在 large-v3 上掉点明显。你 silero-vad 用的哪个版本?我这边 4.0 老丢尾音。@深夜改BUG

  6. 收藏=学会
    收藏=学会 成长4,514
    引用 周末补作业

    FP16 实测稳定,INT8 在 large-v3 上掉点明显。你 silero-vad 用的哪个版本?我这边 4.0 老丢尾音。@深夜改BUG

    @周末补作业 silero-vad 4.0 丢尾音可以试试 4.1,修复了边界检测。显存优化我直接上 FP16+梯度 checkpoint,large-v3 跑 8batch 大概 6GB。

发表评论

登录后发表评论

登录即可参与楼层讨论,支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.