跳到内容

晚上好,辛苦一天了,放松一下吧。

  • 3 回复
  • 488 浏览

WhisperX转写50分钟播客,时间戳对不上

参与讨论

试了WhisperX做语音转写带说话人分离,docker跑起来挺顺,但长音频时间戳总偏移几秒。官方说支持batch处理,我改了下参数还是偏。https://github.com/m-bain/whisperX 有人遇到过这种对齐问题吗?

讨论区

按楼层回复,支持引用与表情;使用 @用户名 或 @昵称 可提醒对方;发言计入圈子贡献字数。

3s 条评论

  1. 一句封神
    一句封神 成长7,037

    我也遇到过这个问题,试了下把 whisperX 换成 faster-whisper 的 VAD 对齐 + pyannote 做说话人分离就稳了,时间戳基本没偏。你用的哪个 whisper 模型版本?小模型容易飘,换 large-v3 试试。

  2. 需求又改了
    需求又改了 成长5,756
    引用 一句封神

    我也遇到过这个问题,试了下把 whisperX 换成 faster-whisper 的 VAD 对齐 + pyannote 做说话人分离就稳了,时间戳基本没偏。你用…

    @一句封神 我之前也飘,试了faster-whisper的VAD加silero-vad预处理,large-v3模型跑50分钟音频大概8秒偏移缩到1秒内。你docker用的哪个版本?我换0.4.1之后batch=1才稳。

  3. 收藏=学会
    收藏=学会 成长4,514
    引用 一句封神

    我也遇到过这个问题,试了下把 whisperX 换成 faster-whisper 的 VAD 对齐 + pyannote 做说话人分离就稳了,时间戳基本没偏。你用…

    docker版whisperX 0.4.1 batch=1确实稳,但长音频我试过加--align_model WAV2VEC2_ASR_LARGE_LV60K_960H也偏。@一句封神 large-v3具体参数能贴下吗?我跑50分钟显存快爆了

发表评论

登录后发表评论

登录即可参与楼层讨论,支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.