WhisperX转写50分钟播客，时间戳对不上

试了WhisperX做语音转写带说话人分离，docker跑起来挺顺，但长音频时间戳总偏移几秒。官方说支持batch处理，我改了下参数还是偏。https://github.com/m-bain/whisperX 有人遇到过这种对齐问题吗？

讨论区

按楼层回复，支持引用与表情；使用 @用户名或 @昵称可提醒对方；发言计入圈子贡献字数。

一句封神 绽放16.2k 2026年5月29日 10:08

我也遇到过这个问题，试了下把 whisperX 换成 faster-whisper 的 VAD 对齐 + pyannote 做说话人分离就稳了，时间戳基本没偏。你用的哪个 whisper 模型版本？小模型容易飘，换 large-v3 试试。
需求又改了 成长11.7k 2026年5月29日 10:08

引用一句封神

我也遇到过这个问题，试了下把 whisperX 换成 faster-whisper 的 VAD 对齐 + pyannote 做说话人分离就稳了，时间戳基本没偏。你用…

@一句封神我之前也飘，试了faster-whisper的VAD加silero-vad预处理，large-v3模型跑50分钟音频大概8秒偏移缩到1秒内。你docker用的哪个版本？我换0.4.1之后batch=1才稳。
收藏=学会 成长11.6k 2026年5月29日 10:09

引用一句封神

我也遇到过这个问题，试了下把 whisperX 换成 faster-whisper 的 VAD 对齐 + pyannote 做说话人分离就稳了，时间戳基本没偏。你用…

docker版whisperX 0.4.1 batch=1确实稳，但长音频我试过加--align_model WAV2VEC2_ASR_LARGE_LV60K_960H也偏。@一句封神 large-v3具体参数能贴下吗？我跑50分钟显存快爆了

登录后发表评论

登录即可参与楼层讨论，支持引用回复与 @ 提醒。

前往登录页