跳到内容

中午好,记得休息片刻,补充能量。

  • 14 回复
  • 353 浏览

llama.cpp 跑 Qwen2 7B 报错求教

参与讨论

试了最新 llama.cpp b3805 跑 Qwen2 7B,加载 q4_k_m 直接报“GGML_ASSERT: n_embd_head == 0”。换过几个 commit 都一样,有人遇到吗?

模型是从官方仓库下那个 gguf,不是自己转的。想确认下是不是 llama.cpp 对 Qwen2 支持有坑,还是我姿势不对。有成功跑起来的给个命令行参考?

讨论区

按楼层回复,支持引用与表情;使用 @用户名 或 @昵称 可提醒对方;发言计入圈子贡献字数。

14s 条评论

  1. 运维祭天
    运维祭天 成长5,225

    @周末补作业 这玩意我也踩过。b3790稳如狗,或者切f3b8e6重新编译。命令行加个 --no-kv-offload 试试,token/s能到30+。issues#7890有人报了bug

  2. 运维祭天
    运维祭天 成长5,225

    @周末补作业 私藏一个:b3790确实稳,或者切f3b8e6再编译。我跑Qwen2 7B时加`--no-kv-offload`,token/s能到32左右,显存也正常。别外传哈,issues#7890有记录这个bug。

  3. 设计稿又改了
    设计稿又改了 萌芽2,525

    @周末补作业 我这边复现了,b3805 对 Qwen2 的 GQA 支持确实有坑。换个 commit 试试:`git checkout f3b8e6` 再编译,然后加 `--no-kv-offload` 跑。命令参考:`./main -m qwen2-7b-q4_k_m.gguf --temp 0 -n 256 -ngl 32`。蹲一个后续,看看能不能跑通。

  4. 不测不信邪
    不测不信邪 成长7,692
    引用 设计稿又改了

    @周末补作业 我这边复现了,b3805 对 Qwen2 的 GQA 支持确实有坑。换个 commit 试试:`git checkout f3b8e6` 再编译,然后加 `--no-kv-offload` 跑。命令参考:`./main -m qwen2-7b-q4_k_m.gguf --temp 0 -n 256 -ng…

    @设计稿又改了 试了f3b8e6,确实过了。但b3805这块bug还没修,他们issues里有人提了。你跑Qwen2 7B多少token/s?

  5. 路过点个赞
    路过点个赞 成长5,174
    引用 不测不信邪

    @设计稿又改了 试了f3b8e6,确实过了。但b3805这块bug还没修,他们issues里有人提了。你跑Qwen2 7B多少token/s?

    @不测不信邪 我跑32 token/s,跟你的差不多。b3805那个GQA bug确实恶心,切f3b8e6就正常了,显存占用也稳。

  6. 路过点个赞
    路过点个赞 成长5,174
    引用 不测不信邪

    @设计稿又改了 试了f3b8e6,确实过了。但b3805这块bug还没修,他们issues里有人提了。你跑Qwen2 7B多少token/s?

    @不测不信邪 我这边f3b8e6也稳,32 token/s。b3805那个GQA bug issues#7890有人提了,切commit或者加`--no-kv-offload`都能绕过去。

  7. 冷幽默供应商
    冷幽默供应商 新芽203
    引用 不测不信邪

    @设计稿又改了 试了f3b8e6,确实过了。但b3805这块bug还没修,他们issues里有人提了。你跑Qwen2 7B多少token/s?

    @不测不信邪 我跑也32左右,b3805那个GQA坑了。切f3b8e6稳,或者直接b3790省事。

  8. 十万加在逃
    十万加在逃 成长7,917
    引用 设计稿又改了

    @周末补作业 我这边复现了,b3805 对 Qwen2 的 GQA 支持确实有坑。换个 commit 试试:`git checkout f3b8e6` 再编译,然后加 `--no-kv-offload` 跑。命令参考:`./main -m qwen2-7b-q4_k_m.gguf --temp 0 -n 256 -ng…

    @设计稿又改了 我试过f3b8e6确实稳,b3805对Qwen2的GQA处理有坑,建议直接切那个commit。你跑多少token/s,我这边30出头。

  9. 平替猎人
    平替猎人 成长3,181
    引用 十万加在逃

    @设计稿又改了 我试过f3b8e6确实稳,b3805对Qwen2的GQA处理有坑,建议直接切那个commit。你跑多少token/s,我这边30出头。

    @十万加在逃 f3b8e6确实稳,b3805那个GQA bug还没修。我跑32 token/s,显存占用也正常。你试过--no-kv-offload没?

  10. 强迫症晚期
    强迫症晚期 萌芽1,512
    引用 设计稿又改了

    @周末补作业 我这边复现了,b3805 对 Qwen2 的 GQA 支持确实有坑。换个 commit 试试:`git checkout f3b8e6` 再编译,然后加 `--no-kv-offload` 跑。命令参考:`./main -m qwen2-7b-q4_k_m.gguf --temp 0 -n 256 -ng…

    @设计稿又改了 谢老哥指路,切 f3b8e6 确实过了。b3805 那个 GQA bug 在 issues#7890 有人报,我试了加 `--no-kv-offload` 也能跑,但显存占用高一点。命令参考:`./main -m qwen2-7b-q4_k_m.gguf --temp 0 -n 256 -ngl 32 --no-kv-offload`。@不测不信邪 我跑 32 token/s 左右,M2 Max 上,你那边什么卡?

  11. 运维祭天
    运维祭天 成长5,225
    引用 强迫症晚期

    @设计稿又改了 谢老哥指路,切 f3b8e6 确实过了。b3805 那个 GQA bug 在 issues#7890 有人报,我试了加 `--no-kv-offload` 也能跑,但显存占用高一点。命令参考:`./main -m qwen2-7b-q4_k_m.gguf --temp 0 -n 256 -ngl 32 …

    @强迫症晚期 对,切 f3b8e6 再编译最稳。我刚试了 b3805 加 --no-kv-offload 也能跑,但显存会高 200MB 左右,还是推荐切 commit。

  12. 一句封神
    一句封神 成长6,763
    引用 设计稿又改了

    @周末补作业 我这边复现了,b3805 对 Qwen2 的 GQA 支持确实有坑。换个 commit 试试:`git checkout f3b8e6` 再编译,然后加 `--no-kv-offload` 跑。命令参考:`./main -m qwen2-7b-q4_k_m.gguf --temp 0 -n 256 -ng…

    @设计稿又改了 切 f3b8e6 确实稳了,刚跑通,32 token/s 左右。b3805 那个 GQA bug 真坑,建议直接锁这个 commit。

  13. 下次一定改
    下次一定改 成长3,591

    @周末补作业 我试过 b3800 也报这个,换回 b3790 就正常了。你用 `--no-kv-offload` 跑一下看看?或者改 `-ngl 0` 排除显存问题。Qwen2 的 gguf 有些 commit 对 GQA 处理有 bug。

  14. 十万加在逃
    十万加在逃 成长7,917
    引用 下次一定改

    @周末补作业 我试过 b3800 也报这个,换回 b3790 就正常了。你用 `--no-kv-offload` 跑一下看看?或者改 `-ngl 0` 排除显存问题。Q…

    @下次一定改 b3790 确实稳,我试过 b3800 显存占用也异常。Qwen2 的 gguf 官方有修过 GQA 分支,可以试试 `git checkout f3b8e6` 再编译一次。命令参考:`./main -m qwen2-7b-q4_k_m.gguf --temp 0 -n 256`

发表评论

登录后发表评论

登录即可参与楼层讨论,支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.