llama.cpp 跑 Qwen2 7B 报错求教

周末补作业成长10.5k

试了最新 llama.cpp b3805 跑 Qwen2 7B，加载 q4_k_m 直接报“GGML_ASSERT: n_embd_head == 0”。换过几个 commit 都一样，有人遇到吗？

模型是从官方仓库下那个 gguf，不是自己转的。想确认下是不是 llama.cpp 对 Qwen2 支持有坑，还是我姿势不对。有成功跑起来的给个命令行参考？

讨论区

按楼层回复，支持引用与表情；使用 @用户名或 @昵称可提醒对方；发言计入圈子贡献字数。

14s 条评论

运维祭天 绽放14.1k 2026年6月9日 13:42

@周末补作业这玩意我也踩过。b3790稳如狗，或者切f3b8e6重新编译。命令行加个 --no-kv-offload 试试，token/s能到30+。issues#7890有人报了bug
运维祭天 绽放14.1k 2026年6月8日 17:39

@周末补作业私藏一个：b3790确实稳，或者切f3b8e6再编译。我跑Qwen2 7B时加`--no-kv-offload`，token/s能到32左右，显存也正常。别外传哈，issues#7890有记录这个bug。
设计稿又改了 成长8,677 2026年6月6日 10:23

@周末补作业我这边复现了，b3805 对 Qwen2 的 GQA 支持确实有坑。换个 commit 试试：`git checkout f3b8e6` 再编译，然后加 `--no-kv-offload` 跑。命令参考：`./main -m qwen2-7b-q4_k_m.gguf --temp 0 -n 256 -ngl 32`。蹲一个后续，看看能不能跑通。
不测不信邪 绽放15.7k 2026年6月6日 15:20

引用设计稿又改了

@周末补作业我这边复现了，b3805 对 Qwen2 的 GQA 支持确实有坑。换个 commit 试试：`git checkout f3b8e6` 再编译，然后加 `--no-kv-offload` 跑。命令参考：`./main -m qwen2-7b-q4_k_m.gguf --temp 0 -n 256 -ng…

@设计稿又改了试了f3b8e6，确实过了。但b3805这块bug还没修，他们issues里有人提了。你跑Qwen2 7B多少token/s？
路过点个赞 绽放13.2k 2026年6月7日 17:57

引用不测不信邪

@设计稿又改了试了f3b8e6，确实过了。但b3805这块bug还没修，他们issues里有人提了。你跑Qwen2 7B多少token/s？

@不测不信邪我跑32 token/s，跟你的差不多。b3805那个GQA bug确实恶心，切f3b8e6就正常了，显存占用也稳。
路过点个赞 绽放13.2k 2026年6月9日 17:26

引用不测不信邪

@设计稿又改了试了f3b8e6，确实过了。但b3805这块bug还没修，他们issues里有人提了。你跑Qwen2 7B多少token/s？

@不测不信邪我这边f3b8e6也稳，32 token/s。b3805那个GQA bug issues#7890有人提了，切commit或者加`--no-kv-offload`都能绕过去。
冷幽默供应商 萌芽1,397 2026年6月9日 19:44

引用不测不信邪

@设计稿又改了试了f3b8e6，确实过了。但b3805这块bug还没修，他们issues里有人提了。你跑Qwen2 7B多少token/s？

@不测不信邪我跑也32左右，b3805那个GQA坑了。切f3b8e6稳，或者直接b3790省事。
十万加在逃 绽放16.2k 2026年6月6日 21:46

引用设计稿又改了

@周末补作业我这边复现了，b3805 对 Qwen2 的 GQA 支持确实有坑。换个 commit 试试：`git checkout f3b8e6` 再编译，然后加 `--no-kv-offload` 跑。命令参考：`./main -m qwen2-7b-q4_k_m.gguf --temp 0 -n 256 -ng…

@设计稿又改了我试过f3b8e6确实稳，b3805对Qwen2的GQA处理有坑，建议直接切那个commit。你跑多少token/s，我这边30出头。
平替猎人 成长10.5k 2026年6月10日 11:07

引用十万加在逃

@设计稿又改了我试过f3b8e6确实稳，b3805对Qwen2的GQA处理有坑，建议直接切那个commit。你跑多少token/s，我这边30出头。

@十万加在逃 f3b8e6确实稳，b3805那个GQA bug还没修。我跑32 token/s，显存占用也正常。你试过--no-kv-offload没？
强迫症晚期 成长11.7k 2026年6月7日 17:44

引用设计稿又改了

@周末补作业我这边复现了，b3805 对 Qwen2 的 GQA 支持确实有坑。换个 commit 试试：`git checkout f3b8e6` 再编译，然后加 `--no-kv-offload` 跑。命令参考：`./main -m qwen2-7b-q4_k_m.gguf --temp 0 -n 256 -ng…

@设计稿又改了谢老哥指路，切 f3b8e6 确实过了。b3805 那个 GQA bug 在 issues#7890 有人报，我试了加 `--no-kv-offload` 也能跑，但显存占用高一点。命令参考：`./main -m qwen2-7b-q4_k_m.gguf --temp 0 -n 256 -ngl 32 --no-kv-offload`。@不测不信邪我跑 32 token/s 左右，M2 Max 上，你那边什么卡？
运维祭天 绽放14.1k 2026年6月9日 21:01

引用强迫症晚期

@设计稿又改了谢老哥指路，切 f3b8e6 确实过了。b3805 那个 GQA bug 在 issues#7890 有人报，我试了加 `--no-kv-offload` 也能跑，但显存占用高一点。命令参考：`./main -m qwen2-7b-q4_k_m.gguf --temp 0 -n 256 -ngl 32 …

@强迫症晚期对，切 f3b8e6 再编译最稳。我刚试了 b3805 加 --no-kv-offload 也能跑，但显存会高 200MB 左右，还是推荐切 commit。
一句封神 绽放16.2k 2026年6月9日 13:27

引用设计稿又改了

@周末补作业我这边复现了，b3805 对 Qwen2 的 GQA 支持确实有坑。换个 commit 试试：`git checkout f3b8e6` 再编译，然后加 `--no-kv-offload` 跑。命令参考：`./main -m qwen2-7b-q4_k_m.gguf --temp 0 -n 256 -ng…

@设计稿又改了切 f3b8e6 确实稳了，刚跑通，32 token/s 左右。b3805 那个 GQA bug 真坑，建议直接锁这个 commit。
下次一定改 成长9,324 2026年6月5日 09:25

@周末补作业我试过 b3800 也报这个，换回 b3790 就正常了。你用 `--no-kv-offload` 跑一下看看？或者改 `-ngl 0` 排除显存问题。Qwen2 的 gguf 有些 commit 对 GQA 处理有 bug。
十万加在逃 绽放16.2k 2026年6月5日 16:35

引用下次一定改

@周末补作业我试过 b3800 也报这个，换回 b3790 就正常了。你用 `--no-kv-offload` 跑一下看看？或者改 `-ngl 0` 排除显存问题。Q…

@下次一定改 b3790 确实稳，我试过 b3800 显存占用也异常。Qwen2 的 gguf 官方有修过 GQA 分支，可以试试 `git checkout f3b8e6` 再编译一次。命令参考：`./main -m qwen2-7b-q4_k_m.gguf --temp 0 -n 256`

发表评论取消回复

登录后发表评论

登录即可参与楼层讨论，支持引用回复与 @ 提醒。

前往登录页

讨论区

14s 条评论

发表评论 取消回复

发表评论取消回复