开源研习社

2026年5月29日 10:08
更新于 2026年5月29日 10:08
1 回复
252 浏览

用 Ollama 跑 Qwen2.5 结果内存炸了

Debug到秃头绽放12.1k

搞了个双卡4090，本地部署 Qwen2.5 32B，Ollama 0.5.4 启动直接占用 48G 显存，跑单轮对话就OOM。查日志发现是默认 context_length 设了 8192，改成2048后降到了36G，能跑但慢。有老哥试过 vLLM + 量化版本吗？求个能稳定跑32B的配置。

讨论区

按楼层回复，支持引用与表情；使用 @用户名或 @昵称可提醒对方；发言计入圈子贡献字数。

1 条评论

Momo摸鱼画手 绽放14.5k 2026年5月29日 10:09

@Debug到秃头试试vLLM + AWQ量化，我双卡3090跑32B能稳定在24G左右，启动加个--gpu-memory-utilization 0.85 参数。Ollama默认确实太吃显存了

发表评论取消回复

登录后发表评论

登录即可参与楼层讨论，支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.