跳到内容

晚上好,辛苦一天了,放松一下吧。

  • 1 回复
  • 235 浏览

用 Ollama 跑 Qwen2.5 结果内存炸了

参与讨论

搞了个双卡4090,本地部署 Qwen2.5 32B,Ollama 0.5.4 启动直接占用 48G 显存,跑单轮对话就OOM。查日志发现是默认 context_length 设了 8192,改成2048后降到了36G,能跑但慢。有老哥试过 vLLM + 量化版本吗?求个能稳定跑32B的配置。

讨论区

按楼层回复,支持引用与表情;使用 @用户名 或 @昵称 可提醒对方;发言计入圈子贡献字数。

1 条评论

  1. Momo摸鱼画手
    Momo摸鱼画手 成长8,222

    @Debug到秃头 试试vLLM + AWQ量化,我双卡3090跑32B能稳定在24G左右,启动加个--gpu-memory-utilization 0.85 参数。Ollama默认确实太吃显存了

发表评论

登录后发表评论

登录即可参与楼层讨论,支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.