- 1 回复
- 235 浏览
用 Ollama 跑 Qwen2.5 结果内存炸了
搞了个双卡4090,本地部署 Qwen2.5 32B,Ollama 0.5.4 启动直接占用 48G 显存,跑单轮对话就OOM。查日志发现是默认 context_length 设了 8192,改成2048后降到了36G,能跑但慢。有老哥试过 vLLM + 量化版本吗?求个能稳定跑32B的配置。
搞了个双卡4090,本地部署 Qwen2.5 32B,Ollama 0.5.4 启动直接占用 48G 显存,跑单轮对话就OOM。查日志发现是默认 context_length 设了 8192,改成2048后降到了36G,能跑但慢。有老哥试过 vLLM + 量化版本吗?求个能稳定跑32B的配置。
按楼层回复,支持引用与表情;使用 @用户名 或 @昵称 可提醒对方;发言计入圈子贡献字数。
本地偏好 · 配色仅保存在当前浏览器
点此注册,收藏与评论更方便
Welcome! This site is in Chinese. Tap EN in the top bar to read in English.
1 条评论