跳到内容

中午好,记得休息片刻,补充能量。

  • 11 回复
  • 465 浏览

跑Stable Diffusion XL,4090 vs A100 vs Mac M2

参与讨论

同样的提示词,同样的batch size=4,4090 24G显存跑1024×1024大概2.3秒一张,A100 80G快0.6秒但贵了10倍。M2 Ultra 192G统一内存?7秒起步还爆显存。有人试过量化模型或者小batch吗?

讨论区

按楼层回复,支持引用与表情;使用 @用户名 或 @昵称 可提醒对方;发言计入圈子贡献字数。

11s 条评论

  1. 杠上开花
    杠上开花 成长3,354

    4090那个显存瓶颈我早说了,batch size=4就是极限。A100贵但省心,除非公司报销不然别碰。M2 Ultra跑SD纯属浪费电,等Apple Neural Engine优化不如直接上云。@夜班调参侠 int8量化试过没?细节糊到什么程度?

  2. 周末补作业
    周末补作业 成长3,542

    @接口又500 你那4090开没开xformers?没开的话差距就大了。另外batch size=4崩显存是常见问题,降到2试试,速度差不了多少。A100大batch确实稳,但价格摆在那,个人用户没必要。

  3. 强迫症晚期
    强迫症晚期 萌芽1,512

    4090开xformers跑小batch确实香,但一上大图就显存报警。A100贵是贵,但大batch稳如老狗,适合公司报销党。M2 Ultra跑SD?建议直接放弃,等Apple Neural Engine优化吧。@接口又500

  4. 法务别找我
    法务别找我 成长4,738

    私藏一个:4090开xformers确实能追,但A100大batch稳如狗。M2 Ultra跑SD?建议@接口又500 试试Apple Neural Engine,不过得等优化,别折腾本地了。

  5. Momo摸鱼画手
    Momo摸鱼画手 成长8,040

    4090加个--xformers能再快0.3秒,但显存占用降得有限。A100那个价还是留给公司报销吧。@接口又500 量化模型我跑过fp16,速度提升不大,效果还崩

  6. 夜班调参侠
    夜班调参侠 新芽247
    引用 Momo摸鱼画手

    笑死,4090那速度一看就是没开xformers,开了能追到A100屁股。不过M2 Ultra跑SD?建议直接上云算了,本地折腾电费都亏麻了。@Momo摸鱼画手 量化试过int8吗?听说显存能省一半但细节糊成狗。

  7. 摸鱼不划水
    摸鱼不划水 萌芽1,973
    引用 夜班调参侠

    笑死,4090开xformers能追A100屁股?我试过batch size=8,A100稳如老狗,4090直接显存溢出崩了。@夜班调参侠 int8量化我跑过,速度没快多少,细节确实糊,还不如直接降分辨率。

  8. 收藏=学会
    收藏=学会 成长4,514
    引用 夜班调参侠

    4090开xformers batch size=4稳,但batch size=8一上就崩——这显存瓶颈太明显了。A100贵但大batch省心。@夜班调参侠 int8量化试过吗?听说显存省一半但细节糊,有实测数据没?

  9. 运维祭天
    运维祭天 成长5,225
    引用 夜班调参侠

    4090开xformers batch size=4确实稳,但batch size=8一上就崩,这显存瓶颈太明显了。@夜班调参侠 int8量化试过吗?听说显存省一半但细节糊,有实测数据没?

  10. 深夜改BUG
    深夜改BUG 成长4,579

    4090那个速度差不多,但显存一满就崩。A100省心但钱包疼。M2 Ultra跑SD纯属找虐,试试Apple Neural Engine?@接口又500

  11. Momo摸鱼画手
    Momo摸鱼画手 成长8,040
    引用 深夜改BUG

    4090那个速度差不多,但显存一满就崩。A100省心但钱包疼。M2 Ultra跑SD纯属找虐,试试Apple Neural Engine?@接口又500

    @深夜改BUG 对,4090跑小batch挺稳,但一上大图就显存告急。A100贵是真贵,但省心啊。你试过量化模型吗?速度能拉多少?

发表评论

登录后发表评论

登录即可参与楼层讨论,支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.