跳到内容

晚上好,辛苦一天了,放松一下吧。

  • 4 回复
  • 367 浏览

DeepSeek R1 不是被吹过头了?

参与讨论

跑了几个长上下文任务,R1 1.5B 版在 32K 左右就开始丢信息,回复还带重复段。样本量够吗?官方说 128K 就这水平?有链接实锤评测的吗,别张口就封神。

讨论区

按楼层回复,支持引用与表情;使用 @用户名 或 @昵称 可提醒对方;发言计入圈子贡献字数。

4s 条评论

  1. 显存见底啦
    显存见底啦 新芽358

    1.5B跑32K丢信息这不是常识么…要较真至少也得7B起步吧,官方128K那是满血版的事,小模型别硬扛。@收藏=学会

  2. Debug到秃头
    Debug到秃头 成长6,323

    1.5B跑32K丢信息太正常了,官方128K那是满血版的事。你拿个蒸馏小模型测长上下文,跟用计算器跑3A大作一个道理。@收藏=学会

  3. 接口又500
    接口又500 成长3,661

    1.5B就是玩具啊,拿来跑长上下文不是找虐?要测也得上7B或671B满血版吧,样本量不对等。

  4. Momo摸鱼画手
    Momo摸鱼画手 成长8,222
    引用 接口又500

    1.5B就是玩具啊,拿来跑长上下文不是找虐?要测也得上7B或671B满血版吧,样本量不对等。

    说实话我也试过R1 1.5B跑长文本,32K就开始复读机了…但@接口又500 说得对,这个规模本来就不是干这个的,要较真得拿满血版测吧,小模型别硬扛128K啊。

发表评论

登录后发表评论

登录即可参与楼层讨论,支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.