您认为这是DeepSeek的一次小更新,实际上它又超神了。
The following article is from 差评前沿部 Author 世超
还没等来 DeepSeek-R2,DeepSeek-R1 昨天晚上悄悄更新了一波。
和上次 V3-0324 同样的版本,这次 DeepSeek 又又又往 Hugging Face 上面默默地扔掉了一个 DeepSeek-R1-0528,Model Card 还没有发布官方更新公告。
但是R1在大家还没有反应过来的时候 在大模型热搜榜上,新版本已是第一。
每个人都热烈讨论 R1 与此同时,新版本也不忘。 cue 一下 R2 和 V4 更新大版本。
因为每次 DeepSeek 每个人都喜欢在中国传统节日前后创造新的东西,外国网民已经开始从国庆节和端午节的假期时间来推测发布日期。。
这是计划的一部分吗?(手动狗头)
值得注意的是,今天也是如此。 NVIDIA Q1 财务报告发布的日子。想想上一次。 R1 技术报告给大模型训练算率带来的拷打,幸运的是,这次只是 DeepSeek 小更,没有公布算率信息,否则真的有点难。
话说回 R1 这次更新,DeepSeek 官方表示,R1-0528 推理性能大大提高,前端开发能力强,工具使用能力更加智能。
根据官方案例,R1-0528 与物理学世界相比,推理能力的确比 Claude-4-Sonnet 要好。在破坏砖墙之后,圆球的不规则坍塌更符合物理规律。
而且等待世超亲自测试完这次更新,只想说: R1-0528 编程推理能力有所提高,但并不令人惊叹。我愿意称之为它生成长文本的能力。 DeepSeek 在大模型中掌管中文的神。
让我们把精彩的东西放在前面,我们原本以为这只是一个普通的测试,没想到事情并不简单。。
世超给 R1 只有简单的提示:“请给我写一篇文章。 10000 文字科幻小说。" 其它从文章大纲到内容都是自己完成的。
话不多说,大家直接看文章吧:
"霓虹像永不凝固的液体晶石","整个城市浸泡在一种迷幻而冰冷的蓝紫色调中"。
此时此刻,世超只恨不得把整部小说截给大家,有兴趣的差友可以到文末链接阅读全文。
这是一部悬疑科幻小说,DeepSeek 文笔流畅,科幻气氛浓厚,人物描写认真细致,从情节到逻辑都无可挑剔。
写下这样的故事,DeepSeek 只思考了 40 秒。
而且一直被大家认为有很强的写作技巧。 Gemini 2.5 pro 一般来说,写出来的小说就像是词藻堆砌,有些晦涩难懂。
一说一,看完 DeepSeek 世超写的小说,心情很复杂。这部小说甚至可以说比大多数网络文章都要好,而且速度和质量,大模型都很恐怖。
是不是下岗的风也要吹进来?。。世超表示瑟瑟发抖。
让我们来谈谈代码生成的更新。实际上 R1-0528 代码能力也有了显著的提高,但与其长文本生成相比,还不够。
模型代码能力检测标准 LiveCodeBench 上,DeepSeek-R1-0528 已跃升至榜单第四,略逊于榜单, o4-Mini(Medium),但和 o3-Mini 打得有来有回,直接被闭源。 OpenAI 包围了。
现在编程能力这么强,世超先拿经典问题。 —— 五边形球弹跳测试一测。
亲爱的朋友们也许还有印象,之前我们评价过。 V3-0324 这个版本的时候还是老了 R1 把它拿出来溜走,结果当时就溜走了, R1 表现十分拉垮。
不过,这次 R1-0528 的表现确实出乎意料,与老年人相比, R1 那不是一点半。
左侧旧 R1,右侧 R1-0528
与老版本的飞檐走壁不同,新版本的小球弹跳效果明显更符合物理规律,五边形角落的顺滑反弹细节到位。
R1-0528除提高物理效果外。 生成的页面也很漂亮,甚至可以定制重力强度、旋转速度、弹性系数、摩擦阻力参数值,还可以实时看到球类运动的各种物理参数。
但是,也许是因为我们没有让它在提示中做这些事情,虽然物理参数是实时同步变化的,但是动画参数控制滚轮只是为了欣赏,没有实际用途。。。
世超也看到有网友说 R1-0528 能和 Claude Sonnet 4 触摸。记住最后一次测量 V3-0324 的时候,Claude Sonnet 3.7 得到非常完整。这次不清楚。 DeepSeek 之前的审美有什么提升?
测试结束后,R1感觉 确实没输。
两个模型每个模型只有一次机会,同样的提示,产生的结果应该是什么样子,不能重新开始。
第一,从画面的美观性和功能的完整性来看,两者算是平局。R1-0528 显然不同于页面 V3 阶段如此简单。功能方面,Sonnet 4 有些,R1-0528 所有这些都有,R1 同时也贴心地添加了使用说明。
左 DeepSeek-R1-0528,右 Claude Sonnet 4
可是,实测 Claude Sonnet 4 清空画板和保存键不容易使用。而且两者都有取色功能。 bug,着色器会穿在色卡下面,只能说还有一定的进步空间。
此外,还有网友表示,这次更新后,DeepSeek 深入思考无法直接停止。。
R1-0528旨在提高模型的深层思维能力。 似乎有意延长了探索大模型的时间。然而,这种变化的具体效果取决于你自己的需求。毕竟,如果你想要一个问题。 25 分钟,即使答案更加完美,作为用户的确有点急。
总体而言,本次更新 DeepSeek 仍然延续着他们过去的风格:轻描淡写小更,但整个大活儿。
DeepSeek-R1-0528 无论垂直与自己相比,还是水平与其它大模型相比,表现都丝毫不输,甚至在生成中文长文本方面一骑绝尘。
世超觉得,这一次 DeepSeek 带给我们的惊喜,让我们对国产大模型有了新的期待。DeepSeek-R1-0528 向我们展示,它们不但能跟上闭源模型卷的性能,而且具有不可替代的本土化优势。
最后,想要体验的差友,现在可以在官网使用了。 R1 最新的 0528 版本啦。
文章:莫莫甜甜
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




