DeepSeek R1悄悄更新,用“小版本”干翻大模型
创始人
2025-05-29 18:21:55
0

DeepSeek R1 悄然进行了更新,这次更新宛如一场低调的变革。它以“小版本”的形式登场,却展现出了惊人的实力,仿佛怀揣着神秘的力量,在不经意间干翻了那些看似强大的大模型。它或许是在默默打磨技术细节,提升算法的精准度,亦或是在数据的海洋中探寻更深刻的规律。无论如何,这次更新让 DeepSeek R1 焕发出新的生机与活力,以一种看似平凡却极具威力的方式,在人工智能的舞台上留下了深刻的印记,让人对其未来的发展充满期待。


虽然DeepSeek-R2并没有像2个月之前盛传的那样,在5月甚至之前准时赴约。但是,DeepSeek正在不断地用小升级追赶其他厂商的大版本。


昨天DeepSeek官方的一则“R1已完成小版本试升级”的消息,在各个AI讨论群里炸开了花。这回的DeepSeek-R1-0528版本在各个社区引发震动的最主要原因是:它真的不是一次小更新!



目前该升级版的DeepSeek-R1-0528已经全量上线官方网页、APP、小程序等等,API也已经可以接入。


关于DeepSeek官方多么有诚意,我们已经在V3版本的升级上看到了——模型性能大幅提升只是开胃小菜,成本价格比更是再度优化。这回的更新也是一样,新版本的DeepSeek-R1主要在编程能力上大幅提升。据一家LLM API接入网站OpenRouter,这回的新版本R1的输入输出价格几乎与先前版本毫无变化!



在智能水平上,新版本DeepSeek-R1-0528在 Extended NYT Connections 基准测试上相比原始 DeepSeek R1有了大幅提升:38.6 → 49.8。



一、它真的很难说是“小升级”


现在,全网都在疯狂拿它跟全面替代AI coding真神的Claude 4对比,发现:这俩模型竟然不相上下?甚至有一张在Livecodebench上DeepSeek-R1-0528与o3-high旗鼓相当的基准测试对比图,在网上疯传。许多网友认为这回更新后的DeepSeek-R1-0528在代码生成等编程领域的实力已经进入第一梯队了。



我们搜集了全网最有趣的实测体验,看看这回的DeepSeek-R1-0528到底将AI coding的能力拓展了多少:


有X网友@karminski3设置了一个“DeepSeek-R1-0528 VS Claude-4-sonnet”挑战赛,用弹球撞击墙面的效果作对比。


实测下来发现:DeepSeek方的弹球看起来甚至还有光泽,撞碎墙面后的粒子效果几乎能与Claude-4-sonnet一较高下,控制面板的美观度也都非常在线。




值得一提的是,在这次的测试中,两个大模型使用了同一个Prompt,DeepSeek-R1-0528 生成了728行,而Claude-4-sonnet生成了542行。


更新后的R1-0528在粒子效果的表现上尤其好。粒子效果通常会涉及复杂的动态动画和物理模拟,像是物体运动、碰撞、光影变化等等。这足以说明R1-0528在生成复杂动态动画能力上有了很大的突破。


X网友MILO,就做了个可交互的粒子动态动画平台,我们也进去体验了下。我们注意到除了画面中央的炫酷粒子爆炸外,右上角的粒子数计算也以一种很匹配的方式同步进行着。




在全栈网页开发上,“小升级”之后的DeepSeek-R1-0528所表现出来的能力也有了很明显的提升。


比如,X上有网友@DomLiu给 DeepSeek-R1-0528 一个全栈网页开发Prompt,就能在几秒钟内从零开始构建一个完整的应用程序。


这段提示词还非常的简单:构建一个 three.js 应用程序,用于加载具有实时颜色/材质/配件控制的 3D 模型。直观的用户界面。流畅的相机视角。




更为惊艳的是下面这个Case,同样是这位网友,他几乎将DeepSeek-R1玩出了花,这也证明小升级后的DeepSeek-R1-0528到底在编程能力上有多强。


简单来说,他使用升级后的DeepSeek-R1做了一个3D画廊,有这些功能:


程序化几何生成,动态场景生成系统,多彩动态光影效果,相机动画与过渡,虚拟画廊导航体验。


有实际用过Trae、Cursor、Windsurf等一众AI coding的朋友肯定都懂一个具有强大自主编程能力的基座大模型到底意味着什么?——编程效率的指数级提升。


3D艺术画廊非常直观地显示了DeepSeek-R1-0528在面对复杂任务时的自主编程能力。




再比如一个3D 太阳系模拟器,在这个产品中,可以点击任何行星获取进一步的信息。同时画面中呈现了极具真实感的轨道。它同样使用 three.js 构建,简洁、快速、交互性强。




我们也实际上手测试了下,发现升级后的DeepSeek-R1-0528在面对非常简单的提示词时也能做出很快的反应,并自主地丰富功能。


比如,我只给了它一句:


生成一个苹果官网风格的前端网页。


它只经过14秒的思考,就轻松理清了苹果官网风格设计页面的设计思路:


  • 使用苹果标志性的深空灰/银色调


  • 大字体标题和简洁文案


  • 高清产品图像与渐变背景


  • 悬浮动画效果


  • 响应式布局


最主要的是,很短时间内它就已经生成了462行代码,做出来的效果也与我所设想的非常相近:



除了纯代码能力之外,DeepSeek-R1-0528在前端审美上也有了很大的提升。


比如下面这个原生iOS风格界面设计,采用了抹茶绿色主题,融合现代美学,看起来搭配很流畅。



除了产品应用UI风格之外,DeepSeek-R1-0528在HTML网页的前端网格上也有了很大的提升。


下面两组新版本的介绍网页中,深色是DeepSeek-R1-0528生成,在美观度上更具科技感和视觉冲击力,也非常符合AI大模型本来的调性;白色则是由Claude4生成:



二、思维链似乎改变了,出现了一些“副作用”


这回DeepSeek-R1-0528的强势开源,甚至让各国网友都重温了下今年年初R1发布时的情景。现在的DeepSeek-R1-0528已经拥有了Claude系列的强自主编程能力,同时网友们在实际测试中也注意到它的思维链模式似乎发生了改变。



很多实测后的网友都发现,这回的升级版DeepSeek-R1-0528的思考过程实在是太长了,很容易出现过度思考的现象。



比如,网友们发现了一个有趣的测试题:“估算一下π/7”,发现DeepSeek-R1-0528的思考推理过程有些太漫长了。



我们也实际测试了下,面对这样的一个小问题,DeepSeek-R1-0528的深度思考时间达到了148秒。并且,其推理过程显得冗余性很大。



DeepSeek-R1-0528在面对“估算一下π/7”这个问题时的思维链到底有多长,你可以直观感受下:



虽然各国网友都直观感受到了升级后的DeepSeek-R1-0528在推理能力上消耗的时间变得长了,但推理结果精度的提升也是显而易见的。经过优化的DeepSeek-R1-0528在处理复杂问题时,已经展现出了更强的逻辑分析能力和更细致的推理过程,这使得输出的答案不仅更加准确,还在深度和广度上都有了显著改进。


比如,X网友@baalatejakataru在实际编程过程中发现新的 DeepSeek-R1-0528想得太多,但是出错时能够快速地自我纠正,还能够很好地写新兴系统编程语言——Zig,表现很不错。



DeepSeek官方这回同样延续了之前发布即开源的策略,R1-0528已经正式开源。除了开源动作之外,更新后的R1仍然采用宽松的MIT许可证,意味着它可用于商业用途。



这次DeepSeek-R1-0528的升级,进一步印证了当下大模型行业的趋势:大版本固然令人期待,但持续稳定的小步迭代同样无法让人装作看不见。


虽然DeepSeek-R2尚未如期而至,也引发了全网对于这一版本的疑惑。但是通过强化编程能力、优化前端审美,DeepSeek团队持续的小步快跑,无疑让业界重新审视小版本升级的巨大价值。尽管思维链的冗长带来了一些“副作用”,但其带来的精度提升和自我纠错能力依然让人无法忽视这次的版本升级。


在未来,DeepSeek-R1-0528的这种不改变大架构,而是通过“小升级、小迭代”就能达成明显效果的方式可能将会成为主流,“大版本号盲目崇拜”已经被破除。


下一次“小升级”,或许就是另一场风暴的开始。


本文来自微信公众号:直面AI,作者:涯角,编辑:肖阳

相关内容

热门资讯

和讯投顾苏立刚:放量反弹,周五... 今天是周五,我们来聊一聊A股的行情。今天市场整体呈现出震荡收阳的态势,出现了普涨现象。那么,我们期待...
原创 愿... 据上观新闻报道,美国商务部日前发布的数据显示,2025年第一季度,美国国内生产总值(GDP)环比出现...
北交所举办“走进北交所 共探多... 本报讯 (记者孟珂)5月30日,北交所网站消息,近日北交所联合中信证券、中诚信国际共同举办“走进北交...
和讯投顾史月波:大盘走势分析 市场的走势整体上仍然维持在贸易战之后的小轮次反弹结构中。上次这个反弹结构持续了9个交易周,而目前是第...
华住最新ESG报告发布:以服务... 美股研究社获悉,5月30日,华住发布2024年度ESG报告,这是华住连续第五年发布ESG报告。围绕企...
宁新新材(839719):股东... 每经讯,宁新新材5月30日发布公告称,公司股东邓达琴质押619万股,占公司总股本约6.65%。在本次...
格林基金郑中华:市场震荡期维持... 中证报中证网讯(记者 王雪青)5月29日晚间,格林基金总经理助理、权益投资总监、基金经理郑中华在“中...
贺博生:5.30黄金反弹遇阻原... 一样的行情,不一样的指导,不一样的人生。新手的特点就是不懂技术,盲目进场。他们每次交易只考虑一个问题...
银行理财规模不断攀升引发三大思... ■苏向杲 近日,银行理财规模重回历史高位引发市场广泛关注。笔者从普益标准获悉,截至5月29日,银行理...
茅台青睐的公司要IPO了! 星标★IPO日报 精彩文章第一时间推送 5月26日,北京先通国际医药科技股份有限公司(下称“先通医药...
涉及上市企业发行REITs相关... 1、电子城 5月30日,电子城召开2024年度暨2025年第一季度业绩说明会。 电子城高管在会上表示...
聚智赋能促振兴:贵州省商务厅携... 2025年5月15日,贵州省外经贸集团筹备组组长、临时党委书记廖慧率队,会同贵州商务厅对外贸易处处长...
原创 2... 从2024年开始,国内经济就进入到通缩周期,CPI指数一直在低位徘徊。数据显示:今年一季度的CPI同...
留学生对龙舟有多喜爱?“从20... 自 2016 年开始划龙舟至今,留学生们对龙舟的喜爱之情愈发深厚。每到端午时节,他们便全身心投入到这...
金价波动之下 小克重金饰受欢迎... 本文转自【央视新闻客户端】; 最近一段时间,国际金价波动加剧,年初以来最高涨幅近30%,国内品牌首饰...
原创 日... 特朗普关税大棒敲醒日本,中日合作成破局关键?专家说出真心话 美国一纸关税令砸得盟友措手不及,日本汽车...
聚焦双轮驱动 共谋高质量发展—... 2025年5月29日,豫建集团组织召开2025年度子公司经营情况调研会,重点围绕恒祥实业公司实体化运...
想被AI取代的妈妈们 那些可能被 AI 取代的妈妈们,曾是家庭的温暖核心。她们在厨房中精心烹饪每一顿饭菜,那香气弥漫的背后...
黄金,4000美元? 今年4月黄金市场的火爆场景仍历历在目,高盛、摩根大通等知名外资机构当时纷纷上调黄金预期价,随后行情“...
北交所上市公司瑞奇智造登龙虎榜... 每经讯,2025年5月30日,北交所上市公司瑞奇智造(833781,收盘价:12.3元)登上龙虎榜,...