全面实测新版DeepSeek R1,我们挖出了这些隐藏亮点
创始人
2025-05-29 14:41:30
0

全新改版的 DeepSeek R1 经过全面实测,可谓惊喜不断。它在性能方面展现出卓越的提升,运算速度大幅加快,无论是复杂的数据处理还是多任务运行,都能轻松应对,仿佛为用户配备了一台高效的超级计算机。其界面设计也更加人性化,操作便捷流畅,让即使没有专业技术的用户也能快速上手。同时,在图像识别和语言理解等领域,DeepSeek R1 表现出极高的准确性和敏锐性,能精准地捕捉各种细节和意图,挖掘出许多之前隐藏的亮点,为用户带来全新的使用体验和价值。


DeepSeek猝不及防地更新了,不是R2,而是R1v2。


官方的通告也很“DeepSeek”,甚至可以说有点佛系,在微信交流群发了一句:


“DeepSeekR1模型已完成小版本试升级,欢迎前往官方网页、APP、小程序测试(打开深度思考),API接口和使用方式保持不变。”


看起来平平无奇,但真一顿实测下来,这个“小版本”恐怕还是过于谦虚了。


全球最大AI开源社区HuggingFace已经开源了这个新版本,名字也很实在:DeepSeek-R1-0528。不过截至目前,模型卡还没同步更新。



有需求的开发者可以自己动手部署,附上开源地址:https://huggingface.co/DeepSeek-ai/DeepSeek-R1-0528/tree/main


特点总结:


  • 推理能力大幅提升,代码水平暴涨;


  • 写作表现更有人味,格式更规范;


  • 思考过程不仅快,还有条理、讲逻辑;


  • 支持长时间思考,一项任务可持续30到60分钟。


根据编码基准测试LiveCodeBench的最新结果,这一版R1的表现已经和OpenAIo3High已经五五开了,而且,它的进步也远不止于代码能力。



当然,验证一款模型是否真正“可用”,还得看它在真实场景下的表现,我们也照例跑了几个案例。


编程:网页、游戏、UI,啥都能做


【扫雷游戏】考察编程、逻辑推理


比方说,我们参考网友@ty_1215的提示词,让新版R1设计一个扫雷游戏,结果不但逻辑完整,生成代码结构工整,直接就能拿来跑。


虽然这个任务比较简单,但在逻辑推理和编程结构的处理上,也算是超出了我的预期。



【音乐播放器】考察审美、功能规划


再让它模仿QQ音乐播放器的UI设计,给它指个方向,它咔咔就是一通输出,不仅有播放器主体,还带歌词、播放按钮、封面图、进度条。


理解任务只是基本操作,但拆解指示设计出符合审美且功能完整的界面就难上加难了,最终交出的成果也给我一种它能做得更好的既视感。



【太阳系模拟】考察图形渲染和物理模拟


再放飞一点,让它模拟一个太阳系,包括太阳、八大行星和月球,能展示公转轨道、自转动画,还要求背景得带上动态的星星。


生成的效果虽然颜色配得土了点,但搭配漫天的星星,整个空间氛围感直接拉满,尤其是那个可缩放可旋转的视角,完全可以作为中小学科普动画的原型演示。




写作:喜大普奔,终于不油腻啦


【风格模仿】考察写作、深度理解


除了写代码,新版R1写文章的水准也有大幅度提升。一句话概括,就是更有人味了。


春节期间,我们让DeepSeekR1以《百年孤独》的风格写春节面对七大姑八大姨的故事,当时就发现,旧版R1文笔最大的毛病太爱堆砌意象,拽大词,读着有点油。



这次用R1v2复刻同一个问题,风格明显收敛不少,语言更自然,意象不突兀,有文学感但不矫情,读起来更自然了。


最近看到一句文言文版的“懂的都懂”,我心想,新版R1停留在字面意思就已经实属不易了,结果出乎意料,它不仅提供字面意思,还深挖了个深层含义,以及甚至从哲学角度开始思考。



类似的,我们3月份的时候让DeepseekR1对《红楼梦》脂批中的“情榜”进行解读,发现它的深度思考过程逻辑性较弱,零散地整合了不同网页的观点。


而且,“泛灵论”“理性超越”“异化”等非口语化的词汇还是频繁出现,分析内容也较为机械干瘪。




这次拿同样的问题问R1v2,观察它的深度思考过程,发现思考过程的逻辑性更清楚完整,不再是对网页信息的零散整合,且有关注到“用户可能没意识到但值得深挖的点”。


最重要的是,它在生成回答时自行“注意避免学术腔”,也添加了生动的场景例证。




思维链及推理:依然靠谱,还更清楚


语言能力的进步,不仅对于文本生成很重要,更加是渗透在每个环节——尤其是思维链。


思维链反映的是模型是怎么想的、为什么得出这个结论,以及它怎么表达自己这一系列经过。


DeepSeek这次的升级,并不只是“答对题”这么简单。更重要的是,它在推理路径上的一些细节变化,开始显露出新的能力结构。


【鸡兔同笼】:考察推理理解、解法多样性



鸡兔同笼是非常经典的“必考题”,没有模型能逃得过。新R1的表现展现出很好的稳健性:一开始用设元+解方程,体现出结构化建模能力。后面补了一种逻辑回推法——一种典型的奥数思维训练套路。



两种方法互补,验算结果,保证正确。在整个思维链展开中,每一个变量意义、每一步计算、每一个代入都交代得明明白白。尤其是中间过程的口语化表达,非常适合给不那么擅长数学的读者阅读。


不过,整个过程里没有出现自我纠错?这不应该啊,再上个题试试。


【计算时针角度】考察混合题型、基本几何知识



这题看下来,可以拍着良心说,CoT的进步相当明显。


首先有清晰的结构意识,先讲“表面方法”,用基本角度计算;再引入“常用公式”进行验证;最后还能进行反向校正,验证。



“时针角度”的计算是非常理想的模型测试题,因为除了要计算数值,也要有简单的几何概念。新R1不仅能完成计算,还体现基本的几何空间感。


整个过程中,多次出现了“我再确认一下”“有时候会有人算错”“我可能漏掉了什么”这些自查,说明模型现在并不只是一股脑的列数据,而是有“我正在思考”的姿态——虽然只是姿态,但这不就是CoT的核心吗?


【语义陷阱推理】考察分词能力、嵌套推理拆解


这看似一个脑筋急转弯,但实际上,所谓的“真话假话”之间互相嵌套,在推理上要真正理解“最少”和“最多”的语义。


这也就意味着不能武断地分词,必须考虑每一种情况。因此这道题的思维链和解答都是最长的——超过了四千字。



语义理解没有翻车,这点很不错。从两个互斥的假设出发,来一点点完成推理,考虑了尽可能多种场景和可能性。


在“总是说谎”这个条件解释上,新R1没有过多解释。实际上,中文里它是会引发歧义的,“总是”二字会误导模型以为是“过去一直都说谎”而非“当下说谎”。它这次没踩坑,可能有一定概率是靠“幻觉”躲过去了。


不过,这一题是真实暴露出了问题:无论是思维链,还是最后的解答,叙述方式都是典型的“语言模型思维链+流水账排查”,写得跟个五年级数学作业一样,洋洋洒洒也啰啰嗦嗦……



如果生成一个链条图、思维导图,可能会更清楚。


总体来说,新R1“脑子”比以前清楚了,推理一如既往的靠谱。在代数推导、假设排除等环节表现稳定。推理路径整体连贯,基本能准确理解语义陷阱类题目中的逻辑关系。


思维链的表现来看,相比于之前的略显冰冷的“理工脑袋”叙述方式,这一次的CoT有点像是把模型的“脑内小剧场”摆了出来。但要更贴近“人类思维风格”的表达,还需在精炼、组织与重点识别上继续优化。


除了我们的测试,网友们的反馈也进一步验证了新版R1的进步。


以经典的小球测试为例,从网友@flavioAd发的测试结果来看,新旧模型差距相当明显:旧版R1的球动作生硬、弹跳粘线,像是被钉死在轨道上;新版R1的球运动更自然、重力感更强。


用网友的话来说,“这个新版的球有自我意识,自己决定什么时候弹跳”



另一个测试来自博主@karminski3,他拿DeepSeek-R1-0528和Claude-4-Sonnet测试了一个球体撞墙的案例。


同样的提示词,Claude输出了542行代码,DeepSeek直接来728行,功能更全、细节更细,尤其是控制面板的配色、反射、FPS表现……有点工业设计作业的即视感。



模型的基础常识能力在此次更新中有所升级。网友@Yuchenj_UW提到,DeepSeek-R1-0528是目前唯一一个能稳定正确回答“9.9-9.11等于多少?”的模型。



网友的梗也没落下。有人调侃DeepSeek写代码像freestyle:如果数学天才陶哲轩DeepSeek强强联合,说不定真能出个“专辑”。当然,他所说的专辑不是音乐,而是一份能解决当代数学难题的论文。



知名X博主@slow_developer也加入了实测阵营,称赞“DeepSeek真是王者归来……”他为R1v2设计了一道中等复杂度的任务:构建一个单词评分系统。


DeepSeekR1简单思考了一下,一次性生成两个文件,一个是主程序,一个是测试脚本,代码结构清晰,逻辑闭环,首次运行就顺利通过,没有报错。



目前据他测试,只有OpenAI的o3模型曾经能做到这种稳定输出,DeepSeekR1v2是第二个。


网友@mishig25的案例则演示了R1v2在HuggingFacePlayground上完整跑通ChatTemplate,实现结构化函数调用的过程。


从解析用户意图、触发具体函数,到最后组合成回答的完整流程,DeepSeek全程干净利落,表现出极强的指令理解+执行能力。



简言之,别被DeepSeek-R1-0528这个朴实无华的名字忽悠了。


坏消息是,新版R1的发布意味着R2恐怕还得再等等,好消息是,新版R1表面看着是个“小版本”,实则是一次能打的真升级,不管是可用性、稳定性,还是复杂任务的完成度,全都肉眼可见地往上抬了一档。


如果你还在苦等R2,不妨先认真看看R1v2。用过一次,就真的回不去了。不过DeepSeek啊,咱就是说...那“服务器繁忙”的提示,能少点不?


模型是好用,咱也得能用上才行啊!

相关内容

热门资讯

和讯投顾苏立刚:放量反弹,周五... 今天是周五,我们来聊一聊A股的行情。今天市场整体呈现出震荡收阳的态势,出现了普涨现象。那么,我们期待...
原创 愿... 据上观新闻报道,美国商务部日前发布的数据显示,2025年第一季度,美国国内生产总值(GDP)环比出现...
北交所举办“走进北交所 共探多... 本报讯 (记者孟珂)5月30日,北交所网站消息,近日北交所联合中信证券、中诚信国际共同举办“走进北交...
和讯投顾史月波:大盘走势分析 市场的走势整体上仍然维持在贸易战之后的小轮次反弹结构中。上次这个反弹结构持续了9个交易周,而目前是第...
华住最新ESG报告发布:以服务... 美股研究社获悉,5月30日,华住发布2024年度ESG报告,这是华住连续第五年发布ESG报告。围绕企...
宁新新材(839719):股东... 每经讯,宁新新材5月30日发布公告称,公司股东邓达琴质押619万股,占公司总股本约6.65%。在本次...
格林基金郑中华:市场震荡期维持... 中证报中证网讯(记者 王雪青)5月29日晚间,格林基金总经理助理、权益投资总监、基金经理郑中华在“中...
贺博生:5.30黄金反弹遇阻原... 一样的行情,不一样的指导,不一样的人生。新手的特点就是不懂技术,盲目进场。他们每次交易只考虑一个问题...
银行理财规模不断攀升引发三大思... ■苏向杲 近日,银行理财规模重回历史高位引发市场广泛关注。笔者从普益标准获悉,截至5月29日,银行理...
茅台青睐的公司要IPO了! 星标★IPO日报 精彩文章第一时间推送 5月26日,北京先通国际医药科技股份有限公司(下称“先通医药...
涉及上市企业发行REITs相关... 1、电子城 5月30日,电子城召开2024年度暨2025年第一季度业绩说明会。 电子城高管在会上表示...
聚智赋能促振兴:贵州省商务厅携... 2025年5月15日,贵州省外经贸集团筹备组组长、临时党委书记廖慧率队,会同贵州商务厅对外贸易处处长...
原创 2... 从2024年开始,国内经济就进入到通缩周期,CPI指数一直在低位徘徊。数据显示:今年一季度的CPI同...
留学生对龙舟有多喜爱?“从20... 自 2016 年开始划龙舟至今,留学生们对龙舟的喜爱之情愈发深厚。每到端午时节,他们便全身心投入到这...
金价波动之下 小克重金饰受欢迎... 本文转自【央视新闻客户端】; 最近一段时间,国际金价波动加剧,年初以来最高涨幅近30%,国内品牌首饰...
原创 日... 特朗普关税大棒敲醒日本,中日合作成破局关键?专家说出真心话 美国一纸关税令砸得盟友措手不及,日本汽车...
聚焦双轮驱动 共谋高质量发展—... 2025年5月29日,豫建集团组织召开2025年度子公司经营情况调研会,重点围绕恒祥实业公司实体化运...
想被AI取代的妈妈们 那些可能被 AI 取代的妈妈们,曾是家庭的温暖核心。她们在厨房中精心烹饪每一顿饭菜,那香气弥漫的背后...
黄金,4000美元? 今年4月黄金市场的火爆场景仍历历在目,高盛、摩根大通等知名外资机构当时纷纷上调黄金预期价,随后行情“...
北交所上市公司瑞奇智造登龙虎榜... 每经讯,2025年5月30日,北交所上市公司瑞奇智造(833781,收盘价:12.3元)登上龙虎榜,...