理性看待,DeepSeek究竟处于一个什么水平?
创始人
2025-02-01 06:56:38
0

DeepSeek一共有三个方向的大模型:

❶DeepSeek V3对标的是GPT4o,代表的是大模型最根本的通用智能程度。

❷DeepSeek R1对标的OpenAI o1,这个是现在AI大模型领域最炙手可热的方向,代表了最尖端的研究储备。

❸DeepSeek Janus补的是多模态能力,因为是补,就是个添头,暂时不出彩。

DeepSeek V3

V3论文链接:

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdfgithub.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

榜单成绩,比GPT4o大多数情况都强(前两天Qwen2.5-Max榜单成绩超过了V3)

但重点是GPT4大概率是个超大规模的模型,而DeepSeekV3的模型大小仅为671B,并且采用了MoE结构,每次推理的激活函数只有37B。

这就意味着,V3在推理成本远小于GPT4o的前提下,接近甚至在一些领域超越了GPT4o,这才是V3最大的贡献。

DeepSeek R1

论文链接:

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdfgithub.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

R1是一个推理Reasoning模型,对标的OpenAI最引以为豪的OpenAI o系列推理模型,从性能上看,R1丝毫不落于o1下风。

不过OpenAI手里还有o3这张牌,从刷榜成绩上看,R1比不过o3,但是差距有多大不好说,特别是o3的一些成绩都是在闭源榜单上刷的,很难比较。

但这个性能不是重点,重点有两个。

1 开源

R1是完全开源的,意味着只要你有足够的设备,就可以自己部署一个,这就让OpenAI很难堪,自己引以为豪的用来赚钱的模型,别人是开源的,甚至免费给全世界人用。

这一点儿,R1的口碑世界第一。

2 便宜

中国的AI整体受到美国的打压,特别是训练用的显卡被禁售。

DeepSeek自创的FP8精度训练,说白了就是穷鬼训练方法,只有在显卡不足的时候才会考虑的方法,卡多的大厂根本不屑于考虑这种方法,算是被美国倒逼出来的创新。

也正在是卡不足的前提下,搞出来的创新自带一种特有的平易近人特质。

比动不动需要非常多卡的大模型的资源都需要的少。

这两点,几乎奠定了DeepSeek现在巨大的威望。

说实在的,DeepSeek的模型并不是世界顶尖,但这玩意原本的目的是就是跟阳光空气水一样的便宜且易获取,OpenAI彻底闭源搞得社区乌烟瘴气,DeepSeek就像个武功不算顶尖,但是乐于把自己不俗的死穴成才的武功心得分享出去的老哥。

致敬老哥。

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...