DeepSeek,5连发
创始人
2025-02-24 13:01:37
0

“DeepSeek 可谓展现出了强大的实力,那令人瞩目的 5 连发更是震撼无比。每一次的连发都仿佛是一场精准的射击盛宴,展现出其在特定领域的卓越能力。它就像一位技艺精湛的剑客,手中的“剑”(能力)在瞬间释放出连续的威力,以惊人的速度和准确性攻克一个又一个难关。这 5 连发背后,是 DeepSeek 深厚的技术底蕴和不断创新的精神,让人们对其未来的表现充满期待,也见证了它在科技领域的非凡影响力。”


本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究


今天起,DeepSeek每天开放一个代码库,连发5天,展示其“完全透明”的诚意。


它已经建立了一个github库。[1]


“开源周”将很快开始,已经放了一篇发表于2024年8月的论文,关于幻方萤火的,介绍了DeepSeek高效的万卡算力集群框架,《Fire-Flyer AI-HPC:一种用于深度学习的经济高效的软硬件协同设计》。


“开源周”将硬刚可能于本周发布的GPT-4.5,也会在Llama 4开始发布之前,建立一个更高的开源标准。



DeepSeek已经引领了开源的浪潮,它在MIT许可协议下开放,完全公布了权重,开发者可以访问的这些底层数据,表示模型数十亿个模拟神经元之间连接强度,只要加上更多的训练数据,就能微调这些模型参数,实现更有针对性的用途。


相比Llama,DeepSeek更加开源。虽然llama 3.1在披露部分数据来源和发布部分源代码方面取得了一些进展,但其开放性仍不及DeepSeek,其全面文档、宽松的许可和完全开源的方法为AI社区的透明度设定了更高的标准。


按照Open Source Initiative对于开源模型的定义,应该包括数据、代码和权重。根据OSI的说法,真正开放的人工智能还必须包含“有关用于训练系统的数据的足够详细信息,以便技术人员可以构建基本等效的系统”。


业内猜测DeepSeek计划的开源版本,是否还会包括团队在训练模型时使用的代码,这是满足OSI对“开源人工智能”的正式定义的必要条件。


完全开源版本(包括训练代码)可以让研究人员更深入地了解模型的核心工作原理,从而有可能揭示模型架构(而非参数权重)固有的偏差或局限性。完整源代码版本还可以让从头开始重现模型变得更加容易,必要时可能使用全新的训练数据。


OSI于2024年发布了开源AI定义1.0版本。按照这个版本,OSI认为Meta发布的Llama系列模型,并不符合开源AI的标准。它指出最新版本的Llama 3.1:


施加了更多的限制,例如禁止欧盟任何人在未经解释的情况下使用该模型;并且以前许可证中的所有限制都保留了下来。


DeepSeek表示,这次准备公布一些构建模块,都经过记录、部署和验证过。将完全透明地分享“我们的微小但真诚的进展”。


Google的Gemma、Meta的Llama以及GPT2等较早的OpenAI版本在内的主要模型,都已开放权重并自称为开源AI。这些模型还经常发布开源代码,包括响应查询时运行的推理时间指令。


马斯克的xAI于去年3月发布了Grok 1推理时间代码的开源版本,并最近承诺在未来几周内发布Grok 2的开源版本。


OpenAI也在内部讨论其开源策略,包括正在考虑将o3 mini开源。预计每家闭源前沿大模型都将会采取某种开源的策略。目前比较可行的是保持其前沿闭源模型的同时,上一代的模型开源,或者结合一定的应用场景开源,如发布开源的、端侧部署的小模型。


[1] https://github.com/deepseek-ai/open-infra-index?tab=readme-ov-file。


本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...