“起大早赶晚集”的谷歌大模型,这次真的“遥遥领先”了?
创始人
2025-03-26 19:23:01
0

“起大早赶晚集”,谷歌大模型曾在人工智能领域早早布局,然而在发展过程中却似乎有些步履蹒跚。如今,当再次提及它是否“遥遥领先”时,答案或许并不那么明确。一方面,谷歌在技术研发上有着深厚的底蕴和强大的资源,其大模型在某些特定领域仍展现出不俗的实力。但另一方面,竞争对手们也在快速崛起,不断推出更先进、更高效的模型。谷歌大模型能否在这场激烈的竞争中重新夺回领先地位,尚需时间来检验。它似乎一直在起大早赶晚集的路上,而最终的胜负仍未可知。


本文来自微信公众号:观网财经 (ID:tiequanhe),作者:杨依婷


最早推出Transformer架构的谷歌,一度在大模型竞赛中落后。好在随着Gemini的不断进化,谷歌正在回到第一梯队。


3月26日,Gemini 2.5 Pro上线,这个模型一经推出就登顶各大榜单,在Chatbot Arena上较第二名高出整整39分!


Gemini 2.5 Pro是一款推理模型。谷歌表示,推理能力不仅仅指分类和预测,而是指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及作出明智决策的能力。


据悉Gemini 2.5 Pro目前支持100万token的上下文窗口,很快将推出200万token的上下文窗口,继承并发扬了Gemini模型的优势——原生多模态能力和超长上下文长度。


这让它能够理解海量数据集,并处理来自多种信息源的复杂问题,包括文本、音频、图像、视频,甚至完整的代码仓库。


在Chatbot Arena(由加州大学伯克利分校SkyLab和LMSYS的研究者开发,主要用于根据人类偏好评估大语言模型的性能)上,Gemini 2.5 Pro以横扫所有类别的显著优势排名第一,并且比紧随其后的Grok-3整整高出了39分。



同时Gemini 2.5 Pro还获得了创意写作、指令遵循和长查询三大领域唯一的冠军。



此外,Gemini 2.5 Pro成功登顶了视觉竞技场(Vision Arena)排行榜榜首。



在网页开发领域,作为首个实力媲美Claude 3.7 Sonnet的模型,Gemini 2.5 Pro成功获得了网页开发竞技场(WebDev Arena)的第二名。



不仅如此,Gemini 2.5 Pro在Humanity’s Last Exam(no tools),GPQA和AIME 2025等数学和科学基准评测中同样表现卓越。


Humanity’s Last Exam(no tools)即“人类的最后考试(无工具)”,这里的“无工具”指在进行该考试时,不允许使用外部工具,如搜索引擎、数据库等。以往实验显示,最先进的LLMs在HLE上的准确率普遍低于10%,且存在信心与能力失衡、推理效率低等问题,表明当前LLM的能力与人类专家在封闭式学术问题上的前沿能力之间的差距。在这一背景下,Gemini 2.5 Pro 18.8%的成绩显得非常突出。



据悉,Gemini 2.5 Pro已在Google AI Studio和Gemini应用中,向Gemini Advanced用户开放,并将在Vertex AI上推出。


而它会在未来几周内公布定价方案,用户可以在更高使用配额下,将模型应用于大规模生产环境。


有意思的是,最近国内和国外两大著名的“起大早赶晚集”选手都发布了最新大模型,含金量是否都能达到评测显示的效果呢?

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...