谷歌最强大模型终于问世,价格杀到0.7元/百万token
创始人
2025-06-18 14:04:10
0

近日,谷歌最强大的模型终于隆重问世,这一消息无疑在人工智能领域掀起了轩然大波。更令人瞩目的是,其价格竟然杀到了惊人的 0.7 元/百万 token 。这意味着用户能够以极为低廉的成本享受到谷歌强大模型带来的智能服务。如此亲民的价格,将极大地推动人工智能技术的普及和应用,让更多的企业和个人能够轻松利用这一先进技术,为各个领域的发展注入新的活力,开启人工智能应用的新纪元。


今天凌晨,谷歌宣布Gemini 2.5模型全系重磅更新:Gemini 2.5 Pro、Gemini 2.5 Flash发布正式版并进入稳定运行阶段,并推出Gemini 2.5 Flash-Lite预览版。


这意味着Gemini 2.5 Pro、Gemini 2.5 Flash从实验预览版变为正式版,可投入企业应用。


Gemini 2.5 Flash Lite在编程、数学、科学、推理和多模态基准测试中全面超越2.0 Flash-Lite,广泛任务延迟低于2.0 Flash-Lite和2.0 Flash。谷歌称这一模型为其最经济实惠、速度最快的2.5系列模型。


▲Gemini 2.5 Flash Lite基准测试结果


同时,在最新的LMArena排行榜中,Gemini-2.5-Flash-Lite文本排名12,按类别划分,创意写作排名第三、编程排名第14、难题提示排名第17。


价格方面,Gemini-2.5-Flash-Lite比Gemini-2.5-Flash便宜30%-60%,输入价格为0.1美元(折合人民币约0.7元)/百万tokens,输出价格为0.4美元(折合人民币约2.9元)/百万tokens。


谷歌还宣布了Gemini 2.5 Flash的最新定价,模型的思考和非思考价格相同,输入价格为0.3美元(折合人民币约2.2元)/百万tokens,输出价格为2.5美元(折合人民币约17.9元)/百万tokens。



谷歌博客中提到,Gemini 2.5 Pro的销量和需求持续强劲增长,是他们历来所有型号中最高的。在此基础上,研究人员对此型号的06-05版进行了稳定化,并维持与之前相同的帕累托前沿价格点。


如果开发者使用的是Gemini 2.5 Pro Preview 05-06,该模型将持续可用至2025年6月19日,之后将关闭,如果使用Gemini 2.5 Pro Preview 06-05,只需将模型字符串更新为“gemini-2.5-pro”即可。


Gemini 2.5 Flash-Lite预览版现已在谷歌AI Studio和Vertex AI中上线,同时还提供2.5 Flash和Pro稳定版。2.5 Flash和Pro版本均可在Gemini应用中访问。谷歌还为谷歌搜索功能引入了2.5 Flash-Lite和Flash的定制版本。


技术报告地址:

https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf


一、全面超越2.0Flash-Lite,支持谷歌原生工具


Gemini 2.5模型是推理模型,能够在响应之前进行推理,从而提升性能和准确性。每个模型都可以控制思考预算,让开发者能够选择模型在生成响应之前进行“思考”的时间和程度。


谷歌博客中提到,其最新推出的2.5 Flash-Lite预览版,是2.5系列模型中延迟、成本都最低的模型,它是Gemini 1.5和2.0 Flash模型的经济高效升级版。


Gemini 2.5 Flash Lite在编程、数学、科学、推理和多模态基准测试中全面超越2.0 Flash-Lite。它在翻译和分类等高容量、延迟敏感的任务中表现出色,在广泛的任务样本中,延迟低于2.0 Flash-Lite和2.0 Flash。


性能方面,新模型缩短了首个token的获取时间,同时实现了更高的每秒token解码速度。该模型适合大规模分类或汇总等高吞吐量任务。


Gemini 2.5 Flash-Lite是一个推理模型,允许通过API参数动态控制思考预算。由于Flash-Lite针对成本和速度进行了优化,因此Gemini 2.5的其他模型不同,“思考”功能默认处于关闭状态。


新模型具备Gemini 2.5的诸多功能,包括在不同预算下开启思考模式、连接谷歌搜索和代码执行等工具、多模态输入以及100万个token的上下文长度。


二、Gemini2.X系列全面超越前代编程、图像理解逊于OpenAI


谷歌还一口气更新了Gemini 2.5系列模型技术报告,全面介绍了Gemini 2.X模型系列:包括Gemini 2.5 Pro和Gemini 2.5 Flash,以及Gemini 2.0 Flash和Flash-Lite模型。


谷歌技术报告中提到,Gemini 2.5 Pro是谷歌最智能的思维模型,展现出强大的推理和编程能力,擅长生成交互式Web应用程序,能够进行代码库级别的理解,并展现出涌现的多模态编程能力。


Gemini 2.5 Flash是混合推理模型,具有可控的思维预算,适用于大多数复杂任务,同时还能控制质量、成本和延迟之间的平衡。


Gemini 2.0 Flash是谷歌专为日常任务打造的快速且经济高效的非思考模型;Gemini 2.0 Flash-Lite是谷歌速度最快、成本最低的模型,专为大规模使用而构建。



技术报告中,谷歌对比了Gemini 2.5系列与Gemini 1.5、2.0模型的表现,以及Gemini 2.5系列与其他模型的表现,可以看出,Gemini 2.5系列模型在LiveCodeBench、Aider Polyglot和SWE-bench Verified等编程任务上表现出色,并且比之前的模型有了显著的改进。


除了编程性能之外,Gemini 2.5模型在数学和推理任务上的表现也明显整体优于Gemini 1.5系列:在AIME 2025测试中,Gemini 2.5 Pro的准确率为88.0%,而Gemini 1.5 Pro的准确率为17.5%;在GPQA(钻石级)测试中,Gemini 2.5 Pro的准确率为86.4%。同样,图像理解能力也显著提升。



与其他主流大语言模型相比,Gemini 2.5 Pro在Aider Polyglot编程任务中获得SOTA。此外,Gemini 2.5 Pro在Humanity’s Last Exam、GPQA(钻石级)以及SimpleQA和FACTS Grounding事实性基准测试中获得最高分。Gemini 2.5 Pro在LOFT和MRCR长上下文任务中以128k的上下文长度获得了SOTA,并且是上表所考察的所有模型中唯一一个支持1M+tokens上下文长度的模型。


不过,在数学方面,Gemini 2.5 Pro的表现略逊色于OpenAI o4-mini,图像理解方面分数略低于OpenAI-o3 high。



值得注意的是,从性能表现来看,Gemini 2.5 Flash型号已成为Gemini家族中功能第二强大的型号,不仅超越了之前的Flash型号,还超越了一年前发布的Gemini 1.5 Pro型号。


三、首个在TPUv5p架构上训练的模型系列


Gemini 2.5系列模型采用稀疏混合专家(MoE)模型,原生支持文本、视觉和音频输入。稀疏MoE模型通过学习将token动态路由到参数子集(专家),为每个输入token激活一个模型参数子集;这使得它们能够将模型总容量与每个token的计算和服务成本分离。


面对训练不稳定性的问题,Gemini 2.5模型系列重点优化了增强大规模训练稳定性、信号传播和优化动态方面取得了显著进展。


Gemini 2.5模型建立在Gemini 1.5在处理长上下文查询方面的成功之上,并结合了新的建模进步,使Gemini 2.5 Pro在处理1M tokens的长上下文输入序列方面性能超过了Gemini 1.5 Pro。



Gemini 2.5 Pro和Gemini 2.5 Flash都可以处理长格式文本、整个代码库以及长格式音频和视频数据。


Gemini 2.5模型系列是谷歌第一个在TPU v5p架构上进行训练的模型系列。谷歌采用同步数据并行训练,在分布在多个数据中心的谷歌TPU v5p加速器的多个8960芯片pod上进行并行化。


其预训练数据集是大规模、多样化的数据集合,涵盖广泛的领域和模态,其中包括公开可用的Web文档、代码(各种编程语言)、图像、音频(包括语音和其他音频类型)和视频,Gemini 2.0的截止日期为2024年6月,Gemini 2.5的截止日期为2025年1月。


谷歌还使用了新方法来提高过滤和重复数据删除的数据质量,其训练后数据集,由精心收集和审查的指令调优数据组成,是多模态数据的集合,除了人类偏好和工具使用数据外,还有成对的指令和响应。


在后训练阶段,谷歌研究报道提出,他们利用模型来协助监督微调(SFT)、奖励建模(RM)和强化学习(RL)阶段,从而实现更高效、更细致的数据质量控制。


此外,谷歌还增加了分配给RL的训练计算,这与对可验证奖励和基于模型的生成奖励的关注相结合,以提供更复杂和可扩展的反馈信号。RL过程的算法更改提高了长时间训练期间的稳定性。


Gemini推理模型通过强化学习进行训练,可在推理时使用额外的计算来得出更准确的答案。生成的模型能够在“思考”阶段,在回答问题或查询之前花费数万次正向传递。


四、结语:加速模型投入生产谷歌加速大模型部署


Gemini 2.X以Gemini 1.5系列为基础,谷歌在打造更接近通用AI助手路线上的探索,可以看出,2.X系列模型的性能表现已经整体超过前代。


此外,谷歌决定一口气将这些模型从预览版变为正式版,其新模型强调性能更强劲的推理能力,以及经济实惠的特点,或许反映出其面临越来越大的压力,需要与其他大模型企业快速为消费者和企业部署相应工具的步伐保持一致。

相关内容

热门资讯

原创 泡... 01、快要逼近4000亿了 泡泡玛特的热度,还在以一种近乎失控的状态攀升。 6月15日,杭州西溪天...
欧可林电动牙刷 Xpro20小... 今天分享的是:欧可林电动牙刷 Xpro20小红书策略 报告共计:77页 这份报告围绕欧可林电动牙刷X...
今晚美联储决议最大看点:今年究... 财联社6月18日讯(编辑 潇湘)对关税、油价走向,及两者对通胀影响的日益加剧的不确定性,正让一种风险...
科创板开闸!连续受理4单IPO... “科创板八条”发布以来,先后有4家未盈利企业申报科创板IPO获得受理。 6月17日,上交所科创板再...
直通部委|央行将设立数字人民币... 图片来源:图虫创意 界面新闻记者 | 翟瑞民 金融监管总局鼓励上海在跨境金融等领域开展创新试点 ...
车企高管跨界去时尚圈,雷诺CE... 雷诺 CEO 被古驰母公司“挖走”转卖奢侈品,这一跨界举动令人瞩目。这位车企高管凭借其卓越的领导才能...
全国夏粮小麦大规模机收基本结束 农业农村部最新发布 立夏以来我国夏粮小麦自南向北陆续成熟收获截至6月18日收获进度已达96%“三夏”...
中央金融委员会印发《关于支持加... 新华社北京6月18日电 为贯彻落实党的二十届三中全会“加快建设上海国际金融中心”和中央金融工作会议“...
封禁破解版Switch2,任天... 任天堂一直对破解版 Switch2 持坚决封禁态度,然而在实际行动中却似乎显得“雷声大雨点小”。从表...
50万一台的人形机器人进厂,搬... 近日,一台价值 50 万的人形机器人正式进厂作业。然而,令人意外的是,其搬运效率竟连工人的一半都未达...
刘强东,刷屏! 【导读】京东官宣酒店商家最高三年“0佣金”政策 中国基金报记者 江右 以后不仅可以在京东购物、点外卖...
商品房库存连续三个月减少,核心... 央广网北京6月16日消息(记者门庭婷)“今年以来,随着各项稳定房地产政策加快落实,房地产市场继续朝着...
港龙中国地产1.8亿美元债违约 近日,港龙中国地产集团有限公司(以下简称“港龙中国”)公告称,预期无力支付2025年11月发行的1....
证监会:10月9日起允许合格境... 中国证监会网站6月18日消息,证监会近日发布公告称,经商中国人民银行、国家外汇局,将从2025年10...
从资本宠儿到IPO困兽,AI老... 文 | 深潜atom,作者 | 孟烦了 在2024年招股书失效了,数据智能公司明略科在2025年6...
中国催收外包服务行业深度分析及... 中国催收外包服务行业深度分析及投资前景展望报告2025-2031年 本文源自:中赢信合研究网 1 ...
北京首个,延庆拿出4000万元... 6月18日,北京市延庆区文旅体商农融合发展促消费政策发布会暨“活力盛夏 多维赋能”文旅体商农消费推介...
【世界说】美国企业家:制造业回... 中国日报网6月18日电 6月16日,美国有线电视新闻网(CNN)刊文聚焦贸易战对全球航运业造成的混乱...
连续三起!海关共查获两万多个山... 近日,海关连续三次查获了惊人数量的山寨 LABUBU。在海关的严格查验下,共搜出两万多个山寨 LAB...
刘强东决心找回失落的五年 刘强东曾在事业巅峰时期遭遇一些波折,如今他决心找回那失落的五年。过去的五年,或许是他在商业战场中经历...