OpenAI还能扛起人工智能的大旗吗?
创始人
2025-04-21 12:41:23
0

OpenAI 在人工智能领域有着卓越的成就和广泛的影响力,目前仍具备扛起大旗的实力。它在自然语言处理等方面取得了突破性进展,推出的 GPT 系列模型展现出强大的语言理解和生成能力。其不断进行技术创新,致力于提升模型的性能和通用性。同时,OpenAI 拥有雄厚的研发团队和丰富的资源,能够持续投入到人工智能的研究与开发中。然而,竞争也日益激烈,其他科技公司也在积极布局人工智能领域。但凭借其过往的成绩和持续的努力,OpenAI 仍有很大机会在人工智能的发展进程中继续发挥重要作用,扛起这面大旗。


出品|虎嗅科技组

作者|孙晓晨

编辑|苗正卿

头图|视觉中国

 

OpenAI在一周时间内相继发布GPT-4.1系列模型(包括GPT-4.1、GPT-4.1 mini以及GPT-4.1 nano)、OpenAI o3和o4-mini,但是新模型似乎并未如预想般“石破天惊”,反而将OpenAI拖入争论之中。

 

实际上,单独观察此次接连发布的新模型,其功能依然“能打”。

 

首先是GPT-4.1系列模型,据OpenAI介绍,GPT-4.1系列模型相较于GPT-4o升级明显,其在编码、指令遵循和长文本处理方面实现了重大改进,尤其在长文本处理方面,该系列模型支持高达一百万Token上下文,且无额外费用。

 

 

而OpenAI o3和o4-mini能够代理地使用并整合ChatGPT内的所有工具,包括网络搜索、Python、图像分析、文件解读和图像生成。此外,o3和o4-mini还将上传图像直接整合到其思维链中,不仅仅能“看到”图像,而且还能“用图像思考”。在OpenAI的宣传中,o3和o4-mini甚至被称为“迄今为止OpenAI最智能、功能最强大的模型”。

 

 

新模型的实际使用体验也不错。国外博主Clive Chan表示,在自己所有的工作流程(如光标操作等)中,4.1基本上已经取代了 o3-mini,且表现优异。医学博士Dr. Datta也指出,在为医院放射科构建代理型工作流程过程中,GPT-4.1 nano在降低成本的同时实现了响应速度显著提升。他表示“在放射学和医学领域,延迟是应用的最大障碍。模型生成报告的时间不能超过10秒。通过GPT-4.1 nano,我们现在甚至能在复杂的报告生成和网络搜索的结构化提取中实现低于10秒的响应时间。”

 

 

AI&I播客主持人Dan Shipper则通过具体的使用案例表达了对o3模型的赞许,称其“速度快、主动性强、极其聪明”。此外,博主Malte Landwehr表示,o3、o4-mini和o4-mini-high是OpenAI在其专注于德语的LLM基准测试中表现最佳的模型。

 

 

 

可见,OpenAI的新模型在实用价值以及性能上受到了众多用户的欣赏。但是,尽管享受着诸多肯定,OpenAI在接连发布新模型之后,批评与质疑的声音也更加刺耳。

 

首先,新模型在实际表现上依然存在误差,而且未完全超越竞品。GPT-4.1系列模型的百万级Token上下文功能似乎并非完全可靠,当输入接近上限时,模型准确率会出现大幅回落。还有博主列举了一部分基准测试数据,这些数据均显示GPT 4.1并没有击败Gemini 2.5 pro。

 

 

沃顿商学院教授Ethan Mollick则指出“o3的一个潜在问题是,它认为自己使用了工具,即使实际上并未使用,这导致了一些幻觉,即它假设推理链中暗示的工作实际上已经完成。”他也表示,Gemini 2.5并没有出现同样的问题。

 

 

另外,尽管OpenAI宣称o3和o4-mini能“用图像思考”,但有博主直接表示“尽管推出了新版本,但它仍然无法在网络上执行反向图像搜索功能。与谷歌相比,这一差距正在以比预期更快的速度扩大。”

 

 

在竞争日益激烈的AI行业中,这些表示新模型不及竞品的指责无疑直刺OpenAI的神经。此外,由于新模型虽然效果不错,但是缺乏亮眼表现,作为行业龙头的OpenAI也被认为正在遭遇创新瓶颈。

 

除了产品遭到质疑,OpenAI的产品策略也受到诟病。混乱的命名方式和难以确定功能指向的众多模型给用户带来了糟糕的选择体验,有网友表示自己甚至都无法确定最新的模型,指责OpenAI的模型命名缺乏逻辑且无序。而此次在GPT-4.5之后推出的GPT-4.1系列模型,也因为其版本号的倒退,被认为是在GPT-5难产时的过渡品。

 

AI安全问题也在本周新模型发布后受到关注。人工智能安全研究小组Truthful AI成员Owain Evans指出“GPT-4.1显示出比GPT-4o(以及我们测试过的任何其他模型)更高的不对齐响应率。它似乎还表现出了一些新的恶意行为,例如诱骗用户分享密码。”

 

 

反观OpenAI最近的一系列动作,新模型的争议貌似无伤大雅。之前便有消息表示,OpenAI正开发社交网络平台,尽管这意味着与马斯克的竞争关系将更加紧张,但也表明其正在展开更广阔的市场策略,结合其考虑以30亿美元收购人工智能编程工具Windsurf的行为,OpenAI可谓“野心勃勃”。在这样的背景下,接连发布新模型似乎并非公司精力所在。然而作为一家科技公司,产品表现无疑决定了公司的市场地位。而OpenAI究竟是否真正遭遇了创新瓶颈,还能否坐稳行业的第一把交椅,估计还要等GPT-5的表现才能见分晓。

文章标题:OpenAI还能扛起人工智能的大旗吗?

文章链接:https://www.huxiu.com/article/4263014.html

阅读原文:OpenAI还能扛起人工智能的大旗吗?_虎嗅网

相关内容

热门资讯

成为世界的泡泡玛特,王宁下一个... 世界的泡泡玛特,在潮流玩具的领域独领风骚。王宁,这位引领潮流的大师,每一个 LABUBU 都仿佛是一...
农发行临澧县支行以金融“活水”... 2025年是“十四五”收官之年,也是进一步全面深化改革的重要一年。农发行临澧县支行按照上级行统一部署...
曾和老铺黄金一样会赚钱的周六福... 今年一季度,现货黄金价格上涨约19%,创下1986年9月以来国际金价最大季度涨幅。在这个节骨眼上,作...
基金分红:中银丰实定期开放债券... 证券之星消息,6月19日发布《中银丰实定期开放债券型发起式证券投资基金分红公告》。本次分红为2025...
央视《新闻联播》关注:第八届世... 央视《新闻联播》近日聚焦第八届世界闽商大会,此次大会成果斐然,签约金额高达 845.3 亿元。这一数...
奥尔特曼:GPT-5将于今夏面... 奥尔特曼近期宣布,GPT-5 将于今夏正式面世。这一消息引起了广泛关注,意味着 AI 领域即将迎来重...
“面板三哥”再闯IPO “面板三哥”再度冲击 IPO 市场,引发广泛关注。曾经在面板领域崭露头角的它,此次再次踏上这一征程,...
鸟儿在窗间筑巢繁育,夫妻俩决定... “嘘!别出声!”6月18日下午家住荆门漳河新区水岸林邸小区的市民许女士回家后轻手轻脚地走进主卧卫生间...
国产机器人,疯狂割老外的“草” 在当今的科技领域,国产机器人展现出了令人瞩目的实力。它们如同勇猛的战士,在国际舞台上疯狂割“草”,让...
什么才是好产品? 好产品应具备多方面特质。首先,它要满足用户的实际需求,能切实解决用户在生活或工作中遇到的问题,让用户...
工商业储能谁能破局?远景孙捷:... 随着136号文的出台以及多省电价政策的调整,国内工商业储能市场走向出现“不确定性”,行业站在了商业模...
冲刺港股IPO的东阳光药,核心... 文 | 杨万里 6月17日,广东东阳光药业股份有限公司(下文简称:东阳光药)获得中国证监会境外发行上...
从支付到医疗!蚂蚁集团押注AQ... 6月16日,蚂蚁集团悄然上线医疗健康AI应用AQ。 据《财中社》观察,目前安卓用户已可下载使用,苹果...
伊以冲突里的中国人:真后悔没跟... 在伊以冲突的动荡局势中,有这样一位令人感慨的中国人。当危机降临,他身边的人纷纷陷入慌乱与迷茫,而他却...
公安机关发布20个防诈关键词 公安机关为提升民众防诈意识,发布了 20 个关键防诈词汇。这些词汇涵盖了常见的诈骗手段与陷阱,如“网...
最新!64款移动应用被通报 最新消息!64 款移动应用遭通报。这些应用涵盖了多个领域,涉及到人们日常生活的方方面面。通报显示,这...
MWC25上海:AI无处不在,... MWC25 上海,一场科技盛宴在此上演。在这个舞台上,AI 可谓无处不在,它已悄然融入我们生活的方方...
李鸿彬:6.19黄金下探335... 成功的投资者,是善于独立思考,具有独特的见解,然而这独特的见解不是从天下掉下来,也不是从地下冒出来,...
“6·18”活跃用户数创新高,... 【大河财立方 记者 司高妍】2025年天猫“6·18”圆满收官,其成绩表现如何? 6月19日,大河财...
高仿“拉布布”贵过正版!有玩家... 618大促最火单品LABUBU(以下简称“拉布布”)在6月18日当晚大批补货,开启预售。与此同时,二...