OpenAI发布GPT-4.1:开发者“特供”,超越4o,但还没遥遥领先
创始人
2025-04-15 15:22:27
0

OpenAI 近期发布了 GPT-4.1,这一版本被开发者“特供”。据悉,GPT-4.1 在某些方面展现出了超越 GPT-4 的能力,它能够更精准地理解和处理复杂的语言任务,生成的内容质量也有所提升。然而,它并未达到“遥遥领先”的程度,仍有进一步发展和完善的空间。这一消息引起了业界的广泛关注,大家都在期待 GPT 系列后续的表现,看其能否在人工智能领域持续引领潮流,为人们的生活和工作带来更多的便利和创新。


就在上周,关于OpenAI下一代大模型即将发布的传闻不断。从业内消息到代码库中发现的新模型标识(如“o4-mini”、“o3”),种种迹象都指向眼前的发布——可能命名为GPT-4.1,被视为GPT-4o的有力继承者。


现在,靴子终于落地。OpenAI这次没有让大家等太久,正式推出了备受期待的GPT-4.1系列,完整阵容包括旗舰版GPT-4.1、高性价比的GPT-4.1 mini和超轻量的GPT-4.1 nano。值得注意的是,这次更新的焦点并非面向大众用户,仅通过API接口提供服务,OpenAI官方文档直言不讳地指出,这批新模型在各项能力上全面超越了此前的GPT-4o和GPT-4o mini,在编码能力、指令遵循、长文本处理等核心维度实现了进步,并辅以全新定价策略,其知识库也已刷新至2024年6月。OpenAI的核心目标明确:为构建Agent应用的开发者提供更强悍、更可靠且更经济的基础设施。


编程评测表现优于GPT-4.5


编码能力的强化是GPT-4.1系列最耀眼的亮点之一。官方数据显示,在衡量真实世界软件工程能力的SWE-bench Verified基准测试中,GPT-4.1取得了54.6%的分数,相比GPT-4o的33.2%,实现了高达21.4个绝对百分点的提升。



更令人玩味的是,这一成绩甚至比定位更高的GPT-4.5(38.0%)还要高出不少,上演了一出“4.1>4.5”的有趣戏码。这意味着GPT-4.1在理解代码库、按需完成编程任务、生成能实际运行并通过测试的代码方面有了质的飞跃。


不仅如此,GPT-4.1在代码处理的细节上也更为精进。例如,它在处理代码差异(diffs)方面更加可靠,根据Aider's polyglot diff benchmark,其表现甚至超越了GPT-4.5。官方还特别提到,模型进行无关编辑(extraneous edits)的频率从GPT-4o的9%显著降低到了2%。



对于前端开发者而言,GPT-4.1生成的网页应用在功能性和美观性上也更胜一筹,在内部测试中,人类评估者有80%的时间更偏好GPT-4.1的作品。同时,为了支持更大规模的代码编辑,GPT-4.1的最大输出Token限制也提升至32,768个(GPT-4o为16,384个)。据OpenAI官方,来自早期测试伙伴如Windsurf和Qodo的反馈也印证了这些提升,他们观察到GPT-4.1在实际代码生成和代码审查任务中效率更高、错误更少。


各代模型的“推理得分”(Intelligence/MMLU)与“响应延迟”之间的对比


指令遵循能力的提升同样是本次更新的重中之重。模型现在能更精准地理解和执行复杂、多步骤的指令。在Scale's MultiChallenge基准测试(评估多轮对话中的指令遵循能力)中,GPT-4.1得分38.3%,较GPT-4o提升了10.5个绝对百分点。


而在IFEval测试(验证模型遵循格式、长度、禁用词等具体约束的能力)中,得分也从81.0%提升至87.4%。OpenAI内部评估也显示,特别是在处理困难指令时,GPT-4.1的改进尤为明显。这种可靠性的增强,对于构建能够自主完成任务的AI Agent系统至关重要,能有效减少开发者“手把手教”的负担。


来自Blue J(税务场景)和Hex(SQL生成)等合作伙伴的真实案例也表明,GPT-4.1在处理复杂规则和歧义、遵循细微指令方面表现更佳,显著提高了应用准确性和开发效率。


全系支持百万级长文本处理


全系标配且真正“可用”的百万级长文本处理能力,是GPT-4.1系列的另一大重点。不仅旗舰版GPT-4.1,连同mini和nano版本,都支持高达100万Token的上下文窗口(远超GPT-4o的128k)。OpenAI此次特别强调,这不仅仅是窗口大小的提升,更在于模型在如此长的文本中保持专注和理解的能力得到了强化。经典的“大海捞针”(Needle in a Haystack)测试结果显示,GPT-4.1系列能在1M长度的文本中稳定、准确地找到隐藏信息。



为了证明模型在更接近真实世界复杂场景下的长文本能力,OpenAI还开源了两套新的评估基准:OpenAI-MRCR(测试在长文本中区分和检索多个相似信息点的能力)和Graphwalks(评估需要跨文本多处进行逻辑跳转和推理的多跳推理能力)。



测试结果表明,GPT-4.1在这些更具挑战性的任务上,相比前代有显著优势,并且能在百万Token级别保持强大的性能。这对需要处理大量代码、多份冗长法律文件或金融报告的应用场景来说,无疑是巨大的福音。Thomson Reuters和Carlyle等金融和法律领域的早期用户反馈,GPT-4.1在处理多份复杂长文档、提取精确信息、进行跨文档推理方面,准确性显著提高,克服了以往模型在“大海捞针”、“中间丢失”和多跳推理上的局限。


当然,处理百万Token的延迟也是开发者关心的,官方给出的初步数据是,GPT-4.1处理128k Token时首个Token的p95延迟约15秒,1M Token则可能需要半分钟左右,而mini和nano版本则会快得多。


更好的多模态


此外,GPT-4.1家族的视觉理解能力也保持了高水准。特别是GPT-4.1 mini,在MMMU、MathVista等多个视觉基准测试上的表现甚至优于GPT-4o。旗舰版GPT-4.1则在长视频理解基准Video-MME(无字幕长视频问答)上取得了72.0%的新SOTA成绩。


在Video-MME中,模型基于无字幕的30至60分钟长视频回答多项选择题


伴随性能提升而来的是极具吸引力的新定价体系。得益于推理效率的优化,GPT-4.1系列的价格相当“香”:


  • GPT-4.1:输入$2.00/输出$8.00(每百万Token),官方称比GPT-4o的中位数查询成本低26%。


  • GPT-4.1 mini:输入$0.40/输出$1.60,在性能接近甚至超越GPT-4o的同时,成本和延迟大幅降低。


  • GPT-4.1 nano:输入$0.10/输出$0.40,成为OpenAI有史以来最便宜、最快速的模型,且同样支持1M上下文。



此外,Prompt Caching(提示缓存)的折扣从之前的50%提高到了75%,对于需要重复传递相同上下文的应用能大幅节约成本。同时,使用Batch API(批量处理)还能享受额外的50%折扣。


需要注意的是,随着GPT-4.1系列的登场,之前作为预览版推出的GPT-4.5 Preview API也迎来了谢幕。OpenAI宣布,该API将在2025年7月14日正式关闭,给予开发者3个月的过渡时间,鼓励大家迁移到性能更优、成本更低的GPT-4.1系列。


进步了,但很难全赢


GPT-4.1的发布,被一些市场观察者解读为OpenAI对Anthropic和Google等竞争对手近期积极动作的回应,而非一次颠覆性的技术突破。有不少评论直接指出,尽管进步显著,但在某些特定基准上,如Aider Polyglot编码测试,GPT-4.1(约52%)与Google Gemini 2.5 Pro(据报道约73%)相比仍有差距。



来自第三方基准平台(如与ChatLLM服务相关的Livebench)的早期结果在一定程度上支持了这种观点:虽然确认GPT-4.1相较于GPT-4o有所改进('It's better than GPT-4o'),但同时将其描述为一次“增量更新”(incremental update)。更值得注意的是,在OpenAI重点宣传的编码能力方面,该基准评估认为其表现“似乎并未优于Google的Gemini 2.5 Pro或Anthropic的Claude 3 Sonnet(或更高版本模型)”。这似乎意味着AI领域的竞争已进入到更细分、更针对性的能力比拼阶段,而非全面的代际碾压。



而谈及OpenAI,其“迷幻”的命名体系总是绕不开的话题。从GPT-4o、4.5、4.1,到内部代号般的o1、o3、o4系列(还分low/medium/high/mini/pro各种后缀),再到ChatGPT界面上令人困惑的模型选项(4o、o3-mini、o1、Deep Research、4.5、带任务调度的4o...),“像正常人一样给模型命名”似乎成了一项不可能完成的任务。这对于一个力求普及AI技术的公司而言,无疑增加了用户的理解成本。



尽管如此,OpenAI此次GPT-4.1系列的发布,仍然释放了一个明确的信号:OpenAI没有忘记开发者。GPT-4.5的官方API接下来一周内也可以免费使用,每分钟3次请求,一天200次,TPM1万。


不过相较于GPT-4o在多模态交互上的惊艳问世,GPT-4.1系列更像是一次深入生产环节的“内功”修炼,精准解决了开发者在编码、指令控制、长文本处理等核心痛点。这种API优先、强调实用性和性价比的策略同时,不仅是对自身模型效率提升的自信展示,也势必给Anthropic、Google、xAI等对手带来更大的压力。


或许OpenAI真正的“大招”还在后面——毕竟o3完整版和o4 mini模型的发布也已箭在弦上。

相关内容

热门资讯

白湖亭立交4条新建匝道预计明年... 白湖亭立交的 4 条新建匝道无疑是城市交通建设中的一大亮点。这些新建匝道宛如城市交通网络中的灵动脉络...
养生馆针灸引感染 女子膝关节不... 近日,某养生馆的针灸操作引发了一起令人担忧的事件。一位女子在该养生馆接受针灸治疗后,膝关节出现感染症...
武生李哲京剧折子戏专场6日上演 武生李哲的京剧折子戏专场将于 6 日隆重上演。此次专场汇聚了众多经典的京剧武生剧目,李哲凭借其精湛的...
“五一”假期第三天 福州文旅市... “五一”假期第三天,福州文旅市场持续火热。各大景区人头攒动,游客们兴致勃勃地穿梭其中。三坊七巷里,古...
福州首只人大代表公益微基金设立 近日,福州迎来了一个具有重要意义的时刻——福州首只人大代表公益微基金正式设立。这一举措标志着福州在公...
金山大桥西互通立交年底前建成 金山大桥西互通立交即将在年底前华丽竣工。这座重要的交通枢纽宛如城市的新动脉,将极大地改善周边交通状况...
央媒密集关注数字中国建设峰会 央媒密集关注数字中国建设峰会,彰显其重要性与影响力。这些媒体纷纷聚焦峰会的各项成果与亮点,深入报道数...
外籍游客摔伤被困峡谷地缝 福州... 在福州的峡谷地缝中,一名外籍游客不慎摔伤被困。情况危急,福州消防队员们毅然踏上了艰难的救援之路。他们...
最后1天!就在福州这里! 请你提供具体的相关内容呀,没有具体的信息我没法准确写出 200 字的描述呢,比如是一场活动、一个展览...
央视关注福州:水路旅游新热点 ... 央视近期聚焦福州,发现了水路旅游这一全新热点。福州凭借其独特的水系资源,精心打造了多条精品航线,成功...
第八届数字中国建设峰会成果盘点 第八届数字中国建设峰会成果丰硕。在数字技术创新领域,众多前沿成果集中展示,如 5G 应用的进一步拓展...
福州市“五一”文旅市场花样缤纷 “五一”假期,福州市的文旅市场可谓花样缤纷。在历史文化街区,古老的建筑与现代的创意完美融合,游客们仿...
探秘重生!福州高新区这座“民国... 福州高新区有一座神秘的“民国建筑”,它曾历经岁月沧桑,如今却焕发出全新的光彩。这座建筑保留着民国时期...
稀土龙头ESG报告公布,北方稀... 北方稀土去年温室气体排放量上涨1倍多,其次是盛和资源同比上升约62%。 图片来源:视觉中国 在全球...
电力工程不停步 青年骨干挑大梁 在电力工程的领域,脚步从未停歇。青年骨干们如同一股股强劲的力量,毅然挑起了大梁。他们年轻却富有激情与...
福州原创四大名著立体书发布 近日,福州原创的四大名著立体书重磅发布!这一创新之举引发了广泛关注。书中以精湛的工艺将四大名著中的经...
多个景点完成升级改造 环马祖澳... 环马祖澳滨海旅游区迎来全新蜕变,多个景点完成升级改造,如今人气愈发旺盛。昔日的沙滩经过精心修缮,沙质...
闽侯成立低空经济联合创新实验室 闽侯成立低空经济联合创新实验室,这一举措标志着闽侯在低空经济领域迈出了坚实的一步。该实验室汇聚了多方...
十款锅边、竹人舞梦……“五一”... “五一”假期第 5 天,那真是一场闽都文化的盛宴!十款锅边,每一口都散发着浓郁的家乡味道,仿佛在舌尖...
竹人舞梦 非遗童行 “竹人舞梦,非遗童行”,这是一场充满魅力与传承的活动。在那充满绿意的竹海中,孩子们身着传统服饰,手持...