OpenAI发布GPT-4.1 ,吊打GPT-4.5,14万/月的博士级AI曝光
创始人
2025-04-15 07:42:13
0

OpenAI 近期重磅发布了 GPT-4.1,其性能表现极为惊人,可谓是吊打了之前的 GPT-4.5。这一消息迅速引起了广泛关注,众多业内人士和科技爱好者都对其充满了期待。与此同时,有消息称出现了一款每月费用高达 14 万的博士级 AI。这一超高价格的 AI 无疑彰显了其强大的技术实力和高端定位。它或许将在各个领域带来颠覆性的变革,为人们的生活和工作带来全新的体验和机遇。但也引发了人们对于人工智能发展趋势以及其对社会和经济影响的深入思考。


昨天,OpenAI宣布调整API使用规则。


未来访问OpenAI旗下最新大模型,需要通过身份验证的ID(即OpenAI支持的国家/地区之一的政府签发的身份证件,且一个身份证件每90天只能验证一个组织),未通过验证将影响模型使用。


新规引起的争议尚未平息,OpenAI于今天凌晨顺势推出了三款GPT-4.1系列模型,不过,只能通过API用,不会直接出现在ChatGPT里。


  • GPT-4.1:旗舰模型,在编码、指令遵循和长上下文理解方面表现最佳,适用于复杂任务。


  • GPT-4.1 mini:小型高效模型,在多个基准测试中超越GPT-4o,同时将延迟降低近一半,成本降低83%,适合需要高效性能的场景。


  • GPT-4.1 nano:OpenAl首个超小型模型,速度最快、成本最低,拥有100万token上下文窗口,适用于低延迟任务如分类和自动补全。



尽管对OpenAI混乱的命名逻辑早有心理准备,但GPT-4.1还是遭到了网友的一致吐槽,就连OpenAI首席产品官Kevin Weil也自嘲:“这周我们的命名水平肯定也没啥进步”。


GPT-4.1模型卡 https://platform.openai.com/docs/models/gpt-4.1


编程+长文本,GPT-4.1>GPT-4.5?


技术才是硬道理,虽然命名饱受诟病,但GPT-4.1的实力还是有目共睹。


OpenAI宣称GPT-4.1系列模型在多项基准测试中表现出色,堪称当前最强大的编程模型之一。


  • 能够自主完成复杂编码任务

  • 前端开发能力提升

  • 减少多余代码修改

  • 更好地遵循diff格式

  • 工具调用更加一致稳定


OpenAI更是将GPT-4.1比喻为“quasar”(类星体),暗示它像类星体一样在AI领域中具有强大的影响力和能量。



在真实软件工程能力的评估标准SWE-bench Verified基准测试中,GPT-4.1得分54.6%,较GPT-4o提升21.4个百分点,较GPT-4.5提升26.6个百分点。



GPT‑4.1在diff格式方面经过专门训练,更能稳定输出修改片段,节省延迟与成本。此外,OpenAI已将GPT‑4.1的输出token上限提升至32768 tokens,便于应对全文件重写的需求。


在前端开发任务中,OpenAI盲测结果显示,80%评估者偏爱GPT-4.1生成的网页。



OpenAI今天凌晨的直播也邀请了Windsurf的创始人兼CEO Varun Mohan分享经验。Varun透露,其内部基准测试显示,GPT-4.1性能比GPT-4提升了60%。


鉴于GPT-4.1的出色表现,Windsurf决定为所有用户提供一周的GPT-4.1免费体验,随后以大幅折扣继续提供该模型。另外,Cursor用户现在也可以免费使用GPT-4.1。



在真实对话中,尤其是多轮交互任务中,模型能否记住并正确引用上下文中的信息至关重要。在Scale的MultiChallenge基准测试中,GPT‑4.1比GPT‑4o提升了10.5个百分点。


IFEval是一个以明确指令(如内容长度、格式限制)为基础的测试集,用于评估模型是否能遵循具体规则输出内容。GPT-4.1的表现依然力压GPT-4o。



在多模态长上下文基准Video-MME的无字幕长视频类别中,GPT-4.1以72.0%的得分创下新纪录,领先GPT-4o 6.7个百分点。


模型小型化是AI商业化的必然趋势。


“以小博大”的GPT‑4.1 mini在多项测试中甚至超越GPT-4o,同时在保持与GPT‑4o相似或更高智能表现的同时,延迟几乎减半,成本降低了83%。


OpenAI研究员Aidan McLaughlin发文称,有了GPT-4.1 mini/nano,现在可以用一种成本低得多(25倍更便宜)的方式实现类似GPT-4质量的功能,性价比超高。



GPT‑4.1 nano则是OpenAI目前速度最快、成本最低的模型,适合需要低延迟的任务。


它同样支持100万token的上下文窗口,在MMLU、GPQA和Aider polyglot编程测试中的得分分别为80.1%、50.3%和9.8%,均高于GPT-4o mini,适合分类、自动补全等轻量任务。



不过,GPT-4.1只能通过API用,不会直接出现在ChatGPT里。但好消息是,ChatGPT的GPT-4o版本已经悄悄加入了GPT-4.1的部分功能,未来还会加更多。


GPT‑4.5 Preview将于2025年7月14日下线。开发者API的核心模型也将逐步替换成GPT-4.1。


据官方解释,GPT-4.1在性能、成本和速度上都更胜一筹,而GPT-4.5中用户喜爱的创意表达、文字质量、幽默感与细腻风格会在以后的模型里继续保留。


GPT-4.1在指令理解方面也升级了,不管是格式要求、内容控制,还是复杂的多步任务,甚至是多轮对话中保持前后一致,也都做得更好。


长文本是GPT-4.1系列的一大亮点,其支持高达100万token的超长上下文处理能力,约等于8套完整的React源码,或成百上千页文档,远超GPT-4o的12.8万token,适用于大型代码库分析、多文档审阅等任务。


在“大海捞针”测试中,GPT-4.1精准检索超长上下文信息,表现优于GPT-4o;在搜索测试中,其区分相似请求和跨位置推理能力更强,准确率达62%,远超GPT-4o的42%。



尽管支持超长上下文,GPT-4.1的响应速度还不慢,128K token请求约15秒,nano型号低于5秒,OpenAI还优化了提示缓存机制,将折扣从50%提升至75%,用起来更便宜。


在今天凌晨的直播演示环节,OpenAI通过两个案例充分展示了GPT-4.1强大的长上下文处理能力和严格的指令遵循能力,对于开发者来说,或许也是相当实用的使用场景。



在第一个案例中,演示者让GPT-4.1创建了一个可以上传和分析大型文本文件的网站,然后使用这个新创建的网站上传了一个NASA的1995年8月的服务器请求日志文件。


演示者在这个日志文件中“偷偷”插入了一行非标准的HTTP请求记录,让GPT-4.1分析整个文件并找出这个异常记录,结果,模型成功地在这个约45万token的文件中找到了这行异常记录。



在第二个案例中,演示者设置了一个系统消息,让模型扮演日志分析助手,规定了输入数据必须在标签内,用户问题必须在标签内。


当演示者问了一个没有用标签包裹的问题时,模型拒绝回答,当正确使用标签后,模型准确回答了关于日志文件的问题。相比之下,之前的GPT-4o则会忽略这些规则限制,直接回答问题。


简言之,GPT-4.1核心优势包括超长上下文支持、强大检索推理、出色多文档处理、低延迟高性能、成本效益高,适配法律、金融、编程等场景,是代码搜索、智能合同分析、客服等任务的理想选择。


OpenAI的真正大招,是能像费曼一样思考的推理模型


OpenAI还没正式推出o3,但已经有些消息传出来了。


据The Information援引三位参与测试的知情人士消息称,OpenAI计划本周推出的全新AI模型将能跨学科整合概念,提出涉及从核聚变到病原体检测等全新实验思路。


OpenAI自去年9月首次推出以推理为核心的模型,这类模型在处理数学定理等可验证问题时表现尤为出色,思考时间越长,效果越好。


随着Scaling Law陷入“撞墙”的瓶颈,OpenAI也将研发重点转向推理方向,相信未来可提供每月高达2万美元(折合人民币14万元)的订阅服务,为博士级研究提供支持。


这种推理模型像特斯拉或科学家费曼那样,能整合生物学、物理学及工程等多领域知识,提出独特见解。要知道,现实里,这种跨学科成果得靠团队耗时费力的合作,但OpenAI的新模型可独立完成类似任务。


ChatGPT的“深度研究”工具支持浏览网页、整理报告,科学家可借此总结文献并提出新实验方法,展示了这方面的潜力。据一位测试者介绍,科学家可以使用该AI阅读多个科学领域的公开文献,总结已有实验,并提出尚未尝试过的新方法。


现有的推理模型也已经大幅提升科研效率。


The Information举例称,伊利诺伊州阿贡国家实验室的分子生物学家Sarah Owens利用o3-mini-high模型,快速设计出应用生态学相关技术检测污水病原体的实验,节省数天时间。


化学家Massimiliano Delferro则用AI设计塑料分解实验,获得包括温度和压力范围的完整方案,效率远超预期。在今年2月的“AI即兴实验”中,测试者使用o1-pro和o3-mini-high评估建设电厂或矿山在特定地理区域内的潜在环境影响,效果也远超预期。


报道称,在田纳西州橡树岭国家实验室举行的一次实验活动中,OpenAI总裁Greg Brockman对来自九个联邦研究所的千名科学家表示:


“我们正在朝着一种趋势发展——AI会花大量时间『认真思考』重要的科学问题,而这将使你们在接下来的几年里效率提高十倍甚至百倍。”


目前,OpenAI已承诺为多个国家实验室提供私有访问权限,让他们使用托管在洛斯阿拉莫斯国家实验室超级计算机上的推理模型。


然而,理想很丰满,现实却很骨感。在很多情况下,AI给出的建议与科学家验证这些想法的能力之间仍存在差距。比方说,模型可建议激光强度以释放特定能量,但仍需模拟器验证;涉及化学或生物的建议则需实验室测试。


OpenAI也曾发布名为Operator的AI Agent,但却因常出现错误遭到吐槽。


据知情人士透露,OpenAI计划通过“基于人类反馈的强化学习”(RLHF),在用户实际使用数据的基础上筛选失败案例,并以成功示例训练Operator,以此改进表现。


Amazon AGI SF Lab负责人、前OpenAI工程主管David Luan提供了一个有趣的视角。他表示,在推理模型出现前,如果一个传统AI模型“发现了一个全新数学定理”,因为训练数据中没有,它反而会被“惩罚”。


此外,OpenAI也正在开发更先进的编程Agent。OpenAI CFO Sarah Friar今年3月份在伦敦高盛峰会上透露:


“接下来我们要推出的是我们称之为A-SWE的产品。顺便说一句,我们的营销水平确实不是最强的(笑),A-SWE指的是‘自主型软件工程师(Agentic Software Engineer)’。”


她表示,A-SWE不只是像现在Copilot那样辅助你团队中的软件工程师,而是真正具备“自主能力”的软件工程师,它可以独立为你开发一个应用。


只需要像给普通工程师一样提交一份PR(Pull Request),它就能独立完成整个开发过程。


“它不仅能完成开发,还能做所有工程师最讨厌的那些工作:它会自己做QA(质量保障)、自己测试并修复bug、还会写文档——这些通常很难让工程师主动去做的事。所以,你的工程团队战斗力将被极大地放大。”


一方面,像GPT-4.1这样的模型通过超长上下文和精准指令遵循能力,已能处理比以往更复杂的任务;另一方面,推理模型和自主型Agent正打破传统AI的局限,向真正的自主思考能力迈进。


本文来自微信公众号:APPSO (ID:appsolution),作者:appso

相关内容

热门资讯

此次联演展现三种军事能力 专家... 请你提供具体的联演内容呀,没有相关信息我没法准确进行描述呢。比如联演的名称、参与的军事力量、具体的军...
执、仗、亮、击!现场感受陆军火... 在那广袤的战场上,陆军与火箭军紧密协作。“执”起手中的武器,那是坚守的决心;“仗”剑天涯,展现出无畏...
东部战区发布军事行动主题海报《... 东部战区发布的军事行动主题海报《锁控》,画面极具震撼力。海报中,一艘威严的战舰如钢铁巨塔般屹立在波涛...
突发!台湾地震!福建网友:震感... 突发!台湾地区发生地震,这一消息迅速引起广泛关注。福建的网友们纷纷表示震感明显,切身感受到了这场地震...
外交部:中方已提出严正交涉 敦... 外交部明确表示,中方已提出严正交涉,这彰显了中国在台湾问题上的坚定立场。台湾是中国不可分割的一部分,...
从“证”通到心通:闽台职业资格... 《“证”通到心通:闽台职业资格互认再提速》闽台两地职业资格互认步伐不断加快,如今再度提速。这一举措宛...
台湾抗日志士后人与文史专家还原... 在台湾历史的长河中,台湾抗日志士后人与文史专家携手,致力于还原“马关割台”这一惨痛历史。他们深入研究...
福建省首个台胞银龄人才驿站成立 福建省首个台胞银龄人才驿站正式成立啦!这一驿站的诞生,为广大台胞提供了一个温暖的“港湾”。它犹如一座...
国防部:民进党当局对美国人予取... 国防部指出,民进党当局对美国人予取予求,这种行径严重祸害了台湾民生。民进党当局为了讨好美国,不惜出卖...
台青兄妹在榕开料理店创业 在福州的街头,有一对台青兄妹正开启他们的料理店创业之旅。哥哥有着娴熟的厨艺,妹妹则擅长店铺运营。他们...
浪漫来袭!宝瓶座η流星雨6日迎... 浪漫来袭!宝瓶座η流星雨 6 日迎来极大。在那静谧的夜空下,无数闪烁的星辰仿佛是宇宙的诗篇。而宝瓶座...
拜登:特朗普太掉价了 拜登曾多次对特朗普作出评价,其中“特朗普太掉价了”这一言论反映出他对特朗普行事风格和政治形象的看法。...
“青春力量 筑梦强国”大学生原... “青春力量 筑梦强国”大学生原创作品展映活动在榕圆满落下帷幕。活动现场氛围热烈,大学生们的原创作品精...
罗马尼亚临时总统博洛让任命普雷... 罗马尼亚临时总统博洛让做出重要任命,正式任命普雷多尤为看守政府总理。这一举措标志着罗马尼亚政治进程中...
巴基斯坦宣布进入紧急状态 近日,巴基斯坦宣布进入紧急状态。这一举措引起了广泛关注。紧急状态的宣布意味着国家将在特定时期采取一系...
综合治理食品添加剂滥用问题,六... 为有效治理食品添加剂滥用问题,六部门联合出击!此次行动彰显了对食品安全的高度重视。六部门协同作战,从...
中国人民银行推出三大类、十项措... 中国人民银行积极行动,推出三大类、十项措施以全力支持稳市场稳预期。在货币政策类措施中,灵活调整信贷投...
自5月15日起,央行降低存款准... 自 5 月 15 日起,央行作出重大举措,降低存款准备金率 0.5 个百分点。这一政策调整如同一股暖...
8大类1000多支 中国红十字... 中国红十字会在应急救援领域展现出强大实力。目前,已建成 10 万人规模的救援队伍,涵盖医疗急救、灾害...
央行降准又降息意味着什么 央行降准又降息意味着多方面的重要意义。降准使得金融机构在央行的存款准备金减少,可释放出大量资金,增加...