人类击败AI编程夺冠,奥特曼点赞,16个顶级码农实测揭秘:AI编程竟是“效率幻觉”
创始人
2025-07-17 15:24:02
0

在一场激烈的编程竞赛中,人类选手凭借着扎实的编程功底和创新思维,成功击败了 AI 编程,夺得了冠军。这一结果令人惊叹,连奥特曼都忍不住点赞。16 个顶级码农进行了实测,揭开了 AI 编程的神秘面纱。原来,AI 编程看似高效,实则只是一种“效率幻觉”。它在处理某些特定任务时可能表现出色,但在面对复杂多变的编程需求时,却显得力不从心。人类码农凭借着丰富的经验和灵活的思维,能够更好地应对各种挑战,展现出了不可替代的优势。这一事件也让人们重新审视了 AI 编程的地位和作用,为未来的编程发展指明了方向。


本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,原文标题:《人类击败AI编程夺冠!奥特曼点赞,16个顶级码农实测揭秘:AI编程竟是「效率幻觉」》


Humanity has prevailed(for now!)人类暂时取得了胜利!


昨天,在东京举行的AtCoder 2025世界巡回赛中,一位人类选手Psyho以较大差距暂时击败了OpenAI提交的自动化程序OpenAIAHC,拿下榜首。


AtCoder World Tour Finals是AtCoder主办的一年一度的赛事,旨在决出竞技编程的世界冠军。第一是来自波兰的Psyho,OpenAIAHC排在第二。


消息一出,连OpenAI CEO奥特曼都亲自转发了,配文「干得好,Psyho!」


这场胜利确实值得欢呼,但它始终是暂时的。OpenAIAHC排在第二名紧追不舍,AI参与编程竞赛的实力越来越强,从零调试的程序已经逼近人类顶尖选手。


正如当年AlphaGo「大战」李世石那样,AI编程的优势也正在一点点显现,逐步占据主导地位。


今天的开发者,正在被Claude Code、Gemini CLI、Cursor等工具团团围住,不再是「用不用」的问题,而是「怎么用」。


最近Kimi K2发布,让Claude Code又火了一把。很多人第一时间注意到的,除了K2跑得多快、模型多大,还有它的API接入了Claude Code。


启动Claude Code,写上一段prompt,回车,一大段结构清晰的函数就写好了。Gemini CLI,Cursor,同样如此。


编程从一个人对抗bug的痛苦过程,变成了一个跟AI一起搭积木的创意游戏。甚至有个很好听的名字叫Vibe Coding(氛围编程,通过提示词与AI协作编程)。


非常多的人在社交媒体上分享自己Vibe Coding的经历,有人表示Claude是「目前用过最强的代码助手」,不过也有经验丰富的开发者分享使用Claude的痛苦经历。


AI写的代码也被一些经验丰富的开发者感觉到「恶心」


Vibe Coding到底行不行?是编程大赛勇夺第二的智能,还是在日常编程里一次次的「被恶心」。就在不久前,一项新的研究给AI编程泼了一盆冷水。


一项反直觉的研究:AI编程,可能更低效


最近,美国AI安全机构METR公布了一项针对Claude 3.5/3.7的实测研究。他们找来了16名经验丰富的开源开发者,让他们在熟悉的项目中使用Claude Code辅助编程。



16名经验丰富的开发者参与实验的结果(红色),以及从左到右经济学家、机器学习专家、和开发者在参与研究过程中和之后的预测结果(绿色)。


结果让很多人惊讶:


开发者使用AI后,完成任务的时间平均增加了19%。


更有趣的是,虽然结果是变慢了,但参与者自我报告的感觉是变快了!他们觉得AI帮了很大的忙,写得更顺了,效率提升了20%。


「AI幻觉」好像转移到了人类身上,变成一种「效率幻觉」,你以为你变快了,但其实你只是感觉变快了。


为什么会这样?研究总结了下面几个原因,


写prompt很花时间,而且经常要改来改去;


Claude给出的代码大多不能直接用,需要手动改逻辑、查bug;


你在「提示-等待-修改」的循环中,陷入了一种「被打断的状态」。


看到这儿,我们也开始好奇,那我们自己用这些工具写点东西,会不会也遇到同样的问题?


于是我们做了一个小实验。


Vibe Coding真的能让你飞起来吗?


我们设计了一个看起来不难、但逻辑不算太简单的小任务:


写一个命令行工具,输入关键词,返回知乎热榜中含该关键词的帖子标题,限制输出条数。


这个任务包含了网络请求、HTML解析、字符串匹配、命令行参数解析,刚好可以试试Claude Code和Gemini CLI的能力。


这里我们使用Gemini CLI来完成这个任务,虽然在命令行里面使用中文真的很违和,但是Gemini CLI和Claude Code都能支持中文的输入。


动作还是非常快的,可能因为任务比较简单,代码生成的过程并不需要等待很久。它首先自动生成了需要安装哪些库,可以用来爬取网页,接着生成了main.py,核心的代码文件。


中间遇到的问题是知乎需要登录,它还自动使用Google帮我搜索了一个公开的API,以及尝试使用其他的工具,但是仍然没有用。最后它告诉我需要我自己输入Cookie。


虽然短时间内它没有帮我完成这个任务,但整个体验的过程确实很舒适。像是指挥实习生去完成工作,实习生做得不好不可以骂,但是Vibe Coding里面能直接骂Gemini CLI。


在使用Kimi K2的Claude Code时,同样的,我们尝试让他从零开始完成一个科研任务。在一个空文件夹中,我告诉Claude Code说,我要发一篇CVPR(计算机视觉顶级会议)的文章,我有一个具体的方向,你需要帮我写代码完成这个实验。


结果是,等到我把Kimi K2的免费API Token都用完了,整个项目还是约等于一个零。他先是自信的给我生成了全部的训练代码、网络结构代码、数据集代码、测试代码等等,然后告诉我说可以运行了。


我说你这个方法根本不Novelty(创新),他说确实是。然后我要他去找最近两年的论文,接下来他就把我的Token全部消耗完了。


由于整个过程还是比较短的时间,我没有做太多的人为干预,完全交给AI去处理。即便是中间遇到了问题,我也是让AI自己去解决。


我觉得,他有一个最大的好处,它几乎可以完全控制这台电脑,不需要我去给他提供额外的上下文信息。


爽感vs效率,AI编程可以鱼熊掌兼得吗?


这次小测试,让我印象最深的是,AI给我的更多是「爽感」,而不是「效率」。


你会感到自己像个编程高手,代码像魔法一样自动冒出来,但一旦报错或逻辑不通,会发现你其实没有真正理解这段代码,也不太知道怎么改。


但我仍然觉得工具本身没有问题,如何使用工具才是决定能否发挥它潜力的重要因素。



来自OpenAI的Sean Grove在AIEWF2025上发表「新的代码」演讲


在OpenAI从事对齐推理工作的Sean Grove在最近的一个演讲里面则提到,在使用AI编程工具时重要的不是提示工程,而是「规范」。


当前的「Vibe Coding」存在一个问题,我们保留了AI生成的代码,却丢弃了包含我们原始意图的提示词。这就像「把源代码撕掉,只对编译后的二进制文件进行版本控制」一样,是不可持续的。


编程的未来不再仅仅是编写代码,而是通过规范(Specification)来定义和传达意图。真正的瓶颈和价值在于结构化的沟通,而「规范」正是这种沟通的最终体现。


有一位参与了文章开头提到的那项研究的开发者,在X上分享了自己参与的经历,他说自己就是那个用了Vibe Coding,效率降低了38%的人。


他认为LLM只是工具,不要期待它是一颗「万能灵丹」。除了只有特定类型的编程任务,才拥有大量干净的训练数据这一缺点之外,还有像是上下文退化、在等待生成的过程中分心、以及LLM代码工具没有准确的成功衡量标准等「长尾问题」。


不过最后他也提到「如果我们想用好这个新工具,就必须理解它(以及我们自己)的短板,并主动去适应。」


那么,真的可以有一种方法,让所有人在使用这些AI编程工具的时候,同时收获效率和爽感吗?


除了这些「糟心」的体验分享,X上也有非常多的用户分享自己使用这些AI编程工具提高生产力效率。


有人说Claude Code可以像你一样去使用你的电脑,他创建了一个Claude.md文档,在这个文档里,告诉Claude如何访问他文件夹中的重要目录。像是用于回忆、日记、想法、代码、待办事项、便签和脚本等不同的文件夹。


此外,他还创建一些自定义命令,用于创建日志的/journal命令,还有用于创建待办事项的/todos命令。Claude Code能够在这些文件里面添加内容时,自动检索它的电脑文件,做到真正的智能助手。


他还分享了使用MCP连接到除了电脑本地资源以外的更多网络信息,能连接Notion、地图软件、在线办公应用等等来进一步提升效率。他说Claude Code几乎能高效的帮助他,完成所有的工作。


对我来说,很明显我们遇到的瓶颈不是模型能力,而是创造力和理解力。


还是忍不住感慨,AI编程的发展实在太快了……


从一开始还是只能在侧边栏里调用GitHub Copilot,到后来丰富的Agentic AI编程工具,像是「Tab」一下的Cursor、WindSurf、Trae,还有亚马逊也在最近推出了Kiro,等等。


今年,再来到了从GUI(图形用户界面)到CLI(命令行界面)的转变,有了Claude Code和Gemini CLI……而这一切竟然就是发生在最近两三年的时间里。


所以,我想对于这样一个飞速发展的技术,我们更多的应该关注它的趋势,而不应该是瑕疵。而趋势的意义从来不在于它今天多成熟,而在于我们是否愿意早点动手试一试,摸清它的边界,找到自己的使用方式。


甚至,推动它变得更好。


欢迎加入APPSO AI社群,一起畅聊AI产品,获取#AI有用功,解锁更多AI新知


我们正在招募伙伴


简历投递邮箱hr@ifanr.com


✉️邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...