这场考试里,北京大学的本科生打败了AI!北大团队打造硬核化学评测题库SUPERChem,174名化学学霸与GPT、Gemini、deeppseek等顶尖AI同场竞技,500道防作弊高难度化学试题,暴露AI科学推理短板。
SUPERChem的诞生,填补了化学领域多模态深度推理评测的空白。
据悉,团队发布这项成果,并非为了证明AI的短板,而是为了推动它走得更远。目前,SUPERChem项目已全面开源。团队希望这套源自北大的“试卷”,能成为全球科学与人工智能领域的公共财富,去催化下一次技术的爆发。或许在不久的将来,当我们再次打开这张试卷时,AI能交出一份满分的答卷。
原标题:人类什么时候能打败AI?北京大学的这场考试里,本科生战胜了AI!