新智元报道
编辑:LRST
【新智元导读】生物医学AI智能体正从「能不能做组学分析」快速进入下一阶段的检验:做出来的结果,能不能撑得住真实的治疗决策?哈佛医学院Zitnik团队的MEDEA 给出了一条明确的技术路线:与其追求更强的骨干大模型,不如在分析流程的每一步嵌入验证机制。该系统在靶点发现、合成致死推理和免疫治疗响应预测三个场景上完成了5679次完整分析,消融实验证实,性能提升的主要来源不是骨干模型的能力差异,而是验证模块的有无。
在理解 MEDEA 的设计逻辑之前,先看一组来自消融实验的数据。
在细胞类型特异性靶点发现任务中,研究团队将MEDEA拆解为三种配置进行对比:仅使用大模型的参数化知识、仅依赖文献检索、以及完整的四模块协同。
结果呈现出清晰的矛盾模式:大模型单独使用时,仅有1.8%的分析选择放弃回答,但跨五种疾病的平均错误率高达69.2%。
它对自身参数化记忆中的生物学知识有着极高的置信度,无论这些知识是否准确。而仅依赖文献的配置方向相反——77.6%的分析选择放弃回答,因为细胞类型特异性的靶点文献确实太过稀缺。
论文链接:https://www.biorxiv.org/content/10.64898/2026.01.16.696667v1.full.pdf
完整的MEDEA通过串联多条证据通路做交叉验证,达到了最高准确率和最低失败率。
这组数据揭示的不只是一个工程问题,而是当前组学智能体面临的结构性挑战:大模型的参数化知识覆盖广但不可靠,文献证据可靠但覆盖窄,任何单一通路都无法同时满足覆盖率和准确率的要求。
MEDEA的技术路线
全流程验证
针对上述矛盾,MEDEA采用了四模块协同的架构,核心设计原则是在分析流程的每一步都内嵌验证,而非仅在最终输出时做判断。
研究规划模块负责将自然语言目标转化为可执行的研究计划。转化完成后,该模块会进行两轮检查:上下文验证(每个分析步骤中的细胞类型、疾病等生物学实体是否与所选工具兼容)和完整性验证(计划的技术可行性和逻辑一致性)。
论文展示了一个典型场景:用户要求分析肝星状细胞的靶点,但所选单细胞基础模型的预训练数据中不包含该细胞类型,上下文验证检测到不兼容后,引导智能体从近似的可用细胞类型中选择替代方案。
分析执行模块将研究计划翻译为代码并执行,但在执行前后各加一层验证。执行前检查语法和接口兼容性,执行后审计数据来源和输出与计划的一致性。这意味着一个分析即使代码运行成功,如果输出偏离了研究计划的预期,也会被标记并触发修正。
文献推理模块在检索完成后,不直接使用检索结果,而是先对每篇论文在物种、疾病、细胞类型等维度做相关性筛选,过滤掉与当前分析上下文不相关的文献,再进行证据综合。
多轮讨论模块以三个大模型组成的评审团,对分析执行、文献推理和骨干模型三条证据通路的输出做加权投票和多轮辩论。当证据收敛时给出结论;当证据分裂或不足时,选择校准后的弃权——即不回答。
MEDEA的工具空间包含20个工具,其中4个是机器学习模型(PINNACLE、TranscriptFormer、COMPASS 和 OpenScholar)。值得注意的是,这些基础模型在架构中是被智能体调用的工具,而非骨干模型。
智能体根据疾病上下文决定调用哪个模型——受限工具实验表明,PINNACLE在类风湿关节炎等疾病上表现更优,TranscriptFormer 在肝母细胞瘤等场景上更优,反映了两类单细胞基础模型在网络拓扑和表达动态两个维度上的信号互补性。
三个治疗发现场景的实验结果
场景一:细胞类型特异性靶点发现。
2,400次分析,覆盖类风湿关节炎、1型糖尿病、干燥综合征、肝母细胞瘤和滤泡性淋巴瘤五种疾病及29种细胞类型。MEDEA比单独使用大模型的准确率最高提升45.9%
该场景的核心挑战在于细胞类型粒度。大模型在多步分析中会逐步模糊细胞类型——例如将用户指定的「初始型 CD4+ αβ T 细胞」简化为「CD4+ T 细胞」。在类风湿关节炎中,初始型与效应记忆型CD4+ αβ T细胞的致病机制截然不同,模糊后的靶点推荐会指向错误的生物学逻辑。加入上下文验证后,MEDEA 在髓样树突细胞上的准确率提升 28.9%,在初始型CD4+ αβ T细胞上提升 21.7%。
场景二:合成致死推理
2,385次分析,覆盖MCF7、MCF10A、MDAMB231、CAL27、CAL33、A549、A427七个癌细胞系。MEDEA 比骨干大模型最高提升21.7%(MCF7)。
该场景下MEDEA表现出三种有价值的行为模式:在至少 323 个大模型答错的案例中给出正确判断(纠错),在 175 个大模型选择弃权的案例中给出正确答案(补漏),在 141 个大模型犯错的案例中选择弃权而非跟着错(止损)。系统整合了 DepMap 基因共依赖分数与通路富集分析,对基因对联合抑制是否会选择性杀死癌细胞做出可追溯的判断。
场景三:免疫治疗响应预测
894 次患者级别分析,基于IMvigor210膀胱癌队列的298名患者。MEDEA比大模型最高提升23.9%。在高肿瘤突变负荷、非炎症型微环境这一最困难的亚组中,MEDEA 修正了底层机器学习模型 50.9% 的误分类。
论文展示的一个患者案例清晰呈现了多源证据冲突时的决策过程:一名肿瘤突变负荷为19.0的男性患者,GPT-4o和Claude 3.7 Sonnet均预测「响应」。但 MEDEA调用COMPASS分析肿瘤转录组后发现 T 细胞耗竭严重、B 细胞浸润极低——微环境呈功能失调。
与此同时,文献检索支持「高突变负荷→好响应」的统计关联。两条证据直接矛盾。经多轮讨论调和后,系统判定微环境功能障碍信号的优先级高于突变负荷的统计关联,预测「不响应」。患者实际结局为疾病进展。
消融实验的关键结论
消融实验的核心发现值得反复强调:MEDEA的性能提升并非来自更强的骨干大模型。 无论使用SOTA LLM作为骨干,加入验证模块后性能显著提升,去掉后显著下降。
这意味着,在当前大模型能力水平下,组学智能体的性能瓶颈可能不在推理能力,而在过程可靠性。这一判断如果成立,对整个生物医学智能体领域的资源分配和设计优先级都有重要启示。
MEDEA 的输出不是一个标签或分数,而是一份结构化的分析报告——包含研究计划、每步工具调用与输出、文献检索与相关性评分、证据调和的推理链路。这种可审计的输出形态,对于需要向团队或管理层解释「为什么推荐这个靶点」的实际场景具有直接价值。
代码、评测基准均已开源。模块化设计支持选择性集成——可以只使用研究规划模块做计划验证,也可以只使用文献推理模块做文献筛选。
论文同时指出了若干局限性:评测基准依赖已有的单细胞图谱和特定患者队列,部分评测依赖大模型评审,工具本身编码了细胞类型粒度和批次结构等假设,共识模块的多模型评审团存在关联错误的风险。
在药物发现场景中,一个自信的错误答案往往比一句诚实的「我不确定」代价更高。MEDEA 的校准弃权机制——在证据不足时选择不回答——或许是这项工作中最具实际价值的设计。
参考资料:https://www.biorxiv.org/content/10.64898/2026.01.16.696667v1.full.pdf
秒追ASI