SpatialAgent 作为新一代空间生物学智能体,展现出了非凡的能力,足以比肩人类科学家。它能够快速处理海量的空间生物学数据,从复杂的实验结果中挖掘出关键信息。凭借其强大的算法和深度学习技术,SpatialAgent 可以准确地分析细胞的空间分布、基因表达等特征,为研究提供精准的指导。在空间生物学领域,它就像一位不知疲倦的研究者,不断探索未知,与人类科学家携手共进,推动着这一领域的快速发展,为人类健康事业做出重要贡献。
本文来自微信公众号:集智俱乐部 (ID:swarma_org),作者:彭晨
摘要
人工智能的进步正在改变科学发现的方式,然而空间生物学这一解析组织内分子结构的领域仍受制于劳动密集型的工作流程。在此,我们推出了SpatialAgent,这是一款专为空间生物学研究打造的完全自主的人工智能智能体。SpatialAgent将大语言模型与动态工具执行和自适应推理相结合。SpatialAgent涵盖了整个研究流程,从实验设计到多模态数据分析以及假设生成。在包含来自人类大脑、心脏以及小鼠结肠炎模型的两百万个细胞的多个数据集上进行测试,SpatialAgent的表现超越了最佳的计算方法,在关键任务上与人类科学家的表现相当甚至更优,并且能够跨组织和物种进行扩展。通过将自主性与人类协作相结合,SpatialAgent为空间生物学中的人工智能驱动发现开创了新的范式。
关键词:空间生物学(spatial biology)、自主AI智能体(autonomous AI agent)、大语言模型(LLM)、基因面板设计(gene panel design)、细胞类型注释(cell type annotation)、细胞间相互作用(cell-cell interaction)、多模态数据分析(multimodal data analysis)
彭晨丨作者
论文题目:SpatialAgent:An autonomous AI agent for spatial biology
发表时间:2025年4月6日
论文地址:https://www.biorxiv.org/content/10.1101/2025.04.03.646459v1
空间生物学(spatial biology)是近年快速发展的领域,旨在解析生物分子和细胞在组织内的三维空间分布及其功能关联,是帮助我们理解癌症、开发新型治疗方法的关键技术。然而,传统研究依赖人工操作和碎片化计算工具,效率低且难以标准化。近日,大模型与生物医学社区成员王瀚宸团队发表预印本文章,提出首个专为空间生物学设计的自主AI智能体SpatialAgent。该系统整合大语言模型(LLM)、动态工具调用和自适应推理能力,在基因面板设计、细胞注释等任务中超越现有算法和人类专家,甚至能生成科学假设,为生物医学研究开辟了人机协作的新模式。
集智俱乐部「AI+Science第二季」读书会中,黄柯鑫和王瀚宸带来了机器学习如何革新生物医学的讨论,尤其关注基因和扰动实验与转录组学。感兴趣的朋友可以扫码查看视频
空间生物学的瓶颈与AI智能体的机遇
空间生物学依赖高复杂度技术(如空间转录组学、MERFISH)生成海量数据,但分析流程高度碎片化。例如,基因面板设计需综合单细胞测序数据、标记基因数据库和生物学知识;细胞注释需结合分子表达、空间坐标和病理图像。传统方法依赖人工迭代,耗时且易受主观影响。
近年来,基于LLM的自主智能体(autonomous agent)在科学领域崭露头角。这类系统能通过“感知-规划-行动”循环自主完成任务,并动态调整策略。研究团队敏锐意识到:将LLM的推理能力与空间生物学的工具链结合,可能彻底改变这一领域。
SpatialAgent的核心架构
SpatialAgent由三大模块构成:
记忆模块(Memory):存储长期目标(如“设计前列腺癌小鼠模型的500基因面板”)和短期执行步骤,确保任务连续性。
规划模块(Planning):通过链式推理(chain-of-thought)将复杂任务拆解为可执行步骤,例如先检索数据库、再评估基因重要性,最后优化面板组合。规划过程可调用预定义模板(如标准注释流程),也能动态生成新策略。
行动模块(Action):执行具体操作,包括调用工具(如Scanpy预处理数据、Harmony整合数据集)、生成代码或与外部数据库(如CellMarker2、PanglaoDB)交互。
系统支持全自动模式和协作模式。前者无需人工干预,后者允许科学家实时调整任务,例如在基因面板设计中加入特定通路基因,或修正注释结果。这种灵活性使其既能独立运行,又能融入现有科研流程。
超越人类:基因面板设计的革命
基因面板设计是空间组学实验的关键步骤,需在有限基因数内最大化生物学信息。传统方法依赖方差筛选(HVG)或专家经验,但往往忽略空间分布特征。
研究团队在人类背外侧前额叶皮层(DLPFC)数据集中测试SpatialAgent。当用户输入“设计100个基因的面板”时,系统自动执行以下流程:
从CZI单细胞数据库中匹配参考数据集;
提取细胞类型标记基因;
跨数据库(PanglaoDB、CellMarker2)验证基因重要性;
结合空间表达模式优化选择。
图2.利用SpatialAgent设计基因面板。(a)分步智能体自主工作流程。在背外侧前额叶皮层(DLPFC)中设计基因面板的spatialagent工作流的前几个步骤示意图。(b-f)spatialagent在细胞类型和空间坐标预测方面优于已建立的计算基线。(b,c)细胞类型预测精度(b,y轴)和相对于计算基线(c,x轴)的改进,通过spatialagent或几种既定方法设计50-500个基因面板。箱形图显示中位数(中线)、四分位数范围(箱形)和1.5倍四分位数范围(须形)。圆圈表示异常值。结果在所有12个DLPFC样本中平均运行10次。(d,e)空间坐标预测性能(d,y轴)和相对改进(e,x轴)。(f,g)SpatialAgent、人类科学家和混合方法(其中SpatialAgent结合了人类设计的模板)的细胞类型预测精度(f,y轴)和相对改进(g,x轴)。(h,i)SpatialAgent、人类科学家和混合方法的空间坐标预测性能(h,y轴)和相对改进(i,x轴)。
结果显示,SpatialAgent设计的基因面板在细胞类型预测准确率上比最佳算法(Spapros)高6-19%,在空间坐标预测(R²)上提升达47%。更惊人的是,其表现超过90%的人类专家,且耗时仅30分钟(人类平均需8小时)。当与人类专家协作时,混合设计的准确率进一步提升,55%的案例优于纯AI结果,印证了“人机协同”的潜力。
细胞注释:从混乱到标准化
空间转录组数据的细胞注释需整合分子表达、空间位置和形态学信息,但现有工具(如CellTypist)仅依赖基因表达,忽略空间上下文。研究团队在发育中的人类心脏数据(14.2万单细胞+150万MERFISH细胞)中对比SpatialAgent与7位人类专家。结果显示:
SpatialAgent的注释与金标准(作者标注)的一致性达82.3%,超越CellTypist(45.7%)和GPT-CellType(81.1%);
在组织微环境(niche)注释中,系统通过整合解剖图像和分子数据,准确划分心房、心室等区域,性能与最优人类专家相当;
效率提升显著:注释10万级细胞仅需2小时,成本仅为人工的1/20。
一个典型案例是神经元与成纤维细胞的误判:传统工具因胶原基因高表达将某集群标注为“心脏成纤维细胞”,而SpatialAgent通过分析神经标记基因(NRXN1)和空间分布,将其纠正为“神经元”,与金标准一致。这种多模态推理能力,正是AI智能体的独特优势。
图3.SpatialAgent的细胞类型和组织生态位注释。(a)工作流程。Spatialagent集成多模态信息(即解剖图像,merfish数据)进行组织注释,然后通过集体智能进行样本聚合和细化。(b-d)单元格类型注释。(b)由GPTCellType、CellTypist(具有代表性的人类科学家(,准确性第二)、SpatialAgent和原始研究的注释着色的细胞的UMAP。颜色表示八种主要的细胞类型,其中“VSMCs”表示“血管平滑肌细胞”。(c)标注性能:精度、宏精度、跨方法微精度(y轴)。(d)混淆矩阵,将来自mcelltypist,GPTCellType,human scientist和spatialagent的注释与ground truth进行比较,共享相同的着色规模0-1。(e-f)组织位注释。(e)由SpatialAgent、人类科学家和原作者标注的组织生态位。其中‘unmatched’表示与作者注释不对应的区域。(f)跨方法(x轴)的精度、宏观精度和微观精度(y轴)。(g,h)费用和时间。spatialagent和人类科学家(x轴)的估计成本(g,y轴,USD,对数尺度)和时间(h,y轴,hr)。
从数据到发现:假设生成的突破
传统分析止步于描述性结果,而SpatialAgent能进一步生成科学假设。团队在小鼠结肠炎模型中测试了这一能力。系统自主执行以下分析:
使用LIANA+框架量化配体-受体互作;
通过Tensor-Cell2cell识别跨条件的通信模式;
整合PROGENy通路分析生成机制假说。
结果不仅复现了原文发现的炎症相关成纤维细胞(IAF),还揭示了TGF-β信号和IL-11介导的基质重塑——这一机制在原文中未被强调,但与纤维化研究的其他证据高度吻合。更值得一提的是,系统生成了一份7000字的分析报告,包含可验证的分子靶点和治疗建议,展现了AI驱动发现的潜力。
从实验室到临床:前列腺癌案例
为验证实用性,团队将SpatialAgent接入真实湿实验。在针对前列腺癌小鼠模型的Xenium 5K基因面板优化任务中,系统从参考单细胞数据中筛选出100个补充基因。新增基因显著提升了基质-免疫互作信号的解析能力:
标准面板仅检测到Jag1-Notch2等常见通路;
优化面板新增层粘连蛋白-整合素信号网络,揭示了基底上皮细胞与成纤维细胞的全新交互模式;
聚类指标(Silhouette score)提升32%,关键通路富集度提高4倍。
这一案例证明,AI智能体不仅能加速分析,还能优化实验设计,缩短“数据-洞见-验证”的闭环周期。
挑战与未来:AI智能体的科学边界
尽管成果显著,SpatialAgent仍有局限:首先,领域知识深度不足,对于罕见细胞类型或新兴生物过程(如新型细胞死亡方式)的识别较弱;其次,大模型存在幻觉风险,与人类类似,LLM可能生成不合理推论,需引入不确定性量化;最后,未来需开发“专家智能体”分工架构,例如专攻信号通路的子模块等,开展多智能体协作。
SpatialAgent的诞生标志着空间生物学进入“自动化2.0”时代。它不仅是工具的效率升级,更重新定义了人机协作的边界——科学家得以从重复劳动中解放,专注于创造性假设;而AI智能体凭借不知疲倦的推理能力,将隐藏在海量数据中的规律转化为可行动的知识。下一代AI智能体可能成为“主动合作者”:不仅回答问题,还能提出反事实实验、设计验证方案,甚至撰写基金申请书。结合实时成像和临床数据,这类系统有望重塑生物医学研究的范式。
AI驱动的计算医学前沿研讨会
生命科学与医学领域正经历着深刻的智能革命。大语言模型与多智能体技术快速发展,正在推动形成计算医学(Computational Medicine)新范式,为精准医疗、疾病诊断和健康管理开辟全新路径。AI驱动的计算医学在自主探索、跨尺度数据融合、个体建模与数字孪生等方面快速发展,然而跨学科合作与方法论整合仍是重要挑战。
为此,DAMO开发者矩阵(由阿里巴巴达摩院和中国互联网协会联合发起)与集智俱乐部共同主办“AI驱动的计算医学前沿:从科学发现到数字孪生”系列研讨会,邀请多位国内外前沿学者与业界专家分享交流。系列研讨会将系统梳理计算医学与AI交叉领域的最新进展,自2025年7月6日(周日)开始,共5大议题分享与讨论。欢迎相关研究、应用领域的朋友报名参加,共同推动生命科学与医疗健康的智能未来!
本活动免费报名,实行审核入群制,请填写信息后入群参与交流并获得每期活动信息。
详情请见:AI驱动的计算医学前沿研讨会开启报名:从科学发现到数字孪生