本文来自微信公众号:集智俱乐部 (ID:swarma_org),作者:刘培源
导语
AI虚拟细胞(AIVC)旨在借助海量生物数据与AI模型,精确模拟细胞在各种基因或药物扰动下的响应状态。最近两年,AIVC正快速渗透到生命科学与医药研发领域,但仍面临数据类型繁杂、模型难以泛化、缺乏统一标准等制约。2025年6月,Arc Institute发起首届“虚拟细胞挑战赛”,通过构建统一的数据基座与测评标准体系,引导细胞建模走向规范。
本文从Arc挑战赛的数据与测评切入,尝试梳理全球虚拟细胞领域的数据生态。在近期的「AI驱动的计算医学研讨会」中,我们探讨了多个尺度上生命系统建模的进展,AIVC是其中最热门的方向之一。目前全球顶尖科研机构和创新企业纷纷入局,大规模、高质量、融合的生命数据正在快速积累,加速虚拟细胞的数据-模型-实验闭环。随着Arc挑战赛逐年深入,我们有望迎来细胞尺度上生命建模的AlphaFold时刻。
关键词:AIVC,数据基座,观测数据,扰动数据,单细胞转录组,STATE模型
刘培源丨作者
2025年6月,Arc Institute发起了首届“虚拟细胞挑战赛”(Virtual Cell Challenge),引起了AI和生物医学界的广泛关注[1]。一石激起千层浪,因为Arc以竞赛的形式重新定义了数据和评测范式:我们应该用什么数据来训练模型、如何测量模型表现、以及以怎样的标准判定优劣,从而推动人工智能虚拟细胞(Artificial Intelligence Virtual Cell,AIVC)迈向新阶段。
图1:Arc虚拟细胞挑战赛概览。参赛者通过开发模型,来预测遗传和化学扰动,对于细胞种群的转录影响。即给定未经扰动的细胞状态,任务要求模型通过少量已知扰动响应数据,在新细胞(H1人胚胎干细胞系)中预测未知扰动的基因表达变化。评测基于差异表达基因预测准确性、扰动效应区分能力及整体表达误差三个指标。
Arc联合创始人Patrick Hsu将其比作蛋白质结构预测领域CASP竞赛的开端,而虚拟细胞挑战赛希望走出类似路径,加速诞生“虚拟细胞领域的AlphaFold”[2]。
6月在《Cell》发表的评论文章中,Arc合作团队更提出“虚拟细胞图灵测试”的愿景:终极目标是让AI对细胞扰动反应的预测与真实实验难以区分。尽管这一目标仍在远方,但Arc用其精心设计的开放数据基准和评测框架,踏出了扎实的第一步[3]。
站在2025年年中的时间点,我们可以看到,海量的转录组数据是本次Arc挑战赛的核心角色,而广阔的数据生态将支撑AIVC的持续发展。在AI Agent崛起的时代,数据的质量、规模和多样性,将成为基础性乃至决定性的力量。
1.数据基座:从观测到干预
AIVC的基本过程,是构建能够反映细胞内部调控机制、具备泛化能力的模型。要让AI真正具备预测细胞扰动响应的能力,仅有观察性数据远远不够。过去绝大多数公开的单细胞转录组数据都是观测性的,只描绘了细胞天然状态下基因表达的静态图谱,无法支持细胞内部因果机制的有效推断。
Arc Institute意识到,要实现虚拟细胞模型真正的因果预测能力,必须构建并引入大规模的干预型数据作为训练基石。为此,他们在2025年2月发布了一个空前庞大的开放数据资源组合——Arc虚拟细胞图谱Atlas,包含观测数据与主动干预数据,单细胞数据总规模已超过3亿个细胞[4]。
Atlas汇聚了全球范围内异质且分散的单细胞数据,经过统一标准化处理,成为AI可直接读取的标准资源。Atlas的首批基础数据集包括:
Tahoe-100M药物扰动数据集:由生物技术公司Tahoe(前称Vevo Therapeutics)与Arc合作生成,包含约1亿个单细胞,涵盖50种癌症细胞系对超过1100种小分子药物处理后的转录响应,条件总数高达6万余个[5]。
scBaseCount观测数据集:这是由Arc自主开发的智能AI Agent从NCBI的SRA公共数据库自动爬取、标准化处理并统一质控注释而成的数据集,囊括21个物种、72个组织,总规模超过2亿单细胞转录谱,且持续更新[6]。
通过AI驱动的统一质控、预处理与注释流程,Arc最大限度地消除了不同实验批次、测序平台之间的技术噪音,使这些异源数据得以首次真正意义上的融合。这标志着单细胞数据整合进入了新的阶段:研究者无需再费力地从头清洗、转换繁杂的数据,便可直接使用高质量的公共资源进行分析。就像计算机视觉领域的ImageNet一样,成为开放数据“底座”。
同时,Arc将Atlas数据以AnnData的H5AD标准格式和CC0公共协议开放共享。这意味着任何人都可以自由获取这3亿细胞级的数据,用于模型预训练和重复分析,大大降低了进入AIVC研究的门槛。
然而,仅有大量的观测数据还不足以支撑真正的因果模型训练。Arc挑战赛的关键在于专门设计了干预型基准数据集。他们选择在人类H1胚胎干细胞(H1 human embryonic stem cells,H1 hESC)上进行CRISPR干扰(CRISPR interference,CRISPRi)实验,产生了约30万个单细胞的高质量训练、验证和测试数据集[7]。
选择H1细胞的原因有二:其一,胚胎干细胞具有多能分化潜能,基因扰动后容易表现出丰富多样的转录变化;其二,H1细胞作为新背景,有助于考察模型对未见细胞类型的泛化能力。
图2:Arc挑战赛的目标基因筛选。
Arc研究团队首先对大约2500个候选基因进行了预筛选实验,根据敲低(Knockdown)后引起的转录变化强度将其分为三类:
强效应:每个扰动引起>100个差异表达基因
中等效应:每个扰动引起10–100个差异表达基因
可忽略效应:几乎不引起明显的转录变化
随后,Arc团队在此基础上精选出300个基因作为最终扰动数据集,涵盖了从无明显变化到强烈变化的不同效应程度,并在每个效应强度类别内进一步根据转录组表型进行聚类,以确保所选扰动能够全面覆盖尽可能多样的细胞响应模式(即表型多样性)。同时,大部分所选基因在其他细胞类型的公开扰动数据集中有明确记录。这意味着,这些基因并非随机选择,而是特意覆盖了不同强度的扰动效应,并在外部已有数据支撑,便于参赛者利用已有知识来训练和验证模型对跨细胞背景的泛化能力[7]。
在技术规格方面,Arc的数据生产具有显著优势。他们使用10x Genomics最新的Chromium GEM-X Flex高通量单细胞转录组平台进行测序,每个基因扰动平均测序约1000个单细胞,每个扰动条件下细胞获得的独立转录本数(UMIs)中位数约为5万个。这种测序深度远高于此前公开的单细胞数据集,例如典型的Perturb-seq实验中每个扰动通常仅测量几十到几百细胞、每细胞仅能检测数千个转录本。
前所未有的数据品质,要求虚拟细胞模型不仅能准确捕捉扰动后的基因表达整体趋势,更能揭示细胞群体内部的真实异质性及长尾特征[8]。
2.Arc挑战赛基准评测:从均值到分布
传统上,模型的预测能力一般通过其预测值与真实值之间的均值误差(如均方误差)来评价。然而,Arc虚拟细胞挑战赛创建了一套更关注表达分布预测的评测体系,推动模型摆脱对均值拟合的依赖,转向更精细的预测评估。
这套体系包括三个具体指标[9]:
差异表达基因集匹配度(Differential Expression Score,DES):差异表达基因集匹配度DES衡量模型预测扰动引起的显著差异表达基因(Differentially Expressed Genes,DEGs)集合的准确性。具体而言,先对每个扰动分别在真实数据和模型预测数据中进行差异表达分析(如Wilcoxon秩和检验及FDR校正),再计算两组匹配度名单的重合比例。如果模型漏掉了关键响应基因,或错误预测过多无关基因,匹配度得分就会降低。该指标明确关注模型捕获关键基因变化的能力[9]。
扰动分布区分度(Perturbation Discrimination Score,PDS):扰动分布区分度PDS用于评估模型生成的细胞表达分布能否有效区分不同扰动。具体做法是:首先计算每个扰动条件下所有细胞的表达均值(pseudobulk向量),然后比较模型预测的扰动均值与所有真实扰动均值之间的距离,检查真实扰动在预测距离排序中的排名位置。如果预测与真实扰动最为接近,则该扰动的区分度得分为1;否则根据排名远近赋予0到1之间的得分。简言之,即使两个扰动的均值变化相似,区分度关注模型能否通过表达分布的细节差异区分不同扰动的身份。
全局表达误差(Mean Absolute Error,MAE):全局表达误差MAE则是基础的全局预测精度指标,计算方法为:对每个扰动,计算模型预测细胞群体表达的整体均值与真实均值之间的绝对差,再对所有扰动取平均。误差指标并不强调具体基因的生物学效应,而是作为模型全局准确性的基本保障,确保模型在非差异表达基因上也保持一定的预测可靠性。
比赛最终成绩以相对基线模型的平均提升来计算:分别看模型在匹配度、区分度、误差上相比基线的改进百分比,再取平均。
图3:Arc挑战赛的评测框架。包括:(1)差异表达基因集匹配度(DES):评估模型预测关键差异表达基因的准确性;(2)扰动分布区分度(PDS):衡量模型区分不同扰动条件的能力;(3)全局表达误差(MAE):提供基础的预测精度保障。匹配度高,意味着更符合先验知识,具有更高的生物学可解释性;表达误差低,意味着具备刻画复杂模式的能力,具有更好的表达性(预测精度更高)。该评测框架旨在获得平衡。
Arc定义的基线为“细胞均值模型”,即对任意扰动条件,均预测为训练集中所有扰动细胞表达的整体均值。这意味着,仅做均值预测的简单模型无法获得较高的匹配度和区分度得分,只有准确捕获不同扰动的表达分布差异,才能显著超越这一基线。换言之,评测标准本身倒逼模型“学习分布而非学习均值”。
这种评测方式的调整使得一些过去表现尚可的简单模型(如线性回归类模型)在新评测体系下不再具有优势,甚至成为最低标准的基线。社区逐渐达成新的共识:要在匹配度和区分度上取得好成绩,模型必须具备生成式、分布层面的预测能力。
除了指标本身,Arc还将竞赛设计为年度开放挑战,设有实时排行榜,每年引入新的数据集和任务,同时保持评测标准的连贯性。这种形式类似于蛋白结构预测领域著名的CASP竞赛,CASP超过二十年的持续迭代支撑了AlphaFold系列工作的突破。CASP自1994年开始,每两年一届[10]。在2020年的CASP14中,AlphaFold 2获得了约92.4分(满分100分)的全球距离测试分数(GDT-TS),这一水平接近实验精度[11]。
虽然距离虚拟细胞AlphaFold时刻尚且遥远,但Arc构建的统一数据基准和评测体系,为整个社区向该目标稳步前进提供了具体可行的路线图。
3.AIVC的数据版图:观测数据与扰动数据
近年来,AI细胞建模领域涌现了多种重要数据资源和前驱研究,为AIVC提供了肥沃土壤。概括来说,AIVC所需的数据可分为两大类:一类是观测性细胞图谱数据,描绘各种细胞类型在稳态下的分子特征分布;另一类是干预性扰动数据,记录细胞在特定操作(基因编辑、药物处理等)下发生的变化。两者相辅相成——前者提供生物系统的背景参照,后者揭示因果扰动的功能结果。
首先,在观测性单细胞图谱方面,最具代表性的是由CZI(Chan Zuckerberg Initiative)资助的Tabula Sapiens计划。Tabula Sapiens构建了一个跨组织、跨细胞类型的人类细胞参考图谱:收集了来自24位正常人体供者、28个组织器官的单细胞转录组,总计超过110万细胞。这是人类多器官单细胞图谱的初稿,被誉为“基准级”的参考数据集[12]。
通过Tabula Sapiens和相关的人类细胞图谱计划(Human Cell Atlas等),研究者首次系统地描绘了数百种细胞类型在正常生理条件下的基因表达“底稿”。这些数据为AIVC提供了普适的起点:模型可以从中学习不同细胞类型的基因表达分布,建立对“健康细胞状态”的基本认知。
举例来说,CZI团队开发的TranscriptFormer模型正是基于跨物种、跨组织的上亿细胞观测数据训练而成,它尝试以生成式Transformer来捕获普适的细胞表达分布[13]。
可以说,没有像Tabula Sapiens这样广覆盖的基线数据,就难以谈及构建“通用细胞表示”(Universal Representation)的AI模型。这也是2024年12月斯坦福、Genentech、CZI等机构的顶尖科学家在《Cell》发表“AI虚拟细胞研究倡议”(How to build the virtual cell with artificial intelligence:Priorities and opportunities)时所提出的观点[14]。
图4:2024年《Cell》观点文章首次为AIVC下定义:一个多尺度、多模态、基于大型神经网络的模型,能够表征和模拟分子、细胞和组织在不同状态下的行为。AIVC提供跨物种、跨条件及跨尺度(分子、细胞、多细胞)的通用细胞状态表征,可整合多种数据模态。其通用性使得该表征能推广至未观测的细胞状态,指导未来数据生成,且对具体数据类型不敏感。此外,AIVC还能模拟细胞在自然(如分化、遗传变异)或人为扰动下的动态转变,实现低成本甚至实验室无法实现的虚拟实验。AIVC的应用需要开放获取、计算资源共享及高效的人机交互,以推动科学共同体的发展[14]。
然而,观测数据只能告诉我们“细胞自然状态下的样子”,却无法说明细胞经受干预后的具体变化。为了弥补这一不足,生命科学领域近年来开展了大量干预型大数据实验。
Broad Institute的科学家早年启动了著名的Connectivity Map(CMap)项目,这是最早大规模细胞扰动数据资源之一。CMap采用高通量L1000基因表达平台,系统测量了数以千计的基因敲低或小分子药物处理对细胞基因表达谱的影响,绘制出不同扰动条件之间的关联“连接地图”。截至2017年,CMap已累积超过150万份基因表达谱数据,涵盖约5000种化合物和3000种基因扰动,覆盖多个常用的人类细胞系。虽然CMap的数据是bulk细胞水平而非单细胞级别,但它首次实现了基因-药物-疾病表型间的规模化映射,成为研究细胞扰动响应的重要参考数据库[15]。
CMap证明了一个理念:大规模扰动数据可以挖掘出许多过去零散实验难以察觉的生物模式,从而为AI模型提供宝贵的学习素材。
随着单细胞测序技术的兴起,研究者发展出Perturb-seq技术,这种方法将CRISPR基因编辑与单细胞RNA测序结合,允许同时对数千个基因分别进行扰动,并精确捕获每个单细胞的扰动响应信息。Perturb-seq解决了传统逐个基因扰动实验规模有限的问题,成为新一代大规模功能基因组筛选的重要工具[16]。
2022年,Replogle等人利用Perturb-seq技术在K562(白血病细胞)和RPE1(上皮细胞)两种细胞系中,对约2500个基因进行了CRISPR干扰(CRISPRi),最终获得约250万个单细胞的扰动转录组数据。平均每个基因扰动对应数百个细胞,测序深度(UMIs)中位数在数千左右。虽然单个扰动条件下细胞数量有限,但整体横跨了大量基因,提供了扰动响应广泛的信息[17]。此外,近年还有多项Perturb-seq变体研究,包括Nadig等人2025年在Jurkat T细胞和HepG2肝细胞中的必需基因筛选等实验,进一步扩展了扰动数据覆盖的细胞类型和研究问题[18]。2025年6月,一家新创公司Xaira Therapeutics发布了迄今规模最大的Perturb-seq数据集X-Atlas/Orion,包含约800万单细胞,覆盖几乎所有人类蛋白编码基因的CRISPR干扰,并对每个细胞进行了深度测序(>1.6万UMIs)[19]。
不仅是基因扰动,小分子药物扰动也逐渐进入单细胞筛选时代。例如,Srivatsan等人开发的Sci-Plex技术通过化学标签实现多种药物条件下单细胞转录组的并行测量[20]。Parse Biosciences公司发布了千万级PBMC(外周血单核细胞)数据集,测量了90种细胞因子对免疫细胞的影响[21]。
将上述观测和干预数据资源横向比较,可以看出各有侧重:
Tabula Sapiens等细胞图谱提供了对正常生物系统广覆盖的静态描绘。它们细胞类型丰富(上百种细胞),但未包含人为扰动,因此适合作为模型的背景知识和表型分类基准,却无法直接用于学习因果关系[12]。
Perturb-seq及类似扰动数据则提供了针对特定细胞系或条件下的功能响应。它们直接揭示因果效应,但通常局限于某几个实验系统(例如仅限于肿瘤细胞系或免疫细胞系)且每个条件的数据量相对有限,需要与其他数据结合以提高泛化性[16]。
Arc左右开弓,着重投入“一批细胞系×上千扰动”的广谱药物数据,辅以“一种细胞×多种扰动”的精细基因数据。最新的STATE模型的结果已经证明,这种高质量数据的投入产出比是惊人的:大量且高精度的数据会带来模型性能的非线性提升[22]。
4.全球虚拟细胞数据生态的早期玩家
在打造虚拟细胞的数据生态系统方面,Arc Institute并非孤军奋战。国际上一些顶尖机构与组织同样在布局这一新兴领域,只是切入角度各有侧重。
Arc Institute是成立于2021年的非营利研究机构,由Stripe联合创始人Patrick Collison及两位科学家Patrick Hsu(伯克利助理教授、Arc核心研究员)与Silvana Konermann(斯坦福助理教授、Arc执行主任)共同创建,初始捐赠资金高达6.5亿美元。它通过高度灵活的独立实验室(Core Investigator)模式运作,并且亲自参与大规模数据生产(参与Tahoe-100M,并整合公共数据构建scBaseCount)。目前,斯坦福大学、加州大学旧金山分校、加州大学伯克利分校已经与Arc建立制度化的合作,研究人员在高校任职的同时,可以获得长期经费与技术平台支持[23]。
Arc在生物数据积累与模型训练上均颇有积累。在发布Arc虚拟细胞图谱Atlas的2025年2月,Hsu领衔的团队发布了基因组基础模型Evo2(40B参数、1Mb上下文)[24]。该模型基于生物领域的12.8万个基因组的9.3万亿个碱基对进行训练,能够预测变异效应。可以预见,Arc在发起虚拟细胞挑战赛后,会不断引入更多类型、更大规模的数据并拓展可操作空间,进一步强化其数据生产者和议题设置者的双重角色。
在AIVC玩家中,Broad Institute是老牌的基因组学和计算生物学研究机构,曾经支持了张锋等在CRISPER基因编辑技术方面的革命性工作。Broad成立于2004年,由MIT与哈佛大学共同发起,并获得了Broad夫妇巨额捐赠。Broad在创始之初就极其重视数据基础,可以说是开创了功能基因组“大数据”的先河。早在2006年,Broad就作为CMap牵头方,提出了大规模桌扰动数据绘制细胞连接网络的愿景。除了CMap,它还发起成立了全球规模最大的公开人类基因组变异数据库(gnomAD),以及癌症基因组图谱(TCGA)等[25]。
2025年8月,Broad Institute的Anne E.Carpente(Cell Painting技术提出者之一)与Shantanu Sing领衔的团队在《Nature Methods》发表文章,推出了覆盖超过15000个基因扰动后的全基因组尺度细胞形态学图谱。他们通过整合基因扰动与Cell Painting技术系统绘制了基因-表型关系图谱。这进一步把虚拟细胞数据从单细胞转录组数据,拓展到多模态数据维度(如高内涵成像)[26]。
Chan Zuckerberg Initiative(CZI)成立于2015年,是由Facebook创始人Mark Zuckerberg与Priscilla Chan创立的私人慈善机构。在科学领域以“大规模资助与技术基础设施建设”著称,着力于打造全球共享的开放科学平台,包括人类细胞图谱(Human Cell Atlas)、单细胞数据共享平台CELLxGENE。并且,CZI还长期资助一系列开源软件项目,包括著名的数据科学工具numpy、pandas、scikit-learn等,它支持开发的napari开源软件是目前最受欢迎的生物医学图像分析和机器学习工具之一[27]。
自2023年开始,CZI成立了专门的“Virtual Cell”计划。CZI也参与了2024年的Cell的AIVC路线图领域宣言文章。紧接着2025年初,CZI发布了首批AI虚拟细胞模型及配套平台,包括前述的TranscriptFormer(跨物种的大型转录组生成模型)和SubCell(基于人类蛋白质组学图像的细胞形态表征模型)等。并且它建立了1024张NVIDIA H100 GPU构成了计算机群,专门为美国的相关团队提供算力支持。值得一提的是,CZI通过CELL×GENE平台和TranscriptFormer模型引领了开放观测数据的潮流。CZI甚至启动了“十亿细胞计划”,试图生成前所未有的十亿级单细胞数据来加速模型训练[28]。
在产业界,多家生物科技创新公司正投身数据驱动的细胞模拟实践。其中的先锋公司Insitro由Daphne Koller(斯坦福大学计算机系教授,曾联合创办Coursera)在2018年创立,致力于将机器学习应用于药物发现。Insitro在自有实验室中生产了海量诱导多能干细胞(iPSC)模型数据,通过CRISPR基因编辑和高内涵成像筛选疾病表型[29]。
Recursion也是备受瞩目的企业,通过自动化显微成像获取数十亿计的细胞图像,并应用深度学习寻找药物和基因对细胞形态的影响模式。Recursion早期曾开放部分细胞影像数据集举办Kaggle竞赛,并参与Broad Institute的Cell Painting联盟,发布了大规模细胞形态学数据库[30]。此外,Recursion还与NVIDIA合作,借助超级计算平台进一步扩展虚拟细胞建模能力[31]。
Cellarity(Flagship Pioneering旗下)走的是另一路径:它以细胞状态为靶点,用单细胞组学定义疾病相关细胞状态,再设计干预将细胞从病态拉回健康态。他们没有公开大量数据,但宣称使用了数百万单细胞转录组来训练模型识别关键网络节点。这种思路与“虚拟细胞”高度契合,即关注整体细胞表型而非单一分子靶标[32]。
Tahoe Therapeutics是当前AIVC重要数据贡献者,位于旧金山,依托与加州大学旧金山分校合作研发的高通量单细胞平台“Mosaic”生成规模化药物-细胞扰动数据,并积极通过开源模式将其成果纳入全球虚拟细胞生态。2025年8月,Tahoe宣布获得3000万美元融资,将数据扩展至10亿单细胞,绘制百万级药物-患者细胞反应图谱,支撑“数据驱动药物发现”的战略[33]。
这条路上,巨头也并不沉寂。DeepMind在AlphaFold成功后,其姊妹公司Isomorphic Labs据称正尝试更广泛的生物系统模拟,包括细胞级别的建模探索[34]。除了CZI,谷歌、微软、Genentech的科学家同样参与了2024年《Cell》AIVC倡议[14]。
参与者众多的全球虚拟细胞数据、算力、科研生态,会如何影响AIVC乃至生命科学?CZI科学顾问Stephen Quake在《Nature》报道中一语道破:我们的目标是让细胞生物学从目前的“90%实验+10%计算”,逆转为“10%实验+90%计算”[35]。这反映出对数据和AI驱动科研范式转变的强烈信心:未来科学家做实验,大部分只是为了验证AI模型的预测。
5.从数据到闭环:STATE模型只是开始
大量高质量数据的涌现,不仅改变了评测标准,也正在重塑模型设计的思路。Arc在竞赛发布不久后提出的STATE模型,就是“数据-模型共设计”的典型[22]。
图3:STATE模型架构。首先通过状态嵌入模块SE,将高度异质的单细胞转录数据统一为平滑、结构化的表达空间(数据→嵌入表征)。再通过状态转换模块ST,从这一嵌入空间预测新的细胞响应与扰动效应(嵌入表征→预测数据),形成初步预测结果[36]。
从架构上看,STATE模型由两个模块串联而成:状态嵌入模块(State Embedding,SE)和状态转换模块(State Transition,ST)。SE模块将原始单细胞转录组表达映射到一个平滑的高维向量空间,类似于对细胞做降噪和特征提取,把嘈杂的基因表达谱压缩成易于建模的“细胞状态”向量。而ST模块基于双向Transformer架构,接受一组细胞的SE向量表示作为输入,利用自注意力机制来预测给定扰动下细胞状态如何在嵌入空间发生转移。
STATE模型的输入并非单个细胞,而是一组细胞。这使得模型能够充分利用同一扰动条件下细胞群体内部的变异信息(如细胞周期差异、细胞状态异质性等),更全面地推断扰动效应。同时,模型不对输出分布预设特定的参数化假设,而是借助注意力机制与分布对齐损失(如最大均值差异MMD)自适应地捕捉复杂的表达分布差异。
如此“奢侈”的模型,只有在数据“持续堆肥”到2025年后才得以实现。如前所述,Arc自主生成的H1干预数据集,每个扰动实验包含约1000个单细胞,单细胞测序深度平均达到5万UMIs,为训练生成式Transformer提供了充足样本。其次,Arc将Tahoe-100M药物数据和公共CRISPR数据一起作为训练语料供给STATE,使其在跨细胞类型、跨扰动类型上学习到一般规律。Arc声称,STATE总计训练了超过1亿个细胞的单细胞数据,涵盖70种不同细胞系,是迄今此类模型最庞大的训练规模[36]。
STATE首次系统性地超越了简单线性基线模型的各项指标。在Tahoe-100M基准测试中,STATE区分不同扰动效应的能力(PDS)相对以往最佳方法提高了50%,识别真实差异基因的准确率(DES)提高了100%。长期以来,在许多单细胞预测任务上,人们发现复杂模型并不一定比一个简单的线性回归表现更好,尤其在数据有限时经常出现过拟合。而STATE证明了当数据量和质量上升到一定层次后,Transformer等复杂模型完全可以在生物系统上展现出类似在语言、图像领域的飞跃式提升。
这种以数据为中心的模型架构意味着,当数据规模积累到一定程度后,将催生模型与实验之间更紧密的闭环。2025年3月,西湖大学郭天南团队在《Cell Research》的评论文章中首次明确提出,AIVC的发展依赖于“三大数据支柱”(先验知识、静态架构和动态状态)与“闭环学习”(closed-loop learning)[37]。作者强调:“构建真正的虚拟细胞不仅需要大规模数据,更需要通过主动学习(active learning)结合高通量扰动实验,不断迭代模型预测与实验验证,逐步逼近真实细胞动力学”。只有在数据基础上形成闭环学习,模型才能从相关性学习真正过渡到因果预测和机制发现。
图4:通过闭环学习实现AIVC持续进化。先验知识、静态结构(分子与空间表征)与动态状态(自然过程与扰动),由AI算法整合以模拟细胞行为(典型系统包括大肠杆菌、酵母与细胞系)。图中还展示了AIVC的进化路径:闭环主动学习系统中,AI预测指导自动实验(尤其聚焦扰动组学数据),实现模型与实验之间的快速反馈循环。[37]
与之呼应,Valence Labs(Recursion旗下)在2025年5月提出“预测–解释–发现”(Predict–Explain–Discover,P–E–D)的虚拟细胞框架,提出对准药物发现的可用预测器与“实验在环”工作流[38]。Recursion是位于美国犹他州的生物制药公司,是AI for Drug的领先公司之一。Valence Labs背靠Recursion的BioHive-2超算(与NVIDIA合作)与>60 PB多模态干预数据,在算力与数据上都远超大多数学术机构与竞争企业。
Valence Labs在文章中强调,虚拟细胞不仅要具备高质量的响应预测(Predict),更需要通过知识图谱、生物物理与结构信息将预测可解释化(Explain),并在“实验在环(lab-in-the-loop)”的闭环迭代过程中主动探索、检验、并发现新型生物机制或药物靶标(Discover)。Valence Labs提出了一套虚拟细胞性能的分级里程碑(VC-levels)与评测标准,并以此定义未来虚拟细胞技术的演进方向和生物学落地的具体路径。
图5:虚拟细胞的预测-解释-发现架构[38]。虚拟细胞(Virtual Cell)技术在现代药物发现中的三大核心能力:Predict(预测)、Explain(解释)与Discover(发现)。首先,虚拟细胞应具备预测功能:能够推断不同细胞环境和实验条件下,细胞在表型组、转录组、蛋白组、代谢组等多模态数据中的响应变化。接着,它必须提供机制性解释:运用因果学习、结构预测与分子动力学等技术揭示扰动如何修改关键生物分子互作,从而解释预测背后的因果机制。最后,通过聚焦机制理解,虚拟细胞可以生成并高效筛选大量候选假设(如药物干预或靶点调控方案),在进入昂贵的临床试验前发现新的生物学规律。该思路提出了一种从整体细胞状态而非单一分子靶点进行理性药物设计的现代范式。
模型与实验的协同闭环的思路,同样引发了产业界的关注。ARK Invest在2025年发布的《Big Ideas》年度报告中明确指出,虚拟细胞的闭环学习模式大幅度降低了单细胞组学数据生成与验证成本,将驱动生物制药产业走向以数据与模型驱动为主导的研发模式,预计到2028年,这种模式将使每个细胞实验的单元成本下降至当前的约1/120,形成巨大的产业变革效应[39]。
目前,一些前沿研究已经在局部场景中初步验证了“数据-模型-实验”闭环的可行性。例如,德国慕尼黑工业大学与Helmholtz中心的CPA(Compositional Perturbation Autoencoder)模型,能够通过模型预测未见药物组合的单细胞扰动响应,再通过前瞻性的实验设计与数据采集进行验证,从而实证了模型预测在闭环中的迭代提升[40]。
模型驱动实验-实验反哺模型的数据闭环,正在AIVC领域成为共识。随着Arc Institute主导的年度虚拟细胞挑战赛逐年展开,一个规模化、社区化的数据与评测闭环正在逐渐构建起来,以持续反馈的形式推动模型迭代和数据基础的演进。
6.结语:迈向虚拟细胞的图灵测试
Arc挑战赛只是起点。在全球范围内,AIVC相关的竞赛和基准正逐步涌现。早在Arc之前,CZI资助的开放合作项目已在NeurIPS大会上举办了“单细胞分析公开问题”竞赛系列[41]。这些竞赛由欧洲生物信息学研究者(如Helmholtz中心的Fabian Theis等)组织,已连续举办三届,形成了Open Problems系列基准。它们为AIVC领域提供了宝贵的公开数据和评测框架。
然而,当前AIVC领域的进展仍以单细胞转录组数据为主要支撑。下一阶段的重要方向是拓展到更丰富的多模态干预数据。诸如单细胞扰动蛋白组学(Perturb-CITE-seq)、染色质可及性谱(Perturb-ATAC-seq)与高内涵细胞成像表型数据(如Recursion Pharmaceuticals公司正在规模化产生的60PB多模态数据集)等,都可能融入新的AIVC基准数据中。Arc Institute高级科学家Nianzhen Li透露,未来计划将大规模CRISPR干扰与原位(in situ)读出结合,实现转录组、蛋白与高通量成像数据的统一采集。这些新模态的引入和整合,将进一步增强虚拟细胞模型的机制理解与预测能力[42]。
除数据模态扩展外,另一个关键方向是组合扰动与动态轨迹。真实的生物细胞通常处于多重扰动(基因组合、药物联用)和动态演变过程中,现阶段的单一扰动、静态“快照”远不足以描述真实细胞。Arc机器学习组负责人Yusuf Roohani直言,未来Arc竞赛可能会探索组合扰动等难而高价值的数据集[43]。组合扰动和时间序列扰动等数据,将支持模型更接近细胞真实动态过程,从相关预测走向因果机制解析,推动从“静态虚拟细胞”向“动态虚拟细胞”转型。站在远景来看,虚拟细胞研究的最终目标是超越预测本身,通过模型反过来揭示生物系统的因果机制。当虚拟细胞模型对各种扰动的响应预测足够精准,我们就能借助反事实实验、主动学习等闭环方法推断基因调控网络中的关键因果关系,从而实现模型—实验—数据的闭环。这种闭环学习范式正得到CZI、Valence Labs、Arc Institute和众多前沿学术团队的一致认可。在一些模式生物中,这种闭环可能率先实现。例如对于酵母菌,目前已经具备足够的多模态数据、明确的生物学知识框架和快速迭代的实验手段,这为率先跑通真正意义上的“虚拟细胞图灵测试”提供了理想的实验生态环境[37]。
从图灵的“模仿游戏”到“虚拟细胞的图灵测试”,一路探索是曲折回环的:薛定谔用“非周期晶体”去追问遗传信息的物理形态,冯·诺依曼以“自复制自动机”在逻辑上定义生命自复制的最小单元,约翰·康威在极简规则世界中呈现生命的可计算性——这些思想正汇聚到海量生物数据中,等待AI重新诠释现代版的米勒-尤里之问:如果再给细胞一道“闪电”,它将如何实现生命的跃迁?在反事实实验和主动学习的驱动下,AIVC的持续迭代,会催生出更深刻的科学问题和更精确的参考答案,让建模越来越逼真,直至ALife实现。
生命的谜题何其高深,期待Arc虚拟细胞挑战赛成为这场漫长攀登之旅的新基石。
参考资料
[1]Arc Institute发起Virtual Cell Challenge(GEN)https://www.genengnews.com/topics/artificial-intelligence/arc-institute-launches-virtual-cell-challenge-to-accelerate-ai-model-development/
[2]Patrick Hsu评论(EurekAlert)https://www.eurekalert.org/news-releases/1089091
[3]《Cell》评论:Virtual Cell Challenge:Toward a Turing test for the virtual cellhttps://www.cell.com/cell/fulltext/S0092-8674(25)00675-0
[4]Arc虚拟细胞图谱Atlas发布
https://arcinstitute.org/news/arc-virtual-cell-atlas-launch
[5]Tahoe-100M药物扰动数据集发布https://www.tahoebio.ai/news/open-sourcing-tahoe-100m
[6]scBaseCount数据集报告
https://www.biorxiv.org/content/10.1101/2025.02.27.640494v2
[7]虚拟细胞挑战赛数据集详情https://virtualcellchallenge.org/datasets
[8]Arc数据生成平台介绍https://arcinstitute.org/news/arc-10x-ultima
[9]虚拟细胞挑战赛评测指标说明https://virtualcellchallenge.org/evaluation
[10]历年CASP
https://predictioncenter.org
[11]DeepMind博客:AlphaFold——生物学50年难题的解决方案https://deepmind.google/discover/blog/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
[12]Tabula Sapiens项目官网https://tabula-sapiens.sf.czbiohub.org/
[13]CZI的Virtual Cells主页https://chanzuckerberg.com/science/technology/virtual-cells
[14]《Cell》评论:How to build the virtual cell with artificial intelligence:Priorities and opportunitieshttps://www.cell.com/cell/pdf/S0092-8674(24)01332-1.pdf
[15]CMap项目官网https://www.broadinstitute.org/connectivity-map-cmap
[16]《Cell》经典论文:Perturb-seq方法提出
https://www.sciencedirect.com/science/article/pii/S0092867416316105
[17]《Nature Biotechnology》论文:Replogle等人Perturb-seq大规模实验https://www.nature.com/articles/s41587-022-01302-5
[18]《Nature Genetics》论文:Nadig等人2025 Perturb-seq研究https://www.nature.com/articles/s41588-025-02169-3
[19]Xaira Therapeutics发布最大规模Perturb-seq数据集https://www.genengnews.com/topics/artificial-intelligence/xaira-therapeutics-releases-largest-perturb-seq-dataset-to-power-the-virtual-cell
[20]《Science》论文:Sci-Plexhttps://science.sciencemag.org/content/367/6473/45
[21]Parse Biosciences公司官网:PBMC药物扰动数据集https://www.parsebiosciences.com/datasets
[22]STATE模型报告https://biorxiv.org/cgi/content/short/2025.06.26.661135
[23]Arc Institute官网https://arcinstitute.org
[24]Arc新闻:AI can now model and design the genetic code for all domains of life with Evo 2
https://arcinstitute.org/news/evo2
[25]Broad Institute官网https://www.broadinstitute.org
[26]《Nature Methods》:Broad Institute发布的全基因组尺度细胞形态学图谱https://www.nature.com/articles/s41592-025-02753-9
[27]CZI虚拟细胞与开放模型平台https://virtualcellmodels.cziscience.com/
[28]CZI:十亿细胞计划与数据集https://chanzuckerberg.com/newsroom/czi-datasets-gen-stat-coverage
[29]Insitro官网https://www.insitro.com/
[30]Recursion官网https://www.recursion.com/
[31]NVIDIA博客:Recursion超级计算与药物发现https://blogs.nvidia.com/blog/drug-discovery-recursion-supercomputer/
[32]Cellarity官网https://cellarity.com/
[33]Tahoe Therapeutics新闻:融资3000万美元扩展至10亿单细胞https://www.tahoebio.ai/news/tahoe-therapeutics-raises-30m
[34]Isomorphic Labs公司官网https://www.isomorphiclabs.com/
[35]《Nature》评论:Can AI build a virtual cell?Scientists race to model life’s smallest unithttps://www.nature.com/articles/d41586-025-02011-0
[36]Arc新闻:Virtual Cell Model–STATEhttps://arcinstitute.org/news/virtual-cell-model-state
[37]《Cell Research》评论:Grow AI virtual cells:three data pillars and closed-loop learninghttps://www.nature.com/articles/s41422-025-01101-y
[38]Virtual Cells:Predict,Explain,Discover(Valence Labs/Recursion)https://arxiv.org/abs/2505.14613
[39]ARK Invest报告:Big Ideas 2025https://www.nikkoam.com.hk/files/sp/ark/pdf/2502_ark_big_ideas.pdf
[40]CPA模型闭环验证https://pmc.ncbi.nlm.nih.gov/articles/PMC10258562/
[41]NeurIPS 2023 Competition:Open Problems in Single-Cell Analysishttps://neurips.cc/virtual/2023/competition/66586
[42]Arc Institute Nianzhen Li关于开发虚拟细胞实验平台的分享
https://arcinstitute.org/news/nianzhen-li-virtual-cell-experimental-platform
[43]Arc Institute Yusuf Roohani关于虚拟细胞架构设计的分享https://arcinstitute.org/news/yusuf-roohani-virtual-cell-architecture
参考文献可上下滑动查看
生命复杂性读书会:
生命复杂系统的构成原理
在生物学中心法则的起点,基因作为生命复杂系统的遗传信息载体,在生命周期内稳定存在;而位于中心法则末端的蛋白质,其组织构成和时空变化的复杂性呈指数式增长。随着分子生物学数十年来的突飞猛进,尤其是生命组学(基因组学、转录组学、蛋白质组学和代谢组学等的集合)等领域的日新月异,当代生命科学临近爆发的边缘。如此海量的数据如何帮助我们揭示宇宙中最复杂的物质系统——“人体”的构成原理和设计原理?阐释人类发育、衰老和重大疾病的发生机制?
集智俱乐部联合西湖大学理学院及交叉科学中心讲席教授汤雷翰,国家蛋白质科学中心(北京)副研究员常乘、李杨,香港浸会大学助理教授唐乾元,北京大学前沿交叉学科研究院研究员林一瀚,中国科学院分子细胞科学卓越创新中心博士后唐诗婕,共同发起「生命复杂性:生命复杂系统的构成原理」读书会,从微观细胞尺度、介观组织器官尺度到宏观人体尺度,梳理生命科学领域中的重要问题及重要数据,由生物学家提问,希望促进统计物理、机器学习方法研究者和生命科学研究者之间的深度交流,建立跨学科合作关系,激发新的研究思路和合作项目。读书会目前共进行10期,现在报名参与读书会可以加入读书会社群,观看视频回放,解锁完整读书会权限。
详情请见:
生命复杂性读书会:从微观到宏观,多尺度视角探索生命复杂系统的构成原理
上一篇:英国,病了
下一篇:13元退款全网刷屏,后续来了!