近日,上海人工智能实验室联合国家极地科学数据中心,基于“书生”科学发现系统Intern·Agent,共同打造了科学数据智能体SciDataCopilot,系统整合近百年间的公开观测数据,进而构建起包含8万余条南极磷虾出现记录、1万余条丰度数据的标准化数据集,其体量超过国际通用南极磷虾基准数据库KRILLBASE。
在南极磷虾数据集的助力下,极地科考研究人员可以更精准地掌握南极磷虾的季节分布趋势,在全球变暖背景下,为南极海洋生态保护提供科学建议及举措。
智能体激活百年数据
关于南极磷虾研究,有两个根本问题:南大洋有多少磷虾?它们分布在哪儿?
为了弄清楚这两个问题,百年来,中国、美国、澳大利亚,以及欧洲多国持续开展实地调查并产出海量观测记录。
然而,行业长期面临难以破解的数据治理痛点:一方面,南极磷虾观测数据来源多、标准不一。相关数据零散分布在各国科考档案、航次报告、学术文献及公共数据库中,异构性极强,跨源整合难度高。另一方面,依赖人工整编海量数据,效率低、可信度不足。百年来,磷虾观测积累的海量数据,依靠人工处理周期长达数年,不仅效率低,还容易产生操作误差。
联合团队依托Intern·Agent和科学数据智能体的全自动化整编能力,对来自全球的海量异构数据进行自动解析、标准化处理,质控和溯源管理,让每一条记录既可纳入统一计算,也能追溯来源,最终构建了南极磷虾数据集。
记者了解到,本次整编的磷虾数据集覆盖1926—2025年,新增加8万余条调查站位数据,扩展了国际上惯用磷虾数据的数据体量和分布范围,并对原有数据进行了补充和完善,有望支撑更多南大洋生态物种分布和全球气候变化的科学发现。
数据全流程自主整编
从百年科考记录中高效、准确“译”出南极磷虾数据集的关键,是联合团队打造的科学数据智能体SciDataCopilot。该智能体依托Intern·Agent开发,融合智能文档解析引擎MinerU,可针对科学实验数据准备过程中存在的模态形式多样、科学机理隐含、专业知识依赖、专业工具分散、任务定制化程度高等问题进行专项设计,实现从自然语言意图到高质量科学数据的全链路自动化数据准备。
记者获悉,在这项研究中,联合团队借助SciDataCopilot搭建了“数据智能规划—脚本自动生成—专家校核完善”的一体化整编流程。整套流程可自动完成字段识别、数据解析、缺失元数据筛查、字段标准化、单位换算与质量校验,并辅助专家对物种范围、生长阶段、拖网定义和异常数据进行人工复核。
此外,SciDataCopilot有效加速了南极磷虾数据集构建,整套流程仅需调用大模型约2000次即可完成,并沉淀出数据筛查、字段理解、标准换算、质量质控等全套磷虾数据处理技能(Skill),实现多源、多模态科考数据的全自动整编。针对某特定类型调查数据格式,SciDataCopilot仅需40—60轮交互即可完成,相比人工模式,整体效率可提升30倍以上。
上海AI实验室表示,此研究验证了智能体赋能复杂科学数据治理的可行性。未来将把Intern·Agent拓展至极地调查、海洋生态及地球系统等科学场景,助力全球科学家攀登科学高峰。 本报记者 郜阳