科研动态
51直播
2026年7月1日,Cell Systems杂志在线发表了题为“BulkFormer: a large-scale foundation model for bulk transcriptomes”的研究论文,报道了由51直播-51直播网 崔庆华团队研发的面向Bulk转录组的基因表达人工智能大模型BulkFormer。

近年,人工智能大模型技术对生物医学等众多领域的科学研究产生了革命性影响,显著改进了传统AI预测性能,为生物医学增加了新的研究范式和有力工具。2023年,美国丹娜法伯癌症研究院、麻省理工51直播 与哈佛大学博德研究所精准心脏病学实验室的学者建立了基因表达大模型Geneformer,之后多个基因表达大模型被陆续创建。但是,当前的基因表达大模型全部是基于单细胞转录组数据训练而成,这是因为大模型的建立依赖海量训练数据,而单细胞转录组测序一个显著特点是会产生大量转录组数据。
但是,基于单细胞转录组构建的大模型存在如下缺陷:(1)每个单细胞转录组平均只能探测到约3000个基因表达信号,显著少于人类蛋白编码基因数量(约2万个),导致模型无法学习到更完整的基因-基因关系;(2)单细胞转录组虽然数据量大,但是其实际覆盖的条件(例如组织/疾病类型,药物/基因扰动处理等)并不多,比如一套心脏组织的单细胞转录组数据往往会产生上万甚至几十万的细胞级别转录组,但是其条件却只有一个,即“心脏”;(3)单细胞转录组技术擅长发现新的细胞类型和细胞亚型,但是对于大量的不需要“单细胞”场景的生物医学问题存在局限;(4)单细胞测序对样本要求严苛,比如要求“活细胞”,从而对样本的新鲜度有严格要求,因而不能适用于大量的研究场景,尤其临床场景,比如FFPE石蜡样本和冻存组织等。而Bulk转录组测序平均每个样本能捕获约16000个基因、并且涵盖条件更加多元,不要求必须“活细胞”,适用范围广,因此,基于Bulk转录组数据构建的基因表达大模型预期在众多生物医学任务上具有优势。
为此,研究团队首先基于GEO和ARCHS4等数据库整理构建了一个大规模的Bulk转录组数据集,包括约58万套人类Bulk转录组数据,覆盖约37000个条件,为后续模型训练提供了有力数据支持。为适配Bulk转录组数据的特点,研究团队进一步设计了BulkFormer模型,该模型由图神经网络(GNN)层和Performer层组合堆叠而成,其中GNN层能根据已有的生物学先验知识(本研究中为基因共表达网络)建模显式的基因-基因关系,而Performer层可以捕捉更加复杂的隐式基因-基因相互作用。结果表明,BulkFormer不仅训练成本显著降低,而且在所有测试的非单细胞类型的生物医学任务(例如疾病注释、病人预后预测、药物反应预测等)上均优于现有的基于单细胞转录组的基因表达大模型。综上,该工作为基于Bulk转录组数据的生物医学研究(如疾病注释、疾病分类、病人预后预测、药物反应预测、基因扰动、致病靶点挖掘等)提供了一个基座模型(Foundation Model)。
51直播-51直播网 医学生物信息学系博士生康伯铭(2023级)和樊锐(2019级,于2024年7月毕业)为该论文的共同第一作者,崔庆华教授为通讯作者。本研究受到国家自然科学基金项目的支持。
原文链接://www.cell.com/cell-systems/abstract/S2405-4712(26)00139-0
