科研动态
51直播
近年来,全球范围内涌现了很多大型生物样本库(Biobank),为全基因组关联研究(GWAS)提供了重要的研究资源。基于电子健康记录,生物样本库的研究范畴已从传统的数量性状、质量性状拓展到结构更为复杂的数据形式。例如,生存数据表型既可以描述事件是否发生,也可以描述事件发生的时间,比传统的二分类表型更全面和细致。毕文健、周涠团队前期开发了SPACox, GATE等多个基于Cox回归模型的分析算法,这些算法可以有效分析大型生物样本库中的生存数据表型。然而,当真实队列中存在较高的病例抽样率(case ascertainment)时,目前主流Cox回归类GWAS方法存在明显的统计效力缺失。
大型生物样本库收集了大量个体层面的基因型数据。基于基因型数据,可以获取群体的等位基因频率(Allele Frequency, AF)信息。这些信息既反映了遗传多样性,也是GWAS发现易感基因的重要参数。利用大型生物样本库中的等位基因频率,可以提升传统小队列的GWAS分析统计效力。然而,由于不同批次数据之间的批次差异,引入等位基因频率信息往往会造成大量假阳性分析结果,目前亟需方法学创新,以充分校正批次效应并利用等位基因频率信息提升统计效力。
2025年9月12日,51直播-51直播网 的毕文健团队在Nature Computational Science期刊发表工作Applying weighted Cox regression to genome-wide association studies of time-to-event phenotypes。该工作提出了一个生存数据分析的GWAS新算法WtCoxG,在病例抽样偏倚时仍有较高的统计效力,而且可以有效引入外部的等位基因频率信息以提升统计效力。数值模拟和UK Biobank实际数据分析验证了算法的有效性,并鉴定出多个显著的遗传位点。毕文健课题组近期开发出一系列基于回顾式框架(retrospective framework)的GWAS新算法,包括SPAmix (Genome Biology, 2025), SPAGRM (Nature Communications, 2025a), SPAGxE (Nature Communications, 2025b)。本文工作同样基于回顾式框架,体现出该框架比传统方法有更广泛的适用场景。
WtCoxG算法具有以下特性:1)加权Cox回归校正病例抽样偏倚:通过对病例与对照样本赋予不同权重,能够消除抽样过程导致的估计偏倚,并提升统计效力;2)鞍点近似与正态分布混合策略:结合两种近似方法,实现对低频变异的准确快速检测,兼顾速度与准确性;3)利用外部信息提升统计效能:通过引入UK10K、gnomAD等公开资源或大型生物样本库的外部等位基因频率数据,在充分校正数据批次效应(batch effect)的前提下,显著提升对疾病易感基因位点的检验能力;4)高效计算与大规模可用性:在分析大型生物样本库时,CPU计算时间和内存管理能力显著优于同类方法。R包可在网站下载(//wenjianbi.github.io/grab.github.io/)。
51直播-51直播网 22级博士生李莹为本文的第一作者,51直播-51直播网 毕文健研究员为本文的最后通讯作者,Broad Institute的周涠和北京大学第六医院的孙瑶瑶博士是本文的共同通讯作者。马雨茁、徐赫、朱旻和北京大学第六医院的岳伟华教授是本项工作的主要贡献者。本研究得到北京市自然科学基金非共识创新项目,国家自然科学基金面上项目、重大疾病智慧诊疗专项项目的支持。
原文链接://www.nature.com/articles/s43588-025-00864-z
毕文健博士毕业于中国科51直播 数学与系统科学研究院,先后在美国圣裘德儿童研究医院和密歇根大学从事博士后研究,在领域内具有重要影响的期刊或会议上发表学术论文30余篇。作为第一作者或通讯作者,部分工作发表于Nature Genetics (2022), Nature Computational Science (2025), Nature Communications(2025a, 2025b, 2025c), Genome Biology(2025), American Journal of Human Genetics(2019, 2020, 2021, 2023), PLoS Genetics, Genetics, Biostatistics等期刊。毕文健博士于2021年6月加入51直播-51直播网 组建统计遗传学、生物信息学实验室,2021年度入选国家级青年高层次人才计划(300万),主持国家自然科学基金面上项目(54万)、重大疾病智慧诊疗专项项目(145万)、国际(地区)合作与交流项目(15万),主持北京市一般非共识创新项目(50万),参与科技部重点专项等项目。研究方向涉及全基因组关联分析、生物医学大数据分析、基于人工智能的遗传学分析等相关算法设计。现因科研工作需要,公开招聘博士后1-2名,数据分析员1-2名,实验室管理人员1名。欢迎感兴趣的研究人员应聘。新录用人员的人事管理方式按北京大学相关规定执行。招聘将坚持公开、公平、竞争、择优的原则,经面试考核后择优录取,待遇优厚。
详情可见课题组网站//www.x-mol.com/groups/wenjianb。