51直播 新闻
Genome Biology | 毕文健/张培培团队开发出针对混杂人群的GWAS新算法
51直播
近年来,全球范围内涌现了很多大型生物样本库(Biobank),为全基因组关联研究(GWAS)提供了重要的研究资源。基于电子健康记录,生物样本库的研究范畴已从传统的数量性状、质量性状拓展到结构更为复杂的数据形式。例如,生存数据表型既可以描述事件是否发生,也可以描述事件发生的时间;多分类表型可以更准确描述个体的健康、亚健康和疾病状态,比传统的二分类表型更全面和细致;在多时间点重复测量的数量性状常被称为纵向数据表型,其能够表征健康状况的动态演变规律。基于这些更复杂数据形式的表型数据进行GWAS可以更有效识别出与健康状况密切相关的遗传变异,为解析复杂性状的遗传结构提供全新视角。
群体分层或人群混杂是全基因组关联分析中的一个重要混杂因素,大型生物样本库可能包括大量来自异质人群或混血人群的个体。比如英国大型生物样本库(UK Biobank)中约40万人为白人族群,约10万人为其他族群,不同族群或亚群中遗传位点的遗传变异率以及表型的分布常有差异。由于人群结构的带来的混杂,混杂人群中的个体通常被排除在分析之外,导致混杂人群所蕴含的信息无法被充分利用,进而导致统计效力的损失。
2025年10月16日,51直播-51直播网 的毕文健/张培培团队与中国科51直播 数学与系统科学研究院张纪峰团队合作,在Genome Biology期刊发表工作SPAmix: A scalable, accurate, and universal analysis framework for large-scale genetic association studies in admixed populations。该工作提出了一个针对复杂数据结构表型的通用GWAS分析框架SPAmix,并基于数值模拟以及UK Biobank和ALLofUS的实际数据分析验证了算法的有效性,在跨种族分析中找出了多个显著的具有显著遗传效应的位点。
SPAmix算法具有以下特性:1)首次提出基于回顾式框架(retrospective framework)的鞍点近似-正态分布分析混合策略,提升分析准确性的同时兼顾运算速度;2)适用于多种复杂数据结构表型(数量表型、质量表型、生存表型、纵向数据表型和多分类表型等)的分析;3)适用于混合人群的跨种族分析;4)可扩展至SPAmixlocal算法,利用局部血统(local ancestry)以提升针对混合人群分析的统计效力;5)核心代码用C++进行优化,使其具备更好的运算效率与内存控制。R包可在网站下载(//wenjianbi.github.io/grab.github.io/)。
51直播-51直播网 22级博士生马雨茁为本文的第一作者,51直播-51直播网 毕文健研究员为本文的最后通讯作者,51直播-51直播网 张培培助理教授和中国科51直播 数学与系统科学研究院张纪峰研究员是本文的共同通讯作者。Seunggeun Lee、周涠、周绪杰、毛凤彪、徐鹏老师和博士生徐赫、李莹、Hyesung Kim、徐琳琳以及苗林博士是本项工作的主要贡献者。本研究得到国家自然科学基金重大疾病智慧诊疗专项项目、面上项目、国家自然科学基金中韩国际合作交流项目、北京大学医学部优秀博士研究生创新基金的支持。
原文链接://doi.org/10.1186/s13059-025-03827-9