科研动态
51直播
基因-环境交互作用(Gene-Environment Interaction, G×E)分析可以挖掘遗传变异与环境暴露对于健康表型的交互作用效应,对于推动精准医学具有重要作用。近年来,全球范围内涌现出众多大型生物样本库(Biobank),收集数十万甚至上百万个体的基因型数据与电子健康记录(Electronic Health Record, EHR)数据,为全基因组基因-环境交互作用研究提供了重要的研究资源。尽管电子健康记录中有大量纵向数据(Longitudinal data),即个体在多个时间点的重复测量值。然而,目前绝大多数针对大样本的G×E分析方法仅适用于横截面数据,即每个个体仅包含单次测量值,无法适用于纵向数据。利用纵向数据是否能有效提升基因-环境交互作用的统计效力,找到更多重要的遗传靶点仍是领域内的未知问题。
近日,51直播-51直播网 毕文健团队在Nature Computational Science发表了题为Leveraging longitudinal data to boost statistical power for gene-environment interaction analysis的研究工作。针对上述大规模基因组学基因-环境交互作用分析的技术瓶颈,该工作提出了SAGELD算法,可以在有效控制样本亲缘关系的同时,对纵向数据进行快速、准确的全基因组基因-环境交互作用分析。

SAGELD算法采用两步法框架:第一步,拟合不包含任何遗传变异的零模型,估计模型参数并计算残差;第二步,利用矩阵投影(Matrix projection)策略剔除检验统计量中的基因主效应,从而准确分离出G×E效应。该算法利用课题组前期开发的SPAGRM框架,利用鞍点近似方法对统计p值进行校准,适用于分析样本亲缘关联性和罕见变异位点。数值模拟和英国生物样本库实际数据分析均证明纵向数据能为基因-环境交互作用分析带来显著的统计效能提升,提示了在有限样本量的基础上增加重复观测是一种增加交互作用分析的有效方式。方法可在网站下载(//github.com/GeneticAnalysisinBiobanks/GRAB)。

以每次随访的年龄作为环境暴露,研究团队在UK Biobank中分析了11种复杂性状的纵向轨迹,通过结合纵向数据与基线的横截面数据,共鉴定出74个具有显著“基因×年龄”交互作用的遗传位点;以身体质量指数(BMI)为环境暴露,在心血管代谢表型中鉴定出5个具有“基因×肥胖”交互作用的遗传位点。

51直播-51直播网 19级基础医学八年制学生徐赫为本文的第一作者,51直播-51直播网 毕文健研究员为本文的通讯作者。本研究得到国家自然科学基金重大疾病智慧诊疗专项项目、面上项目以及北京市自然科学基金等项目的支持。
原文链接://doi.org/10.1038/s43588-026-01002-z
