一种基于DNA甲基化的生物学年龄预测模型的构建方法

文档序号:31927781发布日期:2022-10-25 23:17阅读:来源:国知局

技术特征:
1.一种基于dna甲基化的生物学年龄预测模型的构建方法,其特征在于,包括以下步骤:(1)dna甲基化样本数据的获取:从geo数据网站下载源自中国人群的、包含日历年龄资料的、全血样本450k甲基化芯片原始数据;(2)dna甲基化样本数据的预处理:利用r语言软件包“champ”,对所获取的450k甲基化芯片原始数据进行预处理;(3)甲基化年龄预测模型的位点筛选:以日历年龄作为因变量,235021个cpg位点作为自变量,性别作为协变量,采用弹性网络回归的方法对预测模型的cpg位点进行特征选择;弹性网络回归利用r语言软件包“glmnet”进行,其参数设置为:alpha=0.5,连接函数为“gaussian”,惩罚参数lambda采用10折交叉验证的方法确定,选择使均方根误差最小的lambda值;利用bootstrap自助重抽样的方法,对训练集样本进行多次重抽样;在每个重抽样的数据集中,利用上述弹性网络回归筛选得到一系列cpg位点,然后统计在多次重抽样中,每个cpg位点被筛选到的频率,选择筛选频率大于50%的cpg位点作为构建模型的候选甲基化位点;最终共得到31个候选cpg位点:cg16867657、cg07372824、cg07553761、cg14361627、cg24079702、cg13575925、cg21692159、cg03032497、cg20158366、cg18404041、cg06567855、cg23500537、cg07850154、cg21177396、cg06639320、cg17621438、cg11847992、cg06515235、cg15059474、cg01620164、cg11423680、cg18507365、cg18933331、cg19893664、cg15665792、cg17243289、cg03684893、cg16882373、cg25703552、cg00481951、cg27184585;(4)甲基化年龄预测模型的构建与评价:采用多重线性回归、支持向量机、随机森林和梯度提升回归树进行模型的初步构建和评价,选择最优模型构建方式;然后,采用最优子集回归进一步筛选甲基化位点,计算模型中cpg位点数从1到31时各个最优模型的预测精度,比较不同cpg位点数下所能达到的预测效果,并结合贝叶斯信息准则,选择最佳cpg位点数的模型;最优子集回归利用r语言软件包“leaps”进行,从31个cpg位点中筛选出18个cpg位点:cg06567855、cg15059474、cg03684893、cg16867657、cg06639320、cg11423680、cg18404041、cg18507365、cg14361627、cg21177396、cg13575925、cg11847992、cg07372824、cg16882373、cg06515235、cg07850154、cg25703552、cg07553761;利用最优的多重线性回归方法对这18个cpg位点建立甲基化年龄预测模型;(5)甲基化年龄预测模型的优化和生物学年龄预测模型的建立:利用任一省队列的自然人群数据,对上述甲基化年龄预测模型进行优化;首先排除存在严重慢性病的人群和预测偏差最大的30%人群,剩余的样本为正常型人群,可认为其生物学年龄近似等于日历年龄;在正常型人群中,以日历年龄为应变量,采用多重线性回归的方法,对18个cpg位点的回归系数进行拟合调整,优化后得到的模型即为生物学年龄预测模型。2.根据权利要求1所述基于dna甲基化的生物学年龄预测模型的构建方法,其特征在于,所述步骤(2)包括以下子步骤:(2.1)探针的过滤,具体包括:

去除detection p值>0.01的探针,

去除non cpg探针,

去除含有单核苷酸多态性位点的探针,

去除多重反应位点的探针;

去除分布在性染色体上的探针;(2.2)样本的过滤:利用r语言软件包“watermelon”进行主成分分析,排除离群的样本,即前两个主成分分布在2倍的四分位数间距以外的样本;此外,排除性别信息缺失的样本;
(2.3)探针信号的校准:对所有样本各个探针的信号值进行归一化处理,校正芯片设计中由于i型、ⅱ型探针数据分布不一致引起的偏倚;(2.4)批次效应的校准:采用经验贝叶斯模型,对来源于不同数据集的甲基化数据进行批次效应的校准;(2.5)血细胞异质性的校准:剔除甲基化水平存在血细胞异质性的cpg位点。

技术总结
本发明公开了一种基于DNA甲基化的生物学年龄预测模型的构建方法,本发明从GEO数据网站下载源自中国人群的,包含日历年龄资料的,全血样本450k甲基化芯片数据,通过弹性网络结合bootstrap的方法,筛选得到31个建模候选的甲基化位点,采用多重线性回归、支持向量机、随机森林和梯度提升回归树进行模型的初步构建和评价,然后利用全子集回归进一步筛选甲基化位点,得到基于18个甲基化位点的甲基化年龄预测模型。最后,利用任一省队列自然人群数据,对甲基化年龄预测模型进行优化,最终得到基于18个甲基化位点的生物学年龄预测模型。该模型适用于中国人群,包含的甲基化位点数少,不受血细胞成分的影响,预测的精准性良好。预测的精准性良好。预测的精准性良好。


技术研发人员:朱益民 贺迪
受保护的技术使用者:浙江大学
技术研发日:2022.04.02
技术公布日:2022/10/24
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1