1.本技术属于生物基因技术领域,尤其涉及一种突变签名的预测方法、装置、终端设备及存储介质。
背景技术:2.近年来,突变签名的应用取得了长足的进步,但现有技术只能通过体细胞的突变检测到突变签名。具体而言,现有技术首先统计体细胞中各个突变的发生频率,然后利用非负矩阵等各种方法获得对应的突变签名。但当体细胞的突变数量较少时,由于突变向量的稀疏性,现有技术无法准确地检测到对应的突变签名。
3.故现有技术在体细胞的突变数量较少时,突变签名的预测存在普适性和准确性不足问题。
技术实现要素:4.本技术实施例提供了一种突变签名预测方法、装置、终端设备及存储介质,解决了现有技术在体细胞的突变数量较少时,突变签名的预测存在普适性和准确性不足问题。
5.本技术实施例的第一方面提供了一种突变签名的预测方法,包括:
6.获取待预测样本的体细胞的第一基因表达向量,所述第一基因表达向量用于描述所述待预测样本与多个基因表达量的对应关系;
7.将所述第一基因表达向量分别输入已构建的多个预测模型进行预测,获得各所述预测模型输出的预测结果,所述预测模型用于描述多个所述基因表达量与一种突变签名的关联关系;
8.根据多个所述预测模型输出的预测结果,确定所述待预测样本的体细胞的突变签名。
9.在其中一个实施例中,构建多个所述预测模型的步骤包括:
10.获取癌症基因信息并构建第一数据集和第二数据集,所述第一数据集为多个第一关联关系向量的集合,所述第二数据集为多个第二基因表达向量的集合,其中,所述第一关联关系向量用于描述训练样本与多种所述突变签名的关联关系,所述第二基因表达向量用于描述所述训练样本与多个基因表达量的对应关系;
11.基于所述第一数据集和所述第二数据集通过线性回归模型获得线性回归值;
12.基于作为训练集的所述第一数据集与第四数据集,以及作为验证集的第三数据集训练各机器学习模型,直到满足第一预设条件停止训练获得训练后的各所述预测模型,其中,所述第四数据集为多个第三基因表达向量的集合,所述第三基因表达向量用于描述所述训练样本与预设数量的基因表达量的对应关系,所述预设数量为第二预设条件的所述线性回归值的数量,所述第三数据集为多个所述基因表达量与一种突变签名的关联关系的集合。
13.在其中一个实施例中,所述获取癌症基因信息并构建第一数据集和第二数据集的
步骤包括:
14.获取所述癌症基因信息,所述癌症基因信息包括所述训练样本的体细胞的突变数据集、所述训练样本的基因表达量数据集及标准频率数据集,所述标准频率数据集为突变签名对应突变类型的频率数据集;
15.基于所述训练样本的体细胞的突变数据集获得样本频率数据集,所述样本频率数据集为所述训练样本的突变类型的频率数据集;
16.基于所述标准频率数据集和所述样本频率数据集,通过突变类型矩阵计算式获得所述第一数据集;
17.基于所述训练样本的基因表达量数据集获得所述第二数据集。
18.在其中一个实施例中,
19.所述突变类型矩阵计算式为:
20.cn×i=an×
mbm
×i21.其中,cn×i为所述样本频率数据集,表示n个所述训练样本的i种突变类型的频率数据集;
22.an×m为所述第一数据集,表示n个所述训练样本与m种突变签名的关联关系;
23.bm×i为所述标准频率数据集,表示m个突变签名对应i种突变类型的频率数据集,其中,n、m、i均为正整数,n≧1,m≧1,i≧1。
24.在其中一个实施例中,
25.所述机器学习模型包括随机森林模型、极端梯度提升树模型及支持向量机模型中至少一种。
26.在其中一个实施例中,所述第一预设条件为:
27.roc曲线下面积≧80%,以及准确度≧80%。
28.在其中一个实施例中,所述第二预设条件为:
29.所述线性回归值从小到大排序的序列中序号小于或者等于600的所述线性回归值。
30.本技术实施例的第二方面提供了一种突变签名的预测装置,包括:
31.获取向量模块,用于获取待预测样本的体细胞的第一基因表达向量,所述第一基因表达向量用于描述所述待预测样本与多个基因表达量的对应关系;
32.模型预测模块,用于将所述第一基因表达向量分别输入已构建的多个预测模型进行预测,获得各所述预测模型输出的预测结果,所述预测模型用于描述多个所述基因表达量与一种突变签名的关联关系;
33.获取结果模块,用于根据多个所述预测模型输出的预测结果,确定所述待预测样本的体细胞的突变签名。
34.本技术实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面内容中任一项所述的预测方法。
35.本技术实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面内容中任一项所述的预测方法。
36.可以理解的是,上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
37.本技术实施例与现有技术相比存在的有益效果是:
38.本技术提供了一种突变签名的预测方法,通过体细胞的基因表达向量预测体细胞的突变签名,不受限于体细胞的突变数量,具有普适性和准确性。
39.本技术利用机器学习的方法构建了突变签名和基因表达量之间的关联,验证了体细胞的突变签名与全部基因表达及非编码rna的失调基因表达之间关联的普遍性,能协助医生或工程师快捷地获取特定突变签名对应的失调表达的基因,并基于rna测序数据构建了预测模型来预测突变签名的类型,还能同时获取致癌物或生物标记。一方面为临床癌症的筛查和诊断提供了分子水平的解释,另一方面对标靶功能非编码rna进行研究,有利于癌症靶向治疗药物的研发。
附图说明
40.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1是本技术一实施例提供的一种突变签名的预测方法的流程示意图;
42.图2是本技术一实施例提供的构建各预测模型的流程示意图;
43.图3是本技术一实施例提供的导致特征性的突变签名的各种突变过程示意图;
44.图4是本技术一实施例提供的每个突变签名对9,096位患者的贡献示意图;
45.图5是本技术一实施例提供的皮肤黑色素瘤和肺腺癌分别与突变签名的关联关系示意图;
46.图6是本技术一实施例提供的基于全部基因的svm类模型的acc和auc热图示意图;
47.图7是本技术一实施例提供的基于全部基因的rf类模型的acc和auc热图示意图;
48.图8是本技术一实施例提供的基于全部基因的xgboost类模型的acc和auc热图示意图;
49.图9是本技术一实施例提供的基于全部基因的svm类、rf类、xgboost类模型的acc和auc分布及优秀模型韦恩图示意图;
50.图10是本技术一实施例提供的基于全部基因的luad中sbs4(吸烟签名)模型的roc与lusc中sbs4(吸烟签名)模型的roc示意图;
51.图11是本技术一实施例提供的基于全部基因的ucs中sbs2模型的roc示意图;
52.图12是本技术一实施例提供的所有优秀模型的基因类型组成示意图;
53.图13是本技术一实施例提供的基于蛋白质编码基因的svm类模型的acc和auc热图示意图;
54.图14是本技术一实施例提供的基于蛋白质编码基因的rf类模型的acc和auc热图示意图;
55.图15是本技术一实施例提供的基于蛋白质编码基因的xgboost类模型的acc和auc热图示意图;
56.图16是本技术一实施例提供的基于蛋白质编码基因的svm类、rf类、xgboost类模型的acc和auc分布及优秀模型韦恩图示意图;
57.图17是本技术一实施例提供的基于蛋白质编码基因的luad中sbs4(吸烟签名)模型的roc与lusc中sbs4(吸烟签名)模型的roc示意图;
58.图18是本技术一实施例提供的基于蛋白质编码基因的ucs中sbs2模型的roc示意图;
59.图19是本技术一实施例提供的基于第三数据集针对587个优秀模型的验证auc和auc示意图;
60.图20是本技术一实施例提供的第三数据集上rf模型和svm模型的验证混淆矩阵示意图;
61.图21是本技术一实施例提供的来自第三数据集的svm和rf模型的准确性,特异性和敏感性,以及第三数据集上由svm模型和rf模型生成的验证数据集上的roc示意图;
62.图22是本技术实施例提供的一种突变签名的预测装置的结构示意图;
具体实施方式
63.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本技术的描述。
64.另外,在本技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
65.在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
66.目前在生物医学研究和应用中,存在三种利用突变签名的主要途径:
67.首先,在癌症流行病学中,突变签名可以量化已知致癌物的暴露量或鉴定以前未知的致癌物。
68.第二、在癌症治疗中,突变签名可用作不同dna修复途径失败的生物标记。这为现有靶向疗法提供了机会,例如dna修复酶(poly adp-ribose polymerase,parp)抑制剂,初步结果表明患者对这些疗法有积极反应。
69.第三,在基础的dna修复和诱变研究中,突变签名分析能用于描述单个体细胞突变的来源。更具体地说,现在能概率性地将突变签名归因于癌症基因组中的每个体细胞突变。这能更好地了解诱变致癌基因组和表观基因组修饰符。
70.故突变签名是在癌症流行病学、癌症治疗和基础科学研究中经常使用的强大工具。突变签名能深入了解肿瘤的发生,并可能阐明早期的预防策略。
71.由于目前只能通过体细胞突变检测到突变签名,当前尚未有基于体细胞的突变类
型与基因表达量之间的关联进行突变签名的综合预测。
72.本技术实施例提供的一种体细胞的突变签名的预测方法,通过基于待预测样本的体细胞获取待预测样本的第一基因表达向量,第一基因表达向量用于描述待预测样本与多个基因表达量的对应关系,并将第一基因表达向量输入已构建的多个预测模型进行预测,获得多个预测模型输出的预测结果,根据多个预测模型输出的预测结果,确定待预测样本的体细胞的突变签名。本技术解决了现有技术不能通过待预测样本的基因表达数据来预测体细胞的突变签名的问题,实现了通过待预测样本的基因表达量来预测体细胞的突变签名。
73.本技术实施例利用机器学习的方法构建了突变签名和基因表达之间的关联,验证了体细胞突变与全部基因及非编码rna的表达失调之间关联的普遍性,能协助医生或工程师快捷地获取特定突变签名对应的失调表达的基因,并基于rna测序数据构建了优秀预测模型来预测突变签名的类型,还能同时获取致癌物或生物标记。一方面为临床癌症的筛查和诊断提供了分子水平的解释,另一方面对标靶功能非编码rna进行研究,有利于癌症靶向治疗药物的研发。
74.下面通过具体的实施例来说明本技术的技术方案。
75.如图1所示,本技术实施例的第一方面提供了一种体细胞的突变签名的预测方法,包括:
76.s100,获取待预测样本的体细胞的第一基因表达向量。
77.具体实施中,对待预测样本的已突变为癌症的体细胞进行基因检测,通过对体细胞中rna测序获取待预测样本的基因表达量数据,通过对体细胞中dna测序获取待预测样本的体细胞突变数据,例如,待预测样本是某癌症患者,其中第一基因表达向量用于描述待预测样本与多个基因表达量的对应关系。通过对体细胞的rna测序获得56716个基因的基因表达量数据,故第一基因表达向量为待预测样本与56716个基因表达量的对应关系的集合或一维矩阵。若待预测样本数量为1,第一基因表达向量的具体内容参考表5中患者1与56716个基因表达量的对应关系的集合。
78.人类的脱氧核糖核酸(deoxyribonucleic acid,dna)是由脱氧核苷酸组成的大分子聚合物,而脱氧核苷酸由碱基、脱氧核糖和磷酸构成,其中碱基有4种:腺嘌呤(a)、胸腺嘧啶(t)、胞嘧啶(c)和鸟嘌呤(g)。
79.突变类型为人类基因dna中脱氧核苷酸的碱基发生突变的特征集合,目前一共有96种突变类型。其中,由于碱基突变的类型有c
→
a,c
→
g,c
→
t,t
→
a,t
→
c,t
→
g共6种基本类型,然后每个突变点的上游有1个核苷酸碱基及下游有1个核苷酸碱基,每个核苷酸碱基的均有a、t、c、g共4种可能,故一共有4
×6×
4=96种突变类型。
80.具体地,各癌症患者的体细胞突变数据集的部分内容如表1所示,例如,患者1的染色体chr1的突变位置在序号为89063200处,方向为+,碱基突变的基本类型为c
→
t,碱基突变类型为错义突变。
81.患者编号染色体突变位置方向参考碱基突变碱基突变类型患者1chr189063200+ct错义突变患者1chr829140137+tc错义突变患者1chr8144504453+ag错义突变
患者1chr10129840932+ag同义突变患者1chr11117409839+tg错义突变患者2chr186469105+ac错义突变患者2chr255673000+tc同义突变患者2chr2178591239+ta同义突变
82.表1
83.s200,将第一基因表达向量分别输入已构建的多个预测模型进行预测,获得各预测模型输出的预测结果,预测模型用于描述多个基因表达量与一种突变签名的关联关系。
84.由于造成人类体细胞突变而导致33种癌症类型的突变特征原因各不相同,且存在同一种癌症类型具有多个突变特征原因的情况,而人类大约有56716个基因,某一种模型不能很好地对如此多的复杂关联关系进行准确预测,故需要结合多种机器学习模型进行预测后再择优选取预测结果。已经构建好的各预测模型封装在一个预测模型工具中,将至少一个待预测样本的基因表达向量输入或上传至预测模型工具中预设的入口、窗口或变量,各个预测模型根据待预测样本所患的癌症种类的突变类型输出至少一个的预测结果。多个预测结果可以避免部分模型存在误差或其他影响因素造成预测结果的偏差,便于从多个预测结果中选取最合适的预测结果。
85.具体实施中,将待预测样本的第一基因表达向量输入已经预先构建的多个预测模型进行运算预测。在一个实施例中,预测模型包括:随机森林模型(random forests,rf)、极端梯度提升树模型(extreme gradient boosting,xgboost)及支持向量机模型(support vector machine,svm)。实际实施中,不局限于上述三个机器学习模型,根据预测结果是否满足评价指标的要求而选择合适的机器学习模型。
86.如图2所示,在一个实施例中,构建多个预测模型的步骤包括:
87.s210,获取癌症基因信息并构建第一数据集和第二数据集。
88.其中,获取训练样本的癌症基因信息,并构建用于训练机器学习模型的第一数据集和第二数据集,第一数据集为多个第一关联关系向量的集合,第一关联关系向量用于描述训练样本与多种突变签名的关联关系,第二数据集为多个第二基因表达向量的集合,第二基因表达向量用于描述训练样本与多个基因表达量的对应关系。
89.造成体细胞突变的过程有酶促修饰、诱变剂、基因编辑错误、其他生活习惯例如抽烟造成,其中,诱变剂又包括人体内的内在因素和药物等外来因素的造成的诱变剂,而外来因素又包括紫外线辐射的物理因素、芳香胺的化学因素及病毒的生物因素,而基因编辑的错误包括dna修复和dna复制造成错误。这些造成体细胞突变的特征性类型被称为突变签名,例如内在突变过程、dna修复、烟草、紫外线辐射、聚合酶突变、化学药物疗法、外在致癌物、未知致癌因素等突变签名。
90.在一个实施例中,获取癌症基因信息并构建第一数据集和第二数据集,包括:
91.s211,获取癌症基因信息,癌症基因信息包括训练样本的体细胞的突变数据集、训练样本的基因表达量数据集及标准频率数据集,标准频率数据集为突变签名对应突变类型的频率数据集。
92.具体地,从癌症基因组图谱数据库(the cancer genome atlas,tcga)中下载获得33种癌症类型的10274例癌症患者的基因表达量数据和10179例患者的体细胞突变数据
(grch38版本),对这两个数据源进行相互融合,将融合后的9096名癌症患者的基因表达量数据集和体细胞突变数据集分别作为训练样本的基因表达量数据集和训练样本的体细胞的突变数据集。基于训练样本的体细胞的突变数据和突变签名的类型计算突变签名的数量,在本实施例中,优选地,突变签名的数量为小于或者等于49种。实际实施中,突变签名的数量不局限于49种突变签名,根据预测模型的需要,还可以为50、75、100种突变签名的其他数量。
93.在本实施例中分析了训练样本的突变签名的计算过程、分布、和相关属性。具体包括各种突变过程会导致特征性的突变签名(如图3所示)、每个突变签名对9096位患者的贡献(如图4所示)、按贡献突变签名的类别对每种癌症类型进行解析(图中未示出)、皮肤黑色素瘤(skin cutaneous melanoma,skcm)和肺腺癌(lung adenocarcinoma,luad)与突变签名的关联关系(如图5所示),其中紫外线损坏是skcm中的主要突变签名,吸烟相关的签名是luad的主要突变签名,训练样本可能表现出对多个突变签名的关联,但仅对贡献最大的突变签名进行计数。
94.由于不同癌症中96种突变类型出现的频率不同,故将96种突变类型的频率组合起来,能作为一种固定的突变模式,用来表征某一类癌症。癌症是由于体细胞突变发展而来,体细胞突变的特征性类型为突变签名,故每个突变签名是96种突变类型频率的频率数据的集合,突变类型频率也称为三核苷酸基序频率或突变基序频率。其中,一种突变类型频率为该突变类型在一训练样本中出现的次数与96种突变类型出现的总次数的比值。
95.从癌症体细胞突变目录数据库(catalogue of somatic mutations in cancer,cosmic)中下载49种突变签名对应突变类型的频率数据集,获得标准频率数据集,标准频率数据集为49种突变签名对应96种突变类型的频率数据集,标准频率数据集也为一个49
×
96的概率矩阵,记作b∈rm×
96
,其中m=49。标准频率数据集中部分内容如表2所示。
[0096][0097]
表2
[0098]
s212,基于训练样本的体细胞的突变数据集获得样本频率数据集,样本频率数据集为训练样本的突变类型的频率数据集。
[0099]
在一个实施例中,基于训练样本的体细胞的突变数据集获得多个训练样本的突变类型的频率数据集,从而获得样本频率数据集,样本频率数据集为n个训练样本的96种突变类型的频率数据集,样本频率数据集也为一个n
×
96的矩阵,记作c∈rn×
96
,其中,n为正整数。在本实施例中,n为9096,样本频率数据集中部分内容如表3所示。
[0100][0101]
表3
[0102]
s213,基于标准频率数据集和样本频率数据集,通过突变类型矩阵计算式获得第一数据集。
[0103]
在一个实施例中,基于标准频率数据集和样本频率数据集通过突变类型矩阵计算式进行矩阵运算变换获得第一数据集,第一数据集为n个第一关联关系向量的集合,第一关联关系向量用于描述训练样本与m种突变签名的关联关系,第一数据集也为一个n
×
m的矩阵,记作an×m,其中,n=9096,m=49。第一数据集中部分数据如表4所示。
[0104][0105]
表4
[0106]
突变类型矩阵计算式为:
[0107]cn
×i=an×
mbm
×i[0108]
其中,cn×i为样本的频率数据集,表示n个训练样本的i种突变类型的频率数据集;
[0109]an
×m表示第一数据集,表示n个训练样本与m种突变签名的关联关系;
[0110]bm
×i为标准频率数据集,表示m个突变签名对应i种突变类型的频率数据集,其中,n、m、i均为正整数,n≧1,m≧1,i≧1。
[0111]
s214,基于训练样本的基因表达量数据集获得第二数据集。
[0112]
在一个实施例中,基于9096个训练样本的基因表达量数据集获得9096个第二基因表达向量的集合,第二基因表达向量用于描述训练样本与56716个基因表达量的对应关系,从而获得第二数据集。第二数据集中部分基因表达向量的内容如表5所示。
[0113][0114]
表5
[0115]
s220,基于第一数据集和第二数据集通过线性回归模型获得线性回归值。
[0116]
在一个实施例中,基于第一数据集的9096个第一关联关系向量的集合,第一关联关系向量用于描述训练样本与49种突变签名的关联关系,获得一训练样本与49种突变签名的关联关系的第一关联关系向量y;基于第二数据集的9096个第二基因表达向量的集合,第二基因表达向量用于描述训练样本与56716个基因表达量的对应关系,获得一训练样本与56716个基因表达量的对应关系的第二基因表达向量x。
[0117]
将一训练样本的第二基因表达向量x与一训练样本的第一关联关系向量y通过单变量线性回归模型获得线性回归值p,线性回归值p用于描述一训练样本的第二基因表达向量x与一训练样本的第一关联关系向量y的关联关系,p值越小表示突变签名的变化与基因表达量的变化相关性越强。由于每个第二基因表达向量中有56716个基因表达量,对于一癌症类型的49种突变签名中的一突变签名来说,共计获得了56716个p值。
[0118]
单变量线性回归模型为:
[0119]
y=θ0+θ1x
[0120]
其中,θ0表示直线的截距;
[0121]
θ1表示直线的斜率;
[0122]
x表示第二数据集中一训练样本的第二基因表达向量;
[0123]
y表示第一数据集中一训练样本的第一关联关系向量。
[0124]
s230,基于作为训练集的第一数据集与第四数据集,以及作为验证集的第三数据集训练各机器学习模型,直到满足第一预设条件停止训练获得训练后的各预测模型。
[0125]
在一个实施例中,第四数据集为多个第三基因表达向量的集合,第三基因表达向量用于描述训练样本与预设数量的基因表达量的对应关系,预设数量为第二预设条件的线性回归值的数量。第二预设条件为线性回归值从小到大排序的序列中序号小于或者等于z的线性回归值,z为正整数。在本实施例中,优选地,z取值为600,即预设数量为600。本实施例对于z的数值不做具体的限制,根据模型预测精度进行选择,例如z为300、400、500、800、1000等正整数。
[0126]
对线性回归p值按从小到大的升序排序,选取升序排序中序号前600个线性回归p值,再基于这600个线性回归p值获得600个第二关联关系向量,第二关联关系向量用于描述第二基因表达向量与第一关联关系向量的关联关系。故从600个第二关联关系向量中获得对应的600个基因表达量。这600个基因表达量为56716个基因表达量中与一突变签名相关
性最强的基因表达量,获得600个基因表达量等于获得了对应的基因表达。
[0127]
在一个实施例中,第三基因表达向量用于描述训练样本与600个的基因表达量的对应关系,第四数据集为9096个第三基因表达向量的集合,第四数据集也可以用9096
×
600的矩阵来表示。
[0128]
采用随机森林机器学习模型(rf模型)、极端梯度提升树机器学习模型(xgboost模型)及支持向量机机器学习模型(svm模型)来模拟突变签名与基因表达量之间的关联关系。训练模型记作:
[0129]
y=f(x)
[0130]
其中,f(
·
)表示不同的机器学习预测模型;
[0131]
x表示第四数据集,即x为9096个第三基因表达向量的集合;
[0132]
y表示第一数据集中一训练样本的第一关联关系向量。
[0133]
将第一数据集和第四数据集作为训练集分别对随机森林机器学习模型(rf模型)、极端梯度提升树机器学习模型(xgboost模型)及支持向量机机器学习模型(svm模型)进行训练,直到满足第一预设条件,再使用验证集对训练后的各机器学习模型进行验证,直到验证结果也满足第一预设条件获得训练后的各预测模型。
[0134]
其中,验证集为第三数据集,第三数据集为多个基因表达量与一种突变签名的关联关系的集合。
[0135]
在一个实施例中,从基因表达合集数据库(gene expression omnibus,geo)中下载具有已知吸烟状态的肺癌患者的基因表达独立数据集(gse29016)形成为第三数据集,第三数据集为多个基因表达量与吸烟状态的突变签名的关联关系的集合,用于验证吸烟相关的突变签名与训练样本的各基因表达量的关联关系是否满足第一预设条件。
[0136]
在本实施例中,优选地,第一预设条件为:roc曲线下面积(area under curve,or area under the curve of roc,auc)≧80%,以及准确度(accuracy,acc)≧80%,满足第一预设条件的模型认定为优秀模型。
[0137]
进一步地,在训练和验证各机器学习模型的时候,采用五折交叉验证应用于全部机器学习模型的训练和验证。在训练和验证模型的过程中,大于系数中值的突变签名记作正样本,小于或者等于系数中值则记作负样本。
[0138]
根据上述内容,基于33种癌症类型、49种突变签名、3个机器学习模型,初始机器学习模型有33
×
49
×
3=4851个。
[0139]
针对一癌症类型的第i种突变签名的预测模型,本实施例输入训练样本的基因表达向量采用3个不同的预测模型来进行预测,记作:
[0140]
si=f
isvm
,f
irf
,f
ixgb
]
[0141]
可选地,还能将第三数据集的所有训练样本随机分为两个集合,其中80%的数据形成训练集,剩余的20%数据形成验证集,训练集用于训练和选择各机器学习模型,验证集用于评估各机器学习模型的性能。
[0142]
经过筛选最终获得587个优秀的预测模型,优秀的预测模型的集合se记作:
[0143]
se={s∈s|auc(s)≥0.8&acc(s)≥0.8}
[0144]
可选地,在本实施例中,还使用56716个的全部基因表达量和其中的蛋白质编码基因两个集合分别进行建模训练。
[0145]
针对56716个的全部基因表达量集合,通过三种机器学习模型中的至少一种成功解决了996分类问题中的374个。如图6、图7、图8所示,svm模型在372个优秀模型中表现最好,而rf模型在74个优秀模型中排名第二,xgboost模型有29个优秀模型。热图中的每个单元表示由癌症类型和突变签名定义的模型。如果acc和auc均高于0.8,则优秀模型将按auc和acc的平均值采用“√”表示。否则,模型将被认为是不优秀的,并以统一的纯色表示。图9为本实施例提供的基于全部基因的svm类、rf类、xgboost类模型的acc和auc分布及优秀模型韦恩图的示意图。
[0146]
使用svm模型分析,发现优秀模型的数量在不同癌症类型之间高度不平衡。部分癌症类型,例如卵巢癌(ovarian cancer,ov)、肾透明细胞癌(kidney renal clear cell carcinoma,kirc)和肾乳头细胞癌(kidney renal papillary cell carcinoma,kirp),优秀模型中包括能对40多种突变签名进行预测的预测模型。相反,例如子宫癌肉瘤(uterine carcinosarcoma,ucs)和葡萄膜黑色素瘤(uvveal melanoma,uvm),则优秀模型中只能对小于5个突变签名进行预测的预测模型。
[0147]
癌症类型之间的差异反映了癌症内部的异质性,其中癌症类型因突变和基因表达谱而异。针对56716个的全部基因集合,有26对癌症与突变签名关联在三类预测模型中都是优秀的预测模型。
[0148]
如图10、图11所示,本实施例列出了在五折交叉验证中获得最好性能的三种关联预测模型对应的roc曲线,包括:肺腺癌(luad)和肺鳞状细胞癌(lung squamous cell carcinoma,lusc)中的单碱基置换4(single base substitutions,sbs4,对应于吸烟信号)突变签名,子宫癌肉瘤(uterine carcinosarcoma,ucs)中的sbs2(对应于aid/apobec蛋白)突变签名。使用svm模型预测时,输入全部基因库的这些分类方案实现了auc》0.94。
[0149]
如图12所示,本实施例还检查了svm预测模型使用的特征的基因类型组成,确定优秀的模型中使用了大量的非编码rna(ribonucleic acid)。在许多情况下,非编码rna的比例高于蛋白质编码rna。长链非编码rna(long non-coding rna,lncrna)和伪基因是svm模型使用的两种最主要的非编码rna类型。该结果暗示了体细胞突变实质上影响了非编码rna基因表达。
[0150]
针对蛋白质编码基因集合,当基因集合仅包括蛋白质编码基因时,所有996次模型训练中只有84个预测模型达到了优秀模型的标准。如图13、图14、图15所示,svm模型有84个优秀的预测模型,rf模型有20个优秀的预测模型,xgboost模型有8个优秀的预测模型。其中,svm模型获得了最高的acc和auc。热图中的每个单元表示由癌症类型和突变签名定义的模型。如果acc和auc均高于0.8,则优秀模型将按auc和acc的平均值采用“√”表示。否则,模型将被认为是不优秀的,并以统一的纯色表示。图16为本实施例提供的基于蛋白质编码基因的svm类、rf类、xgboost类模型的acc和auc分布及优秀模型韦恩图的示意图;
[0151]
针对蛋白质编码基因集合,有7对癌症与突变签名关联在三类预测模型中都是优秀的预测模型。如图17、图18所示,分别列出肺腺癌(luad)中基因表达与sbs4(对应吸烟信号)突变签名关联的预测模型、肺鳞状细胞癌(lusc)中基因表达与sbs4(对应吸烟信号)突变签名关联的预测模型及子宫癌肉瘤中中基因表达与sbs2(aid/apobec)突变签名关联的预测模型共三个高性能模型的roc曲线。将最优秀的三个预测模型分别获得的auc值在56716个全部基因的集合和蛋白质编码基因集合中进行对比,与56716个全部基因的集合相
比,蛋白质编码基因组的auc值一致偏低,故非编码基因是增强模型性能必不可少的特征。
[0152]
采用具有已知的吸烟状态的突变签名的肺癌独立表达数据集的第三数据集来验证优秀的肺鳞状细胞癌(lusc)中基因表达与sbs4突变签名关联的rf预测模型和svm预测模型。由于sbs4突变签名与吸烟量明显相关,因此本实施例将吸烟状态指定为sbs4突变签名的替代物。
[0153]
如图20、图21所示,将第三数据集中的训练样本分为56位吸烟者和10位从不吸烟者,即将第三数据集分为sbs4阳性和sbs4阴性,阳性对应为吸烟,阴性对应于不吸烟。rf预测和svm预测模型的验证结果的总体混淆矩阵分别进行对比,rf预测模型获得的验证准确度acc为84.8%,灵敏度为80.0%及特异性为85.7%。svm预测模型获得的验证准确度acc为80.3%,灵敏度为80.0%及特异性为80.4%,并对rf预测和svm预测模型的roc曲线进行了对比。
[0154]
如图19所示,将第三数据集按80%训练集和20%验证集的方法用于验证31种癌症类型的587个预测模型的性能,所有预测模型的acc和auc均大于80%。
[0155]
在本实施例选取的三种机器学习模型中,svm预测模型获得了最高的auc值,rf预测模型和xgboost预测模型的性能中等。平均来说,每种癌症类型的基因表达能预测大约65%的已知突变签名。预测结果表明体细胞突变和基因表达改变之间的调节作用并非普遍存在,即并非每个待预测样本的体细胞突变都能对基因表达产生影响。
[0156]
s300,根据多个预测模型输出的预测结果,确定待预测样本的体细胞的突变签名。
[0157]
在一个实施例中,rf预测模型、xgboost预测模型及svm预测模型中最优的预测模型输出预测结果,根据预测结果,确定待预测样本的体细胞的突变签名,以便发现造成待预测样本的体细胞的突变签名分布,有利于寻找产生体细胞突变的来源,有利于癌症靶向治疗药物的研发。
[0158]
本实施例提供的一种体细胞的突变签名的预测方法,通过基于待预测样本的体细胞获取待预测样本的第一基因表达向量,并将第一基因表达向量输入已构建的多个预测模型进行预测,获得多个预测模型输出的预测结果,根据多个预测模型输出的预测结果,确定待预测样本的体细胞的突变签名,不受限于体细胞的突变数量,具有普适性和准确性。
[0159]
本实施例还利用机器学习的方法构建了突变签名和基因表达量之间的关联,验证了体细胞的突变签名与全部基因表达及非编码rna的失调基因表达之间关联的普遍性,能协助医生或工程师快捷地获取特定突变签名对应的失调表达的基因,并基于rna测序数据构建了优秀预测模型来预测突变签名的类型,还能同时获取致癌物或生物标记。一方面为临床癌症的筛查和诊断提供了分子水平的解释,另一方面对标靶功能非编码rna进行研究,有利于癌症靶向治疗药物的研发。
[0160]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
[0161]
对应于上文实施例所述的预测方法,图22示出了本技术实施例提供的一种体细胞的突变签名的预测装置的结构框图,为了便于说明,仅示出了与本技术实施例相关的部分。
[0162]
本技术实施例的第二方面提供了一种突变签名的预测装置,包括:
[0163]
获取向量模块10,用于获取待预测样本的体细胞的第一基因表达向量,第一基因
表达向量用于描述待预测样本与多个基因表达量的对应关系;
[0164]
模型预测模块20,用于将第一基因表达向量分别输入已构建的多个预测模型进行预测,获得各预测模型输出的预测结果,预测模型用于描述多个基因表达量与一种突变签名的关联关系;
[0165]
获取结果模块30,用于根据多个预测模型输出的预测结果,确定待预测样本的体细胞的突变签名。
[0166]
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本技术方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
[0167]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0168]
本技术实施例的第三方面提供了一种终端设备,包括:
[0169]
存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的预测方法。
[0170]
本技术实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面内容中任一项所述的预测方法。
[0171]
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
[0172]
本技术实施例提供的一种突变签名的预测方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本、个人数字助理(personal digital assistant,pda)等终端设备上,本技术实施例对终端设备的具体类型不作任何限制。
[0173]
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
[0174]
所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件
分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
[0175]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0176]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0177]
以上所述实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。