1.本发明实施例涉及生物信息技术领域,尤其涉及一种肿瘤新生抗原预测方法、装置、设备及介质。
背景技术:2.肿瘤新生抗原是指被人体抗原呈递细胞识别的原本不存于人体的“非我”新生蛋白多肽,该“非我”的新生多肽主要是由肿瘤细胞突变形成的突变蛋白凋亡而来,肿瘤新生抗原是激发机体免疫系统对肿瘤细胞初始免疫反应的关键因素。
3.目前,对肿瘤新生抗原的预测方法主要分三类:第一类基于结构的方法;第二类基于特定位置的打分矩阵预测肽段与新生抗原的亲和力值;第三种基于机器学习方法。
4.基于结构的方法,是通过计算肽段
‑
hla复合体的最小自由能,但由于结晶结构的数量有限,预测的速度非常慢,并且不准确;基于特定位置的打分矩阵预测肽段与新生抗原的亲和力值,该方法线性计算复杂度要比基于结构的方法和基于机器学习的方法的非线性计算复杂度低的多,但是需要对相似基序设定特征,构造特定位置的打分函数,需要融入专家经验,过程复杂繁琐且准确率不高;基于机器学习方法预测,通过支持向量机、隐马尔可夫模型、简单神经网络等模型预测大量的hla类型的auc平均值,提供了很好的预测工具,但是需要考虑肽中每个位置上每个残基的贡献,构造一个定量矩阵,然后输入一个机器学习模型,这个过程中需要不断的重复考量残基的贡献分数,要求很高的专业知识和经验,不能自动提取高级特征,对于出现在大多数人群中的少数hla类型,预测的精度也不够准确,同时由于它们非线性性,这些方法在预测从全基因组和转录组测序数据中产生的大量肽方面效率低下;基于组合的方法,性能有所提高,但是性能依然不尽如人意。
技术实现要素:5.本发明实施例提供一种肿瘤新生抗原预测方法、装置、设备及介质,以实现提高确定肿瘤新生抗原的准确性,降低人力成本的效果。
6.第一方面,本发明实施例提供了一种肿瘤新生抗原预测方法,该方法包括:
7.获取肿瘤患者的白细胞抗原序列和肽段序列;
8.将所述白细胞抗原序列和所述肽段序列输入至训练好的亲和力分值预测模型中,得到所述白细胞抗原序列和所述肽段序列的亲和力分值;
9.根据亲和力分值确定所述肽段序列是否为肿瘤新生抗原。
10.第二方面,本发明实施例还提供了一种肿瘤新生抗原预测装置,该装置包括:
11.序列获取模块,用于获取肿瘤患者的白细胞抗原序列和肽段序列;
12.亲和力分值获取模块,用于将所述白细胞抗原序列和所述肽段序列输入至训练好的预测模型中,得到所述白细胞抗原序列和所述肽段序列的亲和力分值;
13.肿瘤新生抗原确定模块,用于根据亲和力分值确定所述肽段序列是否为肿瘤新生抗原。
14.第三方面,本发明实施例还提供了一种肿瘤新生抗原预测设备,其中,所述肿瘤新生抗原预测设备包括:
15.一个或多个处理器;
16.存储装置,用于存储一个或多个程序;
17.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所提供的肿瘤新生抗原预测方法。
18.第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如本发明任意实施例所提供的肿瘤新生抗原预测方法。
19.本发明实施例的技术方案,通过获取肿瘤患者的白细胞抗原序列和肽段序列;将所述白细胞抗原序列和所述肽段序列输入至训练好的亲和力分值预测模型中,得到所述白细胞抗原序列和所述肽段序列的亲和力分值;可以自动确定白细胞抗原序列和肽段序列的亲和力分值,无需基于相似的基序设定特征或对每个基序的贡献设定分数,可通过亲和力分值预测模型自动提取特征,可以提取到更加深层的特征,从而提高亲和力分值的准确性;根据亲和力分值确定所述肽段序列是否为肿瘤新生抗原,解决了确定肿瘤新生抗原准确率和效率不高的问题,实现提高确定肿瘤新生抗原的准确率和效率,降低人力成本的效果。
附图说明
20.图1是本发明实施例一中的一种肿瘤新生抗原预测方法的流程图;
21.图2是本发明实施例一中的肿瘤新生抗原深度学习deeptna模型的训练集与验证集预测准确率与损失值对比示意图;
22.图3是本发明实施例一中的肿瘤新生抗原deeptna模型示意图;
23.图4是本发明实施例二中的一种肿瘤新生抗原预测方法的流程图;
24.图5是本发明实施例二中的与现有预测模型相比预测肿瘤新生抗原准确率的对比示意图;
25.图6是本发明实施例三中的一种肿瘤新生抗原预测装置的结构图;
26.图7是本发明实施例四中的一种肿瘤新生抗原预测设备的结构示意图。
具体实施方式
27.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
28.实施例一
29.图1为本发明实施例一提供的一种肿瘤新生抗原预测方法的流程图,本实施例可适用于对肿瘤新生抗原进行预测情况,该方法可以由肿瘤新生抗原预测装置来执行,具体包括如下步骤:
30.s110、获取肿瘤患者的白细胞抗原序列和肽段序列。
31.目前,可通过获取肿瘤患者的白细胞抗原序列和肽段序列的亲和力来预测肿瘤新生抗原。人类白细胞抗原是具有高度多态性的同种异体抗原,其化学本质为一类糖蛋白,由
一条α重链(被糖基化的)和一条β轻链非共价结合而成。其肽链的氨基端向外(约占整个分子的3/4),羧基端穿入细胞质,中间疏水部分在胞膜中。肽段为氨基酸脱水缩合成的链状物质。可选的,通过免疫表位数据库(iedb)或相关文献获取肿瘤患者的白细胞抗原序列和肽段序列,从而基于白细胞抗原序列和肽段序列获取二者的亲和力分值,根据亲和力分值确定肽段序列是否为肿瘤新生抗原。
32.s120、将白细胞抗原序列和肽段序列输入至训练好的亲和力分值预测模型中,得到白细胞抗原序列和肽段序列的亲和力分值。
33.将获取的白细胞抗原序列和肽段序列输入至训练好的亲和力分值预测模型中,可直接得到白细胞抗原序列和肽段序列的亲和力分值。无需基于相似的基序设定特征或对每个基序的贡献设定分数,基于这些特征通过预先设计的分值计算函数,或将计分特征矩阵输入至传统机器学习模型中,如随机森林和决策树等模型,从而实现白细胞抗原序列和肽段序列的亲和力分值的预测,通过本实施例的技术方案,可降低人力成本,与将白细胞抗原序列和肽段序列直接拼接,输入到简单的神经网络或rnn模型中得到的预测准确率相比,本实施例的准确率有大幅的提升,也无需将获取的白细胞抗原序列和肽段序列处理为规则的二维矩阵,将转换为二维矩阵的白细胞抗原序列和肽段序列输入至训练好的如卷积神经网络等深度学习网络中,获取白细胞抗原序列和肽段序列亲和力分值,降低数据处理的复杂度。如图2所示,将训练集的样本数据输入至待训练的亲和力预测模型得到的亲和力分值准确率和训练集损失值;将验证集的样本数据输入至已训练的亲和力预测模型得到的亲和力分值准确率和验证集损失值;由图2可以看出,验证集损失值与训练集损失值都非常小,训练集loss为0.26,且验证集loss仅为0.34,验证集准确率与训练集准确率很接近,训练集准确率为89%,验证集准确率也达到了87%,故该深度学习模型deeptna模型不存在过拟合或欠拟合的情况且模型准确率很高,得到的亲和力预测模型deeptna可以准确的预测亲和力分值。
34.可选的,如图3所示,亲和力分值预测模型包括编码器和解码器;所述将所述白细胞抗原序列和所述肽段序列输入至训练好的亲和力分值预测模型中,得到所述白细胞抗原序列和所述肽段序列的亲和力分值,包括:通过所述编码器将所述白细胞抗原序列和所述肽段序编码得到序列编码;通过所述解码器,根据所述序列编码确定所述亲和力分值。为了降低人力成本,无需基于相似的基序设定特征或对每个基序的贡献设定分数,减少加入专家的成本和人为设定或标记特征成本。同时避免将肽段处理为规则的二维矩阵,降低了数据处理的复杂度。将白细胞抗原序列和肽段序列输入至训练好的基于编码器
‑
解码器的深度学习模型中,获取白细胞抗原序列和肽段序列的亲和力分值。通过亲和力分值预测模型中的编码器对白细胞抗原序列和肽段序列进行编码操作,将白细胞抗原序列和肽段序列转化为计算机能够识别的编码;将编码后的白细胞抗原序列和肽段序列输入至亲和力分值预测模型中的解码器部分,通过亲和力分值预测模型中的解码器根据编码后的白细胞抗原序列和肽段序列进行亲和力分值预测,得到白细胞抗原序列和肽段序列的亲和力分值,相较于通过基于相似的基序设定特征或对每个基序的贡献设定分数构造定量特征矩阵,再根据设定的特征计算亲和力分值,提高了亲和力分值预测的效率。进一步的,训练亲和力分值预测模型时,增长训练样本肽段的长度范围,可选的,长度范围可包括:8
‑
15mer。使训练好的亲和力分值预测模型的能够预测的肽段范围更广。
35.可选的,通过所述编码器将所述白细胞抗原序列和所述肽段序编码得到序列编码,包括:通过所述编码器将所述白细胞抗原序列和所述肽段序列进行拼接处理,得到拼接序列;通过所述编码器将所述拼接序列进行编码得到序列编码。如图3所示,在通过亲和力分值预测模型中的编码器部分对白细胞抗原序列和肽段序列进行编码前,将提取白细胞抗原序列和肽段序列的序列特征输入至整合层,进行拼接处理,构建序列的长向量,对拼接后的序列进行编码操作,示例性的,将拼接后的序列输入至embedding层,对拼接的序列进行编码,无需分别对白细胞抗原序列和肽段序列进行编码,降低了编码操作的复杂度。将拼接后的序列进行编码后可将白细胞抗原序列和肽段序列转化为计算机能够识别的编码,便于后续解码器进行解码操作。
36.可选的,解码器为基于门控机制和注意力机制构建。在神经网络中,当前面隐藏层的学习速率低于后面隐藏层的学习速率,即随着隐藏层数目的增加,分类准确率反而下降了。这种现象叫做消失的梯度问题。在神经网络中,梯度的衰减是有连续乘法导致的,如果在连续乘法中出现一个非常大的值,最后计算出的梯度就会很大,就想当优化到断崖处时,会获得一个很大的梯度值,如果以这个梯度值进行更新,那么这次迭代的步长就很大,可能会一下子飞出了合理的区域,这种现象叫梯度爆炸。通过门控机制来改善梯度消失和梯度爆炸的问题,示例性的,可通过gru和lstm等带有乘法门结构的网络,gru网络是lstm网络的一种效果很好的变体,它较lstm网络的结构更加简单,而且效果也很好,故将gru网络作为优选网络来改善梯度爆炸和梯度消失的问题。
37.注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力,从而可以快速提取稀疏数据的重要特征通过注意力机制可以对输入的数据进行降维,使预测模型输出的预测结果更关注通过注意力机制筛选的关键部分,从而提高神经网络模型处理数据的效率和准确率。
38.可选的,通过所述解码器,根据所述序列编码确定所述亲和力分值,包括:通过所述解码器,根据所述序列编码提取目标序列特征;根据所述目标序列特征确定所述亲和力分值。将编码后的白细胞抗原序列和肽段序列输入至亲和力分值预测模型中的的解码器部分,通过亲和力分值预测模型中的解码器对编码后的白细胞抗原序列和肽段序列进行特征提取,实现了特征提取的自动化,且相比于基于相似的基序设定特征或对每个基序的贡献设定分数构造特征矩阵的方法,通过解码器进行特征提取,使提取到的白细胞抗原序列和肽段序列的特征包含更加深层且更加高级的含义,从而提高亲和力分值预测的效率准确性。
39.可选的,通过所述解码器,根据所述序列编码提取目标序列特征,包括:通过所述解码器基于所述门控机制对所述序列编码提取序列特征;通过所述解码器基于所述注意力机制对所述序列特征进行筛选,得到筛选序列特征;通过所述解码器基于所述门控机制对所述筛选序列特征进行特征提取处理得到目标序列特征。通过解码器对白细胞抗原序列和肽段序列的编码进行特征提取,提取到序列特征后,基于注意力机制对对提取的序列特征进行筛选,从而提取到对白细胞抗原序列和肽段序列亲和力分值影响较大的特征,提高特征提取的效率。对筛选出的特征进行进一步特征提取处理,对影响力较大的特征进行进一步的特征挖掘与分析,得到目标序列特征。根据目标序列特征得到白细胞抗原序列和肽段
序列的亲和力分值。示例性的,将目标序列特征输入至sigmoid函数中,sigmoid函数为s型函数,通过sigmoid函数可将目标序列特征映射到[0,1]之间,从而得到范围在[0,1]之间的白细胞抗原序列和肽段序列的亲和力分值。通过目标训练特征获取白细胞抗原序列和肽段序列的亲和力分值,提高了亲和力分值的效率和准确性。通过编码器
‑
解码器结构的深度学习模型预测白细胞抗原序列和肽段序列的亲和力分值,可以自动提取白细胞抗原序列和肽段序列的高级特征,同时可以更加容易的更新和部署亲和力预测模型,将获取白细胞抗原序列和肽段序列输入至亲和力预测模型即可得到亲和力分值,无需对获取的白细胞抗原序列和肽段序列进行数据预处理,降低数据处理的复杂度,无需人工介入,提升亲和力分值获取的效率和准确率。
[0040]
s130、根据亲和力分值确定肽段序列是否为肿瘤新生抗原。
[0041]
肿瘤特异性抗原(tumor
‑
specific antigens,tsas)是能被t细胞识别的抗原,来自于肿瘤的基因组变异表达成肿瘤特有的肽段(neo
‑
epitopes),被定义为新生抗原(neoantigens)。与肿瘤相关性抗原不同,肿瘤新生抗原只存在于肿瘤细胞中,高质量的肿瘤新生抗原一般是突变肽,其与白细胞抗原的亲和力比正常肽的亲和力要高,故通过白细胞抗原序列和所肽段序列的亲和力分值确定肽段序列是否为肿瘤新生抗原。
[0042]
本发明实施例的技术方案,通过获取肿瘤患者的白细胞抗原序列和肽段序列;将所述白细胞抗原序列和所述肽段序列输入至训练好的亲和力分值预测模型中,得到所述白细胞抗原序列和所述肽段序列的亲和力分值;可以自动确定白细胞抗原序列和肽段序列的亲和力分值,基于相似的基序设定特征或对每个基序的贡献设定分数构造计量特征矩阵,可通过亲和力分值预测模型自动提取特征,可以提取到更加深层的特征,从而提高亲和力分值的准确性;根据亲和力分值确定所述肽段序列是否为肿瘤新生抗原,解决了确定肿瘤新生抗原准确率和效率不高的问题,实现提高确定肿瘤新生抗原的准确率和效率,降低软件实施的复杂度和人力成本的效果。
[0043]
实施例二
[0044]
图4为本发明实施例二提供的一种肿瘤新生抗原预测方法的流程图,本实施例是在上一实施例的基础上的进一步细化,根据亲和力分值确定所述肽段序列是否为肿瘤新生抗原,包括:当亲和力分值达到预设阈值时,确定所述肽段序列为肿瘤新生抗原。现有技术通常是从肿瘤的表达数据出发预测肿瘤新生抗原,缺乏正常肽段和突变肽与白细胞抗原亲和力的比较,会造成肿瘤新生抗原的筛选有假阳性。通过亲和力分值确定所述肽段序列是否为肿瘤新生抗原,可以提高肿瘤新生抗原预测的准确性。
[0045]
如图4所示,具体包括如下步骤:
[0046]
s210、获取肿瘤患者的白细胞抗原序列和肽段序列。
[0047]
s220、将白细胞抗原序列和肽段序列输入至训练好的亲和力分值预测模型中,得到白细胞抗原序列和肽段序列的亲和力分值。
[0048]
s230、当亲和力分值达到预设阈值时,确定所述肽段序列为肿瘤新生抗原。
[0049]
根据通过亲和力分值预测模型得到的白细胞抗原序列和肽段序列的亲和力分值来确定获取的肽段序列是否为肿瘤新生抗原。肿瘤新生抗原一般是突变肽对白细胞抗原的亲和力要比正常肽对白细胞抗原的亲和力要高。可选的,预先设定亲和力分值阈值,当前肽段序列与白细胞抗原的亲和力分值高于预先设定的亲和力分值阈值时,确定当前肽段序列
为肿瘤新生抗原;当前肽段序列与白细胞抗原的亲和力分值低于预先设定的亲和力分值阈值时,确定当前肽段序列并非肿瘤新生抗原。相较于现有技术从肿瘤的表达数据出发预测肿瘤新生抗原,会造成肿瘤新生抗原的筛选有假阳性。通过亲和力分值确定所述肽段序列是否为肿瘤新生抗原,可以提高肿瘤新生抗原预测的准确性,避免肿瘤新生抗原的筛选有假阳性的现象。以现有的准确率较高的平均相对结合(average relative binding,arb)模型为例,如图5所示,为通过arb模型预测的测试集中各种新生抗原类型的准确率,以及通过本实施例提供的肿瘤新生抗原预测模型,即deeptna模型预测的测试集中各肿瘤新生抗原类型的准确率。由图5可知,通过本实施例提供的肿瘤新生抗原预测模型deeptna预测的测试集中绝大多数肿瘤新生抗原类型的准确率要高于现有的模型arb,只有两个肿瘤新生抗原类型预测的准确率略低于arb模型,故本实施例提供的方法对预测肿瘤新生抗原具有很好的效果。
[0050]
本发明实施例的技术方案,通过获取肿瘤患者的白细胞抗原序列和肽段序列;将所述白细胞抗原序列和所述肽段序列输入至训练好的亲和力分值预测模型中,得到所述白细胞抗原序列和所述肽段序列的亲和力分值;可以自动确定白细胞抗原序列和肽段序列的亲和力分值,无需基于相似的基序设定特征或对每个基序的贡献设定分数构造计量特征矩阵,可通过亲和力分值预测模型自动提取特征,可以提取到更加深层的特征,从而提高亲和力分值的准确性;当亲和力分值达到预设阈值时,确定所述肽段序列为肿瘤新生抗原,提高了肿瘤新生抗原预测的准确性,降低肿瘤新生抗原的筛选出现假阳性的现象,解决了确定肿瘤新生抗原准确率和效率不高的问题,实现提高确定肿瘤新生抗原的准确率和效率,降低人力成本的效果。
[0051]
实施例三
[0052]
图6为本发明实施例三提供的一种肿瘤新生抗原预测装置的结构图,该肿瘤新生抗原预测装置包括:序列获取模块310、亲和力分值获取模块320和肿瘤新生抗原确定模块330。
[0053]
其中,序列获取模块310,用于获取肿瘤患者的白细胞抗原序列和肽段序列;亲和力分值获取模块320,用于将所述白细胞抗原序列和所述肽段序列输入至训练好的预测模型中,得到所述白细胞抗原序列和所述肽段序列的亲和力分值;肿瘤新生抗原确定模块330,用于根据亲和力分值确定所述肽段序列是否为肿瘤新生抗原。
[0054]
可选的,亲和力分值预测模型包括编码器和解码器;
[0055]
在上述实施例的技术方案中,亲和力分值获取模块320,包括:
[0056]
序列编码生成单元,用于通过所述编码器将所述白细胞抗原序列和所述肽段序编码得到序列编码;
[0057]
亲和力分值确定单元,用于通过所述解码器,根据所述序列编码确定所述亲和力分值。
[0058]
在上述实施例的技术方案中,序列编码生成单元,包括:
[0059]
拼接序列生成子单元,用于通过所述编码器将所述白细胞抗原序列和所述肽段序列进行拼接处理,得到拼接序列;
[0060]
序列编码生成子单元,用于通过所述编码器将所述拼接序列进行编码得到序列编码。
[0061]
可选的,所述解码器为基于门控机制和注意力机制构建。
[0062]
在上述实施例的技术方案中,亲和力分值确定单元,包括:
[0063]
目标序列特征提取子单元,用于通过所述解码器,根据所述序列编码提取目标序列特征;
[0064]
亲和力分值确定子单元,用于根据所述目标序列特征确定所述亲和力分值。
[0065]
在上述实施例的技术方案中,目标序列特征提取子单元,包括:
[0066]
序列特征提取子单元,用于通过所述解码器基于所述门控机制对所述序列编码提取序列特征;
[0067]
筛选序列特征获取子单元,用于通过所述解码器基于所述注意力机制对所述序列特征进行筛选,得到筛选序列特征;
[0068]
特征提取子单元,用于通过所述解码器基于所述门控机制对所述筛选序列特征进行特征提取处理得到目标序列特征。
[0069]
在上述实施例的技术方案中,肿瘤新生抗原确定模块330具体用于当亲和力分值达到预设阈值时,确定所述肽段序列为肿瘤新生抗原。
[0070]
本发明实施例的技术方案,通过获取肿瘤患者的白细胞抗原序列和肽段序列;将所述白细胞抗原序列和所述肽段序列输入至训练好的亲和力分值预测模型中,得到所述白细胞抗原序列和所述肽段序列的亲和力分值;可以自动确定白细胞抗原序列和肽段序列的亲和力分值,无需基于相似的基序设定特征或对每个基序的贡献设定分数构造计量特征矩阵,可通过亲和力分值预测模型自动提取特征,可以提取到更加深层的特征,从而提高亲和力分值的准确性;根据亲和力分值确定所述肽段序列是否为肿瘤新生抗原,降低了肿瘤新生抗原的筛选出现假阳性的现象,解决了确定肿瘤新生抗原准确率和效率不高的问题,实现提高确定肿瘤新生抗原的准确率和效率,降低程序的复杂度和人力成本的效果。
[0071]
本发明实施例所提供的肿瘤新生抗原预测装置可执行本发明任意实施例所提供的肿瘤新生抗原预测方法,具备执行方法相应的功能模块和有益效果。
[0072]
实施例四
[0073]
图7为本发明实施例四提供的一种肿瘤新生抗原预测设备的结构示意图,如图7所示,该肿瘤新生抗原预测设备包括处理器410、存储器420、输入装置430和输出装置440;肿瘤新生抗原预测设备中处理器410的数量可以是一个或多个,图7中以一个处理器410为例;肿瘤新生抗原预测设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接,图7中以通过总线连接为例。
[0074]
存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的肿瘤新生抗原预测方法对应的程序指令/模块(例如,肿瘤新生抗原预测装置中的序列获取模块310、亲和力分值获取模块320和肿瘤新生抗原确定模块330)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行肿瘤新生抗原预测设备的各种功能应用以及数据处理,即实现上述的肿瘤新生抗原预测方法。
[0075]
存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个
磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至肿瘤新生抗原预测设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0076]
输入装置430可用于接收输入的数字或字符信息,以及产生与肿瘤新生抗原预测设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。
[0077]
实施例五
[0078]
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种肿瘤新生抗原预测方法,该方法包括:
[0079]
获取肿瘤患者的白细胞抗原序列和肽段序列;
[0080]
将所述白细胞抗原序列和所述肽段序列输入至训练好的亲和力分值预测模型中,得到所述白细胞抗原序列和所述肽段序列的亲和力分值;
[0081]
根据亲和力分值确定所述肽段序列是否为肿瘤新生抗原。
[0082]
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的肿瘤新生抗原预测方法中的相关操作。
[0083]
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read
‑
only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0084]
值得注意的是,上述肿瘤新生抗原预测装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
[0085]
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。