本技术涉及人工智能领域,特别涉及一种体细胞变异检测方法、装置、设备、介质和程序产品。
背景技术:
1、体细胞是除了生殖细胞之外的细胞,体细胞变异是随机发生的。基因测序是指通过测序设备,测定从个体的样品中提取的脱氧核糖核酸(dna)或核糖核酸(rna)的碱基的排列顺序,碱基包括5种:腺嘌呤(a)、鸟嘌呤(g)、胞嘧啶(c)、胸腺嘧啶(t)、尿嘧啶(u)。
2、相关技术中,对组织的体细胞执行基因测序,得到多序列对齐(multiplesequence alignment,msa)数据,将msa数据输入至预测模型,例如,卷积神经网络(cnn)、序列模型(bi-gru),预测体细胞是否发生突变。
3、但是,这种方式的预测模型无法充分利用体细胞的基因测序的msa数据,导致体细胞变异检测性能不佳。
技术实现思路
1、本技术提供了一种体细胞变异检测方法、装置、设备、介质和程序产品。所述技术方案如下:
2、一方面,提供了一种体细胞变异检测方法,所述方法包括:
3、获取参考基因序列、以及个体的第一体细胞的第一msa数据、所述个体的第二体细胞的第二msa数据;
4、组合所述参考基因序列、所述第一msa数据和所述第二msa数据,得到所述个体的msa数据;
5、编码所述msa数据的编码特征;以及提取所述编码特征对应的msa特征;
6、分类所述msa特征,得到所述第一体细胞和所述第二体细胞相对于所述参考基因序列的体细胞变异检测结果。
7、在一些实施例中,所述基于所述基础模型层,提取所述样本编码特征对应的样本msa特征,包括:
8、基于所述基础模型层,对所述样本编码特征执行自注意力计算,得到所述样本msa特征。
9、在一些实施例中,所述基于所述基础模型层,对所述样本编码特征执行自注意力计算,得到所述样本msa特征,包括:
10、基于所述基础模型层,将所述样本编码特征执行列注意力计算,得到样本列注意力特征;
11、在列方向对所述样本列注意力特征执行池化,得到样本列池化特征;
12、将所述样本列池化特征执行行注意力计算,得到所述样本msa特征。
13、在一些实施例中,所述以减小所述预测突变类型与所述样本突变类型之间的差异为训练目标,调整所述体细胞变异检测模型的模型参数,包括:
14、基于所述预测突变类型与所述样本突变类型,确定训练损失;
15、以减小所述训练损失为训练目标,调整所述体细胞变异检测模型的模型参数。
16、在一些实施例中,所述基于所述预测突变类型与所述样本突变类型,确定训练损失,包括:
17、基于所述预测突变类型和所述样本突变类型,确定交叉熵损失;
18、将所述交叉熵损失确定为所述训练损失。
19、在一些实施例中,所述获取第一样本个体的样本正常细胞的第一样本msa数据,包括:
20、获取所述样本正常细胞的第一样本测序数据;
21、对齐所述第一样本测序数据与所述参考基因序列,得到第一样本对齐数据;
22、确定所述第一样本对齐数据中的满足筛选条件的样本候选位点;
23、基于所述第一样本对齐数据和所述样本候选位点,确定所述第一样本msa数据。
24、在一些实施例中,所述确定所述第一样本对齐数据中的满足筛选条件的样本候选位点,包括:
25、在所述第一样本对齐数据中,当样本基因位点对应的列数据上存在碱基变化,且所述样本基因位点的次等位基因频率大于阈值,将所述样本基因位点确定为所述样本候选位点。
26、在一些实施例中,所述第一样本msa数据包括所述样本候选位点的第一样本序列msa数据和第一样本插入msa数据,所述第一样本序列msa数据用于表征所述样本候选位点的碱基变化情况,所述第一样本插入msa数据用于表征所述样本候选位点的碱基插入情况;
27、所述基于所述第一样本对齐数据和所述样本候选位点,确定所述第一样本msa数据,包括:
28、以所述样本候选位点的每个样本候选位点为窗口的中心,提取所述第一样本对齐数据中的所述窗口中的样本基因序列,所述样本基因序列中的每个样本测序片段对应有碱基插入信息、碱基删除信息和碱基变化信息中的至少之一;
29、基于所述样本基因序列中的每个样本测序片段对应的所述碱基删除信息和所述碱基变化信息,确定所述每个样本候选位点的所述第一样本序列msa数据,基于所述样本基因序列中的每个样本测序片段对应的所述碱基插入信息,确定所述每个样本候选位点的所述第一样本插入msa数据;
30、组合所述样本候选位点的所述每个样本候选位点对应的所述第一样本序列msa数据和所述第一样本插入msa数据,得到所述第一样本msa数据。
31、在一些实施例中,所述获取所述第一样本个体的样本变异细胞的第二样本msa数据,包括:
32、获取所述样本变异细胞的第二样本测序数据;
33、对齐所述第二样本测序数据与所述参考基因序列,得到第二样本对齐数据;
34、基于所述第二样本对齐数据和所述样本候选位点,确定所述第二样本msa数据。
35、在一些实施例中,所述第二样本msa数据包括所述样本候选位点的第二样本序列msa数据和第二样本插入msa数据,所述第二样本序列msa数据用于表征所述样本候选位点的碱基变化情况,所述第二样本插入msa数据用于表征所述样本候选位点的碱基插入情况;
36、所述基于所述第二样本对齐数据和所述样本候选位点,确定所述第二样本msa数据,包括:
37、以所述样本候选位点的每个样本候选位点为窗口的中心,提取所述第二样本对齐数据中的所述窗口中的样本基因序列,所述样本基因序列中的每个样本测序片段对应有碱基插入信息、碱基删除信息和碱基变化信息中的至少之一;
38、基于所述样本基因序列中的每个样本测序片段对应的所述碱基删除信息和所述碱基变化信息,确定所述每个样本候选位点的所述第二样本序列msa数据,基于所述样本基因序列中的每个样本测序片段对应的所述碱基插入信息,确定所述每个样本候选位点的所述第二样本插入msa数据;
39、组合所述样本候选位点的所述每个样本候选位点对应的所述第二样本序列msa数据和所述第二样本插入msa数据,得到所述第二样本msa数据。
40、在一些实施例中,所述基于所述特征提取单元,对所述样本编码特征执行自注意力计算,得到所述样本编码特征对应的样本msa特征,包括:
41、基于所述特征提取单元,将所述样本编码特征执行列注意力计算,得到样本列注意力特征;
42、在列方向对所述样本列注意力特征执行池化,得到样本列池化特征;
43、将所述列池化特征执行行注意力计算,得到所述样本msa特征。
44、在一些实施例中,所述获取第二样本个体的样本正常细胞的第三样本msa数据,包括:
45、获取所述样本正常细胞的第三样本测序数据;
46、对齐所述第三样本测序数据与所述参考基因序列,得到第三样本对齐数据;
47、确定所述第三样本对齐数据中的满足筛选条件的样本候选位点;
48、基于所述第三样本对齐数据和所述样本候选位点,确定所述第三样本msa数据。
49、在一些实施例中,所述确定所述第三样本对齐数据中的满足筛选条件的样本候选位点,包括:
50、在所述第三样本对齐数据中,当样本基因位点对应的列数据上存在碱基变化,且所述样本基因位点的次等位基因频率大于阈值,将所述样本基因位点确定为所述样本候选位点。
51、在一些实施例中,所述第三样本msa数据包括所述样本候选位点的第三样本序列msa数据和第三样本插入msa数据,所述第三样本序列msa数据用于表征所述样本候选位点的碱基变化情况,所述第三样本插入msa数据用于表征所述样本候选位点的碱基插入情况;
52、所述基于所述第三样本对齐数据和所述样本候选位点,确定所述第三样本msa数据,包括:
53、以所述样本候选位点的每个样本候选位点为窗口的中心,提取所述第三样本对齐数据中的所述窗口中的样本基因序列,所述样本基因序列中的每个样本测序片段对应有碱基插入信息、碱基删除信息和碱基变化信息中的至少之一;
54、基于所述样本基因序列中的每个样本测序片段对应的所述碱基删除信息和所述碱基变化信息,确定所述每个样本候选位点的所述第三样本序列msa数据,基于所述样本基因序列中的每个样本测序片段对应的所述碱基插入信息,确定所述每个样本候选位点的所述第三样本插入msa数据;
55、组合所述样本候选位点的所述每个样本候选位点对应的所述第三样本序列msa数据和所述第三样本插入msa数据,得到所述第三样本msa数据。
56、在一些实施例中,所述获取所述第二样本个体的样本变异细胞的第四样本msa数据,包括:
57、获取所述样本变异细胞的第四样本测序数据;
58、对齐所述第四样本测序数据与所述参考基因序列,得到第四样本对齐数据;
59、基于所述第四样本对齐数据和所述样本候选位点,确定所述第四样本msa数据。
60、在一些实施例中,所述第四样本msa数据包括所述样本候选位点的第四样本序列msa数据和第四样本插入msa数据,所述第四样本序列msa数据用于表征所述样本候选位点的碱基变化情况,所述第四样本插入msa数据用于表征所述样本候选位点的碱基插入情况;
61、所述基于所述第四样本对齐数据和所述样本候选位点,确定所述第四样本msa数据,包括:
62、以所述样本候选位点的每个样本候选位点为窗口的中心,提取所述第四样本对齐数据中的所述窗口中的样本基因序列,所述样本基因序列中的每个样本测序片段对应有碱基插入信息、碱基删除信息和碱基变化信息中的至少之一;
63、基于所述样本基因序列中的每个样本测序片段对应的所述碱基删除信息和所述碱基变化信息,确定所述每个样本候选位点的所述第四样本序列msa数据,基于所述样本基因序列中的每个样本测序片段对应的所述碱基插入信息,确定所述每个样本候选位点的所述第四样本插入msa数据;
64、组合所述样本候选位点的所述每个样本候选位点对应的所述第四样本序列msa数据和所述第四样本插入msa数据,得到所述第四样本msa数据。
65、另一方面,提供了一种体细胞变异检测装置,所述装置包括:
66、获取模块,用于获取参考基因序列、以及个体的第一体细胞的第一msa数据、所述个体的第二体细胞的第二msa数据;
67、组合模块,用于组合所述参考基因序列、所述第一msa数据和所述第二msa数据,得到所述个体的msa数据;
68、编码模块,用于编码所述msa数据的编码特征;以及提取所述编码特征对应的msa特征;
69、分类模块,用于分类所述msa特征,得到所述第一体细胞和所述第二体细胞相对于所述参考基因序列的体细胞变异检测结果。
70、另一方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上所述的体细胞变异检测方法。
71、另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上所述的体细胞变异检测方法。
72、另一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,处理器从所述计算机可读存储介质中获取所述计算机指令,使得所述处理器加载并执行以实现如上所述的体细胞变异检测方法。
73、本技术实施例提供的技术方案带来的有益效果至少包括:
74、将参考基因序列、来自同一个体的不同体细胞各自的msa数据合并得到个体的msa数据,实现了该个体msa数据的充分表征,通过两次特征提取得到msa数据的msa特征,能够融合参考基因序列、不同体细胞的msa数据的碱基信息和测序信息,通过分类msa特征,能够充分利用该个体的不同体细胞的msa数据,提高体细胞变异检测结果的准确度。另外,个体的msa数据中包含的是基因位点中的候选位点的相关信息,能够减少冗余信息、减少无效区域的计算量、提高数据处理效率。