本技术涉及生物信息,尤其涉及一种hgvs基因变异信息编码方法、装置、设备及存储介质。
背景技术:
1、基因变异(variant)是指两个基因组之间存在差异的基因组特定区域,在基因组学中最常见的变异形式有单核苷酸变异、变异插入/缺失等,而规范的命名是基因变异解读中不可或缺的一部分。人类基因组变异协会(human genome variation society,hgvs)、人类变异项目组和人类基因组组织联合成立了序列变异描述工作组,进而制定了基因变异具体位置和类型的命名规范,即hgvs规则,而hgvs规则也逐渐成为生物信息学术界公认且普遍应用的突变命名规则。
2、但由于变异数据无法全部穷举,因此通过hgvs规则编码得到的hgvs基因变异信息无法固定信息长度,使得hgvs基因变异信息的数据量较大,进而导致使用hgvs基因变异信息时所需的计算复杂度较高。
3、上述内容仅用于辅助理解本技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本技术的主要目的在于提供一种hgvs基因变异信息编码方法、装置、设备及存储介质,旨在解决hgvs基因变异信息的数据量较大的技术问题。
2、为实现上述目的,本技术提供一种hgvs基因变异信息编码方法,所述hgvs基因变异信息编码方法包括:
3、获取hgvs基因变异信息的原始数据;
4、根据hgvs要素对所述原始数据进行拆分,得到对应不同hgvs要素的变异数据,其中,所述hgvs要素为所述hgvs基因变异信息的构成要素;
5、基于预设的基因编码规则中与目标hgvs要素相匹配的目标编码规则,对与所述目标hgvs要素相对应的目标变异数据进行编码,得到所述目标变异数据的编码结果;
6、将所述原始数据拆分所得的变异数据的编码结果进行组合,得到所述hgvs基因变异信息的编码数据。
7、可选地,所述变异数据包括:与所述hgvs要素中参考序列相对应的序列变异数据,所述基于预设的基因编码规则中与目标hgvs要素相匹配的目标编码规则,对与所述目标hgvs要素相对应的目标变异数据进行编码,得到所述目标变异数据的编码结果的步骤包括:
8、根据所述参考序列的构成要素对所述序列变异数据进行拆分,得到序列前缀、序列标识号和序列版本号;
9、分别对所述序列标识号和所述序列版本号进行进制转换,得到编码标识号和编码版本号;
10、对所述序列前缀、所述编码标识号和所述编码版本号进行组合,以作为所述序列变异数据的编码结果。
11、可选地,所述分别对所述序列标识号和所述序列版本号进行进制转换的步骤包括:
12、分别对所述序列标识号和所述序列版本号进行六十二进制转换。
13、可选地,所述变异数据包括:与所述hgvs要素中变异位置相对应的位置变异数据,所述基于预设的基因编码规则中与目标hgvs要素相匹配的目标编码规则,对与所述目标hgvs要素相对应的目标变异数据进行编码,得到所述目标变异数据的编码结果的步骤包括:
14、识别所述位置变异数据中位于首位的连续数字串,作为第一字符串,并对所述第一字符串进行进制转换,得到第一编码字符串;
15、将所述位置变异数据中位于所述第一字符串之后的字符设置为第二字符串,并根据预设的二进制编规则,对所述第二字符串进行编码,得到第二编码字符串,其中,所述第二编码字符串为二进制字符串;
16、对所述第二编码字符串进行进制转换,得到第三编码字符串;
17、对所述第一编码字符串和所述第三编码字符串进行组合,以作为所述位置变异数据的编码结果。
18、可选地,所述对所述第一字符串进行进制转换的步骤包括:
19、对所述第一字符串进行六十二进制转换。
20、可选地,在所述对所述第二编码字符串进行进制转换,得到第三编码字符串的步骤之前,还包括:
21、对所述第三编码字符串进行crc计算,以压缩所述第三编码字符串。
22、可选地,在所述对所述第一编码字符串和所述第三编码字符串进行组合,以作为所述位置变异数据的编码结果的步骤之前,还包括:
23、判断所述位置变异数据中位于所述第一字符串之前的字符中是否存在除预设分隔符之外的非字母数字字符;
24、若是,则提取所述位置变异数据中位于所述第一字符串之前的非字母数字字符,并与所述第一编码字符串和所述第三编码字符串进行组合,以作为所述位置变异数据的编码结果。
25、本技术还提供一种hgvs基因变异信息编码装置,所述hgvs基因变异信息编码装置包括:
26、获取模块,用于获取hgvs基因变异信息的原始数据;
27、拆分模块,用于根据hgvs要素对所述原始数据进行拆分,得到对应不同hgvs要素的变异数据,其中,所述hgvs要素为所述hgvs基因变异信息的构成要素;
28、编码模块,用于基于预设的基因编码规则中与目标hgvs要素相匹配的目标编码规则,对与所述目标hgvs要素相对应的目标变异数据进行编码,得到所述目标变异数据的编码结果;
29、组合模块,用于将所述原始数据拆分所得的变异数据的编码结果进行组合,得到所述hgvs基因变异信息的编码数据。
30、本技术还提供一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的hgvs基因变异信息编码程序,所述hgvs基因变异信息编码程序配置为实现上述的hgvs基因变异信息编码方法的步骤。
31、本技术还提供一种存储介质,所述存储介质为计算机可读存储介质,所述计算机可读存储介质上存储有hgvs基因变异信息编码程序,所述hgvs基因变异信息编码程序被处理器执行以实现上述的hgvs基因变异信息编码方法的步骤。
32、本技术公开了一种hgvs基因变异信息编码方法,通过获取hgvs基因变异信息的原始数据,并根据hgvs基因变异信息的构成要素,即hgvs要素对原始数据进行拆分,得到对应不同hgvs要素的变异数据;进而基于预设的基因编码规则中与目标hgvs要素相匹配的目标编码规则,对与目标hgvs要素相对应的目标变异数据进行编码,得到目标变异数据的编码结果;进而将原始数据拆分所得的变异数据的编码结果进行组合,得到hgvs基因变异信息的编码数据。基于hgvs基因变异信息的构成要素,即参考序列、变异类型和变异位置等,对hgvs基因变异信息的原始数据进行拆分,从而得到与各hgvs要素相对应的变异数据;由于与各hgvs要素相对应的变异数据之间的数据量存在较大差异,因此根据各hgvs要素的数据特征,针对性的使用相匹配的编码规则对变异数据进行编码,能够在尽量减少计算量和计算复杂度的基础上,对变异数据进行编码;相较于原始的hgvs基因变异信息,本技术能够极大减少编码后的编码数据的数据量;进而能够减少hgvs基因变异信息存储时所需的存储资源,降低使用时的计算复杂度。