1.本发明涉及基因传输领域,更具体地,涉及一种基因序列的处理方法、计算机存储介质以及电子设备。
背景技术:2.随着生物技术与互联网的不断发展,通过计算机存储与传输基因序列的方法已是极为常见,用户可通过第三方平台的方式,将存有大量基因序列的文件传输到另一用户计算机中,方便且快捷。
3.但是目前的传输方式存在以下几个缺点:
4.1、基因序列一般短则包含几万个碱基,长则包含几百万甚至上亿个碱基。传统的保存方法占用内存大,上传速度慢;
5.2、传输方式是从计算机到计算机,中间经过第三方平台,信息易被截获,信息安全不被保障。
技术实现要素:6.为解决上述技术问题,本发明提供一种基因序列的处理方法、计算机存储介质和电子设备,能够大幅减少基因序列在存储时占用的存储空间,并且提高数据传输安全性。
7.根据本发明第一方面实施例的基因序列的处理方法,包括以下步骤:s1、上传基因序列,并设定还原密码;s2、将设定了所述还原密码的所述基因序列存储为图片格式的基因图片;s3、上传所述基因图片,输入密码,并判断所述密码与所述还原密码是否匹配;s4、当所述密码与所述还原密码匹配时,将所述基因图片还原为所述基因序列。
8.根据本发明实施例的基因序列的处理方法,在对基因序列进行存储时,通过将其转换成图片格式进行存储,可以大幅减少数据存储占用的空间,提高基因序列传输的速度,并且在基因序列转换成图片的过程中,对其进行加密,可以有效提高信息安全性。
9.根据本发明的一个实施例,步骤s2包括:s21、获取用户输入的所述还原密码,并将所述还原密码转换为rgb格式序列作为密码码;s22、将所述基因序列转换为rgb格式序列作为本体码;s23、将所述基因序列通过检验算法计算得到检验码,再将所述检验码转换为rgb格式序列作为校验码;s24、将所述密码码、所述本体码和所述校验码组合,转为像素点生成所述基因图片。
10.根据本发明的一个实施例,在步骤s21中,通过解吸ascii将所述还原密码转换为rgb格式序列。
11.根据本发明的一个实施例,步骤s22包括:s221、将碱基中的腺嘌呤、鸟嘌呤、胸腺嘧啶和胞嘧啶分别赋予代码0,1,2,3转为四进制,再转为十进制;s222、将三个连续的密码子转换为一个像素,得到所述本体码,其中不足三个密码子的部分用最大rgb数值补足。
12.根据本发明的一个实施例,步骤s23包括:s231、将所述基因序列通过md5信息摘要算法获得的结果作为所述检验码;s232、根据相同算法,将所述检验码转换为rgb格式序列
作为所述校验码。
13.根据本发明的一个实施例,步骤s3包括:s31、上传所述基因图片,输入所述密码;s32、将输入的所述密码转换为rgb格式序列;s33、将所述密码转换成的rgb格式序列与所述密码码进行核对,判断两者是否匹配。
14.根据本发明的一个实施例,在步骤s4中,当所述密码转换成的rgb格式序列与所述密码码匹配时,获取所述本体码,并将所述本体码还原为所述基因序列。
15.根据本发明的一个实施例,所述方法还包括:s5、将还原得到的所述基因序列根据所述检验算法进行解码,得到新的校验码;s6、将所述新的校验码转换为rgb格式序列;s7、截取所述新的校验码对应的rgb格式序列,与步骤s23所得的所述校验码对应的rgb格式序列进行对比,若两者相同,则将步骤s4还原的所述基因序列作为最终基因序列。
16.第二方面,本发明实施例提供一种计算机存储介质,包括一条或多条计算机指令,所述一条或多条计算机指令在执行时实现如上述实施例所述的方法。
17.根据本发明第三方面实施例的电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令;所述处理器用于调用并执行所述一条或多条计算机指令,从而实现如上述任一实施例所述的方法。
18.本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
19.本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
20.图1为根据本发明实施例的基因序列的处理方法的流程图;
21.图2为根据本发明实施例的基因序列的处理方法中基因序列的存储流程图;
22.图3为根据本发明实施例的基因序列的处理方法中基因序列的还原与校验流程图;
23.图4为本发明实施例的电子设备的示意图。
24.附图标记:
25.电子设备300;
26.存储器310;操作系统311;应用程序312;
27.处理器320;网络接口330;输入设备340;硬盘350;显示设备360。
具体实施方式
28.下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
29.在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必
须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
30.在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
31.下面首先对本申请中所提到的专有名词进行解释。
32.基因序列:核酸的一级结构,使用一串字母表示的真实的或者假设的携带基因信息的dna分子的一级结构。每个字母代表一种核碱基,两个碱基形成一个碱基对,碱基对的配对规律是固定的,a=t,c≡g。三个相邻的碱基对形成一个密码子。一种密码子对应一种氨基酸,不同的氨基酸合成不同的蛋白质。在dna的复制及蛋白质的合成过程中,碱基配对规律是十分关键的。
33.rgb格式:对一种颜色进行编码的方法统称为“颜色空间”或“色域”。简单来说,世界上任何一种颜色的“颜色空间”都可定义成一个固定的数字或变量。rgb(红、绿、蓝)只是众多颜色空间的一种。采用这种编码方法,每种颜色都可用三个变量来表示红色、绿色以及蓝色的强度。记录及显示彩色图像时,rgb是最常见的一种方案。
34.校验码:设有校验码的代码,是由本体码与校验码两部分组成(如组织机构代码),本体码是表示编码对象的号码,校验码则是附加在本体码后边,用来校验本体码在输入过程中准确性的号码。每一个本体码只能有一个校验码,校验码通过规定的数学关系得到。
35.ascii:美国信息交换标准代码是由美国国家标准学会(american national standard institute,ansi)制定的,是一种标准的单字节字符编码方案,用于基于文本的数据。它最初是美国国家标准,供不同计算机在相互通信时用作共同遵守的西文字符编码标准,后来它被国际标准化组织(international organization for standardization,iso)定为国际标准,称为iso 646标准。
36.下面结合附图具体描述根据本发明实施例的基因序列的处理方法。
37.如图1所示,根据本发明实施例的基因序列的处理方法包括以下步骤:
38.s1、上传基因序列,并设定还原密码。
39.s2、将设定了所述还原密码的所述基因序列存储为图片格式的基因图片。
40.s3、上传所述基因图片,输入密码,并判断所述密码与所述还原密码是否匹配。
41.s4、当所述密码与所述还原密码匹配时,将所述基因图片还原为所述基因序列。
42.也就是说,根据本发明实施例的基因序列的处理方法包括基因序列的存储和还原方法,在对基因序列进行存储时,将基因序列转换为图片格式进行存储,可以大幅缩减基因序列占用的存储空间,同时,在对基因序列进行转换的过程中,对其进行加密,在还原时需要核验密码是否匹配,从而保证基因序列在还原和传输过程中的信息安全性。
43.由此,根据本发明实施例的基因序列的处理方法,在对基因序列进行存储时,通过将其转换成图片格式进行存储,可以大幅减少数据存储占用的空间,提高基因序列传输的速度,并且在基因序列转换成图片的过程中,对其进行加密,可以有效提高信息安全性。
44.下面对本申请的基因序列的处理方法分别进行描述。
45.首先如图2所示,图2示出了本申请的基因序列的处理方法中基因序列的存储流程图。
46.具体地,根据本发明的一个实施例,步骤s2包括:
47.s21、获取用户输入的所述还原密码,并将所述还原密码转换为rgb格式序列作为密码码。
48.s22、将所述基因序列转换为rgb格式序列作为本体码。
49.s23、将所述基因序列通过检验算法计算得到检验码,再将所述检验码转换为rgb格式序列作为校验码。
50.s24、将所述密码码、所述本体码和所述校验码组合,转为像素点生成所述基因图片,每个rgb作为一个像素点,计算生成最小基因图片的长与宽,剩余像素点采用随机像素点补足。
51.其中,在步骤s21中,通过解吸ascii将所述还原密码转换为rgb格式序列。
52.可选地,步骤s22包括:
53.s221、将碱基中的腺嘌呤、鸟嘌呤、胸腺嘧啶和胞嘧啶分别赋予代码0,1,2,3转为四进制,再转为十进制。
54.具体地,由于基因序列自身的特殊性:每三个碱基为一个密码子,且碱基类别仅包含腺嘌呤(a)、鸟嘌呤(g)、胸腺嘧啶(t)和胞嘧啶(c)4中类型。分别赋予它们代码0,1,2,3转为四进制,如启动子atg为0021(高位自动补0为4位),再转为十进制为9。gac四进制为0103,转为十进制19。tac四进制为0203,十进制为35。
55.s222、将三个连续的密码子转换为一个像素,得到所述本体码,其中不足三个密码子的部分用最大rgb数值补足。
56.其中,一个rgb包含三个参数。将每三个密码子作为一个像素,如atggactac可转换为一个像素rgb(9,19,35),如果密码子的个数不是3的倍数,则剩余的用255补足,如一段序列末尾片段为gatgttccagattacgcttaa,转换为四进制为0102 0122 0330 0102 0203 0132 0200,转换为rgb形式为(18,26,60)(18,35,30)(32,255,255)。
57.由步骤s221可知,所得的十进制数不会大于64,若最后剩余的密码子个数不是3的倍数(即不能凑齐一个像素点),为使最后的像素点完整,我们使用最大rgb数值作为补充,即255,既便于识别又能区别于密码子。
58.在本发明的一些具体实施方式中,步骤s23包括:
59.s231、将所述基因序列通过md5信息摘要算法获得的结果作为所述检验码;
60.s232、根据相同算法,将所述检验码转换为rgb格式序列作为所述校验码。
61.由此,根据本发明实施例的基因序列的存储方法,可以实现基因序列的输入存储,并且可以在实现将基因序列转换为图片格式的同时,实现加密处理,生成的图片大小与原来的基因序列文件(例如txt文件等)相比,压缩率高达95%。
62.下面结合附图3具体描述根据本发明实施例的基因序列的处理方法中的基因序列的还原与校验过程。
63.如图3所示,步骤s3包括:
64.s31、上传所述基因图片,输入所述密码。
65.s32、将输入的所述密码转换为rgb格式序列。
66.s33、将所述密码转换成的rgb格式序列与所述密码码进行核对,判断两者是否匹配。
67.可选地,在步骤s4中,当所述密码转换成的rgb格式序列与所述密码码匹配时,获取所述本体码,并将所述本体码还原为所述基因序列。
68.在本发明的一些具体实施方式中,对基因序列进行校验的方法包括:
69.s5、将还原得到的所述基因序列根据所述检验算法进行解码,得到新的校验码。
70.s6、将所述新的校验码转换为rgb格式序列。
71.s7、截取所述新的校验码对应的rgb格式序列,与步骤s23所得的所述校验码对应的rgb格式序列进行对比,若两者相同,则将步骤s4还原的所述基因序列作为最终基因序列。
72.由此,根据本发明实施例的基因序列的还原方法,可以在需要使用基因序列时,上传基因图片,并将基因图片还原成基因序列进行输出,并且在进行图片转换的过程中,对基因图片进行解密和核验,可以保证数据读取的安全性和准确性。
73.总而言之,本发明是用来解决现有基因序列存储与传输过程中存在的信息安全隐患与内存占用过大的问题。通过算法将基因序列存储在图片中,减少存储空间,增加校验还原的过程,保证数据准确的同时保障信息安全。获取的基因序列图片可在手机端或电脑端进行还原与校验,获取正确的基因序列。
74.为了解决本发明的技术问题,能让用户用较小的内存存储基因序列同时保障信息安全,本发明提出了一种基因序列图片存储、还原与校验的方法。该方法将基因序列通过算法压缩存储为体积较小的图片,通过发送图片传输,速度快。由于算法的特殊性,截获的人只能获取到无意义的图片,极大地保护了信息安全。在算法中,本发明还加入了校验功能,在还原过程中会进行自我校验,唯有还原结果校验通过后才会显示结果,防止在传输保证数据准确性。
75.此外,本发明还提供一种计算机存储介质,计算机存储介质包括一条或多条计算机指令,一条或多条计算机指令在执行时实现上述任一的基因序列的处理方法。
76.也就是说,计算机存储介质存储有计算机程序,计算机程序被处理器运行时,使得处理器执行上述任一的基因序列的处理方法。
77.如图4所示,本发明实施例提供了一种电子设备300,包括存储器310和处理器320,所述存储器310用于存储一条或多条计算机指令,所述处理器320用于调用并执行所述一条或多条计算机指令,从而实现上述任一所述的方法。
78.也就是说,电子设备300包括:处理器320和存储器310,在所述存储器310中存储有计算机程序指令,其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器320执行上述任一所述的方法。
79.进一步地,如图4所示,电子设备300还包括网络接口330、输入设备340、硬盘350、和显示设备360。
80.上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器320代表的一个或者多个中央处理器(cpu),以及由存储器310代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外
围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。
81.所述网络接口330,可以连接至网络(如因特网、局域网等),从网络中获取相关数据,并可以保存在硬盘350中。
82.所述输入设备340,可以接收操作人员输入的各种指令,并发送给处理器320以供执行。所述输入设备340可以包括键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
83.所述显示设备360,可以将处理器320执行指令获得的结果进行显示。
84.所述存储器310,用于存储操作系统运行所必须的程序和数据,以及处理器320计算过程中的中间结果等数据。
85.可以理解,本发明实施例中的存储器310可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)或闪存。易失性存储器可以是随机存取存储器(ram),其用作外部高速缓存。本文描述的装置和方法的存储器310旨在包括但不限于这些和任意其它适合类型的存储器。
86.在一些实施方式中,存储器310存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统311和应用程序312。
87.其中,操作系统311,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序312,包含各种应用程序,例如浏览器(browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序312中。
88.本发明上述实施例揭示的方法可以应用于处理器320中,或者由处理器320实现。处理器320可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器320中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器320可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器310,处理器320读取存储器310中的信息,结合其硬件完成上述方法的步骤。
89.可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(asic)、数字信号处理器dsp)、数字信号处理设备(dspd)、可编程逻辑设备(pld)、现场可编程门阵列(fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
90.对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文
所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
91.具体地,处理器320还用于读取所述计算机程序,执行上述任一所述的方法。
92.在本申请所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
93.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
94.上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read
‑
only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等各种可以存储程序代码的介质。
95.以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。