1.本发明属于人工核酸序列技术领域,尤其涉及人工核酸序列水印编码系统、水印字符串及编码和解码方法。
背景技术:2.dna序列或基因序列是使用一串字母表示的真实的或者假设的携带基因信息的dna分子的一级结构。基因工程是指按照人们的愿望,进行严格的设计,通过体外dna重组和转基因技术,赋予生物以新的遗传特性,创造出更符合人们需要的新的生物类型和生物产品。基因工程是在dna分子水平上进行设计和施工的,又叫做dna重组技术。
3.质粒载体是在天然质粒的基础上为适应实验室操作而进行人工构建的质粒。与天然质粒相比,质粒载体通常带有一个或一个以上的选择性标记基因(如抗生素抗性基因)和一个人工合成的含有多个限制性内切酶识别位点的多克隆位点序列,并去掉了大部分非必需序列,使分子量尽可能减少,以便于基因工程操作。
4.用于遗传工程的人工核酸序列(如上述载体质粒)知识产权应归属于设计其序列的公司或实验室。但人工核酸序列往往由已公开核酸序列组合而成,缺乏特异性知识产权归属信息,难以进行知识产权保护。
5.此外,人工核酸序列往往较长,如载体质粒通常为3k
‑
10k bp的dna 序列。如需对其人工核酸序列进行鉴定,往往需要采用测序技术,以获知其完整功能模块。以最常用的sanger测序为例,单个sanger测序反应只能有效覆盖300
‑
600bp序列,对一个载体质粒序列进行完整鉴定需要进行5
‑
20 个sanger反应,成本较高。
技术实现要素:6.本发明提供一种人工核酸序列水印编码系统、水印字符串及编码和解码方法,以解决现有技术中的缺陷。
7.为解决上述问题,本发明提供一种人工核酸序列水印编码系统,包括:
8.可变编码段,以及至少一个与所述可变编码段连接的水印字符串;其中,所述可变编码段设于所述人工核酸序列水印编码系统中的中游位置,所述水印字符串设于所述人工核酸序列水印编码系统中的上游位置和/或下游位置;
9.所述可变编码段包括至少一个信息单元;
10.所述信息单元包括一核酸特征部,以及与所述核酸特征部连接且与所述核酸特征部对应的编号部。
11.优选地,所述水印字符串长度不小于3;
12.在所述可变编码段中,多个所述信息单元按5
′
到3
′
顺序排列,用于表示人工核酸片段上的功能片段种类和对应编号。
13.优选地,每个所述信息单元中的所述核酸特征部用于表示dna组装方法和接口信息、筛选标记信息、复制起始点信息、报告基因信息、插入片段骨架种类信息、插入片段启动
子信息、插入片段rbs信息,以及插入片段cds信息或插入片段终止子信息。
14.优选地,还包括使用场景段,用于表示所述人工核酸序列水印编码系统的结束和使用场景;
15.所述使用场景段与所述可变编码段连接;
16.所述使用场景段设于所述人工核酸序列水印编码系统中的上游位置或下游位置;
17.所述可变编码段设于所述使用场景和/或所述水印字符串之间的中游位置。
18.优选地,所述使用场景段包括用于标识使用场景的细菌人工染色体标识、酵母人工染色体标识、核基因组标识、线粒体基因组标识和/或叶绿体基因组标识rna片段标识。
19.此外,为解决上述问题,本技术还提供一种人工核酸序列水印编码系统中的水印字符串,其长度不小于15bp/nt;并且,所述水印字符串能作为通用pcr引物序列,对人工核酸片段扩增和测序。
20.优选地,所述水印字符串,其核酸序列、核酸序列的反向互补序列、 rna序列和/或rna序列的反向互补序列的序列本身和/或其子序列,为如下核酸序列、核酸序列的反向互补序列、rna序列和rna序列的反向互补序列的相似度不小于95%的序列;其中,
21.核酸序列为:
[0022][0023]
核酸序列的反向互补序列为:
[0024][0025]
rna序列为:
[0026][0027]
rna序列的反向互补序列为:
[0028][0029]
此外,为解决上述问题,本技术还提供一种人工核酸序列水印编码系统的编码和解码方法,包括:
[0030]
编码方法:
[0031]
预设水印字符串、可变编码段和使用场景段;
[0032]
将所述水印字符串、所述可变编码段和所述使用场景段进行编码,获得目标人工核酸序列;
[0033]
解码方法:
[0034]
对目标人工核酸序列进行sanger测序,获取测序结果;
[0035]
由所述测序结果,获取其中上游位置、中游位置和下游位置的水印字符串、可变编码段和使用场景段对应的核酸序列;
[0036]
对所述水印字符串、所述可变编码段和所述使用场景段对应的核酸序列进行信息解读转换,获得解码信息。
[0037]
优选地,所述编码方法中,“将所述水印字符串、所述可变编码段和所述使用场景段进行编码,获得目标人工核酸序列”包括:
[0038]
将所述水印字符串、所述可变编码段和所述使用场景段对应的核酸序列中的每个字符都转换为ascii字节编码的八位二进制数,得到第一信息集合;
[0039]
将所述第一信息集合依据00=a、01=g、10=c、11=t或u映射,转换为四位四进制数,得到所述目标人工核酸序列;
[0040]
所述解码方法中,“对所述水印字符串、所述可变编码段和所述使用场景段对应的核酸序列进行信息解读转换,获得解码信息”包括:
[0041]
依据a=00、g=01、c=10、t或u=11规则将所述水印字符串、所述可变编码段和所述使用场景段对应的核酸序列转换为二进制数字字符,得到第二信息集合;
[0042]
将所述第二信息集合以每8位为一组的ascii编码,转换为字符串,即得到所述目标人工核酸序列对应的解码信息。
[0043]
优选地,所述编码方法中,“将所述水印字符串、所述可变编码段和所述使用场景段进行编码,获得目标人工核酸序列”包括:
[0044]
分别获取所述水印字符串、所述可变编码段和所述使用场景段对应的核酸序列中非数字字符和十进制数字字符;
[0045]
将所述非数字字符转换为ascii字节编码的八位二进制数,得到第三信息集合;
[0046]
将所述第三信息集合依据00=a、01=g、10=c、11=t或u规则映射,转换为四位四进制数,得到第四信息集合;
[0047]
将所述十进制数字字符进行四进制转换;其中,根据四进制转换的四进制数的固定位数,四进制转换后不足所述固定位数的数字前端以0补齐达到所述固定位数;得到第五信息集合;
[0048]
将所述第五信息集合依据0=a、1=g、2=c、3=t或u规则映射,再转换为十进制数字,得到得到所述目标人工核酸序列;
[0049]
所述解码方法中,“对所述水印字符串、所述可变编码段和所述使用场景段对应的核酸序列进行信息解读转换,获得解码信息”包括:
[0050]
将所述水印字符串、所述可变编码段和所述使用场景段对应的核酸序列切割成长度为4+n的子序列,并将每一个子序列作为一个解码单元;其中,n为四进制转换的四进制数的固定位数;
[0051]
将每个所述解码单元中,前四位的核酸序列依据a=00、g=01、c=10、 t或u=11规则转换为八位二进制ascii码,并转换为字符,得到第六信息集合;并且,
[0052]
将每个所述解码单元中,后n位的核酸序列依据依据a=0、g=1、c=2、t或u=3规则转换为四进制数字,在转换为十进制数字,得到第七信息集合;
[0053]
将所有解码单元中的所述第六信息集合和所述第七信息集合相连,得到所述解码信息。
[0054]
本发明提供一种人工核酸序列水印编码系统、水印字符串及编码和解码方法。其中,所述人工核酸序列水印编码系统包括:包括:可变编码段,以及至少一个与所述可变编码段连接的水印字符串;其中,所述可变编码段设于所述人工核酸序列水印编码系统中的中游位置,所述水印字符串设于所述人工核酸序列水印编码系统中的上游位置和/或下游位置;所述可变编码段包括至少一个信息单元;所述信息单元包括一核酸特征部,以及与所述核酸特征部连接且与所述核酸特征部对应的编号部。本发明提供人工核酸序列水印编码系统的编码和解码方法,通过人工设计排列可变编码段、水印字符串、使用场景段相对位置,将可变编码段固定于中游位置,两侧上下游固定其他如水印字符串等,将人工核酸序列
水印编码系统转换为核酸序列后,与已知天然生物基因组不存在高度同源,可用作水印序列,以标识特定单位或实验室的人工核酸序列设计,对基因产品进行知识产权保护;此外,人工核酸序列水印编码系统长度介于100
‑
300bp,可被一个sanger 测序反应覆盖,无需对完整人工核酸序列进行测序,只需通过一次sanger 测序,就可以获知人工核酸片段的元件组成。结合预先设定的核酸特征部 (组装方法等)、编号部(元件库编号)和序列的映射关系,亦可推导出人工核酸片段的完整序列。
具体实施方式
[0055]
下面结合具体实施例的方式对本发明的技术方案做进一步的详细说明,但并不构成对本发明的任何限制,任何人在本发明权利要求范围内所做的有限次的修改,仍在本发明的权利要求范围之内。
[0056]
本实施例提供一种人工核酸序列水印编码系统,包括:
[0057]
可变编码段,以及至少一个与所述可变编码段连接的水印字符串;其中,所述可变编码段设于所述人工核酸序列水印编码系统中的中游位置,所述水印字符串设于所述人工核酸序列水印编码系统中的上游位置和/或下游位置;
[0058]
所述可变编码段包括至少一个信息单元;
[0059]
所述信息单元包括一核酸特征部,以及与所述核酸特征部连接且与所述核酸特征部对应的编号部。
[0060]
上述,人工核酸序列水印编码系统,其整体长度为100
‑
300bp,整体可以为人工核酸片段,可以包括但不限于载体质粒;其中,质粒的部分片断,可以为bac片段、yac片段、插入生物基因组的核酸片段,或者是rna 片段等等。
[0061]
上述,人工核酸序列水印编码系统的水印字符串和可变编码段,应当与人工核酸片段处于同一工程生物体内,但是无需在同一核酸分子上,例如,同一染色体内,同一载体质粒内。
[0062]
上述,人工核酸序列水印编码系统整体由多个部分构成,可以包括可变编码段,以及至少一个与可变编码段连接的水印字符串。其中,可变编码段的长度可以根据人工设计而确定不同的长度,可长可短,因此不涉及到多个可变编码段连接的问题,而水印字符串的数量则可以有1个或多个,用于表示不同的单位信息等。多短信息可以由字符“_”连接。
[0063]
在一个人工核酸序列水印编码系统中,可以设定为上游位置、中游位置和下游位置,其中,可变编码段可以设置于中游位置和/或下游位置,而此时水印字符串可以具有1个或多个,则可能出现的情形如下:
[0064]
1、水印字符串_可变编码段;
[0065]
2、水印字符串1_可变编码段_水印字符串2。
[0066]
通过固定可变编码段的位置于中游位置,相对固定的可变编码段的位置,可以迅速确定人工核酸序列水印编码系统的边界,提高了识别的准确性和精度,提高识别效率,避免了在不确定可变编码段位置时在编码和解码时出现乱码的问题。
[0067]
上述,可变编码段由一个或多个信息单元组成,每个信息单元包括两部分,分别为核酸特征部和编号部。其中,核酸特征部,用于标识核酸组装方法或者核算与案件中磊;编码部,用于标识具体组装方法编号或者所选核酸元件在元件库中的编号。
[0068]
进一步的,元件库为预设的具有索引目标的编码部和对应dna序列的数据库,可以用于人工核酸序列水印编码系统的编码或解码。
[0069]
上述,可变编码段有若干信息单元构成,每个信息单元包括核酸特征部和编号部,其中,核酸特征部可以用1位字母表示,编号部可以用若干位数字表示(例如,a123b456c789)。信息单元的数量可以根据实际需求、信息量的要求和条件要求进行增减和自定义。
[0070]
上述,水印字符串,可以设置于人工核酸序列水印编码系统的上游位置或者下游位置,可以由序列设计单位设计,用于标识特定的单位信息,例如,水印字符串“biosysen”,表示该序列由“biosysen ltd.”公司设计提供,因此上述水印字符串,用于起到针对特定的单位信息的标签标识作用,因此与已知天然生物基因组不存在高度同源,可用作水印序列,以标识特定单位或实验室的人工核酸序列设计,对基因产品进行知识产权保护。
[0071]
例如,人工核酸序列水印编码系统为:
[0072]
biosysen_a003s001o001r001i005p001b001c010t003;该系统包括两部分,上游位置的水印字符串“biosysen”,以及中游位置(或中下游位置) 的可变编码段“a003s001o001r001i005p001b001c010t003”。其中,可变编码段包括有9个信息单元,分别为“a003”、“s001”、“o001”、“r001”、“i005”、“p001”、“b001”、“c010”和“t003”;首个信息单元中,核酸特征部为“a”,编号部为“003”。因此,可以基于每个信息单元中的编号部索引到对应的元件库中,依据其核酸特征,确定对应的序列,大大提高了存储量和测序效率。
[0073]
本技术通过提供人工核酸序列水印编码系统,人工设计排列可变编码段和水印字符串相对位置,将可变编码段固定于中游位置,两侧上下游固定其他如水印字符串等,将人工核酸序列水印编码系统转换为核酸序列后,与已知天然生物基因组不存在高度同源,可用作水印序列,以标识特定单位或实验室的人工核酸序列设计,对基因产品进行知识产权保护;此外,人工核酸序列水印编码系统长度介于100
‑
300bp,可被一个sanger测序反应覆盖,无需对完整人工核酸序列进行测序,只需通过一次sanger测序,就可以获知人工核酸片段的元件组成。结合预先设定的核酸特征部(组装方法等)、编号部(元件库编号)和序列的映射关系,亦可推导出人工核酸片段的完整序列。
[0074]
进一步的,所述水印字符串长度不小于3;
[0075]
在所述可变编码段中,多个所述信息单元按5
′
到3
′
顺序排列,用于表示人工核酸片段上的功能片段种类和对应编号。
[0076]
上述,水印字符串的长度,现定于3以上,从而能够保证编码为核酸后,通用引物的长度能够达到16nt。
[0077]
上述,可变编码段中,多个所述信息单元按5
′
到3
′
顺序排列,例如:
[0078]
biosysen_a003s001o001r001i005p001b001c010t003;
[0079]
a003为起始信息,用于标识核酸组装方法和接口信息,003为编码部,为索引对应元件库中的信息。其后每个信息单元按5
′
到3
′
顺序表示人工核酸片段上的功能片段的种类和编号(如为质粒等环状核酸系统,一般从插入片段下游的第一个功能元件开始);若ixxx后、下下游使用场景字符串前仍有若干信息单元,则这些信息单元表示插入片段内部结构(如本例中的 i005p001b001c010t003,表示插入片段骨架类型为005,其内部由001号启动子、001号rbs、010号cds、003号终止子按顺序连接组成)。
[0080]
进一步的,每个所述信息单元中的所述核酸特征部用于表示dna组装方法和接口信息、筛选标记信息、复制起始点信息、报告基因信息、插入片段骨架种类信息、插入片段启动子信息、插入片段rbs信息,以及插入片段cds信息或插入片段终止子信息。
[0081]
上述,每个信息单元中核酸特征部其用途,包括用于表示但不限于dna 组装方法和接口信息、筛选标记信息、复制起始点信息、报告基因信息、插入片段骨架种类信息、插入片段启动子信息、插入片段rbs信息,以及插入片段cds信息或插入片段终止子信息等等。
[0082]
上述,核酸特征部表示核酸组装方法或核酸元件种类,本实施例中用1 位字母表示,但不限于用此方式进行表示。本实施例中,可以通过如下方式进行定义和表示:
[0083][0084][0085]
通过每一个信息单元中的核酸特征部标识其核酸组装方法和核酸元件种类,并利用编码部的数字,标识元件库中的对应编号,从而可精确迅速索引到对应的核酸信息,从而使简单的包含有多个信息单元的人工核酸序列水印编码系统,通过对应编码和解码,存储有更多的核酸序列相关信息,通过对该编码系统进行测序,就可以完整的获知人工核酸序列的完整功能模块组成,甚至推导出完整的核酸序列,大大降低了测序成本,提高了测序效率,为测序工作提供了方便。
[0086]
进一步的,还包括使用场景段,用于表示所述人工核酸序列水印编码系统的结束和使用场景;
[0087]
所述使用场景段与所述可变编码段连接;
[0088]
所述使用场景段设于所述人工核酸序列水印编码系统中的上游位置或下游位置;
[0089]
所述可变编码段设于所述使用场景和/或所述水印字符串之间的中游位置。
[0090]
进一步的,所述使用场景段包括用于标识使用场景的细菌人工染色体标识、酵母
人工染色体标识、核基因组标识、线粒体基因组标识和/或叶绿体基因组标识rna片段标识。
[0091]
上述,使用场景段,包括但不限于用于标识使用场景的细菌人工染色体标识、酵母人工染色体标识、核基因组标识、线粒体基因组标识和/或叶绿体基因组标识rna片段标识。其中,可以用于标识编码系统的结束,也可以用来标识该人工核酸序列的使用场景。其位置,可以设置于上游位置,或者下游位置,例如,可以为:
[0092]
1、水印字符串_可变编码段_使用场景段;
[0093]
2、使用场景段_可变编码段_水印字符串。
[0094]
例如:biosysen_a003s001o001r001i005p001b001c010t003_vector;
[0095]
其中,vector为位于下游位置的使用场景段,表示人工核酸序列为载体质粒。此外,也可以采用但不限于“bac”、“yac”、“genome”、“mito”、“chloro”、“rna”等表示人工核酸序列用于细菌人工染色体、酵母人工染色体、核基因组、线粒体基因组、叶绿体基因组、rna片段等。使用场景段的采用,能够在测序、编码、解码时,获知该序列所使用的场景,例如载体质粒,可提高测序效率,精确获知相关信息。
[0096]
此外,为解决上述问题,本实施例还提供一种人工核酸序列水印编码系统中的水印字符串,其长度不小于15bp/nt;并且,所述水印字符串能作为通用pcr引物序列,对人工核酸片段扩增和测序。
[0097]
进一步的,所述水印字符串,其核酸序列、核酸序列的反向互补序列、 rna序列和/或rna序列的反向互补序列的序列本身和/或其子序列,为如下核酸序列、核酸序列的反向互补序列、rna序列和rna序列的反向互补序列的相似度不小于95%的序列;其中,
[0098]
核酸序列为:
[0099][0100]
核酸序列的反向互补序列为:
[0101][0102]
rna序列为:
[0103][0104]
rna序列的反向互补序列为:
[0105][0106]
上述核酸序列为水印字符串“biosysen”对应解码后的核酸序列,与已知天然生物基因组均不存在高度同源(与ncbi nt数据库运行blastn比对无结果),因此可视为由biosysen ltd.公司设计的特异性序列。
[0107]
相应地,可以包括如下几种序列:
[0108]
(1)上述四个序列本身;
[0109]
(2)上述四个序列的任意≥15bp/nt的子序列;
[0110]
(3)上述四个序列、或上述四个序列的任意≥15bp/nt的子序列相似性≥95%(blastn%identity)的序列;
[0111]
以上几种情形,均可视为biosysen ltd.设计的人工核酸序列的水印信息;含有该类水印信息的人工核酸序列或经遗传工程改造的生物,都视为含有biosysen ltd.公司的
知识产权。
[0112]
通过上述水印字符串于人工核酸序列水印编码系统的插入,可以在编码或者解码时快速获知该人工核酸序列的特定单位信息,从而可以获知该序列所对应的生产方为biosysen ltd.。例如:
[0113]
biosysen_a003s001o001r001i005p001b001c010t003_vector;
[0114]
针对于该系统,可由“biosysen_”中,获得上述4个对应序列,或者在测序过程中,可由上述4个序列,对应的获得该序列所对应的水印字符串为“biosysen_”,进而获知生产方为biosysen ltd.,从而使基因片段中能够保有特定生产单位信息,从而可以在编码或解码过程中,获知对应的生产方,提高了知识产权的保护力度,提供了另一种保护知识产权、产品防伪、追根溯源的方式。
[0115]
此外,为解决上述问题,本实施例中还提供一种人工核酸序列水印编码系统的编码和解码方法,包括:
[0116]
编码方法:
[0117]
预设水印字符串、可变编码段和使用场景段;
[0118]
将所述水印字符串、所述可变编码段和所述使用场景段进行编码,获得目标人工核酸序列;
[0119]
解码方法:
[0120]
对目标人工核酸序列进行sanger测序,获取测序结果;
[0121]
由所述测序结果,获取其中上游位置、中游位置和下游位置的水印字符串、可变编码段和使用场景段对应的核酸序列;
[0122]
对所述水印字符串、所述可变编码段和所述使用场景段对应的核酸序列进行信息解读转换,获得解码信息。
[0123]
上述,水印字符串、可变编码段和使用场景段,如果需要载入到完整序列中则需要进行编码和对应的解码程序。在编码中,需要首先预先设定对应的水印字符串、可变编码段和使用场景段,再根据水印字符串、可变编码段和使用场景段进行编码,从而得到对应的目标人工核酸序列。如果需要将测序所得到的序列作为目标人工核酸序列,获取相应的信息,则需要进行对上述目标人工序列的解码。
[0124]
本实施例提供人工核酸序列水印编码系统的编码和解码方法,通过预先设定人工设计排列可变编码段、水印字符串、使用场景段,进而进行针对于可变编码段、水印字符串、使用场景段的编码得到目标人工核酸序列;或者通过测序获得目标人工核酸序列,再通过解码方法进行解码,从而或得到对应的解码信息,从而实现了将人工核酸序列水印编码系统转换为核酸序列后,与已知天然生物基因组不存在高度同源,可用作水印序列,以标识特定单位或实验室的人工核酸序列设计,对基因产品进行知识产权保护;此外,人工核酸序列水印编码系统长度介于100
‑
300bp,可被一个sanger 测序反应覆盖,无需对完整人工核酸序列进行测序,只需通过一次sanger 测序,就可以获知人工核酸片段的元件组成。结合预先设定的核酸特征部 (组装方法等)、编号部(元件库编号)和序列的映射关系,亦可推导出人工核酸片段的完整序列。
[0125]
实施例1:
[0126]
所述编码方法中,“将所述水印字符串、所述可变编码段和所述使用场景段进行编
码,获得目标人工核酸序列”包括:
[0127]
将所述水印字符串、所述可变编码段和所述使用场景段对应的核酸序列中的每个字符都转换为ascii字节编码的八位二进制数,得到第一信息集合;
[0128]
将所述第一信息集合依据00=a、01=g、10=c、11=t或u映射,转换为四位四进制数,得到所述目标人工核酸序列;
[0129]
所述解码方法中,“对所述水印字符串、所述可变编码段和所述使用场景段对应的核酸序列进行信息解读转换,获得解码信息”包括:
[0130]
依据a=00、g=01、c=10、t或u=11规则将所述水印字符串、所述可变编码段和所述使用场景段对应的核酸序列转换为二进制数字字符,得到第二信息集合;
[0131]
将所述第二信息集合以每8位为一组的ascii编码,转换为字符串,即得到所述目标人工核酸序列对应的解码信息。
[0132]
在本实施例(ascii转码法编码获得目标人工核酸序列)的编码过程中,采用ascii方法:该人工核酸序列水印编码系统中的每个字符都转换为 ascii字节编码(八位二进制数),再以每两位进行00=a,01=g,10=c,11=t或u映射,转换为四位四进制(a、t/u、c、g)的dna序列。
[0133]
例如:biosysen_a003s001o001r001i005p001b001c010t003_vector;
[0134]
该案例的人工核酸序列水印编码系统经本实施例中所提供的方法转换的核酸序列为:
[0135][0136]
上述,在解码过程中,通过a=00,g=01,c=10,t或u=11的方式将测序序列转换为二进制数字字符串,再以每8位为一组的ascii编码,转换为字符串,即获得可变编码字符串。
[0137]
具体的,对实施例一中ascii转码法编码获得目标人工核酸序列进行测序:
[0138]
选取编号为biosysen_a001s001o001r001i001_vector的质粒、引物 5
′‑
gaacgccggcttgtatgtcgg
‑3′
做sanger测序,测序结果为:
[0139][0140][0141]
以实施例1中所得到的序列进行解码,结果为:
[0142]
biosysen_a001s001o001r001i001_vector,完整还原了编码信息,测试成功。
[0143]
实施例2:
[0144]
所述编码方法中,“将所述水印字符串、所述可变编码段和所述使用场景段进行编码,获得目标人工核酸序列”包括:
[0145]
分别获取所述水印字符串、所述可变编码段和所述使用场景段对应的核酸序列中非数字字符和十进制数字字符;
[0146]
将所述非数字字符转换为ascii字节编码的八位二进制数,得到第三信息集合;
[0147]
将所述第三信息集合依据00=a、01=g、10=c、11=t或u规则映射,转换为四位四进制数,得到第四信息集合;
[0148]
将所述十进制数字字符进行四进制转换;其中,根据四进制转换的四进制数的固定位数,四进制转换后不足所述固定位数的数字前端以0补齐达到所述固定位数;得到第五信息集合;
[0149]
将所述第五信息集合依据0=a、1=g、2=c、3=t或u规则映射,再转换为十进制数字,得到得到所述目标人工核酸序列;
[0150]
所述解码方法中,“对所述水印字符串、所述可变编码段和所述使用场景段对应的核酸序列进行信息解读转换,获得解码信息”包括:
[0151]
将所述水印字符串、所述可变编码段和所述使用场景段对应的核酸序列切割成长度为4+n的子序列,并将每一个子序列作为一个解码单元;其中,n为四进制转换的四进制数的固定位数;
[0152]
将每个所述解码单元中,前四位的核酸序列依据a=00、g=01、c=10、 t或u=11规则转换为八位二进制ascii码,并转换为字符,得到第六信息集合;并且,
[0153]
将每个所述解码单元中,后n位的核酸序列依据依据a=0、g=1、c=2、 t或u=3规则转换为四进制数字,在转换为十进制数字,得到第七信息集合;
[0154]
将所有解码单元中的所述第六信息集合和所述第七信息集合相连,得到所述解码信息。
[0155]
上述,在编码过程中,采用混合编码方法,该人工核酸序列水印编码系统中的非数字字符进行如方案一中的转换,而十进制数字字符串直接进行四进制转换(转换后的四进制数应有固定位数,不足该位时数字前端以0 补齐至该位数,如本例中使用四位四进制数,四进制数130应补齐为0130),并以0=a,1=g,2=c,3=t或u的规则映射为核酸序列(如0130
→
agta)。
[0156]
例如:biosysen_a003s001o001r001i005p001b001c010t003_vector;
[0157]
该案例的人工核酸序列水印编码系统经实施例2转换的核酸序列为:
[0158][0159]
在解码过程中,测序序列先切割为长度为4+n的子序列(n为对数字编码时,四进制数采用的固定位数,本案例中为4),每个子序列表示一个信息单元:在每个信息单元中,前4位核酸序列通过a=00,g=01,c=10,t 或u=11的方式转换为8位二进制ascii码,并转换
为字符;后n位序列通过a=0,g=1,c=2,t或u=3的规则转换为四进制数字,再转换为十进制数字;将所有信息单元还原的字符、十进制数字相连,就还原得到可变编码字符串。
[0160]
对实施例2进行测序:
[0161]
选取编号为biosysen_a003s001o001r001i001_vector的质粒、引物 5
′‑
gaacgccggcttgtatgtcgg
‑3′
做sanger测序,测序结果为:
[0162][0163]
以实施例2进行解码,结果为:
[0164]
biosysen_a003s001o001r001i001_vector,完整还原了编码信息,测试成功。
[0165]
实施例3:
[0166]
此外,生物制品广泛涉及到医疗卫生、食品安全和农作物种植,以及畜牧业养殖等等方方面面,与人类的生命健康与安全关系密切,因此生物制品在物流、仓储、临床交付过程中产品的唯一性和对应性是确保生物安全应用的重中之重,现有的解决方案中,可以通过增加封存手段,人工核对物理标签来确保产品唯一,与出厂产品相对应,也可以采用如上述手段中利用人工核酸序列,增加水印编码系统,内含水印字符串的方式进行解决安全性、防伪的缺陷,但是上述方法中,也存在中间环节出现替换标签、替换成对应人工核酸序列产品的无法控制的情形。
[0167]
为解决上述问题,本实施例中,提出一种对于特定生物产品进行核对的加密和解密方法,综合利用人工核酸序列水印编码系统、水印字符串技术,以及加密算法,具体如下:
[0168]
所述步骤“预设水印字符串、可变编码段和使用场景段”之后,还包括:
[0169]
在编码方法中:
[0170]
根据所预设的所述水印字符串、所述可变编码段和所述使用场景段,生成基于sha
‑
256算法的一公钥及一私钥;
[0171]
基于所述私钥,对所述水印字符串、所述可变编码段和所述使用场景段进行加密计算,得到经过所述私钥加密后的所述水印字符串、所述可变编码段和所述使用场景段;
[0172]
所述步骤“将所述水印字符串、所述可变编码段和所述使用场景段进行编码,获得目标人工核酸序列”中,将所述水印字符串、所述可变编码段和所述使用场景段,即为经过所述私钥加密后的所述水印字符串、所述可变编码段和所述使用场景段。
[0173]
在解码方法中:
[0174]
所述步骤“对所述水印字符串、所述可变编码段和所述使用场景段对应的核酸序列进行信息解读转换,获得解码信息”之后,还包括:
[0175]
利用公钥,对所述解码信息进行解密,得到第一哈希值;同时,利用 sha
‑
256算法,对所述解码信息进行计算,得到第二哈希值;
[0176]
将所述第一哈希值与所述第二哈希值进行比较,判断所述第一哈希值与所述第二哈希值是否一致;
[0177]
若所述第一哈希值与所述第二哈希值一致,则判定检验通过。
[0178]
上述,在产品制备过程中,公钥和私钥一并生成,其中私钥可以计算出公钥,而公
钥并不能计算得到私钥。
[0179]
上述,私钥只由制造者持有,并且只针对所制备产品的序列进行计算编码,具体的,利用私钥对所述水印字符串、所述可变编码段和所述使用场景段进行加密计算,得到经过所述私钥加密后的水印字符串、可变编码段和使用场景段;每个项目(类别)经过私钥计算,即得到一对应的256 位的数字值,进而再利用所得数字值,对应的得到目标人工核酸序列。
[0180]
上述,公钥公开,可以由受让方持有,可公开获得,比如,随产品转让至受让方,或者在公开处由受让方自行获得。
[0181]
受让方,利用公钥,对解码后所得到的核酸序列进行计算,得到一256 位的哈希值,即为第一哈希值。
[0182]
同时,利用sha
‑
256算法,对核酸序列进行计算,同样得到一256位哈希值,即为第二哈希值。
[0183]
将两个哈希值比较,如果第一哈希值与第二哈希值一致,即第一哈希值=第二哈希值,可以证明如下结论:
[0184]
1、所得解码信息是针对所得到的这一具有目标人工核酸序列的产品的;
[0185]
2、这个解码信息是对应该产品的转让方的;
[0186]
3、接收到的解码信息与转让方所出库的产品的原始记录相同,未被篡改。
[0187]
上述,sha
‑
256算法,即为sha
‑
2下细分出的一种算法,为一种哈希函数,又称散列算法,是一种从任何一种数据中创建小的数字“指纹”的方法。散列函数把消息或数据压缩成摘要,使得数据量变小,将数据的格式固定下来。该函数将数据打乱混合,重新创建一个叫做散列值(或哈希值)的指纹。散列值通常用一个短的随机字母和数字组成的字符串来代表。
[0188]
例如,x医院根据本院订购意向,通过冷链运输后获得b公司(依据其订购意向发货)的生物产品a后,对生物产品a进行sanger测序,测序结果为:
[0189][0190]
以上述实施例2中方法进行解码,结果(即解码信息)为:
[0191]
biosysen_a003s001o001r001i001_vector;
[0192]
利用公开的与生物产品a对应的公钥对解码信息如下“biosysen_a003s001o001r001i001_vector”进行计算,得到一与第一哈希值,即为:
[0193]
55ca1e14f0fc5d3c3fde11e223b8aca5a7944297866dcf923f1f5e 5dd80b2075;
[0194]
同时,利用sha
‑
256计算工具,对解码信息“biosysen_a003s001o001r001i001_vector”进行计算,得到第二哈希值,即为:
[0195]
55ca1e14f0fc5d3c3fde11e223b8aca5a7944297866dcf923f1f5e 5dd80b2075;
[0196]
将第一哈希值与第二哈希值进行匹配,即进行比较,通过比较得出结论:第一哈希值与第二哈希值一致,即第一哈希值=第二哈希值,则可判定:
[0197]
1、所得解码信息是针对所得到的这一具有目标人工核酸序列的生物产品a的;
[0198]
2、这个解码信息是对应该生物产品a的公司b所生产的;
[0199]
3、接收到的解码信息与公司b所出库的产品a的原始记录相同,未被篡改。
[0200]
亦即,x医院所获得的产品a,为公司b生产,且为公司b向x医院发送出来的与x医院所要求订购意向相对应的指定产品。
[0201]
本实施例中,利用rsa非对称加密算法,对编码方法和解码方法中的信息进行加密和解密,从而在产品流通过程中,上至生产源头,下至产品受让方,利用算法的加密和解密,在生化产品的序列中写入加密信息,继而在得到产品后,测序、编码,并利用公钥进行解密,最后进行哈希值的比较后,得到产品唯一的结论,一方面提高了产品的安全性、唯一性、对应性,另一方面充分保证设计、研发、生产方的知识产权,使产品达到生物信息级别的高度保密。
[0202]
本实施例大大提高了加密和解密的门槛,首次充分结合区块链的rsa 非对称加密方法与人工核酸序列的水印编码系统、字符串的编码解码,从研发、生产、临床医疗、工业应用等等多环节处,基于本实施例进一步避免了产品在物流过程、转让受让过程中,被更换伪造、信息被篡改的可能性,更有利于在不同环节中保障生物制品应用于特定的食品和医疗卫生领域的安全性问题。
[0203]
以上所述的是本发明的优选实施方式和相应实施例,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提,还可以做出若干变形和改进,包括但不限于比例、流程、用量的调整,这些都属于本发明的保护范围之内。