本发明涉及生物基因技术领域,尤其涉及一种檀香基因组特异序列的确定方法和檀香的鉴定方法。
背景技术:
檀香(santalumalbuml)为檀香科(santalaceae)常绿半寄生植物,在檀香科中檀香油含量最高,具有重要的经济价值。檀香的心材是名贵的中药材;根部、主干等碎材可以提炼俗称“液体黄金”的檀香精油;幼枝和生长过程中修剪下的枝条是高档香制品原材料。最早《本草纲目》记录“治噎膈吐食。又面生黑子,每夜以浆水洗拭令赤,磨汁涂之”,檀香味辛、性温、无毒具有理气和胃等功效,可治心腹疼痛,胸膈不舒。在《中国药典》(1990年版)中首次记载檀香心材具有药用价值。
由于檀香全身都是宝,具有巨大的经济价值。近年来,人们对其进行了过度的开发和利用,从而导致檀香木野生资源逐渐减少,甚至匮乏,目前檀香已被列入濒危野生动植物种国际公约(cites)管制。由于市场的需求逐渐增加,一些人为了追逐利益,使用构造相似的梓木、柏木和黄杉木等来仿造檀香木,从而造成严重的不良的影响。
因此,针对上述情况,对檀香木进行准确的鉴别显得尤为重要。檀香的鉴别已有一些传统方法,包括通过显微特性、药材性状和生理生化性状来判断组织结构以及使用气质联用仪(gc-ms)进行成分分析等,但上述通过物理特征鉴别方法无法区分外观、纤维结构相近的仿造品(如扁柏、桂华木等);而生理生化性状鉴别容易受到低温环境的影响,影响鉴别结果;气质联用仪的成分分析是定性鉴别方法,试验要求控温且样本需求量较大,并且试剂杂质对鉴别结果准确性也存在影响。因此,亟需寻找一种可准确鉴别檀香的方法。
技术实现要素:
有鉴于此,本发明实施例提供了一种檀香基因组特异序列的确定方法和檀香的鉴定方法,主要目的是解决檀香鉴定结果不准确的问题。
为达到上述目的,本发明主要提供了如下技术方案:
一方面,本发明实施例提供了一种檀香基因组特异序列的确定方法,所述方法包括以下从基因数据库中获取檀香基因组测序数据,确定檀香候选区域序列;
将所述檀香候选区域序列比对所述基因数据库中其他物种基因组序列,从所述檀香候选区域序列中剔除能比对上所述其他物种基因组序列,保留特异无法比对上所述其他物种基因组序列并将其作为檀香核苷酸特异序列;
将所述檀香核苷酸特异序列映射至所述檀香基因组,确定所述檀香核苷酸特异序列在所述檀香基因组中的位置信息。
作为优选,所述檀香核苷酸特异序列包括seqidno.1所示核苷酸序列。
另一方面,本发明实施例提供了一种檀香的鉴定方法,所述方法包括以下步骤:
将上述檀香核苷酸特异序列和所述位置信息作为鉴定檀香的标准信息;
提取待测样本基因组并测序,获得样本基因组测序数据;
利用所述标准信息中的所述位置信息确定所述样本基因组测序数据中的样本核苷酸序列;
将所述标准信息中的所述檀香核苷酸特异序列与所述样本核苷酸序列进行对比,计算碱基比对一致率;当所述比对一致率大于95%时,所述待测样本为檀香。
作为优选,利用所述标准信息中的所述位置信息确定所述样本基因组测序数据中的样本核苷酸序列的具体过程为:利用bwa-mem软件将所述样本基因组测序数据与檀香的参考基因组序列进行序列比对,获得比对后的包含相应的染色体及位置信息的对比结果;利用samtools软件和所述标准信息中的所述位置信息从所述比对结果中获取所述样本核苷酸序列。
与现有技术相比,本发明的有益效果是:
本发明首次从檀香基因组信息中确定出檀香核苷酸特异序列,再将所述檀香核苷酸特异序列通过序列比对方式来鉴定檀香的真伪性;由于所述特异序列是通过檀香物种长期进化过程中保留的可代表檀香物种的生物标记,利用其基因特异序列可在多种物种中准确鉴定出真正的檀香;本发明方法从基因角度进行鉴定,提高了檀香鉴定结果的准确性。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下以较佳实施例,对依据本发明申请的具体实施方式、技术方案、特征及其功效,详细说明如后。下述说明中的多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
本发明涉及的专业术语解释如下:
特异序列:指dna分子中的一个核苷酸片段或者蛋白质中的氨基酸片段,它们在进化过程中基本保持不变;即特异序列是在物种基因组内经过长期进化过程中保持不变的序列,不受自然选择影响,特异的特异序列是经过长期进化保留的能代表特定的物种生物标记。
clustalw:是一种渐进的多序列比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。采用clustalw方法在从物种基因组中确定该物种特异序列区域的方法为现有技术。
bwa-mem:用于测序获得的reads和参考基因组比对软件。
samtools:用于处理sam与bam格式的工具软件,能够实现二进制查看、格式转换、排序及合并等功能。
blastn:用于在蛋白质数据库或dna数据库中进行相似性比较的分析工具。
its序列:在rdna基因中,5.8srdna和28srdna基因间隔序列称为its。
实施例1
获取檀香dna序列:
(1)从ncbi数据库中获得檀香基因组测序数据,对这些数据使用clustalw确定候选序列区域;
(2)将收集的檀香候选区域序列比对到ncbi的其他物种的基因组序列,从收集的檀香候选区域序列中剔除能比对上数据库其他物种的候选序列,保留特异无法比对上其他物种基因的候选序列作为檀香核苷酸特异序列,记为conserved.fa;
(3)将上述檀香核苷酸特异序列(conserved.fa)映射至檀香参考基因组,确定檀香核苷酸特异序列在檀香基因组中准确的位置信息和核苷酸序列,将其作为檀香鉴定的标准基因序列信息,记为sample.fa,及位置信息,记为position.bed;其中,获取的檀香核苷酸特异序列包括如seq.id.no.1所示的核苷酸序列。
鉴定物种方法:
(1)选取待鉴定物种样本,提取dna并测序,获得待测样本dna序列信息,记入sample.fastq文件;
(2)使用bwa-mem比对软件将上述待测样本的测序数据(sample.fastq)与檀香的参考基因组序列进行序列比对,产生包含对应染色体位置和序列的比对结果信息,记入bam文件;
(3)使用samtools从bam文件中提取出position.bed文件对应的样本特异序列区域的核苷酸序列记为sample_filter.fa文件;
(4)应用blastn方法对步骤(3)获得的结果待测样本核苷酸序列(sample_filter.fa)与步骤(2)获得的檀香核苷酸特异性序列(conserved.fa)比较,计算碱基的比对一致率,大于95%即为真品。
应用例1
利用实施例1获取的檀香核苷酸特异序列(如seq.id.no.1所示)来鉴定檀香真伪;
(1)确定檀香标准核苷酸特异序列:本发明利用实施例1的方法确定its(240-399)为一段檀香核苷酸特异序列(记入conserved.fa文件),如seq.id.no.1所示:
aacgactctcggcaacggatatctcggctcttgcatcgatgaagaacgtagcgaaatgcgatacttggtgtgaattgcagaatcccgtgaaccatcgagtctttgaacgcaagttgcgcccgaagccactaggccaagggcacgcctgcctgggtgtcac。
将its上240-399碱基比对到檀香参考基因组,确定在参考基因组上的位置为nxek01000069.1:634129-633982,记入position.bed。
its:247-399;
ref:634129-633982;对比过程如表1所示。
表1.its特异序列与檀香参考基因组对比数据表
(2)获取待测样本核苷酸序列:
先获取待测样本dna测序数据,从待检测样本dna序列与檀香的参考基因组的比对结果(bam文件)中提取出position.bed文件中相应位置的待测样本的核苷酸序列,记入sample_filter.fa文件;如seqidno.2所示:
aacgactctcggcaacggatatctcggctctcgcatcgatgaagaacgcagcgaaatgcgatacttggtgtgaattgcagaatcccgtgaatcatcgagtctttgaacgcaagttgcgcccgaagccattaggttaagggcacgcctgcctgggtgtcac。
(3)对比檀香的标准核苷酸特异序列和待测样本的核苷酸序列:
将待测样本的核苷酸序列(记入文件sample_filter.fa)与檀香的标准核苷酸特异序列(.conserved.fa)使用blastn进行比较,比对一致率达到96%,可鉴定上述待测样本为檀香,比对结果如表2所示。
待测样本的核苷酸序列(sample):km521377.1:31-190;
檀香的核苷酸特异序列(its):240-399。
表2.待测样本核苷酸序列与檀香特异序列对比数据表
本发明实施例中未尽之处,本领域技术人员均可从现有技术中选用。
以上公开的仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以上述权利要求的保护范围为准。
序列表
<110>海南大学
<120>一种檀香基因组保守序列的确定方法、应用及鉴定方法
<160>2
<170>siposequencelisting1.0
<210>1
<211>160
<212>dna
<213>人工序列(artificialsequence)
<400>1
aacgactctcggcaacggatatctcggctcttgcatcgatgaagaacgtagcgaaatgcg60
atacttggtgtgaattgcagaatcccgtgaaccatcgagtctttgaacgcaagttgcgcc120
cgaagccactaggccaagggcacgcctgcctgggtgtcac160
<210>2
<211>160
<212>dna
<213>人工序列(artificialsequence)
<400>2
aacgactctcggcaacggatatctcggctctcgcatcgatgaagaacgcagcgaaatgcg60
atacttggtgtgaattgcagaatcccgtgaatcatcgagtctttgaacgcaagttgcgcc120
cgaagccattaggttaagggcacgcctgcctgggtgtcac160