本发明涉及DNA测序分析领域,尤其涉及一种根据相似度预先分组的DNA测序图像处理系统。
背景技术:
在DNA测序技术领域,焦磷酸测序技术(pyrosequencing),是由Nyren等人于1987年发展起来的一种新型的酶级联测序技术,其可重复性和精确性能与Sanger法DNA测序技术相媲美,而速度却大大提高。
整体操作流程描述如下:DNA样品通过破碎后,应用建库试剂进行加接头、单链捕获、结合至微球、微乳液PCR扩增、破乳液,获得建立在微球上的DNA文库,应用加样板将文库和测序反应需要的酶等铺放至具有微反应池的测序芯片,测序芯片和测序试剂安装至主机上,通过控制计算机根据模块数量和位置启动测序程序,自动化进行测序反应,产生的数据传输至数据分析计算机,完成测序后应用计算分析软件进行图像处理、序列读出、质量分析、序列拼接等工作,最终得到DNA样本的序列信息。微反应池测序芯片是测序反应的载体,载有测序模板的DNA Beads及各种测序反应用酶均位于刻有微反应池的测序芯片中。
在实际的DNA测序的过程中,要求测序仪在试剂供应、测序反应过程中应具有连续、可控的特性,并且;最终测序芯片的反应过程及结果通过CCD相机进行拍照获取,CCD相机的控制系统通过对采集的连续的图像判定碱基的类型,A,T,C,G,由此确定最红的DNA序列,但控制系统在分析时,往往只对当前的片段进行截取分析,难以对间断的片段进行比较判定,因此准确性不高。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本创作。
技术实现要素:
本发明的目的在于提供一种根据相似度预先分组的DNA测序图像处理系统,用以克服上述技术缺陷。
为实现上述目的,本发明提供一种根据相似度预先分组的DNA测序图像处理系统,包括:
反应芯片,其上通过待测序的液体,并与反应芯片内的反应液进行反应;
CCD相机,其设置在DNA测序仪一侧用来获取测序芯片上的反应信息的图像;
还包括与CCD相机连接并获取拍摄的图片信息的CCD相机获取模块;所述的CCD相机获取模块按照预设的程序获取存储在CCD相机内的图像信息;
信号分组模块,其将CCD相机获取模块的信息按照相似度将各个碱基的图像信息分别分组获取并存储,在进行分组时,所述的信号分组模块将各个碱基的时序进行记载,数据格式按照获取矩阵(p,q,f),其中,p表示各个碱基图像的时间序列,q表示碱基的图像拍摄信息,f表示某一碱基类型;
碱基识别模块,其将信号分组模块获取的各碱基信息与标准的碱基图像信息进行比对,并且,将不符合的碱基图像信息,分别传输至信号分组模块中,由信号分组模块重新进行分组,重新进行识别比对;
碱基排序模块,在碱基识别完全后,所有数据传输至碱基排序模块中,并按照获取矩阵(p,q,f)中的时间序列重新排列各个碱基信息;
还包括序列生成模块,所述的序列生成模块,将碱基排序模块排序的各个碱基信息与CCD相机获取图像的顺序一一比对,完全一致时,输出碱基序列;在不一致时,所述的碱基排序模块重新进行排序,然后输出。
进一步地,所述的信号分组模块,对每一时刻的碱基信息进行分类,获取矩阵信息(p,q,f),其中,p表示各个碱基图像的时间序列,q表示碱基的图像拍摄信息,f表示某一碱基类型;p,q,f分别通过获取的电流值进行判定;
所述的信号分组模块,根据下述公式对相似度进行判定;
式中,X1表示第一组重合度值,p1,q1,f1分别表示第一组单位时间内的时间序列,碱基的图像拍摄信息,某一碱基类型;∑表示求和运算,T表示均方差运算,I表示积分运算,上述公式采用均方差和积分运算统计单位时间内的电流情况;
所述的信号分组模块内有一额定重合度阈值X0;所述的信号分组模块将所述计算所得的两两重合度值绝对值差值与额定重合度阈值X0进行比对,若实际重合度绝对值小于阈值,则确定按照相同的碱基完成分类。
进一步地,所述的碱基识别模块,获取所述DNA图谱的第一像素和第二像素,其中,第一像素A为目标像素,第一像素的灰度值大于或等于初始分割阈值T0,像素总数为N;第二像素B为背景像素,第二像素的灰度值小于初始分割阈值T0,像素总数为M;图谱f(i,j)的最大值为Vmax,最小值为Vmin
其中,T0=1/2(Vmin+Vmax) (4);
计算第一像素和第二像素的灰度均值的全局阈值T;
若方差在预设范围内,则以T为全局阈值对所述图谱进行分割。
进一步地,所述的碱基排序模块采用电流逆向修复的方式,对时间间隔t内的信号进行采样,时间间隔t内,平均分配为N2个区间,在每个区间内选择M2个完整的波形,在每一周期内选择间断的X2个点,记录每个点的瞬时电流值i0;
按照预设的参数对该信号进行修正发送至所述排序电路;生成排序后的信号波形。
进一步地,碱基排序模块,对选择的每个点进行修正,按下述公式(6)进行修正;
im=ρ×i0 (6)
其中,im表示修正后的采样点的瞬时电流值,ρ表示修正系数,i0表示采样点的瞬时电流值;修正系数ρ按下述公式(7)计算,其值在0.95-1之间;
式中,ρ表示修正系数,i01和i02表示排序时,同一碱基序列处的两个点的瞬时电流采样值,N表示采样次数,k表示采样序列。
本发明提供一种根据相似度预先分组的DNA测序图像处理系统,本发明在对各个图像信息进行处理时,并不是按照图像获取的先后顺序与标准碱基图像进行比对,而是预先将相似信息的图像进行分组集中进行比对,最后通过时序的先后顺序碱基重新进行排序,最终输出碱基信息。该处理方法节约程序资源,便于集中进行比对,并且,比对结果的输出便于排序处理。
碱基排序模块,通过对上述碱基排序模块获取的比对后的碱基序列信息进行适当的修正,保证对同一碱基的信号具有高度的同一性,在输出排序完好的碱基序列时,信号稳定,不会产生信号传输的紊乱,防止因信号传输及处理造成测试结果的偏差。
附图说明
图1为本发明的根据相似度预先分组的DNA测序图像处理系统的结构示意图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
请参阅图1所示,为本发明的DNA测序的图像的磁珠提取装置的结构示意图,本发明系统包括:
反应芯片,其上通过待测序的液体,并与反应芯片内的反应液进行反应;
CCD相机,其设置在DNA测序仪一侧用来获取测序芯片上的反应信息的图像;
还包括与CCD相机连接并获取拍摄的图片信息的CCD相机获取模块;所述的CCD相机获取模块按照预设的程序获取存储在CCD相机内的图像信息;
信号分组模块,其将CCD相机获取模块的信息按照相似度将各个碱基的图像信息分别分组获取并存储,在进行分组时,所述的信号分组模块将各个碱基的时序进行记载,数据格式按照获取矩阵(p,q,f),其中,p表示各个碱基图像的时间序列,q表示碱基的图像拍摄信息,f表示某一碱基类型;
碱基识别模块,其将信号分组模块获取的各碱基信息与标准的碱基图像信息进行比对,并且,将不符合的碱基图像信息,分别传输至信号分组模块中,由信号分组模块重新进行分组,重新进行识别比对;
碱基排序模块,在碱基识别完全后,所有数据传输至碱基排序模块中,并按照获取矩阵(p,q,f)中的时间序列重新排列各个碱基信息。
还包括序列生成模块,所述的序列生成模块,将碱基排序模块排序的各个碱基信息与CCD相机获取图像的顺序一一比对,完全一致时,输出碱基序列;在不一致时,所述的碱基排序模块重新进行排序,然后输出。
本发明在对各个图像信息进行处理时,并不是按照图像获取的先后顺序与标准碱基图像进行比对,而是预先将相似信息的图像进行分组集中进行比对,最后通过时序的先后顺序碱基重新进行排序,最终输出碱基信息。该处理方法节约程序资源,便于集中进行比对,并且,比对结果的输出便于排序处理。
所述的信号分组模块,对每一时刻的碱基信息进行分类,获取矩阵信息(p,q,f),其中,p表示各个碱基图像的时间序列,q表示碱基的图像拍摄信息,f表示某一碱基类型;p,q,f分别通过获取的电流值进行判定;
所述的信号分组模块,根据下述公式对相似度进行判定。
式中,X1表示第一组重合度值,p1,q1,f1分别表示第一组单位时间内的时间序列,碱基的图像拍摄信息,某一碱基类型;∑表示求和运算,T表示均方差运算,I表示积分运算。上述公式采用均方差和积分运算统计单位时间内的电流情况。
式中,X2表示第二组重合度值,p2,q2,f2分别表示第二组单位时间内的时间序列,碱基的图像拍摄信息,某一碱基类型;∑表示求和运算,T表示均方差运算,I表示积分运算。上述公式采用均方差和积分运算统计单位时间内的电流情况。
式中,X3表示第三组重合度值,p3,q3,f3分别表示第三单位时间内的时间序列,碱基的图像拍摄信息,某一碱基类型;∑表示求和运算,T表示均方差运算,I表示积分运算。上述公式采用均方差和积分运算统计单位时间内的电流情况。
所述的信号分组模块内有一额定重合度阈值X0;所述的信号分组模块将所述计算所得的两两重合度值绝对值差值与额定重合度阈值X0进行比对,若实际重合度绝对值小于阈值,则确定按照相同的碱基完成分类。
若所述实际重合度绝对值差值大于阈值,则断定其中两组的重合度超标;将所有计算所得实际重合度分别与额定重合度阈值X0进行比对,若均大于额定重合度阈值X0,则断定为不同的碱基类型,需要重新进行分组。
所述的碱基识别模块,获取所述DNA图谱的第一像素和第二像素,其中,第一像素A为目标像素,第一像素的灰度值大于或等于初始分割阈值T0,像素总数为N;第二像素B为背景像素,第二像素的灰度值小于初始分割阈值T0,像素总数为M;图谱f(i,j)的最大值为Vmax,最小值为Vmin
其中,T0=1/2(Vmin+Vmax) (4);
计算第一像素和第二像素的灰度均值的全局阈值T;
若方差在预设范围内,则以T为全局阈值对所述图谱进行分割。
通过上述公式(5)对所述中心点进行融合处理,融合处理后,对分割后的图像,分别按照像素关系进行比对,通过获得第一像素和第二像素,计算第一像素和第二像素的灰度均值的全局阈值T;对所述中心点进行融合处理,以获得融合后的磁珠中心点。运行时间短,对图像配准效果好,提高对反应芯片的图像识别后,对图像识别的准确性,进而精确对碱基类型的判定。避免了常规图谱中图像模糊不清,磁珠漏查的情况。并且,识别算法简单,速率快,提高了磁珠识别率。
所述的碱基排序模块采用电流逆向修复的方式,对时间间隔t内的信号进行采样,时间间隔t内,平均分配为N2个区间,在每个区间内选择M2个完整的波形,在每一周期内选择间断的X2个点,记录每个点的瞬时电流值i0。
按照预设的参数对该信号进行修正发送至所述排序电路;生成排序后的信号波形。
碱基排序模块,对选择的每个点进行修正,按下述公式(6)进行修正;
im=ρ×i0 (6)
其中,im表示修正后的采样点的瞬时电流值,ρ表示修正系数,i0表示采样点的瞬时电流值;修正系数ρ按下述公式(7)计算,其值在0.95-1之间。
式中,ρ表示修正系数,i01和i02表示排序时,同一碱基序列处的两个点的瞬时电流采样值,N表示采样次数,k表示采样序列。
碱基排序模块,通过对上述碱基排序模块获取的比对后的碱基序列信息进行适当的修正,保证对同一碱基的信号具有高度的同一性,在输出排序完好的碱基序列时,信号稳定,不会产生信号传输的紊乱,防止因信号传输及处理造成测试结果的偏差。
上述详细说明是针对本发明其中之一可行实施例的具体说明,该实施例并非用以限制本发明的专利范围,凡未脱离本发明所为的等效实施或变更,均应包含于本发明技术方案的范围内。