基于CNN和SVM的Sanger测序结果质检方法与流程

文档序号:36920295发布日期:2024-02-02 21:47阅读:17来源:国知局
基于CNN和SVM的Sanger测序结果质检方法与流程

本发明涉及生物,具体涉及基于cnn和svm的sanger测序结果质检方法。


背景技术:

1、sanger测序是1975年提出的第一代测序技术,因其强大的准确性和可靠性被誉为行业“黄金标准”,至今仍被广泛应用与农、林、牧、渔、医疗健康、环境监测、食品安全和石油勘探等领域。然而,在实际的测序过程中,sanger测序信号可能会受到测序仪器、试剂、模板和引物等多方面因素影响而产生各种测序异常。识别具体的异常类型可以帮助实验人员排除异常产生的原因,以获取合格可用的测序结果。然而,目前sanger测序结果的质检主要由人工目视检查完成。由于sanger测序信号的复杂性和多样性,人工质检效率低下且质检结果的准确性严重依赖于人员经验,在面临大通量测序结果时,容易产生疲劳带来的主观误差。因此,开发一种sanger测序结果智能质检方法,对于测序序列的后续应用极为重要。


技术实现思路

1、在一种实施方式中,基于cnn和svm的sanger测序结果质检方法,所述方法包括以下步骤:

2、步骤s1,解析sanger测序仪生成的测序样本.ab1测序结果文件,获取所述测序结果质检所需的数据,所述数据包括raw信号有效段的起点位start参数和止点位stop参数,和每个碱基峰点在analyzed信号中的位置和每个碱基对应的qv值;

3、步骤s2,测序信号完整性识别,包括判断所述raw信号从所述起点位start参数到所述止点位stop参数是否完整覆盖所述raw信号有效信号段;对于有效信号段不完整的测序结果,重新截取raw信号有效段并生成包含完整信息的analyzed信号,直至得到有效信号段完整的测序结果;对于有效信号段完整的测序结果,可以直接进入测序信号异常识别;

4、步骤s3,在测序信号完整后,进行所述测序信号异常识别,具体包括:

5、步骤s31,对步骤2得到的所述raw信号和所述analyzed信号进行预处理,其中对所述raw信号预处理包括raw信号标准化和统一信号长度;

6、对所述analyzed信号预处理包括:a. 根据步骤s1中每个碱基峰点在analyzed信号中的位置,截取analyzed信号的50-750bp,对于不足750bp的aanlyzed信号,截取50bp至最后一个碱基;b. 根据步骤s1中每个碱基峰点位置,进行基于平均峰高的标准化;和c.对样本的analyzed信号进行信号长度统一;

7、步骤s32,使用两个一维cnn分别对所述测序样本的raw信号和analyzed信号进行分类,分类的类型包括正常和多种异常类型,并结合所述两个一维cnn的分类结果确定最终结果,若两个cnn均输出同一类型,且置信概率均大于0.9,则认为分类的类型准确,否则认为分类的类型不准确,转为人工识别,直接判断所述测序结果是否合格;和

8、步骤4:对于分类类型准确的测序结果,如果分类为非染料峰的测序结果,根据质检规程直接判定所述测序结果是否合格;若分类为染料峰的测序结果,使用svm1判断所述染料峰是否严重和使用svm2判断是否存在染料峰导致的碱基错读,若svm1判断染料峰严重,和/或svm2判断存在染料峰导致的碱基错读,则判断所述染料峰测序结果不合格,反之认为所述染料峰测序结果合格。

9、在一种实施方式中,在步骤s2中,绘制带颜色标记的待测样本的raw信号图像,将所述raw信号的起点位start参数的信号点值和止点位stop参数的信号点值之间和之外的信号点值分别以不同颜色绘制,将绘制的带颜色标记的raw信号图像输入至轻量级图像分类网络mobilenetv3进行分类,判断所述raw信号有效信号段是否完整。

10、在一种实施方式中,对于有效段不完整的测序结果,使用sequence analysis 5.2人工设定所述raw信号的起点位start参数和止点位stop参数,直至所述raw信号有效信号段完整。

11、在一种实施方式中,在步骤s31中,对所述raw信号标准化采用z-score方法进行标准化;和/或,使用线性插值方法对每个raw信号重采样至20000点。

12、在一种实施方式中,在步骤s31中进行基于平均峰高的标准化使用修改的max-min方法进行标准化:

13、,

14、x表示输入信号,l表示analyzed信号总碱基个数,hi表示第i个碱基峰的峰高,hi根据步骤s1中每个碱基峰点在analyzed信号中的位置得到。

15、在一种实施方式中,在步骤s31中对样本的analyzed信号进行信号长度统一时,采用末尾补零的方式,对每个analyzed信号补零至10000点。

16、在一种实施方式中,分别使用两个svm判断所述染料峰是否严重和是否存在染料峰导致的碱基错读,包括以下步骤;

17、步骤a: 输入所述染料峰的analyzed信号;

18、步骤b:对所述analyzed信号截取65-95bp片段;

19、步骤c:进行特征提取,svm1判断所述染料峰是否严重时,所述染料峰提取的特征包括:该片段中t峰和c峰中的最大峰值与所有碱基峰平均峰值之比,该片段中超过1.5倍平均峰高的t峰和c峰采样点数与总采样点数之比;和svm2判断是否存在染料峰导致的碱基错读时,所述染料峰提取的特征包括:该片段中最小碱基间距与平均碱基间距之比,和最小间距对应的两个碱基qv的平均值。

20、缩略语、英文和关键术语定义列表

21、卷积神经网络(convolutional neural network,cnn)

22、碱基质量值(quality value,qv)

23、支持向量机(support vector machine,svm)

24、raw信号: 测序仪生成的荧光电泳信号,存储在.ab1测序结果文件中。

25、analyzed信号: 测序仪生成的荧光电泳信号,由raw信号经过一定变换得到的更为规整、可读性更强的测序信号。这种变换包括raw信号有效段的截取(有效段的起始点位记录为.ab1文件中的start参数和stop参数)、基线漂移消除、信号平滑、峰形分离度加强、碱基峰位漂移修正等。

26、本发明可以用于辅助sanger测序结果质检,大幅度提升质检的可靠性和效率,大幅提高了sanger测序结果质检的自动化程度。具体来说:在本发明中使用带颜色标记的raw信号图像,将复杂的信号完整性识别问题转化为简单的图像二分类问题,进而可以使用经典的图像分类cnn判断测序信号是否完整,大大简化了工作流程,减少了工作量,极大地提升了检测的自动化程度。特别是在本发明中同时使用二个cnn基础上,再结合两个svm,实现对染料峰的自动识别,大幅提高了sanger测序结果质检的自动化程度,解决了自动化识别中染料峰识别的难点。

27、考虑到实际质检工作中对准确性的高度要求,本发明通过两个cnn分别对两种测序信号进行识别,并根据两个cnn的分类结果判定测序信号的类型。尽管这种方法牺牲了一定的检出率(即有一部分的样本分类可信度不高,需要交给人工识别类型),但能保证能够识别出的样本类型具有很高的可信度。通过实践验证,日常质检工作中的80%以上的测序结果在本发明步骤s3中可以判定出具体类型,并且准确率高达99%。本发明方法兼顾了检测的效率,同时保证了自动检测结果的准确性。

28、此外,在本发明之前,没有任何用于sanger测序信号识别的cnn结构可供参考,本发明通过大量实验确定了一种在测序信号上表现较好的cnn结构。

29、在本发明中,针对sanger测序实践中常见的“染料峰”异常,本发明使用两个svm分别进行判断,提出了四种特征参数可以实现对严重染料峰和染料峰导致的碱基错读的识别,进而实现了染料峰质检结果输出的自动化,解决了人工判定染料峰质检结果时需要进行复杂的目视检查的缺点,大大提升了检测的效率和提升了检测的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1