基因融合的检测方法、装置、设备及存储介质与流程

文档序号:34708662发布日期:2023-07-07 13:16阅读:55来源:国知局
基因融合的检测方法、装置、设备及存储介质与流程

本发明涉及基因融合检测,尤其涉及一种基因融合的检测方法、装置、设备及存储介质。


背景技术:

1、由基因组结构变异导致的不同基因间的序列拼接,通常称为基因融合,其中,基因组结构变异通常指的是长度大于1kbp的基因组结构改变,主要包括大片段的缺失(deletion),插入(insertion),倒置(inversion)及易位(translocation)。基因融合作为一种重要的生物标记物在肿瘤的诊断、预后及治疗中提供重要的信息。ngs(nextgeneration sequencing,下一代测序/二代测序)技术可以一次同时检测多个基因融合,在临床检验上具有很大的优势,目前可以对dna测序数据集和rna测序数据集的挖掘来识别。现有从dna测序数据集挖掘基因融合信息的方法主要分为基于序列组装、rp(read pair,成对read分别比对到染色体不同位置)及sr(split read,同一条read比对到染色体不同位置)。基于序列组装的方法可以检测结构变异的类型最多,但检测效果依赖于序列组装的质量,容易生成较多的假阳信息,并且序列组装的方法存在消耗大量计算资源的问题。基于rp的方法虽然可以确定基因组结构变异,但此方法的灵敏度受到插入片段长度标准差的影响,并且不能给出结构变异的准确位置。利用sr确定融合断点是较为准确的方法,但不同检测方法具体实施过程中,也存在灵敏性不足,假阳检出偏高的问题。

2、此外,现有的基因融合检测方法往往在模拟数据中表现良好,但在临床样本中却高估,真实肿瘤基因组中的断点,几乎都存在假阳性率高的问题。同时,在低肿瘤细胞占比情况下目前的检测方法对于低融合频率的检出敏感性存在缺陷,很难满足目前临检生产尤其是液体活检的敏感性要求。

3、上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现思路

1、本发明的主要目的在于提供一种基因融合的检测方法、装置、设备及存储介质,旨在解决现有技术中基因融合分析软件需要对全基因组进行比对,运行时间较长,影响检测效率,且对于低融合频率的灵敏度不足,假阳性偏高,影响检测准确性的技术问题。

2、为实现上述目的,本发明提供了一种基因融合的检测方法,所述方法包括以下步骤:

3、获取用户需求,根据所述用户需求,确定目标区域;

4、根据所述目标区域与预设参考基因序列,确定目标基因子序列集合,所述目标基因子序列集合中包括若干目标基因子序列;

5、获取当前样本的测序数据,根据所述测序数据,确定样本子序列集合,所述样本子序列集合中包括若干样本子序列;

6、将所述样本子序列集合与目标基因子序列集合进行匹配,确定各样本子序列对应的匹配基因序列以及匹配序列数量;

7、根据所述匹配序列数量与预设匹配数量,在所述样本子序列集合中确定初始融合序列,生成初始融合序列集合;

8、根据预设过滤条件,对所述初始融合序列集合进行过滤,得到融合结果序列;

9、根据所述融合结果序列对应的匹配基因序列,对所述融合结果序列进行排序与合并,得到所述当前样本的融合检测结果;

10、根据预设文件类型与所述融合检测结果,生成融合检测文件,以使用户根据所述融合检测文件对所述当前样本进行分析。

11、可选地,所述根据所述目标区域与预设参考基因序列,确定目标基因子序列集合,包括:

12、根据所述目标区域与预设参考基因序列,确定目标参考基因序列;

13、获取预设分割长度,根据所述预设分割长度对所述目标参考基因序列进行分割,得到若干目标基因子序列;

14、根据所述若干目标基因子序列,生成目标基因子序列集合。

15、可选地,所述获取当前样本的测序数据,根据所述测序数据,确定样本子序列集合,包括:

16、获取当前样本,通过二代测序策略对所述当前样本进行测序,得到测序数据;

17、对所述当前样本的测序数据进行字符串分割,得到若干字符串数据;

18、根据所述字符串数据,确定各字符串数据对应的样本子序列,生成样本子序列集合。

19、可选地,所述预设过滤条件包括序列长度过滤条件、碱基重复过滤条件、编辑距离过滤条件、间隔距离过滤条件以及比对数量过滤条件;

20、所述根据预设过滤条件,对所述初始融合序列集合进行过滤,得到融合结果序列之前,还包括:

21、获取融合真阳性检测数据和融合假阳性检测数据;

22、对所述融合真阳性检测数据和融合假阳性检测数据进行统计分析,确定融合真阳性数据特征与融合假阳性数据特征;

23、根据所述融合真阳性数据特征与融合假阳性数据特征,确定预设长度阈值、预设不重复阈值、预设编辑距离、预设间隔距离以及预设比对阈值;

24、根据所述预设长度阈值、预设不重复阈值、预设编辑距离、预设间隔距离以及预设比对阈值,分别确定序列长度过滤条件、碱基重复过滤条件、编辑距离过滤条件、间隔距离过滤条件以及比对数量过滤条件。

25、可选地,所述根据预设过滤条件,对所述初始融合序列集合进行过滤,得到融合结果序列,包括:

26、获取各初始融合序列对应匹配基因序列的长度数值和碱基不重复数量,根据所述长度数值以及序列长度过滤条件或根据所述碱基不重复数量以及碱基重复过滤条件,在所述初始融合序列集合中确定第一过滤基因序列,所述第一过滤基因序列中各匹配基因序列的长度数值小于预设长度阈值或各匹配基因序列的碱基不重复数量小于预设不重复阈值;

27、获取各初始融合序列的编辑距离,根据所述编辑距离与编辑距离过滤条件,在所述初始融合序列集合中确定第二过滤基因序列,所述第二过滤基因序列的编辑距离大于等于预设编辑距离;

28、获取各初始融合序列对应匹配基因序列的间隔距离,根据所述间隔距离与间隔距离过滤条件,在所述初始融合序列集合中确定第三过滤基因序列,所述第三过滤基因序列对应匹配基因序列的间隔距离小于预设间隔距离;

29、获取各初始融合序列的比对数量,根据所述比对数量与比对数量过滤条件,在所述初始融合序列集合中确定第四过滤基因序列,所述第四过滤基因序列的比对数量大于等于预设比对阈值;

30、将所述初始融合序列中的第一过滤基因序列、第二过滤基因序列、第三过滤基因序列以及第四过滤基因序列删除,确定融合结果序列。

31、可选地,所述获取各初始融合序列的编辑距离之前,还包括:

32、将所述各初始融合序列与目标基因子序列集合进行比较,确定更改步骤数量、删除步骤数量以及增加步骤数量;

33、根据所述步骤数量、删除步骤数量以及增加步骤数量,确定编辑数量;

34、根据所述编辑数量,确定所述各初始融合序列的编辑距离。

35、可选地,所述根据所述融合结果序列对应的匹配基因序列,对所述融合结果序列进行排序与合并,得到所述当前样本的融合检测结果,包括:

36、获取所述各融合结果序列对应的匹配基因序列的基因位置与基因名称,根据所述基因位置与基因名称,确定所述各融合结果序列的初始检测结果;

37、根据所述基因位置,对所述初始检测结果进行排序,得到排序检测结果;

38、对所述排序检测结果进行合并处理,得到合并检测结果以及各合并检测结果对应的合并数据,所述合并数据包括合并总数与去重数量;

39、根据所述合并检测结果以及各合并检测结果对应的合并数据,生成所述当前样本的融合检测结果。

40、此外,为实现上述目的,本发明还提出一种基因融合的检测装置,所述基因融合的检测装置包括:

41、获取模块,用于获取用户需求,根据所述用户需求,确定目标区域;

42、所述获取模块,还用于根据所述目标区域与预设参考基因序列,确定目标基因子序列集合,所述目标基因子序列集合中包括若干目标基因子序列;

43、所述获取模块,还用于获取当前样本的测序数据,根据所述测序数据,确定样本子序列集合,所述样本子序列集合中包括若干样本子序列;

44、检测模块,用于将所述样本子序列集合与目标基因子序列集合进行匹配,确定各样本子序列对应的匹配基因序列以及匹配序列数量;

45、所述检测模块,还用于根据所述匹配序列数量与预设匹配数量,在所述样本子序列集合中确定初始融合序列,生成初始融合序列集合;

46、所述检测模块,还用于根据预设过滤条件,对所述初始融合序列集合进行过滤,得到融合结果序列;

47、所述检测模块,还用于根据所述融合结果序列对应的匹配基因序列,对所述融合结果序列进行排序与合并,得到所述当前样本的融合检测结果;

48、输出模块,用于根据预设文件类型与所述融合检测结果,生成融合检测文件,以使用户根据所述融合检测文件对所述当前样本进行分析。

49、此外,为实现上述目的,本发明还提出一种基因融合的检测设备,所述基因融合的检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基因融合的检测程序,所述基因融合的检测程序配置为实现如上文所述的基因融合的检测方法的步骤。

50、此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基因融合的检测程序,所述基因融合的检测程序被处理器执行时实现如上文所述的基因融合的检测方法的步骤。

51、在本发明中,通过根据用户需求,确定目标区域,根据目标区域与预设参考基因序列,确定目标基因子序列集合,获取当前样本的测序数据,根据测序数据,确定样本子序列集合,将样本子序列集合与目标基因子序列集合进行匹配,确定各样本子序列对应的匹配基因序列以及匹配序列数量,根据匹配序列数量与预设匹配数量,在样本子序列集合中确定初始融合序列集合,根据预设过滤条件,对初始融合序列集合进行过滤,得到融合结果序列,根据融合结果序列对应的匹配基因序列,对融合结果序列进行排序与合并,得到当前样本的融合检测结果,根据预设文件类型与融合检测结果,生成融合检测文件,以使用户根据融合检测文件对当前样本进行分析。相较于使用目前公开的基因融合分析软件需要对全基因组进行比对,运行时间较长,且对于低融合频率的灵敏度不足,假阳性偏高,本发明将比对和分析结合,针对指定基因区域进行定向分析检索,减少大量分析时间,提高检测效率,并对检测结果进行过滤,在保有高灵敏度的同时,降低假阳性的检出率,提高检测准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1