使用细胞游离核酸片段的末端序列基序频率和大小诊断癌症和预测癌症类型的方法与流程

文档序号:37758047发布日期:2024-04-25 10:44阅读:13来源:国知局
使用细胞游离核酸片段的末端序列基序频率和大小诊断癌症和预测癌症类型的方法与流程

本发明涉及一种使用细胞游离核酸(cell-free nucleic acid)的片段末端基序频率和大小来诊断癌症和预测癌症类型的方法,更优选地,涉及一种通过从生物样品中提取核酸以获得序列信息(读段(read)),基于比对的读段获得核酸片段的末端基序频率和大小,将核酸片段的末端基序频率和大小转换成矢量化数据,将矢量化数据输入到经训练的人工智能模型中并分析所得计算值来诊断癌症和预测癌症类型的方法。


背景技术:

1、临床实践中的癌症诊断通常在病史检查、体格检查和临床评估后通过组织活检来进行。只有当癌细胞的数量为10亿或更多且癌的直径为1cm或更大时,基于临床试验的癌症诊断才是可行的。在这种情况下,癌细胞已经具有转移的潜力,并且其中至少一半已经转移。此外,组织活检是侵入性的,这不利地引起患者相当大的不适,并且通常无法适应癌症治疗。此外,用于监测由癌直接或间接产生的物质的肿瘤标志物用于癌症筛查。然而,肿瘤标志物的准确度有限,因为即使在存在癌的情况下超过一半的肿瘤标志物筛查结果也显示正常,并且即使在不存在癌的情况下肿瘤标志物筛查结果也通常显示阳性。

2、最近,响应于对癌症诊断方法的要求,诸如相对容易、非侵入性、高灵敏度和高特异性,使用来自患者的体液的液体活检已经广泛用于癌症诊断和随访复查。液体活检是一种非侵入性的诊断方法,其作为传统侵入性诊断和检查方法的替代方法引起了极大的关注。

3、最近,已经开发了一种使用从液体活检获得的细胞游离dna来诊断癌症和确定癌症类型的方法(美国专利号10975431,zhou,xionghui et al.,biorxiv,2020.07.16.201350)。具体地,已知一种分析细胞游离核酸末端序列的基序频率信息并将该信息用于癌症诊断、产前诊断或器官移植监测的方法(wo 2020-125709,peiyong jianget al.,cancer discovery,vol.10,2020,pp.664-673)。

4、同时,人工神经网络是在软件或硬件中实现的计算模型,其使用通过连接线连接的大量人工神经元来模拟生物系统的计算能力。人工神经网络使用人工神经元,其以简化的形式表示生物神经元的功能。人工神经网络通过具有相应连接强度的连接线互连人工神经元来进行人类认知或学习过程。术语“连接强度”可与“连接权重”互换,是指连接线的预定值。人工神经网络学习可以分类为监督学习和无监督学习。监督学习是一种向神经网络提供输入数据和与其对应的输出数据,并更新连接线的连接强度,从而输出与输入数据对应的输出数据的方法。代表性的学习算法包括δ规则和反向传播学习。无监督学习是一种其中人工神经网络仅使用输入数据独立地学习连接强度而没有目标值的方法。无监督学习基于输入模式之间的相关性更新连接权重。

5、将大量数据应用于机器学习会导致所谓的“维数灾难”问题,这是由于复杂性的增加和更多维数的增加。换句话说,当所需数据的维数趋近于无穷大时,任意两点之间的距离也趋近于无穷大,并且数据量(即,密度)在高维空间中变得更低,从而无法正确反映数据的特征(richard bellman,dynamic programming,2003,chapter 1)。最近发展的深度学习具有在输入层和输出层之间存在隐藏层的结构,并且已经报道通过用非线性函数处理从输入层传输的变量值的线性组合,极大地提高了分类器在高维数据诸如图像、视频和信号数据方面的性能(hinton,geoffrey,等人,ieee signal processing magazine vol.29.6,pp.82-97,2012)。

6、各个专利(kr 10-2018-124550、kr 10-2019-7038076、kr 10-2019-0003676和kr10-2019-0001741)描述了人工神经网络在生物领域中的用途,但是缺乏通过基于血液中细胞游离dna(cfdna)测序信息的人工神经网络分析来预测癌症类型的方法的研究。

7、因此,作为解决上述问题和开发基于人工智能以高灵敏度和准确度诊断癌症和预测癌症类型的方法的广泛和认真努力的结果,本发明人发现,通过基于细胞游离核酸片段的末端基序和长度的信息生成矢量化数据并使用训练的人工智能模型分析该数据可以以高灵敏度和准确度实现癌症诊断和癌症类型预测,并且基于该发现完成了本发明。


技术实现思路

1、因此,本发明的一个目的是提供一种使用细胞游离核酸片段的末端基序频率和大小来诊断癌症和预测癌症类型的方法。

2、本发明的另一个目的是提供一种使用细胞游离核酸片段的末端基序频率和大小来诊断癌症和预测癌症类型的装置。

3、本发明的另一个目的是提供一种计算机可读存储介质,其包括配置为由处理器执行的指令,用于通过上述方法诊断癌症和预测癌症类型。

4、根据本发明的一方面,提供了一种提供信息用于诊断癌症和预测癌症类型的方法,所述方法包括(a)从生物样品中提取核酸以获得序列信息,(b)将序列信息(读段)与参考基因组数据库进行比对,(c)基于比对的序列信息(读段)获取核酸片段的末端基序频率和大小,(d)使用核酸片段的基序频率和大小生成矢量化数据,(e)将所生成的矢量化数据输入到经训练的人工智能模型中,分析所述数据,并将分析的输出值与截断(cut-off)值进行比较,以确定癌症是否发生,以及(f)通过比较输出值来预测癌症类型。

5、根据本发明的另一方面,提供了一种诊断癌症和预测癌症类型的方法,所述方法包括(a)从生物样品中提取核酸以获得序列信息,(b)将序列信息(读段)与参考基因组数据库进行比对,(c)基于比对的序列信息(读段)获取核酸片段的末端基序频率和大小,(d)使用核酸片段的基序频率和大小生成矢量化数据,(e)将所生成的矢量化数据输入到经训练的人工智能模型中,分析所述数据,并将分析的输出值与截断值进行比较,以确定癌症是否发生,以及(f)通过比较输出值来预测癌症类型。

6、根据本发明的另一方面,提供了一种诊断癌症和预测癌症类型的装置,所述装置包括:解码器,配置成从生物样品中提取核酸并解码序列信息;比对器,配置成将解码的序列与参考基因组数据库进行比对;核酸片段分析器,配置成基于比对的序列获得核酸片段的末端基序频率和大小;数据生成器,配置成使用核酸片段的末端基序频率和大小生成矢量化数据;癌症诊断单元,配置成将所生成的矢量化数据输入到经训练的人工智能模型中,分析所述数据,并将所得的输出值与截断值进行比较,从而确定癌症是否发生;以及癌症类型预测器,配置成分析输出值并且从而预测癌症类型。

7、根据本发明的另一方面,提供了一种计算机可读存储介质,其包括被配置为由处理器执行的指令,用于通过以下步骤诊断癌症和预测癌症类型,所述步骤包括(a)从生物样品中提取核酸以获得序列信息,(b)将序列信息(读段)与参考基因组数据库进行比对,(c)基于比对的序列信息(读段)获取核酸片段的末端基序频率和大小,(d)使用核酸片段的基序频率和大小生成矢量化数据,(e)将所生成的矢量化数据输入到经训练的人工智能模型中,分析数据,并将分析的输出值与截断值进行比较,以确定癌症是否发生,以及(f)通过比较输出值来预测癌症类型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1