基于压缩状态的碱基调用的制作方法

文档序号:37120297发布日期:2024-02-22 21:24阅读:17来源:国知局
基于压缩状态的碱基调用的制作方法

本发明所公开的技术涉及人工智能类型计算机和数字数据处理系统以及对应数据处理方法和用于仿真智能的产品(即,基于知识的系统、推断系统和知识采集系统);并且包括用于不确定性推断的系统(例如,模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。具体地,所公开的技术涉及将深度神经网络诸如深度卷积神经网络用于分析数据。文献并入以下文献以引用方式并入,即如同在本文完整示出一样,以用于所有目的:2021年5月4日提交的标题为“equalization-based image processing andspatial crosstalk attenuator”的美国非临时专利申请号17/308,035(代理人案卷号illm 1032-2/ip-1991-us);2020年10月27日提交的标题为“systems and methods for per-clusterintensity correction and base calling”的美国临时专利申请号63/106,256(代理人案卷号illm 1034-1/ip-2026-prv);2018年3月1日提交的标题为“optical distortion correction for imagedsamples”的美国非临时专利申请号15/909,437;2020年3月20日提交的标题为“training data generation for artificialintelligence-based sequencing”的美国非临时专利申请号16/825,987(代理人案卷号illm 1008-16/ip-1693-us);2020年3月20日提交的标题为“artificial intelligence-based generation ofsequencing metadata”的美国非临时专利申请号16/825,991(代理人案卷号illm 1008-17/ip-1741-us);2020年3月20日提交的标题为“artificial intelligence-based base calling”的美国非临时专利申请号16/826,126(代理人案卷号illm 1008-18/ip-1744-us);2020年3月20日提交的标题为“artificial intelligence-based qualityscoring”的美国非临时专利申请号16/826,134(代理人案卷号illm 1008-19/ip-1747-us);2020年3月21日提交的标题为“artificial intelligence-based sequencing”的美国非临时专利申请号16/826,168(代理人案卷号illm 1008-20/ip-1752-us);2021年2月12日提交的标题为“artificial intelligence-based base callingof index sequences”的美国非临时专利申请号17/175,546(代理人案卷号illm 1015-2/ip-1857-us);2021年2月19日提交的标题为“artificial intelligence-based many-to-manybase calling”的美国非临时专利申请号17/180,542(代理人案卷号illm 1016-2/ip-1858-us);2021年2月15日提交的标题为“knowledge distillation-based compression ofartificial intelligence-based base caller”的美国非临时专利申请号17/176,151(代理人案卷号illm 1017-2/ip-1859-us);2020年8月28日提交的标题为“detecting and filtering clusters based onartificial intelligence-predicted base calls”的美国临时专利申请号63/072,032(代理人案卷号illm 1018-1/ip-1860-prv);2021年3月16日提交的标题为“tile location and/or cycle based weight setselection for base calling”的美国临时专利申请号63/161,880(代理人案卷号illm1019-1/ip-1861-prv);2021年3月16日提交的标题为“neural network parameter quantization forbase calling”的美国临时专利申请号63/161,896(代理人案卷号illm 1019-2/ip-2049-prv);2021年2月15日提交的标题为“hardware execution and acceleration ofartificial intelligence-based base caller”的美国非临时专利申请号17/176,147(代理人案卷号illm 1020-2/ip-1866-us);2021年8月3日提交的标题为“base calling using multiple base callermodels”的美国临时专利申请号63/228,954(代理人案卷号illm 1021-1/ip-1856-prv);2021年2月18日提交的标题为“data compression for artificialintelligence-based base calling”的美国非临时专利申请号17/179,395(代理人案卷号illm 1029-2/ip-1964-us);2021年2月19日提交的标题为“split architecture for artificialintelligence-based base caller”的美国非临时专利申请号17/180,480(代理人案卷号illm 1030-2/ip-1982-us);2021年2月19日提交的标题为“bus network for artificial intelligence-based base caller”的美国非临时专利申请号17/180,513(代理人案卷号illm 1031-2/ip-1965-us);2021年3月31日提交的标题为“artificial intelligence-based base callerwith contextual awareness”的美国临时专利申请号63/169,163(代理人案卷号illm1033-1/ip-2007-prv);2021年6月29日提交的标题为“self-learned base caller,trained usingoligo sequences”的美国临时专利申请号63/216,419(代理人案卷号illm 1038-1/ip-2050-prv);2021年6月29日提交的标题为“self-learned base caller,trained usingorganism sequences”的美国临时专利申请号63/216,404(代理人案卷号illm 1038-2/ip-2094-prv);2021年7月19日提交的标题为“specialist signal profilers for basecalling”的美国临时专利申请号63/223,408(代理人案卷号illm 1041-1/ip-2063-prv);2021年7月28日提交的标题为“quality score calibration of basecallingsystems”的美国临时专利申请号63/226,707(代理人案卷号illm 1045-1/ip-2093-prv);2021年7月1日提交的标题为“efficient artificial intelligence-based basecalling of index sequences”的美国临时专利申请号63/217,644(代理人案卷号illm1046-1/ip-2135-prv);2014年10月31日提交的标题为“image analysis useful for patternedobjects”的美国非临时专利申请号14/530,299;2014年12月3日提交的标题为“methods and systems for analyzing imagedata”的美国非临时专利申请号15/153,953;2018年1月5日提交的标题为“phasing correction”的美国非临时专利申请号15/863,241;2013年9月6日提交的标题为“centroid markers for image analysis of highdensity clusters in complex polynucleotide sequencing”的美国非临时专利申请号14/020,570;2009年9月23日提交的标题为“method and system for determining theaccuracy of dna base identifications”的美国非临时专利申请号12/565,341;2007年3月30日提交的标题为“systems and devices for sequence bysynthesis analysis”的美国非临时专利申请号12/295,337;2008年1月28日提交的标题为“image data efficient genetic sequencingmethod and system”的美国非临时专利申请号12/020,739;2013年3月15日提交的标题为“biosensors for biological or chemicalanalysis and systems and methods for same”的美国非临时专利申请号13/833,619(代理人案卷号ip-0626-us);2016年6月7日提交的标题为“biosensors for biological or chemicalanalysis and methods of manufacturing the same”的美国非临时专利申请号15/175,489(代理人案卷号ip-0689-us);2013年4月26日提交的标题为“microdevices and biosensor cartridges forbiological or chemical analysis and systems and methods for the same”的美国非临时专利申请号13/882,088(代理人案卷号ip-0462-us);2012年9月21日提交的标题为“methods and compositions for nucleic acidsequencing”的美国非临时专利申请号13/624,200(代理人案卷号ip-0538-us);2011年1月13日提交的标题为“data processing system and methods”的美国非临时专利申请号13/006,206;2018年3月26日提交的标题为“detection apparatus having amicrofluorometer,a fluidic system,and a flow cell latch clamp module”的美国非临时专利申请号15/936,365;2019年9月11日提交的标题为“flow cells and methods related to same”的美国非临时专利申请号16/567,224;2019年6月12日提交的标题为“device for luminescent imaging”的美国非临时专利申请号16/439,635;2017年5月12日提交的标题为“integrated optoelectronic read head andfluidic cartridge useful for nucleic acid sequencing”的美国非临时专利申请号15/594,413;2019年3月12日提交的标题为“illumination for fluorescence imaging usingobjective lens”的美国非临时专利申请号16/351,193;2009年12月15日提交的标题为“dynamic autofocus method and system forassay imager”的美国非临时专利申请号12/638,770;2013年3月1日提交的标题为“kinetic exclusion amplification of nucleicacid libraries”的美国非临时专利申请号13/783,043。


背景技术:

1、本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为背景技术提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。

2、近年来,计算能力的快速提高使得深度卷积神经网络(cnn)在许多准确度显著提高的计算机视觉任务上取得了很大的成功。在推理阶段,许多应用需要以严格的功率消耗要求对一个图像进行低等待时间处理,这降低了图形处理单元(gpu)和其他通用平台的效率,通过定制专用于深度学习算法推理的数字电路,为特定的加速硬件(例如,现场可编程门阵列(fpga))带来了机会。然而,由于大数据量、密集型计算、变化的算法结构和频繁的存储器访问,在便携式和嵌入式系统上部署cnn仍然具有挑战性。

3、由于卷积在cnn中贡献了大部分运算,因此卷积加速方案显著影响了硬件cnn加速器的效率和性能。卷积涉及具有沿内核和特征图滑动的四个循环级的乘法和累加(mac)运算。第一循环级计算内核窗口内的像素的mac。第二循环级跨不同的输入特征图累加mac的乘积之和。在完成第一循环级和第二循环级之后,通过添加偏置来获得最终的输出像素。第三循环级在输入特征图内滑动内核窗口。第四循环级生成不同的输出特征图。

4、fpga由于其(1)高度可重构性,(2)与专用集成电路(asic)相比开发时间更快,以跟上cnn的快速发展,(3)良好的性能,以及(4)与gpu相比优越的能量效率,获得了越来越多的关注和普及,特别是在加速推理任务方面。fpga的高性能和高效率可以通过合成针对特定计算定制的电路来实现,以利用定制的存储器系统直接处理数十亿次运算。例如,现代fpga上的数百至数千个数字信号处理(dsp)块以高并行性支持核心卷积运算,例如乘法和加法。外部片上存储器和片上处理引擎(pe)之间的专用数据缓冲器可被设计成通过在fpga芯片上配置数十兆字节的片上块随机存取存储器(bram)来实现优选的数据流。

5、需要高效的数据流和cnn加速的硬件架构来最小化数据通信,同时最大化资源利用来实现高性能。因此有机会设计出在具有高性能、高效率和高度灵活性的加速硬件上加速各种cnn算法的推理过程的方法和框架。

6、下一代测序(ngs)技术的关键特征为并行化,并且若干测序平台的主要机制为边合成边测序(sbs)。简而言之,通过顺序地建立单链dna模板的互补碱基并且通过在一系列原始荧光图像中捕获合成信息来同时对数千万至数亿个随机dna片段进行测序。

7、从图像数据提取实际序列信息(即,{a,c,g,t}中的字符串)涉及两个计算任务,即图像分析和碱基调用。图像分析的主要功能是将图像数据转化为每个dna片段的荧光强度数据,而碱基调用的目标是从获得的强度数据推断序列信息。

8、存在多个随机的和上下文的变化源,这些变化源可能降低碱基调用准确性。例如,碱基调用中的k-mer偏差受测序基因组的gc含量影响。当应用于dna的富含gc区时,碱基调用器可能表现出偏差,这主要是由于降低的序列复杂性,而且也是由于扩增步骤期间聚合酶链反应(pcr)偏差的结果。

9、碱基调用的准确性对于各种下游应用(包括序列组装、snp调用和基因型调用)至关重要。改进碱基调用准确性能够实现具有较小测序覆盖范围的下游应用的期望性能,这转化为测序成本的降低。

10、训练用于碱基调用的神经网络需要大量计算机存储器,这随着图像大小和数量的增加呈指数增长。计算机存储器成为限制因素,因为用于优化深度神经网络的反向传播算法需要存储中间激活。由于这些中间激活的大小和数量与输入大小和数量成比例地增加,因此存储器很快填充有更大且更多的图像。

11、根据一个具体实施,使用神经网络(例如,在共同拥有的专利申请号16/826,126;16/826,134;16/826,168;17/175,546;17/180,542;17/176,151;63/072,032;63/161,880;63/161,896;17/176,147;63/228,954;17/179,395;17/180,480;17/180,513;63/169,163和63/217,644中公开的神经网络)的碱基调用器使用用于测序循环的滑动窗口的图像数据来进行碱基调用预测。增加滑动窗口的大小以包括来自更多测序循环的图像数据将增加神经网络的复杂性且还增加对可用计算和存储器的附加负担。

12、出现了配置碱基调用操作以并入来自多个过去测序循环的上下文信息的机会。可以产生具有降低的错误率的更准确的碱基调用,特别是对于衰减k-mer偏差。


技术实现思路

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1