用于执行二级和/或三级处理的生物信息学系统、设备和方法与流程

文档序号：18413622发布日期：2019-08-13 19:03阅读：236来源：国知局

本申请要求2016年10月28日提交的第62/414,637号美国临时专利申请的优先权，所述美国临时专利申请的内容特此以引用的方式全部并入本文。本文所描述的主题涉及生物信息学，且更具体地说，涉及用于实施生物信息协议的系统、设备和方法，例如在例如硬件处理平台的集成电路上执行用于分析基因组数据的一个或多个功能。
背景技术：
：：如本文中详细描述，高处理量dna定序分析的一些主要计算挑战是解决可用基因组数据的放量增长、当搜集数据时增加准确性和灵敏度的需要，以及当对从此类基因组数据导出的广泛范围的定序数据集执行分析时的快速、高效且准确的计算工具的需要。与下一代定序器产生的此类增加的定序处理量保持同步通常表现为多线程软件工具，它们已经在具有昂贵高可用性存储的计算机集群中的越来越大数量的更快处理器上执行，这需要大量的功率和显著的it支持成本。重要的是，未来的定序处理量速率的增加将转换为加速这些二级处理解决方案的实际美元成本。至少部分地提供本文所描述的其使用的装置、系统和方法，以便解决这些和其它此类挑战。技术实现要素：本公开是针对在对通过一级处理过程产生的数据，例如对基因序列数据执行一个或多个基因组学和/或生物信息学协议中的装置、系统和其使用方法。举例来说，在各种方面中，本文提供的装置、系统和方法被配置成用于对基因数据执行二级和/或三级分析协议，所述基因数据诸如例如由下一代定序器(“nextgensequencer，ngs”)进行的rna和/或dna的定序产生的数据。在特定实施例中，提供用于处理基因序列数据的一个或多个二级和/或三级处理管线。具体地，提供用于处理基因序列数据的一个或多个三级处理管线，例如其中所述管线和/或其个别元件在序列导出数据的较宽范围上提供比现有技术中当前可用的情形更优良的灵敏度和改进的准确性。举例来说，本文提供例如用于对基因序列数据和/或从其导出的其它数据执行序列和/或基因组分析管线中的一个或多个的系统。在各种实施例中，系统可以包含一个或多个电子数据源，其提供表示多个基因和/或基因组数据读段的数字信号，例如其中所述多个基因组数据读段中的每一个包含核苷酸序列。系统还可以包含存储器，例如dram或高速缓冲存储器，例如用于存储已定序读段中的一个或多个、一个或多个基因参考序列以及所述一个或多个基因参考序列的一个或多个索引。系统可以另外包含一个或多个集成电路，例如fpga、asic或sasic，和/或cpu和/或gpu和/或量子处理单元(qpu)，所述集成电路例如关于fpga、asic或sasic可以由一组硬接线数字逻辑电路形成，所述硬接线数字逻辑电路由多个物理电互连件互连。系统可以另外包含量子计算处理单元，用于实施本文公开的方法中的一个或多个。在各种实施例中，所述多个电互连件中的一个或多个可以包含对一个或多个集成电路的输入，所述集成电路可以例如经由合适的有线连接直接地或者例如经由无线网络连接(举例来说，云或混合云)间接地与电子数据源连接或是可与其连接的。无论与定序器的连接如何，本公开的集成电路都可以被配置成用于例如直接从定序器或从相关联存储器接收所述多个基因组数据读段。读段可以标准fastq或bcl文件格式以数字方式编码。因此，系统可以包含具有一个或多个电互连件的集成电路，所述电互连件可以是包含存储器接口的物理互连件以便允许集成电路存取存储器。具体来说，集成电路的硬接线数字逻辑电路可以被布置成一组处理引擎，例如其中每一处理引擎可以由硬接线数字逻辑电路的子集形成以便对所述多个基因数据读段以及对从其导出的其它数据执行如下文所述的序列、基因组和/或三级分析管线中的一个或多个步骤。举例来说，硬接线数字逻辑电路的每一子集可以成有线配置以执行分析管线中的一个或多个步骤。另外，在集成电路是fpga的情况下，序列中的此类步骤和/或另外的分析过程可以涉及在分析过程期间的fpga的部分重新配置。具体来说，所述组处理引擎可以包含例如成有线配置的映射模块，其用以根据所述多个读段中的读段中的核苷酸序列的至少某些来经由存储器接口从存储器存取所述一个或多个基因参考序列的索引，以便基于所述索引将所述读段映射到所述一个或多个基因参考序列的一个或多个片段。另外，所述组处理引擎可以包含成有线配置的对准模块，其用以经由存储器接口从存储器存取所述一个或多个基因参考序列，以将读段(例如，映射读段)对准到例如从映射模块接收和/或存储于存储器中的所述一个或多个基因参考序列的所述一个或多个片段中的一个或多个位置。此外，所述组处理引擎可以包含分选模块，以便根据所述一个或多个基因参考序列中的所述一个或多个位置分选每一对准的读段。此外，所述组处理引擎可以包含变异体调用模块，例如用于例如关于参考基因组处理映射、对准和/或分选的读段，以进而产生用于与定序基因数据与参考基因组参考数据之间的变异一起使用和/或详述所述变异的hmm读出和/或变异体调用文件。在各种实例中，所述多个物理电互连件中的一个或多个可以包含来自集成电路的输出，用于传送来自映射模块和/或对准和/或分选和/或变异体调用模块的结果数据。具体来说，相对于映射模块，在各种实施例中，提供用于使用基因参考数据的索引对多个基因数据读段执行映射分析管线的系统。在各种实例中，基因序列(例如，读段)和/或基因参考数据可以由可以存储于系统的存储器中的核苷酸序列表示。映射模块可以包含于集成电路内且可以由一组预配置和/或硬接线数字逻辑电路形成，所述数字逻辑电路由多个物理电互连件互连，所述物理电互连件可以包含用于允许集成电路存取存储器的存储器接口。在更特定的实施例中，硬接线数字逻辑电路可以被布置成一组处理引擎，例如其中每一处理引擎由硬接线数字逻辑电路的子集形成以对所述多个基因组数据读段执行序列分析管线中的一个或多个步骤。举例来说，在一个实施例中，所述组处理引擎可以包含成硬接线配置的映射模块，其中所述映射模块和/或其一个或多个处理引擎被配置成用于例如经由多个物理电互连件中的一个或多个接收基因组数据读段，且用于以一方式提取读段的一部分以便从其产生种子。在此实例中，读段可以由核苷酸序列表示，且种子可以表示由所述读段表示的核苷酸序列的子集。映射模块可以包含或可连接到存储器，所述存储器包含所述读段中的一个或多个、所述读段的种子中的一个或多个、参考基因组中的一个或多个的至少一部分，和/或一个或多个索引，此索引是从所述一个或多个参考基因组建立。在某些实例中，映射模块的处理引擎采用种子和索引来基于种子计算索引内的地址。一旦已计算或另外导出和/或例如在板载或板外存储器中存储地址，就可以存取存储器中的索引中的所述地址以便从所述地址接收记录，例如表示基因参考序列中的位置信息的记录。此位置信息可以随后用以基于所述记录确定从读段到基因参考序列的一个或多个匹配位置。随后可以将匹配位置中的至少一个经由存储器接口输出到存储器。在另一实施例中，一组处理引擎可以包含例如成预配置和/或硬接线配置的对准模块。在此实例中，处理引擎中的一个或多个可以被配置成经由所述多个物理电互连件中的一个或多个接收用于读段数据的映射位置中的一个或多个。随后可以针对每一映射位置存取存储器(内部或外部)以检索对应于映射位置的参考序列/基因组的片段。可以计算读段到每一检索的参考片段的对准以及所述对准的评分。一旦计算，就可以选择和输出读段的至少一个最佳评分对准。在各种实例中，对准模块还可以当计算对准时实施动态编程算法，例如，例如具有线性或仿射间隙评分的smith-waterman算法、有间隙对准算法和/或无间隙对准算法中的一个或多个。在特定实例中，对准的计算可以包含首先执行到每一参考片段的无间隙对准，且基于无间隙对准结果，选择用以进一步执行有间隙的对准的参考片段。在各种实施例中，可以提供变异体调用模块用于执行改进的变异体调用功能，所述功能当以软件和/或硬件配置中的一个或两个实施时产生比目前本领域中已知的方法、装置和系统更优良的处理速度、更好的处理结果准确性和增强的总效率。具体地，在一个方面中，提供用于以软件和/或硬件执行变异体调用操作的改进的方法，例如用于对基因序列数据执行一个或多个hmm操作。在另一方面中，提供包含用于执行此类改进的变异体调用操作的集成电路的新型装置，其中变异体调用操作的至少一部分是以硬件实施。因此，在各种实例中，本文公开的方法可以包含通过硬接线和/或量子数字逻辑电路的第一子集将多个读段映射到一个或多个基因参考序列的一个或多个片段。另外，所述方法可以包含通过集成和/或量子电路，例如通过所述多个物理电互连件中的一个或多个从存储器或与其相关联的高速缓冲存储器存取映射读段中的一个或多个和/或基因参考序列中的一个或多个；以及通过硬接线和/或量子数字逻辑电路的第二子集将所述多个映射读段对准到所述一个或多个基因参考序列的所述一个或多个片段。在各种实施例中，所述方法可以另外包含通过集成和/或量子电路，例如通过所述多个物理电互连件中的一个或多个从存储器或与其相关联的高速缓冲存储器存取对准的多个读段。在此实例中，所述方法可以包含通过硬接线和/或量子数字逻辑电路的第三子集根据对准的多个读段在所述一个或多个基因参考序列中的位置来分选所述对准的多个读段。在某些实例中，所述方法还可以包含例如通过集成和/或量子电路的所述多个物理电互连件中的一个或多个输出来自映射和/或对准和/或分选的结果数据，例如其中所述结果数据包含映射和/或对准和/或分选的多个读段的位置。在一些实例中，所述方法可以另外包含例如通过硬接线和/或量子数字逻辑电路的又一子集使用获得的结果数据，以用于确定从受试者的定序遗传样本导出的映射、对准和/或分选数据如何不同于参考序列，以便产生描绘所述两个样本之间的基因差异的变异体调用文件。因此，在各种实施例中，所述方法还可以包含通过集成和/或量子电路，例如通过所述多个物理电互连件中的一个或多个从存储器或与其相关联的高速缓冲存储器存取映射和/或对准和/或分选的多个读段。在此实例中，所述方法可以包含通过硬接线和/或量子数字逻辑电路的第三或第四子集对存取的读段执行变异体调用功能，例如hmm或配对hmm操作，以便产生详述映射、对准和/或分选的读段如何不同于一个或多个参考(例如，单倍型)序列的变异体调用文件。因此，根据本公开的特定方面，本文提出紧凑的硬件(例如，基于芯片)或量子加速平台，其用于对基因和/或基因组定序数据执行二级和/或三级分析。具体来说，提供硬接线和/或量子数字逻辑电路的平台或管线，其已经具体来说被设计成用于例如对定序基因数据或从其导出的基因组数据执行二级和/或三级基因分析。具体来说，可以提供可以被布置成一组处理引擎的一组硬接线数字和/或量子逻辑电路，例如其中所述处理引擎可以预配置和/或硬接线和/或量子配置存在于本公开的处理平台上，且可以专门设计用于对dna和/或rna数据执行与基因分析有关的二级映射和/或对准和/或变异体调用操作，和/或可以专门设计用于对结果数据执行其它三级处理。在特定实例中，在执行一个或多个基因组学和/或生物信息学二级和/或三级处理协议中的本装置、系统和其使用方法已经优化以便提供与以软件实施的标准二级处理管线相比快若干数量级的处理速度改进。另外，如本文阐述的管线和/或其组件在序列导出数据集的广泛范围上提供更好的灵敏度和准确性以用于基因组学和生物信息学处理的目的。在各种实例中，这些操作中的一个或多个可以由集成电路执行，所述集成电路是通用中央处理单元和/或图形处理单元和/或量子处理单元的部分或者被配置为通用中央处理单元和/或图形处理单元和/或量子处理单元。举例来说，基因组学和生物信息学是涉及信息技术和计算机科学对遗传和/或分子生物学领域的应用的领域。确切地说，生物信息学技术可应用于处理和分析例如来自个体的各种基因和/或基因组数据，以便确定关于所述数据的定性和定量信息，所述信息可随后由各种从业者用于开发防治性、治疗和/或诊断方法，以用于防止、处理、改善和/或至少识别患病状态和/或其可能，且因此，在个别化层级上改进医疗保健的安全、质量和有效性。因此，由于其集中于推进个人化医疗保健，基因组学和生物信息学领域促进主动的而不是反应性的个别化医疗保健，且这给予需要治疗的受试者更多参与其自身健康的机会。采用本文公开的遗传、基因组学和/或生物信息学技术的优点是，可以在样本集合的较宽范围上以高得多速率且时常更准确地执行分子生物(例如，基因)数据的定性和/或定量分析，因此加快个人化医疗保健系统的出现。具体来说，在各种实施例中，基因组学和/或生物信息学相关任务可以形成基因组学管线，其包含以下一个或多个：微阵列分析管线，基因组(例如，全基因组)分析管线，基因分型分析管线，外显子组分析管线，表观基因组分析管线，宏基因组分析管线，微生物群落分析管线，包含联合基因分型的基因分型分析管线，包含结构变异体、体细胞变异体和gatk的变异体分析管线，以及rna定序和其它基因分析管线。因此，为了利用这些优点，存在增强的且更准确的软件实施方案用于执行一个或一系列此类基于生物信息学的分析技术，例如用于通过通用cpu和/或gpu的部署和/或可以在量子处理平台的一个或多个量子电路中实施。然而，传统配置的基于软件的生物信息学方法和系统的共同特性是它们是劳动密集的，花费长时间在此类通用处理器上执行，且容易出错。因此，如本文实施的可以执行这些算法的生物信息学系统，例如由量子处理单元的cpu和/或gpu以较少劳动和/或处理较不密集的方式以较大百分比准确性用软件实施，将是有用的。已经开发且在本文提出此类实施方案，例如其中基因组学和/或生物信息学分析是由在系统中的cpu和/或gpu和/或量子计算机上运行的优化软件执行，所述系统利用由本公开的处理单元和/或集成电路导出的基因序列数据。此外，应注意，分析、存储和共享此原始数字数据的成本已经远超过其产生的成本。因此，本文还提出“及时系统”存储和/或检索方法，其以用重新产生数据的速度来交换共同存储此类数据的成本的方式优化此类数据的存储。因此，本文提出的数据产生、分析和“及时系统”或“jit”存储方法解决了作为一直增长的原始数据产生和存储与从其搜寻真实医疗洞察之间长期存在但未能满足的障碍的关键瓶颈。因此，本文提出用于实施基因组学和/或生物信息学协议或其部分的系统、设备和方法，例如用于例如在例如在硬件处理平台上的集成电路和通用处理器中的一个或两个上执行用于分析基因组数据的一个或多个功能，例如用于以软件和/或固件执行一个或多个生物分析操作。举例来说，如本文在下文阐述，在各种实施方案中，提供集成电路和/或量子电路以便加速一级、二级和/或三级处理平台中的一个或多个过程。在各种实例中，集成电路可以用于以加速方式执行基因分析相关任务，例如映射、对准、变异体调用、压缩、解压缩及类似任务，并且因此，集成电路可以包含硬件加速配置。另外，在各种实例中，可以提供集成和/或量子电路，例如其中所述电路是处理单元的部分，所述处理单元被配置成用于对产生的映射和/或对准和/或变异体调用数据执行一个或多个基因组学和/或生物信息学协议。具体来说，在第一实施例中，第一集成电路可以由耦合到或另外附接到主板且被配置的fpga、asic和/或sasic形成，或在fpga的情况下可以通过固件可编程以被配置为适于执行基因组学分析管线中的至少第一组序列分析功能的一组硬接线数字逻辑电路，例如其中所述集成电路如本文中以上所描述被配置成包含被布置成一组处理引擎的一个或多个数字逻辑电路，所述处理引擎适于对基因数据执行映射、对准和/或变异体调用操作中的一个或多个步骤以便产生序列分析结果数据。所述第一集成电路还可以包含例如由多个物理电互连件形成的输出，例如用于将来自映射和/或对准和/或其它过程的结果数据传送到存储器。另外，可以包含第二集成和/或量子电路，其耦合到或另外附接到主板，且经由通信接口与存储器通信。所述第二集成和/或量子电路可以形成为中央处理单元(cpu)或图形处理单元(gpu)或量子处理单元(qpu)，其被配置成用于接收映射和/或对准和/或变异体调用的序列分析结果数据，且可以适于响应于一个或多个软件算法，所述软件算法被配置成指示cpu或gpu对映射、对准和/或变异体调用的序列分析结果数据执行基因组分析管线的一个或多个基因组学和/或生物信息学功能。具体地，基因组学和/或生物信息学相关任务可以形成基因组学分析管线，其包含以下一个或多个：微阵列分析，基因组管线，例如全基因组分析管线，基因分型分析管线，外显子组分析管线，表观基因组分析管线，宏基因组分析管线，微生物群落分析管线，包含联合基因分型的基因分型分析管线，包含结构变异体、体细胞变异体和gatk的变异体分析管线，以及rna定序分析管线和其它基因分析管线。举例来说，在一个实施例中，第二集成电路的cpu和/或gpu和/或qpu可以包含被配置成用于布置用于执行全基因组分析管线的基因组分析管线的软件，例如包含以下一个或多个的全基因组分析管线：基因组范围的变异分析、全外显子组dna分析、全转录物组rna分析、基因功能分析、蛋白质功能分析、蛋白质结合分析、定量基因分析，和/或基因组装分析。在某些实例中，可以执行全基因组分析管线以用于以下一个或多个目的：祖先分析、个人病史分析、疾病诊断、药物发现，和/或蛋白质图谱分析。在特定实例中，执行全基因组分析管线以用于肿瘤学分析的目的。在各种实例中，可以在整个系统中例如全局地使此数据的结果可用。在各种实例中，第二集成和/或量子电路的cpu和/或gpu和/或量子处理单元(qpu)可以包含被配置成用于布置用于执行基因分型分析的基因组分析管线的软件，例如包含联合基因分型的基因分型分析。举例来说，可以使用贝叶斯概率计算执行联合基因分型分析，例如得到给定确定的基因型是真实基因型的绝对概率的贝叶斯概率计算。在其它实例中，软件可以被配置成用于执行宏基因组分析以便产生宏基因组结果数据，所述结果数据又可以用于执行微生物群落分析。在某些实例中，第一和/或第二集成电路和/或存储器可以容纳在扩展卡上，所述扩展卡例如外围组件互连(peripheralcomponentinterconnect，pci)卡。举例来说，在各种实施例中，集成电路中的一个或多个可以是耦合到pcie卡或另外与主板相关联的一个或多个芯片。在各种实例中，集成和/或量子电路和/或芯片可以是定序器或计算机或服务器内的组件，例如服务器集群的部分。在特定实施例中，集成和/或量子电路和/或扩展卡和/或计算机和/或服务器可以经由因特网(例如，云)访问。此外，在一些实例中，存储器可以是易失性随机存取存储器(ram)，例如直接存取存储器(dram)。具体来说，在各种实施例中，存储器可以包含至少两个存储器，例如，例如用于存储参考单倍型序列数据的作为hmem的第一存储器，以及例如用于存储基因组序列数据的读段的作为rmem的第二存储器。在特定实例中，所述两个存储器中的每一个可以包含写入端口和/或读取端口，例如其中所述写入端口和读取端口各自访问单独的时钟。另外，所述两个存储器中的每一个可以包含用于存储大量基因序列和/或处理结果数据的触发器配置。在附图和以下描述中阐述了本文所描述的主题的一个或多个变化的细节。本文所描述的主题的其它特征和优点从所述描述和附图以及从权利要求书将显而易见。虽然出于说明性目的关于企业资源软件系统或其它商业软件解决方案或架构来描述当前所公开主题的某些特征，但应当容易理解此类特征并不希望是限制性的。本公开所附的权利要求书旨在限定受保护主题的范围。附图说明并入本说明书且构成本说明书的部分的附图示出了本文公开的主题的某些方面，且与描述一起帮助阐释与所公开的实施方案相关联的一些原理。图1a描绘其上具有多个基因样本的定序平台，还描绘多个示例性图块，以及定序读段的三维表示。图1b描绘具有所表示的各种通道的流动池的表示。图1c描绘图1b的流动池平台的下部角，示出定序读段的群集。图1d描绘对图1和2的读段执行的定序的结果的虚拟阵列，其中读段是以输出逐列次序阐述。图1e描绘可以实施结果读段从逐列次序到逐行读段次序的转置的方法。图1f描绘结果读段从逐列次序到逐行读段次序的转置。图1g描绘用于执行转置的系统组件。图1h描绘转置次序。图1i描绘用于以电子方式转置定序数据的架构。图2描绘基于hmm3状态的模型，示出从一个状态到另一状态的转变概率。图3a描绘包含hmm接口结构的本公开的集成电路的高级视图。图3b描绘图3a的集成电路，更详细地示出hmm集群特征。图4描绘在整个系统中的hmm相关数据流的概述，包含软件和硬件交互。图5描绘示例性hmm集群套环连接。图6描绘示例性hmm硬件加速器内的主要功能块的高级视图。图7描绘示例性hmm矩阵结构和硬件处理流。图8描绘图2的一部分的放大视图，示出矩阵内的hmmm、i和d状态计算中的附近单元之间的数据流和相依性。图9描绘有用于m、i、d状态更新的示例性计算。图10描绘m、i和d状态更新电路，包含简化与转变概率有关的图9的假设的效果以及与最终求和运算共享一些m、i、d加法器资源的效果。图11描绘对数域m、i、d状态计算细节。图12a描绘hmm状态转变图，示出gop、gcp和转变概率之间的关联。图12b描绘示例性hmm状态转变图的特定实施例，示出gop、gcp和转变概率之间的关联。图12c描绘证明短串联重复序列(shorttandemrepeat，str)的基因组中的区的堆积物。图12d描绘表达给定区内的插入缺失的曲线下面积图。图13描绘用于支持图12的一般状态转变图的hmm转变概率和先验值产生电路。图14描绘简化的hmm状态转变图，示出gop、gcp和转变概率之间的关联。图15描绘用于支持简化状态转变的hmm转变概率和先验值产生电路。图16描绘示例性理论hmm矩阵且示出可以如何遍历此hmm矩阵。图17a呈现用于执行多区联合检测预处理过程的方法。图17b呈现用于例如在图17a的预处理过程中计算连接矩阵的示例性方法。图18a描绘读段堆积物中的两个同源定序区之间的示例性事件。图18b描绘图18a的构造读段，划分了所述两个序列之间的核苷酸差异。图18c描绘可以用于执行加速变异体调用操作的debrujin图的各种气泡。图18d描绘如本文中所描述的修剪树功能的表示。图18e描绘图18c的气泡中的一个。图19是依据图17的连接矩阵的示例性堆积物的图形表示。图20是用于执行图17a和b的预处理过程的处理矩阵。图21是根据图20的方法在debrujin图中的气泡形成的示例。图22是通过示例性debrujin图的变异体路径的示例。图23是示例性分选功能的图形表示。图24是用于修剪多区联合检测过程的处理矩阵的另一示例。图25示出用于两个区的配对读段的联合堆积物。图26阐述根据本文所公开的概率表。图27是用于多区联合检测过程的处理矩阵的又一示例。图28表示用于图25的联合堆积物的一系列候选解。图29表示在已执行修剪功能之后用于图28的堆积物的又一系列的候选解。图30表示在mrjd功能的执行之后图28的最终候选者和其相关联概率。图31示出用于mrjd和常规检测器的roc曲线。图32示出随参考的序列相似性而变所显示的图31的相同结果。图33a描绘示出本公开的cpu与fpga之间的松散耦合的示例性架构。图33b描绘示出本公开的cpu与fpga之间的紧密耦合的示例性架构。图34a描绘本公开的cpu和fpga的直接耦合。图34b描绘图34a的cpu和fpga的直接耦合的替代实施例。图35描绘组合cpu和fpga的封装的实施例，其中所述两个装置共享共同的存储器和/或高速缓冲存储器。图36示出共享一个或多个存储器和/或高速缓冲存储器的cpu的核心，其中cpu被配置成用于与也可以包含共享或共同存储器或高速缓冲存储器的一个或多个fpga通信。图37示出整个系统中的数据传送的示例性方法。图38更详细地描绘图36的实施例。图39描绘用于本公开的的系统的一个或多个工作的处理的示例性方法。图40a描绘用于现场和/或基于云的基因组学处理和分析的基因组基础结构的框图。图40b描绘用于执行本文公开的bioit分析的基于云的基因组学处理平台的框图。图40c描绘用于示例性基因组处理和分析管线的框图。图40d描绘用于示例性基因组处理和分析管线的框图。图41a描绘用于现场和/或基于云的基因组学处理和分析的基因组基础结构的图40a的本地和/或基于云的计算功能的框图。图41b描绘图41a的框图，示出关于用于现场和/或基于云的基因组学处理和分析的基因组基础结构的计算功能的更多细节。图41c描绘图40的框图，示出关于用于现场和/或基于云的基因组学处理和分析的基因组基础结构的第三方分析功能的更多细节。图42a描绘示出混合云配置的框图。图42b更详细地描绘图42a的框图，示出混合云配置。图42c更详细地描绘图42a的框图，示出混合云配置。图43a描绘示出如本文提出的一级、二级和/或三级分析管线的框图。图43b提供用于由本文的系统的方法和装置执行的示例性三级处理表观遗传分析。图43c提供用于由本文的系统的方法和装置执行的示例性三级处理甲基化分析。图43d提供用于由本文的系统的方法和装置执行的示例性三级处理结构变异体分析。图43e提供用于由本文的系统的方法和装置执行的示例性三级群组处理分析。图43f提供用于由本文的系统的方法和装置执行的示例性联合基因分型三级处理分析。图44描绘本公开的分析管线的流程图。图45根据本公开的实施方案的硬件处理器架构的框图。图46是根据另一实施方案的硬件处理器架构的框图。图47是根据又一实施方案的硬件处理器架构的框图。图48示出基因序列分析管线。图49示出使用基因序列分析硬件平台的处理步骤。图50a示出根据本公开的实施方案的设备。图50b示出根据本公开的替代实施方案的另一设备。图51示出根据实施方案的基因组学处理系统。具体实施方式如上文概括，本公开是针对装置、系统和方法以采用所述装置、系统和方法来执行一个或多个基因组学和/或生物信息学协议，例如对通过一级处理程序产生的数据的映射、对准、分选和/或变异体调用协议，所述数据例如基因序列数据。举例来说，在各种方面中，本文提供的装置、系统和方法被配置成用于对基因数据执行二级分析协议，所述基因数据诸如例如由下一代定序器(“ngs”)进行的rna和/或dna的定序产生的数据。在特定实施例中，提供用于处理基因序列数据的一个或多个二级处理管线，例如其中管线和/或其个别元件可以用分布式和/或优化方式以软件、硬件或其组合实施，以便与此项技术中当前可用的情形相比在更广范围的序列导出数据上传达优良灵敏度和改善的准确性。另外，如上文概括，本公开是针对装置、系统和方法以采用所述装置、系统和方法执行一个或多个基因组学和/或生物信息学三级协议，例如微阵列分析协议，基因组，例如全基因组分析协议、基因分型分析协议、外显子组分析协议、表观基因组分析协议、宏基因组分析协议、微生物群落分析协议，基因分型分析协议，包含联合基因分型，变异体分析协议，包含结构变异体、体细胞变异体和gatk，以及rna定序协议和例如对映射、对准和/或其它基因序列数据的其它基因分析协议，例如采用一个或多个变异体调用文件。因此，本文提供用于执行dna/rna定序数据的二级和/或三级分析的软件和/或硬件，例如基于芯片的加速平台分析技术。更确切地说，例如呈软件实施和/或硬接线配置的处理引擎的平台或管线，其已经具体来说被设计用于执行二级基因分析，例如映射、对准、分选和/或变异体调用；和/或可以专门被设计用于执行三级基因分析，例如微阵列分析，基因组，例如全基因组分析、基因分型分析、外显子组分析、表观基因组分析、宏基因组分析、微生物群落分析，基因分型分析，包含联合基因分型分析，变异体分析，包含结构变异体分析、体细胞变异体分析和gatk分析，以及例如相对于基于基因的定序数据的rna定序分析和其它基因分析，其可能已用优化格式产生，这传达了与单独以已知软件实施的标准管线相比快若干量级的处理速度的改进。另外，本文呈现的管线提供在广泛范围的序列导出数据集上的较好灵敏度和准确性，例如在核酸或蛋白质衍生序列上。如上文所指出，在各种实例中，生物信息学处理的目标是确定个体基因组和/或人的蛋白质序列，所述确定可以用于基因发现协议以及用于防治和/或治疗方案以更好地增强每一特定的人和作为整体的人类的生活。此外，例如在药物发现和/或fda试验中可以使用个体的基因组和/或蛋白质强制作用的知识，以更好地以特殊性来预测哪些药物(如果有的话)将可能对个体起作用和/或哪些药物将可能具有有害的副作用，例如通过分析个体的基因组和/或从其导出的蛋白质谱且将其与来自此类药物施用的预测生物反应进行比较。此类生物信息学处理通常涉及三个明确定义但通常单独的信息处理阶段。被称为一级处理的第一阶段涉及dna/rna定序，其中获得受试者的dna和/或rna且进行各种过程，由此将受试者的基因密码转换成机器可读的数字代码，例如fastq文件。被称为二级处理的第二阶段涉及使用受试者的所产生数字基因密码用于确定个体的基因组成，例如确定个体的基因组核苷酸序列。且被称为三级处理的第三阶段涉及对受试者的基因组成执行一个或多个分析以便从其确定治疗上有用的信息。因此，一旦受试者的基因密码例如由nextgen定序器定序以便产生受试者的基因密码的机器可读数字表示，例如呈fastq和/或bcl文件格式，那么例如通过使以数字方式表示的数据进行二级处理来进一步处理从定序器和/或定序协议获得的以数字方式编码的基因序列数据可以是有用的。举例来说，此二级处理可用以映射和/或对准和/或另外组装个体的整个基因组和/或蛋白质谱，例如其中个体的整个基因组成被确定，举例来说，其中按顺序次序确定每个染色体的每个核苷酸以使得个体的全基因组的组成被识别出。在此类处理中，可以例如通过与例如参考标准的参考基因组进行比较来组装个体的基因组，以便确定个体的基因组成如何不同于参照物的组成，所述参考标准例如从人类基因组项目或类似物获得的一个或多个基因组。此过程通常称为变异体调用。由于任何一个人的dna与另一个人之间的差异是1,000个碱基对中的1个，因此这种变异体调用过程可能非常耗费人力和时间，要求可能需要例如在管线中一个接一个和/或同时执行的许多步骤，以便分析受试者的基因组数据且确定所述基因序列如何不同于给定参考。在执行二级分析管线中，例如用于产生个体受试者的给定查询序列的变异体调用文件；可以获得遗传样本，例如dna、rna、蛋白质样本或类似物，形成受试者。随后可以例如在一级处理步骤中例如通过nextgen定序器(ngs)和/或芯片上定序器技术来定序受试者的dna/rna，以便例如用过取样方式产生覆盖个体的基因组的全部或一部分的大量读序列片段(“读段”)。由定序装置产生的最终产物可以是例如读段等短序列的集合，所述短序列表示受试者的基因组的小片段，例如表示个体的全基因组的短遗传序列。如所指示，由这些读段表示的信息通常可以是图像文件或呈数字格式，例如呈fastq、bcl或其它相似文件格式。具体来说，在典型的二级处理协议中，通过与参考基因组的比较来组装受试者的基因组成。此比较涉及从亿万的短读序列重构个体的基因组和/或比较个体的整个dna与示例性dna序列模型。在典型的二级处理协议中，图像、fastq和/或bcl文件是从含有原始定序读段数据的定序器接收。为了比较受试者的基因组与标准参考基因组，需要确定这些读段中的每一个在何处映射到参考基因组，例如每一个如何相对于彼此对准，和/或也可如何通过染色体次序来分选每一读段以便确定每一读段位于什么位置以及属于哪一个染色体。这些功能中的一个或多个可以例如在一旦组装后对整个全长序列执行变异体调用功能之前发生。具体地，一旦确定每一读段属于基因组中的何处，就可以确定全长基因序列，并且接着可评估受试者的基因密码与参照物的基因密码之间的差异。举例来说，在典型的二级处理组装协议中的基于参考的组装涉及将受试者的定序基因组dna/rna与例如已知参考序列的一个或多个标准进行比较。已经开发各种映射、对准、分选和/或变异体调用算法来帮助加快这些过程。因此，这些算法可以包含以下中的一个或多个的某种变化：映射、对准和/或分选从由定序器传送的图像、fastq和/或bcl文件接收的数百万读段，以确定每一特定读段位于每一染色体上的何处。应注意这些过程可以例如通过第9,014,989和9,235,680号美国专利中描述的方法和/或装置用软件或硬件实施，所述两个美国专利转让于edicogenome公司且以全文引用的方式并入本文中。这些各种算法和/或硬件实施方案的功能实现背后的共同特征经常是它们使用索引和/或阵列来加快它们的处理功能。举例来说，相对于映射，可以经处理大量(例如全部)定序读段以确定那些读段可能对准到的参考基因组中的可能位置。可用于此目的的一个方法是进行读段与参考基因组的直接比较以便找到所有匹配位置。另一方法是采用前缀或后缀阵列，或者建置前缀或后缀树，以用于将读段映射到参考基因组中的各种位置。对执行此功能有用的典型算法是burrows-wheeler变换，其用以使用压缩重复的数据序列的压缩公式将一系列读段映射到参考。另外，可以执行对准功能以确定给定读段可以在基因组上映射到的所有可能位置，例如在读段可以映射到基因组中的多个位置的那些实例中，这实际上是例如通过原始定序协议从其定序而从其实际衍生的位置。此功能可以对基因组的若干读段(例如，映射读段)执行，且可以获得表示受试者的dna/rna的一部分或整个基因序列的一串有序核苷酸碱基。连同所述有序基因序列，可以为给定位置中的每一核苷酸给定评分，表示对于任何给定核苷酸位置，预测将处于所述位置的例如“a”、“c”、“g”、“t”(或“u”)的核苷酸实际上是属于所述指派位置的核苷酸的可能性。用于执行对准功能的典型算法包含needleman-wunsch和smith-waterman算法。在任一情况下，这些算法执行一串受试者的查询基因组序列与一串参考基因组序列之间的序列对准，由此比较一系列可能的长度的片段，而不是一个与另一个来比较整个基因组序列。一旦已经例如相对于参考基因组为读段指派了位置，这可能包含识别读段属于哪一个染色体和/或其从染色体的开始的偏移，就可以通过位置来分选读段。这可以使下游分析能够利用本文所描述的过取样过程。与基因组中的给定位置重叠的所有读段将在分选之后彼此邻接，且它们可以组织成堆积物且容易进行检查以确定它们中的大部分是否与参考值一致。如果它们不一致，那么可以标记变异体。举例来说，在各种实施例中，本公开的方法可以包含产生变异体调用文件(variantcallfile，vcf)，其例如相对于一个或多个参考基因组来识别dna/rna被定序的个体中的基因变异体中的一个或多个(例如，全部)。举例来说，一旦已知实际样本基因组且与参考基因组进行比较，就可确定这两者之间的变异，且可以调出参考基因组与样本基因组之间的所有变异/偏差的列表，例如，可以产生变异体调用文件。具体来说，在一个方面中，可以产生含有个体的基因序列与参考序列的所有变异的变异体调用文件。因此，本文公开的方法和系统的有用元素是基因组参考，可以从所述基因组参考例如与参照物相比较而执行系统的映射、对准、变异体调用和其它此类过程。通常，可以相对于单个人参考执行此类映射、对准、变异体调用和/或其类似者，所述参考例如作为来自多种不同源的基因密码的复合物的“理想参考”，并且因此，典型参考基因组不匹配于任何单个人。此二级分析利用了大多数人具有极类似于参考的基因组成的事实。因此，虽然不是完美的，但典型参考基因组有用于帮助基于读段与参考的一般相似性而将读段映射和对准到人的基因组中的正确位置。典型参考还有用于如本文所论述在读段于参考中的给定映射和/或对准位置上形成所有读段的堆积物，所述堆积物进而允许当在任何给定位置做出变异体调用时考虑更大量的证据。具体来说，所述参考允许当确定在给定读段的特定位置处的特定碱基相对于读段实际上是什么时与所述参考相比较而考虑所述碱基应当是什么的先验概率。因此，使用参考允许假设在参考中的任何位置的任何碱基的身份是在人类基因组中在所述位置存在的读段的所述碱基的最可能内容是什么。因此，通常以一方式执行二级分析以便弄清楚任何给定个体如何不同于典型参考。然而，虽然采用单个参考有用于确定受试者的读段的任何给定碱基对的身份，但在一些实例中，给定受试者与当执行所述特定受试者的dna/rna的二级处理时使用的典型参考之间可能存在显著差异。替代地，在典型参考中存在对于大量的人成问题的一些地方，且在某些实例中，在群体的各种部分中通常发生与参考的显著差异。举例来说，在一些实例中，可存在个别变异体，例如单核苷酸多态性(singlenucleotidepolymorphism，snp)，其在群体的某个显著部分中发生，例如群体的3％或5％或10％，或多于群体的百分之十。具体来说，在各种实例中，对于任何给定个体，可能存在已被具有相似或不同长度且当然具有不同内容的另一序列代替的各种受试者基因组的一个或多个片段。更复杂的事情是此基因重新排列可能在染色体的单个拷贝中发生。因此，在一个单倍型中，受试者的dna可以类似于参考，而在其它单倍型中，受试者的dna可以极大地不同于参考。因此，在一些地方，受试者的dna可以相同于标准参考，且在一些地方显著地不同于标准参考。在一些实例中，此类基因变异可以在基因组中的可预测位置和在特定地理位置发生。在其它实例中，变异体可以在群体的大得多的百分比中发生，例如群体的80％。在此实例中，参考基因组可以实际上在基因组的给定区处展示较不常见的内容。因此，在某些实例中，可能存在参考基因组的大区段，例如其可能是数百或数千或甚至数百万个碱基的长度，其显著不同于群体的大样本集合。因此，结果是如果在执行二级分析过程中仅采用标准参考，那么例如映射、对准和/或变异体调用的此类二级分析的准确性可能不如其原本那样准确。当然这对于基因组最接近地匹配于参考的那些人与基因组与参考有显著变异的那些人相比将是较好的。因此，如果在分析中采用的参考较好地配合于dna正处理的受试者，例如更接近地与其家庭成员、祖先及类似者的dna对准，那么可以改进二级且因此三级处理的准确性。可以采用大量方法和/或策略以便克服使用标准参考基因组执行二级处理的这些潜在低效率。举例来说，可以采用第一传统标准，例如线性参考基因组，用于确定受试者的dna的一条链的基因组身份，例如一个单倍型，且可以采用第二传统或非传统的参考基因组用于确定受试者的dna的另一条链的基因组身份。因此，染色体一可存在一个参考序列，且染色体二可存在另一参考序列，其中在某些实例中，可以例如基于受试者或人的辅助数据(例如，祖先)而产生和/或另外动态地采用参考序列。在此实例中，可以例如基于标准参考执行例如映射、对准和变异体调用过程等第一二级处理过程，且在第二处理过程中，可以在二级处理过程中采用第二参考基因组，例如祖先特定的参考基因组。此二级处理过程可以相对于受试者的全基因组或针对其一个或多个所识别区而执行。举例来说，在正执行逐个区的二级处理过程的情况下，可以使用各种遗传标记来识别区以进行更仔细的处理。具体来说，一旦对于受试者的基因组确定变异的区，那么系统可以采用给定二级参考用于执行相对于所述一个或多个片段的二级处理过程。以例如此方式可以使用多个参考，其中选择每一参考以增强正执行的二级处理过程的准确性和/或效率。因此，在特定情况下，可以采用一个文化参考，例如欧洲或非洲参考，用于处理受试者的dna的给定部分，同时可以采用另一文化参考，例如一个或多个亚洲、印度、南美参考，用于处理受试者的dna的另一给定部分。具体来说，可以采用存储例如对给定群体和/或地理特定的大量参考的数据库，以使得在任何给定时间，系统可以在将采用何种参考用于确定受试者的dna的任何给定片段之间动态地切换。因此，在特定使用实例中，可以采用产生的或标准欧洲参考分析受试者的dna的给定长片段，例如1百万个碱基对，且可以通过产生的或标准另一(例如，北美)参考分析dna的另一长片段，例如2百万个碱基对。具体来说，可以执行统计分析，以例如确定基因组的任何给定部分到特定参考标准的百分比同源性，且可以基于统计分析的结果而确定将采用一系列参考标准中的哪一个。更确切地说，可以采用本文在下文论述的人工智能模块来确定最相关参考以用于对受试者的dna的任何给定区执行二级分析，例如以便采用最佳拟合的参考。在各种实例中，多个这些标准可以混合且以任何逻辑次序匹配，以便产生组合(例如，嵌合)参考，其可以由来自多种源的片段建置。如所指示，这可以单倍体或二倍体方式执行，例如其中将参考应用于dna的仅一个拷贝(例如，链)，或应用于dna的两个拷贝。这可能因来自不同源的受试者的dna的不同链可能具有不同拼接模式的事实而复杂化。然而，这些模式可以用作用来有差异地和/或动态地采用参考基因组的图谱。此类拼接模式可以基于祖先基因背景。并且，在一些实例中，基于这些差异切片模式，嵌合参考基因组，例如包含不同文化相关参考基因组。同样，这些参考可以随后用作用于映射、对准和/或变异体调用过程的指导，以使得非传统(例如，其它标准或嵌合)参考基因组的使用将产生与用户的实际基因组的更接近匹配，并且因此将实现受试者的基因组序列的较准确映射、对准和/或变异体调用。因此，总体分析将具有较高准确性概率。如所指示，将采用的参考基因组可以是动态的，且可以例如在运行中建置以具体地且更接近地表示受试者的基因组。举例来说，在各种实例中，可以例如用debruijn图格式组装嵌合参考基因组，其中从标准参考的变化可以由图中的气泡表示，所述气泡可指代标准参考中的各种映射坐标。具体来说，可以产生基于图的参考，以使得每当参考中的变化将发生时，从标准的改变可以表示为图中的气泡。因此，在使用新建置(例如，嵌合)参考的情况下，其中嵌合参考匹配于标准参考的那些区，例如骨干，可以表示为直线，但在嵌合参考包含差异片段，例如分支的情况下，此差异可以表示为标准参考中的气泡，例如其中气泡表示来自参考的不同碱基对。气泡可以是任何长度，且嵌合参考中的气泡的一个区无需是与其它区相同的长度。因此，一旦组装参考基因组，其就可以追溯和/或另外映射到传统参考以跟踪动态(例如，嵌合)参考不同于传统参考的方式。在此实例中，可以产生局部组装参考以便符合受试者的特定祖先和/或文化，例如其中气泡区表示与标准参考的祖先差异。以例如此方式，可以产生动态参考，其中采用的每一参考是对个体特定的，且因此，没有两个参考将是类似的。可以建置和/或采用动态参考的另一方式是基于已知群体变异来建置嵌合参考，例如对于检测到的祖先和/或已知不同片段是共同的，其中标准参考在各个区中改变以包含已知的变异片段，例如已知的祖先和/或文化变异，所述变异可以随后被标注以便建置嵌合参考的图谱。在此实例中，当使用时，当对受试者的dna执行映射和/或对准操作时和/或为了确定所述dna如何不同于参考而正使用来自哪一个源的哪一个参考片段可能是已知的。举例来说，一旦对于受试者已确定其dna的哪一部分来自其祖先的哪一部分，就可以采用所识别序列长度上的与所述祖先相干的参考作为嵌合参考的至少一个片段。举例来说，可以基于人群体中的已知变异，例如基于地理、文化、祖先等而建置参考基因组，例如其中常见等位基因是已知的且可以用于产生嵌合参考。具体地，在序列于一行中包含多个snp的情况下，群体的某一部分可以具有组合的某一次序，且群体的某一其它部分可以具有组合的不同次序，这些变异可以表示为标注或气泡，例如呈debruijn图格式。这些变异可以表示群体的不同单倍型，其中从标准参考的此类常见变异可以被编码且表示为可变长度的参考(例如，图)中的气泡或标注。在此实例中，典型变异体调用器将不区分这些差异，且将不能够解析基因组的此区域。然而，使用系统的差异参考基因组，可以更准确地解析这些区。在此实例中，将这些变异表示为气泡而不是如个别snp的标注以使得差异清晰可能是更有用的，因为snp彼此靠近或以其它方式密集间隔。因此，具有气泡，甚至更长的气泡来表示此类变异存在优点。因此，完整参考无需是非标准的，在一些实例中，仅需要调换出各种片段，例如进行编辑和标注，以便形成嵌合参考。具体地，在某些实例中，差异片段无需绝对地改变，所述改变可以是任选的，例如可变的，这取决于系统如何确定哪一参考代码、传统的或可变的、在哪些环境中、其中的任一个可以在本文公开的硬接线配置中实施。以此方式，对于参考中的任何变异，例如在任何给定核苷酸位置，在一个核苷酸与另一核苷酸之间在所述位置可能存在变异，哪一变异的绝对确定取决于将采用哪一参考，且在某些实例中，可以在运行中确定，例如在分析过程期间。举例来说，相对于一个参考基因组，例如匹配于群体的例如75％的大百分比的主要参考，所述主要参考可以指示在给定位置的“a”，而可以匹配于群体的例如25％的较小百分比的次主要参考可以通过在所述特定位置具有“t”而不同于主要参考。因此，当仅采用主要参考时，“非匹配”可以发生，但当使用非主要参考时，匹配可以发生。因此，采用多个参考或嵌合参考可以得到更好的准确性。在各种实例中，此已知可变性可以简单地标记或标注为群体中的已知变异。具体地，在各种实例中，这些变量可以由一个或多个旗标标注以便区分参考内的可变性的区。这特别有用于确定一个或多个snp。然而，在各种实例中，这可以导致另一问题，例如其中在一行中可能存在三个snp，例如“a”“a”“a”，其中在每一位置可以存在且标记已知变量，例如其中第一个“a”可以替代地是“c”，第二个可以是“t”，且第三个变量可以替代地是“g”。在此实例中，这三个碱基可以标记为具有三个独立变量，但在一些实例中，每一变异可能不表示独立snp，而是可能实际上是群体中的较常见的单倍型。因此，第一单倍型可以表示“aaa”序列，且第二单倍型可以表示“ctg”，在此情况下这些变异并不随机地分选，而是共同地分选。即群体的部分具有“aaa”单倍型，而另一部分具有“ctg”单倍型。在此类情况下，并非个别地将每一碱基标记为变量，在参考图中将变异共同地指示为“气泡”可以是有用的。因此，在各种实例中，基因组的一个或多个片段可以来自彼此极相似或甚至相同的单倍型。因此，受试者的基因组中的一个或多个读段可以对应于一级或二级组装中的这些一个或多个单倍型。使用典型参考，在常规系统中覆盖这些单倍型中的一个的此读段将不被映射或对准，因为其匹配于太多不同位置。具体地，在各种实例中，来自受试者的读段可以对应或匹配于一个特定单倍型或另一特定单倍型，或者可以匹配于一级组装。在各种实例中，读段可以在所有这些地方基本上同等良好地匹配。然而，典型的映射器可能不能够解析此差异。可以通过让映射器简单地选择一个位置而不是另一位置来克服此情形，在此情况下正确的几率随着潜在匹配位置的数目而下降，或者它可以映射到任何和所有重叠位置，但这可能导致分辨率的减小。不映射序列会留下未考虑的可行信息。克服此困境的一种方式是系统使用替代参考，其展示含有变异体单倍型配置的已知读段可以映射和对准到的可变单倍型的区。如上文所指出，可以采用基于图的映射器来指示已知替代单倍型变异。具体地，在此实例中，系统可以被配置成执行替代感知类型分析。举例来说，在来自受试者的各种读段相同或基本上相同的情况下，可以产生参考的分支图以指示替代单倍型的存在，例如其中每一单倍型形成图中的不同分支。分支或气泡可以按需要而较长或较短以满足单倍型序列的长度。另外，分支的数目可以基于存在的已知变异体单倍型的数目而变化，所述数目可以是数十、数百或更多。因此，系统可以被配置成使得映射器将理解与一级组装骨干相比，每一分支表示潜在替代单倍型。克服此困境的另一方式是系统采取此类基本上相同的读序列且将其视为“新”染色体。具体地，系统可以被配置成将替代单倍型视为用以检查潜在候选序列的完全新染色体，所述替代单倍型例如与传统采用的参考具有显著差异的替代。此配置是有用的，因为其通过假定不匹配于一级参考的读段和/或其种子可能实际上对准于替代单倍型而减少错误肯定。具体来说，在不能到达包含替代单倍型的参考的情况下，此类序列可以强制配合到它们并不实际上配合的一级参考中，从而导致例如对于snp调用错误肯定。然而，在各种实例中，替代单倍型可以具有相当长的序列，且在各种实例中，可以具有匹配于一级参考的部分。这可以导致读段表现为匹配于一级参考和单倍型参考两者。在此情形下读段可能不能够映射，或者其可以简单地随机地指派到一个参考或另一参考，在此情况下覆盖范围减少50％，假定其具有匹配于任一参考的相等机会，从而导致较低的mapq，因为所述两个参考现在变为彼此竞争。然而，映射器可以被配置以便具有替代感知能力，例如通过采用用来放置两个参考的基于图的骨干以便在确定最佳拟合方面彼此不会竞争。因此，映射器可以被适配以使得其理解链骨干中的分支表示与一级组装的图有关(例如，从其分支)的替代序列，因此所述两个参考将不会彼此竞争。实现此功能性的一个方式是采用散列表，所述散列表被适配以便以基本上相似的读段填充，例如根据上文所公开的基于散列表的映射器，但在此实例中，可以采用虚拟(例如，嵌合)参考作为索引。举例来说，已知变异，例如已知替代单倍型序列，可以包含于索引内和/或采用作为索引，且可使用在散列表的群体中，例如其中将所识别替代单倍型输入到散列表中，例如作为虚拟参考索引，以用于种子映射目的。以例如此方式，可以识别那些位置中的匹配，以便改进系统的灵敏度，且允许例如由于替代单倍型而原本保持未解析的读段得到解析。因此，可以确定原本可以映射到一级组装但实际上并不属于那里的基本上相同单倍型读段的关系。因此，映射器可以被配置成负责分选和寻找替代单倍型中的最佳匹配，并且接着将其重新映射到一级组装图中的其所识别(例如，提升)的位置。因此，在各种实例中，可以采用虚拟参考作为参考的图和/或分支，例如预先建置到映射器配置中，且映射可以如上文所描述发生以用于前缀和后缀树映射。例如通过当基本上相同的读段未映射、随机地映射或映射到多重或错误位置时使错误肯定最少，这些方法实现系统总体例如关于映射和/或对准的增强灵敏度和增加准确性。因此，在各种实施例中，如本文所描述，基于动态参考的系统可以被配置以便采用多图分支配置来映射在群体中经常非随机地发生的多个基本上相同序列，例如通过采用群体显著和/或嵌合参考基因组。并且，随着群体研究增加，且采用越来越多的群体相关数据来建置嵌合参考基因组，此系统的准确性将继续改进。此类图和/或表的建置中的改变可以通过这些群体数据中的改变来告知，例如通过适应图中的一直增加的分支或气泡和/或可用于考虑的替代单倍型的数目。在各种实施例中，可以产生超动态参考，例如其中参考特别针对特定社区或家庭或事件专门针对个体受试者自身，例如基于受试者的特定祖先。因此，根据本文公开的方法，系统可以被配置成用于采用标准参考执行第一分析，且可以还被配置成用于采用非标准或修改(例如，专用)参考执行第二分析。举例来说，可以关于标准参考执行第一遍次，可以确定受试者的祖先，或可以识别其它标记，例如遗传标记、所识别单倍型信息，和/或可以组装例如包含单倍型信息的嵌合参考，所述嵌合参考可以随后在系统内使用以用于映射和/或对准，例如当建置散列表时。具体地，嵌合组装可以但不必从头开始建置。而是，所识别单倍型简单地插入或另外取代于主要参考骨干内，例如其中它们的分支链将指示它们被插入，且此参考可以随后插入到用于散列的散列表中。因此，并非通过完全替换片段，而是通过取代特定祖先参考的片段，例如提升序列，且将它们列出或标记为替代单倍型以用于取代于一级参考中，可以建置嵌合参考。举例来说，无论读段的种子是否映射到非嵌合或嵌合(例如，标注)参考片段，此信息都可以例如通过适当标注而包含于散列表内。具体来说，将包含于散列表内的信息可以指示参考和/或读段/种子/k聚体被标注，参考是一级的，和/或一个或多个替代单倍型被包含和/或匹配，和/或包含一个或多个提升群组，例如提升种子群组，及类似情况。因此，实际候选者可以在提升群组中，其中每一提升群组可以被指派例如最佳代表性的评分，且可以相对于与第二最佳群组的评分差异而报告此群组的一级对准(例如，mapq)。具体地，其可用于确定如何对最佳提升群组评分，以及与第二最佳提升群组的评分距离，如果评分距离很大则指示正确匹配的较高置信度，无论mapq评分关于匹配于一级参考和替代参考的所讨论序列如何接近。因此，系统可以被配置成例如以管线方式跟踪所有标注，建置散列表，且实施散列函数，对结果评分，以及映射和对准最佳结果，且因此，保持一级参考作为建置动态参考中的骨干是用于促进广泛簿记的重要特征，其允许后续功能高效地且以较好准确性工作。以例如此方式，彼此合理地较好匹配但不一定匹配于一级参考的两个或更多个种子无需被丢弃，前提是它们匹配于替代参考片段。在此实例中，它们可以作为替代种子分组在一起。因此，散列表可以采用这些技术中的一个或多个来辨识种子的各种可能的组织结构以及其对应于替代单倍型或一级组装的位置，可以如此组织它们(例如，替代、替代、一级等)，且在散列表的组织结构中标注它们，例如一些是来自替代且一些是来自一级组装等，以便确保它们含有的任何相关信息不会丢失而是可使用的。在各种实例中，此信息和/或组织结构可以由映射器采用且转移到对准器。以例如这些方式，可以对照一级/嵌合参考执行sw、hmm和/或变异体调用中的一个或多个，而不必应付替代参考和/或其竞争的配位，从而得到更正规化的覆盖范围、较好的灵敏度和清晰的mapq。同样，输出文件可以是任何合适的文件格式，例如典型的bam和/或sam文件(例如，altbam/sam文件)，和/或可以被修改以指示参考是嵌合的和/或哪些单倍型序列实施于参考中，例如，可以指示哪些单倍型包含于一级参考内以及与一级参考相比在何处、什么坐标(例如提升图谱)和哪些序列映射到单倍型，及类似情况。在各种实例中，其随后可以用于包含此种子群组作为嵌合参考中的提升位置。具体地，在如本文所公开的使用基于图的动态参考的背景下，可以执行更灵敏的映射和/或对准从而得到较好准确性，其中图指示如何将动态参考拼接在一起和/或受试者的基因序列如何映射到其上。此外，如上文详细指示，此动态参考可以优化的软件实施，例如通过cpu和/或gpu执行，或可以硬件实施，例如通过本公开的集成电路，例如fpga、asic或类似物。因此，在特定实施例中，提供用于执行基因分析的技术平台，其中所述平台可以包含以下中的一个或多个的执行：映射，对准，分选，局部再对准，重复标记，碱基质量评分再校准，变异体调用，压缩，和/或解压缩功能。举例来说，在各种方面中，可以提供管线，其中所述管线包含如本文所描述对一个或多个个体的基因组序列执行一个或多个分析功能，例如从自动定序器以图像文件和/或数字(例如，fastq或bcl)文件格式获得的数据。将执行的典型管线可以包含一个或多个个体受试者的例如一部分或全基因组的定序遗传物质中的一个或多个，所述遗传物质可以包含dna、ssdna、rna、rrna、trna及类似物，和/或在一些情况下遗传物质可以表示编码或非编码区，例如dna的外显子组和/或游离基因。所述管线可以包含例如对数字化基因数据执行图像处理过程、碱基调用和/或错误校正操作中的一个或多个，和/或可以包含对基因数据执行映射、对准和/或分选功能中的一个或多个。在某些实例中，所述管线可以包含对数字化基因数据执行再对准、去除重复、碱基质量或评分再校准、减少和/或压缩和/或解压缩中的一个或多个。在某些实例中，所述管线可以包含对基因数据执行变异体调用操作，例如隐式马尔可夫模型。因此，在某些实例中，这些平台功能中的一个或多个的实施方案是执行以下中的一个或多个的目的：确定和/或重构受试者的共识基因组序列，比较受试者的基因组序列与参照物序列，例如参考或模型基因序列，确定受试者的基因组dna或rna不同于参照物的方式，例如变异体调用，和/或对受试者的基因组序列执行三级分析，例如用于基因组范围的变异分析，基因功能分析，蛋白质功能分析，例如蛋白质结合分析，基因组和/或转录组的定量和/或组装分析，以及用于各种诊断，和/或防治性和/或治疗评估分析。如上文所指出，在一个方面中，例如映射、对准、分选、再对准、重复标记、碱基质量评分再校准、变异体调用、压缩和/或解压缩功能这些平台功能中的一个或多个被配置成以软件实施。在一些方面中，例如映射、对准、分选、局部再对准、重复标记、碱基质量评分再校准、解压缩、变异体调用、压缩和/或解压缩功能这些平台功能中的一个或多个被配置成以硬件实施，例如固件。在某些方面，这些基因分析技术可以采用可以由软件实施的改进的算法，其以较少处理密集性和/或较不耗时的方式和/或以较大百分比准确性运行，例如，硬件实施的功能性较快、较少处理密集性且较准确。确切地说，在算法将以软件解决方案实施的情况下，算法和/或其伴随过程已经优化以便较快和/或以较好准确性执行以用于通过所述介质执行。同样，在算法的功能将以硬件解决方案实施的情况下，例如作为固件，硬件已被设计成以优化方式执行这些功能和/或其伴随过程以便较快和/或以较好准确性执行以用于通过所述介质执行。此外，在算法将以量子处理解决方案实施的情况下，算法和/或其伴随过程已经优化以便较快和/或以较好准确性执行以用于通过所述介质执行。举例来说，这些方法可以例如在迭代映射、对准、分选、变异体调用和/或三级处理过程中采用。在另一实例中，提供用于实施一个或多个算法的功能的系统和方法以用于执行如本文阐述的在生物信息学协议中分析基因组数据的一个或多个步骤，其中所述功能实施于硬件和/或量子加速器上，所述加速器可以或可以不与一个或多个通用处理器和/或超级计算机和/或量子计算机耦合。在一个方面中，在各种实施例中，一旦受试者的基因组已经重构和/或vcf已产生，那么此类数据可以随后经受三级处理以便进行解译，例如用于确定所述数据在关于识别此人可能或可能有患有何种疾病的可能方面有什么意义和/或用于确定此受试者可能想要采用何种治疗或生活形态改变以便改善和/或防止患病状态。举例来说，可以分析受试者的基因序列和/或其变异体调用文件以确定临床上相关的遗传标记，其指示患病状态的存在或可能和/或所提出的治疗或防治性方案对受试者可以具有的功效。此数据可以随后用以为受试者提供一个或多个治疗或防治性方案以便改善受试者的生活品质，例如治疗和/或预防患病状态。具体来说，一旦确定个体的基因变异中的一个或多个，那么此类变异体调用文件信息就可用以开发医疗上有用的信息，所述信息又可用以例如使用各种已知统计分析模型确定健康相关数据和/或医疗有用信息，例如用于诊断目的，例如诊断疾病或可能因此的临床解译(例如，寻找表示疾病变异体的标记)、是否应当在各种临床试验中包含或排除受试者、和其它此类目的。更确切地说，在各种实例中，产生的基因组学和/或生物信息学处理结果数据可以用于执行一个或多个基因组学和/或生物信息学三级协议，例如微阵列分析协议，基因组，例如全基因组分析协议、基因分型分析协议、外显子组分析协议、表观基因组分析协议、宏基因组分析协议、微生物群落分析协议，基因分型分析协议，包含联合基因分型，变异体分析协议，包含结构变异体、体细胞变异体和gatk，以及rna定序协议和其它基因分析协议。由于存在由基因畸形造成的有限数目的患病状态，因此在三级处理中可以查询某一类型的变异体，例如已知与患病状态的起始有关的那些，例如通过确定受试者的变异体调用文件中是否包含一个或多个基于基因的患病标记。因此，在各种实例中，本文所公开的方法可以涉及例如在基因组标记的数据库中对照已知疾病序列变异体分析(例如，扫描)vcf和/或产生的序列以便识别vcf和/或产生的序列中的基因标记的存在，且如果存在的话则做出关于基因引发的患病状态的存在或可能的调用。由于存在大量已知基因变异以及大量个体患有此类变异造成的疾病，因此在一些实施例中，本文公开的方法可能需要例如从一个个体或多个个体和患病状态产生链接全基因组的定序数据和/或关于其的变异体调用文件的一个或多个数据库，和/或搜索产生的数据库以确定特定受试者是否具有将使他们易患有此类患病状态的基因组成。此类搜索可以涉及一个全基因组与一个或多个其它全基因组的比较，或者基因组的片段，例如仅含有变异的片段与例如在参考基因组或其片段的数据库中的一个或多个其它基因组的一个或多个片段的比较。因此，在各种实例中，本公开的管线可以包含一个或多个模块，其中所述模块被配置成用于对例如定序基因数据的基因数据执行一个或多个功能，例如图像处理或碱基调用和/或错误校正操作和/或映射和/或对准，例如有间隙的或无间隙的对准，和/或分选功能。且在各种实例中，所述管线可以包含一个或多个模块，其中所述模块被配置成用于对基因数据执行以下中的一个或多个：局部再对准，去除重复，碱基质量评分再校准，变异体调用，例如hmm，减少和/或压缩，和/或解压缩。另外，所述管线可以包含一个或多个模块，其中所述模块被配置成用于执行三级分析协议，例如微阵列协议，基因组，例如全基因组协议、基因分型协议、外显子组协议、表观基因组协议、宏基因组协议、微生物群落协议，基因分型协议，包含联合基因分型协议，变异体分析协议，包含结构变异体协议、体细胞变异体协议和gatk协议，以及rna定序协议和其它基因分析协议。许多这些模块可以通过软件或在硬件上在本地或远程地执行，例如经由软件或硬件，例如在云上，例如在远程服务器和/或服务器库上，例如量子计算集群。另外，管线的许多这些模块和/或步骤是任选的和/或可以任何逻辑次序布置和/或完全省略。举例来说，本文公开的软件和/或硬件可包含或可不包含图像处理和/或碱基调用或序列校正算法，例如其中可能存在此类功能可导致统计偏差的问题。因此，系统分别可以包含或可不包含碱基调用和/或序列校正功能，这取决于所需的准确性和/或效率的水平。且如上文所指出，可以采用管线功能中的一个或多个以例如通过基于参考的基因组重构而产生受试者的基因组序列。并且，如上文所指出，在某些实例中，来自二级处理管线的输出可以是指示基因组或其部分中的一部分或所有变异体的变异体调用文件(vcf，gvcf)。举例来说，在各种实施例中，下一代定序器或芯片上定序器技术可以被配置成对接收的基因数据执行定序操作。举例来说，如相对于图1a可见，基因数据6a可以耦合到定序平台6以用于插入到下一代定序器中以按迭代方式定序，以使得每一序列将通过一个核苷酸在另一核苷酸之后的逐步添加而生长。具体地，定序平台6可以包含来自受试者的若干模板核苷酸序列6a，其以类似网格的方式布置以形成平台6上的图块6b，所述模板序列6a将被定序。平台6可以添加到适合于执行定序反应的定序器的流动池6c。在定序反应发生时，在每一步骤将具有荧光标签6d的核苷酸添加到流动池6c的平台6。如果杂交反应发生，那么观察荧光，拍摄图像，随后处理图像，且做出适当碱基调用。逐个碱基重复此过程直到所有模板序列(例如，全基因组)已被定序且转换为读段，进而产生系统的读段数据。因此，一旦定序，产生的数据(例如，读段)就需要从定序平台传送到二级处理系统中。举例来说，通常，此图像数据转换为bcl和/或fastq文件，所述文件随后可输送到系统中。然而，在各种实例中，此转换和/或传送过程可以变得更高效。具体地，本文提出用于加速bcl转换为可在二级处理系统内快速处理的文件的方法和架构。更具体地，在特定实例中，并非传输原始bcl或fastq文件，表示定序操作的每一图块的所产生图像可以直接传送到系统中且准备用于映射和对准等。举例来说，图块可以在合适配置的pcie上流式传输并进入asic、fpga或qpu，其中可以直接从其提取读段数据，且读段前进到映射和对准和/或其它处理引擎中。具体来说，相对于数据从由定序器获得的图块到fpga/cpu/gpu/qpu的传送，如相对于图1a可见，定序平台6可以成像为3d立方体6c，生长序列6a在其内产生。基本上，如相对于图1b可见，定序平台6可以包括16个通道，8个在前部且8个在后部，其可以被配置成形成约96个图块6b。在每一图块6b内是将被定序进而形成读段的若干模板序列6a，其中每一读段表示受试者的基因组的给定区的核苷酸序列，每一列表示一个文件，且如以数字方式编码对于每个文件表示1个字节，每文件8位，例如其中2个位表示调用的碱基，且剩余6位表示质量评分。更确切地说，相对于下一代定序，定序通常在形成流动池6c的玻璃板6上执行，所述流动池进入自动定序器以用于定序。如相对于图1b可见，流动池6c是平台6，其包括8个垂直列和8个水平行(前部和后部)，一起形成16个通道，其中每一通道足以用于全基因组的定序。将定序的受试者的dna和/或rna6a在平台6的列和行的流体隔离相交点之间的指定位置内相关联以便形成图块6b，其中每一图块包含将定序的模板遗传物质6a。因此，定序平台6包含来自受试者的若干模板核苷酸序列，所述序列以在平台上的图块的类似网格的方式布置。(见图1b。)基因数据6随后以迭代方式定序，其中每一序列通过将一个核苷酸在另一核苷酸之后逐步地引入到流动池中而生长，其中每一迭代生长步骤表示定序循环。如所指示，在每一步骤之后捕获图像，且例如图像的生长序列形成产生bcl文件的基础。如相对于图1c可见，来自定序过程的读段可以形成集群，且是这些集群形成理论3d立方体6c。因此，在此理论3d立方体内，正定序的每一生长核苷酸链的每一碱基将具有x维度和y维度。来自此3d立方体6c的图像数据或图块6b可以被提取且编译为二维图谱，如图1ad中所见可以从其形成矩阵。所述矩阵由表示水平轴线的定序循环和表示垂直轴线的读段身份形成。因此，如参考图1c可见，已定序读段形成流动池6c中的集群，所述集群可以逐个循环地由垂直和水平轴线限定，且来自每一读段的每一循环的逐个碱基的数据可以例如以流式传输和/或管线式方式插入到图1d的矩阵中。具体地，每一循环表示流动池内的每一读段通过添加一个核苷酸的可能生长，当定序一个或几个人基因组时其可以表示每通道约十亿或更多读段的生长。例如通过添加核苷酸碱基的每一读段的生长是通过在生长步骤之间对图像、图块6b、流动池6c的迭代捕获来识别。从这些图像进行碱基调用，且确定质量评分，且形成图1d的虚拟矩阵。因此，将存在碱基调用和进入矩阵的质量评分，其中来自每一循环的每一图块表示单独文件。应注意，在集成电路上执行定序的情况下，所感测的电子数据可取代图像数据。举例来说，如相对于图1d可见，在逐个循环地针对每一读段捕获和处理图像、调用碱基且确定质量评分时，矩阵自身将迭代地生长。这针对流动池的每一图块针对读段中的每一碱基重复。举例来说，读段的集群1c可以被编号且作为垂直轴线输入到矩阵中。同样，循环编号可以作为水平轴线输入，且可以随后输入碱基调用和质量评分以便逐列地、逐行地填充矩阵。因此，每一读段将由若干碱基表示，例如，取决于定序器，每读段约100或150直到1000或更多个碱基，且每图块可能存在高达一千万或更多读段。因此，如果存在各自具有一千万个读段的约100个图块，那么矩阵将含有约十亿个读段，这需要组织且流式传输到二级处理设备中。因此，这种组织是快速且高效地处理数据的基础。因此，在一个方面中，本文提出用于以一种方式转置由虚拟定序矩阵表示的数据的方法，以使得数据可以更直接且高效地流式传输到本文所公开的系统的管线中。举例来说，如图1c的星形集群所表示的定序数据的产生在较大程度上是无组织的，这从数据处理观点来看是成问题的。具体来说，在由定序操作产生数据时，其每循环被组织为一个文件，这意味着到定序操作结束时产生亿万个文件，所述文件在图1e中由以实线分界的列中的数据表示。然而，出于如本文所公开的二级和/或三级处理的目的，文件数据需要重新组织成由图1e的虚线分界的读段数据。更确切地说，为了更高效地将由定序器产生的数据流式传输到二级处理数据中，由虚拟矩阵表示的数据应当转置，例如通过将文件数据从每循环的图块的逐列基础重新组织成识别读段中的每一个的碱基的逐行基础。具体地，在由定序器产生时，形成矩阵的所产生文件的数据结构是按逐循环、逐列的基础来组织。通过本文中所公开的过程，此数据可以例如基本上同时转置，以便如虚拟矩阵内所见按逐个读段、逐行基础来表示，其中每一行表示个别读段，且每一读段由循序数目个碱基调用和质量评分表示，进而识别每一读段的序列和其置信度两者。因此，在如本文中所述的转置操作中，存储器内的数据可以例如在虚拟矩阵内从表示输入数据次序的逐列基础重新组织为表示输出数据次序的逐行基础，进而将数据次序从垂直转置为水平组织。此外，虽然过程可以用软件高效地实施，但通过以硬件实施和/或通过量子处理器可以使其甚至更高效且更快。举例来说，在各种实例中，此转置过程可以通过以硬件实施而加速。举例来说，在一个实施方案中，在第一步骤中，例如定序器的主机软件可以例如按输入次序按逐列基础将输入数据写入到与fpga相关联的存储器中。具体地，在数据产生且存储到相关联存储器中，数据可以逐个循环地组织成文件，其中数据保存为单独的个别文件。此数据可以由图1a的3d立方体表示。此产生的列组织的数据可以随后例如在运行中排队和/或流式传输到硬件中，其中专用处理引擎将对列组织数据进行排队，且以如上文中所述的方式将所述数据从逐列循环次序配置转置为逐行读段次序配置，例如通过将3d图块数据转换为2d矩阵，由此列数据可以例如按逐个读段基础重新组织成行数据。此转置的数据可以随后以较策略性的次序存储于存储器中。举例来说，主机软件可以被配置成例如以逐列输入次序将输入数据写入到与例如fpga的芯片相关联的存储器中，且同样硬件可以被配置成以一种方式对数据进行排队以使得其以策略性方式读取到存储器中，例如图1f中所阐述。具体地，硬件可以包含寄存器阵列8a，循环文件可以分散到其中且重新组织成个别读段数据，例如通过将来自一列的一个碱基写入到组织成行的寄存器中。更具体地，如相对于图1g可见，包含转置处理引擎8的硬件装置1可以包含可以对将转置的数据进行排队的dram端口8a，其中所述端口可操作地连接到存储器接口8b，所述存储器接口与多个寄存器和/或外部存储器8c相关联，且被配置成每循环处置增加量的事务，其中排队的数据是以突发方式传输。具体来说，此转置可以每次一个数据片段进行，例如其中存储器存取以此方式排队以便最大利用ddr传输速率。举例来说，相对于dram，ddr的最小突发长度可以是例如64字节。因此，存储于主机存储器中的列布置数据可以一方式存取以使得通过每一次存储器存取，获得价值为对应的例如64字节数据的列。因此，通过存储器的一次存取，可以逐列基础存取例如表示对应“64”循环或文件的图块的一部分。然而，如相对于图1f可见，虽然主机存储器中的数据作为列数据被存取，但当传输到硬件时，其可以不同次序上载到相关联较小存储器(例如，寄存器)中，由此数据可以例如根据ddr的最小突发速率转换为逐行读段数据的字节，例如64字节，以便每次存取产生对应“64”存储器单元或块。这是由图1d的虚拟矩阵示例，其中若干读段(例如，64个读段)以块存取，且以片段读取到存储器中，如图1e所表示，例如其中每一寄存器或触发器考虑特定读段，例如，64循环x64读段x每读段8位＝32k触发器。具体地，这可以硬件用各种不同方式实现，例如其中输入布线经组织以匹配列排序，且输出布线经组织以匹配行次序。因此在此配置中，硬件可以被适配以便每循环读取和/或写入“64”个不同地址。更确切地说，硬件可以与寄存器阵列相关联，以使得读段的每一碱基被引导且写入到单个寄存器(或一行中的多个寄存器)中，以使得当每一块完成时，新排序的行数据可以按逐行组织传输到存储器作为输出，例如fastq数据。fastq数据可以随后由二级处理系统的一个或多个其它处理引擎存取以用于例如由映射、对准和/或变异体调用引擎进一步处理，如本文中所描述。应注意的是，如本文所描述，转置是以小块执行，然而视具体情况，系统还可以适合于较大块的处理。如所指示，一旦如上文所描述bcl文件已转换为fastq文件，和/或bcl或fastq文件已另外由二级处理平台接收，那么可以对接收的数据执行映射操作。大体来说，映射涉及将读段标绘到参考基因组中的存在匹配的所有位置。举例来说，取决于读段的大小，可能存在其中读段基本上匹配于参考基因组中的对应序列的一个或多个位置。因此，本文公开的映射和/或其它功能可被配置成用于确定参考基因组中一个或多个读段可以匹配到的所有可能位置中哪些实际上是它们映射到的真实位置。从映射功能的执行返回的输出可以是关于一个或多个(例如，每一)读段在何处映射到一个或多个参考基因组的可能性的列表。举例来说，每一映射读段的输出可以是读段可以映射到参考基因组中的匹配序列的可能位置的列表。在各种实施例中，可以搜寻到至少一片(例如，读段的种子，如果不是全部读段)的参考的确切匹配。因此，在各种实例中，所有读段的所有部分确切匹配于参考基因组的所有部分是不必要的。更确切地说，在各种实例中，可以提供映射模块，例如其中所述映射模块被配置成例如以硬接线配置执行一个或多个映射功能。具体地，硬接线映射模块可以被配置成执行通常由在cpu上运行的一个或多个算法执行的一个或多个功能，例如将通常以基于软件的算法实施的功能，所述基于软件的算法产生前缀和/或后缀树、burrows-wheeler变换和/或运行散列函数，例如利用或另外依赖于参考(例如，参考基因组序列)的散列表标引的散列函数。在此类情况下，散列函数可以结构化以便实施策略，例如优化映射策略，其可以被配置成使执行的存储器存取(例如，大存储器随机存取)的次数最少，以便进而最大化机载或另外相关联存储器带宽的效用，这可能根本上受例如芯片架构内的空间约束。已对照参考基因组针对种子确定所有可能的匹配在何处，必须确定所有可能的位置中给定读段可以匹配到的哪一个位置实际上是其对准到的正确位置。因此，在映射之后可能存在一个或多个读段表现为在参考基因组中匹配的大量位置。因此，可能存在表现为指示确切同一件事的多个种子，例如，如果考虑读段中的种子的位置，那么它们可以匹配到参考上的确切同一位置。因此，必须针对每一给定读段确定实际对准。此确定可以若干不同方式做出。在一个实例中，可以评估所有读段以便从在映射(例如，散列查找)过程期间返回位置信息的读段基于由每个种子指示的位置确定读段相对于参考基因组的正确对准。然而，在各种实例中，在执行对准之前，可以对种子中的一个或多个执行种子链过滤功能。举例来说，在某些实例中，与给定读段相关联的表现为映射到与对照参考基因组相同的一般位置的种子可以聚集成参考同一一般区的单链。与一个读段相关联的所有种子可以分组成一个或多个种子链以使得每一种子是仅一个链的成员。此类链随后致使读段对准到参考基因组中的每一指示位置。具体地，在各种实例中，具有指示它们全部属于参考中的同一一般位置的同一支持证据的所有种子可以搜集在一起以形成一个或多个链。分组在一起因此或至少表现为它们将在参考基因组中彼此靠近(例如，在某一带内)的种子将被分组成种子链，且在此带之外的那些种子将成为不同的种子链。一旦这些各种种子已经聚集成一个或多个各种种子链，就可以确定链中的哪一个实际上表示将对准的正确链。这可以至少部分地通过使用过滤算法来完成，所述过滤算法是被设计成消除非常不可能是正确种子链的弱种子链的试探性算法。执行这些映射、过滤和/或编辑功能中的一个或多个的结果是读段的列表，其针对每一读段包含读段可以与参考基因组匹配的所有可能位置的列表。因此，可以执行映射功能以便快速确定从定序器获得的图像文件、bcl文件和/或fastq文件的读段映射到参考基因组的何处，例如，到全基因组中各种读段映射到的地方。然而，如果存在读段中的任一个中的错误或基因变异，那么无法得到与参考的确切匹配和/或可能存在一个或多个读段表现为匹配的若干位置。因此，必须确定各种读段整体相对于基因组实际上对准的位置。因此，在映射和/或过滤和/或编辑之后，已经确定大量读段的定位位置，其中对于一些个别读段已经确定大量定位位置，且现在需要确定所有可能的位置中哪一个实际上是各种读段对准到的真实或最可能位置。此对准可以由一个或多个算法执行，例如将映射读段匹配于参考基因组且对其运行对准功能的动态编程算法。示例性对准功能比较一个或多个(例如，全部)读段与参考，例如将它们成彼此的图形关联放置于例如表中，例如虚拟阵列或矩阵，其中参考基因组或映射读段中的一个的序列放置在一个维度或轴线上，例如水平轴线，且另一个放置在对置的维度或轴线上，例如垂直轴线。随后在阵列上传递概念性评分波前以便确定读段与参考基因组的对准，例如通过针对矩阵中的每一单元计算对准评分。评分波前表示矩阵的一个或多个(例如，所有)单元或那些单元的一部分，其可以根据对准算法中适用的动态编程规则独立地和/或同时评分，所述对准算法例如smith-waterman和/或needleman-wunsch和/或相关算法。对准评分可以循序地或以其它次序计算，例如通过从左到右计算顶部行中的所有评分，随后从左到右计算下一行中的所有评分等。以此方式，对角扫掠对角线波前表示在一系列波前步骤中同时或并行地计算的评分批次的最佳序列。举例来说，在一个实施例中，含有读段映射到的片段的参考基因组的窗口可以放置在水平轴线上，且读段可以定位于垂直轴线上。以例如此方式，产生阵列或矩阵，例如虚拟矩阵，由此在读段中的每一位置的核苷酸可以与参考窗口中的每一位置的核苷酸进行比较。在波前经过阵列时，考虑将读段对准到参考窗口的所有可能方式，包含是否将需要对一个序列的改变以使读段匹配参考序列，例如通过将读段的一个或多个核苷酸改变为其它核苷酸，或将一个或多个新核苷酸插入到一个序列中，或从一个序列删除一个或多个核苷酸。表示将需要做出以实现确切对准的改变的范围的对准评分产生，其中此评分和/或其它相关联数据可以存储于阵列的给定单元中。阵列的每一单元对应于在读段轴线上其位置处的核苷酸对准到参考轴线上其位置处的核苷酸的可能性，且针对每一单元产生的评分表示以所述单元在读段和参考窗口中的位置终止的部分对准。在任何单元中产生的最高评分表示读段到参考窗口的最佳总体对准。在各种实例中，对准可以是全局的，其中整个读段必须对准到参考窗口的某一部分，例如使用needleman-wunsch或相似算法；或在其它实例中，对准可以是局部的，其中读段的仅一部分可以对准到参考窗口的一部分，例如通过使用smith-waterman或相似算法。因此，在各种实例中，可以例如对从映射模块获得的数据执行对准功能。因此，在各种实例中，对准功能可以形成模块，例如对准模块，其可以形成系统的部分，例如管线，其例如与映射模块一起用在用于确定个体的实际整个基因组序列或其部分的过程中。举例来说，例如来自映射模块的从映射功能的执行返回的输出，例如关于读段中的一个或多个或全部在何处映射到一个或多个参考基因组中的一个或多个位置的可能性的列表，可以由对准功能采用以便确定受试者的定序dna的实际序列对准。此对准功能可以有时是有用的，因为如上文所描述，时常出于多种不同原因，定序读段并不始终确切匹配于参考基因组。举例来说，读段中的一个或多个中可能存在单核苷酸多态性(singlenucleotidepolymorphism，snp)，例如在单个位置一个核苷酸取代另一个；可能存在“插入缺失”，沿着读段序列中的一个或多个的一个或多个碱基的插入或缺失，所述插入或缺失在参考基因组中不存在；和/或可能存在造成这些明显变异中的一个或多个的定序错误(例如，样本准备和/或定序器读取和/或定序器输出等中的错误)。因此，当读段例如通过snp或插入缺失而与参考不同时，这可能是因为参考不同于取样的真实dna序列，或因为读段不同于取样的真实dna序列。问题是在所有可能性中两个序列将以大量不同方式彼此不同的事实的情况下，弄清楚如何将读段正确地对准到参考基因组。如所指示，通常使用算法来执行此对准功能。举例来说，可以采用smith-waterman和/或needleman-wunsch来使两个或更多个序列彼此对准。在此实例中，可以一方式采用它们以便确定针对读段映射到参考基因组的任何给定位置所述映射实际上是读段从其发源的位置的概率。通常，这些算法被配置以便由软件执行，然而，在例如本文呈现的各种实例中，这些算法中的一个或多个可被配置以便以硬件执行，如本文在下文更详细描述。确切地说，对准功能至少部分地操作以将读段中的一个或多个(例如，全部)对准到参考基因组，无论是否存在失配的一个或多个部分，例如snp、插入、缺失、结构假象等，以便确定读段可能正确地配合于基因组中的位置。举例来说，将一个或多个读段对照参考基因组进行比较，且确定读段对基因组的最佳可能配合，同时考虑取代和/或插入缺失和/或结构变异体。然而，为了更好地确定读段的哪些修改版本最佳配合参考基因组，必须考虑所提出的改变，并且因此，也可以执行评分功能。鉴于上述情况，因此，存在可以从执行对准功能实现的至少两个目标。一个是最佳对准的报告，包含参考基因组中的位置和在所述位置使读段匹配于参考片段必须做出何种改变的描述，且另一个是对准质量评分。举例来说，在各种实例中，来自对准模块的输出可以是紧凑特殊间隙对准报告(compactidiosyncraticgappedalignmentreport)，例如cigar串，其中cigar串输出是详述对读段作出以便实现其最佳配合对准的所有改变的报告，例如，指示查询如何实际上与参考对准的详细对准指令。此cigar串读出在处理的进一步阶段中可以是有用的，以便更好地确定对于给定受试者的基因组核苷酸序列，对照参考基因组比较的预测变异实际上是真实变异，而不仅仅是由于机器、软件或人为错误。此类对准过程中的一个或多个可以由任何合适的对准算法执行，例如needleman-wunsch对准算法和/或smith-waterman对准算法，其可能已经修改以适应本文描述的功能性。一般来说这两个算法和类似于它们的那些算法在一些实例中基本上以类似方式执行。举例来说，如上文所阐述，这些对准算法通常以类似方式建置虚拟阵列以使得在各种实例中，水平顶部边界可以被配置成表示基因组参考序列，其可以跨越阵列的顶部行根据其碱基对组成而布置。同样，垂直边界可以被配置成表示已经沿着第一列向下按次序定位的定序和映射查询序列，以使得其核苷酸序列次序大体上匹配于它们映射到的参考的核苷酸序列。随后可以用关于在给定位置的查询的相关碱基相对于参考定位于所述位置处的概率的评分来填充介入单元。在执行此功能中，可以跨越在介入单元内填充评分的矩阵对角地移动条带，且可以确定查询的每一碱基在指示位置中的概率。相对于将整个读段序列对准到参考基因组的某个片段的产生最佳全局(或半全局)对准的needleman-wunsch对准功能，波前转向可以被配置成使得其通常从对准矩阵的顶部边缘一直扫掠到底部边缘。当波前扫掠完成时，选择在对准矩阵的底部边缘(对应于读段的末尾)上的最大评分，且对准追溯到矩阵的顶部边缘(对应于读段的开始)上的单元。在本文公开的各种实例中，读段可以是任何长度，可以是任何大小，且无需存在关于如何执行对准的广泛读段参数，例如在各种实例中，读段可以与染色体一样长。然而，在此实例中，存储器大小和染色体长度可能是限制因素。相对于将整个读段序列或读段序列的部分对准到参考基因组的某个片段的产生最佳局部对准的smith-waterman算法，此算法可被配置成用于基于读段的完全或部分对准而寻找可能的最佳评分。因此，在各种实例中，例如如果超长读段仅在其到参考基因组的中间映射中具有种子，那么波前评分带可能不延伸到对准矩阵的顶部和/或底部边缘，但通常波前仍可以从矩阵的顶部到底部评分。局部对准通常通过两次调整来实现。第一，从不允许对准评分降至低于零(或某一其它底限)，且如果原本计算的单元评分将为负，那么用零评分取代，表示新对准的开始。第二，在矩阵中不一定沿着底部边缘的任何单元中产生的最大对准评分用作对准的末端。对准从此最大评分向上和向左追溯通过矩阵到用作局部对准的起始位置的零评分，即使其不在矩阵的顶部行也是如此。鉴于上述情况，存在通过虚拟阵列的若干不同可能的路径。在各种实施例中，波前从虚拟阵列的左上角开始，且向下朝向最大评分的识别符移动。举例来说，可搜集、处理、相关和评分所有可能的对准的结果以确定最大评分。当已到达边界的末尾或阵列的末尾和/或确定针对所有经处理单元导致最高评分(例如，所识别总体最高评分)的计算时，随后可以执行追溯以便找到为了实现所述最高评分而采取的路径。举例来说，可以识别导致预测最大评分的路径，且一旦识别就可以执行审查以便确定所述最大评分是如何导出的，例如通过遵循最佳评分对准箭头向后移动而追溯导致实现所识别最大评分的路径，所述最大评分例如由波前评分单元计算。一旦已确定每一读段映射的位置，并且进一步确定每一读段对准的位置，例如，每一相关读段已被给定位置和反映所述位置是正确对准的概率的质量评分，以使得受试者的dna的核苷酸序列已知，那么可以验证受试者的各种读段和/或基因组核酸序列的次序，例如通过执行向后向上移动通过阵列的追溯功能以便确定样本基因组序列中处于其恰当次序的每个核酸的身份。因此，在一些方面中，本公开是针对追溯功能，例如是执行对准和追溯功能两者的对准模块的部分，例如可以是模块管线的部分的模块，例如针对取得原始序列读段数据的管线，例如形成基因组样本形成个体，以及映射和/或对准所述数据，所述数据随后可以进行分选。在仿射间隙评分的情况下，评分向量信息可以延伸到例如每评分单元4位。除例如2位评分选择方向指示符之外，还可以添加两个1位旗标：垂直延伸旗标，和水平延伸旗标。根据对smith-waterman或needleman-wunsch或相似对准算法的仿射间隙评分延伸的方法，对于每一单元，除表示终止于单元中的最佳评分对准的一级对准评分之外，还应当产生‘垂直评分’，其对应于以最终垂直步骤到达所述单元的最大对准评分，且应当产生‘水平评分’，其对应于以最终水平步骤到达所述单元的最大对准评分；以及当计算所述三个评分中的任一个时，可以使用来自上方单元的一级评分减去间隙开放罚分或者使用来自上方单元的垂直评分减去间隙延伸罚分(取其中较大的一个)来计算进入单元的垂直步骤；以及可以使用来自左边单元的一级评分减去间隙开放罚分或者使用来自左边单元的水平评分减去间隙延伸罚分(取其中较大的一个)来计算进入单元的水平步骤。在选择垂直评分减去间隙延伸罚分的情况下，应当设定评分向量中的垂直延伸旗标，例如‘1’，且否则其应当复位，例如‘0’。在当选择水平评分减去间隙延伸罚分时情况下，应当设定评分向量中的水平延伸旗标，例如‘1’，且否则其应当复位，例如‘0’。在仿射间隙评分的追溯期间，任何时间追溯采取从给定单元向上的垂直步骤，前提是所述单元的评分向量的垂直延伸旗标被设定，随后的追溯步骤也必须垂直，无论上方的单元的评分向量如何。同样，任何时间追溯采取从给定单元向左的水平步骤，前提是所述单元的评分向量的水平延伸旗标被设定，随后的追溯步骤也必须水平，无论左边的单元的评分向量如何。因此，此评分向量的表，例如使用线性间隙评分的64个单元的每行129位，或使用仿射间隙评分的64个单元的每行257位，具有某个数目nr个行，足以支持在推断对准评分之后的追溯，其中评分波前采取nr个步骤或更少。因此，给定用于从部分对准信息执行增量追溯的方法，所述部分对准信息例如包括用于到目前为止评分的对准矩阵单元的部分评分向量信息。从当前完成对准边界，例如特定评分波前位置，从边界上的所有单元位置发起追溯。从所有边界单元的此追溯可以循序地执行，或有利的是，特别在硬件实施方案中，所有追溯可以一起执行。不必从这些多个追溯提取对准符号，例如cigar串；仅确定在追溯期间它们通过哪些对准矩阵位置。在从评分边界的同时追溯的实施方案中，可以利用对应于对准单元数目的若干1位寄存器，其例如全部初始化为‘1’，表示追溯中的任一个是否通过对应位置。对于同时追溯的每一步骤，可以从评分向量表的一行检查对应于这些寄存器中的所有当前‘1’的评分向量，以确定对应于寄存器中的每一‘1’的下一追溯步骤，从而导致寄存器中的每一‘1’的随后以下，用于下一同时追溯步骤。重要的是，寄存器中的多个‘1’容易可能合并到共同位置中，对应于多个同时追溯一起合并到共同追溯路径上。一旦同时追溯中的两个或更多个合并在一起，那么它们保持无限地合并，因为此后它们将利用来自同一单元的评分向量信息。已在经验上且出于理论原因观察到，在相对较少数目的追溯步骤中所有同时追溯以高概率合并到单个追溯路径中，所述相对较少数目例如可以是波前中的评分单元数目的小的倍数，例如8倍。举例来说，对于64单元波前，从给定波前边界的所有追溯以高概率在512个追溯步骤内合并到单个追溯路径中。替代地，所有追溯在某个数目(例如，512)的追溯步骤内终止也是可能的且并不罕见。因此，可以从评分边界(例如，评分波前位置)执行多个同时追溯，其往回足够远以使得它们全部例如在512个追溯步骤或更少步骤中终止或合并到单个追溯路径中。如果它们全部一起合并到单一追溯路径中，那么根据评分矩阵中它们合并的位置或沿着单一追溯路径进一步往回的任何距离，从部分对准信息的增量追溯是可能的。从合并点的进一步追溯或进一步往回的任何距离通过正常单一追溯方法开始，包含记录对应对准记号，例如部分cigar串。此增量追溯和例如部分cigar串必须是在对准完成之后将得到的任何可能的最终追溯和例如完整cigar串的部分，除非此类最终追溯将在到达同时追溯开始的评分边界之前终止，因为如果其到达评分边界，那么其必须遵循同时追溯路径中的一个，且合并到单一追溯路径中，现在是递增地提取。因此，可以安全地丢弃对应于递增地提取的追溯的矩阵区的所有评分向量，例如，在所提取单一追溯的开始之前的波前位置的所有表行中。当从最大评分单元执行最终追溯时，如果其在到达评分边界之前终止(或替代地，如果其在到达所提取单一追溯的开始之前终止)，那么可以丢弃增量对准记号，例如部分cigar串。如果最终追溯继续到所提取单一追溯的开始，那么其对准记号，例如cigar串，可以随后移植到增量对准记号上，例如部分cigar串。此外，在超长对准中，从评分边界(例如，评分波前位置)执行同时追溯直到所有追溯终止或合并，随后进行具有对准记号提取的单一追溯的过程可以从各种连续评分边界重复多次。来自每一连续增量追溯的增量对准记号，例如部分cigar串，可以随后移植到累积的先前对准记号上，除非新的同时追溯或单一追溯较早地终止，在此情况下可以丢弃累积的先前对准记号。最终的最终追溯同样将其对准记号移植到最近累积对准记号上以用于完整追溯描述，例如cigar串。因此，以此方式，将存储评分向量的存储器可以保持有界，假定同时追溯始终在例如512个步骤的有界步数中合并在一起。在其中同时追溯未能在有界的步数中合并或终止的极少数情况下，可以采取各种异常动作，包含使当前对准失效，或以较高界限或无界限使其重复，可能通过不同或传统的方法，例如将用于完全对准的所有评分向量存储于例如外部dram中。在一变型中，使此对准失效可能是合理的，因为其极端罕见，且甚至更罕见的是此失效对准将是在对准报告中使用的最佳评分对准。在各种实例中，本公开的装置、系统和其使用方法可以被配置成用于执行完整读段无间隙和/或有间隙的对准中的一个或多个，其随后可以进行评分以便确定数据集中的读段的适当对准。举例来说，在各种实例中，可以对待处理的数据执行无间隙对准过程，所述无间隙对准过程可以随后是一个或多个有间隙对准，和/或是选择性smith-waterman对准过程。举例来说，在第一步骤中，可以产生无间隙对准链。如本文所描述，此类无间隙对准功能可以快速执行，例如不需要考虑间隙，在执行无间隙对准的第一步骤之后可以随后是接着执行有间隙对准。举例来说，可以执行对准功能以便确定任何给定核苷酸序列(例如，读段)如何对准到参考序列而不需要在读段和/或参考中的一个或多个中插入间隙。执行此对准功能的重要部分是确定所讨论的序列与参考基因组的序列中在何处以及如何存在失配。然而，由于人类基因组内的大同源性，因此在理论上，任何给定核苷酸序列都将较大程度上匹配于代表性参考序列。在存在失配的情况下，这些将可能是由于相对容易检测的单核苷酸多态性，或者它们将是由于所讨论的序列中的插入或缺失，其检测则困难得多。因此，在执行对准功能中，在大部分时间，所讨论的序列将匹配于参考序列，且在由于snp而存在失配的情况下，这将容易地确定。因此，不需要相对大量的处理能力来执行此类分析。然而，困难产生，其中所讨论的序列相对于参考序列存在插入或缺失，因为此类插入和缺失相当于对准中的间隙。此类间隙需要更广泛且复杂的处理平台以便确定正确对准。然而，因为将仅存在小百分比的插入缺失，所以与执行的数百万无间隙对准相比仅需要执行相对较小百分比的有间隙对准协议。因此，所有无间隙对准功能的仅小百分比导致由于序列中存在插入缺失而需要进一步处理，并且因此将需要有间隙对准。当无间隙对准过程中指示插入缺失时，仅那些序列传递到对准引擎上用于进一步处理，例如被配置成用于执行高级对准功能的对准引擎，所述高级对准功能例如smithwaterman对准(smithwatermanalignment，swa)。因此，因为将执行无间隙或有间隙对准，所以本文公开的装置和系统对资源的使用高效得多。更确切地说，在某些实施例中，可以对给定的一系列序列例如以一个接一个的方式执行无间隙和有间隙对准两者，随后针对每一序列比较结果，且选择最佳结果。举例来说，在其中期望准确性的增强且用于执行所需处理的增加时间量和资源是可接受的情况下，可以实施此布置。具体来说，在各种实例中，可以执行第一对准步骤而无需进行处理密集的smithwaterman功能。因此，可以资源较不密集、较不耗时的方式执行多个无间隙对准，且因为需要较少资源，所以芯片上需要较少空间专用于此类处理。因此，可以使用较少处理元件执行更多处理，从而需要较少时间，因此，可完成更多对准，且可实现更好的准确性。更确切地说，用于执行smithwaterman对准的较少芯片资源实施方案需要使用较少芯片面积来专用，因为处理元件不需要与执行有间隙对准所需要的情况一样多的芯片面积来执行无间隙对准。由于芯片资源要求降低，因此可以在较短时间周期中执行更多处理，且通过可执行的更多处理，可实现更好的准确性。来自对准模块的输出是sam(文字)或bam(例如，sam的二进制版本)文件以及映射质量评分(mapa)，所述质量评分反映读段到参考的预测和对准位置实际上是读段衍生的位置的置信度。因此，一旦已确定每一读段映射到的位置，并且进一步确定每一读段对准的位置，例如每一相关读段已被给定位置和反射所述位置是正确对准的概率的质量评分，以使得已知受试者的dna的核苷酸序列以及受试者的dna如何不同于参考(例如，已确定cigar串)，那么可以通过染色体位置来分选表示受试者的基因组核酸序列的各种读段，以使得可以确定读段在染色体上的确切位置。因此，在一些方面中，本公开是针对例如可以由分选模块执行的分选功能，所述分选模块可以是模块的管线的部分，例如针对取得原始序列读段数据的管线，例如形成基因组样本形成个体，以及映射和/或对准所述数据，所述数据随后可以进行分选。更确切地说，一旦已经例如相对于参考基因组为读段指派了位置，这可能包含识别读段属于哪一个染色体和/或其从染色体的开始的偏移，就可以通过位置来分选读段。分选例如在下游分析中可以是有用的，由此与基因组中的给定位置重叠的所有读段可以例如在通过分选模块处理之后形成为堆积物以便彼此邻近，由此可容易地确定大部分读段是否与参考值一致。因此，在大部分读段并不与参考值一致的情况下，可标记变异体调用。因此，分选可以涉及以下一个或多个：分选对准到例如同一染色体位置的相对相同位置以便产生堆积物的读段，以使得覆盖同一位置的所有读段物理上分组在一起；以及可以还涉及分析堆积物的读段以确定与参考基因组相比，读段在何处可以指示基因组中的变异体，所述变异体可以例如通过堆积物的共识而区分于错误，例如机器读取错误或者少数读段可能展现的定序方法中的错误。一旦已获得数据，就存在可以运行以便清除数据的一个或多个其它模块。举例来说，例如在例如用于确定个体的基因组序列的序列分析管线中可以包含的一个模块可以是局部再对准模块。举例来说，经常难以确定发生在读段的末尾的插入和缺失。这是因为smith-waterman或等效的对准过程不含超出插入缺失的足够上下文来允许评分检测其存在。因此，实际的插入缺失可以被报告为一个或多个snp。在此实例中，可以通过对映射和/或对准和/或分选的读段数据执行局部再对准来增强任何给定读段的预测位置的准确性。在此类情况下，可以使用堆积物来帮助阐明恰当对准，例如在所讨论的位置位于任何给定读段的末尾的情况下，所述同一位置可能位于堆积物中的某一其它读段的中间处。因此，在执行局部再对准中，可以分析堆积物中的各种读段以便确定堆积物中的一些读段是否指示在另一读段不包含插入缺失的给定位置存在插入或缺失，或者在所述位置包含取代，随后可以将插入缺失插入到例如其不存在的参考中，且局部堆积物中与所述区重叠的读段可以被再对准以查看与当插入和/或缺失不存在时相比是否共同实现更好的评分。如果存在改进，那么可以回顾堆积物中的读段的整个集合，且如果总体集合的评分已改进，那么清楚做出在所述位置真实存在插入缺失的调用。以例如此方式，可以补偿没有足够上下文来将读段更准确地对准于任何个别读段的染色体的末尾的事实。因此，当执行局部再对准时，检查其中可能定位一个或多个插入缺失的一个或多个堆积物，且确定通过在任何给定位置添加插入缺失是否可以增强总体对准评分。举例来说，在例如用于确定个体的基因组序列的序列分析管线中可以包含的另一模块可以是重复标记模块。举例来说，可以执行重复标记功能以便补偿在定序阶段期间可能发生的化学方法错误。举例来说，如上文所描述，在一些定序过程期间核酸序列使用经标记核苷酸碱基附接到珠粒且从那里积累。理想上每珠粒将仅存在一个读段。然而，有时多个读段变为附接到单个珠粒，且这导致附接读段的过量数目的拷贝。此现象称为读段复制。在执行对准且获得结果和/或执行分选功能、局部再对准和/或解除复制之后，可以对所得数据采用变异体调用功能。举例来说，典型变异体调用功能或其部分可以被配置以便以软件和/或硬接线配置实施，例如在集成电路上实施。具体来说，变异体调用是涉及定位对准到参考上的给定位置变为分组的所有读段以使得来自所有各种对准读段的所有重叠区形成“堆积物”的过程。随后分析覆盖参考基因组的给定区的读段的堆积物，以确定经取样个体的dna/rna的最可能实际内容在所述区内是什么。这随后针对基因组的每个区逐步地重复。确定的内容产生被称为从参考基因组的“变异”或“变异体”的差异的列表，它们各自具有相关联置信度水平以及其它元数据。最常见的变异体是单核苷酸多态性(snp)，其中单个碱基不同于参考。snp发生在人类基因组中的1000个位置中的约1个位置。接下来最常见的是插入(进入参考)和缺失(从参考)，或统称为“插入缺失”。这些在较短长度下更常见，但可具有任何长度。然而，额外的复杂性产生，因为定序片段(“读段”)的集合是随机的，一些区将具有与其它区相比更深的覆盖范围。还存在包含多碱基取代以及可视为长度更改取代的插入缺失和取代的组合的更复杂的变异体。基于标准软件的变异体调用器难以识别所有这些，且在变异体长度上具有各种限制。需要软件和/或硬件中的更专用变异体调用器以识别较长变异，以及涉及染色体的大更改的许多种类的外来“结构变异体”。然而，变异体调用是难以用软件实施的过程，且用硬件部署则更加困难。为了考虑和/或检测这些类型的错误，典型变异体调用器可以执行以下任务中的一个或多个。举例来说，它们可以提出一组假设基因型(在一基因座的一个或两个染色体的内容)，使用贝叶斯计算来估计每一基因型在给定观察证据下是真实的后验概率，且报告最可能基因型以及其置信度水平。因此变异体调用器可以是简单的或复杂的。较简单的变异体调用器仅在正进行的调用的精确位置查看对准读段堆积物中的碱基列。更高级的变异体调用器是“基于单倍型的调用器”，其可以被配置成考虑正进行的调用周围的上下文，例如在窗口中。“单倍型”是单个共同“链”中的特定dna内容(核苷酸序列，变异体列表等)，例如，一区中的两个二倍体链中的一个，且基于单倍型的调用器考虑贝叶斯含义，其中差异通过出现在同一读段中而链接。因此，如本文所提出的变异体调用协议可以实施一个或多个改进的功能，例如在基因组分析工具套件(genomeanalysistoolkit，gatk)单倍型调用器中和/或使用隐式马尔可夫模型(hmm)工具和/或和/或图功能执行的那些功能，例如其中通常由gatk单倍型调用器和/或hmm工具和/或debruijn图功能采用的一个或多个这些功能可以用软件和/或硬件实施。更确切地说，如本文实施，各种不同变异体调用操作可以被配置以便以软件或硬件执行，且可以包含以下步骤中的一个或多个。举例来说，变异体调用功能可以包含作用区识别，例如用于识别其中多个读段与参考不一致的位置，且用于产生所识别作用区周围的窗口，以使得仅这些区可以被选择用于进一步处理。另外，局部化的单倍型组装可以发生，例如其中对于每一给定作用区，所有重叠读段可以组装成“debruijn图”(dbg)矩阵。由此dbg，可以提取通过矩阵的各种路径，其中每一路径构成候选单倍型，例如何种真实dna序列可以在至少一个链上的假设。此外，单倍型对准可以发生，例如其中每一提取的单倍型候选者可以对准(例如，smith-waterman对准)回到参考基因组，以便确定其暗示从参考的何种变异。此外，可以执行读段可能性计算，例如其中可以对照每一单倍型或假设测试每一读段，以假定单倍型是取样的真实原始dna而估计观察到读段的概率。相对于这些过程，读段可能性计算将通常是将执行的最资源密集的且耗时的操作，经常要求成对hmm评估。另外，针对读段的每一堆积物构造debruijn图以及如下所述的识别局部和全局唯一k聚体的相关联操作也可能是资源密集的和/或耗时的。因此，在各种实施例中，执行这些步骤中的一个或多个时涉及的各种计算中的一个或多个可以被配置以便以优化软件方式或硬件实施，例如由集成电路以加速方式执行，如本文中所述。如上文所指出，在各种实施例中，以软件和/或硬件或其组合实施的本公开的单倍型调用器可以被配置成包含以下操作中的一个或多个：作用区识别，局部化的单倍型组装，单倍型对准，读段可能性计算，和/或基因分型。举例来说，本公开的装置、系统和/或方法可以被配置成对从受试者的定序dna/rna获得的数据执行映射、对准和/或分选操作中的一个或多个，以产生映射、对准和/或分选的结果数据。此结果数据可以随后被清除，例如通过对其执行解除复制操作和/或所述数据可以传送到一个或多个专用单倍型调用器处理引擎以用于对所述结果数据执行变异体调用操作，包含前述步骤中的一个或多个，以便相对于其产生变异体调用文件。因此，已经定序和/或映射和/或对准到参考基因组中的特定位置的所有读段可以经受进一步处理，以便确定所确定序列在参考基因组中的任何给定点处如何不同于参考序列。因此，在各种实施例中，如本文所公开的装置、系统和/或其使用方法可以包含变异体或单倍型调用器系统，其以软件和/或硬接线配置实施以对获得的结果数据执行作用区识别操作。作用区识别涉及识别并确定例如读段的堆积物中的多个读段与参考不一致的位置，并且进一步涉及产生所述不一致周围的一个或多个窗口(“作用区”)以使得在窗口内的区可以被选择用于进一步处理。举例来说，在映射和/或对准步骤期间，所识别读段映射和/或对准到参考基因组中的预期它们在受试者的基因序列中发源的区。然而，由于以此方式执行定序以便针对基因组的任何给定区创建定序读段的过取样，因此在参考序列中的任何给定位置可以看见与所述区成直线且对准的任何和/所有定序读段的堆积物。在给定区或堆积物位置中对准和/或重叠的所有这些读段可以输入到变异体调用器系统中。因此，对于正分析的任何给定读段，可以将读段在其可疑重叠区与参考进行比较，且可以将所述读段与参考进行比较以确定其是否在其序列中展示与参考的已知序列的任何差异。如果读段与参考成直线，而无任何插入或缺失且所有碱基是相同的，那么对准确定是好的。因此，对于任何给定的映射和/或对准读段，读段可以具有与参考不同的碱基，例如，读段可以包含一个或多个snp，从而产生其中碱基失配的位置；和/或读段可以具有插入和/或缺失中的一个或多个，从而例如产生对准中的间隙。因此，在任何这些实例中，将存在需要通过进一步处理来考虑的一个或多个失配。然而，为了节省时间和提高效率，此类进一步处理应当限于其中感知到的失配是非平凡的那些实例，例如非噪声差异。在确定失配的显著性时，其中堆积物中的多个读段与参考不一致的位置可以被识别为作用区，随后可以使用作用区周围的窗口来选择不一致的基因座，其随后可以经受进一步处理。然而，不一致应当是非平凡的。这可以多种方式确定，举例来说，可以针对所讨论的每一基因座计算非参考概率，例如通过分析碱基匹配对失配质量评分，例如高于给定阈值被认为是来自以显著方式与参考不一致的那些读段的充分大量指示。举例来说，如果映射和/或对准的读段中的30个全部成直线和/或重叠以便在参考中的例如作用区的给定位置形成堆积物，且30个读段中仅1个或2个与参考不一致，那么可以认为尚未满足用于进一步处理的最小阈值，且鉴于一致的28或29个读段可以忽略不一致的读段。然而，如果堆积物中的读段中的3或4或5或10或更多个不一致，那么所述不一致可以统计上足够显著以保证进一步处理，且可能确定所识别差异区周围的作用区。在此实例中，可以采取确认围绕所述差异的碱基的作用区窗口，以给出围绕所述差异的区的增强上下文，且可以采取额外处理步骤，例如执行高斯分布和跨越相邻位置分布的非参考概率的总和，以进一步调查和处理所述区以弄清楚是否应当声明作用区且如果是的话所述区内实际上存在从参考的何种变化(如果存在)。因此，作用区的确定识别其中可能需要额外处理以清楚地确定是否已发生真实变化或读段错误的那些区。具体来说，因为在许多情况下不希望使序列堆积物中的每个区经受进一步处理，所以可识别作用区，由此仅可能需要额外处理以清楚地确定是否已发生真实变化或读段错误的那些区可以被确定为需要进一步处理。并且，如上文所指出，可能是推测变化的大小决定了作用区的窗口的大小。举例来说，在各种实例中，作用窗口的界限可以是从1或2或约10或20或甚至约25或约50到约200或约300或约500或约1000个碱基长或更多，其中仅在作用窗口的界限内才发生进一步处理。当然，作用窗口的大小可以是任何合适的长度，只要其提供上下文以确定差异的统计重要性即可。因此，如果存在仅一个或两个隔离差异，那么作用窗口可能仅需要覆盖作用区中的一个或多个到几十个碱基，以便具有足够上下文来做出实际变异体存在的统计调用。然而，如果存在集群或一堆差异，或如果存在需要更多上下文的插入缺失，那么窗口可以被配置成更大。在任一实例中，可能需要分析在集群中可能发生的任何和所有差异，以便全部在一个或多个作用区中分析它们，因为这样做可提供关于每一个体差异的支持信息，且将通过减小涉及的作用窗口的数目而节省处理时间。在各种实例中，可以借助通过给定阈值的作用概率来确定作用区边界，所述给定阈值例如约0.00001或约0.00001或约0.0001或更小到约0.002或约0.02或约0.2或更大。且如果作用区长于给定阈值，例如约300-500个碱基或1000个碱基或更多，那么所述区可分裂成子区，例如由具有最低作用概率评分的基因座限定的子区。在各种实例中，在识别作用区之后，可以执行局部化的单倍型组装过程。举例来说，在每一作用区中，所有堆积和/或重叠读段可以组装成“debruijn图”(dbg)。dbg可以是基于与选定作用区重叠的所有读段的定向图，所述作用区可为约200或约300到约400或约500个碱基长或更多，在所述作用区内将确定变异体的存在和/或身份。在各种实例中，如上文所指出，作用区可延伸，例如通过在所讨论的基因座的每一方向上包含另外约100或约200或更多碱基以便产生延伸作用区，例如在所述作用区可能需要围绕差异的额外上下文。因此，具有与作用区重叠的部分的所有读段是从延伸或未延伸的作用区窗口堆积，以例如产生堆积物，识别重叠部分，且读段序列被线程化到单倍型调用器系统中且进而呈debruin图的形式组装在一起，很像拼图的片那样。对于任何给定作用窗口，将存在形成堆积物的读段以使得堆积物一起将包含序列路径，通过所述序列路径，堆积物中的各种重叠读段的重叠区覆盖作用窗口内的整个序列。因此，在作用区中的任何给定基因座，将存在与所述基因座重叠的多个读段，但任何给定读段可能不延伸整个作用区。此情况的结果是在堆积物内的各种读段的各个区由dbg用于确定对于作用区内的序列中的任何给定基因座是否实际上存在变异体。由于是在作用窗口内做出此确定，因此考虑任何给定读段的在作用窗口的边界内的那些部分，且在作用窗口外部的那些部分可以丢弃。如所指示，读段的在作用区内与参考重叠的那些区段被馈送到dbg系统。dbg系统随后类似于拼图将读段组装成图，并且接着对于序列中的每一位置，基于所述位置的重叠读段的集合而确定是否存在任何给定的匹配或失配，且如果存在失配，则所述失配的概率是多少。举例来说，在其中堆积物中的读段的片段彼此重叠的离散位置存在的情况下，它们可以基于其匹配区域以及通过将匹配读段串连或拼接在一起而彼此对准，如由其匹配点确定，针对所述片段内的每一位置可以确立在任何给定位置的读段是否以及在何种程度上彼此匹配或失配。因此，如果正编译的两个或更多个读段成直线且相同地匹配彼此一段时间，那么将得到具有单个串的图；然而，当两个或更多个读段出现差异点时，图中的分支将形成，且将得到两个或更多个发散串，直到两个或更多个读段之间的匹配恢复为止。因此，通过图的路径经常不是直线。举例来说，在读段的k聚体与参考的k聚体和/或来自例如堆积物中的一个或多个重叠读段的k聚体不同的情况下，在图中在差异点处将形成“气泡”从而导致两个发散串，这将沿着两个不同的路径线继续直到两个序列之间的匹配恢复为止。每一顶点可以被给定加权评分，其识别相应k聚体在堆积物中的所有读段中重叠多少次。具体来说，从一侧到另一侧延伸穿过产生的图的每一路径可以被给定计数。且在从大量读段产生相同k聚体的情况下，例如在每一k聚体具有相同序列样式的情况下，在图中可以通过增加k聚体与已经存在的k聚体路径重叠的所述路径的计数来考虑它们。因此，在从具有相同序列的大量重叠读段产生相同k聚体的情况下，图之间的路径的模式将一遍又一遍地重复，且用于遍历此路径穿过图的计数将与其对应地递增增加。在此实例中，仅针对k聚体的第一实例记录模式，且针对重复所述模式的每一k聚体递增地增加计数。在此模式中，可收集堆积物中的各种读段以确定发生何种变异以及在何处发生。以例如此方式，通过取得所有可能的n个碱基k聚体，例如10个碱基k聚体，可以形成图矩阵，所述k聚体可通过循序地经过十个碱基片段中的读段的长度而从每一给定读段产生，其中每一个新十碱基片段的开始从上一个产生的10碱基片段偏移一个碱基。随后可以通过对作用窗口内的堆积物中的每个读段进行相同操作来重复此过程。产生的k聚体可以随后彼此对准以使得产生的k聚体之间的相同匹配区域匹配于它们重叠的区域，以便积聚数据结构，例如图，可以随后扫描所述数据结构且可以确定匹配和失配的百分比。具体来说，参考和与其对准的任何先前处理的k聚体可以相对于下一产生的k聚体进行扫描，以确定即时产生的k聚体是否匹配和/或重叠于先前产生的k聚体的任何部分，且在发现匹配的情况下即时产生的k聚体可随后在适当的位置插入到图中。一旦建置，就可扫描图，且可以基于此匹配而确定读段中相对于参考的任何给定snp和/或插入缺失是否可能是受试者的基因密码中的实际变异还是处理或其它错误的结果。举例来说，如果给定区中的所有读段的所有或显著部分的k聚体的所有或显著部分包含相同的snp和/或插入缺失失配，但以相同方式与参考不同，那么可以确定与参考基因组相比受试者的基因组中存在实际snp和/或插入缺失变异。然而，如果仅来自有限数目的读段的有限数目的k聚体证明假象，那么可能是由机器和/或处理和/或其它错误造成且不指示在所讨论位置处的真实变异。如所指示，在存在可疑变化的情况下，气泡将形成于图内。具体地，在读段的所有给定区内的所有k聚体全部匹配于参考的情况下，它们将以一方式成直线以便形成线性图。然而，在给定基因座处的碱基之间存在差异的情况下，在差异的所述基因座处所述图将分支。此分支可位于k聚体内的任何位置，且因此在所述差异点，包含所述差异的10碱基k聚体将从图中的其余k聚体发散。在此实例中，将形成新节点，其形成通过图的不同路径。因此，在所有事物可能已一致的情况下，例如正图示的给定新k聚体中的序列匹配于其在图中对准到的序列，一直到差异点，所述k聚体的路径都将大体上匹配于图的路径且将是线性的，但在差异点之后，通过图的新路径将出现以适应新图示的k聚体的序列中表示的差异。此发散由图内的新节点表示。在此实例中，将添加到图的匹配于新发散路径的任何新k聚体将增加所述节点处的计数。因此，对于支持弧的每个读段，计数将递增地增加。在各种此类实例中，k聚体和/或其表示的读段将例如在发散点之后再次开始匹配，以使得现在存在收敛点，在此k聚体开始匹配于由参考序列的k聚体表示的通过图的主要路径。举例来说，自然地在一段时间之后，支持分支节点的读段应当随时间重新加入图。因此，随时间过去，所述读段的k聚体将再次重新加入主要路径。更确切地说，对于在读段内的给定基因座处的snp，在所述snp处起始的k聚体将从主图发散且将保持分开约10个节点，因为存在与读段和参考之间的失配的基因座重叠的每k聚体10个碱基。因此，对于snp，在第11个位置，读段内覆盖所述基因座的k聚体将随着确切匹配恢复而重新加入主要路径。因此，在给定基因座具有snp的读段的k聚体将采取十个移位来重新加入由参考序列表示的主图。如上文所指出，通常存在作为参考路径的一个主路径或线或骨干，且在存在发散的情况下在读段和骨干图之间存在差异的节点处形成气泡。因此，存在从骨干发散且形成气泡的一些读段，所述发散可以指示变异体的存在。在处理图时，在气泡内的气泡内的气泡可以沿着参考骨干形成，使得它们堆叠且可以产生通过图的多个路径。在此实例中，可能存在由参考骨干表示的主路径、第一发散的一个路径和在第一发散内的第二发散的又一路径，全部在给定窗口内，通过图的每一路径可以表示实际变异或者可以是例如由定序错误和/或pcr错误和/或处理错误及类似物造成的假象。一旦已产生此图，则必须确定通过图的哪些路径表示样本基因组内存在的实际变异且哪些仅仅是假象。尽管如此，预期含有处置或机器错误的读段将不受样本堆积物中的大部分读段支持，然而，情况并非总是如此。举例来说，pcr处理中的错误可能通常是当准备dna样本时发生的克隆错误的结果，此类错误趋于导致插入和/或缺失添加到克隆的序列。此类插入缺失错误可能在读段当中更一致，且最终可能从pcr克隆中的此错误产生具有相同错误的多个读段。因此，用于此发散点的较高计数线可能由于此类错误而产生。因此，一旦已形成图矩阵，具有通过图的许多路径，则下一阶段是例如从左到右遍历且进而提取通过图的所有路径，以便例如从其导出一个或多个候选单倍型。一个路径将是参考骨干，但将存在沿途跟随各种气泡的其它路径。必须遍历所有路径且将其计数列表。举例来说，如果图包含在一个点中具有两级气泡且在另一点中具有三级气泡的路径，那么将存在通过所述图的(2x3)6个路径。因此，将需要个别地提取所述路径中的每一个，所述提取路径被称为候选单倍型。此类候选者单倍型表示是什么可以真正代表被定序的受试者的实际dna的理论，且可以采用以下处理步骤，包含单倍型对准、读段可能性计算和/或基因分型中的一个或多个，来测试这些理论以便找出这些理论中的任何一个和/或每一个正确的概率。debruijn图重构的实施方案因此表示可靠地提取良好的一组假设进行测试的方法。举例来说，在执行如本文所公开的变异体调用功能中，可以实施作用区识别操作，例如用于识别在给定区内的堆积物中的多个读段与例如标准或嵌合参考等参考不一致的位置，且用于产生所识别作用区周围的窗口，以使得仅这些区可以被选择用于进一步处理。另外，局部化的单倍型组装可以发生，例如其中对于每一给定作用区，堆积物中的所有重叠读段可以组装成“debruijn图”(dbg)矩阵。由此dbg，可以提取通过矩阵的各种路径，其中每一路径构成候选单倍型，例如何种真实dna序列可以在至少一个链上的假设。此外，单倍型对准可以发生，例如其中每一提取的单倍型候选者可以对准(例如，smith-waterman对准)回到参考基因组，以便确定其暗示从参考的何种变异。此外，可以执行读段可能性计算，例如其中可以对照每一单倍型测试每一读段，以假定单倍型是取样的真实原始dna而估计观察到读段的概率。最终，可以实施基因分型操作，且产生变异体调用文件。如上文所指出，这些操作中的任一个或全部可以被配置以便以优化方式以软件和/或硬件实施，且在各种实例中，由于建置dbg矩阵且从其提取候选单倍型的资源密集且耗时的性质，和/或由于执行可能包含进行隐式马尔可夫模型(hmm)评估的单倍型对准和/或读段可能性计算的资源密集且耗时的性质，这些操作(例如，局部化单倍型组装，和/或单倍型对准，和/或读段可能性计算)或其部分可以被配置以便使其操作的一个或多个功能以硬接线形式实施，例如如本文中所描述用于由集成电路以加速方式执行。在各种实例中，这些任务可以被配置成由例如量子计算装置中的一个或多个量子电路实施。因此，在各种实例中，用于执行这些任务的装置、系统和方法可以被配置以便执行单倍型对准和/或读段可能性计算。举例来说，如所指示，每一提取的单倍型可以对准(例如smith-waterman对准)回到参考基因组，以便确定其暗示从参考的何种变异。在各种示例性实例中，可以例如根据以下示例性评分参数进行评分：匹配＝20.0；失配＝-15.0；间隙开放-26.0；以及间隙延伸＝-1.1，可以使用其它评分参数。因此，以此方式，可以产生cigar链且与单倍型相关联以产生组装单倍型，所述组装单倍型可以最终用以识别变异体。因此，以例如此方式，可以针对所有读段/单倍型组合计算给定读段与给定单倍型相关联的可能性。在此类实例中，可以使用隐式马尔可夫模型(hmm)计算可能性。举例来说，各种组装单倍型可以根据类似于sw对准的动态编程模型对准。在此实例中，可以产生虚拟矩阵，例如其中例如由dbg产生的候选单倍型可以定位于虚拟阵列的一个轴线上，且读段可以定位于另一轴线上。随后可以用通过遍历穿过图的提取路径且计算任何给定路径是真实路径的概率而产生的评分来填充矩阵。因此，在此实例中，此对准协议与典型sw对准协议的差异是相对于寻找通过阵列的最可能路径，可以使用最大似然计算，例如由经配置以提供读段到单倍型的对准的总概率的hmm模型执行的计算。因此，在此实例中，无需产生实际cigar链对准。而是考虑所有可能的对准且将其可能性求和。成对hmm评估是资源和时间密集的，且因此，在集成电路内的硬接线配置内或经由量子计算平台上的量子电路实施其操作是极有利的。举例来说，可以对照每一候选单倍型测试每一读段，以便假定单倍型真实代表取样的原始dna而估计观察到读段的概率。在各种实例中，此计算可以通过评估“成对隐式马尔可夫模型”(hmm)而执行，其可以被配置成对单倍型候选者可能已经例如因pcr或定序错误及类似情况以及引入到所观察读段中的变异而被修改的各种可能方式进行建模。在此类实例中，hmm评估可以采用动态编程方法，来鉴于读段中的任何发散可能是错误模型的结果的可能性而计算任何一系列马尔可夫状态转变到达所观察读段的总概率。因此，此类hmm计算可以被配置成例如通过放大和/或定序假象来分析可以已经引入到读段中的一个或多个中的所有可能的snp和插入缺失。具体来说，配对hmm在虚拟矩阵中考虑读段到参考候选单倍型的所有可能的对准以及与其中的每一个相关联的概率，其中所有概率被相加。沿着给定路径的所有变异体的所有概率的总和相加以得到用于每一读段的一个首要概率。随后针对每个对、每个单倍型、读段对执行此过程。举例来说，如果存在与给定区重叠的六个堆积物集群，例如六个单倍型候选者的区，且如果堆积物包含约一百个读段，那么随后将需要执行600次hmm操作。更确切地说，如果存在6个单倍型，那么将存在通过路径的6个分支，且必须计算每一个都是针对所述区匹配于受试者的实际基因密码的正确路径的概率。因此，可以考虑所有读段的每一路径，且将计算你将到达此给定单倍型的每一读段的概率。成对隐式马尔可夫模型是经取样dna中的真实单倍型可以如何变换为可能的不同检测读段的近似模型。已观察到这些类型的变换是已经因pcr过程、其它样本制备步骤中的一个或多个和/或由定序过程导致的错误及类似情况而引入到遗传样本中的snp和插入缺失的组合。如相对于图2可见，为了考虑这些类型的错误，可以采用基础3状态基本模型，例如其中：(m＝对准匹配，i＝插入，d＝缺失)，另外其中任何转变是可能的，i<->d除外。如相对于图2可见，所述3状态基本模型转变不在时间序列中，而是在通过候选单倍型和读段序列的进展序列中，在每一序列中开始于位置0处，其中第一碱基是位置1。转变到m暗示两个序列中的位置+1；转变到i暗示仅读段序列中的位置+1；以及转变到d暗示仅单倍型序列中的位置+1。同一3状态模型还可以被配置成如本文中所述的smith-waterman和/或needleman-wunsch对准的基础。因此，如本文阐述的此3状态模型可以用于sw和/或nw过程中，进而允许仿射间隙(插入缺失)评分，其中假设间隙开口(进入i或d状态)与间隙延伸(保留在i或d状态中)相比将不大可能。因此，在此实例中，成对hmm可视为对准，且可以产生cigar串以对各种状态转变的序列进行编码。在各种实例中，3状态基本模型可能因允许转变概率按位置变化而复杂化。举例来说，所有m个转变的概率可以乘以给定其碱基质量评分观察到下一读段碱基以及对应下一单倍型碱基的先验概率。在此实例中，碱基质量评分可以转换为定序snp错误的概率。当两个碱基匹配时，先验概率被视为一减去此错误概率，且当它们失配时，先验概率被视为错误概率除以3，因为存在3个可能的snp结果。以上讨论是关于抽象“马尔可夫”模型。在各种实例中，也可以确定最大似然转变序列，其在本文被称为对准，且可以使用needleman-wunsch或其它动态编程算法来执行。但在各种实例中，在执行如本文所公开的变异体调用功能中，最大似然对准或任何特定对准无需是主要关注点。而是，可以例如通过计算给定单倍型而观察到读段的总概率来计算总概率，其为通过图的所有可能的转变路径的概率的总和，从在任何单倍型位置的读段位置零到在任何单倍型位置的读段末尾位置，每一组成路径概率简单地是各种组成转变概率的乘积。寻找路径概率的总和也可以通过如本文所描述采用虚拟阵列且使用动态编程算法来执行，以使得在(0…n)x(0…m)矩阵的每一单元中，存在对应于m、d和i转变状态的所计算三个概率值。(或等效地，存在3个矩阵。)矩阵的顶部行(读段位置零)可以初始化为d状态中的概率1.0，以及i和m状态中的0.0；且左边列的其余部分(单倍型位置零)可以初始化为全零。(在软件中，初始d概率可以设定于双精度最大值附近，例如2^1020，以便避免下溢，但此因子可以在以后正规化。)此3到1计算相依性限制了可以计算单元的次序。它们可以在每一行中从左到右计算，从上到下前进通过多行，或在每一列中从上到下计算，向右前进。另外，它们可以在反对角线波前中计算，其中下一步骤是计算所有单元(n，m)，其中n+m等于递增的步数。此波前次序具有的优点是反对角线中的所有单元可以彼此独立地计算。随后在最终读段位置的矩阵的底部行可以被配置成表示完成的对准。在此实例中，单倍型调用器将通过对所有底部行单元的i和m概率求和而工作。在各种实施例中，系统可以被设置以使得在底部行内不准许d转变，或在那里可以使用0.0的d转变概率，以便避免双重计数。如本文所描述，在各种实例中，每一hmm评估可以对序列对操作，例如对候选单倍型和读段对操作。举例来说，在给定作用区内，一组单倍型中的每一个可以相对于一组读段中的每一个进行hmm评估。在此实例中，通过传送所述组读段和所述组单倍型一次，且让软件和/或硬件产生nxm对操作，可以减少和/或最小化软件和/或硬件输入带宽。在某些实例中，smith-waterman评估器可以被配置成对各自具有其自身的读段和单倍型数据拷贝的个别hmm操作进行排队。smith-waterman(sw)对准模块可以被配置成在线性空间中运行成对hmm计算或可以在对数概率空间中操作。这可用于跨越具有定点值的概率值的超大范围保持精度。然而，在其它实例中，可以使用浮点运算。存在三个并行乘法(例如，对数空间中的加法)，随后是两个串行加法(约5-6级近似管线)，随后是额外的乘法。在此实例中，完整管线可为约l＝12-16个循环长。i&d计算可为所述长度的约一半。例如从一个或多个已经计算的相邻单元(从左边的m和/或d，从上方的m和/或i，和/或从左上方的m和/或i和/或d)，可以向管线馈送大量输入概率，例如每一循环2或3或5或7或更多个输入概率。其还可以每一循环包含一个或多个单倍型碱基，和/或例如具有相关联参数的一个或多个读段碱基，所述参数例如经预处理的参数。在通过时延之后其在每一循环输出一个单元的m&i&d结果集合。如上文所指出，在执行如本文所公开的变异体调用功能中，可以调配debruijn图，且当堆积物中的所有读段相同时，dbg将是线性的。然而，在存在差异的情况下，图将形成“气泡”，指示导致多个路径从匹配于参考对准发散并且接着稍后重新加入匹配对准的差异区。从此dbg，可以提取各种路径，其形成候选单倍型，例如什么样的真实dna序列可以在至少一个链上的假设，所述假设可以通过对数据执行hmm或修改hmm操作而进行测试。更进一步，可以采用基因分型功能，例如其中可以形成候选单倍型的可能的二倍体组合，且对于其中的每一个，可以计算观察到整个读段堆积物的条件概率。随后可以将这些结果馈送到贝叶斯公式模块以在给定观察到的整个读段堆积物的情况下计算每一基因型是真实的绝对概率。因此，根据本文所描述的装置、系统和其使用方法，在各种实例中，可以执行基因分型操作，所述基因分型操作可以被配置以便以优化方式以软件和/或硬件和/或由量子处理单元实施。举例来说，可以形成候选单倍型的可能的二倍体组合，且对于每一组合，例如通过使用在给定来自成对hmm评估的每一单倍型的情况下观察到每一读段的组成概率，可以计算观察到整个读段堆积物的条件概率。这些计算的结果馈送到贝叶斯公式中，以便在给定观察到的整个读段堆积物的情况下计算每一基因型是真实的绝对概率。因此，在各种方面中，本公开是针对用于对产生和/或供应的数据执行单倍型或变异体调用操作以便相对于其产生变异体调用文件的系统。具体地，如上文中所述，在特定实例中，变异体调用文件可以是数字或其它此类文件，其对一个序列与另一序列之间的差异进行编码，例如样本序列与参考序列之间的差异。具体地，在各种实例中，变异体调用文件可以是文本文件，其阐述或另外详细描述人的基因组成与一个或多个参考基因组相比的基因和/或结构变化。举例来说，单倍型是一组基因(例如，dna和/或rna)变异，例如在人的染色体中存在的多态性，并且因此可以传递到后代且进而一起被继承。具体来说，单倍型可以指等位基因的组合，例如，基因的多个替代形式中的一个例如可以通过突变产生，所述等位变异通常在染色体上的同一位置发现。因此，在确定人的基因组的身份中，重要的是知道特定人的基因序列代码用于各种不同可能的等位基因的哪一个形式。在特定实例中，单倍型可指代在同一染色体上的同一位置可以找到的核苷酸多态性(例如，snp)中的一个或多个，例如集合。通常，在各种实施例中，为了确定受试者的基因型，例如等位单倍型，如此处和上文所描述，可以进行基于软件的算法，例如采用例如gatk的单倍型调用程序的算法，用于同时确定个体的基因序列中的snp和/或插入和/或缺失，例如插入缺失。确切地说，所述算法可以涉及例如用于在正处理的基因序列的一个或多个作用区中的单倍型的局部从头定序组装的一个或多个单倍型组装协议。此类处理通常涉及部署称为隐式马尔可夫模型(hmm)的处理功能，其为用以例示随机改变的系统的随机和/或统计模型，例如其中假定在系统内的未来状态仅取决于当前状态且不取决于在其前面的事件的序列。在此类实例中，正建模的系统带有特性或另外假设为具有未观察到的(隐藏)状态的马尔可夫过程。在特定实例中，模型可以涉及简单动态贝叶斯网络。具体来说，相对于确定基因变异，在其最简单形式中，对于正处理的序列中的任何给定碱基的身份存在四个可能性中的一个，例如当比较例如假设单倍型的参考序列的片段与受试者的dna或rna的片段(例如，从定序器导出的读段)时。然而，为了确定此类变异，在第一实例中，受试者的dna/rna必须例如经由下一代定序器(“ngs”)而定序，以产生识别受试者的基因密码的读出或“读段”。接下来，一旦受试者的基因组已定序以产生一个或多个读段，则代表受试者的dna和/或rna的各种读段需要被映射和/或对准，如本文中在上文非常详细描述。在过程中的下一步骤则是确定刚才确定(例如，已经映射和/或对准)的受试者的基因如何不同于原型参考序列的基因。在执行此类分析中，因此，假定潜在地表示受试者的给定基因的读段是代表原型单倍型，但具有当前将确定的各种snp和/或插入缺失。具体地，在特定方面，提供例如用于执行单倍型和/或变异体调用功能，例如举例来说在加速单倍型调用器中部署hmm功能的装置、系统和/或其实践方法。在各种实例中，为了克服此项技术中已知的这些和其它此类各种问题，本文提出的hmm加速器可以被配置成以一方式操作以便以软件实施、硬件其组合来实施，和/或另外部分地由软件和/或部分地由硬件控制和/或可以包含量子计算实施方案。举例来说，在特定方面，本公开涉及一种方法，通过所述方法可以确定关于受试者的dna和/或rna序列身份的数据和/或受试者的基因信息可以如何不同于参考基因组的基因信息。在此实例中，所述方法可以通过实施单倍型或变异体调用功能来执行，例如采用hmm协议。具体来说，根据本文所描述的方法，hmm功能可例如在加速装置上以硬件、软件或经由一个或多个量子电路执行。在此实例中，hmm加速器可以被配置成接收并处理已定序、映射和/或对准的数据，处理所述数据以例如产生变异体调用文件，以及贯穿系统发射回经处理的数据。因此，所述方法可以包含部署系统，其中数据可以从例如软件控制的cpu或gpu或甚至qpu等处理器发送到实施加速hmm的单倍型调用器，所述单倍型调用器可以部署在微处理器芯片上，例如fpga、asic或结构化asic或由一个或多个量子电路实施。所述方法可进一步包含用于处理数据以产生hmm结果数据的步骤，所述结果可以随后反馈到cpu和/或gpu和/或qpu。具体来说，在一个实施例中，如相对于图3a可见，提供包含hmm加速器的生物信息学管线系统。举例来说，在一个实例中，所述生物信息学管线系统可以被配置为变异体调用系统1。所述系统被说明为以硬件实施，但也可以经由例如量子计算平台的一个或多个量子电路实施。具体地，图3a提供hmm接口结构的高级视图。在特定实施例中，变异体调用系统1被配置成加速例如hmm操作等变异体调用操作的至少一部分。因此，在各种实例中，hmm系统可以在本文称为vc系统1的部分。系统1包含具有一个或多个中央处理单元(cpu/gpu/qpu)1000的服务器，所述中央处理单元被配置成用于执行与基因信息的定序和/或处理有关的一个或多个例程，例如用于比较已定序基因序列与一个或多个参考序列。另外，系统1包含例如扩展卡的外围装置2，其包含微芯片7，例如fpga、asic或sasic。在一些实例中，可以提供且配置一个或多个量子电路用于执行本文阐述的各种操作。还应注意，在适当时术语asic可以同等地指代结构化asic(structuredasic，sasic)。外围装置2包含互连件3和总线接口4，例如并行或串行总线，其连接cpu/gpu/qpu1000与芯片7。举例来说，装置2可以包括外围组件互连，例如pci、pci-x、pcie或快速路径互连(quickpathinterconnect，qpi)，且可以包含总线接口4，所述总线接口适于可操作地和/或可通信地将cpu/gpu/qpu1000连接到外围装置2，例如以获得低时延、高数据传送速率。因此，在特定实例中，所述接口可以是与微芯片7相关联的外围组件高速互连(peripheralcomponentinterconnectexpress，pcie)4，所述微芯片包含hmm加速器8。举例来说，在特定实例中，hmm加速器8被配置成执行加速hmm功能，例如其中在某些实施例中，hmm功能可以至少部分地在fpga、aisc或sasic的硬件中或经由一个或多个合适配置的量子电路实施。具体地，图3a呈现hmm加速器8的高级图，所述加速器具有一个或多个引擎13的示例性组织，例如多个处理引擎13a-13m+1，以用于执行例如包含hmm任务的变异体调用功能的一个或多个过程。因此，hmm加速器8可以包括例如centcom的数据分配器9，以及一个或大量处理集群11-11n+1，所述处理集群可以被组织为或另外包含一个或多个实例13，例如其中每一实例可以被配置为处理引擎，例如小引擎13a-13m+1。举例来说，分配器9可以被配置成用于例如从cpu/gpu/qpu1000接收数据，且将所述数据分布或另外传送到大量hmm处理集群11中的一个或多个。具体来说，在某些实施例中，分配器9可以逻辑地定位于机载pcie接口4与hmm加速器模块8之间，例如其中接口4例如在互连件或其它合适配置的总线5(例如，pciebus)上与分配器9通信。分配器模块9可以适合于例如在一个或多个集群总线10上与一个或多个hmm加速器集群11通信。举例来说，hmm加速器模块8可以被配置为或另外包含集群11a-11n+1的阵列，例如其中每一hmm集群11可以被配置为或另外包含集群枢纽11和/或可以包含一个或多个实例13，所述实例可以被配置为适合于对由此接收的数据执行一个或多个操作的处理引擎13。因此，在各种实施例中，每一集群11可以形成为或另外包含集群枢纽11a-11n+1，其中所述枢纽中的每一个可以与多个hmm加速器引擎实例13a-13m+1可操作地相关联，例如其中每一集群枢纽11可以被配置成用于将数据引导到集群11内的多个处理引擎13a-13m+1。在各种实例中，hmm加速器8被配置成将受试者的例如呈读段格式的定序基因密码的每一碱基与参考序列的各种已知或产生的候选单倍型进行比较，并确定在正考虑的位置的任何给定碱基匹配或不匹配于相关单倍型的概率，例如读段包含snp、插入或缺失，进而导致在正考虑的位置的碱基的变异。具体来说，在各种实施例中，hmm加速器8被配置成为在匹配(“m”)、插入(“i”)或缺失(“d”)这些状态中的每一状态之间的读段的碱基的序列指派转变概率，如图2中所阐述且如本文在下文更详细描述。更确切地说，取决于配置，hmm加速功能可以软件实施，例如由cpu/gpu/qpu1000和/或微芯片7实施，和/或可以硬件实施且可以存在于微芯片7内，例如定位于外围设备扩展卡或板2上。在各种实施例中，此功能性可以部分地实施为例如由cpu/gpu/qpu1000运行的软件，且部分地实施为在芯片7上或经由一个或多个量子处理电路实施的硬件。因此，在各种实施例中，芯片7可以存在于cpu/gpu/qpu1000的母板上，或其可以是外围装置2的部分，或同时存在这两种情况。因此，hmm加速器模块8可以包含或另外与例如3、5、10和/或12等各种接口相关联，以便允许去往和来自处理引擎13的高效数据传送。因此，如相对于图2和3可见，在各种实施例中，提供被配置成用于执行变异体(例如，单倍型)调用功能的微芯片7。微芯片7可以与cpu/gpu/qpu1000相关联，例如与其直接耦合，例如包含在计算机的母板上，或与其间接耦合，例如被包含作为外围装置2的部分，其例如经由例如3、4、5、10和/或12的一个或多个互连件可操作地耦合到cpu/gpu/qpu1000。在此实例中，微芯片7存在于外围装置2上。应理解，虽然被配置为微芯片，但加速器还可以被配置为量子处理单元的一个或多个量子电路，其中所述量子电路被配置为用于执行本文公开的功能中的一个或多个的一个或多个处理引擎。因此，外围装置2可以包含并行或串行扩展总线4，例如用于例如经由例如dma的接口3将外围装置2连接到计算机和/或服务器的中央处理单元(cpu/gpu/qpu)1000。在特定实例中，外围装置2和/或串行扩展总线4可以是外围组件高速互连(pcie)，其被配置成例如经由连接5与微芯片7通信或另外包含所述微芯片。如本文所描述，微芯片7可以至少部分地被配置为或可以另外包含hmm加速器8。hmm加速器8可以被配置为微芯片7的部分，例如作为硬接线和/或作为将与其关联而运行的代码，且被配置成用于对例如在pcie接口4上由cpu/gpu/qpu1000供应到微芯片7的数据执行变异体调用功能，例如用于执行隐式马尔可夫模型的一个或多个操作。同样，一旦已经执行一个或多个变异体调用功能，例如一个或多个hmm操作运行，则其结果就可以例如经由连接3在总线4上从芯片7的hmm加速器8传送到cpu/gpu/qpu1000。举例来说，在特定实例中，连同至少部分地被配置为hmm加速器8的微芯片7一起提供用于处理和/或传送信息和/或执行指令的cpu/gpu/qpu1000。cpu/gpu/qpu1000在接口5上与微芯片7通信，所述接口适于促进cpu/gpu/qpu1000与微芯片7的hmm加速器8之间的通信并且因此可以将cpu/gpu/qpu1000可通信地连接到作为微芯片7的部分的hmm加速器8。为了促进这些功能，微芯片7包含可以是centcom的分配器模块9，其被配置成用于例如经由一个或多个集群11将数据传送到大量hmm引擎13，其中每一引擎13被配置成接收数据且例如通过对其运行hmm协议而处理所述数据，计算最终值，输出其结果，且重复此过程。在各种实例中，hmm协议的执行可以包含确定一个或多个转变概率，如下文所述。具体来说，每一hmm引擎13可以被配置成用于执行例如包含以下一个或多个的工作：产生和/或评估hmm虚拟矩阵以产生和输出相对于其的最终总和值，所述最终总和表达所调用的碱基匹配或不同于假设单倍型序列中的对应碱基的可能的似然性，如下文所述。图3b呈现图3a的hmm集群11的详细描绘。在各种实施例中，每一hmm集群11包含一个或多个hmm实例13。可以提供例如根据例如在芯片或量子计算处理器上提供的资源量所需要的一个或若干集群。具体来说，可以提供hmm集群，其中所述集群被配置成集群枢纽11。集群枢纽11从分配器9取得关于一个或多个工作20的数据，且例如经由一个或多个hmm实例总线12进一步可通信地连接到一个或多个(例如，多个)hmm实例13，集群枢纽11将工作数据20传输到所述实例总线。用于整个系统的数据传送的带宽可以是相对低带宽过程，且一旦接收到工作20，系统1就可以被配置成用于完成所述工作，例如不必离开芯片7用于存储器。在各种实施例中，一个工作20a在任何给定时间发送到一个处理引擎13a，但若干工作20a-n可以由集群枢纽11分布到若干不同处理引擎13a-13m+1，例如其中处理引擎13中的每一个将并行地且以高速度对单个工作20进行工作，例如，一个或多个读段与一个或多个单倍型序列之间的单个比较。如下所述，此工作20的执行通常可以涉及产生虚拟矩阵，由此可以将受试者的“读段”序列与一个或多个(例如，两个)假设单倍型序列进行比较，以便确定其间的差异。在此类实例中，单个工作20可以涉及例如在逐个碱基的基础上处理其中对于正进行的每一比较有大量单元需要处理的一个或多个矩阵。由于人类基因组是约30亿个碱基对，因此当分析人类基因组的30x过取样时可能存在将执行的约10到20亿个不同工作(这相当于所有相关联hmm工作的矩阵中的约20万亿个单元)。因此，如本文所描述，每一hmm实例13可以被适配以便对序列数据执行hmm协议，例如产生和处理hmm矩阵，所述序列数据例如借此从cpu/gpu/qpu1000接收的数据。举例来说，如上文所解释，在对受试者的例如dna或rna的遗传物质进行定序中，将dna/rna分解为多个片段，例如多达约100个碱基的长度。随后例如通过自动定序器确定这些100个碱基片段的身份，且“读取”成基于fastq文本的文件或其它格式，其存储读段的每一碱基身份以及phred质量评分(例如，通常是在对数尺度中0与63之间的数字，其中评分0指示所调用碱基是正确的置信度的最少量，20到45之间的评分大体上可接受为相对准确的)。具体来说，如上文所指出，phred质量评分是测量由定序处理器产生，例如由自动dna/rna定序器产生的核碱基身份的识别质量的质量指示符。因此，每一读段碱基包含其自身的质量(例如phred)评分，定序器基于所述评分评估所述特定识别的质量是什么。phred表示定序器估计其得到正确调用碱基身份的置信度。此phred评分随后由实施的hmm模块8使用，如在下文详细描述，以进一步确定读段中的每一调用碱基与其已映射和/或对准其的单倍型相比的准确性，例如通过确定其匹配、插入和/或缺失转变概率，例如在匹配状态中和匹配状态外。应注意在各种实施例中，系统1可以在对其执行hmm协议之前修改或另外调整初始phred评分，例如通过考虑相邻dna的相邻碱基/评分和/或片段且允许此类因数影响处于检查中的碱基(例如，单元)的phred评分。在此类实例中，如相对于图3a和3b可见，系统1，例如计算机/量子软件，可以确定和识别定序基因组内的可以被探索和/或另外经受如本文中所述的进一步处理的各种作用区500n，其可以分解为可在贯穿系统1的各种核心和可用线程1007之间并行化的工作20n。举例来说，此类作用区500可以被识别为定序基因组与参考基因组之间的变异的来源。具体来说，cpu/gpu/qpu1000可以具有多个线程1007运行，识别作用区500a、500b和500c，基于当前正检查的作用区500a-c例如经由合适配置的聚合器1008编译且聚合将进行工作的各种不同工作20n。可以采用任何合适数目个线程1007以便允许系统1以最大效率运行，例如，较多线程带来较少的作用时间花费在等待上。一旦被识别、编译和/或聚集，线程1007/1008就将随后例如以一劳永逸的方式例如经由pcie接口4将作用工作20传送到hmm模块8的数据分配器9(例如，centcom)，且将随后移到不同过程，同时等待hmm8发送回输出数据以便被匹配回到其映射和/或对准到的对应作用区500。数据分配器9将随后例如以逐个工作的方式将工作20分配到各种不同hmm集群11。如果所有事物高效地处于运行中，那么这可以呈先进先出格式，但不需要是这种情况。举例来说，在各种实施例中，原始工作数据和已处理工作结果数据可以在它们变为可用时发送通过和跨越系统。具体来说，如相对于图2、3和4可见，各种工作数据20可以聚集成4k字节数据页，其可以经由pcie4发送到centcom9且通过centcom9并到处理引擎13上，例如经由集群11。正发送的数据量可以多于或少于4k字节，但将通常包含每4k(例如，1024)数据页约100个hmm工作。具体来说，这些数据随后由数据分配器9消化且馈送到每一集群11，例如其中一个4k页发送到一个集群11。然而，情况无需是这样，因为基于变为可用且当时的集群，任何给定工作20可以发送到任何给定集群11。因此，如此处呈现的集群11方法高效地将传入数据以高速分布到处理引擎13。具体地，当数据例如在dma连接3上从cpu/gpu/qpu1000到达pcie接口4时，接收的数据可以随后在pcie总线5上发送到变异体调用器微芯片7的centcom分配器9。分配器9随后例如在一个或多个集群专用总线10上将数据发送到一个或多个hmm处理集群11，所述集群11可以随后例如经由一个或多个实例总线12将数据传输到一个或多个处理实例13，例如用于处理。在此实例中，pcie接口4被适配以通过外围扩展总线5、分配器9和/或集群10和/或实例12总线以快速速率提供数据，例如以可保持hmm集群11a-(n+1)中的一个或多个(例如，全部)内的hmm加速器实例13a-(m+1)中的一个或多个(例如，全部)例如在长时间周期(例如，完整时间)中繁忙的速率，在系统1正运行、正处理工作20的周期期间，且同时还跟上将在pcie接口4上发送回到一个或多个cpu1000的已处理hmm数据的输出。举例来说，接口3、5、10和/或12中的导致hmm加速器实例13中的一个或多个的空闲时间的任何低效可能直接增加到系统1的总处理时间。具体来说，当分析人类基因组时，可能存在约20亿或更多的不同工作20需要分布到各种hmm集群11且在一时间周期的过程中进行处理，例如低于1小时、低于45分钟、低于30分钟、低于20分钟，包含15分钟、10分钟、5分钟或更短。因此，图4阐述贯穿系统1的软件和/或硬件的示例性数据流的概述，如在上文中一般所述。如相对于图4可见，系统1可以部分地被配置成例如在pcie总线5上例如在pcie接口4与分配器9(例如，centcom)之间传送数据。另外，系统1可以还被部分地配置成例如在一个或多个集群总线10上例如在分配器9与一个或多个hmm集群11之间传送接收的数据。因此，在各种实施例中，hmm加速器8可以包含一个或多个集群11，例如被配置成用于执行hmm功能的一个或多个过程的一个或多个集群11。在此实例中，存在将centcom9连接到hmm集群11的接口，例如集群总线10。举例来说，图5是描绘进出hmm模块8，例如进出集群模块的接口的高级图。如相对于图6可见，每一hmm集群11可以被配置成通过专用集群总线10与centcom数据分配器9通信，例如从其接收数据和/或向其发送最终结果数据，例如总和数据。具体来说，可以提供任何合适的接口或总线5，只要其允许pcie接口4与数据分配器9通信即可。更确切地说，总线5可以是包含可用于与数据分配器9对话的解译逻辑的互连件，所述解译逻辑可以被配置成适应用以提供此功能性的任何协议。具体地，在各种实例中，所述互连件可以被配置为pcie总线5。另外，集群11可以被配置成使得其中可以采用单个或多个时钟域，且因此，集群11内可以存在一个或多个时钟。在特定实例中，可以提供多个时钟域。举例来说，可以提供较慢时钟，例如用于例如去往和来自集群11的通信。另外，可以提供较快(例如，高速)时钟，其可以由hmm实例13采用以用于执行本文所描述的各种状态计算。具体来说，在各种实施例中，如相对于图6可见，系统1可以被设置以使得在第一实例中，在数据分配器9利用现有的centcomip时，可以提供例如垫圈的套环，其中所述垫圈被配置成将信号从hmm集群接口或总线10转换到centcom接口5和从centcom接口5转换到hmm集群接口或总线10。举例来说，hmm集群总线10可以可通信地和/或可操作地将cpu/gpu1000连接到hmm加速器模块8的各种集群11。因此，如相对于图6可见，用于每一单倍型和/或每一读段的结构化写入和/或读段数据可以贯穿系统1而发送。在工作20输入到hmm引擎中之后，hmm引擎13通常可以：a)在其空闲的情况下立即启动，或b)在其已完成其当前被指派的任务之后启动。应注意，每一hmm加速器引擎13可以处置乒乓输入(例如，可对一个数据集工作，同时另一数据集正在加载)，因此最小化工作之间的停工时间。另外，hmm集群套环11可以被配置成自动取得由数据分配器9发送的输入工作20，且将其指派到集群11中可接收新工作的hmm引擎实例13中的一个。在软件侧不需要可为特定工作20选择特定hmm引擎实例13的控制。然而，在各种实例中，软件可以被配置成控制此类实例。因此，鉴于上文，当将结果数据传送回到cpu/gpu/qpu时系统1可以是流线型的，且因为此效率，没有很多数据需要回到cpu/gpu/qpu以实现结果的有用性。这允许系统实现约30分钟或更少、例如约25或约20分钟或更少、例如约18或约15分钟或更少、包含约10或约7分钟或更少、甚至约5或约3分钟或更少的变异体调用操作，这取决于系统配置。图6呈现在fpga或asic7上的硬件加速器8内的示例性hmm引擎13内的各种功能块的高级视图。具体地，在硬件hmm加速器8内存在多个集群11，且在每一集群11内存在多个引擎13。图6呈现hmm引擎13的单个实例。如相对于图6可见，引擎13可以包含实例总线接口12，多个存储器，例如hmem16和rmem18，各种其它组件17、hmm控制逻辑15，以及结果输出接口19。具体来说，在引擎侧，hmm实例总线12可操作地连接到存储器hmem16和rmem18，且可以包含与集群枢纽11通信的接口逻辑，所述枢纽与分配器9通信，所述分配器又与pcie接口4通信，所述pcie接口与正由cpu/gpu和/或服务器1000运行的变异体调用软件通信。因此，hmm实例总线12从cpu1000接收数据且将其加载到存储器中的一个或多个中，例如hmem和rmem。此配置也可以实施于一个或多个量子电路中且相应地适配。在这些实例中，应当分配足够的存储器空间以使得例如加载到rmem18中的每给定读段序列可以例如在hmem16中加载至少一个或者两个或更多个单倍型，例如两个单倍型，当加载多个单倍型时其导致减轻pcie总线5带宽上的负担。在特定实例中，两个单倍型和两个读段序列可以加载到其相应存储器中，这将允许所述四个序列以所有相关组合一起处理。在其它实例中，可以加载四个或八个或十六个序列，例如多对序列，且以类似方式组合处理，以便当需要时进一步减轻带宽负担。另外，可以保留足够存储器以使得其中可以实施乒乓结构，以使得一旦存储器例如在存储器的乒侧上加载有新工作20a，就指示新工作信号，且控制逻辑15可以例如通过产生矩阵且执行必要的计算而开始处理新工作20a，如本文中和下文所描述。因此，这使得存储器的乓侧可用以便加载另一工作20b，所述另一工作可以在正处理第一工作20a的同时加载于其中，以使得在第一工作20a完成时，第二工作20b可以立即开始以由控制逻辑15处理。在此实例中，用于工作20b的矩阵可以经预处理以使得从第一工作20a的处理结束以及第二工作20b的处理开始实际上不存在停工时间，例如一个或两个时钟循环。因此，当利用存储器结构的乒和乓两侧时，hmem16可以通常存储4个单倍型序列，例如两个一件，且rmem18可以通常存储2个读段序列。此乒乓配置是有用的，因为其仅需要一点额外存储器空间，但允许引擎13的处理量的加倍。在处理期间和/或之后，存储器16、18馈送进入转变概率计算器和查找表(lookuptable，lut)块17a，其被配置成如下文所解释计算关于“先验”数据的各种信息，这又将先验结果数据馈送进入m、i和d状态计算器块17b，用于在计算转变概率时使用。也可以包含一个或多个暂存ram17c，例如用于保持在条带的边界处的m、i和d状态，例如处理条带的底部行的值，其如所指示在各种实例中可以是长度为任何合适量的单元，例如约10个单元，以便与条带35的长度相称。另外，可以包含单独的结果输出接口块19以使得当总和完成时，它们(例如，4个32位字)可立即传输回到cpu/gpu/qpu1000的变异体调用软件。应注意，可以适配此配置以使得系统1，具体来说m、i和d计算器17b不会保持等待输出接口19清除，例如，只要清除结果所花的时间不会像执行工作20一样长即可。因此，在此配置中，可能存在三个管线步骤协同起作用以做出总体系统管线，例如加载存储器、执行mid计算和输出结果。此外，应注意任何给定hmm引擎13是具有其自身输出接口19的许多引擎中的一个，然而它们可以共享回到数据分配器9的共同接口10。因此，集群枢纽11将包含管理能力以管理信息通过hmm加速器8的传送(“xfer”)以便避免冲突。因此，下文详细描述在hmm引擎13的每一模块内在其接收单倍型和读段序列数据、对其进行处理且输出关于其的结果数据时执行的过程，如上文一般概述。具体地，在hmm集群11内的hmm引擎13中的高带宽计算是针对计算和/或更新匹配(m)、插入(i)和缺失(d)状态值，所述状态值用于确定正检查的特定读段是否匹配于单倍型参考以及匹配的程度，如上文所描述。具体来说，读段连同读段中的每一碱基的phred评分和gop值一起从分配器9传输到集群11，且进而指派到特定处理引擎13用于处理。这些数据随后由处理引擎13的m、i和d计算器17使用以确定读段中的所调用碱基是否或多或少可能是正确的和/或将是与单倍型中的其相应碱基的匹配，或是例如插入或缺失的变异的产物；和/或如果存在变异，则此变异是否是单倍型中的真实可变性的可能结果，还是序列产生和/或映射和/或对准系统中的错误的假象。如上文所指出，此分析的部分包含mid计算器17确定与参考相比从一个m、i或d状态到另一状态的读段中从一个碱基到另一碱基的转变概率，例如从匹配状态到另一匹配状态，或从匹配状态到插入状态或缺失状态。在做出此类确定时，当评估读段与参考之间的任何观察到的变异是否是真实变异而不是仅为某种机器或处理错误时确定和考虑相关联转变概率中的每一个。出于这些目的，正考虑的每一碱基的phred评分有用于确定进入和离开匹配状态的转变概率，例如在比较中从匹配状态变为插入或缺失(例如，有间隙的)状态。同样，还确定继续有间隙的状态或从有间隙的状态(例如，插入或缺失状态)回到匹配状态的转变概率。在特定实例中，进入或离开缺失或插入状态，例如退出间隙延续状态的概率可以是固定值，且可以在本文称为间隙延续概率或罚分。然而在各种实例中，此类间隙延续罚分可以是浮动的，并且因此取决于系统配置的准确性需求而改变。因此，如相对于图7和8描绘，针对每一可能的读段和单倍型碱基配对计算m、i和d状态值中的每一个。在此实例中，可以形成在矩阵的一个轴线上含有正评估的读段序列且在另一轴线上含有相关联单倍型序列的单元的虚拟矩阵30，例如其中矩阵中的每一单元表示读段和单倍型参考中的碱基位置。因此，如果读段和单倍型序列各自为100个碱基的长度，那么矩阵30将包含100乘100的单元，其给定部分可能需要处理以便确定此特定读段与此特定参考匹配的可能性和/或程度。因此，一旦实际上形成，矩阵30就可以随后用以确定当从读段序列中的一个碱基移动到另一碱基且将其与单倍型序列进行比较时发生的各种状态转变，例如图7和8中描绘。具体地，处理引擎13被配置成使得当以控制逻辑15遍历矩阵时可以并行地和/或循序方式处理大量单元。举例来说，如图7中所描绘，虚拟处理条带35传播且在矩阵30上向下移动，例如从左到右，从而沿着从右到左对角线向下处理矩阵30的个别单元。更具体地，如相对于图7可见，矩阵30内的每一个别虚拟单元包含m、i和d状态值，所述状态值需要计算以便评估所调用碱基的身份的性质，且如图7中所描绘，在此过程中每一单元的数据相依性清楚地可见。因此，为了确定正处理的当前单元的给定m状态，在当前单元对角线上方的单元的匹配、插入和缺失状态需要推动到当前单元中且用于计算当前正计算的单元的m状态(例如，因此，通过矩阵的对角线向下、向前进展指示匹配)。然而，为了确定i状态，仅当前单元正上方的单元的匹配和插入状态需要推动到正处理的当前单元中(因此，当在插入状态中继续时的垂直向下“有间隙的”进展)。同样，为了确定d状态，仅当前单元正左边的单元的匹配和缺失状态需要推动到当前单元中(因此，当在缺失状态中继续时水平交叉向“有间隙的”进展)。如相对于图7可见，在单元1(最顶部行中的加阴影单元)的计算开始之后，单元2(第二行中的加阴影单元)的处理也可开始，无需等待来自单元1的任何结果，因为行2中的此单元与处理开始的行1的单元之间不存在数据相依性。这形成反向对角线35，其中处理向下和向左前进，如由箭头所示。此反向对角线35处理方法增加总体系统的处理效率和处理量。同样，在单元1中产生的数据可立即被前向推动到最顶部单元1右边向下且向前的单元，进而使条带35向前推进。举例来说，图7描绘示例性hmm矩阵结构35，其示出硬件处理流。矩阵35包含被定位以沿着水平轴线的顶部边缘延伸的单倍型碱基索引，例如含有36个碱基，并且还包含被定位以沿着垂直轴线的侧边缘下降的碱基读段索引，例如10个碱基，以此方式形成单元结构，其中可以用m、i和d概率状态以及从当前状态转变到相邻状态的转变概率来填充一系列单元。在此实例中，如上文较详细描述，从匹配状态到匹配状态的移动导致通过矩阵30的向前对角线进展，而从匹配状态移动到插入状态导致垂直向下前进间隙，且从匹配状态到缺失状态的移动导致水平前进间隙。因此，如图8中所描绘，对于给定单元，当确定每一单元的匹配、插入和缺失状态时，采用其三个邻接单元的匹配、插入和缺失概率。图7中的向下箭头表示处理引擎的并行且循序的性质，所述处理引擎被配置以便根据数据相依性产生沿着虚拟矩阵逐渐地移动的处理条带或波35，参见图7和8，以用于确定结构30中的每一特定单元的m、i和d状态。因此，在某些实例中，可能需要如上文所解释以向下且对角线方式计算每一单元的身份，而不是专门沿着垂直或水平轴线简单地计算每一单元，但如果需要则可以这样做。这是由于例如经由硬件配置当单独沿着垂直或水平轴线个别地且循序地处理矩阵35的虚拟单元时原本需要的增加的等待时间，例如时延。举例来说，在此实例中，当例如以逐行或逐列方式线性地且循序地移动通过虚拟矩阵30以便处理每一新单元时，将必须完成每一先前单元的状态计算，从而增加总体时延时间。然而，当以向下且对角线方式传播每一新单元的m、i、d概率时，系统1不必等待例如行一的其先前单元的处理完成之后才开始矩阵的行二中的邻接单元的处理。这允许以对角线布置进行单元的并行且循序处理，并且还允许隐藏与m、i和d状态计算相关联的管线的各种计算延迟。因此，当条带35从左到右在矩阵30上移动时，计算处理对角地向下移动，例如向左(如图7中由箭头所示)。此配置可以特别适用于硬件和/或量子电路实施方案，例如其中存储器和/或逐时钟时延是主要关注点的实施方案。在这些配置中，例如在已计算整个矩阵30之后从hmm引擎13的每一单元输出的实际值可以是含有m、i和d状态的底部行(例如，图16的行35)，其中m和i状态可以求和(此时d状态可以忽略，因为已经满足其在处理以上计算时的功能)，以便产生可以是单个概率的最终总和值，所述单个概率针对每一读段和单倍型索引估计例如假定单倍型是取样的真实原始dna而观察到读段的概率。具体来说，例如图7的矩阵30的处理的结果可以是表示读段是所述单倍型的实际表示的概率的单个值。此概率是0与1之间的值，且是通过将来自hmm矩阵30中的单元的底部行的所有m和i状态求和而形成。基本上，正评估的是在定序器或定序之前的相关联dna准备方法中可能已经出错从而在实际上存在于受试者的基因序列内的读段中不正确地产生失配、插入或缺失的可能性。在此实例中，读段不是受试者的实际dna的真实反映。因此，考虑此产生错误，可确定任何给定读段相对于单倍型实际上表示什么，且进而允许系统较好地确定受试者的基因序列例如整体地可以如何不同于参考序列。举例来说，可以对照许多读段序列运行许多单倍型，从而产生其全部的评分，并基于哪些匹配具有最佳评分而确定个体的实际基因组序列身份是什么和/或其如何与参考基因组真正不同。更确切地说，图8描绘来自图7的hmm状态矩阵30的一部分的放大视图。如图8所示，给定矩阵30中的每一单元的内部组成，以及矩阵整体的结构，正计算的任何给定“新”单元的m、i和d状态概率取决于已经计算的其若干周围相邻者的m、i和d状态。具体来说，如相对于图1和16中更详细所示，在示例性配置中，可能存在从匹配状态变为另一匹配状态的近似.9998概率，且可能存在从匹配状态变为插入或缺失(例如，有间隙的)状态的仅.0001概率(间隙开放罚分)。此外，当在有间隙的插入或有间隙的缺失状态中时可能存在停留于所述有间隙的状态中的仅0.1概率(间隙延伸或延续罚分)，同时存在返回到匹配状态的.9概率。应注意根据此模型，进入和离开给定状态的所有概率应当总和为一。具体来说，矩阵30的处理围绕计算转变概率，考虑各种间隙开放或间隙延续罚分且计算最终总和。因此，这些计算的状态转变概率主要是从矩阵30中的直接邻接单元导出，例如从当前正计算的给定单元的紧邻左边、顶部和对角线左上方的单元，如图8和16中所见。另外，状态转变概率可以部分地从伴随每一读段碱基的“phred”质量评分导出。因此，这些转变概率有用于计算所述特定单元的m、i和d状态值，且同样用于正计算的任何相关联新单元。应注意如本文所描述，间隙开放和间隙延续罚分可以是固定值，然而，在各种实例中，间隙开放和间隙延续罚分可以是变量并且因此在系统内可编程，但可通过使用专用于确定此类变量转变概率计算的额外硬件资源。在需要较大准确性的情况下此类实例可以是有用的。然而，当此类值假设恒定时，可以实现较小的资源使用和/或芯片大小，从而带来更大处理速度，如下文所解释。因此，在导出每一新m、i和d状态值中涉及大量计算和/或其它数学计算，例如乘法和/或加法。在此实例中，例如为了计算最大处理量，在每一m、i和d转变状态计算中涉及的基元数学计算可以是管线式的。此管线化可以对应时钟频率较高的方式被配置，但其中管线深度可能是非平凡的。此外，此管线可以被配置成具有有限深度，且在此类情况下可能花费多于一个时钟循环来完成操作。举例来说，这些计算可以在处理器7内部以高速度运行，例如以约300mhz。这可以例如通过大量地以寄存器管线化fpga或asic来实现，因此每一触发器之间发生极少的数学计算。此管线结构导致从匹配状态的输入到输出的时延的多个循环，但给定以上图7中所阐述的反向对角线计算结构，这些时延可以在整个hmm矩阵30上隐藏，例如其中每一单元表示一个时钟循环。因此，可以限制m、i和d状态计算的数目。在此实例中，处理引擎13可以一方式被配置成使得矩阵30的若干行中的单元的分组(例如，条带35)可以作为群组来处理(例如以如图7中的箭头说明的向下向左对角线方式)，然后前进到下方的第二条带的处理，例如其中第二条带含有与第一条带相同数目的待处理行中的单元。以例如此方式，如本文所描述的加速器8的硬件实施方案可以被适配以便使总体系统更高效，如上文所描述。具体来说，图9阐述用于执行本文描述的各种状态处理计算的示例性计算结构。更确切地说，图9阐述处理引擎13的三个专用逻辑块17，用于计算在产生hmm矩阵30中正处理的每一特定单元或单元分组的每一m、i和d状态值中涉及的状态计算。这些逻辑块可以硬件实施，但在一些实例中，可以软件实施，例如用于由一个或多个量子电路执行。如相对于图9可见，与插入15b或缺失15c计算相比更多地涉及匹配状态计算15a，这是因为在计算正处理的当前单元的匹配状态15a中，邻接单元的所有先前匹配、插入和缺失状态连同各种其它(例如，先验)数据一起包含于当前匹配计算中，而仅匹配以及插入和缺失状态包含于其相应计算中。因此，如相对于图9可见，在计算匹配状态中，包含三个状态乘法器以及两个加法器和考虑先验(例如，phred)数据的最终乘法器。然而，为了计算i或d状态，仅包含两个乘法器和一个加法器。应注意在硬件中，乘法器比加法器更耗费资源。因此，在各种程度上，用于处理hmm矩阵中的每一新单元的m、i和d状态值使用以下值的知识或预计算，例如hmm矩阵中当前正计算的单元的左边、上方和/或对角线左上方的“先前”m、i和d状态值。另外，表示先验信息或“先验值”的此类值可以至少部分地基于“phred”质量评分，以及在矩阵30中的给定单元处的读段碱基和参考碱基是匹配还是不同。当确定匹配状态时此信息特别有用。具体地，如相对于图9可见，在此类实例中，基本上存在七个“转变概率”(m到m、i到m、d到m、i到i、m到i、d到d和m到d)，其指示和/或估计以下的概率：看到间隙开放，例如看到从匹配状态到插入或缺失状态的转变；看到间隙关闭；例如从插入或缺失状态回到匹配状态；以及看到下一状态在与前一状态相同的状态中继续，例如，匹配到匹配、插入到插入、缺失到缺失。状态值(例如，hmm矩阵30中待处理的任何单元中)、先验值和转变概率全部是在[0,1]范围内的值。另外，还存在在hmm矩阵的左边或顶部边缘上的单元的已知起始条件。如从图9的逻辑15a可见，在针对正处理的任何给定单元确定特定m状态计算中可以采用四个乘法和两个加法计算。同样，如从15b和15c的逻辑可见，针对每一i状态和每一d状态计算分别涉及两个乘法和一个加法。共同地连同先验乘法器一起，这总计为用于与待处理的hmm矩阵8中的每一单个单元相关联的m、i和d状态计算的总共八个乘法和四个加法运算。例如用于比较一个读段与一个或两个单倍型的单个工作的矩阵计算的最终总和输出是跨越矩阵的整个底部行的最终m和i状态的求和，其为从hmm加速器8输出且递送到cpu/gpu/qpu的最终总和值。此最终求和值表示读段与单倍型匹配的程度。所述值是用于单个工作的例如小于一的概率，其可以随后与从另一工作产生的输出进行比较，例如形成同一作用区500。应注意，在“典型”人类基因组中在30x覆盖范围下存在约20万亿个hmm单元要评估，其中这20万亿个单元扩展跨越所有相关联hmm工作的约10到20亿个hmm矩阵。随后可以将这些计算的结果一个对一个地比较，以便以更精确方式例如基于逐个碱基的比较而确定受试者的基因序列如何不同于一个或多个参考基因组的基因序列。对于最终总和计算，已经用于计算个别单元的m、i和/或d状态的加法器可以重新部署以便计算最终总和值，例如通过在一系列重新部署的加法器中包含多路复用器，进而例如相对于计算时间将一个最后额外行包含到矩阵以便计算此最终总和，如果读段长度是100个碱基则这相当于约1％开销。在替代实施例中，专用硬件资源可用于执行此类计算。在各种实例中，用于m和d状态计算的加法器的逻辑可以被部署用于计算最终总和，d状态加法器可以高效地部署，因为其原本不会用于产生求和值的最终处理中。在某些实例中，这些计算和相关过程可以被配置以便对应于给定定序平台的输出，例如包含定序器的组合体，其作为集合可能够(平均)每28分钟在30x覆盖范围下输出新人类基因组(但它们来自每三天约150个基因组的群组中的定序器组合体)。在此实例中，在当前映射、对准和变异体调用操作被配置成配合于处理技术的此定序平台内时，定序集群对基因组进行定序所花费的28分钟的一部分(例如，约10分钟)可以由合适配置的映射器和/或对准器使用，如本文中所述，以便例如流式传输实时地(例如，在运行中)从定序器取得图像/bcl/fastq文件结果，且执行映射和/或对准基因组的步骤，例如定序器后的处理。这留下定序时间周期的约18分钟用于执行变异体调用步骤，hmm操作的所述变异体调用步骤是例如在核苷酸定序器例如在下一28分钟对下一基因组进行定序之前的主要计算组成部分，其中在定序过程间，产生的数据可以例如经由云流式传输，例如基本上实时进入当前系统，以例如用于在运行中开始处理。因此，在此类实例中，可以将18分钟作为预算来计算根据基因组的处理需要处理的20万亿个hmm单元，例如其中待处理的hmm单元中的每一个包含约十二个数学运算(例如，八个乘法和/或四个加法运算)。此处理量允许以下计算动力学(20万亿个hmm单元)x(每单元12个数学运算)/(18分钟x60秒/分钟)，其为持续处理量的每秒约2220亿次运算。图10阐述图9的处理引擎的逻辑块17，其包含呈现图9中提供的电路的简化的示例性m、i和d状态更新电路。系统可以被配置以便不受存储器限制，因此单个hmm引擎实例13(例如，以平均每时钟循环一个单元的速率计算hmm矩阵30中的所有单个单元，加上开销)可以被复制多次(至少65到70次以使处理量高效，如上文所描述)。然而，为了最小化硬件的大小，例如芯片2的大小和/或其相关联资源使用，和/或又努力在芯片2上包含与所需要一样多和/或尽可能多的hmm引擎实例13，关于用于计算有待计算的转变概率中的一个或多个的处理实例13的逻辑块15a'-c'可以做出简化。确切地说，可假定如上文所描述的例如针对插入和缺失的间隙开放罚分(gapopenpenalty，gop)和间隙延续罚分(gapcontinuationpenalty，gcp)是相同的且在芯片配置之前已知。此简化暗示i到m和d到m转变概率是相同的。在此实例中，例如通过在乘以共同插入缺失到m转变概率之前预先添加i和d状态，可以消除例如图9中所阐述的乘法器中的一个或多个。举例来说，在各种实例中，如果i和d状态计算假设是相同的，那么每单元的状态计算可如图10中呈现那样简化。具体来说，如果i和d状态值是相同的，那么可以将i状态和d状态相加，并且接着可以将总和乘以单个值，从而节省一次相乘。这可以完成是因为如相对于图10所见，对于i和d状态的间隙延续和/或关闭罚分是相同的。然而，如上文所指出，系统可以被配置成计算i和d转变状态概率两者的不同值，且在此实例中，将不采用此简化。另外，在又一简化中，并非使芯片或其它计算资源专门特定配置以执行hmm矩阵的底部处的最终求和运算，当前hmm加速器8可以被配置以便相对于执行计算所花费的计算时间(例如，开销)将一个或多个额外行有效地附加到hmm矩阵30，且还可以被配置成从m状态15a和d状态15c计算逻辑“借用”一个或多个加法器，例如通过按需要在最终总和值中多路复用到现有加法器，以便执行实际最终求和计算。在此实例中，包含作为一起形成hmmmid实例17的部分的块的m逻辑15a、i逻辑15b和d逻辑15c块的最终逻辑可以包含7个乘法器和4个加法器以及涉及的各种多路复用。因此，图10阐述m、i和d状态更新电路15a'、15b'和15c'包含使与转变概率有关的假设简化的效果，以及共享各种m、i和/或d资源(例如，加法器资源)用于最终求和运算的效果。也可以将延迟块添加到m状态计算块中的m状态路径，如图10所示。可以添加此延迟以补偿乘法和加法运算的实际硬件实施方案中的延迟，和/或简化控制逻辑，例如15。如图9和10中所示，这些相应的乘法器和/或加法器可以是浮点乘法器和加法器。然而，在各种实例中，如相对于图11可见，可以实施对数域配置，其中在此配置中所有乘法变为加法。图11呈现如果所有乘法器变成加法器，例如15a"、15b"和15c"，则对数域计算将看上去是什么样，例如当采用对数域计算配置时发生的情况。具体来说，所有乘法器逻辑变为加法器，但加法器自身变为或另外包含函数，其中所述函数例如：f(a,b)＝max(a,b)-log2(1+2^(-[a-b])，例如其中等式的对数部分可以维持在lut内，所述lut的深度和物理大小由所需的精度决定。给定典型读段和单倍型序列长度以及针对读段质量(phred)评分和相关转变概率通常所见的值，对内部hmm状态值的动态范围要求可能相当严格。举例来说，当以软件实施hmm模块时，各种hmm工作20可以导致欠载运行，例如当在单精度(32位)浮点状态值上实施时。这暗示大于10的80次幂的动态范围，进而要求变异体调用软件提升到双精度(64位)浮点状态值。然而，在各种实例中，完整64位双精度浮点表示可能具有一些负面影响，例如如果将实施紧凑的高速硬件，那么将需要增加存储和计算管线资源要求两者，进而占用较大芯片空间和/或减慢时序。在此类实例中，可以实施固定点仅线性域数字表示。然而，在此实施例中，对状态值的动态范围需求使得在某些环境中涉及的位宽度低于期望值。因此，在此类实例中，可以实施固定点仅对数域数字表示。在此方案中，如相对于图11可见，可以表示数字的以2为底的对数，而不是表示存储器和计算中的实际状态值。这可以具有若干优点，包含在线性空间中采用乘法运算，其转换为对数空间中的加法运算；和/或此数字的对数域表示固有地支持较宽动态范围，仅在整数位的数目方面有小的增加。这些对数域m、i、d状态更新计算在图11和12中阐述。如当比较图11的逻辑17配置与图9的配置时可见，乘法运算在对数域中消失。实际上它们被加法运算代替，且加法运算变形为函数，所述函数可表达为求最大值运算，随后是例如经由lut的校正因子加法，其中校正因子是在对数域中正求和的两个值之间的差的函数。此校正因子可以从查找表计算或产生。校正因子计算或查找表实施方案是否将更高效地使用取决于总和值之间的差的所需精度(位宽度)。在特定实例中，因此，用于状态表示的对数域位的数目可为约8到12个整数位加上6到24个分数位，这取决于任何给定实施方案所需的质量水平。这暗示对于对数域状态值表示总计在14位到36位之间。此外，已确定存在可以提供可接受的质量以及可接受的硬件大小和速度的对数域固定点表示。在各种实例中，对于每一hmm工作20通常处理一个读段序列，其如所指示可以包含对照一个或两个单倍型序列或更多单倍型序列的比较。且类似上文对于单倍型存储器，还可在读段序列存储器18中使用乒乓结构以允许各种软件实施的功能能够在当前工作20a仍由hmm引擎实例13处理的同时写入新的hmm工作信息20b。因此，读段序列存储要求可以是针对单个1024x32双端口存储器(例如用于写入的一个端口，用于读取的一个端口，和/或用于写入和读取端口的单独时钟)。具体来说，如上文所描述，在各种实例中，系统1采用的架构被配置成使得在确定已定序样本基因组中的给定碱基是否匹配于一个或多个参考基因组中的对应碱基时，形成虚拟矩阵，其中参考基因组理论上是跨越水平轴线设定，而表示样本基因组的定序读段理论上是沿着垂直轴线以下降方式设定。因此，在执行hmm计算中，如本文中所述的hmm处理引擎13被配置成遍历此虚拟hmm矩阵。此处理可在图7中描绘为条带35对角地向下移动且跨越虚拟阵列针对虚拟阵列的每一单元执行各种hmm计算，如图8中所见。更确切地说，此理论穿越涉及整体地处理来自矩阵30的单元行的第一分组35a，例如针对所述分组内的所有单倍型和读段碱基，然后向下进行到下一行分组35b(例如，下一组读段碱基)。在此实例中，用于第一分组的m、i和d状态值存储在行的所述初始分组的底部边缘，以使得这些m、i和d状态值可随后用以在矩阵30中向下馈送下一分组(条带)的顶部行。在各种实例中，系统1可以被配置成在hmm加速器8中允许多达1008长度单倍型和/或读段，且由于数字表示采用w位用于每一状态，因此这暗示用于m、i和d状态存储的1008字xw位存储器。因此，如所指示，此存储器可以是单端口或双端口存储器。另外，也可以提供集群层级的暂存式存储器，例如用于存储条带边界的结果。举例来说，根据上文的公开，已经论述的存储器是以每引擎实例13的基础来配置。在特定hmm实施方案中，多个引擎实例13a-(n+1)可以分组到集群11中，所述集群是由经由centcom9到pcie接口4和dma3的单个连接(例如，pcie总线5)服务。多个集群11a-(n+1)可实例化以便使用现有centcom9功能性更高效地利用pcie带宽。因此，在典型配置中，16与64个引擎13m之间的某些在集群11n内实例化，且一个到四个集群可能在hmm8的典型fpga/asic实施方案中实例化(例如，取决于其是否为专用hmmfpga图像或hmm是否必须与定序器/映射器/对准器和/或其它模块共享fpga占据面积，如本文所公开)。在特定实例中，可能存在在hmm硬件中的集群层级11处使用的少量存储器。此存储器可以用作弹性先进先出(“fifo”)以从集群中的hmm引擎实例13捕获输出数据且将其传递到centcom9上，以用于经由dma3和pcie4进一步传输回到cpu1000的软件。理论上，此fifo可以是极小的(约两个32位字)，因为数据通常几乎紧接在到达fifo中之后就传递到centcom9上。然而，为了吸收输出数据路径中的可能干扰，可以使此fifo的大小为可参数化的。在特定实例中，fifo可与512字的深度一起使用。因此，集群层级存储要求可以是单个512x32双端口存储器(单独的读取和写入端口，同一时钟域)。图12a阐述各种hmm状态转变17b，其描绘间隙开放罚分(gop)、间隙关闭罚分(gcp)以及在确定给定读段序列是否以及如何匹配于特定单倍型序列中涉及的转变概率之间的关系。在执行此分析中，hmm引擎13包含至少三个逻辑块17b，例如用于确定匹配状态15a的逻辑块、用于确定插入状态15b的逻辑块以及用于确定缺失状态15c的逻辑块。这些m、i和d状态计算逻辑17当适当地配置时高效地起作用以避免例如hmm计算流的高带宽瓶颈。然而，一旦确定m、i、d核心计算架构，则也可以配置且实施其它系统增强以便避免在系统内形成其它瓶颈。具体来说，系统1可以被配置以便最大化将信息从计算核心1000高效地馈送到变异体调用器模块2并再次返回的过程，以便不会产生将限制总体处理量的其它瓶颈。馈送hmm核心m、i、d状态计算逻辑17的一个此类块是转变概率和先验计算块。举例来说，如相对于图9可见，每一时钟循环在到m、i、d状态计算块15a的输入处采用七个转变概率和一个先验值的呈现。然而，在导致图10的架构的简化之后，在m、i、d状态计算块的输入处针对每一时钟循环采用仅四个唯一转变概率和一个先验值。因此，在各种实例中，可以简化这些计算且产生所得值。因此，增加了处理量、效率，且减少了在过程中的此阶段形成瓶颈的可能性。另外，如上文所描述，先验值是经由正研究的特定碱基的读段质量(例如，phred评分)以及所述碱基是否匹配于虚拟hmm矩阵30中正评估的当前单元的假设单倍型碱基而产生的值。可经由以下等式描述关系：第一，所讨论的读段phred可表达为概率＝10^(-(读段phred/10))。随后可基于读段碱基是否匹配于假设单倍型碱基而计算先验值：如果读段碱基和假设单倍型碱基匹配：先验值＝1-表达为概率的读段phred。否则：先验值＝(表达为概率的读段phred)/3。此最后等式中的除以三运算反映存在仅四个可能的碱基(a，c，g，t)的事实。因此，如果读段和单倍型碱基并不匹配，那么必然是三个剩余可能的碱基中的一个匹配，且将三个可能性中的每一个建模为同等地可能。将每读段碱基phred评分作为6位值递送到hmm硬件加速器8。用以导出先验值的等式则具有针对“匹配”情况的64个可能的结果以及针对“不匹配”情况的额外64个可能的结果。这可以在硬件中高效地实施为128字查找表，其中进入查找表的地址是通过将phred值与指示读段碱基是否匹配于假设单倍型碱基的单个位串接而形成的7位量。此外，相对于确定匹配到插入和/或匹配到缺失概率，在用于hmm硬件加速器8的架构的各种实施方案中，可针对匹配到插入状态转变和匹配到缺失状态转变指定单独间隙开放罚分(gop)，如上文所指出。这相当于图12a的状态转变图中的m2i和m2d值不同。由于gop值作为6位类似于phred的值递送到hmm硬件加速器8，因此可根据以下等式计算间隙开放转变概率：m2i转变概率＝10^(-(读段gop(i)/10))且m2d转变概率＝10^(-(读段gop(d)/10))。类似于硬件中的先验值导出，可以使用简单的64字查找表来导出m2i和m2d值。如果gop(i)和gop(d)作为潜在不同的值输入到hmm硬件8，那么可以利用两个此类查找表(或一个资源共享查找表，可能以电路的其余部分的频率的两倍进行时控)。此外，相对于确定匹配到匹配转变概率，在各种实例中，匹配到匹配转变概率可以被计算为：m2m转变概率＝1-(m2i转变概率+m2d转变概率)。如果m2i和m2d转变概率可以被配置成小于或等于1/2的值，那么在各种实施例中以上等式可以一方式在硬件中实施以便增加总效率和处理量，例如通过将等式再加工为：m2m转变概率＝(0.5-m2i转变概率)+(0.5-m2d转变概率)。等式的此重写允许使用两个64元素查找表和随后的加法器来导出m2m，其中查找表存储结果。更进一步，相对于确定插入到插入和/或缺失到缺失转变概率，i2i和d2d转变概率随着输入到hmm硬件加速器8的间隙延续概率(gcp)值而变。在各种实例中，这些gcp值可以是基于每读段碱基的基础给定的6位类似于phred的值。随后可以如所示导出i2i和d2d值：i2i转变概率＝10^(-(读段gcp(i)/10)),且d2d转变概率＝10^(-(readgcp(d)/10))。类似于上文所论述的一些其它转变概率，i2i和d2d值可以硬件高效地实施，且可以包含两个查找表(或一个资源共享查找表)，例如具有与先前论述的匹配到插入缺失查找表相同的形式和内容。即，每一查找表可以具有64字。另外，相对于确定插入和/或缺失到匹配概率，i2m和d2m转变概率随着间隙延续概率(gcp)值而变且可以计算为：i2m转变概率＝1-i2i转变概率，且d2m转变概率＝1-d2d转变概率，其中i2i和d2d转变概率可以如上文所论述导出。实施以上等式的简单减法运算与简单地实施另一64字查找表且使用其两个拷贝来实施i2m和d2m导出相比可能在硬件资源方面更昂贵。在此类实例中，每一查找表可以具有64字。当然，在所有相关实施例中，可以用合适配置的硬件形成简单或复杂的减法运算。图13提供用于如上文所描述的用于hmm转变概率和先验值的简化计算的电路17a，其支持图12a的一般状态转变图。如相对于图13可见，在各种实例中，呈现简单hmm硬件加速器架构17a，所述加速器可以被配置成包含用于插入和缺失转变的单独gop值，和/或可能存在用于插入和缺失转变的单独gcp值。在此实例中，每一时钟循环产生七个唯一转变概率和一个先验值的成本可以如下阐述来配置：八个64字查找表，一个128字查找表，和一个加法器。此外，在各种实例中，如本文呈现的硬件2可以被配置以便作为尽可能多的hmm引擎实例13配合到给定芯片目标上(例如fpga、sasic或asic上)。在此实例中，实施转变概率和先验值产生逻辑17a的成本可以相对于由以下配置提供的成本大大减少。第一，并非支持例如图13中所阐述的状态转变的较一般版本，例如其中可能存在用于gop(i)和gop(d)的单独值，而是在各种实例中，可假定用于插入和缺失转变的gop值对于给定碱基是相同的。这导致对硬件的若干简化，如上文所指出。在此类实例中，可以采用仅一个64字查找表以便产生单个m2indel值，来代替m2i和m2d转变概率值两者，而在更一般情况中通常采用两个表。同样，可以使用仅一个64字查找表来产生m2m转变概率值，而在一般情况中通常可以采用两个表和一个加法，因为m2m现在可以被计算为1-2xm2indel。第二，可以假设用于插入和缺失两者的定序器相依gcp值是相同的，且此值在hmm工作20的过程中不改变。这意味着：可以使用一个64字查找表而不是两个表来计算单个indel2indel转变概率而不是单独的i2i和d2d值；且可以使用一个64字查找表而不是两个表来计算单个indel2match转变概率而不是单独的i2m和d2m值。另外，可做出又一简化假设，假设inset2insert和delete2delete(i2i和d2d)以及insert2match和delete2match(i2m和d2m)值不仅在插入和缺失转变之间相同，而且对于特定hmm工作20可以是静态的。因此，在更通用架构中与i2i、d2d、i2m和d2m转变概率相关联的四个查找表可完全消除。在各种这些实例中，可以经由软件或经由rtl参数输入静态indel2indel和indel2match概率(并且因此将在fpga中可进行位流编程)。在某些实例中，可以使这些值是位流可编程的，且在某些实例中，可以采用训练序列实施训练模式以便针对给定定序器运行或基因组分析进一步精炼转变概率准确性。图14阐述当实施这些各种简化假设时新状态转变17b图可以是什么样的。具体地，图14阐述简化hmm状态转变图，其描绘具有上述简化的gop、gcp和转变概率之间的关系。同样，图15阐述用于hmm转变概率和先验值产生的电路17a、b，其支持图14的简化状态转变图。如相对于图15所见，提供所述状态转变图的电路实现。因此，在各种实例中，对于hmm硬件加速器8，每一时钟循环产生转变概率和一个先验值的成本减少到：两个64字查找表，和一个128字查找表。因此，如参考上文的讨论以及图12b-12d可见，变异体调用中的挑战之一是区别插入缺失错误与真实变异体。为了这样做，变异体调用器可以被配置成采用如本文所公开的隐式马尔可夫模型(hmm)，其对插入缺失错误的统计表现进行建模，作为概率计算的部分。如相对于图12b可见，hmm可以具有输入参数gopins、gcpins、gopdel、gcpdel，其中gop和gcp分别代表间隙开放罚分和间隙延续罚分，且下标指示插入和缺失。图12b示出hmm参数可以取决于正处理的读段和/或单倍型的上下文，这是因为插入缺失错误更可能以短串联重复序列(shorttandemrepeats，str)存在，且在此实例中，错误概率可以取决于str的周期和长度两者。错误过程可以在一个数据集与另一数据集之间显著不同，这取决于例如pcr放大和/或其它错误源等因素。为了准确检测，使用对错误过程准确地建模的hmm参数是有用的。然而，在变异体调用器被配置成使用固定参数或预定函数的情况下，这可能不能对错误过程准确地建模，从而导致不良检测性能。因此，在此实例中，例如通过本文公开的自动校准过程可以校正此类错误。具体来说，本文提出hmm自动校准，例如通过直接从正处理的数据集估计pcr参数来解决此类问题。可以在具有或不具有背景事实的知识以及使用或不使用已知突变的外部数据库的情况下，在映射和对准之后且在变异体调用之前执行此操作。在此实例中，参数取决于str周期和重复长度两者。对于给定的str周期和长度，具有所需周期和长度的一组n个基因座，可以检查映射到那些基因座的读段的堆积物，对在每一基因座处观察到的插入缺失进行计数以估计所关注的参数。具体来说，将估计的hmm参数包含gopins、gcpins、gopdel、gcpdel中的一个或多个以及表示具有长度l的插入缺失变异体的概率的变异体概率和其中l的正值指示l个碱基的插入且负值指示|l|个碱基的缺失，且上标指示变异体是杂合的还是纯合的。在各种实例中，可假定底层生物是二倍体，但应注意这可以一般化到非二倍体生物。还请注意对于具有有限覆盖深度的单个基因座，经常难以确定插入缺失是由于错误还是真实变异体，且此类堆积物可能不会特别有助于估计hmm参数。举例来说，如相对于图12c可见，呈现堆积物，其中38个读段中的11个含有缺失。具体地，图12c呈现在堆积物中具有多个缺失的str基因座。在此实例中，str具有1个碱基的周期和14个碱基的长度。单独从此堆积物难以确定这些缺失是错误还是真实变异体的证据。然而，通过考虑足够数目个基因座，可能准确估计所关注的参数。这可以通过找到使产生n个观察堆积物的集合的概率最大化的参数来完成。在此实例中，即使单独看起来完全无用的堆积物也可以当结合其它堆积物一起分析时起重要作用。估计所关注的参数的直接方式是使用hmm模块来计算观察的堆积物的联合概率，扫掠hmm参数且选择使总概率最大化的那些参数。然而，这样做的计算复杂性可能太高，这是由于hmm操作的复杂性且由于将扫掠的独立参数的数目。因此，本文提出基于对在每一基因座的每一长度的插入缺失数目进行计数而无需使用hmm的简化方法。在此实例中，合格读段可以被限定为横跨str具有高置信度对准的读段，在每一侧上具有最小数目的侧接碱基。因此，适当的计算可以如下阐述。假设kl,i是含有在基因座i对准的长度l的碱基(相对于参考)的插入缺失的合格读段的数目，其中l的正值指示插入且负值指示缺失，且l＝0指示不存在插入缺失。假设ψ是给定参数gopins、gcpins、gopdel、gcpdel、和做出观测的概率的近似：其中：且λ是以碱基为单位测量的str长度。大体来说，我们的hmm自动校准过程包括将kl,i的值制表，并且接着寻找使ψ最大化的gopins、gcpins、gopdel、gcpdel、和的值。针对每一str周期和长度执行此操作。实际上，上述独立参数的数目可能成问题，因为可能没有足够数据来训练大量参数，且因为在大量维度上搜索可能是困难的或不可行的。幸而，容易减少独立参数的数目且仍得到良好性能。在一个实施例中，可以做出以下假设：gopins＝gopdelgcpins＝gcpdel这将独立变量的数目减少到4。在另一实施例中，通过不考虑插入缺失的长度可以进一步简化这些计算。在此实施例中，ki表示具有在基因座i对准的(任何长度的)插入缺失的合格读段的数目，且ni指示在基因座i处的合格读段的总数目。可假定gcp是用户指定的(默认地，gcp＝10/ω，其中ω是str的周期)，且αhet和αhom指示任何非零长度的插入缺失变异体的概率。随后可以将计算定义为：其中p＝2λ10-(gop+(ω-1)gcp)/10(1-10-gcp/10)ω是str的周期。αhet＝2αhom这将独立变量的数目减少到2，这可以通过穷尽性搜索来容易地执行。应注意，ψ的表达式可以是近似表达式，其不考虑或忽略了基因座可含有插入缺失变异体和插入缺失错误(可能抵消插入缺失变异体)的混合物的可能性。此近似可以在其对结果的准确性几乎没有影响的实例中采用。在各种实例中，可以考虑具有范围从1到8的周期和范围从1到20个完整周期的长度的str。在此实例中，基因组中的每一str可以根据其具有最大重复长度的周期来分类，从而断开与较短周期的关系。可以从被对准读段覆盖的基因组区伪随机地取样每一周期/长度组合的2k到4kstr基因座的目标量。当在给定周期/长度类中少于4kstr基因座可用时，可以考虑所有被覆盖的str，但此量对于长周期和高重复长度的组合远小于2k。在此实例中，在最大似然参数估计之前，未能满足n≥50的最小样本计数的每一str周期/长度类可以与其它str类合并(例如，与具有相同周期但较小重复长度的str合并)。对于每一周期和重复长度，可以如上文所描述执行最大似然参数估计，在phred尺度上的整数的2维网格上扫掠参数gop和αhet。对于每一周期，以最低重复长度开始，其中gop应当随着重复长度增加而单调不增加，gop的增加可以是数据不足的指示。如果观察到gop的增加，那么类可以与先前(较短重复长度)类合并。插入缺失错误模型估计的此方法适用于二倍体生殖系dna-seq，给定在实质覆盖深度(比方说10x或更深)的相当于人类全外显子组(数千万基因座核苷酸)的样本覆盖。针对其它倍性的修改是直接的。基本上较小的样本，例如扩增子板，缺乏足够的str基因座来在重要的周期/长度组合上校准模型；但在小样本上的变异体调用可以使用从具有相似pcr和定序协议的较大数据集估计的模型。此方法对于全外显子组或全基因组肿瘤样本保持有效，因为虽然体细胞变异体违反50％/100％等位基因频率假设，但实际上很少变异体会干扰模型参数估计。它还应当适用于rna-seq数据，只要采用灵敏的拼接对准器，且可以忽略间杂有对准内含子的str基因座。图12d示出数据集sra056922(人全基因组数据集)的插入缺失roc。可见此hmm自动校准提供插入缺失灵敏度中的大增益。对于此数据集，最佳f指标从0.9113增加到0.9319。如上文所阐述，引擎控制逻辑15被配置成用于例如经由高级引擎状态机产生虚拟矩阵和/或遍历矩阵以便到达条带的边缘，其中结果数据可以例如经由最终总和控制逻辑19而最终求和，且例如经由安放/取得逻辑而存储。因此，如相对于图16可见，在各种实施例中，提供用于产生和/或遍历hmm单元矩阵30的方法。具体地，图16阐述hmm加速器控制逻辑15如何遍历hmm矩阵中的虚拟单元的示例。举例来说，出于示例性目的假定针对每一乘法和每一加法运算的5时钟循环时延，通过m、i、d状态更新计算的最差时延将是传播通过m更新计算将花费的20个时钟循环。i和d状态更新计算中存在一半那么多的运算，意味着针对那些运算的10时钟循环时延。可相对于图16理解m、i和d计算操作的这些时延含义，图16阐述单元到单元数据相依性的各种示例。在此类实例中，给定单元的m和d状态信息馈送hmm矩阵中紧邻于右边的单元(例如，具有与给定单元相同的读段碱基，但具有下一单倍型碱基)的d状态计算。同样，给定单元的m和i状态信息馈送hmm矩阵中紧邻于下方的单元(例如，具有与给定单元相同的单倍型碱基，但具有下一读段碱基)的i状态计算。因此，在特定实例中，给定单元的m、i和d状态馈送hmm单元矩阵的下一对角线中的单元的d和i状态计算，如上文所描述。类似地，给定单元的m、i和d状态馈送向右一个且向下一个的单元(例如，具有下一单倍型碱基和下一读段碱基)的m状态计算。此单元实际上远离其馈送的单元两个对角线(而i和d状态计算依赖于来自相距一个对角线的单元的状态)。i和d状态计算的此质量依赖于相距一个对角线的单元而m状态计算依赖于相距两个对角线的单元对于硬件设计来说具有有益的结果。具体来说，给定这些配置，i和d状态计算可以适于采取m状态计算(例如，20个循环)一半的长度(例如，10个循环)。因此，如果m状态计算是在同一单元的i和d状态计算之前10个循环开始，那么用于hmm矩阵30中的单元的m、i和d状态计算将全部同时完成。另外，如果以对角线方式遍历矩阵30，例如在其内各自具有约10个单元(例如，横跨十个读段碱基)的条带35，那么：在(hap,rd)坐标(i,j)的给定单元产生的m和d状态可由单元(i+1,j)d状态计算使用，只要它们一直通过(i,j)处的单元的计算管线。在(hap,rd)坐标(i,j)的给定单元产生的m和i状态可在它们一直通过(i,j)处的单元的计算管线之后一个时钟循环由单元(i,j+1)i状态计算使用。同样，在(hap,rd)坐标(i,j)的给定单元产生的m、i和d状态可在它们一直通过(i,j)处的单元的计算管线之后一个时钟循环由单元(i+1,j+1)m状态计算使用。总之，上述要点确定对于沿着横跨例如十个读段的条带长度的条带路径的对角线的m、i和d状态需要极少的专用存储。在此实例中，仅需要寄存器来将单元(i,j)m、i和d状态值延迟一个时钟循环以在单元(i+1,j+1)m计算和单元(i,j+1)i计算中使用延迟一个时钟循环)。此外，此处存在稍微的良性循环，因为用于给定单元的m状态计算是在用于同一单元的i和d状态计算之前10个时钟循环开始，从而自然同时输出任何给定单元的新m、i和d状态。鉴于上文，且如相对于图16可见，hmm加速器控制逻辑15可以被配置成以一方式处理虚拟矩阵30的单元中的每一个内的数据以便遍历矩阵。具体来说，在各种实施例中，操作开始于单元(0，0)，其中m状态计算开始于i和d状态计算开始之前10个时钟循环。将遍历的下一单元应当是单元(1，0)。然而，在来自单元(0，0)的结果将可用之前在i和d计算开始之后存在十个循环时延。因此，硬件将九个“死”循环插入到计算管线中。这些在图16中示出为具有小于零的单倍型索引的单元。在完成在(-9，-9)的矩阵中具有有效单元位置的死循环之后，单元(0，0)的m、i和d状态值可用。这些(例如，单元(0，0)的m和d状态输出)现在可以直接使用以开始单元(0，1)的d状态计算。一个时钟循环之后，来自单元(0，0)的m、i和d状态值可以用于开始单元(0，1)的i状态计算和单元(1，1)的m状态计算。将遍历的下一单元可以是单元(2，0)。然而，在来自单元(1，0)的结果将可用之前在i和d计算开始之后存在十个循环时延。因此，硬件将八个死循环插入到计算管线中。这些被示出为具有小于零的单倍型索引的单元，如图16中沿着与单元(1，0)和(0，1)相同的对角线所示。在完成在(-8，-9)的矩阵中具有有效单元位置的死循环之后，单元(1，0)的m、i和d状态值可用。这些(例如，单元(1，0)的m和d状态输出)现在直接使用以开始单元(2，0)的d状态计算。一个时钟循环之后，来自单元(1，0)的m、i和d状态值可以用于开始单元(1，1)的i状态计算和单元(2，1)的m状态计算。来自单元(0，1)的m和d状态值随后可以在同一时间使用以开始单元(1，1)的d状态计算。一个时钟循环之后，来自单元(0，1)的m、i和d状态值用于开始单元(0，2)的i状态计算和单元(1，2)的m状态计算。现在，将遍历的下一单元可以是单元(3，0)。然而，在来自单元(2，0)的结果将可用之前在i和d计算开始之后存在十个循环时延。因此，硬件将七个死循环插入到计算管线中。这些再次在图16中沿着与单元(2，0)、(1，1)和(0，2)相同的对角线示出为具有小于零的单倍型索引的单元。在完成在(-7，-9)的矩阵中具有有效单元位置的死循环之后，单元(2，0)的m、i和d状态值可用。这些(例如，单元(2，0)的m和d状态输出)现在直接使用以开始单元(3，0)的d状态计算。并且因此，对角线中的另外十个单元的计算开始。此处理可以继续直到条带35a中的最后完整对角线的末尾，其在此实例中(具有35的读段长度和14的单倍型长度)将在开始于(13，0)的(hap,rd)坐标处的单元的对角线完成之后发生。在遍历图16中的单元(4，9)之后，将遍历的下一单元应当是单元(13，1)。然而，在来自单元(12，1)的结果将可用之前在i和d计算开始之后存在十个循环时延。因此，硬件可以被配置成开始与例如在坐标(0，10)的下一条带35b中的第一单元相关联的操作。在单元(0，10)的处理后，接着可遍历单元(13，1)。随后遍历开始于单元(13，1)的单元的整个对角线直到到达单元(5，9)为止。同样，在遍历单元(5，9)之后，将遍历的下一单元应当是单元(13，2)。然而，如前所述在来自单元(12，2)的结果将可用之前在i和d计算开始之后可能存在十个循环时延。因此，硬件可以被配置成开始与例如在坐标(1，10)的下一条带35b的第二对角线中的第一单元相关联的操作，随后是单元(0，11)。在单元(0，11)的处理后，根据上文公开的方法，可遍历单元(13，2)。随后遍历开始于单元(13，2)的单元的整个对角线35直到到达单元(6，9)为止。另外，在遍历单元(6，9)之后，将遍历的下一单元应当是单元(13，3)。然而，此处再次在来自单元(12，3)的结果将可用之前在i和d计算开始之后可能存在十个循环时延周期。因此，硬件可以被配置成开始与例如在坐标(2，10)的下一条带35c的第三对角线中的第一单元相关联的操作，随后是单元(1，11)和(0，12)等等。这根据上文如所指示继续直到第一条带35a中的最后单元(在(hap,rd)坐标(13，9)的单元)被遍历，此时逻辑可完全专用于遍历第二条带35b中的对角线，从在(9，10)的单元开始。上文概括的模式根据需要针对10个读段的许多条带重复，直到到达底部条带35c(在此实例中与具有索引30或更大的读段碱基相关联的那些单元)。在底部条带35中，可以插入更多死单元，如图16中示出为具有大于35的读段索引且具有大于13的单倍型索引的单元。另外，在最终条带35c中，可以有效地添加一行额外的单元。这些单元在图16中的线35处指示，且涉及其中发生最终求和运算的最终条带的每一对角线中的专用时钟循环。在这些循环中，紧邻于上方的单元的m和i状态被相加在一起，且所述结果自身与运行最终总和(在hmm矩阵30的左边边缘处初始化为零)进行求和。采取以上讨论作为上下文，且鉴于图16，有可能看见对于35的读段长度且14的单倍型长度的此示例，存在102个死循环、与最终求和运算相关联的14个循环以及管线时延的20个循环，总共102+14+20＝146个循环的开销。还可以看见对于具有大于10的读段长度的任何hmm工作20，图16的左上角的死循环与读段长度无关。还可见，在图16的底部和右下部分的死循环取决于读段长度，对于具有mod(读段长度，10)＝9的读段具有最少死循环且对于mod(读段长度，10)＝0具有最多死循环。进一步可见，随着单倍型长度增加(更大的矩阵，部分固定数目的开销循环)或随着读段长度增加，开销循环作为hmm矩阵30评估循环的总百分比变得较小(注意这指代与矩阵中的最终总和行相关联的开销的百分比随着读段长度行计数增加而减少)。使用来自代表性整个人类基因组运行的此直方图数据，已确定以上文所描述的方式遍历hmm矩阵导致全基因组处理的小于10％开销。可以采用另外的方法来减少开销循环的量，包含：具有用于最终求和运算的专用逻辑，而不是与m和d状态计算逻辑共享加法器。这消除了hmm矩阵30的一行。使用死循环来开始队列中的下一hmm工作的hmm矩阵运算。hmm矩阵30的十行的每一分组构成hmm加速器功能中的“条带”35。应注意，条带的长度可以增加或减小以便满足系统的效率和/或处理量需求。因此，样本长度可为约五行或更少到约五十行或更多，例如约十行到约四十五行，举例来说，约十五或约二十行到约四十行或约三十五行，包含约二十五行到约三十行单元的长度。除了以上部分中提到的与原本是在图16的矩阵的右边缘处的死循环的采集循环有关的例外情况，可以每次一个条带来处理hmm矩阵。如相对于图16可见，每一条带35a的底部行中的单元的状态馈送下一条带35b的顶部行中的状态计算逻辑。因此，可能需要存储(安放)和检索(得到)每一条带的底部行或边缘中的那些单元的状态信息。用于进行此操作的逻辑可以包含以下一个或多个：当hmm矩阵30中的单元的m、i和d状态计算对于具有mod(读段索引，10)＝9的单元完成时，将结果保存到m、i、d状态存储存储器。当hmm矩阵30中的单元的m和i状态计算(例如，其中d状态计算并不需要来自矩阵中其上方单元的信息)对于具有mod(读段索引，10)＝0的单元开始时，从m、i、d状态存储存储器中的适当位置检索先前保存的m、i和d状态信息。注意在这些实例中，馈送hmm矩阵30中的行0(顶部行)m和i状态计算的m、i和d状态值简单地是预定恒定值且不需要从存储器中再调用，对于馈送列0(左列)d状态计算的m和d状态值就是这样。如上所述，hmm加速器可包含或可不包含hmm硬件加速器中的专用求和资源以使得简单地出于最终求和运算的目的而存在。然而，在特定实例中，如本文所描述，可以将额外行添加到hmm矩阵30的底部，且与此额外行相关联的时钟循环可用于最终求和运算。举例来说，所述总和自身可以通过从m状态计算逻辑借用(例如，按照图13)加法器来进行m+i运算并且进一步通过从d状态计算逻辑借用加法器来将新形成的m+i总和相加到运行最终总和累积值来实现。在此实例中，用以激活最终求和运算的控制逻辑可以每当引导hmm遍历操作的读段索引等于用于工作的输入读段序列的长度时启动。这些操作在图16的朝向样本hmm矩阵30底部的线34处可见。因此，如上文可见，在一个实施方案中，变异体调用器可以利用映射器和/或对准器引擎以确定关于各种读段例如相对于给定位置(例如，染色体位置)发源于何处的可能性。在此类实例中，变异体调用器可以被配置成检测所述位置处的底层序列，例如与不紧邻于其的其它区无关，例如通过实施本文在上文阐述的hmm操作。当关注区不类似于单个读段(或用于成对端定序的一对读段)的跨度上的基因组的任何其它区时这是特别有用的且良好地起作用。然而，人类基因组的很大一部分不满足此准则，这会使变异体调用具有挑战性，例如从ngs产生的读段重构受试者的基因组的过程。具体来说，虽然dna定序已经显著地改进，但变异体调用仍然是困难的问题，大部分是由于基因组的冗余结构。然而，如本文所公开，至少部分地从短读段数据驱动的角度来看，可以克服基因组的冗余带来的复杂性。更确切地说，采用与本文公开相同的装置、系统和方法可以此方式被配置以便集中于原本可能已由低变异体调用准确性表征的同源或相似区。在某些实例中，此低变异体调用准确性可能源于相对于通常可导致极低读段mapq的同源区在读段映射和对准中观察到的困难。因此，本文提出准确地调用同源区中的变异体(snp、插入缺失及类似物)的战略实施方案，例如通过联合地考虑这些同源区中存在的信息。举例来说，基因组的许多区是同源的，例如它们具有在基因组中位于别处(例如，多个位置中)附近相同的拷贝，且因此，读段的真实源位置可能存在相当大的不确定性。具体地，如果读段群组例如由于明显同源性而以低置信度映射，那么典型变异体调用器可以忽略且不处理所述读段，即使它们可能含有有用信息。在其它实例中，如果读段错误映射(例如，一级对准不是读段的真实源)，那么会导致检测错误。更具体地，先前实施的短读段定序技术已经易受这些问题影响，且常规检测方法经常留下基因组的未知的大区。在一些实例中，可采用长读段定序来减轻这些问题，但其通常具有高得多的成本和/或较高错误率，花费更长时间，和/或存在其它缺点。因此，在各种实例中，执行如本文中所述的多区联合检测操作可以是有益的。举例来说，并非隔离地考虑每一区和/或并非执行且分析长读段定序，可以采用多区联合检测(multi-regionjointdetection，mrjd)方法，例如其中mrjd协议考虑读段群组可能已从其发源的多个(例如，所有)位置，且尝试使用所有可用信息一起(例如，联合地)检测底层序列，其可以与低或异常置信度和/或确定性评分无关。举例来说，对于具有统计学上均匀覆盖的二倍体生物，在变异体调用分析中可以执行如上文所描述的蛮力贝叶斯计算。然而，在蛮力mlrd计算中，计算的复杂性随着区的数目n以及将考虑的候选单倍型的数目k快速增长。具体来说，为了考虑候选单倍型的所有组合，将计算其概率的候选解的数目经常可能是指数型的。举例来说，如下文更详细地描述，在蛮力实施方案中，候选单倍型的数目包含作用位置的数目，如果例如在如本文所公开的debrujin图的建置中使用图组装技术来产生变异体调用操作中的候选单倍型的列表，那么作用位置的数目是图中的独立“气泡”的数目。因此，此蛮力计算的实施会过于昂贵，并且因此，蛮力贝叶斯计算会过于复杂。因此，在一个方面中，如图17a中所阐述，本文提供减少此类蛮力计算的复杂性的方法。举例来说，如上文所公开，虽然dna/rna定序的速度和准确性特别相对于本文公开的方法已显著地改进，但是变异体调用，例如从定序器产生的读段重构受试者的基因组的过程，仍是个难题，大部分是由于基因组的冗余结构。本文公开的装置、系统和方法因此被配置成从短读段数据驱动的角度来看与长读段定序相比减少基因组的冗余带来的复杂性。确切地说，本文提供用于执行考虑通常由低变异体调用准确性表征的基因组的同源和/或相似区的超长读段检测而不一定必须执行长读段定序的方法。举例来说，在一个实施例中，提供用于执行多区联合检测的系统和方法。具体地，在第一实例中，可以例如采用本文公开的方法执行一般变异体调用操作。具体来说，一般变异体调用器可以采用参考基因组序列，所述参考基因组呈现模型基因组中的所有碱基。此参考形成分析的骨干，借此将受试者的基因组与参考基因组进行比较。举例来说，如上文所论述，采用下一代定序器，受试者的基因组可以分解为子序列，例如各自通常约100-1,000个碱基的读段，所述读段可以映射和对准到参考，极类似于将拼图放在一起。一旦受试者的基因组已映射和/或对准，与受试者的实际基因组相比使用此参考基因组，可以例如基于逐个碱基而确定受试者的基因组与参考基因组不同的程度以及如何不同。具体来说，在例如基于逐个碱基而将受试者的基因组与一个或多个参考基因组进行比较时，分析沿着序列迭代地移动，比较一个与另一个以确定它们是一致还是不一致。因此，序列内的每一碱基表示将调用的位置，例如由图18a中的位置a表示。具体地，对于相对于受试者的基因组将调用的参考的每个位置a，序列的堆积物(例如，读段)将以一方式映射和对准以使得读段的大样本集合可以在任何给定位置a全部彼此重叠。具体来说，此过取样可包含若干读段，例如从一个到一百个或更多，其中堆积物中的读段中的每一个具有与正调用的区重叠的核苷酸。因此，从碱基到碱基对这些读段的调用涉及形成沿着做出调用的序列滑动的处理窗，其中窗口的长度，例如在任何给定时间处于检查中的碱基的数目，形成确定的作用区，如上文所描述。因此，窗口表示正调用的样本中的碱基的作用区，其中调用涉及比较作用区内的堆积物的所有读段中的给定位置(例如，a)的每一碱基，其中在读段的所述数目的堆积物中的所述位置的碱基的身份提供在正调用的所述位置的碱基的真实身份的证据。为此目的，基于针对每一读段片段导出的相关mapq置信度得分，可以在某一置信度得分内大体上确定映射和对准准确地执行。然而，关于读段的映射和对准是否准确或读段中的一个或多个是否真正属于其它某个位置的问题仍存在，不管有多微小。因此，在一个方面中，本文提供用于改进执行变异体调用中的置信度的装置和方法。具体来说，在各种实例中，变异体调用器可以被配置成执行如本文中所述的一个或多个多区联合检测操作，其可以用于在可实现的结果中给出较大置信度。举例来说，在此实例中，变异体调用器可以被配置成分析基因组中的各个区以便确定表现为相似的特定区。举例来说，如相对于图18a可见，可能存在参考区a和参考区b，其中参考序列彼此极类似，例如但具有不相似碱基对匹配的几个区，例如其中示例参考a具有“a”且示例参考b具有“t”，但在这些少数不相似的外部，在所讨论的区内的其它任何地方都可以表现为匹配。由于相似性的程度，例如参考a和参考b这两个区将通常被视为同源或平行同源区。如所描绘，两个参考区a和b是99％相似。可能存在相对地相似，例如约93％相似的其它区，例如参考c和d，但与参考区a和b之间的99％相似性相比，参考区c和d将不被视为同源，或至少是实际上同源的机会较少。在此实例中，变异体调用过程可能够充分调出参考区c与d之间的差异，但在某些实例中可能难以调出参考区a和b的高度同源区之间的差异，原因例如在于其高同源性。具体来说，由于参考序列a和b与参考序列c和d之间的不相似的程度，因此不会预期映射且对准到参考序列a或b的读段将错误地映射到参考序列c或d。然而，可能预期映射且对准到参考序列a的读段可能错误映射到参考序列b。给定同源性的程度，区a与b之间的错误映射可以是很可能的。因此，为了增加准确性，可能需要系统例如当执行映射、对准和/或变异体调用过程时能够区分和/或考虑同源区之间的差异。具体地，当产生映射且对准到参考a内的区的读段的堆积物以及产生映射且对准到参考b内的区的读段的堆积物时，读段中的任一个可能事实上错误映射到错误位置，并且因此，为了实现较好的准确性，当执行本文公开的变异体调用操作时，这些同源区以及映射且对准于其的读段应当例如在联合检测协议中一起考虑，所述协议例如多区联合检测协议，如本文中所描述。因此，本文提出针对多区联合检测(mrjd)的装置、系统以及其使用方法，例如其中一起考虑来自各种所识别同源区的各种堆积物的多个(例如，所有)读段，例如其中并非做出针对每一位置的单个调用，而是针对表现为同源的所有位置做出联合调用。做出此类联合调用是有利的，因为在尝试个别地针对每一参考做出调用之前，将首先必须确定所讨论的各种读段实际上映射且对准到哪一个参考的哪一个区，且这是固有地不确定的，且通过所提出的联合检测来解决这个问题。因此，因为所述两个参考的区如此相似，所以很难确定哪些读段映射到哪些区。然而，如果联合地调用这些区，那么不必做出关于哪些同源读段映射到哪一个参考区的前期决策。因此，当做出联合调用时，可以假设在一个参考(例如，a)上的与第二参考(例如，b)上的另一区同源的区的堆积物中任何读段可以属于参考a或参考b。因此，在需要时，除了在本文的装置、系统和方法中实施的变异体调用算法外还可以实施mrjd协议。举例来说，在一个迭代中，变异体调用算法采取样本和参考基因组中的给定区的所映射和/或对准读段中存在的证据，基于与参考基因组的比较而分析表现为在样本的基因组中的情形事实上存在的可能性，且给定关于样本实际上如何不同于参考的证据而做出决策，例如，在给定此证据的情况下变异体调用器算法确定读段与参考之间的不同是什么的最可能答案。然而，mrjd是可以连同vc算法一起实施的又一算法，其中mrjd被配置成帮助变异体调用器更准确地确定例如在受试者的读段中观察到的差异是否事实上是从参考的真实偏离。因此，mjrd分析中的第一步骤涉及基于一个或多个参考(例如，参考a和参考b)的多个区中的序列以及在受试者的读段的一个或多个区中的堆积物序列之间的对应的百分比而识别同源区。具体来说，参考a和参考b可以实际上是同一遗传物质的二倍体形式，例如其中存在染色体的给定区的两个拷贝。因此，在正分析二倍体参考的情况下，在各种位置参考a可以具有一个特定核苷酸，且在参考b中的所述同一位置，另一核苷酸可以存在。在此实例中，参考a和参考b在位置a对于“a”是纯合的。然而，如图18a中可见，受试者的dna在此位置a是杂合的，例如其中相对于参考a的堆积物的读段，受试者的染色体的一个等位基因具有“a”，但另一等位基因具有“c”，而相对于参考b，受试者的染色体的另一拷贝对于在位置a的两个等位基因都具有“a”。在正分析的样本例如在那些自然发生的可变位置中的一个处含有突变的情况下，这也变得更复杂，所述突变例如在位置a处的杂合snp(未图示)。如相对于图18b的参考a可见，在位置a处，受试者的样本可以包含指示在位置a处存在杂合性的读段，例如其中一些读段在此位置包含“c”，且一些读段在此位置指示“a”(例如，haplotypea1＝“a”，ha2＝“c”)；而相对于参考b，在位置a的读段指示纯合性，例如其中堆积物中的所有读段在所述位置具有“a”(例如，hb1＝“a”，hb2＝“a”)。然而，mrjd通过同时做出联合调用，通过分析映射到参考的两个区的所有读段，同时考虑读段中的任一个可能在错误位置的可能性而克服这些难题。在识别各种同源区之后，下一步骤是确定同源参考区之间的对应，并且接着相对于mrjd，可以丢弃关于各种适用读段在两个同源区之间在何处“应该映射”的映射器和/或对准器确定，且实际上，这些同源区中的任一堆积物中的所有读段可以共同地一起考虑，知道这些读段中的任一个可以属于正比较的同源区中的任一个。因此，如下文详细阐述的用于确定这些联合调用的计算考虑了这些读段中的任一个来自同源参考区中的任一个且在适用的情况下来自参考区中的任一个的任一单倍型的可能性。应注意，虽然前面涉及参考内的同源性的多个区，但是同一分析还可以应用于单个区检测。举例来说，如相对于图18b可见，即使对于单个区，对于任何给定区，可能存在受试者遗传样本对于特定区可以具有的两个单独单倍型，例如h1和h2，且因为它们是单倍型，所以它们可能彼此极类似。因此，如果彼此隔离地分析这些位置，那么可能难以确定是否存在正考虑的真实变异。因此，相对于同源区正执行的计算还可用于非同源区，因为任何特定区都可能是二倍体，例如具有第一单倍型(h1)和第二单倍型(h2)，并且因此联合地分析所述区将增强系统的准确性。同样，对于如上文所描述的两参考区，例如同源区，正调用的是用于第一区的ha1和ha2，以及用于第二区的ha1和ha2(其大体上等效于用于每一染色体的两个链和用于每一链的两个区＝4个双倍型。因此，可以采用mrjd来确定相对于一个或多个(例如，所有)同源区的初始答案，并且接着可以将单个区域检测应用回到一个或多个(例如，所有)单个或非同源区，例如采用同一基本分析，且因此可以实现较好准确性。因此，也可以执行单个区非联合检测。举例来说，相对于单个区域检测，对于候选单倍型ha1，在当前迭代中参考区可为约300-500个碱基对长，且在参考之上例如从来自读段的k聚体建置如图18c中所阐述的图，例如debruijn图，其中不同于参考的任何位置形成图中的发散路径或“气泡”，从所述发散路径提取单倍型，其中每一提取的单倍型(例如，发散路径)形成了在染色体的两条链中的一条上在检查中的作用区的特定位置处可能是什么的潜在假设。然而，如果存在大量发散路径，例如形成通过图的大量气泡，如相对于图18c所见，且提取大量单倍型，那么可以引入最大截止以保持计算可管理。所述截止可处于任何统计上显著的数目，例如35、50、100、125-128、150、175、200或更多等等。然而，在某些实例中，可以考虑基本上更大的数目(例如，所有)的单倍型。在此实例中，并非提取完整的源以从起始到结束汇集单倍型，例如从序列的开始到末尾，仅需要提取与个别气泡相关联的序列，例如仅需要对准到参考的气泡。因此，从dbg提取气泡，将序列对准到参考，且从这些对准可以关于各种气泡的序列为何不同于参考而确定特定snp、插入、缺失及类似情形。因此，在此方面，可以通过以不同组合混合且匹配关于所有各种气泡的序列而导出用于分析的所有不同假设单倍型。以例如此方式，将不需要列举所有将提取的单倍型。本文在下文更详细地描述用于执行多区联合检测的这些方法。此外，抽象地，即使可以测试所有这些候选单倍型，也可以执行生长树算法，其中产生的图开始看起来像生长的树。举例来说，可以此方式建置联合单倍型/双倍型的分支树图，使得在树生长时，底层算法用以在做出越来越多的计算时同时生长和修剪树，且显而易见各种不同候选假设简单地极不可能。因此，在树生长和被修剪时，并不需要计算所有假设单倍型。具体地，相对于树生长功能，当两个参考之间或参考与读段之间关于在正解析的给定位置存在何种碱基存在不一致时，必须确定哪一碱基实际上属于哪一位置，且鉴于此类不一致，必须确定哪些差异可以由snp、插入缺失或类似情形造成以及哪些是机器错误。因此，当生长树时，例如，例如经由sw或nw对准从debruijn图提取气泡且在出现的树图内定位它们时，将提取的每一气泡变成树图中的事件，其表示可能的snp、插入缺失和/或与参考的其它差异。参见图18c。具体来说，在dbg中，气泡表示与参考的失配，例如表示插入缺失(哪些碱基已经添加或缺失)、snp(哪些碱基不同)及类似情形。因此，在气泡对准到参考时，两者之间的各种差异被分类为事件，且产生例如气泡的各种事件的列表，因此，确定随后变成：基于概率，例如可能的snp和插入缺失的可能事件的何种组合已导致受试者的基因序列中的实际变异，例如是实际各种单倍型(例如，4个)中的每一个中的真实情形。更确切地说，形成根g0(表示给定片段的事件)的任何一个候选者(例如，联合双倍型候选者)可以具有4个单倍型，且所述四个单倍型中的每一个将形成事件的所识别子集。然而，如相对于图18d可见，当执行树的生长和/或修剪功能时，事件的所有组合的整个子集的完整列表可以但不必一次性全部确定。实际上，确定开始于单个位置g0，例如一个事件，且树从那里每次一个事件而生长，这通过修剪功能可能留下各种低概率事件未解析。因此，相对于生长树功能，如相对于图18d可见，计算开始于确定单倍型，例如ha1、ha2、hb1、hb2(对于二倍体生物)，其中基本上在无事件存在的情况下初始单倍型被视为相对于其相应参考(例如，参考a和参考b)全部未解析。因此，初始起始点具有树的根为g0，且联合双倍型具有未解析的所有事件。随后选择例如初始气泡的特定事件作为用于确定的起源，由此将针对所有单倍型解析初始事件，其中事件可以是从参考的第一发散点，例如相对于在位置一处的snp或插入缺失的可能存在。如图18e中例示，在位置一，存在例如snp的事件或气泡，其中“c”已取代“a”，以使得参考在位置一具有“a”，但所讨论的读段具有“c”。在此实例中，由于针对堆积物中的此位置存在4个单倍型，且每一个可以具有如参考中的“a”或事件“c”，因此解析此位置存在可能24＝16种可能性。因此，计算从根立即移动到16个分支，表示用于位置一处的事件的可能解析。因此，如相对于图18d可见，可以阐述所有四个单倍型(例如，ha1、ha2、hb1、hb2)的所有可能序列，其中在位置一处存在如根据参考的“a”或事件“c”，指示对于所述一个事件的snp的存在，其中事件“c”是通过检查通过图的各种气泡路径而确定。因此，对于每一分支或子节点，每一分支可以基于在位置一的碱基符合参考或从参考发散的可能性而不同，而其余事件保持未解析。此过程随后将针对每一分支节点重复，且针对在变异气泡内的每一碱基重复，以便解析所有单倍型的所有事件。因此，可以重新计算在给定各种可能单倍型的情况下观察到任何特定读段的概率。具体来说，对于每一节点，可能存在四个单倍型，且可以对照堆积物中的每一读段比较每一单倍型。举例来说，在一个实施例中，sw、nw和/或hmm引擎分析每一节点且考虑每一节点的四个单倍型中的每一个。因此，产生每一节点激活了sw和/或hmm引擎以通过与读段中的每一个相比考虑所述节点的所有单倍型(例如，4个)而分析所述节点，其中sw和/或hmm引擎针对所有可行节点的单倍型中的每一个和读段中的每一个考虑用于一个读段的一个单倍型。因此，如果出于此示例的示例性目的，情况是存在用于一个单倍型的一个区的杂合snp“c”，例如一个染色体的一个链具有“c”，但其它链的此位置的所有其它碱基并不是这样，例如它们全部匹配于参考“a”，那么将预期堆积物中的所有读段支持此寻找，例如通过针对真实节点，在位置一大多数具有“a”且少数(例如，约1/4)读段在位置一具有“c”。因此，如果在不同节点处的任何稍后可观察的读段展示在位置一处的大量“c”，那么所述节点将不大可能是真实节点，例如将具有低概率，因为将不存在在堆积物中在此位置具有c的足够读段来使其发生变为可能。具体地，将更有可能的是在所讨论的读段中在此位置存在“c”是定序或其它科学错误的证据，而不是真实单倍型候选者。因此，如果某些节点与真实节点相比最终具有小概率，那么这是因为它们不被例如堆积物中的大多数读段支持，且因此，可以修剪掉这些节点，进而丢弃低概率的节点，但以保留真实节点的方式进行。因此，一旦已确定事件一位置，就可以确定下一事件位置，且相对于迄今为止尚未修剪的任何存活节点可以随后针对所述新位置重复本文描述的过程。具体来说，可以从现有可用节点选择事件二，且所述事件可充当用于确定在位置二处的碱基的可能身份的g1根，例如通过再次定义新单倍型(例如，4个)以及其各种分支(例如，16个)，从而解释相对于位置2的可能的变异。因此，通过重复此同一过程，现在可以解析事件2。因此，如相对于图18d可见，一旦已确定位置1，就可以选择用于位置2的新节点，且可以考虑其16个可能的单倍型候选者。在此实例中，可以确定ha1、ha2、hb1、hb2中的每一个的候选者，但在此实例中，由于相对于确定在位置1处的单倍型中的每一个的核苷酸身份，已经解析位置1，因此现将针对在位置2处的单倍型中的每一个解析位置2，如图18d中所阐述，其示出位置2的解析。一旦此过程完成，一旦所有事件已经处理且解析，例如包含尚未经修剪的所有子节点和子节点的子代，那么可以检查树的尚未经修剪的节点，且可以基于概率评分而确定哪一个树表示联合双倍型，例如哪一个序列具有为真的最高概率。因此，以此方式，由于修剪功能，不需要建置整个树，例如大部分树将随着分析继续而最终被修剪，因此总体计算量与非修剪功能相比极大地减少，但基本上多于执行非联合双倍型调用，例如单个区调用。因此，当前分析模块能够例如采用联合双倍型分析以高度准确性确定且解析高同源性的两个或更多个区，其中传统的方法例如由于错误肯定和犹豫不决而根本不能够解析此类区。具体来说，各种变异体调用器实施方案可以被配置成简单地不对高同源性的区执行分析。当前的迭代克服了本领域中的这些和其它此类问题。更确切地说，当前装置、系统和其使用方法可以被配置以便考虑较大的比例，例如所有单倍型，而不管高同源性的区的发生。当然，这些计算的速度可以通过在其中可确定某些计算的结果具有为真的低概率的情况下不执行此类计算而进一步增加，例如通过如本文中所述实施修剪功能。例如联合双倍型解析和修剪的这些配置的益处是现在例如正分析的碱基的作用区窗口的大小可以从正处理的约百几个碱基增加到几千个，或甚至数万或数十万个碱基可一起处理，例如在一个邻接作用区中。分析的作用窗口的此大小增加允许当确定在任何给定位置的任何特定核苷酸的身份时考虑更多证据，进而允许其中可以做出核苷酸身份的较准确确定的更大的上下文。同样，当比较覆盖具有与参考的一个或多个偏差的一个或多个区的一个或多个读段时，更大的上下文允许支持证据更好地链接在一起。因此，以此方式，一个事件可连接到另一事件，所述另一事件自身可以连接到另一事件等，且从这些连接，可以做出相对于当前考虑中的给定特定事件的较准确调用，进而允许来自更远处，例如远离数百到数千个碱基或更多的证据在做出当前变异体调用中提供信息(尽管事实是任何给定读段通常仅为数百个碱基长)，进而进一步使本文的过程更加准确。具体来说，以例如此方式，可进一步使作用区包含数千到数万甚至数十万个碱基或更多，且因此，可避免通过提取所有单倍型而形成debruijn图的方法，因为仅需要探索有限数目的单倍型，即具有可能可行的气泡的那些单倍型，且甚至是可行的那些单倍型，一旦清楚它们不再可行便可以将它们修剪，且对于保持可行的那些单倍型，可以采用链接以便改进做出最终变异体调用的准确性。这也可能全部通过量子和/或硬件计算而成为可能。也可以通过cpu或gpu以软件执行，但将较慢。应注意相对于以上示例，给定由debruijn图产生的这些单倍型理论的情况下，正确定的是例如读段的输入数据的概率。然而，采用贝叶斯定理也可以是适用的，例如用于在给定联合双倍型的情况下确定读段的概率，直到在给定所评估的读段和证据的情况下从联合双倍型的理论确定最佳拟合的相对概率。因此，如相对于图18c可见，从产生的debruijn图，一旦多区联合检测和/或修剪已发生，那么将得到一组可能的单倍型，并且接着将对照受试者的实际读段测试这些单倍型。具体地，每一水平横截面表示单倍型，例如b1，其随后可以经受另一hmm协议以便对照读段进行测试，以便确定在给定单倍型b1的情况下的特定读段的概率。然而，在某些实例中，例如b1的单倍型可能尚未完全确定，但hmm仍可以用于执行，且在此实例中，可以执行下文论述的修改的hmm计算，例如部分确定(partiallydetermined，pd)-hmm操作，其中允许单倍型在其中具有尚有待确定的未确定变异体，例如snp和/或插入缺失，并且因此，计算类似于在给定未解析位置中的变异体的任何组合的情况下计算可实现的答案的最佳可能概率。因此，这进一步有助于树功能的迭代生长，其中树的实际生长，例如pd-hmm操作的执行，无需仅限于其中所有可能变异体已知的那些计算。因此，以此方式，可以迭代方式执行若干pd-hmm计算，以生长节点的树，尽管事实上仍存在特定候选单倍型中的未知可能事件的不确定区，且在变为可能修剪树的情况下，pd-hmm资源可以从计算修剪节点流动地移位，以便仅处理具有成功表征真实基因型的最大概率的那些可能性。因此，当确定特定碱基实际上存在于任何一个位置的概率时，在所述位置的碱基的身份可以基于表示可行候选者的在每一染色体的每一区上的所述位置的身份而确定，例如每一单倍型。因此，对于任何候选者，正确定的是同时在四个单倍型中的每一个中的所讨论位置的给定碱基的身份。具体来说，正确定的是在给定所确定可能性的情况下观察堆积物中的每一个的读段的概率。具体地，每一候选者表示联合双倍型，并且因此每一候选者包含约四个单倍型，这可以在以下等式中阐述为g＝基因型，其中g＝基因组的染色体的单个二倍体区的四个单倍型，例如联合双倍型。在此实例中，将计算的是实际上观察到在堆积物中的序列的所识别候选读段碱基中的每一个的概率，假定它们事实上是真实的。此初始确定可以通过如本文在上文阐述的hmm单倍型计算来执行。举例来说，对于候选“联合双倍型”＝4个单倍型：(区a：ha1ha2，且区b：hb1hb2)＝g→p(r/g)，如由下式确定：因此，如果假定特定单倍型ha1是此区中的真实序列，且读段来自那里，那么实际上观察到此读段序列ha1的几率是多少。因此，hmm计算器用以假定ha1单倍型是真实的而确定实际上观察到所讨论的给定读段序列的可能性是多少。具体地，如果读段实际上匹配于单倍型，那么这当然将是极高概率。然而，如果所讨论的特定读段不匹配于单倍型，那么从那里的任何偏离都应当通过科学错误来解释，例如定序或定序机器错误，而不是实际变异。因此，hmm计算随着错误模型而变。具体地，其询问将必然发生的错误的必要组合的概率是多少，以便观察正分析的特定读段。因此，在此模型中，不仅考虑一个区，而且同时考虑在大量链的大量区的大量位置(例如，并非考虑在一个区的至多可能两个单倍型，现在正考虑的是同时使用来自所讨论的所有区的所有读段数据同时在任何给定区的任何给定位置的四个单倍型的可能性。现将更详细地描述这些过程，例如，修剪树、多区联合检测和pd-hmm。具体地，如相对于图17和18可见，提供高级处理链，例如其中处理链可以包含以下步骤中的一个或多个：识别和输入同源区，执行输入同源区的预处理，执行经修剪超长读段(verylongread，vlrd)或多区联合检测(multiregionjointdetection，mjrd)，以及输出变异体调用文件。具体来说相对于识别同源区，映射、对准和/或分选的sam和/或bam文件，例如cram，可以用作到实施mrjd算法的多区联合检测处理引擎的一级输入，如本文中所描述。mjrd处理引擎可以是例如cpu和/或gpu和/或量子计算平台等集成电路的部分，运行例如量子算法的软件，或实施在fpga、asic或类似物内。举例来说，上文公开的映射器和/或对准器可以用于产生cram文件，例如连同一级对准一起针对每一读段设定为输出n个二级对准。这些一级和二级读段随后可以用以识别同源区的列表，所述同源区可以基于参考基因组的n个区之间的用户定义的相似性阈值而计算。随后可以将所识别同源区的此列表馈送到合适配置的mrjd模块的预处理级。因此，在预处理级中，对于同源区的每个集合，可首先例如通过使用来自所述集合中的一个或多个(例如，每个)区的一级对准而产生联合堆积物。举例来说，参见图19。使用此联合堆积物，随后可以产生作用/候选变异体位置(snp/插入缺失)的列表，由此mrjd预处理引擎可以处理且评估这些候选变异体中的每一个。为了减少计算复杂性，可以计算连接矩阵，其可以用于限定候选变异体的处理次序。在此类实施方案中，多区联合检测算法基于所产生的连接矩阵中限定的处理次序而评估每一所识别候选变异体。首先，可以产生一个或多个候选者联合双倍型(gi)且给定候选变异体。接下来，可以计算联合双倍型中的每一个的后验概率(p(gi|r))。从这些后验概率可以计算基因型矩阵。接下来，可以修剪具有最低后验概率的n个双倍型，以便减少计算的计算复杂性。随后可以包含提供正评估的当前候选变异体的证据的下一候选变异体，且重复上述过程。包含例如来自当前变异体的同源区集合中的一个或多个(例如，所有)区的一个或多个(例如，所有)候选变异体的信息之后，可以从最终基因分型矩阵做出变异体调用。因此，可以上文的方式全部评估作用位置中的每一个，进而得到最终vcf文件。具体来说，如相对于图17b可见，可以实施mjrd预处理步骤，例如包含以下步骤或块中的一个或多个：加载所识别和组装的联合堆积物，随后从组装的联合堆积物产生候选变异体列表，且计算连接矩阵。具体来说，在各种实例中，例如在执行一个或多个变异体调用操作之前，可以执行预处理方法，例如多读段联合检测操作。此类操作可以包含一个或多个预处理块，包含：关于联合堆积物的加载、从联合堆积物产生变异体候选者的列表以及计算连接矩阵的步骤。现将更详细地论述所述块和与其相关联的可能步骤中的每一个。具体地，在分析过程中可以包含第一联合堆积物预处理块。举例来说，可以例如从映射和/或对准的读段提取所识别跨度上的各种参考区。具体来说，使用同源区的列表，可以产生每一组同源区的联合堆积物。接下来，可以使用用户定义的跨度来提取对应于集合内的n个同源区的n个参考区。随后，例如通过使用smith-waterman对准，可以对准参考区中的一个或多个(例如，全部)，所述对准可用于产生n个参考区中的所有碱基的通用坐标系。此外，对应于每一区的所有一级读段随后可以从输入sam或bam文件提取且映射到通用坐标。如本文所描述，此映射可以例如通过使用每一读段的cram文件中存在的对准信息(cigar)来完成。在其中一些读段对未先前映射的情形中，读段可以映射和/或对准(例如，smith-waterman对准)到其相应参考区。更确切地说，一旦联合堆积物已产生且加载，参见例如图19，就可以例如从联合堆积物产生候选变异体列表。举例来说，可以产生debruijn图(dbg)或其它组装图以便提取可以从联合堆积物识别的各种候选变异体(snp/插入缺失)。一旦dbg产生，则可以挖掘图中的各种气泡以便导出变异体候选者的列表。具体来说，给定所有读段，可以使用每一参考区作为骨干来产生图。所有所识别候选变异体位置可随后对准到通用坐标。随后可以计算连接矩阵，其中矩阵限定作用位置的处理次序，其可以随着读段长度和/或插入大小而变。如本文参考，图19示出染色体1中的两个同源区的联合堆积物的示例。虽然此堆积物是参考染色体1的两个同源区，但这仅是出于示例性目的，因为堆积物的产生过程可用于任何和所有同源区，无论染色体如何。如相对于图20可见，可以如下产生候选变异体列表。首先，根据本文公开的方法，可以形成联合堆积物且可以构造debruijn图(dbg)或其它组装图。dbg随后可以用于从联合堆积物提取候选变异体。dbg的构造是以一方式执行以便产生指示变异的气泡，其表示通过图的替代路径，其中每一替代路径是候选单倍型。举例来说，参见图20和21。因此，图中的各种气泡表示候选变异体单倍型位置的列表。因此，给定所有读段，可以使用每一参考区作为骨干来产生dbg。随后所有候选变异体位置可对准到通用坐标。具体地，图20示出阐述产生dbg且使用其来产生候选单倍型的过程的流程图。更具体地，可以采用debruijn图以便创建snp和插入缺失的候选变异体列表。在存在n个区正由mrjd联合处理的条件下，可以构造n个de-bruijn图。在此实例中，每个图可以使用一个参考区作为骨干且所有读段对应于n个区。举例来说，在一个方法实施方案中，在构造dbg之后，可以基于候选事件从debruijn图提取候选单倍型。然而，当采用mrjd预处理协议时，如本文所描述，可以联合地处理n个区，例如其中区的长度可为几千个碱基或更多，且将提取的单倍型的数目可以指数方式极快速地增长。因此，为了减少计算复杂性，并非提取整个单倍型，仅需要从图提取表示候选变异体的气泡。图21中示出形成于debruijn图中的气泡结构的示例。识别将联合处理的区的数目。这确定可以遵循的两个处理路径中的一个。如果识别出联合区，那么所有读段可以用于形成dbg。可以提取展示可能变异体的气泡以便识别各种候选单倍型。具体地，对于每一气泡，可以在到参考骨干的替代路径上执行sw对准。由此可以提取候选变异体且可以存储来自每一图的事件。然而，在其它实例中，一旦第一过程已执行以便产生一个或多个dbg，和/或i现在等于0，那么可以产生来自所有dbg的所有候选事件的联合，其中可以移除任何重复。在此实例中，所有候选变异体可以例如映射到通用坐标系，以便产生候选者列表，且候选变异体列表可以作为输入发送到修剪模块，例如mjrd模块。图22中示出仅执行气泡提取而不是提取整个单倍型的示例。在此实例中，仅气泡区展示提取且处理的可能的变异体，如本文中所描述。具体地，一旦已经提取代表性气泡，就可以执行气泡路径和对应参考骨干的全局对准，例如smith-waterman对准，以得到候选变异体和其在参考中的位置。这可以针对所有debruijn图中的所有提取气泡来完成。接下来，可以从n个图取得所有提取候选变异体的联合，可以移除重复候选者(如果存在)，且唯一候选变异体位置可以映射到从联合堆积物获得的通用坐标系。这导致n个区的候选变异体位置的最终列表，其可以充当对“修剪”mrjd算法的输入。在特定预处理块中，如上文中所述，可以计算连接矩阵。举例来说，连接矩阵可以用于限定作用(例如，候选)位置的处理次序，例如随着读段长度和插入大小而变。举例来说，为了进一步减少计算复杂性，可以计算连接矩阵以便限定从debruijn图获得的所识别候选变异体的处理次序。此矩阵可以与分选功能结合或作为分选功能来构造和使用，以确定首先处理哪些候选变异体。因此，此连接矩阵可以随着成对端读段的平均读段长度和插入大小而变。因此，对于给定候选变异体，在插入大小的整数倍处或在读段长度内的其它候选变异体位置与在其它位置的候选变异体相比具有更高权重。这是因为这些候选变异体更可能提供正评估的当前变异体的证据。图23中示出如本文实施的针对101的平均读段长度和300的插入大小的示例性分选功能。相对于mjrd修剪功能，图24中阐述如上文参考的修剪mrjd算法的示例性步骤。举例来说，对mrjd平台和算法的输入是n个区的联合堆积物，例如所有候选变异体(snp/插入缺失)、基于突变模型的先验概率和连接矩阵。因此，进入修剪mrjd处理平台的输入可以是联合堆积物、所识别作用位置、产生的连接矩阵以及后验概率模型，和/或其结果。接下来，可处理列表中的每一候选变异体，且可连续添加其它变异体作为正使用连接矩阵处理的当前候选者的证据。因此，在给定当前候选变异体和任何支持候选者的情况下，可以产生候选联合双倍型。举例来说，联合双倍型是一组2n个单倍型，其中n是正联合处理的区的数目。候选联合双倍型的数目m随着正联合处理的区的数目、正考虑的作用/候选变异体的数目和阶段的数目而变。下文示出产生联合双倍型的示例。对于：p＝1，正考虑的作用/候选变异体位置的数目；n＝2，正联合处理的区的数目；m＝22.n.p＝24＝16个候选联合双倍型因此，对于单个候选作用位置，给定所有读段和两个参考区，假设两个单倍型是‘a’和‘g’。唯一单倍型＝‘a’和‘g’候选双倍型＝‘aa’，‘ag’，‘ga’和‘gg’，(1个区的4个候选者)。候选联合双倍型＝′aaaa′，′aaag′，′aaga′，′aagg′′agaa′，′agag′，′agga′，′aggg′′gaaa′，′gaag′，′gaga′，′gagg′′ggaa′，′ggag′，′ggga′，′gggg′因此，使用候选联合双倍型，给定每个候选联合双倍型集合中的每一单倍型的单倍型，可以计算读段可能性。这可以使用hmm算法完成，如本文中所描述。然而，在这样做时hmm算法可以从其标准使用情况进行修改，以便允许考虑单倍型中的尚未被处理的候选变异体(snp/插入缺失)。随后，使用来自修改hmm的结果，给定联合双倍型(p(ri|gm))，可以计算读段可能性。这可以使用以下公式来完成。对于2区联合检测的情况：gm＝[θ11，m，θ12，m，θ21，m，θ22，m]，其中θij，m，i是区且j是阶段p(r|gm)＝πip(ri|gm)。给定p(ri|gm)，直接计算所有读段的p(r|gm)。接下来，使用贝叶斯公式，可以从p(r|gi)和先验概率(p(gi))计算后验概率(p(gi|r))。p(gi|r)＝p(r|gi)p(gi)/∑kp(r|gk)p(gk)。此外，给定所有候选联合双倍型的后验概率，可以针对每一区计算中间基因型矩阵。对于基因型矩阵中的每一事件组合，支持所述事件的所有联合双倍型的后验概率可以求和。此时，基因型矩阵可以被视为“中间的”，因为并非已经包含所有支持当前候选者的候选变异体。然而，如早先所见，联合双倍型候选者的数目随着候选变异体位置的数目和区的数目以指数方式增长。这又以指数方式增加计算后验概率所需的计算。因此，为了减少计算复杂性，在此阶段，可以修剪基于后验概率的联合双倍型的数目，以使得要保持的联合双倍型的数目可以是用户定义的且可编程的。最终，可以基于使用中间基因型矩阵计算的用户定义的变异体置信度度量来更新最终基因型矩阵。图24的过程流程图中阐述这些过程的各种步骤。可以重复以上过程，直到所有候选变异体被包含作为正使用连接矩阵处理的当前候选者的证据。一旦已经包含所有候选者，当前候选者的处理就完成。用于处理候选变异体的其它停止准则也是可能的。举例来说，当在添加更多候选者的变异体时置信度已停止增加时可以停止过程。如图24中例示，针对列表中的所有其它候选变异体可以相同方式重新启动和重复此分析，进而在mrjd的输出处得到最终变异体调用文件。因此，并非隔离地考虑每一区，可以采用如本文所描述的多区联合检测协议，以便在尝试使用所有可用信息联合地检测底层序列时考虑一组读段可能已从其发源的所有位置。因此，对于多区联合检测，示例性mrjd协议可以根据本文公开的方法采用以下等式中的一个或多个。具体地，并非隔离地考虑将评估的每一区，mrjd考虑一组读段可能已从其发源的多个位置，且尝试例如通过使用与有用的可用信息一样多(例如，全部)的信息来联合地检测底层序列。举例来说，在一个示例性实施例中：假设n是将联合地处理的区的数目。且假设hk是候选单倍型，k＝1…k，其中的每一个可以包含相对于参考序列的各种snp、插入和/或缺失。每一单倍型hk表示沿着单个链的单个区(或“相位”，例如母本或父本)，且它们无需是邻接的(例如，它们可以包含间隙或“不关心”序列)。假设gm是用于两个相位φ＝1，2(对于二倍体生物)和所有区n＝1…n的候选解：其中每一元素gm,φ,n是从候选者集合{h1…hk}中选出的单倍型。首先，可以例如通过使用如本文在上文论述的隐式马尔可夫模型(hmm)，针对每一候选单倍型计算每一读段的概率p(ri|hk)。在具有配对读段的数据集的情况下，ri指示对{ri,1,ri,2}，且p(ri|hk)＝p(ri,1|hk)p(ri,2|hk)。在具有链接读段(例如，加条码的读段)的数据集的情况下，ri指示来自同一长分子的读段群组{ri,1…ri,nl}，且接下来，对于每一候选解gm，m＝1…m，我们计算每一读段的条件概率以及整个堆积物r＝{r1…rnr}的条件概率：接下来，给定观察的堆积物，计算每一候选解的后验概率：其中p(gm)指示候选解的先验概率，这在下文中详细阐述。最终，计算每个候选变异体vj的相对概率例如其中gm→vj指示gm支持变异体vj，且gm→ref指示gm支持参考。在vcf文件中，这可以报告为在phred尺度上的质量评分：本文相对于图25阐述用于执行各种变异体调用操作的示例性过程，其中比较常规与mrjd检测过程。具体地，图25示出在关注的范围内参考序列相差仅3个碱基的两个区的配对读段的联合堆积物。所有读段已知来自区#1或区#2，但不能确定知道任何个别读段发源自哪一个区。注意，如上文所描述，仅针对其中两个参考不同(例如，气泡区)或其中读段不同于参考的位置示出碱基。这些区称为作用位置。可忽略所有其它位置，因为它们不影响计算。因此，如相对于图25可见，在常规检测器中，读段对1-16将映射到区#2，且单独这些将用于区#2中的变异体调用。所有这些读段匹配于区#2的参考，因此将不调用变异体。同样，读段对17-23将映射到区#1，且单独这些将用于区#1中的变异体调用。如可见，所有这些读段匹配于区#1的参考，因此将不调用变异体。然而，读段对24-32同样好地映射到区#1和区#2(各自具有与参考#1和参考#2的一个碱基的差异)，因此映射是不确定的，且典型变异体调用器将简单地忽略这些读段。因此，常规变异体调用器将针对任一区不做出变异体调用，如图25中所见。然而，关于mrjd，图25示出结果完全不同于采用常规方法接收的结果。下文阐述相关计算。在此实例中，n＝2个区。另外，存在三个位置，各自具有2个候选碱基(可以安全地忽略计数足够低的碱基，且在此实例中在每一位置中的除了2个碱基外的所有碱基上计数是零)。如果考虑所有组合，那么这将产生k＝23＝8个候选单倍型：h1＝cat，h2＝caa，h3＝cct，h4＝cca，h5＝gat，h6＝gaa，h7＝gct，h8＝gca。在其中考虑所有候选单倍型的所有组合的蛮力计算中，候选解的数目是m＝k2n＝82.2＝4096，且可以针对每一候选解gm计算p(gm/r)。以下示出针对两个候选解的此计算：其中gm1不具有变异体(这是由常规检测器找到的解)，且gm2具有在区#1的位置#2的单个杂合snpa→c。概率p(ri|hk)取决于各种因数，包含碱基质量和hmm的其它参数。可假定仅碱基调用错误存在且所有碱基调用错误是同等可能的，因此p(ri|hk)＝(1-pe)np(i)-ne(i)(pe/3)ne(i)，其中pe是碱基调用错误的概率，np(i)是读段i重叠的作用碱基位置的数目，且ne(i)是读段i的错误的数目，假定单倍型hk。因此，可假定pe＝0.01，其对应于phred20的碱基质量。图26中所阐述的表示出所有读段对和所有候选单倍型的p(ri|hk)。最右边的两列示出p(ri|gm1)和p(ri|gm2)，乘积在底部。图26示出p(r|gm1)＝3.5-30和p(r|gm2)＝2.2-15，有利于gm2的15个数量级的差异。后验概率p(gm|r)取决于先验概率p(gm)。为了完成此实例，可以假设简单独立相同分布式(independentidenticallydistributed，iid)模型，以使得具有nv变异体的候选解的先验概率是(1-pv)n.np-nv(pv/9)nv，其中np是作用位置的数目(在此情况下为3)且pv是变异体的概率，在此实例中假设为0.01。这产生p(gm)＝7.22e-13，且p(gm2)＝0.500。应注意，gm2在区#1上是杂合的，且单倍型的所有杂合对具有同一概率的镜像表示(通过简单地调换相位而获得)。在此情况下，gm2和其镜像的概率的总和共计1.000。可见计算个体变异体的概率，在区#1的位置#2处的杂合a→csnp，其中质量评分为phred50.4。因此，如可见，对于执行蛮力变异体调用操作存在巨大的计算复杂性，通过执行如本文中所描述的多区联合检测可减小所述复杂性。举例来说，以上计算的复杂性随着区的数目n和候选单倍型的数目k快速增长。为了考虑候选单倍型的所有组合，将计算其概率的候选解的数目是m＝k2n。在蛮力实施方案中，候选单倍型的数目是k＝2np，其中np是作用位置的数目(例如，如上文例示，如果使用图组装技术来产生候选单倍型的列表，那么np是图中的独立气泡的数目)。因此，仅蛮力计算实施起来可能过于昂贵。举例来说，如果n＝3且np＝10，那么候选解的数目是m＝23.2.10＝260＝1018。然而，实际上，np的值远高于此并不罕见。因此，因为蛮力贝叶斯计算可能过于复杂，所以以下描述阐述用于减少此类计算的复杂性的另外方法。举例来说，在另一实施例的第一步骤中，开始于少量位置(或甚至单个位置)，可以在那些位置上执行贝叶斯计算。在计算结束时，可以例如在树的修剪功能中消除概率低于预定义阈值的候选者，如上文所描述。在此实例中，阈值可以是自适应的。接下来，在第二步骤中，位置的数目可以增加小数目δnp(例如一个：)，且存活的候选者可以例如在生长树功能中与在新位置的一个或多个(例如，所有)可能的候选者组合。(1)执行贝叶斯计算，(2)修剪树，且(3)生长树的步骤可以随后例如循序地重复，直到满足停止准则为止。随后可以使用阈值历史来确定结果的置信度(例如，找到或未找到真实解的概率)。此过程在图27中阐述的流程图中图示。应理解，此方法存在多种可能的变化。举例来说，如所指示，例如基于存活候选者的数目，修剪阈值可以是自适应的。举例来说，简单实施方案可以设定阈值以保持候选者的数目低于固定数目，而更复杂的实施方案可以基于包含额外候选者的成本收益分析而设定阈值。此外，简单停止准则可以是已找到具有足够置信度水平的结果，或在添加更多位置时在初始位置上的置信度已经停止增加。更进一步，更复杂的实施方案可以执行继续添加更多位置的某种类型的成本收益分析。另外，如相对于图27可见，添加新位置的次序可以取决于若干准则，例如到初始位置的距离或这些位置如何高度连接到已经包含的位置(例如，与配对读段的重叠量)。此算法的有用特征是可以量化未找到真实解的概率。举例来说，通过在每一步骤将所有修剪分支的概率简单地求和而获得有用估计：此估计可用于计算所得变异体调用的置信度：良好的置信度估计对于产生良好的接收器操作特性(receiveroperatingcharacteristic，roc)曲线是至关重要的。这是此修剪方法与其它特殊复杂性减少相比的关键优点。返回到图25的示例堆积物，且从最左位置(位置#1)开始且每次向右一个碱基位置运行，在每一迭代上使用phred60的修剪阈值：假设表示在第j个迭代上的候选解。图28示出在第一迭代上的候选解，表示按减小概率的次序列出的碱基c和g的所有组合。对于具有相等镜像表示(通过调换相位而获得)的任何解，此处示出仅单个表示。可计算所有候选解的概率，且超出修剪阈值(图28中由实线指示)的那些概率可被丢弃。如相对于图28可见，由于本文公开的修剪方法，六个候选者存活。接下来，如相对于图29可见，通过寻找来自迭代#1的存活候选者和位置#2中的候选碱基(c和a)的所有组合，树可以生长。图29中示出新候选者的部分列表，再次以减小概率的次序示出。再次，可计算概率且与修剪阈值进行比较，且在此实例中5个候选者存活。最终，可确定来自迭代#2的存活候选者和在位置#3的候选碱基(a和t)的所有组合。图30中示出最终候选者和其相关联概率。因此，当计算个别变异体的概率时，确定具有质量评分phred50.4的在区#1的位置#2处的杂合a→csnp，其为在蛮力计算中找到的相同结果。在此实例中，修剪对最终结果没有显著影响，但一般来说修剪可以影响计算，经常导致较高置信度得分。此方法的实施方案存在许多可能的变化，它们可以影响系统的性能和复杂性，且不同变化可以适合于不同情境。举例来说，在决定包含哪些区时可存在变化。举例来说，在运行多区联合检测(mrjd)之前，变异体调用器可以被配置成确定给定作用区是应当个别地处理还是与其它区联合地处理，且如果联合地处理，那么随后可以确定包含哪些区。在其它实例中，一些实施方案可能依赖于由映射器提供的二级对准的列表以便告知或另外做出此决策。其它实施方案可以使用例如基于参考基因组的搜索的离线计算的同源区的数据库。因此，此类操作中的有用步骤在于决定包含哪些位置。举例来说，应注意所关注的各个区可能不是自含式的和/或与邻近区隔离。因此，堆积物中的信息会影响分隔远超过总读段长度(例如，配对读段长度或长分子长度)的碱基的概率。因此，必须决定在mrjd计算中包含哪些位置，且位置的数目并非不受限的(即使使用修剪)。举例来说，一些实施方案可以处理位置的重叠块，且针对位置的子集基于在那些位置的置信度水平或在那些位置的证据的完整性而更新结果(例如，在块中间附近的位置通常与在边缘附近的那些位置相比具有更完整的证据)。另一决定因素可以是可以添加新位置的次序。举例来说，对于修剪mrjd，添加新位置的次序可以影响执行。举例来说，一些实施方案可以基于到已经包含的位置的距离或与这些位置的连接性的程度(例如，与两个位置重叠的读段的数目)而添加新位置。另外，关于可以如何执行修剪也存在许多变化。在上述示例中，修剪是基于固定概率阈值，但一般来说修剪阈值可以是自适应的或基于存活候选者的数目。举例来说，简单实施方案可以设定阈值以保持候选者的数目低于固定数目，而更复杂的实施方案可以基于包含额外候选者的成本收益分析而设定阈值。各种实施方案可以基于概率p(r|gm)而不是先验概率p(gm|r)来自执行修剪。这具有的优点是允许消除(除相位之外)跨越区的相等镜像表示。此优点至少部分地被未修剪掉具有极低先验概率的候选者的缺点低效，所述缺点在各种实例中可能是有益的。因此，有用的解决方案可以取决于情形。如果修剪是例如基于p(r|gm)完成，那么在最终迭代之后将执行一次贝叶斯计算。进一步在以上实例中，在处理示出的堆积物中的所有碱基位置之后过程停止，但其它停止准则也是可能的。举例来说，如果正求解碱基位置的仅子集(例如，当处理重叠块时)，当已以足够置信度水平找到所述子集的结果时，或当在添加更多位置时置信度已停止增加时，过程可以停止。然而，更复杂的实施方案可以执行某种类型的成本收益分析，将计算成本与添加更多位置的潜在价值进行权衡。先验概率也可以是适用的。举例来说，在上文的示例中，使用简单iid模型，但还可使用其它模型。举例来说，应注意，变异体的集群与iid模型将预测的情形相比更常见。还应注意，变异体更可能在其中参考不同的位置发生。因此，将此类知识并入到先验概率p(gm)中可改进检测性能且产生较好roc曲线。具体来说，应注意，同源区的先验概率在基因组学社区中未得到较好理解，且此知识仍在发展。因此，一些实施方案可以随着更好的信息变成可用而更新先验模型。这可以随着产生更多结果而自动完成。此类更新可基于其它生物样本或同一样本的基因组的其它区，这些学习可以应用于本文的方法以进一步促进更快速且准确的分析。因此，在一些实例中，可以实施迭代mjrd过程。具体地，本文所描述的方法可延伸以允许消息在相关区之间传递，以便进一步减少复杂性和/或增加系统的检测性能。举例来说，在一个位置的计算的输出可用作在附近位置的计算的输入先验概率。另外，一些实施方案可以使用修剪和迭代的组合以实现所需性能/复杂性折衷。此外，可以实施样本制备以优化mrjd过程。举例来说，对于成对端定序，当使用常规检测时在插入大小上具有紧密分布可能是有用的。然而，在各种实例中，在插入大小中引入变化可以显著改进mrjd的性能。举例来说，可以制备样本以有意引入双峰式分布、多模态分布或钟形曲线状分布，与常规检测通常将实施的情形相比具有更高的方差。图31示出针对人样本na12878在具有单个同源拷贝的基因组的选定区上的mrjd和常规检测器的roc曲线，使得n＝2，具有不同程度的参考序列相似性。此数据集使用成对端定序，具有101的读段长度和近似400的平均插入大小。如相对于图31可见，mrjd在这些区上提供比常规检测方法显著改进的灵敏度和特殊性。图32示出在1000个碱基的窗口上测量的随参考的序列相似性而变所显示的相同结果(例如，如果参考相差1000个中的10个碱基，那么相似性是99.0％)。对于此数据集，可见常规检测在序列相似性～0.98时开始表现不良，而mrjd直到0.995且甚至超出时也表现相当好。另外，在各种实例中，此方法可以延伸以允许消息在相关区之间传递，以进一步减少复杂性和/或增加检测性能。举例来说，在一个位置的计算的输出可用作在附近位置的计算的输入先验概率，且在一些实施方案中可以使用修剪和迭代的组合以实现所需性能/复杂性折衷。在特定实例中，如上文所指出，在运行多区联合检测之前，变异体调用器可以确定给定作用区是应当个别地处理还是与其它区联合地处理。另外，如上文所指出，一些实施方案可以依赖于由映射器提供的二级对准的列表以做出此决策。其它实施方案可以使用基于参考基因组的搜索离线计算的同源区的数据库。鉴于上文，成对确定隐式马尔可夫模型(pd-hmm可以一方式实施以便利用mrjd的益处。举例来说，mrjd可单独地估计在给定每一可能的联合双倍型的情况下观察到读段的一部分或全部的概率，其包括每同源参考区每倍性一个单倍型，例如对于二倍体染色体中的两个同源区，每一联合双倍型将包含四个单倍型。在此类实例中，举例来说，例如通过用存在非平凡证据的所有变异体的每个可能子集修改每一参考区进行构造，可以考虑可能的单倍型的全部或一部分。然而，对于长同源参考区，可能的变异体的数目是大的，因此单倍型(变异体的组合)的数目以指数方式变大，且联合双倍型(单倍型的组合)的数目可能是天文数字。因此，为了保持mrjd计算易控制，测试所有可能的联合双倍型可能没有用。而是在一些实例中，系统可以一方式配置以使得仅测试“最可能”联合双倍型的小子集。可以通过递增地构造部分确定联合双倍型的树来确定这些“最可能”联合双倍型。在此实例中，树的每一节点可以是每同源参考区每倍性包含部分确定单倍型的部分确定联合双倍型。在此实例中，部分确定单倍型可以包含通过可能变异体的部分确定子集修改的参考区。因此，可能变异体的部分确定子集可以针对每一可能变异体包含三个状态中的一个的指示：变异体被确定且存在，或变异体被确定且不存在，或变异体尚未确定，例如其可能存在或不存在。在树的根处，所有变异体在所有单倍型中是未确定的；连续分支更远离根的树节点在每一节点的联合双倍型的每一单倍型中具有被确定为存在或不存在的连续更多变异体。此外，在此联合双倍型树的上下文中，如上文所描述，通过修整树的其中所有联合双倍型节点相对于其它较可能的分支或节点来说是不太可能(例如，适度到极端不太可能)的分支而使mrjd计算的量保持受限且易控制。因此，可以在分支上在仍仅部分地确定的节点处执行此类修整；例如，从经修整节点的联合双倍型的单倍型仍未确定若干或许多变异体是存在的或不存在的。因此，在此实例中，能够估计或限制在假定部分确定单倍型的真实的情况下观察到每一读段的可能性是有用的。针对“部分确定成对隐式马尔可夫模型”表示为“pd-hmm”的修改的成对隐式马尔可夫模型(phmm)计算可用于估计在假定真实单倍型h*与部分确定单倍型h一致的情况下观察到读段r的概率p(r|h)。在此上下文中，一致是指相对于在h中确定其存在或不存在的所有变异体，某个特定真实单倍型h*与部分确定单倍型h一致，但对于在h中未确定的变异体，h*可能与通过每一未确定变异体修改或未修改的参考序列一致。应注意，对于被选择为仅涵盖确定变异体位置的h的某种较短子单倍型运行普通phmm计算可能大体上是不够的。大体上重要的是以高效次序建置具有正解析的未确定变异体的联合双倍型树，其大体上与其几何次序相当不同，以使得部分确定单倍型h将通常具有与确定的变异体位置交错的许多未确定变异体位置。为了恰当地考虑pcr插入缺失错误，使用横跨所有确定变异体和其周围显著半径的类似于phmm的计算是有用的，这可能与避开未确定变异体位置的尝试不相容。因此，对pd-hmm的输入可以包含读段r的所调用核苷酸序列、r的所调用核苷酸的碱基质量评分(例如，phred尺度)、基线单倍型h0，以及从h0的未确定变异体(编辑)的列表。未确定变异体可以包含单碱基取代(snp)、多碱基取代(mnp)、插入和缺失。有利的是，支持未确定snp和缺失可能是足够的。未确定mnp可能不完美地但充分地表示为多个独立snp。可以通过首先编辑到基线单倍型中的插入，随后指示将撤销所述插入的对应未确定缺失，来表示未确定插入。可以对未确定缺失施加限制，以促进具有有限状态存储器和逻辑的硬件引擎实施方案，例如没有两个未确定缺失可以重叠(缺失同一基线单倍型碱基)。如果必须以违反此类限制的未确定变异体来测试部分确定单倍型，那么这可以通过在大量pd-hmm操作中将一个或多个未确定变异体转换为确定变异体来解析，涵盖那些变异体存在或不存在的情况。举例来说，如果两个未确定缺失a和b通过在基线单倍型h0中彼此重叠而违反，那么缺失b可以编辑到h0中而产生h0b，且可以仅使用未确定缺失a执行两个pd-hmm操作，一个用于基线单倍型h0，且另一个用于基线单倍型h0b，且所述两个pd-hmm操作的最大概率输出可以保持。pd-hmm操作的结果可以是可通过用未确定变异体的任何子集编辑h0而形成的所有单倍型h*当中的最大p(r|h*)的估计。所述最大化可以局部完成，有助于给定单元中的类似于phmm的动态编程，就好象邻近未确定变异体存在或不存在于单倍型中，无论哪个评分更好，例如，贡献更大的部分概率。在动态编程期间的此局部最大化与个别纯h*单倍型上的真实最大化相比可以导致最大p(r|h*)的更大估计，但差异大体上是无关紧要的。通过允许针对每一单倍型位置指定一个或多个匹配核苷酸值，可以将未确定snp并入到pd-hmm中。举例来说，如果h0的碱基30是‘c’且未确定snp以‘t’代替此‘c’，那么pd-hmm操作的单倍型可以指示位置30为匹配于碱基‘c’和‘t’两者。在通常的phmm动态编程中，到‘m’状态的任何转变会导致将路径概率乘以正确碱基调用的概率(如果单倍型位置匹配于读段位置)或乘以特定碱基调用错误的概率(如果单倍型位置失配于读段位置)；对于pd-hmm，这是通过使用正确调用概率来修改，前提是读段位置匹配于可能的单倍型碱基(例如，‘c’或‘t’)，且否则为碱基调用错误概率。通过标记任选地缺失单倍型位置，且修改phmm的动态编程以允许对准路径水平地跳过跨越未确定缺失单倍型片段而无概率损失，可以将未确定单倍型缺失并入到pd-hmm中。这可以各种方式完成，但共同性质是m、i和/或d状态中的概率值可在未确定缺失的跨度上水平地(沿着单倍型轴线)传输而不会被普通间隙开放或间隙延伸概率减少。在一个特定实施例中，其中未确定缺失开始的单倍型位置被标记为“f1”，且其中未确定缺失结束的位置被标记为“f2”。除hmm矩阵(单倍型水平/读段垂直)的每一单元的m、i和d“状态”(部分概率表示)之外，每一pd-hmm单元还可进一步包含bm、bi和bd“旁路”状态。在f1标记的单倍型列中，bm、bi和bd状态分别接收从左边单元的m、i和d状态复制的值。在非f2标记的单倍型列中，具体来说从f1标记列末端开始延伸到未确定缺失的内部中的列，bm、bi和bd状态分别将其值传输到右边单元的bm、bi和bd状态。在f2标记的单倍型列中，代替用以计算邻近单元的状态的m、i和d状态，分别使用m和bm的最大值，且使用i和bi的最大值，且使用d和bd的最大值。这在f2列中例示为来自m和bm、来自i和bi以及来自d和bd寄存器的信号的多路复用选择。应注意，虽然bm、bi和db状态寄存器可以在f1至f2列中表示，且最大化m/bm、i/bi和d/bd多路复用器可以在f2列中示出，但这些组件可以对于所有单元计算存在，从而能够在任何位置处置未确定缺失，且能够处置在整个单倍型中具有对应f1和f2旗标的多个未确定缺失。还请注意，对于单碱基未确定缺失的情况，f1和f2旗标可以在同一列中。还应注意，pd-hmm单元矩阵可以描绘为逻辑m、i、d、bm、bi和bd状态计算的示意表示，但在硬件实施方案中，可能存在较小数目的单元计算逻辑元件，且适当地成管线式而以高时钟频率计算m、d、i、bm、bi和bd状态值，且可以各种程度的硬件并行性以与pd-hmm计算的固有逻辑相依性一致的各种次序来计算矩阵单元。因此，在此实施例中，一个列中的phmm状态值可以在未确定缺失的紧邻左边，所述未确定缺失可以被捕获且不变地向右传输到此未确定缺失的最右边列，在此每当所述状态值打败正常路径评分它们便取代到phmm计算中。在选择这些最大值的情况下，“旁路”状态值bm、bi和bd表示其中未确定缺失将取为存在的局部动态编程结果，而“正常”状态值m、i和d表示其中未确定缺失将取为不存在的局部动态编程结果。在另一实施例中，可以使用单个旁路状态，例如从f1标记列中的m状态接收或接收m、d和/或i状态的总和的bm状态。在另一实施例中，不是使用“旁路”状态，而是在未确定缺失的列内消除间隙开放和/或间隙延伸罚分。在另一实施例中，旁路状态叠加地贡献于未确定缺失向右的动态编程，而不是使用局部最大化。在又一实施例中，使用更多或更少或不同定义或不同定位的单倍型位置旗标来触发旁路或相似表现，例如指示未确定缺失中的成员资格的单个旗标。在另一个实施例中，两个或更多个重叠的未确定缺失可以参与，例如通过使用额外旗标和/或旁路状态。另外，支持单倍型中的未确定插入而不是未确定缺失，或除未确定缺失之外还支持单倍型中的未确定插入。同样，支持读段轴线上的未确定插入和/或缺失而不是单倍型轴线上的未确定缺失和/或插入，或除单倍型轴线上的未确定缺失和/或插入之外还支持读段轴线上的未确定插入和/或缺失。在另一实施例中，支持未确定多核苷酸取代作为原子变异体(全部存在或全部不存在)。在又一实施例中，支持未确定长度变化的取代作为原子变异体。在另一实施例中，以固定或可配置的概率或评分调整来惩罚未确定变异体。例如在fpga或asic技术中，通过延伸用于“普通”phmm计算的硬件引擎架构可以实施此pd-hmm计算，或可以通过量子计算平台中的一个或多个量子电路来实施。除用以计算、传输和存储各种或连续单元的m、i和d状态值的引擎管线逻辑之外，还可构造并行管线逻辑以计算、传输和存储bm、bi和bd状态值，如此处和上文所描述。用于m、i和d状态值的存储和检索的存储器资源和端口可伴随有相似或更宽或更深的存储器资源以及用于bm、bi和bd状态值的存储和检索的端口。例如f1和f2等旗标可以连同相关联单倍型碱基一起存储于存储器中。用于例如未确定snp单倍型位置的多个匹配核苷酸可以任何方式编码，例如使用每可能的核苷酸值一个位的向量。phmm矩阵中的单元计算相依性在pd-hmm中是不变的，因此多个单元计算的次序和管线化对于pd-hmm可保持相同。然而，用于完整单元计算的时间和/或时钟循环上的时延对于pd-hmm稍微增加，原因在于比较“正常”与“旁路”状态值且选择较大的状态值的要求。因此，可能有利的是包含一个或多个额外管线级用于pd-hmm单元计算，从而导致额外时钟循环的时延。另外，可能还有利的是加宽通过一个或多个行计算的单元的每一“条带”，以保持较长管线被填充而无相依性问题。此pd-hmm计算跟踪的状态值(除m、i和d之外，还有bm、bi和bd)多达普通phmm计算的两倍，且可能需要用于相等处理量引擎实施例的硬件资源的约两倍。然而，pd-hmm引擎对于增加数目的未确定变异体具有指数级速度和效率优点，而普通phmm引擎对于表示未确定变异体存在或不存在的相异组合的每一单倍型仅运行一次。举例来说，如果部分确定的单倍型具有30个未确定变异体，其中的每一个可独立地存在或不存在，那么存在phmm原本需要处理的2^30或多于10亿个相异的特定单倍型。因此，可以执行本文公开的这些和其它此类操作，以便较好理解和准确预测受试者的基因组发生了什么以使得读段关于参考变化。举例来说，即使突变的发生可以是随机的，也存在其中其发生的可能性表现为在某一程度上潜在地可预测的实例。具体来说，在一些情况下当突变发生时，它们可以在某些所界定位置且以某些形式发生。更确切地说，突变如果发生则将在一个等位基因或另一等位基因或这两者上发生，且将具有在某些位置中优先于其它位置发生的倾向，例如在染色体的末端处。因此，这种和其它关联信息可以用于开发突变模型，所述模型可以产生且用于更好地评估基因组的一个或多个区中的突变的可能存在。举例来说，通过考虑各种先验知识，例如一个或多个突变模型，当执行基因组变异分析时，例如通过基因突变的更准确分界可以获得更好且更准确的基因组分析结果。此类突变模型可以考虑各种已知突变和/或表现为彼此结合或另外非随机地发生的突变的频率和/或位置。举例来说，已确定变异更主要地朝向给定染色体的末端发生。因此，可产生突变的已知模型，存储于本文的数据库中，且由系统使用以做出正分析的基因组数据内的一个或多个变异存在的较好预测。另外，也可以实施如本文在下文较详细描述的机器学习过程，以使得可以例如根据本文公开的机器学习原理来分析由本文执行的分析导出的各种结果数据且用以较好地告知系统何时做出特定变化调用。具体地，机器学习可以对集合数据集实施，特别地相对于所确定的变异实施，且此学习可以用于更好地产生更全面的突变模型，所述模型又可以用于做出较准确的变化确定。因此，系统可以被配置成观察所有各种变异数据，挖掘所述数据以得到各种相关，且在找到相关的情况下，此类信息可以例如在进行中的基础上用于更好地加权并且因此更准确地确定其它基因组样本中的其它变异的存在。因此，以例如此方式，系统，特别是变异体调用机制，可以相对于学习的变异体相关数据恒定地更新，以便推动较好的变异体调用，以便得到更好且更准确的结果数据。具体地，可以使用遥测来更新生长突变模型以便实现系统中的较好分析。这当分析例如在同一地理群体内的在一定程度上彼此联系的样本时可具有特定有用性，和/或可以用于确定大量参考基因组中的哪一个参考基因组可以是将用于分析特定样本的较好参考基因组。此外，在各种实例中，可以采用突变模型和/或遥测以便较好地选择在系统过程中将采用的参考基因组，且进而增强系统的结果的准确性和效率。具体来说，在本文的一个或多个分析中可以采用多个参考基因组的情况下，例如通过应用突变模型因此选择最适当参考基因组来应用，可以选择特定参考基因组优先于其它参考基因组来使用。应注意当执行二级分析时，正映射和对准的基因组的每一区的基本结构可以包含一个或多个底层基因。因此，在各种实例中，底层基因和/或它们编码的蛋白质的功能的此理解可以当执行二级分析时提供信息。具体来说，例如在生物情境敏感突变模型的过程中，三级指示和/或结果可以有用于当前系统正运行的二级分析协议。更确切地说，由于dna编码基因，基因编码蛋白质，因此关于导致突变和/或异常功能的此类蛋白质的信息可以用于告知在对受试者的基因组的二级和/或三级分析的执行中正采用的突变模型。举例来说，例如对编码突变蛋白质的基因的样本集合的三级分析可以当执行已知编码此类突变的基因组区的二级分析时提供信息。因此如上文所阐述，各种三级处理结果可以用于告知和/或更新本文所使用的突变模型以用于当执行本文公开的各种二级分析操作时实现较好准确性和效率。具体地，关于突变蛋白质的信息，例如上下文三级分析，可以用于当执行已知编码蛋白质和/或潜在地包含此类突变的那些区的二级分析时更新突变模型因此，鉴于上文，对于涉及fpga加速映射、对准、分选和/或变异体调用应用的实施例，这些功能中的一个或多个可以实施于软件和硬件(hardware，hw)处理组件中的一个或两个中，例如在传统cpu、gpu、qpu上运行的软件，和/或例如可以实施于fpga、asic、sasic及类似物中的固件。在此类实例中，cpu和fpga需要能够通信以便将来自一个步骤的结果传递到一个装置上，例如cpu或fpga，以在另一装置上在下一步骤中进行处理。举例来说，在运行映射功能的情况下，例如参考的索引等大数据结构的建置可以由cpu实施，其中相对于其的散列函数的运行可以由fpga实施。在此实例中，cpu可以建置数据结构，将其存储于相关联存储器中，例如dram，所述存储器可以随后由在fpga上运行的处理引擎存取。举例来说，在一些实施例中，cpu与fpga之间的通信可以由例如外围总线等任何合适的互连件实施，例如pcie总线、usb或例如以太网等联网接口。然而，pcie总线在cpu与fpga之间可能是比较松散的集成，由此这两者之间的传输时延可能相对高。因此，虽然一个装置例如(cpu或fpga)可以存取附接到另一装置的存储器(例如，通过dma传送)，但存取的存储器区是非高速缓存的，因为不存在维持所述两个装置之间的高速缓存一致性的设施。因此，cpu与fpga之间的传输受限于在大的高级处理步骤之间发生，且大量输入和输出必须在装置之间排队，因此它们不会彼此减慢来等待高时延操作。这减慢了本文公开的各种处理操作。此外，当fpga存取非可高速缓存的cpu存储器时，此存取的满负荷施加于cpu的外部存储器接口，所述外部存储器接口与其内部高速缓冲存储器接口相比是带宽有限的。因此，由于此类松散的cpu/fpga集成，一般必需具有对fpga接口的“集中”软件控制。在此类实例中，各种软件线程可以处理各种数据单元，但当这些线程产生有待fpga引擎执行的工作时，所述工作必须聚集于“中心”缓冲器中，例如通过单个聚合器软件线程，或通过经由信号量锁定聚合存取的多个线程，其中经由由例如内核空间驱动器等中心软件模块管理的dma包传输所聚集的工作。因此，在结果由hw引擎产生时，反向过程发生，其中软件驱动器从hw接收dma包，且解聚合器线程将结果分布到各种等待的软件工作者线程。然而，与hwfpga逻辑的通信的这种集中软件控制在资源使用方面是繁琐的且昂贵的，降低软件线程化和hw/软件通信的效率，限制实际hw/软件通信带宽，且显著地增加其时延。另外，如相对于图33a可见，cpu1000与fpga7之间的松散集成可能需要每一装置具有其自身的专用外部存储器，例如dram1014、14。如图33a中所描绘，cpu1000在系统母板上具有其自身的dram1014，例如ddr3或ddr4dimm，而fpga7具有其自身的专用dram14，例如四个8gbsodimm，其可以经由例如高时延pcie总线等一个或多个ddr3总线6直接连接到fpga7。同样，cpu1000可以例如通过合适配置的总线1006可通信地耦合到其自身的dram1014。如上文所指出，fpga7可以被配置成包含一个或多个处理引擎13，所述处理引擎可以被配置成用于在如本文中所述的生物信息学管线中执行一个或多个功能，例如其中fpga7包含映射引擎13a、对准引擎13b和变异体调用引擎13c。也可以包含如本文中所描述的其它引擎。在各种实施例中，cpu中的一个或两个可以被配置以便分别包含高速缓冲存储器1014a、14a，其能够存储数据，例如由系统的例如一个或多个存储器和/或处理引擎等各种组件中的一个或多个向其传送的结果数据。本文公开的将由fpga7执行以用于基因组处理的许多操作需要大存储器存取以用于底层操作的执行。具体地，由于涉及的大数据单元，例如30亿以上的核苷酸参考基因组、定序器读段数据的1千亿以上的核苷酸等，fpga7可能需要存取主机存储器1014大量的次数，以例如用于存取索引，例如30gb散列表或其它参考基因组索引，例如用于将种子从定序dna/rna查询映射到3gbp参考基因组和/或用于例如从参考基因组获取候选者片段以进行对准的目的。因此，在本文所公开的系统的各种实施方案中，许多快速随机存储器存取可能需要由硬接线处理引擎13中的一个或多个来进行，例如在映射、对准和/或变异体调用操作的执行时。然而，fpga7在外围总线3或者到附接到主机cpu1000的存储器1014的其它联网链路上做出如此多的小随机存取可能非常不切实际。举例来说，在此类实例中，例如对于此类小随机存取，返回数据的时延可能极高，总线效率可能极低，且cpu外部存储器接口1006上的负担可能过大。另外，由于每一装置需要其自身的专用外部存储器，因此完整cpu1000+fpga7平台的典型形状因数被迫大于例如对于一些应用可为合意的情况。在此类实例中，除用于一个或多个cpu1000和支持芯片7及存储器1014和/或14的标准系统主板之外，板上还需要用于大fpga封装(可能甚至需要更大以便具有用于若干外部存储器总线的足够引脚)和若干存储器模块1014、14的空间。然而，标准主板并不包含这些组件，它们也不容易具有用于这些组件的空间，因此实际实施例可以被配置成利用扩展卡2，其含有fpga7、其存储器14和例如电源等其它支持组件，例如连接到cpu主板上的pcie扩展槽。为了具有用于扩展卡2的空间，系统可以制造于足够大的机箱中，例如1u或2u或更大的机架安装服务器。鉴于上文，在各种实例中，如相对于图33b可见，为了克服这些因素，可能需要将cpu1000配置为与fpga7成紧密耦合布置。具体来说，在各种实例中，fpga7可以例如通过例如快速路径互连件(quickpathinterconnect，qpi)等低时延互连件3紧密耦合到cpu1000。具体地，为了建立较紧密的cpu+fpga集成，所述两个装置可以通过任何合适的低时延接口连接，例如“处理器互连件”或类似物，例如快速路径互连件(qpi)或超传输(hypertransport，ht)。因此，如相对于图33b所见，提供系统1，其中所述系统包含cpu1000和处理器，例如fpga7，其中两个装置与一个或多个存储器模块相关联。举例来说，如所描绘，cpu1000可以例如经由合适配置的总线1006耦合到dram1014，且同样，fpga7经由ddr3总线6可通信地耦合到相关联存储器14。然而，在此实例中，并非例如通过例如pcie接口等典型高时延互连件彼此耦合，cpu1000通过例如qpi的低时延超传输互连件3耦合到fpga7。在此实例中，由于此类互连件的固有低时延性质，cpu1000和fpga7的相关联存储器1014、14容易彼此进行存取。另外，在各种实例中，由于此紧密耦合配置，可以配置与装置相关联的一个或多个高速缓冲存储器1114a/14a以便相对于彼此是相干的。此紧密耦合cpu/fpga互连件的一些关键性质包含高带宽，例如12.8gb/s；低时延，例如100-300ns；被设计允许高效远程存储器存取和高效小存储器传送(例如，约64字节或更小)的经适配协议；以及用于高速缓冲存储器存取和高速缓冲存储器相干性的支持协议和cpu集成。在此类实例中，用于与给定cpu1000的此类紧密集成的自然互连件可以是其原生cpu到cpu互连件1003，其在此可以用于使多个核心和多个cpu能够在共享存储器1014空间中并行地操作，进而允许以高速缓冲存储器相干的方式存取彼此的高速缓冲存储器堆叠和外部存储器。因此，如相对于图34a和34b可见，可以提供板2，例如其中板可以被配置成例如经由多个互连件1003接纳一个或多个cpu1000，所述互连件例如原生cpu-cpu互连件1003a和1003b。然而，在此实例中，如图34a中所描绘，cpu1000被配置以便耦合到互连件1003a，而不是经由互连件1003b与其耦合的另一cpu，本公开的fpga7被配置以便与其耦合。另外，系统1被配置成使得cpu1000可以例如通过低时延紧密耦合互连件3耦合到相关联fpga7。在此类实例中，可以制作与相应装置1000、7相关联的每一存储器1014、14以便例如以高带宽高速缓冲存储器相干的方式对彼此可进行存取。同样，如相对于图34b可见，系统也可被配置以便接纳封装1002a和/或1002b，例如其中封装中的每一个包含例如经由低时延互连件3a和3b紧密耦合到一个或多个fpga7a、7b的一个或多个cpu1000a、1000b，例如其中给定系统架构，每一封装2a和2b可以例如经由紧密耦合互连件3彼此耦合。此外，如相对于图35可见，在各种实例中，可以提供封装1002a，其中封装1002a包含cpu1000，其已以此方式制造以便与例如fpga7的集成电路紧密耦合。在此实例中，由于cpu1000和fpga7的紧密耦合，系统可以被构造以使得它们能够例如相对于存储于其中的数据以一致、相干且容易由这两个装置中的任一装置存取的方式直接共享高速缓冲存储器1014a。因此，在此类实例中，fpga7和或封装2a/2b实际上可以装作另一cpu，且进而与一个或多个cpu在高速缓冲存储器相干的共享存储器环境中操作，恰如同多个cpu在多插槽主板1002上或多个cpu核心在多核心cpu装置内。通过此fpga/cpu互连件，fpga7可高效地共享cpu存储器1014，而不是具有其自身的可以或不可以包含或存取的专用外部存储器14。因此，在此类配置中，快速、短的随机存取由互连件3例如以低时延来高效地支持。这使得fpga7中的各种处理引擎13存取cpu存储器1000中的大数据结构是实际且高效的。举例来说，如相对于图37可见，提供用于执行本文公开的方法中的一个或多个的系统，例如其中所述方法包含用于以共享方式执行本公开的功能的一个或多个步骤，所述功能例如如本文所描述的一个或多个映射和/或对准和/或变异体调用功能。具体来说，在一个步骤(1)中可以例如由ngs和/或cpu1000产生或另外提供数据结构，所述数据结构可以随后存储于相关联存储器(2)中，例如dram1014。例如相对于本文所描述的那些，所述数据结构可以是任何数据结构，但在此实例中，可以是定序数据的多个读段和/或参考基因组和/或参考基因组的索引，例如用于映射和/或对准和/或变异体调用功能的执行。在第二步骤(2)中，例如相对于映射和/或对准等功能，例如通过紧密耦合接口3与cpu1000相关联的fpga7可以存取cpu相关联存储器1014，以便相对于存储的定序读段、参考基因组和/或其索引执行一个或多个动作。具体来说，在步骤(3)中，例如在示例性映射操作中，fpga7可以存取所述数据结构，例如定序读段和/或参考序列，以便从其产生一个或多个种子，例如其中所述数据结构包含一个或多个读段和/或基因组参考序列。在此实例中，可以采用种子例如或参考和/或读段序列以用于相对于其执行散列函数的目的，以便产生已经映射到相对于参考基因组的一个或多个位置的一个或多个读段。在又一步骤(3)中，映射的结果数据可以存储在例如主机存储器1014中或相关联dram14中。另外，一旦数据已映射，fpga7或其处理引擎13就可以被重新配置，例如部分地重新配置为对准引擎，其可以随后存取存储的映射数据结构以便对其执行对准功能，以便产生已经对准到参考基因组的一个或多个读段。在额外步骤(4)中，主机cpu可以随后存取映射和/或对准的数据以便对其执行一个或多个功能，例如用于产生debrujin图(“dbg”)，所述dbg可以随后存储于其相关联存储器中。同样，在一个或多个额外步骤中，fpga7可以再次存取主机cpu存储器1014以便存取dbg且对其执行hmm分析，以便产生一个或多个变异体调用文件。在特定实例中，cpu1000和/或fpga7可以具有一个或多个存储器高速缓冲存储器，其由于两个装置之间的接口的紧密耦合而将允许单独高速缓冲存储器例如相对于存储于其上的过渡数据(例如，结果数据)是相干的，所述数据例如来自此处的一个或多个功能的执行的结果。以例如此方式，数据可以在紧密耦合的装置之间基本上无缝地共享，从而允许功能的管线例如在生物信息学管线中交织在一起。因此，在此实例中，fpga7可以不再必须附接有其自身的专用外部存储器14，且因此，由于此紧密耦合配置，如本文中所述的存储读段、参考基因组和/或参考基因组索引可以例如以高速缓冲存储器相干的方式集中地共享，例如用于读段映射和对准以及其它基因组数据处理操作。另外，如相对于图38可见，低时延和高速缓冲存储器相干性配置以及本文所论述的其它组件配置允许在一个装置中(例如，cpu或fpga中)执行较小的较低级操作，然后将数据结构或处理线程20传递回到另一装置，例如用于进一步处理。举例来说，在一个实例中，cpu线程20a可以被配置成排队大量的工作供fpga硬件逻辑13进行处理，且同一或另一线程20b可以被配置成随后例如在基本上较晚时间处理由此产生的结果数据的大队列。然而，在各种实例中，如本文呈现，单个cpu线程20对耦合的fpga硬件引擎13做出阻挡“功能调用”可能更高效，所述cpu可以设定成fpga的硬件功能一完成就恢复软件执行。因此，并非以包封装数据结构以由dma14流式传输到fpga7中且当它们返回时将结果解包，软件线程20可以简单地提供到fpga引擎13的存储器指针，其可以高速缓冲存储器相干的方式在适当的位置存取和修改共享存储器1014/14。具体来说，给定本文所提供的结构之间的关系，软件/硬件协作的粒度可以更加精细，其中分配小得多的较低层级操作以便由各种硬件引擎13执行，例如来自各种分配软件线程20的功能调用。举例来说，在松散的cpu/fpga互连平台中，为了dna/rna读段映射、对准和/或变异体调用的高效加速，完整映射/对准/变异体调用管线可以构造为一个或多个软件和/或fpga引擎，其中未映射和未对准读段从软件流式传输到硬件，且完全映射和对准读段从硬件流式传输回到软件，其中过程可以重复，例如用于变异体调用。相对于本文描述的配置，这可以非常快。然而，在各种实例中，此系统可能受到灵活性、复杂性和/或可编程性的限制，此因为整个映射/对准和/或变异体调用管线是实施于硬件电路中，其虽然在fpga可重新配置，但是与软件相比灵活性和可编程性低得多，且因此可能受限于较少的算法复杂性。相比之下，使用紧密cpu/fpga互连件，例如本文公开的配置中的qpi或其它互连件，若干资源昂贵的离散操作，例如种子产生和/或映射、救援扫描、无间隙对准、有间隙(例如，smith-waterman)对准等，可被实施为相异的单独可存取的硬件引擎13，例如见图38，且总体映射/对准和/或变异体调用算法可实施于软件中，具有对fpga的低层级加速调用以用于特定昂贵处理步骤。与标准硬件实施操作相比，此框架允许特定加速调用之外的完整软件可编程性，且实现较大的算法复杂性和灵活性。此外，在通过离散低层级fpga硬件加速调用加速的软件执行的此框架中，硬件加速功能可以出于多个目的而更容易地共享。举例来说，当硬件引擎13形成大的单片管线时，个别管线子组件可以大体上专用于其环境，且仅在一个管线内互连，它们除非紧密耦合，否则通常不能出于任何目的进行存取。但许多基因组数据处理操作，例如smith-waterman对准、无间隙对准、debruijn或组装图构造和其它此类操作，可在各种较高层级亲代算法中使用。举例来说，如本文所描述，smith-waterman对准可例如相对于参考基因组在dna/rna读段映射和对准中使用，但也可以被配置以便由基于单倍型的变异体调用器使用，以例如在hmm分析和/或变异体调用功能中将候选单倍型对准到参考基因组或对准到彼此或对准到定序读段。因此，经由一般软件功能调用暴露各种离散低层级硬件加速功能可以使得能够贯穿基因组数据处理应用，例如在对准和变异体调用(例如，hmm)操作两者的执行中利用同一加速逻辑，例如，13。通过紧密cpu/fpga互连，对与本文所描述的各种fpga硬件引擎13的通信具有分布式而不是集中式cpu1000软件控制也是实用的。在多线程、多核且多cpu软件设计的广泛实践中，许多软件线程和进程无缝地通信和协作，而不需要任何中心软件模块、驱动器或线程管理相互通信。在此格式中，这实际是由于高速缓冲存储器相干的共享存储器，其对所有cpu中的所有核心中的所有线程可见；而物理上，核心与cpu之间的相干存储器共享是通过例如qpi或ht的处理器互连件上的相互通信来发生。以类似方式，如相对于图36-38可见，本文所提供的系统可以具有可成紧密cpu/fpga互连配置的若干cpu和/或fpga，所述配置并入有大量线程，例如20a、b、c，以及在一个或多个核心和/或cpu(例如，1000a、100b和1000c)上运行的大量进程。因此，系统组件被配置成用于例如在各种不同cpu和/或fpga硬件加速引擎之间，例如通过使用各种cpu和fpga之间的相干存储器共享而以分布式方式彼此通信和协作。举例来说，如相对于图36可见，大量cpu核心1000a、1000b和1000c可一方式耦合在一起以便共享一个或多个存储器，例如dram1014，和/或具有一个或多个层(例如，l1、l2、l3等)或与其相关联的层级的一个或多个高速缓存器。同样，相对于图38，在另一实施例中，单个cpu1000可以被配置成包含多个核心1000a、1000b和1000c，其可以一方式耦合在一起以便共享一个或多个存储器，例如dram1014，和/或具有一个或多个层或与其相关联的层级的一个或多个高速缓存器1014a。因此，在任一实施例中，将从来自一个或多个cpu核心1000的一个或多个软件线程20传递到例如fpga的硬件引擎13或反之亦然的数据可以在对每一装置可见的共享存储器1014或高速缓冲存储器和/或其层中连续地和/或无缝地更新。另外，对处理共享存储器1014中的数据的请求或其中更新的结果的通知可以例如在合适配置的总线(例如，ddr4总线)上例如在可实施于共享存储器自身内的队列中在软件和/或硬件之间用信号表示。用于控制、传送和数据保护的标准软件机制，例如信号量、互斥量和原子整数，也可类似地实施以用于软件/硬件协调。因此，在一些实施例中，如图36中例示，在由于在紧密cpu/fpga互连件上的高速缓冲存储器相干的存储器共享而不需要fpga7具有其自身的专用存储器14或其它外部资源的情况下，在传统的cpu1000主板内更紧凑地且原生地封装fpga7而不使用扩展卡变得更加实际。参见例如图34a和34b以及图35。若干封装替代方案是可用的。具体地，fpga7可以例如通过使用例如小pc板2等适当内插件或在cpu芯片封装2a内的fpga裸片的替代导线接合封装而安装到多cpu主板上的cpu插座中，如图34a和34b中所示，其中cpu插座引脚适当地路由到fpga引脚，且包含电力和接地连接、处理器互连件3(qpi、ht等)和其它系统连接。因此，fpga裸片和cpu裸片可以通过在封装2a内制作的必要连接而包含于同一多芯片封装(multi-chippackage，mcp)中，包含电力、接地和cpu/fpga互连件。通过裸片到裸片导线接合，或通过到共同衬底或内插件的连接，或通过堆叠裸片之间的结合衬垫或硅穿孔，可以做出裸片间连接。另外，在各种实施方案中，使用芯片上系统(system-on-a-chip，soc)方法可以在单个裸片上制造fpga和cpu核心，见图35。在任何这些情况中，定制逻辑(例如，17)可以在fpga7内部实例化以例如通过恰当地专用协议在cpu/fpga互连件3上通信，且经由适当协议来服务、转换和/或路由从内部fpga引擎13到cpu/fpga互连件3的存储器存取请求到共享存储器1014a。另外，此逻辑中的一些或全部可以固化到定制硅中，以避免为此目的用完fpga逻辑面积，例如其中所固化逻辑可以驻留在cpu裸片和/或fpga裸片或单独裸片上。并且，在任何这些情况中，例如在单个封装(mcp或soc)内可以适当地实现电力供应和散热要求。此外，fpga大小和cpu核心数可以选择为保持在安全功率范围内，和/或可以使用动态方法(时钟频率管理、时钟门控、核心停用、功率岛状物等)来根据改变cpu和/或fpga计算需求而调节功率消耗。所有这些封装选项共享若干优点。紧密集成的cpu/fpga平台变成与多种大小的标准主板和/或系统机箱兼容。如果fpga是经由cpu插座中的内插件安装，见图34a和34b，那么可以采用至少双插座主板1002。在其它实例中，可以采用四插座主板以便允许实施3cpu+1fpga、2cpu+2fpga或1cpu+3fpga等配置。如果每一fpga与cpu(mcp或soc)驻留于同一芯片封装中，那么可以采用单插座主板，可能在极小的机箱中(尽管描绘了双插座主板)；这也很好地向上扩展，例如4插座服务器主板上的4个fpga和4个多核cpu，但仍然可以在紧凑的机箱中操作，例如1u机架安装服务器。因此，在各种实例中，因此可能不需要安装扩展卡以便集成cpu和fpga加速，因为fpga7可以集成到cpu插座1003中。此实施方案避免了扩展卡的额外空间和电力要求，且避免了扩展卡相对于相对低可靠性组件有时具有的各种额外故障点。此外，高效但由于大批量生产而低成本的标准cpu冷却解决方案(头部散热器、热管和/或风扇)可以在cpu插座中应用于fpga或cpu/fpga封装，而用于扩展卡的冷却可为昂贵且低效的。同样，fpga/内插件和/或cpu/fpga封装可以包含cpu插座的满功率供应，例如150w，而标准扩展卡可能是功率有限的，例如来自pcie总线的25w或75w。在各种实例中，对于基因组数据处理应用，所有这些封装选项可以促进紧密集成式cpu+fpga计算平台例如在dna定序器内的容易安装。举例来说，典型现代“下一代”dna定序器含有在机箱内的定序设备(样本和试剂存储、流体学管路和控制、传感器阵列、主要图像和/或信号处理)，所述机箱还含有标准或定制服务器主板，其接线到定序设备以用于定序控制和数据获取。如本文中所述的紧密集成式cpu+fpga平台可以例如通过在其现有主板的cpu插座中简单地安装一个或多个fpga/内插件和/或fpga/cpu封装，或替代地通过以如本文所公开的例如紧密耦合的cpu和fpga两者来安装新主板，而在此定序器中实现。此外，所有这些封装选项可以被配置成促进紧密集成式cpu+fpga平台例如容易部署到云可访问的和/或数据中心服务器机架中，其包含具有极高可靠性/可用性的紧凑/密集服务器。因此，根据本文中的教示，存在用于从dna(或rna)定序到映射和对准到分选和/或去除重复到变异体调用的数据的许多处理级，其可取决于采用的一级和/或二级和/或三级处理技术及其应用而变化。此类处理步骤可以包含以下中的一个或多个：对来自定序器的电测量值的信号处理，对来自定序器的光学测量值的图像处理，使用所处理信号或图像数据以确定最可能核苷酸序列和置信度分数的碱基调用，过滤具有低质量的定序读段或多克隆集群，检测和调整适配器，关键序列，条码，和低质量读段末端，以及从头开始序列组装，产生和/或利用debruijn图和/或序列图，例如debruijn和序列图构造，编辑、调整、清理、修复、染色、标注、比较、变换、分裂、拼接、分析、子图选择、穿越、迭代、递归、搜索、过滤、导入、导出，包含将读段映射到参考基因组，将读段对准到参考基因组中的候选映射位置，映射到参考区的读段的局部组装，通过对准位置、标记和/或移除重复读段而分选读段，包含pcr或光学复制，多个重叠读段针对插入缺失一致性的重新对准，碱基质量评分再校准，变异体调用(单个样本或联合)，结构变异体分析，拷贝编号变异体分析，体细胞变异体调用(例如，仅肿瘤样本、匹配肿瘤/正常，或肿瘤/不匹配正常等)，rna剪接点检测，rna替代性拼接分析，rna转录组装，rna转录表达分析，rna差异表达分析，rna变异体调用，dna/rna差异分析，dna甲基化分析和调用，变异体质量评分再校准，变异体过滤，来自已知变异体数据库的变异体标注，样本污染检测和估计，表现型预测，疾病测试，处理响应预测，定制处理设计，祖先和突变历史分析，群体dna分析，基因标记识别，将基因组数据编码为标准格式和/或压缩文件(例如，fasta、fastq、sam、bam、vcf、bcf)，从标准格式解码基因组数据，查询、选择或过滤基因组数据子集，用于基因组文件的一般压缩和解压缩(gzip、bam压缩)，用于基因组数据的专用压缩和解压缩(cram)，基因组数据加密和解密，统计计算，比较，和从基因组数据的呈现，基因组结果数据比较，准确性分析和报告，基因组文件存储、存档、检索、备份、恢复和传输，以及基因组数据库构造、查询、存取管理、数据提取及类似情况。所有这些操作当实施于传统的计算平台上时可能相当缓慢且昂贵。此类专门软件实施的操作的迟缓可能部分是由于算法的复杂性，但通常是由于极大的输入和输出数据集，其导致关于移动数据的高时延。本文公开的装置和系统克服了这些问题，部分是由于各种硬件处理引擎的配置，通过各种硬件实施方案的加速，和/或部分是由于cpu/fpga紧密耦合配置。因此，如相对于图39可见，一个或多个(例如，所有)这些操作可以通过cpu1000和fpga7例如在如本文中所描述的分布式处理模型中的协作而加速。举例来说，在一些情况(加密、一般压缩、读段映射和/或对准)下，整个操作功能可以基本上或完全实施于定制fpga逻辑中(例如通过硬件设计方法，例如rtl)，例如其中cpu软件大部分服务于编译大数据包以用于经由工作者线程20预处理的功能，例如将数据聚合成将由一个或多个硬件实施处理引擎处理的各种工作，且将各种数据输入例如以先进先出格式馈送到fpga引擎13中的一个或多个和/或从其接收结果。举例来说，如相对于图39可见，在各种实施例中，工作者线程产生工作数据的各种包，其可以被编译和/或流式传输到较大工作包中，所述较大工作包可以排队和/或进一步聚集以准备例如经由ddr3传送到fpga7，例如通过高带宽低时延点对点互连协议，例如qpi3。在特定实例中，可以根据正传送到fpga的特定数据集缓冲数据。一旦封装数据由fpga7例如以高速缓冲存储器相干的方式接收，就可以将其处理且发送到一个或多个专用集群11，由此可以进一步被引导到一组或多组处理引擎以用于进而根据本文描述的管线操作中的一个或多个进行处理。一旦已处理，结果数据就可以随后发送回到集群且排队以用于在紧密耦合点对点互连件上发送回到cpu以用于后处理。在某些实施例中，数据可以在后处理之前发送到解聚合器线程。一旦后处理已发生，数据就可以发送回到可能在等待数据的初始工作者线程20。此分布式处理特别有益于本文在上文所公开的功能。具体来说，这些功能可以通过以下事实来区分：它们的算法复杂性(虽然具有极高净计算负担)非常有限，且它们各自可以被配置以便在其各种子操作上具有相当均匀的计算成本。然而，在各种情况下，并非处理大包中的数据，可以例如关于管线的一个或多个功能执行较小子例程或离散功能协议或元素，而不是针对所述数据上的所述管线执行整个处理功能。因此，有用策略可以是识别任何给定操作中的一个或多个关键计算密集的子功能，并且接着在定制fpga逻辑(硬件加速)中实施所述子功能，例如用于密集的子功能，同时以软件实施操作的平衡和理想地许多或大部分算法复杂性以在cpu/gpu/qpu上运行，如本文例如相对于图39所描述。通常，许多基因组数据处理操作典型的是算法复杂性的小百分比占总体计算负载的大百分比。举例来说，作为典型示例，给定功能的执行的算法复杂性的20％可以占计算负载的90％，而算法复杂性的剩余80％可以仅占计算负载的10％。因此，在各种实例中，本文描述的系统组件可以被配置以便实施高(例如，20％或更多)复杂性部分以便在定制fpga逻辑中极高效地运行，这可以是在硬件设计中易控制且可维持的，且因此可以被配置成用于在fpga中执行；这又可以将cpu计算负载减少90％，进而实现10倍的总体加速。其它典型示例可能甚至更极端，例如其中算法复杂性的10％可以占计算负载的98％，在此情况下将如本文中所述的fpga加速应用于10％复杂性部分甚至更容易，但也可以实现高达50倍净加速。在其中期望极端加速处理的各种实例中，这些功能中的一个或多个可以由量子处理单元执行。然而，此“碎片状”或分布式处理加速方法当实施于紧密集成式cpu/gpu+fpga平台中而不是松散集成式cpu/gpu+fpga平台上时可以更实际。具体来说，在松散地集成平台中，可以选择将在fpga逻辑中实施的部分，例如功能，以便最小化对fpga引擎的输入数据的大小，且最小化来自fpga引擎的输出数据，例如用于处理的每一数据单元，且另外可以被配置以便保持软件/硬件边界耐受高时延。在此类实例中，硬件和软件部分之间的边界可以例如在松散地集成平台上被迫通过某些低带宽/高时延切割点来绘制，当优化算法复杂性和计算负载的分割时此划分可能原本不是合意的。这经常可以导致加大硬件部分的边界，从而涵盖硬接线格式的算法复杂性的不合需要地大部分，或导致收缩硬件部分的边界，从而不合需要地排除具有密集计算负载的部分。相比之下，在紧密集成式cpu/gpu+fpga平台上，由于高速缓冲存储器相干的共享存储器和高带宽/低时延cpu/gpu/fpga互连件，可以极精确地选择基因组数据处理操作的低复杂性/高计算负载部分以用于在定制fpga逻辑中实施(例如，经由本文所描述的硬件引擎)，具有优化的软件/硬件边界。在此实例中，即使数据单元在所需软件/硬件边界处较大，其仍可仅通过传递到特定数据单元的指针而高效地切换到fpga硬件引擎用于处理。具体来说，在此实例中，按照图33b，fpga7的硬件引擎13可能不需要存取存储于dram1014内的数据单元的每个元素；而是，其可存取例如高速缓冲存储器1014a内的必要元素，具有在由cpu/gpu高速缓冲存储器服务的低时延互连件3'上的高效小存取，从而消耗比整个数据单元已在松散互连件3上例如被dram1014的dma存取和/或传送到fpga7的情况少的聚合带宽，如图33a所示。在此类实例中，硬件引擎13可在cpu/gpu存储器1014中就地将处理结果标注到数据单元中，而无需通过dma将数据单元的整个拷贝流式传输到cpu/gpu存储器。即使所需软件/硬件边界不适合于软件线程20做出到硬件引擎13的高时延非阻挡排队切换，也可能做出到硬件引擎13的阻挡功能调用，休眠短时延直到硬件引擎完成，所述时延通过高速缓冲存储器相干的共享存储器、低时延/高带宽互连件和分布式软件/硬件协调模型而显著地减少，如图33b中所示。在特定实例中，因为信号/图像处理和碱基调用的特定算法和要求在一个定序器技术与另一定序器技术之间不同，且因为来自定序器的传感器的原始数据的量通常很庞大(这在信号/图像处理之后减少到巨大，且在碱基调用之后减少到仅极大)，所以此类信号/图像处理和碱基调用可以在定序器自身内或者在通过高带宽传输通道连接到定序器的附近计算服务器上高效地执行。然而，dna定序器已经以超出摩尔定律的增加速率实现越来越高的处理量，以使得现有的基于中央处理单元(“cpu”)和/或图形处理单元“gpu”的信号/图像处理和碱基调用当个别地且单独地实施时已经变为越来越不足以进行任务。然而，由于紧密集成式cpu+fpga和/或gpu+fpga和/或gpu/cpu+fpga平台可以被配置成紧凑的且容易在此定序器内实例化，例如由于定位于定序器的主板上的cpu和/或gpu和/或fpga芯片，或容易安装于邻近定序器的服务器或可从定序器远程访问的基于云的服务器系统中，所以此定序器可以是提供由本文所描述的定制fpga/asic硬件引擎提供的大规模计算加速的理想平台。举例来说，本文所提供的系统可以被配置以便执行一级、二级和/或三级处理或其部分以便由以下各项实施：加速cpu、gpu和/或fpga；cpu+fpga；gpu+fpga；gpu/cpu+fpga；qpu；cpu/qpu；gpu/qpu；cpu和/或gpu和/或qpu+fpga平台。此外，此类加速平台，例如包含一个或多个fpga和/或qpu硬件引擎，可用于在基于云的系统中实施，如本文中所描述。举例来说，信号/图像处理、碱基调用、映射、对准、分选、去除重复和/或变异体调用算法或其部分大体上需要大量浮点和/或定点数学，特别是加法和乘法。这些功能也可以被配置以便由一个或多个量子处理电路执行以便在量子处理平台中实施。具体来说，大的现代fpga/量子电路含有数千个高速乘法和加法资源。更确切地说，这些电路可以包含可以实施于其上或由其实施的定制引擎，所述定制引擎可以被配置成以远超简单一般cpu能力的速率执行并行算术运算。同样，简单gpu具有更多可比较的并行算术资源。然而，gpu经常具有笨拙的架构限制和编程限制，可能妨碍它们被充分利用。因此，这些fpga和/或量子处理和/或gpu算术资源可以通过设计来接线或另外配置，以精确地以接近100％效率的设计方式操作，例如用于执行实行本文的功能所必要的计算。因此，gpu卡可以添加到具有紧密集成式cpu和/或fpga的主板上的扩展槽，进而允许全部三个处理器类型协作，虽然gpu仍可能在所有其自身的限制和松散集成限制下进行协作。更确切地说，在各种实例中，相对于图形处理单元(gpu)，gpu可被配置以便实施如本文中所述的功能中的一个或多个，以便完全或部分地加速用于执行所述功能所必要的底层计算的处理速度。更确切地说，gpu可以被配置成在映射、对准、分选、去除重复和/或变异体调用协议中执行一个或多个任务，以便加速计算中的一个或多个，例如大量浮点和/或定点数学，例如其中涉及的加法和乘法，以便与服务器的cpu和/或fpga结合工作以加速应用程序和处理执行且缩短执行此类功能所需的计算循环。如本文中所述的具有gpu/cpu/fpga卡的云服务器可以被配置以便容易地处置计算密集的任务且当用于虚拟化时递送更平稳的用户体验。此类计算密集的任务也可以卸载到云，以便由量子处理单元执行。因此，如果具有共享存储器平台的紧密集成式cpu+fpga或gpu+fpga和/或cpu/gpu/fpga用于定序器或者附接或基于云的服务器内，例如用于信号/图像处理、碱基调用、映射、对准、分选、去除重复和/或变异体调用功能，那么可能存在例如在增量开发过程中实现的优点。举例来说，最初，计算负载的有限部分，例如用于碱基调用、映射、对准、分选、去除重复和/或变异体调用的动态编程功能可以实施于一个或多个fpga引擎中，而其它工作可以在cpu和/或gpu扩展卡中完成。然而，本文提出的紧密cpu/gpu/fpga集成和共享存储器模型还可以稍后被配置，以便使其易于递增地选择额外计算密集的功能用于gpu、fpga和/或量子加速，这可以随后被实施为处理引擎，且其各种功能可以被卸载以用于在fpga中执行和/或在一些情况下可以卸载到云上，例如用于由qpu执行，进而加速信号/图像/碱基调用/映射/对准/变异体处理。此类增量前进可按需要实施以跟上各种一级和/或二级和/或三级处理技术的增加处理量。因此，例如一个或多个读段到参考基因组的读段映射和对准以及分选、去除重复和/或变异体调用可以得益于此类gpu和/或fpga和/或qpu加速。具体地，映射和对准和/或变异体调用或其部分可以部分地或完全地实施为定制fpga逻辑，例如其中“将映射和/或对准和/或变异体调用的”读段从cpu/gpu存储器流式传输进入fpga映射/对准/变异体调用引擎，以及映射和/或对准和/或变异体调用读段记录流式传输回来，这还可以例如在分选和/或变异体调用的执行中在板上流式传输回来。此类型的fpga加速在松散集成式cpu/gpu+fpga平台上起作用，且在本文所描述的配置中可以极快。然而，通过转向紧密集成式cpu/gpu/qpu+fpga平台可以获得一些额外优点。因此，相对于映射和对准和变异体调用，在一些实施例中，如本文所描述的紧密集成式cpu/gpu+fpga和/或量子处理平台的共享优点在于，映射/对准/变异体调用加速，例如硬件加速，可以高效地分裂成若干离散计算密集的操作，例如种子产生和/或映射、种子链形成、成对端救援扫描、无间隙对准和有间隙对准(smith-waterman或needleman-wunsch)、debruijn图形成、执行hmm计算及类似操作，例如其中cpu和/或gpu和/或量子计算软件执行较轻的(但不一定较不复杂)任务，且可以按需要对离散硬件和/或其它量子计算引擎做出加速调用。此模型在典型松散集成式cpu/gpu+fpga平台中例如由于在步骤之间来回传送的大量数据和高时延而可能效率较低，但在具有高速缓冲存储器相干的共享存储器、高带宽/低时延互连件和分布式软件/硬件协调模型的紧密集成式cpu+fpga、gpu+fpga和/或量子计算平台中可以更高效。另外，例如相对于变异体调用，包含维特比和向前算法的隐式马尔可夫模型(hmm)和/或动态编程(dp)算法可以与碱基调用/映射/对准/分选/去除重复操作相关联而实施，以便在一配置中计算解释所观察传感器测量值的最可能的原始序列，以便良好适合于本文所描述的fpga和量子电路的并行蜂窝式布局。具体地，在分布式处理配置中对硬件和/或软件资源的高效利用可以通过将硬件和/或量子计算加速减少到离散计算密集的功能而产生。在此类实例中，本文公开的若干功能可以在单片纯硬件引擎中执行以便使计算密集性较少，但仍然可能是算法上复杂的，并且因此可能消耗大量的物理fpga资源(查找表、触发器、块ram等)。在此类实例中，将各种离散功能的一部分或全部移动到软件可以占用可用的cpu循环，以换取减少相当大量的fpga区域。在某些这些实例中，释放的fpga区域可用于为计算密集的映射/对准/变异体调用子功能建立较大的并行性，因此增加加速，或用于其它基因组加速功能。此类益处也可以通过在用于由量子计算平台实施的一个或多个专用量子电路中实施计算密集的功能来实现。因此，在各种实施例中，本文公开的一个或多个功能的算法复杂性可以通过在纯硬件或纯量子计算实施方案中配置而稍微减轻。然而，一些操作，例如比较成对端读段的成对候选对准和/或执行细微的映射质量(mapq)估计，表示极低的计算负载，且因此可以得益于cpu/gpu和/或量子计算软件中的更复杂且准确的处理。因此，大体来说，将硬件处理减少到特定计算密集的操作将允许在cpu/gpu部分中采用更复杂且准确的算法。此外，在各种实施例中，本文公开的映射/对准/分选/去除重复/变异体调用操作的全部或部分可以被配置以使得算法上较复杂的计算可以在硬件中和/或经由一个或多个量子电路在高层级使用，例如其中调用的计算密集的硬件和/或量子功能被配置成以动态或迭代次序执行。具体来说，单片纯硬件/量子处理设计可以一方式实施以便更高效地充当线性管线。举例来说，如果在处理期间一个smith-waterman对准显示真实对准路径逸出评分带(例如，如上文所描述的条带)的证据，那么可以调用另一smith-waterman对准以校正此情况。因此，这些配置可以将fpga硬件/量子加速基本上减少到离散功能，例如某一形式的过程抽象化，其将允许在其之上容易地建置较高层级复杂性。另外，在各种实例中，在映射/对准/变异体调用算法和其特征内的灵活性可以通过将硬件和/或量子加速减少到离散计算密集的功能且配置系统以便在cpu和/或gpu的软件中执行其它例如较不密集的部分来改进。举例来说，虽然硬件算法可以在fpga中修改和重新配置，但大体上例如经由固件对硬件设计的此类改变可能需要几倍于对软件代码的相似改变的设计工作量。在此类实例中，相对良好定义的映射和对准和分选和去除重复和/或变异体调用的计算密集的部分，例如种子映射、种子链形成、成对端救援扫描、无间隙对准、有间隙对准和hmm，因此是稳定功能且并不需要频繁的算法改变。因此，这些功能可以在硬件中合适地优化，而可以由cpu/gpu软件执行的其它功能更适合于算法的增量改进，这在软件中显著更容易。然而，一旦完全开发则可以在硬件中实施。这些功能中的一个或多个也可以被配置以便在量子处理机器的一个或多个量子电路中实施。因此，在各种实例中，变异体调用(相对于dna或rna、单个样本或联合、生殖系或体细胞等)例如相对于其各种计算密集的功能也可以得益于fpga和/或量子加速。举例来说，如上文所描述，根据从在可能变异体周围的窗口内提供的上下文导出的证据来调用碱基的基于单倍型的调用器经常是最计算密集的操作。这些操作包含将候选单倍型(例如，表示在所讨论的基因组基因座的所取样链中的至少一个的真实序列的理论的单链核苷酸序列)与每一定序器读段进行比较，以便估计在给定单倍型的真实性的情况下观察到读段的条件概率。此操作可以经由mrjd、成对隐式马尔可夫模型(成对hmm)和/或成对确定隐式马尔可夫模型(pd-hmm)计算中的一个或多个来执行，所述成对确定隐式马尔可夫模型计算通过动态编程算法将定序或样本制备中的错误的可能组合的概率(pcr等)求和。因此，相对于此，系统可被配置成使得成对hmm或pd-hmm计算可以由一个或多个(例如，并行)fpga硬件或量子处理引擎加速，而cpu/gpu/qpu软件可以被配置以便在松散集成式或紧密集成式cpu+fpga或gpu+fpga或cpu和/或gpu+fpga和/或qpu平台中执行基于亲代单倍型的变异体调用算法的其余部分。举例来说，在松散集成中，软件线程可以从与所选作用区(参考基因组的窗口或邻接子集)重叠的读段构造且准备debruijn和/或组装图，从图提取候选单倍型，且将单倍型读段对排队以用于dma传送到fpga硬件引擎，例如用于成对hmm或pd-hmm比较。同一或其它软件线程可随后接收排队的成对hmm结果且从fpga进行dma传送回到cpu/gpu存储器中，且执行基因分型和贝叶斯概率计算以做出最终变异体调用。当然，这些功能中的一个或多个可被配置以便在一个或多个量子计算平台上运行。举例来说，如相对于图38可见，cpu/gpu1000可以包含一个或多个(例如，多个)线程20a、20b和20c，其可以各自具有对相关联dram1014的存取，所述dram具有工作空间1014a、1014b和1014c，在所述工作空间内每一线程20a、20b和20c可以分别具有存取，以便对例如大数据结构等一个或多个数据结构执行一个或多个操作。这些存储器部分和其数据结构可以例如经由相应高速缓冲存储器部分1014a'例如由fpga7的一个或多个处理引擎13a、13b、13c进行存取，所述处理引擎可以例如在本文描述的操作中的一个或多个的执行中存取参考数据结构，例如用于映射、对准、分选和/或变异体调用。由于高带宽、紧密耦合互连件3，关于数据结构和/或与处理结果有关的数据可以例如以高速缓冲存储器相干的方式在cpu和/或gpu和/或qpu和/或相关联fpga之间基本上无缝地共享，以便优化处理效率。因此，在一个方面中，如本文所公开，可以提供系统，其中所述系统被配置成用于在其组成部分之间共享存储器资源，例如关于经由例如由cpu和/或gpu和/或qpu运行的软件执行一些计算任务或子功能，且例如经由例如fpga和/或asic或结构化asic等相关联芯片的硬件经由固件执行其它计算任务或子功能。这可以若干不同方式实现，例如通过cpu/gpu/qpu与芯片(例如，fpga)之间的直接松散或紧密耦合。当分配与如本文中所述的大数据结构的处理有关的操作时此类配置可以是特别有用的，所述大数据结构具有将由cpu和/或gpu和/或qpu和集成电路两者使用和存取的大功能或子功能。具体来说，在各种实施例中，当通过如本文中所述的基因组学管线处理数据以便加速总体处理功能、定时和效率时，可以对数据运行若干不同操作，所述操作可以涉及软件和硬件处理组件两者。因此，数据可能需要在运行于cpu和/或gpu和/或qpu上的软件组件与实施于芯片(例如，fpga或asic)中的硬件组件之间共享和/或另外传送。因此，处理管线或其部分中的各种步骤中的一个或多个可以由一个装置(例如，cpu/gpu/qpu)执行，且各种步骤中的一个或多个可以由另一装置(例如，fpga或asic)执行。在此实例中，cpu和fpga需要例如通过点对点互连件可通信地耦合，以此方式允许此类数据的高效传输，所述耦合可能涉及存储器资源的共享使用。为了实现任务的这种分布以及用于执行此类任务的信息的共享，cpu和/或gpu和/或qpu可以松散或紧密耦合到彼此和/或fpga或另一芯片组，且可以包含工作流管理系统以便高效地分配工作负载。因此，在特定实施例中，提供基因组学分析平台。举例来说，所述平台可以包含主板、存储器和多个集成电路，所述集成电路例如形成cpu/gpu/qpu、映射模块、对准模块、分选模块和/或变异体调用模块中的一个或多个。具体地，在特定实施例中，所述平台可以包含第一集成电路，例如形成响应于一个或多个软件算法的中央处理单元(cpu)和/或图形处理单元(gpu)的集成电路，所述软件算法被配置成指示cpu/gpu执行如本文所描述的一组或多组基因组学分析功能，例如其中cpu/gpu包含第一组物理电子互连件以与主板连接。在其它实施例中，提供量子处理单元，其中qpu包含被配置成用于执行本文公开的功能中的一个或多个的一个或多个量子电路。在各种实例中，提供存储器，其中所述存储器也可以附接到主板且可以进一步例如经由所述第一组物理电子互连件的至少一部分以电子方式与cpu和/或gpu和/或qpu连接。在此类实例中，存储器可以被配置成用于存储基因组数据的多个读段，和/或至少一个或多个基因参考序列，和/或所述一个或多个基因参考序列的索引，例如散列表。另外，所述平台可以包含一个或多个第二集成电路，例如其中每一第二集成电路形成现场可编程门阵列(fpga)或asic或结构化asic，其具有第二组物理电子互连件以例如经由点对点互连协议与cpu和存储器连接。在此实例中，fpga(或结构化asic)可以通过固件可编程以配置由多个物理互连件互连的一组硬接线数字逻辑电路以执行第二组基因组学分析功能，例如映射、对准、分选、去除重复、变异体调用，例如hmm功能等。具体来说，fpga的硬接线数字逻辑电路可以被布置成一组处理引擎以在基因组学分析平台的序列分析管线中执行一个或多个预配置步骤，例如其中所述组处理引擎包含映射和/或对准和/或分选和/或去除重复和/或变异体调用模块中的一个或多个，所述模块可以由处理引擎的单独或同一子组形成。举例来说，相对于变异体调用，成对hmm或pd-hmm计算是基于单倍型的变异体调用协议的最计算密集的步骤中的一个。因此，通过如本文中所述在一个或多个fpga或量子处理引擎中加速此步骤，可以极大地改进变异体调用速度。然而，在额外fpga和/或qp引擎中加速其它计算密集的步骤可能存在额外益处，以实现变异体调用或其部分的更大加速，或减少cpu/gpu负载和所需的cpu/gpu核心的数目或这两者，如相对于图38所见。相对于变异体调用的可以在fpga和/或量子处理引擎中实施的额外计算密集的功能包含：可调用区检测，其中选择被充分深度和/或质量的对准读段覆盖的参考基因组区用于处理；作用区检测，其中识别具有可能变异体的非平凡证据的参考基因组基因座，且选择这些基因座周围的足够上下文的窗口作为作用区以用于进一步处理；de-bruijn或其它组装图构造，其中将与作用区重叠的读段和/或来自那些读段的k聚体组装成图；组装图准备，例如调整低覆盖或低质量路径，通过接合到图中的参考骨干上而修复摇摆的头部和尾部路径，从k聚体到图的序列表示的变换，合并相似分支和以其它方式简化图；从组装图提取候选单倍型；以及例如通过smith-waterman对准将候选单倍型对准到参考基因组，以例如从由每一单倍型表示的参考确定变异体(snp和/或插入缺失)，且使其核苷酸位置与参考同步。所有这些功能可以被实施为fpga内的高性能硬件引擎，和/或由量子计算平台的一个或多个量子电路实施。然而，从变异体调用软件中的许多集成点调用此多种硬件加速功能可能在松散耦合的cpu/gpu/qpu+fpga平台上变为低效的，并且因此紧密集成式cpu/gpu/qpu+fpga平台可为合意的。举例来说，各种逐步处理方法例如：从debruijn图或其它组装图构造、准备和提取单倍型，可以很大程度地得益于紧密集成式cpu/gpu/qpu+fpga平台。另外，组装图是大且复杂的数据结构，且在cpu和/或gpu与fpga之间重复地传递它们可能变为资源昂贵的且抑制明显的加速。因此，采用紧密集成式cpu/gpu/qpu和/或fpga平台用于此类图处理的理想模型是将此类图保持在高速缓冲存储器相干的共享存储器中，以用于由cpu和/或gpu和/或qpu软件和fpga硬件功能进行交替处理。在此实例中，处理给定图的软件线程可以通过硬件引擎迭代地命令各种计算密集的图处理步骤，并且接着软件可以检查结果且确定在硬件调用之间的接下来的步骤，例如在图39的过程中例示。此处理模型可以受合适配置的工作流管理系统控制，和/或可以被配置成对应于例如数据结构api或面向对象的方法接口等软件范例，但计算密集的功能通过定制硬件和/或量子处理引擎加速，这通过实施于紧密集成式cpu和/或gpu和/或qpu+fpga平台上而变得实际，还具有高速缓冲存储器相干的共享存储器和高带宽/低时延cpu/gpu/qpu/fpga互连件。因此，除将定序读段映射和对准到参考基因组之外，还可以“从头”组装读段，例如无需参考基因组，例如通过检测例如堆积物中的读段之间的它们完全或大部分一致的明显重叠，且将它们接合成较长序列、重叠群、骨架或图。此组装也可以局部地完成，例如使用确定为映射到给定染色体或其部分的所有读段。以此方式的组装还可以将参考基因组或一个参考基因组的片段并入到组装结构中。在此实例中，由于将并不完全一致的读段序列接合在一起的复杂性，可以采用图结构，例如其中重叠读段可能在一个片段中的单个序列上一致，但在邻近片段中分支为多个序列，如上文所解释。因此，此组装图可以是序列图，其中每一边缘或节点表示一个核苷酸或核苷酸序列，其被视为连续地邻接于连接的边缘或节点中的序列。在特定实例中，此组装图可以是k聚体图，其中每一节点表示k聚体或(通常)固定长度k的核苷酸序列，且其中连接的节点被视为在较长观察序列中彼此重叠，通常重叠k-1个核苷酸。在各种方法中，在一个或多个序列图和k聚体图之间可能执行一个或多个变换。虽然在基于单倍型的变异体调用中采用组装图，且采用的一些图处理方法是相似的，但是存在重要差异。从头组装图一般大得多，且采用较长k聚体。变异体调用组装图受限于相当结构化且相对简单，例如不具有循环和沿着参考序列骨干从源到汇的流动，而从头组装图趋于更加非结构化且复杂，具有循环、摇摆路径以及不仅被准许而且经受特殊分析的其它异常。有时采用从头组装图染色，将“颜色”指派到节点和边缘，例如表示它们来自哪一个生物样本或匹配于参考序列。因此，对于从头组装图经常迭代地或递归地需要采用广泛多种图分析和处理功能，且特别是由于从头组装图的大小和复杂性，处理功能往往是极端计算密集的。因此，如上文所阐述，在紧密集成式cpu/gpu/qpu+fpga平台上用于此图处理的理想模型是在高速缓冲存储器相干的共享存储器中保持此类图以用于在cpu/gpu/qpu软件和fpga硬件功能之间的交替处理。在此实例中，处理给定图的软件线程可以迭代地命令各种计算密集的图处理步骤由硬件引擎执行，并且接着检查结果进而确定将由硬件执行的接下来的步骤，例如通过做出适当硬件调用。如上所述，此处理模型极大地得益于在具有高速缓冲存储器相干的共享存储器和高带宽/低时延cpu/fpga互连件的紧密集成式cpu+fpga平台上的实施。另外，如下文所述，三级分析包含可能跟随图组装和/或变异体调用的基因组处理，其在临床应用中可以包含变异体标注、表现型预测、疾病测试和/或治疗响应预测，如本文中所描述。在此紧密集成式cpu/gpu/qpu+fpga平台上执行三级分析是有益的原因在于，此平台配置实现极为计算密集的一级和/或二级处理的高效加速，且理想的是在同一平台上继续三级分析以获得便利并减少周转时间，且使大基因组数据文件的传输和复制最少。因此，松散或紧密集成式cpu/gpu/qpu+fpga平台是良好选择，但紧密耦合平台可以包含额外益处，因为三级分析步骤和方法在一个应用与另一应用之间广泛不同，且在其中计算密集的步骤减慢三级分析的任何情况下，那些步骤的定制fpga加速可以优化方式实施。举例来说，在紧密集成式cpu/gpu/qpu和/或fpga平台上的三级分析的特定益处是能够响应于部分或中间三级结果，利用二级处理的cpu/gpu/qpu和/或fpga加速来迭代地重新分析基因组数据，其可以从紧密集成配置另外受益。举例来说，在三级分析检测到可能的表现型或疾病之后，但关于所述检测是真还是假的置信度有限，则可以在影响检测的特定读段和参考区上以极高努力执行集中的二级重新分析，因此改进相关变异体调用的准确性和置信度，且又改进检测调用中的置信度。另外，如果三级分析确定关于所分析个体的祖先或结构变异体基因型的信息，那么可以使用更适合于特定个体的不同或修改的参考基因组重复二级分析，因此增强变异体调用的准确性且改进进一步三级分析步骤的准确性。然而，如果三级分析是在一级和二级处理之后在仅cpu平台上完成(可能在单独平台上加速)，那么以二级处理工具的重新分析可能太缓慢而无法在三级分析平台自身上使用，且替代方案是传输到较快平台，这也是过于缓慢的。因此，在三级分析平台上无任何形式的硬件或量子加速的存在下，一级和二级处理必须大体上在三级分析开始之前完成，而无容易重新分析或迭代二级分析和/或分析功能管线化的可能性。但在fpga和/或量子加速平台上，且特别是其中二级处理最大限度地高效的紧密集成式cpu和/或gpu和/或qpu和/或fpga平台，迭代分析变得实际且有用。因此，如上文所指出，本文所公开的模块可以实施于芯片的硬件中，例如通过在其中硬接线，且在此类情况下其实施方案可以使得其功能与当实施于软件中时例如在存在最少指令有待获取、读取和/或执行的情况下相比可以较快速度在较大准确性下发生。另外，在各种实例中，将由这些模块中的一个或多个执行的功能可以被分布以使得各种功能可以被配置以便由主机cpu和/或gpu和/或qpu软件实施，而在其它实例中，各种其它功能可以由相关联fpga的硬件执行，例如其中所述两个或更多个装置例如以无缝方式彼此执行其相应功能。出于此类目的，cpu、gpu、qpu和/或fpga或asic或结构化asic可以例如经由低时延、高带宽互连件而紧密耦合，所述互连件例如qpi、ccvi、capi及类似物。因此，在一些实例中，将由这些模块中的一个或多个执行的高计算密集型功能可以由一个或多个量子电路实施的量子处理器执行。因此，给定唯一硬件和/或量子处理实施方案，本公开的模块可以根据其操作参数直接起作用，例如不需要例如当单独在cpu软件中实施时获取、读取和/或执行指令。另外，存储器要求和处理时间可以进一步减少，例如其中在芯片内的通信是经由例如局部存储于fpga/cpu/gpu/qpu高速缓冲存储器中的文件，例如高速缓冲存储器相干的方式，而不是通过广泛存取外部存储器。当然，在一些实例中，芯片和/或卡可以设定大小以便包含更多存储器，例如更多板载存储器，以便增强并行处理能力，进而得到甚至更快的处理速度。举例来说，在某些实施例中，本公开的芯片可以包含嵌入的dram，使得芯片不必依赖于外部存储器，这将因此得到处理速度的另外增加，例如其中可以采用burrows-wheeler算法或debrujin图，而不是在各种实例中可能依赖于外部(例如，主机存储器)的散列表和散列函数。在此类实例中，一部分或整个管线的运行例如从起始到结束可在6或10或12或15或20分钟或更短时间内实现。如上文所指出，存在任何给定模块可定位在硬件上或者例如在可云上访问的服务器上而远离其定位的各种不同点。在给定模块定位于芯片上，例如硬接线到芯片中的情况下，其功能可以由硬件执行，然而在需要的情况下，模块可以远离芯片定位，在此点平台可以包含必要工具以用于将相关数据发送到经由云可访问的例如服务器(例如，量子服务器)等远程位置，以使得根据用户选定的所需协议可以启用特定模块的功能性用于数据的进一步处理。因此，平台的部分可以包含基于网络的接口以用于依据本文公开的模块中的一个或多个的功能来执行一个或多个任务。举例来说，在映射、对准和/或分选是可以在芯片上发生的所有模块的情况下，在各种实例中，局部再对准、重复标记、碱基质量核心再校准和/或变异体调用中的一个或多个可以在云上发生。具体来说，一旦已例如在一个或多个一级和/或二级处理协议中例如通过映射、对准和/或分选而产生和/或处理基因数据以便产生一个或多个变异体调用文件，例如以确定来自受试者的基因序列数据如何不同于一个或多个参考序列，本公开的又一方面可以涉及对所产生和/或处理的基因数据执行一个或多个其它分析功能，例如用于另外的例如三级处理，如图40所描绘。举例来说，系统可以被配置成用于进一步处理所产生和/或二级处理的数据，例如通过使其运行通过一个或多个三级处理管线700，例如以下一个或多个：微阵列分析管线，基因组，例如全基因组分析管线，基因分型分析管线，外显子组分析管线，表观基因组分析管线，宏基因组分析管线，微生物群落分析管线，包含联合基因分型的基因分型分析管线，包含结构变异体管线、体细胞变异体管线和gatk的变异体分析管线，和/或mutect2管线，以及rna定序管线和其它基因分析管线。另外，在各种实例中，可以提供额外处理层800，例如用于疾病诊断、治疗性治疗和/或防治性预防，例如包含nipt、nicu、癌症、ldt、agbio和其它此类疾病诊断、防治和/或治疗，其采用由当前一级和/或二级和/或三级管线中的一个或多个产生的数据。举例来说，特定的生物分析管线包含基因组管线、表观基因组管线、宏基因组管线、基因分型管线、变异体(例如，gatk/mutect2)管线，和其它此类管线。因此，本文所公开的装置和方法可以用于产生基因序列数据，所述数据随后可以用以产生一个或多个变异体调用文件和/或其它相关联数据，这些可以根据本文公开的装置和方法进一步经受其它三级处理管线的执行，例如用于特定和/或一般疾病诊断以及用于防治性和/或治疗性治疗和/或发育模态。举例来说，参见图41b、c和43。如上文所描述，本文呈现的方法和/或系统可以包含基因序列数据的产生和/或其它方式的获取。此数据可以从任何合适的源产生或另外获取，例如通过ngs或“芯片上定序器技术”。一旦产生和/或获取，本文的方法和系统就可以包含使数据经受例如通过一个或多个二级处理协议600的进一步处理。二级处理协议可以包含所产生基因序列数据的映射、对准和分选中的一个或多个，以便产生一个或多个变异体调用文件，例如以便确定来自受试者的基因序列数据如何不同于一个或多个参考序列或基因组。本公开的又一方面可以涉及对所产生和/或处理的基因数据(例如，二级结果数据)执行一个或多个其它分析功能，例如用于额外处理，例如三级处理700/800，所述处理可以在与代管前述定序器技术的芯片或芯片组相同的芯片或芯片组上执行或与其相关联而执行。因此，在第一实例中，例如相对于基因序列数据的产生、采集和/或传输，如图37-41中所阐述，此类数据可以在本地或远程地产生和/或其结果可以随后例如由本地计算资源100直接处理，或可以传输到远程位置，例如到远程计算资源300以用于进一步处理，例如用于二级和/或三级处理，参见图42。举例来说，所产生的基因序列数据可以在本地且直接地处理，例如其中定序和二级处理功能性容纳于同一芯片组上和/或现场的同一装置10内。同样，所产生的基因序列数据可以在本地且间接地处理，例如其中定序和二级处理功能性通过相异的设备单独地发生，所述设备共享同一设施或位置但可能在空间上分离，但例如经由本地网络10可通信地连接。在又一实例中，基因序列数据可以例如由远程ngs远程地导出，且所得数据可以在基于云的网络30/50上传输到场外远程位置300，所述位置例如在地理上与定序器分离。具体地，如图40a中所图示，在各种实施例中，在现场可以提供数据产生设备，例如核苷酸定序器110，例如其中所述定序器是“芯片上定序器”或ngs，其中所述定序器直接地或例如通过本地网络连接10/30间接地与本地计算资源100相关联。本地计算资源100可以包含或另外关联于数据产生110和/或数据获取120机构中的一个或多个。此类机构可以是被配置成用于产生和/或另外获取数据的任何机构，所述数据例如与受试者或受试者群组的一个或多个遗传序列有关的模拟、数字和/或电磁数据，例如其中基因序列数据成bcl或fastq文件格式。举例来说，此数据产生机构110可以是例如定序器的主处理器，例如ngs、芯片上定序器，或用于产生基因序列信息的其它类似机构。此外，此类数据获取机构120可以是被配置成用于接收例如产生的基因序列信息等数据的任何机构；和/或连同数据产生器110和/或计算资源100一起能够使数据经受一个或多个二级处理协议，例如如本文中所述的被配置成用于对所产生和/或获取的序列数据运行映射器、对准器、分选器和/或变异体调用器协议的二级处理管线设备。在各种实例中，数据产生110和/或数据获取120设备可以例如在本地网络10上一起联网，例如用于本地存储200；或可以在本地和/或基于云的网络30上一起联网，例如用于例如向远程位置或从远程位置发射和/或接收数据，例如与基因序列信息的一级和/或二级处理有关的数字数据，例如用于远程处理300和/或存储400。在各种实施例中，这些组件中的一个或多个可以通过如本文中所述的混合网络可通信地耦合在一起。本地计算资源100还可以包含或另外关联于编译器130和/或处理器140，例如被配置成用于编译所产生和/或获取的数据和/或与其相关联的数据的编译器130，以及被配置成用于处理所产生和/或获取和/或编译的数据和/或控制如本文中所述的系统1和其组件例如用于执行一级、二级和/或三级处理的处理器140。举例来说，可以采用任何合适的编译器，然而在某些实例中，不仅通过实施例如上文所论述的紧密耦合配置以获得系统组件之间的高效且相干的数据传送可以实现另外的效率，而且可以进一步通过实施及时制度(just-in-time，jit)计算机语言编译器配置来实现。此外，在某些实例中，处理器140可以包含工作流管理系统以用于相对于将通过平台管线的各个阶段产生、接收和/或处理的数据来控制各种系统组件的功能。具体地，如本文所使用，及时制度(jit)指代用于将获取和/或产生的文件格式从一个形式转换到另一形式的装置、系统和/或方法。在广泛使用结构中，本文公开的jit系统可以包含编译器130，或其它计算架构，例如处理程序，其可以一方式实施以便将各种代码从一个形式转换成另一形式。举例来说，在一个实施方案中，jit编译器可用以将字节代码或含有必须解译的指令的其它程序代码转换为可直接发送到相关联处理器140用于近乎立即执行的指令，例如不需要通过特定机器语言对指令的解译。具体来说，在已编写编码程序(例如，java程序)之后，源语言语句可以由编译器(例如，java编译器)编译为字节代码，而不是编译为含有匹配于任何给定特定硬件平台的处理语言的指令的代码。因此，此字节代码编译动作是平台独立的代码，其可发送到任何平台且在所述平台上运行而无论其底层处理器如何。因此，合适的编译器可以是被配置以便将字节代码编译为可以随后立即执行的平台特定可执行代码的编译器。在此实例中，jit编译器可用以例如“在运行中”将一个文件格式立即转换为另一文件格式。因此，如本文中所述的合适配置的编译器能够克服此项技术中的各种缺陷。具体地，以特定语言编写的过去的编译程序必须取决于其将实施于其上的每一特定计算机平台而重新编译和/或重新编写。在当前编译系统中，编译器可以被配置以便仅必须编写和编译程序一次，且一旦以特定形式编写，则可以几乎立即转换为一个或多个其它形式。更具体地，编译器130可以是jit，或成另一相似动态翻译编译器格式，其能够以平台不可知语言编写指令，所述语言不必取决于其实施于其上的特定计算机平台而重新编译和/或重新编写。举例来说，在特定使用模型中，编译器可以被配置成用于将已编译的字节代码和/或其它已编码的指令解译为给定特定处理器可理解的指令，以用于将一个文件格式转换为另一文件格式而无论计算平台如何。原则上，本文的jit系统能够接收例如表示基因密码的一个基因文件，举例来说，其中所述文件是例如从基因定序器产生的bcl或fastq文件，且例如通过使用本文公开的方法将其快速转换为另一形式，例如转换为sam、bam和/或cram文件。具体来说，在各种实例中，本文所公开的系统可以包含第一和/或第二编译器130a和130b，例如虚拟编译机器，其一次处置一个或多个字节代码指令转换。举例来说，在当前系统平台内使用java类型及时制度编译器或其它合适配置的第二编译器将允许指令编译为字节代码，所述字节代码随后可以转换为特定系统代码，例如如同程序已经初始地在所述平台上编译。因此，一旦代码已被例如jit编译器130编译和/或(重新)编译，则所述代码将在计算机处理器140中更快速地运行。因此，在各种实施例中，及时制度(jit)编译或其它动态翻译编译可以被配置以便在给定程序的执行期间实行，例如在运行时间，而不是在执行之前。在此实例中，这可以包含翻译成机器代码或翻译为随后可以直接执行的另一格式的步骤，进而允许提前编译(ahead-of-timecompilation，aot)和/或解译中的一个或多个。更确切地说，如在当前系统内实施，典型基因组定序数据流大体上以从一个或多个计算平台导出的一个或多个文件格式产生数据，例如成bcl、fastq、sam、bam、cram和/或vcf文件格式或其等效物。举例来说，例如ngs的典型dna定序器110例如以bcl和/或fastq文件产生表示本文指定为读段的所调用碱基的原始信号，其可以任选地进一步处理，例如增强图像处理，和/或压缩150。同样，所产生的bcl/fastq文件的读段可以随后如本文中所述在系统内进一步处理，以便产生映射和/或对准数据，例如映射和对准读段的所产生数据可以成sam或bam文件格式，或替代地成cram文件格式。此外，随后可以例如通过变异体调用过程来处理sam或bam文件，以便产生变异体调用文件，例如vcf文件或gvcf文件。因此，所有这些产生的bcl、fastq、sam、bam、cram和/或vcf文件，一旦产生就是(极)大的文件，其全部需要本地200或远程400存储在例如系统存储器架构中。这些文件中的任一个的存储都是昂贵的。所有这些文件格式的存储是极昂贵的。如所指示，在此可以配置和部署及时制度(jit)或其它双重编译或动态翻译编译分析，以便减少此类高存储成本。举例来说，在此可以实施jit分析方案以便以仅一个格式(例如，压缩fastq或bam等文件格式)存储数据，同时提供对一个或多个文件格式(例如，bcl、fastq、sam、bam、cram和/或vcf等)的存取。这种快速文件转换过程可以通过利用本文所公开的相应硬件和/或量子加速平台在例如fpga的集成电路上的硬件引擎中或由量子处理器快速处理基因组数据而实现，例如用于映射、对准、分选和/或变异体调用(或其组件功能，例如去除重复、hmm和smith-waterman、压缩和解压缩及类似功能)。因此，通过连同此类加速实施jit或相似分析，可以一方式处理基因组数据以便在运行中以与正常文件存取相当的速度产生所需文件格式。因此，通过类似于jit的处理可以实现相当大的存储节省，而存取速度几乎没有损失。具体来说，两个一般选项可用于在此产生的基因组数据的底层存储以便对于类似jit的处理是可存取的，这些包含未对准读段(例如，可能包含压缩fastq或未对准压缩sam、bam或cram文件)的存储以及对准读段(例如，可能包含压缩bam或cram文件)的存储。然而，由于本文公开的加速处理允许例如在运行中快速导出任何参考文件格式，因此可以选择用于存储的底层文件格式以便实现最小压缩文件大小，进而减小存储的费用。因此，由于未经处理(例如，原始未对准)读段数据的相对较小的文件大小，因此存在存储未对准读段以使得数据字段最小化的优点。同样，存在例如以cram文件格式存储所处理且压缩的数据的优点。更确切地说，鉴于通过本文公开的装置、系统和其使用方法可实现的快速处理速度，在许多情况下，可能不需要针对每个读段存储映射和/或对准信息，因为此信息可以例如在运行中在需要时快速导出。此外，虽然压缩fastq(例如，fastq.gz)文件格式常用用于存储基因序列数据，但此类未对准读段数据也可以更高级压缩格式存储，例如在sam、bam或cram文件中的后映射和/或对准，例如通过使用紧凑的二进制表示和/或更有针对性的压缩方法这可以进一步减小文件大小。因此，这些文件格式可以在存储之前压缩，在存储之后解压缩，且例如在运行中快速处理，以便从另一文件格式转换一个文件格式。存储对准读段的优点在于，可省略每一读段的序列内容的许多或全部。具体地，通过仅存储读段序列与选定参考基因组之间的差异，例如在读段的所指示变异体对准位置处，可以增强系统效率且节省存储空间。更具体地，由于与参考的差异通常是稀疏的，因此对准位置和差异列表经常会比原始读段序列更紧凑地存储。因此，在各种实例中，例如当存储与对准读段的差异有关的数据时，对准读段格式的存储可能优于未对准读段数据的存储。在此实例中，如果对准读段和/或变异体调用格式例如在jit过程中用作底层存储格式，那么还可使用其它格式，例如sam、bam和/或cram压缩文件格式。连同要存储的对准和/或未对准读段文件数据，也可以存储广泛多种其它数据，例如从此处确定的各种计算导出的元数据。此类计算的数据可以包含读段映射、对准和/或后续处理数据，例如对准评分、映射置信度、距参考的编辑距离等。在某些实例中，此类元数据和/或其它额外信息无需保持在底层存储中用于jit分析，例如在其可在运行中例如通过本文描述的加速数据处理而再生的那些实例中。相对于元数据，此数据可以是指示系统如何从一个文件格式向后或向前转换为另一文件格式的小文件。因此，元数据文件允许系统创建任何其它文件类型的位兼容版本。举例来说，从发源数据文件前进，系统仅需要存取和实施元数据的指令。连同快速文件格式转换，jit还实现例如在基因组学dropbox存储器高速缓冲存储器中的快速压缩和/或解压缩和/或存储。如下文更详细地论述，一旦序列数据产生110，其就可以本地存储200，和/或可以可存取以用于远程存储，例如在云可存取的类似dropbox的存储器高速缓冲存储器400中。举例来说，一旦在基因组dropbox中，则数据可以表现为在云50上可存取，且随后可以例如基本上立即进行进一步处理。当存在多个映射/对准/分选/变异体调用系统100/300时这是特别有用的，例如在云50接口的任一侧上的一个促进数据的自动上载和处理，所述数据可以例如使用本文描述的jit技术进一步处理。举例来说，用于jit编译和/或处理的底层存储格式可能仅含有最小数据字段，例如读段名称、碱基质量评分、对准位置和/或在参考中的定向，以及与参考的差异的列表，例如其中每一字段可以针对其数据类型的最佳方式压缩。可以包含各种其它元数据和/或另外与存储文件相关联。在此实例中，用于jit分析的底层存储可以在本地文件系统200中，例如在硬盘驱动器和固态驱动器上，或例如nas或对象或类似dropbox的存储系统400的网络存储资源。具体来说，当例如bcl、fastq、sam、bam、cram、vcf等各种文件格式已经针对基因组数据集产生，其可以被提交用于jit处理和/或存储时，jit或其它相似编译和/或分析系统可以被配置以便将数据转换为单个底层存储格式用于存储。额外数据，例如通过加速基因组数据处理而再生所有其它所需格式所必要的元数据和/或其它信息(可能较小)，也可以与文件相关联且被存储。此额外信息可以包含以下一个或多个：将再生的文件格式的列表，再生每一格式的数据处理命令，参考基因组的唯一id(例如，url或md5/sha散列)，例如用于如本文所描述的映射、对准、分选、变异体调用和/或任何其它处理的各种参数设定，用于处理步骤的随机化种子，例如利用伪随机化，以确定性地再生相同结果、用户界面及类似物。在各种实例中，在jit或相似动态翻译处理和/或分析系统中将存储和/或检索的数据可以多种方式呈现给用户或其它应用程序。举例来说，一个选项是以标准或定制“jit对象”文件格式具有jit分析存储，例如用于作为sam、bam、cram或其它定制文件格式来存储和/或检索，且提供用户工具以使用本文公开的加速处理将jit对象快速转换为所需格式(例如，在本地临时存储200中)。另一选项是向用户和用户应用程序呈现例如bcl、fastq、sam、bam、cram、vcf等多个文件格式的外观，其方式为使得对各种文件格式的文件系统存取利用jit过程，因此仅需要保存一个文件类型，且从这些文件类型，可以在运行中产生所有其它文件。又一选项是制作以其它方式接受特定文件格式(bcl、fastq、sam、bam、cram、vcf等)的用户工具，其能够实际上作为jit对象而呈现，且可以自动调用jit分析以当调用时自动获得所需数据格式的数据，例如bcl、fastq、sam、bam、cram、vcf等。因此，jit过程可用于通过快速处理底层存储压缩文件格式而提供从单个文件格式对例如bcl、fastq、sam、bam、cram、vcf及类似的多个文件格式的存取。另外，即使仅将存取单个文件格式，jit也仍是有用的，因为相对于直接存储所存取格式仍实现压缩。在此实例中，底层文件存储格式可以不同于所存取文件格式，和/或可含有较少元数据，和/或可以比所存取格式更高效地压缩。此外，在此实例中，如上文所论述，文件在存储之前压缩，且在被检索时例如自动解压缩。在各种实例中，如本文所提供的jit分析的方法还可用于在因特网或另一网络上传输基因组数据，以最小化传输时间且减少消耗的网络带宽。具体来说，在一个存储应用中，可以存储单个压缩底层文件格式，和/或可以经由解压缩和/或加速基因组数据处理而存取一个或多个格式。类似地，在传输应用中，仅需要例如从源网络节点到目的地网络节点传输单个压缩底层文件格式，例如其中可以主要针对最小压缩文件大小选择底层格式，和/或其中可以在目的地节点通过或针对基因组数据处理例如在运行中产生所有所需文件格式。以此方式，仅一个压缩数据文件格式需要用于存储和/或传送，从此文件格式可以导出其它各种文件格式。因此，鉴于图40a，如本文中所述的硬件和/或量子加速基因组数据处理可以用于(或由其利用)源网络节点以产生和/或压缩用于传输的底层格式，且用于目的地网络节点以通过加速基因组数据处理而解压缩和/或产生其它所需文件格式。然而，即使源节点或目的地节点中的仅一个利用硬件和/或量子加速基因组数据处理，jit或其它动态翻译分析仍继续有用于传输应用。举例来说，发送大量基因组数据的数据服务器可以利用硬件和/或量子加速基因组数据处理以便产生用于传输到各种目的地的压缩底层格式。在此类实例中，每一目的地可以使用较慢的软件基因组数据处理以产生其它所需数据格式。因此，虽然jit分析的速度优点在目的地节点处减少，但传输时间和网络利用仍有效地减少，且源节点由于其对应的硬件和/或量子加速基因组数据处理设备而能够高效地服务于许多此类传输。此外，在另一示例中，例如从各种源接收大量基因组数据的上载的数据服务器可以利用硬件和/或量子加速基因组数据处理和/或存储，而各种源节点可以使用在cpu/gpu上运行的较慢软件以产生用于传输的压缩底层文件格式。替代地，硬件和/或量子加速基因组数据处理可以由源与目的地节点之间的例如网关服务器等一个或多个中间网络节点利用，以根据jit或其它动态翻译分析方法以压缩底层文件格式传输和/或接收基因组数据，因此获得减少传输时间和网络利用而不会使所述中间网络节点具有过量软件处理的过多负担的益处。因此，如相对于图40a可见，在某些实例中，本地计算资源100可以包含编译器130，例如jit编译器，且可进一步包含压缩器单元150，其被配置成用于压缩数据，例如产生和/或获取的一级和/或二级处理数据(或三级数据)，所述数据例如在jit分析过程中可以例如在本地10和/或云30和/或混合基于云50的网络上传送之前压缩，且可以在传送之后和/或在使用之前解压缩。如上文所描述，在各种实例中，系统可以包含第一集成式和/或量子电路100，例如用于执行映射、对准、分选和/或变异体调用操作，以便产生映射、对准、分选、去除重复和/或变异体调用结果数据中的一个或多个。另外，系统可以包含又一集成式和/或量子电路300，例如用于在一个或多个基因组学和/或生物信息学管线分析的执行中采用所述结果数据例如用于三级处理。举例来说，由第一集成式和/或量子电路100产生的结果数据可以例如由第一或第二集成式和/或量子电路300在又一基因组学和/或生物信息学管线处理过程的执行中使用。具体地，基因组学数据的二级处理可以由第一硬件和/或量子加速处理器100执行以便产生结果数据，且可以对所述结果数据执行三级处理，例如其中由以操作方式耦合到第一集成电路的cpu和/或gpu和/或qpu300执行又一处理。在此实例中，第二电路300可以被配置成用于执行由第一电路100产生的基因组学变异数据的三级处理。因此，从第一集成式服务器导出的结果数据充当分析引擎，其参考例如由第二集成式和/或量子处理电路300进行的三级处理而驱动本文所描述的另外处理步骤。然而，在这些一级和/或二级和/或三级过程步骤中的每一个中产生的数据可能是巨大的，从而要求例如用于本地200或远程400存储的极高资源和/或存储器成本。举例来说，在第一个一级处理步骤中，例如以bcl和/或fastq文件格式产生的核酸序列数据110可以例如从ngs110接收120。无论此序列数据的文件格式如何，所述数据都可以用于如本文中所描述的二级处理协议中。例如以bcl和/或fastq文件格式直接从ngs接收并处理一级序列数据的能力是很有用的。具体来说，并非将来自ngs的序列数据文件(例如，bcl)转换为fastq文件，文件可以例如作为bcl文件直接从ngs接收，且可以例如通过例如在运行中由jit系统接收且转换为fastq文件而处理，所述fastq文件随后可以如本文所描述被处理以便产生映射、对准、分选、去除重复和/或变异体调用结果数据，所述结果数据随后可以被例如压缩为sam、bam和/或cram文件，和/或可以经受例如所公开的基因组学三级处理管线中的一个或多个的进一步处理。因此，此类数据一旦产生就需要以某一方式存储。然而，此存储不仅是资源密集的，也是高成本的。具体地，在典型基因组学协议中，已定序数据一旦产生就被存储为大fastq文件。随后，一旦例如通过经受映射和/或对准协议而被处理，就产生bam文件，所述文件也通常被存储，从而例如因必须存储fastq和bam文件两者而增加基因组数据存储的费用。此外，一旦bam文件例如通过经受变异体调用协议而被处理，就产生vcf文件，所述vcf也通常需要存储。在此实例中，为了充分提供且利用产生的基因数据，所有三个fastq、bam和vcf文件可能需要本地200或远程400存储。另外，也可以存储原始bcl文件。此存储是低效的并且是存储器资源密集的且昂贵的。然而，本文实施的硬件和/或量子处理架构的计算能力连同jit编译、压缩和存储一起极大地改善这些低效率、资源成本和费用。举例来说，鉴于所实施的方法和通过当前加速集成电路实现的处理速度，例如用于将bcl文件转换为fastq文件，并且接着将fastq文件转换为sam或bam文件，并且接着将bam文件转换为cram和/或vcf文件并再次返回，当前系统极大地减少了此类数据的高效处理和/或存储需要的计算资源数目和/或文件大小。通过仅需要存储可以从其导出且处理所有其它文件格式的一个文件格式(例如bcl、fastq、sam、bam、cram和/或vcf)的事实进一步增强这些系统和方法的益处。具体来说，仅需要保存一个文件格式，且从此文件可以根据本文公开的方法例如以及时系统或jit编译格式例如在运行中快速产生任何其它文件格式。举例来说，根据典型的现有方法，需要大量计算资源，例如服务器群和大存储器存储体用于处理和存储正由ngs定序器产生的fastq文件。具体来说，在典型实例中，一旦ngs产生大fastq文件，就将随后使用服务器群来接收fastq文件且将其转换为bam和/或cram文件，此处理可能花费多达一天或更久。然而，一旦产生，bam文件自身就必须随后存储，从而需要另外的时间和资源。同样，可以此方式处理bam或cram文件以产生vcf，此处理也可能花费又一天或更久，且所述文件也将需要存储，从而带来另外的资源成本和费用。更确切地说，在典型实例中，用于人类基因组的fastq文件每文件消耗约90gb的存储。同样，典型人类基因组bam文件可能消耗约160gb。vcf文件也可能需要存储，但此类文件比fastq和/或bam文件小得多。在整个二级处理过程中也可以产生sam和cram文件，且这些也可能需要存储。在本文所提供的技术之前，从一个步骤到另一步骤，例如从一个文件格式到另一文件格式已经是计算密集型的，且因此，用于这些文件格式的所有数据通常将必须存储。这部分地是由于以下事实：如果用户一直希望返回并重新产生文件中的一个或多个，那么重新进行重新产生各种文件所涉及的过程将需要大量计算资源和时间，从而带来高货币费用。此外，在这些文件在存储之前被压缩的情况下，此压缩可能花费约2到约5到约10或更多个小时，在再使用之前具有约相同的解压缩所需的时间量。由于这些高费用，典型用户将不会在存储之前压缩此类文件，且还将通常存储所有两个、三个或更多个文件格式，例如bcl、fastq、bam、vcf，从而随着时间增加带来增加的成本。因此，本文采用的jit协议利用通过当前硬件和/或量子加速器实现的加速处理速度，以便在用于处理以及存储两者的时间和成本减少的情况下实现增强的效率。并非以不同文件格式存储同一一般数据的2个、3个或更多拷贝，仅需要存储一个文件格式，且在运行中，可例如使用本文所论述的加速处理平台重新产生任何其它文件类型。具体来说，从存储fastq文件，当前装置和系统使其易于例如在30分钟内，例如在20分钟内，或约在15或10分钟内或更短时间内向后变为bcl文件，或向前变为bam文件，并且接着进一步变为vcf。因此，使用本文所公开的硬接线/量子处理引擎提供的管线和处理速度，仅需要存储单个文件格式，而其它文件格式可以从其容易且快速地产生。因此并非需要存储所有三个文件格式，只需要存储单个文件格式，可以从其及时地例如在运行中重新产生任何其它文件格式，以用于用户所需的另外处理步骤。因此，系统可以被配置成易于使用，以使得如果用户简单地与例如在装置的相关联显示器处呈现的图形用户界面互动，例如用户在gui中呈现的fastq、bam、vcf等按钮上点击，那么可以呈现所需文件格式，而在后台中，系统的处理引擎中的一个或多个可以执行从所存储文件以所请求文件格式重新产生所请求文件所必要的加速处理步骤。通常，bcl、fastq、sam、bam、cram和/或vcf文件的压缩版本中的一个或多个将连同小元文件一起保存，所述元文件包含如何运行系统以创建压缩和/或存储文件的所有配置。此类元文件数据详细说明例如fastq和/或bam文件的特定文件格式如何产生，和/或向后或向前以便产生任何其它文件格式所必要的将是什么步骤。本文在下文更详细地描述此过程。以例如此方式，过程可以使用存储于元文件中的配置向前前进或向后逆转。这在计算功能与存储功能绑定的情况下可以是存储和经济成本降低约80％或更多。因此，鉴于上文且如相对于图40a可见，提供用于数据分析和存储的基于云的服务器系统。举例来说，使用如本文所公开的云可访问的服务器系统，用户可以与存储装置连接以例如用于存储输入数据。举例来说，远程用户可以访问系统以便输入基因组学和/或生物信息学数据到系统中，例如用于其存储和/或处理。具体来说，系统的远程用户例如使用本地计算资源100可以访问系统1以便上载基因组数据，例如一个或多个个体的一个或多个定序基因组。如在下文详细描述，系统可以包含用户界面，例如访问合适配置的api，这将允许用户访问bioit平台以便上载待处理的数据，控制处理的参数，和/或从平台下载输出，例如结果数据。具体地，系统可以包含api，例如s3或“类似s3”对象，其允许对系统的一个或多个存储器的存取，用于存储400和/或接收所存储文件。举例来说，可以存在云可访问的api对象，例如其中所述api是可配置的以便将数据存储在云50中，例如存储到一个或多个存储桶500中，例如s3桶。因此，系统可以被配置以便允许用户例如经由s3或类似s3的api访问远程存储的文件，例如通过经由个人计算装置上的基于云的接口访问所述api。此api因此可以被配置成用于允许访问云50，进而连接用户与本文公开的基于云的服务器300中的一个或多个，以便上载和/或下载给定存储文件，例如以便使文件在云服务器300与本地硬盘驱动器100之间可访问。这可以例如有用于允许远程用户在服务器300上或从服务器300提供、访问数据和/或下载数据，并且进一步在本地100或在服务器300上对所述数据运行一个或多个应用程序和/或计算，然后调用api以将经变换数据发送回到云50或从云50发送，例如用于存储200和/或进一步处理。这具体来说可用于基因组学数据的检索、分析和存储。然而，数据的典型基于云的存储，例如“s3”存储，是昂贵的。当存储与基因组学和生物信息学领域相关联的大量数据时此费用增加，其中此类成本经常变为过高的。另外，记录、上载和/或下载数据以供例如在本地100或远程300使用和/或用于存储400所需的时间也使此类昂贵的基于云的存储解决方案吸引力较低。本文公开的当前解决方案克服了这些和其它此类需要。具体来说，并非通过典型“s3”或其它典型基于云的对象api，本文呈现的是替代的s3兼容api，其可以实施以便降低传输速度和/或数据存储的成本。在此实例中，当用户想要存储文件而不是通过典型基于云的(例如，s3)api时，替代服务api系统，例如本文公开的专有s3兼容api，将启动计算实例，例如系统的cpu和/或fpga实例，其将用以压缩文件，将产生关于指示数据是什么和/或文件是如何产生的等的元数据索引，且将随后经由类似于s3兼容存储的桶400来存储压缩文件。因此，本文呈现的是基于云的50服务，其采用可以由替代api启动的计算实例300，以便在存储400之前压缩数据和/或在检索后解压缩数据。在此实例中，因此，存储的不是实际文件，而是存储的是原始文件的压缩版本。具体地，在此实例中，初始文件可以呈第一格式，其可以经由专有s3兼容api加载到系统中，系统接收文件，例如f1文件，且可以随后对文件执行计算功能，和/或随后例如经由合适配置的cpu/gpu/qpu/fpga处理引擎300压缩文件，所述处理引擎随后准备压缩文件用于作为压缩文件来存储，例如压缩f1文件。然而，当需要检索压缩和存储的文件时，其可以随后被解压缩，所述解压缩文件随后可以返回到用户。此加速压缩和解压缩系统的优点在于，压缩文件的存储400意味着存储成本的难以置信的节省，所述优点通过本文公开的系统所实现的计算和/或压缩功能性而成为可能。因此，由于本系统所实现的快速且高效计算和/或压缩功能性，用户甚至无需知道文件在存储之前被压缩，且随后在存储后被解压缩并在用户的界面处呈现。具体来说，系统如此快速且高效地运行，使得用户无需知道当存储和/或检索所请求的数据时发生的大量压缩、计算和/或解压缩步骤，对于用户，这全部表现为无缝且及时的。然而，本存储系统将比先前存储系统成本更低且更高效的事实将是明显的。因此，鉴于上文，本文提供基于对象的存储服务，其中通过连同存储功能性一起组合计算和/或压缩实例，可以较低成本提供存储服务。在此实例中，典型存储成本可取代以低得多的水平提供的计算成本，因为如本文阐述，计算成本可以由如本文中所描述的fpga和/或量子计算平台300以加速方式实施。因此，本文公开的加速平台可被配置为允许数据的快速压缩存储的快速且高效的存储和检索系统，所述数据可以低得多的成本以及更大的效率和速度被压缩和存储以及快速解压缩和检索。这相对于基因组学数据存储400特别有用，且与上文在本文公开的及时系统处理功能性兼容。因此，根据本文公开的装置、系统和方法可以提供对象存储服务，其中所述存储服务实施快速压缩功能性，例如基因组学特定压缩，以便存储基因组学处理结果数据。更确切地说，如相对于图40a可见，在一个示例性实施方案中，本文所提供的bioit系统可以被配置成使得管线服务器系统300(例如，其一部分)在例如s3兼容api的api处接收请求，所述api可操作地连接到数据库400，所述数据库适合于例如基于耦合元数据使初始(f1)文件与(cf1)文件的压缩版本相关联。同样，一旦原始cf1文件被解压缩和处理，所得结果数据(f2)文件就可以随后被压缩且存储为cf2文件。因此，当期望从数据库400检索文件时，服务器300具有已经经由适当配置的元数据使原始文件与压缩文件相关联的api，因此，当请求检索时，系统的工作流管理控制器(wms)将启动计算实例300，其将启动适当的计算实例以便执行任何必要计算和/或解压缩文件以用于进一步处理、传输和/或呈现给请求用户100。因此，在各种实施例中，示例性方法可以包含成任何逻辑次序的一个或多个步骤：1)请求通过api(例如，s3兼容api)进入，2)api与wms通信，3)wms填充数据库且发起计算实例，4)计算实例对f1文件执行必要的压缩，且产生特性元数据和/或其它相关文件关联，例如以产生cf1x1文件，4)从而准备数据用于存储400。此过程随后可以针对f2、f3、fn文件(例如，其它经处理信息)重复，以使得wms知道压缩文件是如何产生的，以及压缩文件存储在何处以及如何存储。应注意，此系统的独特特征在于，可以允许若干不同用户100基本上同时访问存储的数据400。举例来说，本文公开的压缩系统和方法结合本文公开的biot平台是有用的，由此在处理过程期间的任何时间，结果数据可以根据本文的方法压缩和存储，且对具有正确许可的他人是可访问的。相对于执行基因组分析，用户100可以例如经由例如s3或s3兼容api等基因组分析api访问本文的系统300，例如以bcl和/或fastq文件或其它文件格式上载基因组数据，且进而请求执行一个或基因组学操作，例如映射、对准、分选、去除重复、变异体调用和/或其它操作。系统300在工作流管理器api处接收请求，工作流管理器系统随后评估传入的请求，将工作编索引，形成队列，分配资源(例如，实例分配)，且产生管线流。因此，当请求进入且被预处理和排队时，实例分配器(例如，api)将随后根据工作项目启动各种工作特定实例，如本文在下文更详细地描述。因此，一旦工作被编索引、排队和/或存储于适当数据库400中，工作流管理器就将随后从例如s3或s3兼容存储的存储400拉动数据，使检索文件的适当实例循环，且对数据运行适当的过程以执行所请求工作中的一个或多个。另外，在请求对数据执行多个工作，从而需要执行多个实例的情况下，一旦第一实例已经执行其操作，则结果数据可以例如在例如弹性或柔性存储装置的适当存储器实例(例如，第一数据库)中被压缩和存储，以便在另一管线实例根据本文在上文公开的系统和方法启动且检索结果数据用于进一步处理时进行等待。此外，在新请求进入和/或当前工作正运行时，工作流管理系统将恒定地更新队列以便经由实例分配器api将工作分配到适当的实例，以便保持数据流过系统且系统的过程高效地运行。同样，系统300可以恒定地取得结果数据且将数据200/400存储于例如第一或第二数据库中，然后进行进一步处理和/或传输，例如传输回到原始请求者100或指定方。在某些实例中，如本文所公开，结果数据可以在存储400和/或传输之前压缩。此外，如上文所指出，产生的结果数据文件当压缩时可以包含适当元数据和/或其它相关联数据，其中结果数据可以在其流过系统时被不同地指定，例如从f1文件到f1c文件到f2文件、到f2c文件等等，因为数据被处理且例如由文件关联api引导而移动通过平台管线。因此，由于如本文所公开的专有专用api，系统可以具有其它服务可以耦合到和/或额外资源(例如，实例)可以被带到在线的共同骨干，以便确保所有管线操作平稳且高效地运行。同样，当需要时可以调用压缩和存储的结果数据文件，由此工作流管理器将启动适当的计算和/或解压缩数据库实例以解压缩结果数据以供呈现给请求者。应注意在各种实例中，指定的计算和压缩实例以及指定的计算和解压缩实例可以是单个或多个实例，且可以被实施为cpu、fpga或紧密耦合cpu/fpga、紧密耦合cpu/cpu，或紧密耦合fpga/fpga。在某些实例中，本文公开的这些和其它实例中的一个或多个可以被实施为量子处理单元。因此，鉴于本文的公开，在一个方面中，提供用于在执行基因组学序列分析操作中执行大量功能中的一个或多个的装置。举例来说，一旦数据已例如由远程用户100接收和/或存储400于基于云的系统内，输入数据就可以由wms存取，且可以准备用于进一步处理，例如用于二级分析，其结果随后可以例如在被压缩、存储400和/或经受额外处理之后传输回到本地用户100，所述额外处理例如系统服务器300的三级处理。在某些实例中，本文公开的二级处理步骤在特定实施方案中可以由本地计算资源100执行，且可以例如通过由盒顶计算资源200执行而通过软件和/或硬件实施，其中计算资源200包含cpu核心，例如约4到约14到约24或更多个cpu核心，且可进一步包含一个或多个fpga。本地盒顶计算资源100可以被配置成存取大存储块200，例如ram存储器的120gb，所述存取可以是直接的，例如通过与其直接耦合，或是间接的，例如通过在本地基于云的网络30上与其可通信地耦合。具体地，在本地系统内，数据可以经由合适配置的ssd驱动器传输到存储器200或从存储器200传输，所述ssd驱动器适合于将处理工作数据(例如，待处理的基因组学工作)写入到存储器200和从存储器200读取处理的结果数据。在各种实施例中，本地计算资源100可以可通信地耦合到定序器110，从其中可以例如从定序器获得bcl和/或fastq文件，且例如通过合适配置的互连件直接写入到ssd驱动器。本地计算资源100随后可以对数据执行一个或多个二级处理操作。举例来说，在一个实施例中，本地计算资源是具有24个cpu的服务器，所述cpu可以耦合到合适可配置的fpga，所述fpga适合于执行本文公开的二级处理操作中的一个或多个。因此，在特定实例中，本地计算装置100可以是“工作台”计算解决方案，其具有被配置成用于对遗传数据执行二级和/或三级处理中的一个或多个的bioit芯片组。举例来说，如本文所公开，计算资源100可以与插入到计算装置中的pcie卡相关联，以便进而与一个或多个内部cpu、gpu、qpu核心和/或相关联存储器相关联。具体来说，计算装置100的包含处理单元、相关联存储器和/或其中具有一个或多个fpga/asic芯片组的相关联pcie卡的组件可以与彼此通信，所有这些组件可以例如以本领域内典型的盒组方式提供于外壳内。更确切地说，盒组可以被配置成用于工作台使用，或在各种实例中，可以被配置和提供和/或使用于远程可访问的服务器机架内。在其它实施例中，cpu/fpga/存储器芯片组和/或相关联互连快速卡可以在下一代定序装置内相关联以便与其形成一个单元。因此，在一个特定实例中，桌上型盒组可以包含耦合到一个或多个fpga的多个cpu/gpu/qpu，例如4个cpu/gpu，或8、或12、16、20、22或24个cpu或更多，其可以例如在单个外壳内耦合到1或2或3或更多个fpga。具体地，在一个特定实例中，提供盒组计算资源，其中计算资源包含24个cpu核心，可重新配置的fpga，数据库，例如128x8ram，一个或多个ssd，例如其中fpga被适配成在操作之间至少部分地是可重新配置的，例如在执行映射和对准之间。因此，在此实例中，由定序设备110产生的bcl和/或fastq文件可以被读取到cpu中和/或传送进入fpga用于处理，且其结果数据可以经由ssd驱动器被读回到相关联cpu。因此，在此实施例中，本地计算系统100可以被配置成将各种高计算功能性卸载到相关联fpga，进而增强生物信息学处理的速度、准确性和效率。然而，虽然桌上型盒组解决方案100例如在本地设施处是有用的，但可能不适合于由可能远离盒组定位的多个用户访问。具体来说，在各种实例中，可以提供基于云的服务器解决方案50，例如其中服务器300可以是远程可访问的。因此，在特定实例中，本文公开的集成电路(cpu、fpga、qpu)中的一个或多个可以被提供且配置成经由基于云50的接口来访问。因此，在特定实例中，可以提供如上文所描述的工作台盒组计算资源，其中盒组配置被适配以便对云是便携式的且可远程访问。然而，此配置可能不足以处置来自远程用户的大量业务。因此，在其它情况下本文公开的集成电路中的一个或多个可以被配置为基于服务器的解决方案300，其可配置为服务器机架的部分，例如其中服务器可访问的系统被配置成专门用于例如经由云50远程访问。举例来说，在一个实施例中，具有一个或多个(例如，大量)cpu和/或gpu和/或qpu核心和相关联存储器的计算资源或本地服务器100可以结合本文公开的fpga/asic中的一个或多个而提供。具体来说如上文所指出，在一个实施方案中，可以提供桌上型盒组，其中所述盒组包含18到20到24或更多个cpu/gpu核心盒组，其具有ssd、128x8ram和一个或多个bioitfpga/asic电路，并且还包含合适配置的通信模块，所述通信模块具有发射器、接收器、天线以及wifi、蓝牙和/或蜂窝式通信能力，其以一方式被适配以便允许盒组是可远程访问的。在例如其中提供单个fpga的此实施方案中，fpga可以适合于在基因组学分析管线的各种步骤中的一个或多个之间重新配置，例如部分地重新配置。然而，在其它实例中，提供服务器系统且可以包含高达约20到24到30到34到36或更多个cpu/gpu核心以及约972gb的ram或更多，其可以与一个或多个、例如约两个或四个或约六个或约八个或更多个fpga相关联，所述fpga如本文中所述可以是可配置的。举例来说，在一个实施方案中，所述一个或多个fpga可以适合于在基因组学分析管线的各种步骤中的一个或多个之间重新配置，例如部分地重新配置。然而，在各种其它实施方案中，可以提供一组专用fpga，例如其中每一fpga专用于执行特定bioit操作，例如映射、对准、变异体调用等，从而避免重新配置步骤。因此，在各种实例中，可以提供一个或多个fpga，例如其中fpga被适配以便在各种管线操作之间是可重新配置的。然而，在其它实例中，fpga中的一个或多个可以被配置以便专用于执行一个或多个功能而不需要部分或完全地被配置。举例来说，本文所提供的fpga可以被配置以便专用于在bioit管线中执行一个或多个计算密集型操作，例如其中提供一个fpga且专用于执行映射操作，且提供另一fpga且配置成用于执行对准操作，但在一些实例中，可以提供单个fpga且配置成用于在执行映射和对准操作之间至少部分地重新配置。另外，管线中也可以由可重新配置的或专用的fpga执行的其它操作可以包含执行bcl转换/转置操作、smith-waterman操作、hmm操作、局部再对准操作，和/或各种其它变异体调用操作。同样，各种管线操作可以被配置成用于由系统的相关联cpu/gpu/qpu中的一个或多个执行。此类操作可以是管线的一个或多个较少计算密集型操作，例如用于执行分选、去除重复和其它变异体调用操作。因此，首要系统可以被配置成用于部分通过cpu/gpu/qpu且部分通过硬件来执行操作的组合，通过硬件例如通过系统的fpga/asic。因此，如相对于图40b可见，在基于云的系统50的各种实施方案中，系统可以包含多个计算资源，包含多个实例和/或实例层级，例如其中实例和/或实例层被配置成用于执行本文公开的操作的bioit管线中的一个或多个。举例来说，可以提供各种cpu/gpu/qpu和/或硬接线集成电路实例用于执行本文所提供的基因组管线分析的专用功能。举例来说，可以提供各种fpga实例用于执行专用基因组分析操作，例如一个fpga实例用于执行映射，另一个用于执行对准，另一个用于执行局部再对准和/或其它smith-waterman操作，另一个用于执行hmm操作，等等。同样，可以提供各种cpu/gpu/qpu实例用于执行专用基因组分析操作，例如用于执行信号处理、分选、去除重复、压缩、各种变异体调用操作及类似操作的cpu/gpu/qpu实例。在此类实例中，例如在管线的各种计算步骤之间可以提供一个或多个相关联存储器，用于在整个系统中例如各种cpu和/或fpga实例和/或其层之间计算、编译和处理数据时接收结果数据。此外，应注意，各种cpu和/或fpga实例的大小可以取决于基于云的系统的计算需要而变化，且可以从小到中等到大到极大而变化，且cpu/gpu/qpu和fpga/asic实例的数目同样可以变化。另外，如相对于图40b可见，系统可进一步包含工作流管理器，其被配置成用于调度和引导数据在整个系统中且从一个实例到另一实例和/或从一个存储器到另一存储器的移动。在一些情况下，存储器可以是多个存储器，其为实例特定的专用存储器，且在其它情况下存储器可以是被配置成弹性的且因此能够从一个实例切换到另一实例的一个或多个存储器，例如可切换的弹性块存储存储器。在又其它实例中，存储器可以是实例非特定的，且因此能够可通信地耦合到多个实例，例如用于弹性文件存储。此外，工作流管理器自身可以是专用实例，例如专用和/或被配置成用于确定需要执行何种工作以及在那些工作的执行中何时将利用资源和利用何种资源以及用于将工作排队并从资源到资源(例如，实例到实例)引导工作的cpu/gpu/qpu核心。工作流管理器可以包含或可以另外被配置为负载估计器和/或形成弹性控制节点，所述弹性控制节点是可以由处理器(例如，cpu/gpu/qpu核心)运行的专用实例。在各种实例中，工作流管理器可以具有连接到其的数据库，所述数据库可以被配置成用于管理需要处理、正在处理或已经处理的所有工作。因此，wms管理器可以被配置成用于检测和管理数据如何在整个系统中流动，确定如何分配系统资源，以及何时将更多资源带到在线。如上文所指出，在某些实例中，可以提供基于工作台和/或服务器的解决方案，其中计算装置包含具有大小y的x多个cpu核心服务器，其可以被配置成对具有大小z的一个或多个fpga中进行馈送，其中x、y和z是可以取决于系统的处理需要而变化的数字，但应当被选择和/或另外配置以用于优化，例如10、14、18、20、24、30等。举例来说，针对执行本文描述的系统的bioit操作而优化典型系统配置。具体地，某些系统配置已经优化以便最大化从各种cpu/gpu/qpu实例到系统的例如fpga等各种集成电路的数据流，其中cpu和/或fpga的大小可以基于系统的处理需要而彼此相关地变化。举例来说，cpu和/或fpga中的一个或多个可以具有相对小、中等、大、超大或超超大的大小。更具体地，系统架构可以一方式被配置成使得cpu/fpga硬件被设定大小且配置成以最优高效方式运行，以便保持两个实例平台在所有运行时间期间忙碌，例如其中cpu数目超过fpga为4比1、8比1、16比1、32比1、64比2等。因此，虽然具有大fpga能力大体上是好的，然而，如果没有需要处理的足够数据馈送到系统，那么具有高容量fpga来处理数据可能不是高效的。在此实例中，可以实施仅单个或部分fpga。具体来说，在理想布置中，工作流管理系统将数据流引导到所识别cpu和/或fpga，所述cpu和/或fpga以一方式被配置以便使系统和其组件保持全时计算。举例来说，在一个示例性配置中，一个或多个，例如2、3或4或更多个cpu/gpu/qpu核心可以被配置成将数据馈送到小、中等、大、超大fpga或其一部分中。具体地，在一个实施例中，可以提供cpu特定实例，例如用于执行本文公开的bioit处理操作中的一个或多个，例如其中cpu实例是云可访问的且包含多达4、8、16、24、30、36个cpu核心，所述核心可以或可以不被配置成可操作地连接到一个或多个fpga的一部分。举例来说，可以提供云可访问的服务器机架300，其中所述服务器包含cpu核心实例，其具有可操作地可连接到fpga实例的约4个cpu核心到约16到约24个cpu核心。举例来说，可以提供fpga实例，例如其中fpga的平均大小是x，且包含的fpga可具有约1/8x、x、2.5x直到8x或甚至约16x或更大的大小。在各种实例中，可以包含额外cpu/gpu/qpu核心和/或fpga，和/或提供作为组合实例，例如其中存在大量数据要处理，且其中选择cpu核心的数目以便使fpga保持全时忙碌。因此，cpu与fpga的比率可以通过以优化数据流的方式组合而成比例，且因此，系统可以被配置以便按需要弹性地按比例放大或缩小，以例如在基于工作流而优化利用率时使费用最少。然而，在cpu并不产生足够工作来使fpga保持忙碌和/或完全利用的情况下，配置将不太理想。因此，本文所提供的是一个或多个实例的灵活架构，所述实例可以直接耦合在一起或能够耦合在一起，其方式为被适配以使得cpu/fpga软件/硬件高效地运行以便确保当前cpu/gpu/qpu最优地馈送可用的fpga和/或其一部分，以此方式使两个实例平台在所有运行时间期间保持忙碌。因此，允许从云访问此系统将确保多个数据提供到系统以便由工作流管理器排队且引导到特定cpu/fpga资源，所述资源被配置且能够以最优高效方式接收和处理数据。举例来说，在一些配置中，云可访问的实例可以包含多个数目和大小的cpu/gpu/qpu，且另外，可能存在包含多个数目和大小的fpga(或asic)和/或qpu的云可访问的实例。甚至可以存在具有这些实例的组合的实例。然而，在各种反复中，提供的cpu/gpu/qpu和/或fpga/qpu和/或混合实例可能具有太多的一个实例和/或太少的另一实例而无法高效地运行本文公开的当前bioit管线处理平台。因此，本文呈现的是系统和架构、其灵活的组合和/或用于实施它们的方法，以用于生物信息学和/或基因组学管线处理平台的高效形成和使用，例如使其可经由云50访问。在此类系统中，选定cpu/gpu/qpu的数目和配置可以被选择和配置以处理较不计算密集型操作，且fpga和/或qpu的数目和配置可以适合于处置计算密集型任务，例如其中数据在cpu/gpu/qpu和fpga/qpu实例之间无缝地来回传递。另外，可以提供一个或多个存储器用于在过程的各种步骤之间和/或各种不同实例类型之间存储数据，例如结果数据，从而避免实例时延的实质时间段。具体地，在映射和对准期间，由于计算的密集性质而利用极少的cpu/gpu，这些任务被配置成通过硬件实施方案执行。同样，在变异体调用期间，任务可以一方式分裂以便在cpu/fpga实例之间大致相当地分布其任务，例如其中smith-waterman和hmm操作可以由硬件执行，且各种其它操作可以由在一个或多个cpu/gpu/qpu实例上运行的软件执行。因此，本文阐述的架构参数不一定限于一组架构，而是系统被配置以便具有组织其实施方案的更多灵活性，且依赖于工作流管理器来确定何种实例在何时处于作用中、如何作用以及作用多久，以及指示对哪些实例执行哪些计算。举例来说，将被带到在线且操作性地耦合在一起的cpu和/或fpga的数目应当被选择和配置以使得被激活的cpu和fpga以及其伴随的软件/硬件保持最优地忙碌。具体来说，所述数目的cpu和其功能应当被配置以便使所述数目的fpga或其部分保持全时忙碌，以使得cpu最优地且高效地馈送fpga以便使两个实例和其组成部分保持高效地运行。因此，以此方式，系统的工作流管理控制器可以被配置成用于访问工作流并组织和划分工作流，其方式为使得可以由cpu/gpu/qpu更最优地执行的任务被引导到为了最优地执行那些操作所必要数目的cpu，且可以由fpga/asic/qpu更最优地执行的任务被引导到为了最优地执行那些操作所必要数目的fpga。还可以包含弹性和/或高效存储器以用于将这些操作的结果数据从一个实例高效地传输到另一实例。以此方式，机器和存储器的组合可以被配置和组合以便基于将执行的工作的程度以及实例的最优配置和使用而最优地按比例缩放，以便高效地且更成本有效地最佳执行所述工作。具体地，本文阐述的基于云的架构表明，先前架构产品中的各种已知缺陷可能导致低效率，此低效率可以通过灵活地允许更多cpu/gpu/qpu核心实例访问例如fpga或其部分的各种不同硬件实例而克服，所述各种不同硬件实例已经以更有意的方式组织以便能够使正确的实例专用于执行适当的功能，以便通过以所述格式实施而优化。举例来说，系统可以被配置成使得存在较大比例的可以远程访问的可用cpu/gpu实例，以便全时忙碌于产生结果数据，所述结果数据可最优地馈送到可用fpga/qpu实例中以便使选定的fpga实例保持全时忙碌。因此，期望提供尽可能高效且全时忙碌的结构化架构。应注意，其中太少cpu对太多fpga进行馈送而使得fpga中的一个或多个未充分利用的配置不是高效的且应当避免。在一个实施方案中，如相对于图40b可见，架构可被配置以便实际上包含若干不同层或层级，例如具有第一数目x的cpu核心的第一层级，例如从4到约30个cpu核心，以及具有1到12或更多个fpga实例的第二层级，其中fpga的大小可以从小到中等到大变动，等等。还可以包含cpu核心的第三层级和/或另外的fpga的第四层级，等等。因此，在基于云的服务器300中存在许多可用实例，例如在本文所描述的一个或多个层级中例如简单地包含cpu或gpu的实例和/或包含fpga和/或其组合的实例。因此，以例如此方式，架构可以被灵活地或弹性地组织以使得最密集的特定计算功能由硬件实例或qpu执行，且可通过cpu运行的那些功能被引导到适当层级的适当cpu/gpu以用于一般处理目的，且在必要时可以在系统内按需要增加或减小cpu/fpga实例的数目。举例来说，所述架构可被弹性地定大小以最小化系统费用，同时最大化最佳利用率。具体地，所述架构可以被配置成通过在各种不同虚拟层级上组合各种实例而最大化效率且减少时延。具体来说，多个(例如，大部分和/或所有)1级cpu/gpu实例可以被配置成对已经特定地配置成执行特定功能的各种2级fpga实例进行馈送，例如映射fpga和对准fpga。在又一层级中，可以提供一个或多个额外(或相同于i级)cpu，例如用于执行分选和/或去除重复操作和/或各种变异体调用操作。更进一步，fpga的一个或多个额外层可以被配置成用于执行needleman-wunsch、smith-waterman、hmm、变异体调用操作及类似操作。因此，第一层级cpu可用于形成基因组学分析的初始层级，例如用于执行一般处理步骤，包含排队和准备数据用于进一步管线分析，所述数据一旦由一个或大量cpu处理就可馈送到专用fpga实例的一个或多个另外层级中，例如其中fpga实例被配置成用于执行密集的计算功能。以此方式，在特定实施方案中，管线中的cpu/gpu实例一旦准备好就将其数据路由到一个或两个映射和对准2级fpga实例。一旦已执行映射，结果数据就可以存储于存储器中和/或随后馈送到对准实例，其中对准可以例如由至少一个专用2级fpga实例执行。同样，已处理的映射和对准数据随后可以存储于存储器中和/或被引导到可为相同的1级或不同实例的3级cpu实例用于进一步处理，例如用于执行处理较不密集的基因组学分析功能，例如用于执行分选功能。另外，一旦3级cpu已执行其处理，所得数据就可以随后转发回到fpga的其它2级实例或到4级fpga实例，例如用于进一步基因组学处理密集的功能，例如用于执行needleman-wunsch(nw)、smith-waterman(sw)处理功能，例如在nw或sw专用fpga实例中。同样，一旦已例如由sw专用fpga执行sw分析，那么已处理的数据可以发送到一个或多个相关联存储器和/或进一步沿着处理管线发送，例如到另一例如4级或5级或者回到1级或3级cpu和/或fpga实例，例如用于执行hmm和/或变异体调用分析，例如在专用fpga和/或cpu处理核心的又一层中。以例如此方式，通过在一个或多个不同层级上组合各种不同实例可以克服时延和效率问题，以便提供用于基因组学处理的管线平台。此配置可以不仅涉及按比例缩放和/或组合实例，实例可以被配置成使得它们专用于执行专用功能。在此实例中，映射fpga实例仅执行映射，且同样对准fpga实例仅执行对准等等，而不是单个实例执行管线的端到端处理。但在其它配置中，fpga中的一个或多个可至少部分地例如在执行管线任务之间重新配置。举例来说，在某些实施例中，由于在此将执行的基因组学分析是多步过程，因此在fpga上的代码可以被配置以便在通过处理过程的半途改变，例如当fpga完成映射操作时，其可以重新配置以便执行对准、变异体调用、smith-waterman、hmm及类似操作中的一个或多个。因此，管线管理器，例如工作流管理系统，可用以管理正由i级cpu实例调配的基因组处理请求的队列以便分解为离散工作、聚集且路由到适当的工作特定cpu，然后到达工作特定fpga实例用于例如在2级的例如映射和/或对准的进一步处理，映射且对准的数据一旦被处理就可以向后或向前发送到结果数据的cpu/fpga处理的下一层级，例如用于在变异体调用模块中执行各种步骤。举例来说，变异体调用功能可以划分成多个操作，所述操作可以软件执行，随后转发到一个或多个fpga硬件实例中的smith-waterman和/或hmm处理，并且接着可以发送到cpu用于继续变异体调用操作，例如其中整个平台被弹性地和/或高效地设定大小且实施以最小化昂贵fpga实例的成本，同时最大化利用率，最小化时延，并且因此优化操作。因此，以此方式，由于其纯处理能力和硬接线特殊性而需要较少硬件实例，并因此可以最小化fpga数目与cpu数目之比，且其例如fpga的使用可以最大化，并因此系统被优化以便使所有实例保持全时忙碌。此配置最优地被设计用于基因组学处理分析，特别是用于映射、对准和变异体调用。可以例如作为附件包含到本文公开的管线架构的额外结构元件是一个或多个弹性和/或高效存储器模块，其可以被配置成用于提供数据(例如，结果数据)在整个管线中传递时的块存储。因此，一个或多个弹性块数据存储(elasticblockdatastorage，ebds)和/或一个或多个高效(灵活)块数据存储模块可以插入于处理层级中的一个或多个之间，例如不同实例和/或实例层级之间。在此实例中，存储装置可以被配置成使得在数据得到处理且获得结果时，处理结果可以被引导到存储装置进行存储，然后路由到例如专用fpga处理模块的处理的下一层级。同一存储装置可以在所有实例或实例层级之间采用，或大量存储装置可以在各种实例和/或实例层级之间采用，例如用于结果数据的存储和/或编译和/或排队。因此，可以此方式提供一个或多个存储器使得系统的各种实例可以耦合到和/或存取同一存储器，以便能够参看和存取相同或相似文件。因此，可以存在一个或多个弹性存储器(能够循序地耦合到多个实例的存储器)和/或高效存储器(能够同时耦合到多个实例的存储器)，由此系统的各种实例被配置成对相同或相似存储器进行读取和写入。举例来说，在相对于采用此类弹性存储器的配置的一个示例性实施例中，在从处理的一个实例和/或一个层级向另一个实例和/或层级直接发送数据之前，数据可以路由到ebds，或者其它存储器装置或结构，例如高效存储器块，用于存储并且随后路由到适当的硬接线处理模块。具体地，块存储模块可以附接到用于存储器存储的节点，其中数据可写入到bsd以用于在一个层级的存储，且bsd可以翻转到另一节点以用于将所存储的数据路由到下一处理层级。以此方式，一个或多个(例如，多个)bds模块可以包含于管线中且被配置成用于从一个节点翻转到另一节点以便参与整个管线中的数据转变。此外，如上文所指出，可以采用更灵活的文件存储装置，例如能够同时耦合到一个或多个实例而例如不必从一个切换到另一个的装置。以例如此方式，系统可以在系统的每一层级弹性地按比例缩放，例如其中在每一层级可能存在不同数目个节点用于处理所述层级的数据，且一旦已处理则结果数据可以写入到一个或多个相关联ebds装置，所述装置可以随后切换到系统的下一层级以便使所存储的数据可用于处理器的下一层级，以用于在所述层级执行其特定任务。因此，处理管线中例如在其伴随节点处当准备数据用于处理(例如，预处理)时存在许多步骤，所述数据一旦准备好就被引导到在其中可以产生结果数据的一个层级处的适当处理实例，随后结果数据可以例如存储在eds装置内，排队且准备通过翻转到实例的下一节点且路由到下一实例而用于下一处理阶段，以用于通过fpga和/或cpu处理实例的下一次序进行处理，其中可以产生进一步结果数据，且再次一旦产生则结果数据可以被引导回到同一层级或向前到eds的下一层级以用于存储，然后前进到下一处理阶段。具体来说，在一个特定实施方案中，通过管线的流可以看似以下情形：cpu(例如，4cpu核心或c4实例)：数据准备(排队和/或存储)；fpga(例如，2xlfpga-完整服务器的1/8，或f1实例)：映射，临时存储；fpga(例如，2xlfpga-完整服务器的1/8，或f1实例)：对准，临时存储；cpu：分选，临时存储；cpu：去除重复，临时存储；cpu：变异体调用1，临时存储；fpga(例如，f1或16xl，或f2实例)：smith-waterman，临时存储；fpga(例如，f1或f2实例)：hmm，临时存储；cpu：变异体调用2，临时存储；cpu：vcgf，临时存储，等等。另外，可以包含工作流管理系统以控制和/或引导数据流通过系统，例如其中wms可以实施于cpu核心中，例如4核心cpu或c4实例。应注意，这些步骤中的一个或多个可以任何逻辑次序执行，且可以在各种不同组合中由任何合适配置的资源实施，例如以软件和/或硬件实施。且应注意，这些操作中的任一个可以在一个或多个cpu实例和一个或多个fpga实例上在一个或多个理论处理层级上执行，以便形成本文所描述的bioit处理。如所指示，可以包含工作流管理器，例如其中wms实施于一个或多个cpu核心中。因此，在各种实例中，wms可以具有操作性地耦合到其的数据库。在此实例中，数据库包含将排队的各种操作或工作、待决工作，以及先前或当前将执行的所有工作的历史。因此，wms监视系统和数据库以识别将执行的任何新工作。因此，当识别出待决工作时，wms对数据发起新分析协议且将其收集输出到适当的实例节点。因此，工作流管理器跟踪且知道所有输入文件在何处被存储、正处理或将存储，并因此引导且指示各种处理节点的实例存取给定位置处的相应文件，开始读取文件，开始实施处理指令，以及在何处写入结果数据。并且，因此，wms引导系统将结果数据传递到下行处理节点。wms还确定何时需要发动新实例且带到在线，以便允许每一处理步骤或层级的动态按比例缩放。因此，wms识别、组织和引导在每一层级必须执行的离散工作，并且进一步引导结果数据写入到存储器以进行存储，且一旦一个工作完成，则另一节点发动，读取下一工作，且执行下一迭代操作。以例如此方式，输入工作可以在大量不同实例上扩展，所述实例可以例如通过包含较少或较多和更多实例而独立地或共同地按比例缩放。这些实例可以用于建置节点以便更高效地平衡资源的使用，其中此类实例可以包括部分或完整实例。工作流管理器还可以引导和/或控制例如在本文公开的处理步骤之间的一个或多个存储器的使用。各种实例还可以包含互补编程以便允许其与彼此和/或各种存储器通信，以便虚拟化服务器。wms还可以包含负载估计器以便弹性地控制节点的使用。此外，相对于存储器的使用，一个或多个ebds或其它合适配置的数据和/或文件存储装置可以附接到例如实例的各种层级之间的各种节点中的一个或多个，例如用于各种不同处理步骤之间的临时存储。因此，存储装置可以是被配置成用于耦合到所有各种实例的单个存储装置，例如高效存储器块，例如弹性文件存储，或者可以是多个存储装置，例如可在实例之间切换的每实例或实例类型的一个存储装置，例如弹性块存储装置。因此，以例如此方式，处理实例和/或存储器的每一层级可以例如在不同节点或节点层级中的每一个之间按需要的基础弹性地按比例缩放，例如用于处理一个或几个基因组。鉴于本文的架构，一个或大量基因组可以例如从下一代定序器的流动池的一个或多个通道引入到系统中用于处理，如在图1中所指示。具体地，提供如本文中所述的基于云的服务器系统300将允许大量工作堆积和/或排队用于处理，所述工作可以由系统的各种不同实例同时或循序地处理。因此，管线可以被配置成支持大量工作由虚拟处理器矩阵处理，所述处理器耦合到合适配置的存储器装置以便促进从一个实例到另一实例的高效处理和数据。此外，如所指示，可以提供单个存储器装置，其中存储器装置被配置成用于例如同时耦合到多个不同实例。在其它实例中，存储器装置可以是弹性类型存储器装置，其可以被配置成用于例如在单个时间耦合到第一实例，并且接着重新配置和/或另外从第一实例解耦且切换到第二实例。因此，在一个实施方案中，可以包含一个或多个弹性块存储装置，且系统可以被配置以便包含切换控制机构。举例来说，可以包含开关控制器且配置以便控制此类存储器装置在从一个实例切换到另一实例时的功能。此配置可以被布置以便允许数据传送通过专用处理器的管线，进而例如在所有实例当中增加系统的效率，例如通过使数据流动通过系统，允许每一层级独立地按比例缩放且按需要将处理器带到在线以高效地按比例缩放。另外，工作流管理系统算法可以被配置以便确定工作的数目、用于处理那些工作的资源的数目、处理的次序，且通过翻转或切换一个或多个灵活切换装置而引导数据从一个节点到另一节点的流动，且在需要时可将额外资源带到在线以处置工作流的增加。应注意此配置可以被适配以便避免数据从一个实例复制到下一个实例再到下一个实例，这是低效的且花费过多时间。实际上，通过从一组实例到另一组实例翻转弹性存储，例如将其从一个节点拉动并附接到第二节点，可以极大地增强系统的效率。此外，在各种实例中，并非采用ebsd，可以采用一个或多个弹性文件存储装置，例如能够耦合到大量实例而不需要从一个翻转到另一个的单个存储器装置，以便进一步增强实例之间的数据传输，从而使系统甚至更加高效。另外，应注意的是如本文较早所指示，在另一配置中，架构的cpu可直接彼此相关。同样，各种fpga可以直接耦合在一起。并且，如上文所指出，cpu可直接耦合到fpga，例如其中此类耦合是经由如上文所描述的紧密耦合接口。因此，相对于所产生结果数据的用户存储和存取，从系统范围角度来看，无需存储所有产生的结果数据。举例来说，产生的结果数据将通常呈特定文件格式，例如bcl、fastq、sam、bam、cram、vcf文件。然而，这些文件中的每一个是广泛的，且所有这些文件的存储将消耗大量存储器，进而带来大量费用。然而，这里的当前装置、系统和方法的优点是不需要存储所有这些文件。实际上，给定系统的组件和方法可实现的快速处理速度和/或快速压缩和解压缩速率，例如在基于云的数据库400中仅需要存储单个文件格式，例如压缩文件格式。具体地，仅需要存储单个数据文件格式，从所述文件格式实施所述系统的装置和方法，可以导出所有其它文件格式。并且，由于系统实现的快速压缩和解压缩速率，其通常是压缩文件，例如cram文件。具体来说，如相对于图40a可见，在一个实施方案中，本地计算资源100的用户可以经由云50将例如基因组学数据的数据(例如，bcl和/或fastq文件)上载到系统中，用于由基于云的计算资源(例如，服务器300)接收。服务器300将随后临时存储数据400，或将开始根据用户100的工作请求来处理数据。当处理输入数据时，计算资源300将进而例如在sam或bam和/或vcf文件中产生结果数据。系统可以随后存储这些文件中的一个或多个，或系统可以压缩这些文件中的一个或多个且存储那些文件。然而，为了降低成本且更高效地利用资源，系统可以存储单个(例如，压缩)文件，从所述文件例如通过使用本文所公开的装置和方法可以产生所有其它文件格式。因此，系统被配置成用于产生数据文件，例如结果数据，其可以成本有效的方式存储在经由云50可访问的服务器300相关联数据库400上。因此，使用本地计算资源100，系统的用户可以登录并访问基于云50的服务器300，可以上载数据到服务器300或数据库400，且可以请求对所述数据执行一个或多个工作。系统300将随后执行所请求工作且将结果数据存储于数据库400中。如所提到，在特定实例中，系统300将在例如cram文件等单个文件格式中存储产生的结果数据。此外，通过按钮的点击，用户可访问存储的文件，且通过按钮的另一点击，随后可以使所有其它文件格式可访问。举例来说，根据本文公开的方法，给定系统快速处理能力，其将随后例如在运行中被处理且在场景后产生，因此例如在计算和存储功能捆绑在一起的情况下削减处理时间和负担以及存储成本。具体来说，此高效且快速存储过程存在两个部分是通过执行本文所公开的加速操作的速度而实现。更确切地说，因为映射、对准、分选、去除重复和/或变异体调用的各种处理操作可以实施于硬接线和/或量子处理配置中，所以在一个或多个文件格式中产生结果数据可以快速实现。另外，由于本文公开的紧密耦合架构，进一步例如以fastq、sam、bam、cram、vcf文件格式实现结果数据的无缝压缩和存储。更进一步，由于由系统的装置提供的加速处理，且由于其与相关联存储装置的无缝集成，由系统的处理操作产生的数据(所述数据将被存储)可以高效地在存储之前压缩且在存储之后解压缩。此类效率进而降低存储成本和/或与文件在使用之前的解压缩有关的代价。因此，由于这些优点，系统可以被配置以便按需要或按用户请求实现仅单个文件类型的无缝压缩和存储，以及任何其它文件类型的运行中再生。举例来说，可以存储bam文件或者与其相关联的压缩sam或cram文件，且从所述文件可以例如在向前或反向方向上产生其它文件，以便分别再生vcf或fastq或bcl文件。举例来说，在一个实施例中，fastq文件可以原始输入到系统中，或另外产生，且存储。在此实例中，当在正向方向上进行时，可以采取文件的校验和。同样，一旦结果数据产生，当向后进行时，可以产生另一校验和。这些校验和可以随后用以确保将在向前或反向方向上由系统产生和/或重新产生的任何另外的文件格式相同地匹配于彼此和/或其压缩文件格式。以例如此方式，可以确保以尽可能高效的方式存储所有必要数据，且wms确切知道数据存储于何处，其以何种文件格式存储，原始文件格式是什么，且系统从此数据可以在文件格式之间向前或向后以相同方式重新产生任何文件格式(一旦模板原始产生)。因此，通过相关文件的硬件和/或量子实施产生，例如在从先前产生的fastq文件产生bam文件时，部分地实现“及时系统”编译的速度优点。具体来说，包含sam和cram文件的压缩bam文件通常不存储于数据库内，这是由于在处理之前花费增加的时间以将压缩存储文件解压缩。然而，jit系统允许完成此做法而无实质代价。更确切地说，实施本文中所公开的装置和过程，不仅可例如几乎瞬时地产生快速压缩和解压缩的序列数据，而且也可以高效地存储所述数据。另外，从存储的文件，以其存储的任何文件格式，可以在短时间内重新产生任何其它文件格式。因此，如参考图40c可见，当加速硬件和/或量子处理执行例如映射和对准、分选、去除重复和变异体调用等各种二级处理过程时，也可以例如在一体化过程中执行又一压缩步骤，然后以压缩形式存储。随后当用户希望分析或另外使用压缩数据时，文件可以被检索，解压缩，和/或从一个文件格式转换到另一文件格式，和/或例如由加载到硬接线处理器中或被配置在量子处理器内的jit引擎进行分析，且使压缩文件经受jit管线的一个或多个过程。因此，在其中系统包含相关联fpga的各种实例中，可完全或部分地重新配置fpga，和/或可以组织量子处理引擎，以便执行jit过程。具体来说，jit模块可加载到系统中和/或被配置为一个或多个引擎，所述引擎可以包含被配置成用于在后台工作的一个或多个压缩引擎150。因此，当调用给定文件格式时，类似jit的系统可以对所请求的数据执行必要操作，以便以所请求格式产生文件。这些操作可以包含压缩和/或解压缩以及转换，以便以所识别文件格式导出所请求的数据。举例来说，当产生基因数据时，其通常以例如bcl文件的原始数据格式产生，其随后可以例如通过产生数据的ngs而转换为fastq文件。然而，关于当前系统，例如成bcl或其它原始文件格式的原始数据文件可以流式传输或另外传输到jit模块中，所述模块随后可将数据转换为fastq文件和/或另一文件格式。举例来说，一旦fastq文件产生，就可以随后如本文所公开处理fastq文件，且可以产生对应bam文件。且同样，从bam文件可以产生对应vcf。另外，在适当步骤期间也可以产生sam和cram文件。这些步骤中的每一个可以极快速地执行，特别是在一旦适当的文件格式已经产生时。因此，一旦例如直接从定序器接收到bcl文件，bcl就可以例如通过硬件和/或量子实施的映射/对准/分选/变异体调用过程转换为fastq文件或直接转换为sam、bam、cram和/或vcf文件。举例来说，在一个使用模型中，在典型定序仪器上，大量不同受试者的基因组可以加载到单个定序仪器的个别通道中以并行地运行。因此，在运行结束时，从所有不同通道导出且表示不同受试者中的每一个的整个基因组的大量不同的bcl文件在多路复用复合体中产生。因此，这些多路复用的bcl文件可以随后被多路分用，且可以产生表示每一个别受试者的基因密码的相应fastq文件。举例来说，如果在一个定序运行中产生n个bcl文件，那么这些文件将需要针对每一受试者进行多路分用，分层且拼接在一起。此拼接是复杂过程，其中每一受试者的遗传物质被转换成bcl文件，所述文件随后可以转换成fastq文件或直接用于映射、对准和/或分选、变异体调用及类似操作。此过程可以自动化，以便极大地加速过程的各种步骤。此外，如相对于图40a可见，一旦此数据已产生110，并且因此需要例如以选择的任一种文件格式存储，则数据可以存储于受密码保护和/或加密的存储器高速缓冲存储器中，例如专用基因组学的类似dropbox的存储器400中。因此，在产生的和/或处理的基因数据离开定序器时，可以处理和/或存储数据且使其可用于其它系统上的其它用户，例如在类似dropbox的高速缓冲存储器400中。在此实例中，自动生物信息学分析管线系统可以随后存取高速缓冲存储器中的数据且自动开始处理所述数据。举例来说，系统可以包含管理系统，例如工作流管理系统151，其具有控制器，例如微处理器或其它智能，例如人工智能，所述控制器管理例如从存储器高速缓冲存储器检索bcl和/或fastq文件，并且接着引导所述信息的处理，以便产生bam、cram、sam和/或vcf，进而自动产生和输出各种处理结果和/或将其存储于dropbox存储器400中。如在此使用模型内实施的jit处理的独特益处是，jit允许产生的各种基因文件例如在数据存储之前被压缩，且在使用之前快速解压缩。因此，jit处理可在数据将离开定序器时编译和/或压缩和/或存储数据，其中此类存储是在安全的基因组dropbox存储器高速缓冲存储器中。此基因组dropbox高速缓冲存储器400可以是云50可访问的存储器高速缓冲存储器，其被配置成用于存储从一个或多个自动定序器110接收的基因组学数据，例如其中定序器远离存储器高速缓冲存储器400而定位的情况。具体来说，一旦序列数据已例如由远程ngs产生110，则所述序列数据可以被压缩150以用于传输和/或存储400，以便减少正上载且存储于云50中的数据量。此上载、传输和存储由于例如在传输之前在系统中发生的数据压缩150而可以快速执行。另外，一旦上载且存储于基于云的存储器高速缓冲存储器400中，就可以随后本地100或远程300检索数据，以便根据本文公开的bioit管线的装置、系统和方法进行处理，以便产生映射、对准、分选和/或变异体调用文件，例如sam、bam和/或cram文件，所述文件可以随后连同阐述关于产生的文件(例如，sam、bam、cram等文件)是如何产生的信息的元文件一起存储。因此，当与元数据一起时，可以随后处理压缩sam、bam和/或cram文件以产生任何其它文件格式，例如fastq和/或vcf文件。因此，如上文所论述，在运行中，jit可用于从压缩bam文件重新产生fastq文件或vcf，反之亦然。也可以类似方式重新产生bcl文件。应注意，sam和cram文件同样可以压缩和/或存储，且可以用于产生其它文件格式中的一个或多个。举例来说，可能未经cram的cram文件可以用于产生变异体调用文件，且sam文件也是同样的。因此，仅需要保存sam、bam和/或cram文件，且从这些文件可以再生其它文件格式，例如vcf、fastq、bcl文件。因此，如相对于图40a可见，映射和/或对准和/或分选和/或变异体调用仪器110，例如工作台计算机，可以在现场100和/或另一个第二对应仪器300可以远程定位且在云50上可访问。此配置连同本文公开的装置和方法一起适于使用户能够快速执行如本文公开的“在云上”的bioit分析，以便产生结果数据。随后可以处理结果数据以便进行压缩，且一旦压缩，数据就可以被配置成用于例如传输回到本地计算资源100，或可以存储于云400中，且可以由本地计算资源100经由基于云的接口访问。在此实例中，压缩数据可以是sam、bam、cram和/或vcf文件。具体地，第二计算资源300可以是另一工作台解决方案，或者其可以是服务器配置的资源，例如其中计算资源经由云50可访问，且被配置成用于执行映射和/或对准和/或分选和/或变异体调用工具。在此实例中，用户可以请求基于云的服务器300对上载的数据(例如，bcl和/或fastq数据)执行一个或多个bioit工作。在此实例中，服务器300将随后存取存储和/或压缩文件，且可以处理数据以便快速处理数据且产生一个或多个结果数据，所述数据可以随后被压缩和/或存储。另外，从结果数据文件，可以例如在运行中使用jit处理来产生一个或多个bcl、fastq、sam、bam、vcf或其它文件格式。此配置进而缓解典型的传送速度瓶颈。因此，在各种实施例中，系统1可以包含第一映射和/或对准和/或分选和/或变异体调用仪器100，其可以本地100定位，例如用于本地数据产生、压缩150和/或存储200；以及第二仪器300，其可以远程定位且在云50上相关联，由此第二仪器300被配置成用于接收产生并压缩的数据，且例如经由相关联存储装置400存储所述数据。一旦存储，则可以访问数据，将存储的文件解压缩和转换为其它文件格式中的一个或多个。因此，在系统的一个实施方案中，由数据产生设备(例如，定序器110)产生的例如成bcl或fastq文件格式的数据(例如，原始序列数据)可以上载且存储于云50中，例如相关联基因组学的类似dropbox的存储器高速缓冲存储器400中。此数据可以随后由第一映射和/或对准和/或分选和/或变异体调用仪器100直接访问，如本文所描述，或者可以由服务器资源300间接访问，所述服务器资源可以随后处理序列数据以产生映射、对准、分选和/或变异体结果数据。因此，在各种实施例中，本文所公开的存储装置中的一个或多个可以被配置以便在具有适当许可的情况下经由云可访问。举例来说，系统的各种结果数据可以被压缩和/或存储于存储器或其它合适配置的数据库中，其中所述数据库被配置成基因组学dropbox高速缓冲存储器400，例如其中各种结果数据可以存储于可远程访问的sam、bam、cram和/或vcf文件中。具体地，应注意，相对于图40a，可以提供本地仪器100，其中本地仪器可以与定序仪器110自身相关联，或者其可以远离定序仪器但经由本地云30与定序仪器110相关联，且本地仪器100可以进一步与本地存储设施200或远程存储器高速缓冲存储器400相关联，例如其中远程存储器高速缓冲存储器被配置成基因组学dropbox。此外，在各种实例中，具有恰当权限的第二映射和/或对准和/或分选和/或变异体调用仪器300，例如基于云的仪器，也可以与基因组学dropbox400连接，以便访问文件，例如压缩文件，进而由本地计算资源100存储，且可以随后解压缩那些文件以使结果可用于另外的例如二级或三级处理。因此，在各种实例中，系统可以是流线型的以使得在数据例如以原始数据格式产生且离开定序器110时，其可以立即上载到云50中且存储于基因组学dropbox400中，或者其可以传输到bioit处理系统300用于在上载和存储400之前进一步处理和/或压缩。一旦存储于存储器高速缓冲存储器400内，系统可以随后立即将数据排队以用于检索、压缩、解压缩和/或用于例如由另一相关联bioit处理设备300进一步处理，所述数据当被处理为结果数据时可以随后被压缩和/或存储400以供稍后进一步使用。此时，可以发起三级处理管线，由此来自二级处理的所存储结果数据可以被解压缩且例如用于根据本文公开的方法进行三级分析。因此，在各种实施例中，系统可以是管线式的以使得离开定序器110的所有数据可以在传送和/或存储200之前例如由本地计算资源100压缩，或者数据可以直接传送到基因组学dropbox文件夹中用于存储400。一旦由此接收，则所存储的数据可以随后基本上立即排队以用于例如由远程计算资源300进行检索和压缩和/或解压缩。在解压缩之后，数据可以基本上立即可用于例如映射、对准、分选和/或变异体调用等处理以产生二级处理结果数据，所述结果数据可以随后重新压缩以用于存储。然后，压缩的二级结果数据可以随后例如在基因组学dropbox400中被存取，解压缩，和/或在一个或多个三级处理过程中使用。由于数据可以当存储时被压缩且当被检索时基本上立即解压缩，因此简单地通过访问dropbox存储高速缓冲存储器400，数据在不同时间可以由许多不同系统且在许多不同生物分析协议中使用。因此，以例如这些方式，本文呈现的bioit平台管线可以被配置以便提供数据产生和/或分析的难以置信的灵活性，且适于以多个格式处置基因数据的特定形式的输入以便处理数据且产生对各种下游分析兼容的输出格式。因此，如相对于图40c可见，本文呈现用于执行基因定序分析的装置、系统和方法，其可以包含以下步骤中的一个或多个：第一，接收文件输入，所述输入可以是例如成压缩文件格式的fastq或bcl或其它形式的基因序列文件格式中的一个或多个，所述文件可以随后被解压缩，和/或通过本文公开的若干步骤而处理以便产生vcf/gvcf，所述文件可以随后被压缩和/或存储和/或传输。此类压缩和/或解压缩可以在整个过程中在任何合适的阶段发生。举例来说，一旦接收到bcl文件，其就可以例如本文所公开的循序方式经受分析管线。举例来说，一旦接收，就可以将bcl文件转换和/或多路分用为例如fastq和/或fastqgz文件格式，所述文件可以发送到例如服务器300的映射和/或对准模块，以便根据本文所描述的设备和其使用方法进行映射和/或对准。另外，在各种实例中，例如成sam或bam文件格式的映射和对准数据可以经过位置分选和/或可以标记并移除任何重复。随后可以压缩文件，以便产生cram文件例如用于传输和/或存储，或者可以转发到变异体调用(例如，hmm)模块，以进行处理以便产生变异体调用文件、vcf或gvcf。更具体地，如相对于图40c和40d可见，在某些实例中，将由系统接收的文件可以直接从定序设备(例如，ngs110)流式传输或以其它方式传送到系统，并且因此所传送文件可以成bcl文件格式。在所接收文件成bcl文件格式的情况下，其可以被转换和/或另外多路分用为fastq文件用于由系统处理，或可以直接处理bcl文件。举例来说，平台管线处理器可以被配置成接收从定序器直接流式传输的bcl数据，如关于图1所描述，或其可以用fastq文件格式接收数据。然而，在序列数据流式传输离开定序器时直接接收序列数据是有用的，因为这使数据能够直接从原始定序数据变为例如直接处理成sam、bam和/或vcf/gvcf中的一个或多个以用于输出。因此，一旦bcl和/或fastq文件例如由计算资源100和/或300接收，其就可以由计算资源映射和/或对准，所述映射和/或对准可以对单端或成对端读段执行。举例来说，一旦接收，就可以将序列数据编译成用于分析的读段，例如其读段长度可以从约10或约20、例如26、或50、或100、或150bp或更小直到约1k、或约2.5k、或约5k、甚至约10kbp或更多而变动。同样，一旦被映射和/或对准，序列就可以随后例如通过按参考范围分仓和/或按参考位置对仓位的分选来进行分选，例如进行位置分选。此外，可以例如基于起始位置和cigar串，经由重复标记来处理序列数据，以便产生高质量重复报告，且此时可以移除任何标记的重复。因此，可以产生映射且对准的sam文件，其可以被压缩以便形成bam/cram文件以例如用于存储和/或进一步处理。此外，一旦已检索bam/cram文件，就可以将映射和/或对准的序列数据转发到系统的变异体调用模块，例如具有重新组装功能的单倍型变异体调用器，其在一些实例中可以采用可以软件和/或硬件的组合实施的smith-waterman对准和/或隐式马尔可夫模型中的一个或多个，以便产生vcf。因此，如图40d中所见，系统和/或其组件中的一个或多个可以被配置以便能够将bcl数据转换为fastq或sam/bam/cram数据格式，这可以随后在整个系统中发送以用于进一步处理和/或数据重构。举例来说，一旦bcl数据被接收和/或转换为fastq文件且多路分用和/或去除重复，数据就可以随后转发到本文公开的管线模块中的一个或多个，例如用于映射和/或对准，这取决于正处理的样本的数目将会导致产生一个或多个(例如，若干)sam/bam文件。这些文件可以随后被分选，去除重复，且转发到变异体调用模块，以便产生一个或多个vcf文件。这些步骤可以重复以获得更大的上下文和准确性。举例来说，一旦序列数据被映射或对准以例如产生sam文件，就可以随后将sam文件压缩成一个或多个bam文件，所述文件可以随后传输到vcf引擎以便通过系统的处理转换成vcf/gvcf，这可以随后被压缩成cram文件。因此，将沿着系统输出的文件可以是gzip和/或cram文件。具体来说，如相对于图40c和40d可见，文件中的一个或多个一旦产生就可以被压缩和/或从一个系统组件传送到另一系统组件，例如从本地100到远程资源300，且一旦被接收就可以随后解压缩(例如，在先前被压缩的情况下)或被转换/多路分用。更确切地说，一旦bcl文件由本地100或远程300资源接收，其就可以转换为fastq文件，所述fastq文件可以随后由系统的集成电路处理以便映射和/或对准，或可以传输到远程资源300用于此类处理。一旦被映射和/或对准，例如成sam文件格式的所得序列数据就可以例如通过被一次或多次压缩而进一步处理成例如bam/cram文件，所述数据可以随后通过位置分选、重复标记和/或变异体调用进行处理，其例如成vcf格式的结果可以随后被再次压缩和/或存储和/或传输，例如从远程资源300到本地100资源。更确切地说，系统可以被适配以便直接处理bcl数据，进而消除fastq文件转换步骤。同样，bcl数据可以直接馈送到管线以产生每样本的唯一输出vcf文件。也可以按需求产生中间sam/bam/cram文件。因此，系统可以被配置成用于接收和/或传输一个或多个数据文件，例如含有序列信息的bcl或fastq数据文件，且处理所述数据文件以便产生已压缩的数据文件，例如sam/bam/cram数据文件。因此，如相对于图41a可见，用户可能想要访问压缩文件且将其转换为所产生的bcl111c和/或fastq文件111d的原始版本，例如用于使数据进行另外的例如更高级的信号处理111b，例如用于错误校正。或者，用户可以例如以bcl或fastq文件格式111访问原始序列数据，且使所述数据经受进一步处理，例如用于映射112和/或对准113和/或其它相关功能114/115。举例来说，来自这些过程的结果数据可以随后被压缩和/或存储和/或经受进一步处理114，例如用于分选114a、去除重复114b、再校准114c、本地再对准114d和/或压缩/解压缩114e。同一或另一用户可能随后想要访问映射和/或对准结果数据的压缩形式，并且接着对数据运行另一分析，以便例如经由hmm、smith-waterman、转换等产生一个或多个变异体调用115，这可以随后被压缩和/或存储。系统的额外用户可以随后访问压缩vcf文件116，将其解压缩，且使数据经受一个或多个三级处理协议。此外，用户可能想要执行管线比较。映射/对准/分选/变异体调用可用于执行各种基因组分析。举例来说，如果随后需要进一步dna或rna分析或某一其它种类的分析，那么用户可能想要运行数据通过另一管线，且因此访问重新产生的原始数据文件是极有用的。同样，此过程例如在可能需要产生或重新产生不同sam/bam/cram文件的情况下可以是有用的，例如其中存在产生的新的或不同的参考基因组，且因此可能需要重新进行到新参考基因组的映射和对准。存储压缩的sam/bam/cram文件是进一步有用的，因为这允许系统1的用户利用参考基因组形成结果数据的骨干的事实。在此实例中，重要的不是数据与参考一致，而是数据如何与参考不一致。因此，仅与参考不一致的数据是对存储至关重要的。因此，系统1可通过仅存储对于系统的用户重要的和/或有用的内容而利用此事实。因此，整个基因组文件(展示与参考的一致和不一致)或其子部分(仅展示与参考的一致或不一致)可以被配置成用于压缩和存储。因此可见，由于仅参考与正检查的基因组之间的差异和/或变异对于检查最有用，因此在各种实施例中，仅需要存储这些差异，因为无需再次回顾与参考相同的任何内容。因此，由于任何给定基因组仅稍微不同于参考，例如99％的人基因组通常是相同的，因此在产生bam文件之后，仅需要回顾和/或保存参考基因组之间的变异。另外，如相对于图41b可见，本文所提供的云可访问的系统1的另一有用组件是工作流管理控制器151，其可以用于使系统流自动化。此系统动画可以包含利用各种系统组件在数据变成可用时和/或在数据变成可用之处在本地100或远程300访问数据，并且接着基本上自动地使数据经受例如关于本文公开的bioit管线的进一步处理步骤。因此，工作流管理控制器151是用于引导系统的例如111、112、113、114和/或115的各种管线的核心自动化技术，且在各种实例中，可以采用人工智能组件121a。举例来说，系统1可以包含如本文在下文较详细描述的人工智能(artificialintelligence，a/i)模块，其被配置成分析系统的各种数据，且响应于此而向工作流管理系统151传达其发现。特定在各种实例中，a/i模块可以被配置成用于分析呈现给系统的各种基因组数据，以及由所述数据的处理产生的结果数据，以便识别且确定所述数据和/或与可能输入系统的任何其它数据之间的各种关系。更确切地说，a/i模块可以被配置成用于分析与多个其它因数对应的各种基因组数据，以便确定各种因素(例如，数据点)之间的任何关系，例如基于影响的关系，这可以关于所考虑因素对所确定基因组数据(例如，变化数据)的影响而提供信息，且反之亦然。具体地，如下文更详细地描述，a/i模块可以被配置成使由系统产生的受试者的基因组学数据与所述受试者或他人的任何电子医疗记录相关，以便确定它们之间的任何关系和/或任何其它相关因素和/或数据。因此，可以由系统用于确定这些因素对受试者和/或其基因组数据和/或健康可能具有的任何相关影响和/或关系的此类其它数据包含：nipt数据，nicu数据，癌症相关数据，ldt数据，环境和/或agbio数据，和/或其它此类数据。举例来说，待分析的进一步数据可以通过其它因素导出，例如环境数据、包层数据、微生物数据、甲基化数据、结构数据(例如，嵌合或配合读段数据)、生殖系变异体数据、等位基因数据、rna数据，和与受试者的遗传物质有关的其它此类数据。因此，a/i模块可以用于将流过系统的各种相关数据连同一个或多个其它可能相关的基于影响的因素一起联系到在一个或多个受试者的基因组中确定的变异体。具体来说，a/i引擎可以被配置成在cpu/gpu/qpu上运行，和/或其可以被配置成作为可以在fpga和/或量子处理单元中实施的加速ai引擎而运行。具体地，ai引擎可以与系统的一个或多个(例如，所有)各种数据库相关联，以便允许ai引擎探索和处理流过系统的各种数据。另外，在基因组正被处理的受试者给出适当授权以访问基因组和患者记录数据的情况下，系统随后被配置成用于使各种数据集彼此相关，且可以进一步挖掘数据以确定各种显著的对应、关联和或关系。更具体地，a/i模块可以被配置以便相对于输入数据实施机器学习协议。举例来说，从此处正执行的分析产生的多个受试者的基因组学数据可以存储于数据库中。同样，通过适当的授权和认证，可以获得基因组dna已经处理的受试者的电子医疗/健康记录(electronicmedical/healthrecords，emr)，且同样可以存储于数据库中。如下文更详细地描述，处理引擎可以被配置成分析受试者的基因组数据以及其emr数据，以便确定两者之间的任何相关。随后将探索这些相关，加强观察到的关系，且其结果可以用于更有效且更高效地执行系统的各种功能。举例来说，ai处理引擎可以访问受试者的与那些受试者的已知疾病或病况相关的基因组数据，且由此分析，ai模块可以学习基于所述数据执行预测性相关，以便变为越来越能够预测其它个体中的疾病和/或其它相似病况的存在。具体来说，通过例如相对于疾病标记的存在而确定他人的基因组与其emr之间的此类相关，a/i模块可以学习识别他人的基因组中的此类相关，例如系统确定的疾病标记，进而能够预测疾病或其它可识别的病况的可能性。更确切地说，通过与已知或确定的遗传疾病标记相比较而分析受试者的基因组，和/或通过确定受试者的基因组的变化，和/或另外通过确定基因组数据与受试者的健康状况之间的可能关系，例如emr，a/i模块可以能够不仅针对正取样的受试者，而且针对可能在未来取样的他人得出结论。这可例如以系统性方式基于逐个受试者的基础而完成，或可以在群体内和/或在地理上相异的位置内完成。更确切地说，相对于当前系统，产生读段的堆积物。堆积物可以与已知具有显著变化的较高概率的区重叠。因此，系统一方面将分析堆积物以确定变化的存在，同时基于其先前发现，将已经知道变化应当或不应当存在的可能性，例如，其将具有关于答案应当是什么的初始预测。当分析他人的基因组的区时，预期变化是否存在将提供信息。举例来说，这可以是正由系统使用的数据点总和中的一个数据点，以做出较好变异体调用和/或使那些变异体与一个或多个疾病病况或其它健康状况较好地关联。举例来说，在示例性学习协议中，a/i分析可以包含取得基因组中的一个或多个区的堆积物的电子图象，例如针对疑似编码一个或多个健康状况的那些区，且使所述图像与从其它堆积物的已知变化调用关联，例如其中那些变化可以是已知或未知与疾病病况有关的变化。这可以通过系统学习一次又一次地完成，以处理信息，做出适当的关联，且使正确调用越来越快，且具有更大准确性。一旦这已针对疑似造成疾病的基因组的各种(例如，所有)已知区执行，则可以针对基因组的其余部分重复此过程，例如直到全基因组已被检查为止。同样，这可以针对多个样本基因组一次又一次地重复，以便训练系统，例如变异体调用器，以便更快且以更大效率做出更准确调用，和/或允许三级处理模块较好地识别不健康状况。因此，系统接收具有已知答案的许多输入，执行分析且计算答案，且进而从过程进行学习，例如相对于一个基因组再现堆积物的图像，并且接着学习越来越快地基于另一基因组做出调用，因为更容易确定未来堆积物类似于已知与不健康状况有关的先前所捕获图像。因此，系统可以被配置以便学习例如基于模式辨识和/或预测那些变化的存在与一个或多个医学病况之间的关系而做出关于变异体存在的预测。更具体地，系统执行部分或全基因组分析并确定例如多个样本中的变异和各种条件之间的关系的次数越多，系统例如基于堆积物的部分或全基因组图像做出预测就变得更好。当基于堆积物的图像和/或其它读段分析预测患病状态时这是有用的，且可以包含建置emr(包含表现型数据)、堆积物图像和/或已知变异体(基因型数据)和/或疾病病况或状况中的一个或多个之间的相关，例如从所述相关可以做出预测。在各种实例中，系统可以包含转录功能，以便能够转录可为受试者的医疗记录的一部分的任何物理备注，以便在关联内包含所述数据。在一个使用模型中，受试者可以具有移动跟踪器和/或传感器，例如移动电话或其它计算装置，其可以被配置成用于跟踪受试者的位置以及用于感测用户在所述位置的环境和/或生理状况。也可以收集其它感测到的数据。举例来说，移动计算装置可以包含gps跟踪器，和/或其位置可以通过蜂窝式塔的三角测量而确定，且可以还被配置成例如经由蜂窝式、wifi、蓝牙或其它合适配置的通信协议而发射其收集到的数据。因此，移动装置可以跟踪且分类关于移动计算机的受试所有者在其日常生活中遇到的地理位置、环境条件、生理状态和其它感测数据的环境数据。收集的位置、环境、生理、健康数据和/或其它相关联数据，例如zna数据，可以随后例如规则地且周期性地传输到本文的系统数据库中的一个或多个，其中收集的zna数据可以与受试者的患者历史(例如，emr记录)和/或其基因组数据相关，如由本文的系统确定。同样，在各种实例中，这些数据中的一个或多个可以从zna收集和分析平台转发到例如在政府设施处的中央存储库，以便例如根据本文公开的人工智能在较大(例如，全国范围)尺度上进行分析。举例来说，数据库，例如政府控制的数据库，可以记录受试者的环境数据可以与其进行比较的环境数据。举例来说，在一个示例性实例中，可以对母亲、父亲和他们的孩子执行nicu测试，并且接着在三人的整个生活中，可以例如在个体的寿命期间连续地收集其环境和基因组和医疗记录数据且与彼此和/或一个或多个模型相关，特别是关于例如由于环境影响因素带来的突变的起始。此数据收集可以在个体的寿命期间执行，且可以在整个家庭的基础上执行，以便较好地建置数据收集数据库且较好地预测此类因素对基因变异的影响，反之亦然。因此，工作流管理控制器151允许系统1接收来自例如一个或多个定序仪器(例如，110a、110b、110c等)的一个或多个源的输入，以及来自单个定序仪器110的多个输入，其中正接收的数据表示多个受试者的基因组。在此类实例中，工作流管理控制器151不仅跟踪所有的传入数据，而且高效地组织且促进对接收的数据的二级和/或三级处理。因此，工作流管理控制器151允许系统1无缝地连接到小的和大的定序中心，其中所有种类的遗传物质可以同时通过一个或多个定序仪器110，所有这些可以例如在云50上传送进入系统1。更具体地，如相对于图41a可见，在各种实例中，一个或大量样本可以在系统1内接收，且因此系统1可以被配置成用于例如在多样本处理机制中循序地或并行地接收且高效地处理样本。因此，为了流线化和/或自动化多样本处理，系统可以受全面工作流管理系统(wms)或实验室信息管理系统(laboratoryinformationmanagementsystem，lims)151控制。wms151使用户能够针对任何管线容易地调度多个工作流运行，以及调整或加速ngs分析算法、平台管线和其伴随的应用。在此实例中，每一运行序列可以在其上具有条形码，指示其序列类型、文件格式和/或已经执行何种处理步骤，以及需要执行何种处理步骤。举例来说，所述条形码可以包含清单，指示“这是受试者x的成文件格式y的基因组运行，因此此数据必须通过管线z”，或同样可以指示“这是a的结果数据，需要进入此报告系统”。因此，在数据被接收、处理且传输通过系统时，条形码和结果将加载到工作流管理系统151，例如实验室信息管理系统(lims)。在此实例中，lims可以是用于实验室管理的标准工具，或者其可以是用于管理过程流程的专门设计的工具。在任何实例中，工作流管理控制器151从带条形码的样本到达例如用于存储和/或处理的给定位点时直到结果被发出到用户为止跟踪所述样本。具体来说，工作流管理控制器151被配置成在数据端到端流动通过系统时跟踪所有数据。更确切地说，在样本进入时，读取与样本相关联的条形码，且基于所述读取，系统确定所请求工作流是什么，且准备样本用于处理。此类处理可以是简单的，例如运行通过单个基因组管线，或者可以是更复杂的，例如运行通过需要拼接在一起的多个(例如，五个)管线。在一个特定模型中，产生的或接收的数据可以运行通过系统以产生处理的数据，处理的数据可以随后运行通过gatk等效模块，可以比较结果，并且接着可以将样本传输到另一管线以用于另外的例如三级处理700。参见图41b。因此，整个系统可以根据若干不同处理管线运行。事实上，许多系统过程可以互连，其中工作流管理器151被通知或以其它方式确定新工作待决，量化工作矩阵，识别用于执行所需分析的可用资源，将工作加载到系统中，接收进入(例如，离开定序器110)的数据，将数据载入，并且接着处理数据。具体来说，一旦工作流被设置，就可以将其保存，并且接着对所述工作流指派修改的条形码，且根据工作流的指示发生自动化过程。在当前自动化工作流管理系统151之前，生物信息学家将花费长时间段来配置和设置系统及其组成部分，且然后需要另外时间用于实际运行分析。使事情变得更复杂的是，系统将必须在接收下一样本进行分析之前重新配置，从而需要甚至更多时间来重新配置系统用于分析新样本集合。通过本文公开的技术，系统可以完全自动化。具体来说，本系统被配置以便自动接收多个样本，将它们映射到多个不同工作流和管线，且在同一个或多个不同系统卡上运行它们。因此，工作流管理系统151读取条形码的工作要求，分配资源用于执行工作，例如无论位置如何，更新样本条形码，且将样本引导到分配的资源(例如，处理单元)用于处理。因此，工作流管理器151确定将对所接收样本运行的二级600和/或三级700分析协议。这些处理单元是可用于描绘和执行分配给每一数据集的操作的资源。具体来说，工作流控制器151控制与以下相关联的各种操作：接收和读取样本，确定工作，分配资源用于执行那些工作，例如二级处理，连接所有系统组件，且从组件到组件推进样本集合通过系统。因此，控制器151用以从起始到结束管理总体系统，例如从样本接收到vcf产生，和/或直到三级处理，参见图41b。在额外实例中，如相对于图41c可见，系统1可以包含又一层处理模块800，例如被配置成用于再现例如二级和/或三级处理结果数据的额外处理，例如用于诊断、疾病和/或治疗发现和/或其防治。举例来说，在各种实例中，可以提供额外处理层800，例如用于疾病诊断、治疗性治疗和/或防治性预防70，例如包含nipt123a、nicu123b、癌症123c、ldt123d、agbio123e，以及采用由当前一级和/或二级和/或三级管线中的一个或多个产生的数据的其它此类疾病诊断、防治和/或治疗。因此，本文提出用于产生和使用本地30和/或全球混合50云网络的系统1。举例来说，当前，本地云30主要用于例如在远程存储位置400的专用存储。在此实例中，数据的计算由本地计算资源140在本地100执行，且其中存储需要是广泛的，可以访问本地云30以便例如通过使用远程专用存储资源400存储由本地计算资源140产生的数据。因此，产生的数据通常完全在本地100现场管理。在其它实施例中，可以通过经由专用云接口30安全地连接到远程计算资源300而产生、计算和完全非现场管理数据。具体来说，在生物信息学分析平台的一般实施方案中，本地计算140和/或存储200功能在本地现场100维持。然而，在存储需要超过本地存储容量的情况下，数据可以经由本地云访问30上载以便非现场400专门地存储。此外，在需要使所存储的数据400可用于其它远程用户的情况下，此类数据可以经由全球云50接口而传送且可用以用于远程存储400，进而用于全球访问。在此实例中，在执行计算功能所需的计算资源140最少但存储要求广泛的情况下，计算功能140可以本地100维持，而存储功能400可以远程维持，例如用于专用或全球访问，其中完全处理的数据在例如仅用于本地处理的本地处理功能140与例如用于已处理的数据的远程存储400的存储功能400之间例如通过使用本文上文所公开的jit协议而来回传送。举例来说，这可以相对于例如典型ngs的定序功能110来例示，其中数据产生和/或计算资源100被配置成用于执行遗传物质的定序所需的功能以便产生基因定序数据，例如读段，所述数据是在现场100产生和/或在本地现场30传送。这些读段一旦例如由现场ngs产生就可以随后例如作为bcl或fastq文件在云网络30上传送，例如用于以一方式在远程位置300的存储400，以便当必要时从云30重新调用例如用于进一步处理。举例来说，一旦序列数据已产生且存储，例如400，所述数据就可以随后被重新调用例如用于本地使用，例如用于执行二级600和/或三级700处理功能中的一个或多个，即在远离存储设施400的位置，例如本地100。在此实例中，本地存储资源200仅充当存储高速缓冲存储器，其中放置数据，同时等待传送到云30/50或从其传送，例如传送到远程存储设施400或从其传送。同样，在计算功能是广泛的情况下，例如需要一个或多个远程计算服务器或计算集群核心300用于处理数据，且在存储已处理的数据200的存储需求与处理数据所需的计算资源300相比相对最小的情况下，待处理的数据可以例如在云30上发送，以便由远程计算资源300处理，所述资源可以包含计算资源的一个或多个核心或集群，例如一个或多个超级计算资源。在此实例中，一旦数据已经由基于云的计算机核心300处理，已处理的数据就可以随后在云网络30上传送，以便本地200存储且容易地可用于由计算资源140使用，例如用于本地分析和/或诊断。当然，远程产生的数据300也可以远程400存储。这可以相对于典型二级处理功能600进一步例示，例如其中经预处理的定序数据(例如，读段数据)本地200存储，且例如由本地计算资源100访问，且在云因特网30上传输到远程计算设施300以便进而例如在二级600或三级700处理功能中进一步处理，以获得处理结果数据，所述处理结果数据进而可以随后发送回到本地设施100用于存储200。情况可以是本地从业者使用本地数据产生资源110(例如，自动定序器)产生定序读段数据，以便产生bcl或fastq文件，并且接着在网络50上将所述数据发送到远程计算设施300，远程计算设施随后对所述数据运行一个或多个功能，例如对所述序列数据进行burrows-wheeler变换或needlemen-wunsch和/或smith-waterman对准功能，以便产生例如成sam文件格式的结果数据，所述结果数据可以随后被压缩且在因特网30/50上例如作为bam文件传输到本地计算资源100，以便进而在一个或多个本地管理处理协议中进行检查，例如用于产生vcf，所述vcf可以随后在本地200存储。在各种实例中，数据也可以在远程400存储。然而，所需的是本地100与远程300计算机处理之间以及本地200与远程400存储之间的接合之间的无缝集成，例如在本文提出的基于混合云50的系统中。在此实例中，系统可被配置成使得本地100和远程300计算资源被配置以便一起无缝地运行，以使得待处理的数据进而可实时分配到本地200或远程300计算资源，而没有由于传送速率和/或操作效率带来的广泛代价。情况可以是例如其中将由计算资源100和300部署或另外运行的软件和/或硬件和/或量子处理被配置以便彼此对应和/或是相同的或功能上相似的，例如硬件和/或软件以相同方式被配置以便以相同方式对产生的和/或接收的数据运行同一算法。举例来说，如相对于图41a可见，本地计算资源100可以被配置成用于产生或接收产生的数据，并且因此可以包含数据产生机构110，例如用于一级数据产生和/或分析500，例如以便产生bcl和/或fastq序列文件。此数据产生机构110可以是或可以关联于本地计算机100，如贯穿本文中所描述，其具有处理器140，所述处理器可以被配置成运行一个或多个软件应用程序和/或可以例如以有线配置硬接线以便对产生的和/或获取的数据执行一个或多个算法。举例来说，数据产生机构110可以被配置成用于产生数据中的一个或多个，例如定序数据111。在各种实施例中，产生的数据可以是感测到的数据111a，例如随着电压、离子浓度、电磁辐射及类似物的改变而可检测的数据；和/或数据产生机构110可以被配置成用于产生和/或处理信号，例如模拟或数字信号数据，例如表示相关联核苷酸的序列或链中的一个或多个核苷酸身份的数据。在此实例中，数据产生机构110，例如定序器111，可以还被配置成用于对产生的数据执行初步处理以便用于信号处理111b，或者例如对数据执行一个或多个碱基调用操作111c，以便产生序列同一性数据，例如bcl和/或fastq文件111d。应注意在此实例中，产生的数据111可以例如由本地数据产生110和/或计算资源140(例如，在芯片上的ngs或定序器)在本地且直接产生。替代地，数据可以例如由例如远程ngs等远程计算和/或产生资源在本地且间接产生。例如成bcl和/或fastq文件格式的数据111一旦产生就可以随后在本地云30上间接传送到本地计算资源100，例如用于进而在本地存储资源200中的二级处理140和/或存储，例如同时等待进一步本地处理140。在此实例中，在数据产生资源远离本地处理100和/或存储200资源的情况下，对应资源可以被配置成使得远程和/或本地存储、远程和本地处理和/或由每一资源采用的通信协议可以适于彼此平稳地和/或无缝地集成，例如通过运行相同、相似和/或相等软件和/或通过具有相同、相似和/或相等硬件配置，和/或采用相同的通信和/或传送协议，这在一些实例中可能已在制造时或稍后实施。具体地，在一个实施方案中，这些功能可以硬接线配置实施，例如其中定序功能和二级处理功能维持于同一或相关联芯片或芯片组上，例如其中定序器和二级处理器直接互连于芯片上，如本文中所述。在其它实施方案中，这些功能可以经由软件实施于两个或更多个单独装置上，例如在已优化以允许两个远程装置彼此无缝地通信的量子处理器、cpu或gpu上。在其它实施方案中，也可以采用用于执行所述功能的优化硬件和软件实施方案的组合。更具体地，可以关于可由本地100和/或远程300计算资源部署的映射、对准、分选、变异体调用和/或其它功能的执行而实施相同配置。举例来说，本地计算100和/或远程300资源可以包含软件和/或硬件，其被配置成用于对本地和/或远程产生的数据(例如基因序列数据)执行一个或多个二级600处理功能层112-115，和/或三级处理功能层700/800，其方式为使得处理和其结果可以彼此无缝地共享和/或进而存储。具体来说，本地计算功能100和/或远程计算功能300可以被配置成用于例如以bcl和/或fastq文件格式产生和/或接收一级数据，例如基因序列数据，且对所述产生的和/或获取的数据运行一个或多个二级600和/或三级700处理协议。在此实例中，这些协议中的一个或多个可以例如在量子处理器、cpu和/或gpu上运行的软件、硬件或组合格式实施。举例来说，数据产生110和/或本地100和/或远程300处理资源可以被配置成用于在软件中和/或硬件中对获取的或产生的数据执行映射操作112、对准操作113、变异体调用115或其它相关功能114中的一个或多个。因此，在各种实施例中，数据产生资源，例如定序器111，例如在芯片上的ngs或定序器，无论是以软件和/或硬件或其组合实施都可以进一步被配置成包含初始处理器层500，例如调度器、各种分析、比较器、绘图器、释放器及类似物，以便帮助数据产生器111(例如，定序器)将生物信息转换为原始读段数据，例如成bcl或fastq文件格式111d。此外，本地计算100资源无论是以软件和/或硬件或其组合实施都可以进一步被配置成包含又一处理器层600，例如可以包含映射引擎112，或可以另外包含用于对基因序列数据运行映射算法的编程，例如用于对所述数据执行burrows-wheeler变换和/或其它算法用于建置散列表和/或运行散列函数112a，例如用于散列种子映射，以便产生映射序列数据。更进一步，本地计算100资源无论是以软件和/或硬件或其组合实施都可以进一步被配置成包含初始处理器层600，例如还可以包含如本文中所述的对准引擎113，或可以另外包含用于对基因序列数据(例如，映射的定序数据)运行对准算法的编程，例如用于对所述数据执行有间隙的和/或无间隙的smith-waterman对准和/或needleman-wunsch或其它类似评分算法113a，以便产生对准的序列数据。本地计算100和/或数据产生资源110还可以被配置成包含一个或多个其它模块114，无论是以软件和/或硬件或其组合实施，其可以适于对基因序列数据，例如对映射和/或对准的序列数据执行一个或多个其它处理功能。因此，所述一个或多个其它模块可以包含合适配置的引擎114，或另外包含用于根据本文描述的方法运行一个或多个其它处理功能的编程，例如分选114a、去除重复114b、再校准114c、本地再对准114d、重复标记114f、碱基质量评分再校准114g功能和/或压缩功能(以便产生sam、精简bam和/或cram压缩和/或解压缩文件)114e。在各种实例中，这些处理功能中的一个或多个可以被配置为系统1的一个或多个管线。同样，系统1可以被配置成包含模块115，无论是以软件和/或硬件或其组合实施，其可以适合于以一方式处理数据，例如定序、映射、对准和/或分选的数据，以便产生变异体调用文件116。具体来说，系统1可以包含变异体调用模块115，用于例如以有线配置和/或例如在本地或远程地经由一个或多个软件应用程序运行一个或多个变异体调用功能，例如隐式马尔可夫模型(hmm)和/或gatk功能115a，和/或用于所述功能的转换器115b。在各种实例中，此模块可以被配置为系统1的一个或多个管线。在特定实施例中，如图41b中所阐述，系统1可以包含本地计算功能100，其可以被配置成用于采用计算机处理资源150用于对由系统数据产生器110产生或由系统获取机构120(如本文中所描述)获取的数据(例如，bcl和/或fastq数据)执行一个或多个进一步处理功能，例如通过例如由第三方121例如经由云30或混合云网络50向其传送。举例来说，第三方分析器121可以部署远程计算资源300以便产生需要进一步处理的相关数据，例如基因序列数据或类似数据，所述数据可以在网络30/50上传送到系统1以便进一步处理。这例如在以下情况下可以是有用的：其中远程计算资源300是ngs，所述ngs被配置成用于取得原始生物学数据且将其转换为其数字表示，例如呈含有基因序列数据的读段的一个或多个fastq文件的形式；以及其中需要进一步处理，以便如本文中所述确定个体的所产生序列如何不同于一个或多个参考序列，和/或需要使其结果经受另外的例如三级处理。在此实例中，系统1可以被适配以便以一方式允许一方或多方(例如，一级和/或二级和/或第三方用户)访问相关联本地处理资源100和/或与其相关联的合适配置的远程处理资源300，以便允许用户对产生的和/或获取的数据执行一个或多个定量和/或定性处理功能152。举例来说，在一个配置中，例如除一级500和/或二级600处理管线之外，系统1还可以包含第三处理模块层700/800，所述处理模块可以被配置成用于对产生的和/或获取的一级和/或二级处理数据执行一个或多个处理功能。具体来说，在一个实施例中，系统1可以被配置成用于产生和/或接收已处理的基因序列数据111，其已被远程或本地映射112、对准113、分选114a和/或进一步处理114以便产生变异体调用文件116，所述变异体调用文件可以随后例如响应于第二和/或第三方分析请求121而例如在系统1内经受进一步处理。更确切地说，系统1可以被配置成接收来自第三方121的处理请求，并且进一步被配置成用于对产生的和/或获取的数据执行此类所请求二级600和/或三级处理700/800。具体地，系统1可以被配置成用于产生和/或获取基因序列数据111，可以被配置成用于取得所述基因序列数据且将其映射112、对准113和/或分选114a且处理所述数据以产生一个或多个变异体调用文件(vcf)116，且另外系统1可以被配置成用于例如相对于由系统1产生或接收的一个或多个vcf而对数据执行三级处理功能700/800。具体来说，系统1可以被配置以便对产生的和/或获取的数据执行任何形式的三级处理700，例如通过使数据经受一个或多个管线处理功能700以便产生基因组(例如，全基因组)数据122a、表观基因组数据122b、宏基因组数据122c及类似数据，包含基因分型(例如，联合基因分型)数据122d、变异体分析数据，包含gatk122e和/或mutect2122f分析数据，以及其它可能的数据分析管线，例如微阵列分析管线、外显子组分析管线、微生物群落分析管线、rna定序管线和其它基因分析管线。此外，系统1可以被配置成用于对产生的和/或处理的数据执行额外处理层800，例如包含以下一个或多个：非侵入性产前测试(non-invasiveprenataltesting，nipt)123a，n/picu123b，癌症相关诊断和/或治疗方式123c，各种实验室开发的测试(laboratorydevelopedtests，ldt)123d，农业生物(agbio)应用123e，或其它此类医疗保健相关123f处理功能。参见图41c。因此，在各种实施例中，在一级用户可以如本文呈现例如通过本地计算资源100例如通过直接访问而直接访问和/或配置系统1和其各种组件的情况下，系统1也可以适合于由二级方访问，所述二级方例如经由本地网络或内联网连接10连接到系统1以便在本地环境内配置和运行系统1。另外，在某些实施例中，系统可以适合于由第三方121例如在将第三方121连接到系统1的相关联混合云网络50上访问和/或配置，例如通过可通过一个或多个图形用户界面(graphicaluserinterface，gui)组件访问的应用程序接口(applicationprograminterface，api)。此gui可以被配置成允许第三方用户访问系统1，且使用api配置系统的各种组件、模块、相关联管线和其它相关联数据产生和/或处理功能性，以便仅运行对第三方必要和/或有用和/或所请求或进而需要运行的那些系统组件。因此，在各种实例中，如本文呈现的系统1可以被适配以便可以由系统的一级、二级或三级用户配置。在此实例中，系统1可以适于允许用户以一方式配置系统1且进而布置其组件，以便部署一个、所有或一系列分析系统资源(例如，152)以对例如由一级、二级或第三方用户产生、获取或另外传送到系统的数据运行，以使得系统1仅运行系统的对于运行由用户请求的分析是必要或有用的那些部分，以获得其所需结果。举例来说，出于这些和其它此类目的，api可以包含于系统1内，其中api被配置以便包含或另外与图形用户界面(gui)可操作地相关联，所述gui包含可操作菜单和/或系统功能调用的相关列表，用户可从中进行选择和/或另外做出调用以便按需要配置和操作系统及其组件。在此实例中，gui菜单和/或系统功能调用可以根据本文中的教示引导第一层操作600中的一个或多个的用户可选操作，包含：定序111，映射112，对准113，分选114a，变异体调用115，和/或其它相关联功能114，例如与本文描述的一级和/或二级处理功能相关。此外，在需要时gui菜单和/或系统功能调用可以引导第二层操作700中的一个或多个的操作，包含：基因组(例如，全基因组)分析管线122a，表观基因组管线122b，宏基因组管线122c，基因分型，例如联合基因分型管线122d，变异体管线，例如gatk122e和/或mutect2122f分析管线，包含结构变异体管线，以及其它三级分析管线，例如微阵列分析管线、外显子组分析管线、微生物群落分析管线、rna定序管线和其它基因分析管线。此外，在需要时gui菜单和系统功能调用可以引导第三层操作800中的一个或多个的用户可选操作，包含：非侵入性产前测试(nipt)123a，n/picu123b，癌症相关诊断和/或治疗方式123c，各种实验室开发的测试(ldt)123d，农业生物(agbio)应用123e，或其它此类医疗保健相关123f处理功能。因此，菜单和系统功能调用可以包含一个或多个一级、二级和/或三级处理功能，以便允许例如相对于执行由用户选择和配置的一个或多个数据分析管线而配置系统和/或其组成部分。在此实例中，本地计算资源100可以被配置成对应于和/或镜像于远程计算资源300，和/或同样本地存储资源200可以被配置成对应于和/或镜像于远程存储资源400，以使得系统的各种组件可以运行和/或由此产生的数据可以用通过使用系统1选择的无缝分布式方式在本地或远程地存储。另外，在特定实施例中，可以使系统1对第三方可访问，以用于对产生的和/或处理的数据运行专有分析协议121a，例如通过运行被设计成找到其间的相关的人工智能接口。系统1可以被配置以便对产生的和/或获取的数据执行任何形式的三级处理。因此，在各种实施例中，一级、二级或三级用户可以例如通过以计算资源100直接访问而直接地或者例如经由本地网络连接30或在将该方连接到系统1的相关联混合云网络50上间接地访问和/或配置系统1及其各种组件的任何层级，例如通过具有适当许可的适当配置的api。在此实例中，系统组件可以呈现为菜单，例如gui可选菜单，其中用户可从需要对用户呈现的数据运行的所有各种处理和存储选项中进行选择。此外，在各种实例中，用户可以上载其自身的系统协议以便由系统采用和运行，以便以为用户设计和选择的方式处理各种数据。在此实例中，gui和相关联api将允许用户访问系统1并使用api添加和配置系统的各种组件、模块、相关联管线和其它相关联数据产生和/或处理功能性，以便仅运行对该方必要和/或有用和/或所请求或进而需要运行的那些系统组件。相对于图41c，以上分界模块及其相应功能和/或相关联资源中的一个或多个可以被配置成用于例如由远程计算资源300远程执行，并且进一步适于例如经由合适配置的数据获取机构120例如在基于全球云的因特网连接50上的无缝传送协议中传输到系统1。因此，在此实例中，本地计算资源100可以包含数据获取机构120，其例如被配置成用于发射和/或接收此类获取的数据和/或关联信息。举例来说，系统1可以包含数据获取机构120，所述数据获取机构以一方式被配置以便允许例如在基于云的网络50上以无缝且平稳方式发生数据的持续处理和/或存储，其中处理功能是本地100和/或远程300分布。同样，其中此类处理的结果中的一个或多个可以本地200和/或远程400存储，以使得系统无缝地分配给定工作将发送到的本地或远程资源以用于处理和/或存储，无论所述资源物理上定位于何处。此类分布式处理、传送和获取可以包含以下一个或多个：定序111，映射112，对准113，分选114a，重复标记114c，去除重复，再校准114d，本地再对准114e，碱基质量评分再校准114f功能和/或压缩功能114g，以及变异体调用功能116，如本文中所述。在本地200或远程400存储的情况下，已处理的数据在其在过程中处于的任何状态下都可以可用于本地100或远程处理300资源，例如用于在重新传输和/或重新存储之前的进一步处理。具体地，系统1可以被配置成用于产生和/或获取基因序列数据111，可以被配置成用于取得所述基因序列数据且本地140处理所述数据，或在合适配置的云30或混合云50网络上将数据传送到例如远程处理设施以用于远程处理300。此外，一旦已处理，系统1就可以被配置成用于远程400存储已处理的数据或将其传送回以用于本地存储200。因此，系统1可以被配置成用于数据的本地或远程产生和/或处理，例如其中产生和/或处理步骤可以是从一级和/或二级处理功能600的第一层进行，所述层可以包含以下一个或多个：定序111，映射112，对准113，和/或分选114a，以便产生一个或多个变异体调用文件(vcf)116。此外，系统1可以被配置成用于数据的本地或远程产生和/或处理，例如其中产生和/或处理步骤可以是从三级处理功能700的第二层进行，所述层可以包含依据以下各项产生和/或获取数据中一项或多项：基因组管线122a，表观基因组管线122b，宏基因组管线122c，基因分型管线122d，变异体(例如，gatk122e和/或mutect2)分析122f管线，以及其它三级分析管线，例如微阵列分析管线、微生物群落分析管线、外显子组分析管线，以及rna定序管线和其它基因分析管线。另外，系统1可以被配置成用于数据的本地或远程产生和/或处理，例如其中产生和/或处理步骤可以是从三级处理功能800的第三层进行，所述层可以包含产生和/或获取与以下各项有关且包含以下各项的数据中的一项或多项：非侵入性产前测试(nipt)123a，n/picu123b，癌症相关诊断和/或治疗方式123c，各种实验室开发的测试(ldt)123d，农业生物(agbio)应用123e，或其它此类医疗保健相关123f处理功能。在特定实施例中，如图41c中所阐述，系统1可以还被配置成允许一方或多方访问系统且将信息传送到相关联本地处理100和/或远程300处理资源或从其传送以及在本地200或远程400存储信息，其方式为允许用户选择处理何种信息和/或在系统1上存储于何处。在此实例中，用户不仅可以决定对产生的和/或获取的数据执行何种一级、二级和/或三级处理功能，而且可以决定如何部署那些资源，和/或此类处理的结果存储于何处。举例来说，在一个配置中，用户可以选择数据是在本地或远程或其组合方式产生，数据是否经受二级处理，且如果是，则数据经受二级处理的哪些模块，和/或哪一个资源运行那些过程中的哪一个，并且进一步可以确定随后产生的或获取的数据是否进一步经受三级处理，且如果是，则数据经受三级处理的哪些模块和/或哪些层，和/或哪一个资源运行那些过程中的哪一个，且同样，其中针对操作的每一步骤存储那些过程的结果。具体来说，在一个实施例中，用户可以配置图41a的系统1以使得基因序列数据111的产生例如通过ngs在远程发生，但数据的二级处理600在本地100发生。在此实例中，用户可随后例如通过从可用处理选项的菜单选择处理功能而确定二级处理功能中的哪些在本地100发生，所述处理功能例如映射112、对准113、分选111和/或产生vcf116。用户可以随后选择本地已处理的数据是否经受三级处理，且如果是，则激活哪些模块以便进一步处理数据，以及此类三级处理是在本地100还是远程300发生。同样，用户可以在操作的任何给定步骤或时间选择用于三级处理选项的各种层的各种选项，以及任何产生的和/或获取的数据将本地200或远程400存储于何处。更确切地说，一级用户可以配置系统以接收来自第三方的处理请求，其中所述第三方可以配置系统以用于对产生的和/或获取的数据执行此类所请求一级、二级和/或三级处理。具体地，用户或第二方和/或第三方可以配置系统1以用于本地100或远程200产生和/或获取基因序列数据。另外，用户可以配置系统1以用于在本地或远程取得所述基因序列数据且映射、对准和/或分选所述数据，以便产生一个或多个变异体调用文件(vcf)。另外，用户可以配置系统以用于在本地或远程例如相对于所述一个或多个vcf而对数据执行三级处理功能。再更特定地，用户或其它方可以配置系统1以便对产生的和/或获取的数据执行任何形式的三级处理，且其中所述处理将在系统中发生。因此，在各种实施例中，第一、第二和/或第三方121用户可以例如通过直接访问本地计算功能100而直接地、经由本地网络连接30、或在将该方121连接到系统1的相关联混合云网络50上，例如通过应用程序接口(api)访问和/或配置系统1及其各种组件，所述api通过一个或多个图形用户界面(gui)组件可访问。在此实例中，第三方用户可以访问系统1且使用api来配置系统的各种组件、模块、相关联管线和其它相关联数据产生和/或处理功能性，以便仅运行对第三方必要和/或有用和/或所请求或进而需要运行的那些系统组件，并且进一步分配哪些计算资源将提供所请求处理，以及结果数据将存储于何处。因此，在各种实例中，系统1可以由系统的一级、二级或三级用户配置，所述用户可配置系统1以便以一方式布置其组件以便部署一个、所有或一系列分析系统资源来对数据运行，所述数据是用户直接产生，致使由系统1产生，或致使例如在与系统相关联的网络上例如经由数据获取机构120传送到系统1。以此方式，系统1是可配置的，以便仅运行系统的对于请求方所需要和/或请求的分析是必要或有用的那些部分。举例来说，出于这些和其它此类目的，可以包含api，其中api被配置以便包含gui可操作菜单和/或系统功能调用的相关列表，用户可从中进行选择以便按需要配置和操作系统。另外，在特定实施例中，系统1可以对一级用户和/或第三方是可访问的，所述第三方例如政府调节者，例如联邦药物管理局(federaldrugadministration，fda)70b，或允许一级用户和/或第三方整理、编译和/或访问由系统1导出或另外获取和/或编译的基因信息的数据库以便形成电子医疗记录(emr)数据库70a和/或允许系统的政府访问和/或监督，例如fda药物开发评估。系统1也可以被设置为聚结、编译和/或标注数据70c和/或允许其它高层级用户访问数据。因此，系统1和或其组件可以被配置成用于由例如一级用户或第三方等远程用户访问，并因此计算机资源100和/或300中的一个或多个可以包含用户界面，和/或可进一步包含具有图形用户界面的显示装置，用于允许系统的可能用户访问系统以便传输样本数据进入本文公开的bioit管线中的一个或多个，和/或用于从其接收结果数据。gui或其它接口可以被配置成用于允许用户例如经由合适配置的网络门户管理系统组件，且跟踪样本处理进展，无论将参与的计算资源是在本地100还是远程300可用。因此，gui可以列出可以执行的一组工作，例如映射112、对准113等，和/或用于执行工作的一组资源，且用户可以自行选择他们想要运行哪些工作以及通过哪些资源来运行。因此，在例如此实例中，每一个别用户可以在其上建置唯一的分析工作流，或可以使用预定分析工作流，例如通过点击、拖动或另外选择他们希望运行的特定工作项目。举例来说，在一个使用模型中，仪表板呈现有gui界面，其可以包含多个图标，表示可以在系统上实施和运行的各种过程。在此实例中，用户可点击或拖动选定工作过程图标进入工作流界面，以便建置所需工作流过程，其一旦建置就可以被保存且用以建立用于样本集合条形码的控制指令。一旦已经选定所需工作项目，工作流管理控制器151就可以配置所需工作流过程(例如，二级分析)，并且接着识别和选择用于执行选定分析的资源。一旦工作流分析过程开始，就可以查看仪表板以便跟踪通过系统的进展。举例来说，仪表板可以指示多少数据在运行通过系统，何种过程正对数据运行，已实现多少，处理还剩多少，何种工作流已经完成，以及仍需要访问什么，将运行的最新项目，以及哪些运行已经完成。基本上，可以向桌面提供对在系统上运行的所有事物或其子部分的完全访问。此外，在各种实例中，桌面可以包含可以经由一个或多个标签页访问的各种不同用户界面。举例来说，用于访问系统控制件的一个标签页可以是“本地资源100标签页”，其当选定时允许用户选择能够本地实施的控制功能。另一标签页可以被配置成用于访问“云资源300”，其当选定时允许用户选择能够远程实施的其它控制功能。因此，在与仪表板进行交互中，用户可选择哪些资源来执行哪些任务，并且因此，可根据需要增加或减小资源使用以便满足项目要求。因此，在计算复杂性增加，和/或期望增加的速度时，用户(或系统自身，例如wms151)可按需要将越来越多的资源带到在线，例如通过仅点击按钮，指示工作流管理器按需要将额外本地100和/或基于云的300资源带到在线以在所需时间范围内完成任务。以此方式，虽然系统由工作流管理器控制器151自动化和/或控制，但系统的用户可仍设定控制参数，且在需要时可将基于云的资源300带到在线。因此，控制器151可按需要扩展到云50/300以将额外处理和/或存储资源400带到在线。在各种实例中，桌面界面可以被配置为经由移动装置和/或桌上型计算机可访问的移动应用程序或“应用程序”。因此，在一个方面中，可以提供基因组学市场或群组，以便允许多个用户在一个或多个研究项目中合作，以便形成经由仪表板应用程序(例如，基于网络的浏览器界面)可访问的电子群组市场。因此，系统可以提供用于执行合作研究的在线论坛和/或用于开发分析基因数据的各种分析工具的市场，所述系统可以直接经由系统界面或经由应用程序可访问，以允许用户对系统的远程控制。因此，在各种实施例中，如相对于图42a可见，提供混合云50，其中混合云被配置成用于例如在其中本地和远程资源在远端、空间上、地理上及类似情形而彼此分离的情况下连接本地计算100和/或存储资源200与远程计算300和/或存储400资源。在此实例中，本地和远侧资源可以被配置成用于以一方式彼此通信以便在两者之间无缝地共享信息，例如数字数据。具体来说，本地资源可以被配置成用于例如在跨越混合网络50的传输之前对数据执行一种或多种类型的处理，且远程资源可以被配置成用于执行数据的一种或多种类型的进一步处理。举例来说，在一个特定配置中，系统1可以被配置成使得产生和/或分析功能152被配置成用于由本地计算资源本地100执行，例如用于执行一级和/或二级处理功能的目的，以便产生和/或处理基因序列数据，如本文中所述。另外，在各种实施例中，本地资源可以被配置成用于对数据执行一个或多个三级处理功能，例如基因组、外显子组和/或表观基因组分析、或癌症、微生物群落和/或其它dna/rna处理分析中的一个或多个。此外，在此类已处理的数据有意传送到例如远程计算300和/或存储400资源的情况下，所述数据可以例如由合适配置的变换器进行变换，所述变换器可以被配置成用于例如在混合网络50上传送之前标引、转换、压缩和/或加密数据。在特定实例中，例如在产生且处理的数据传送到例如服务器300的远程计算资源用于进一步处理的情况下，此类处理可具有全局性质且可以包含从多个本地计算资源100接收数据，核对此多个数据，标注数据，且比较所述数据，以便解译数据，确定其趋势，针对用于各种生物标记分析数据，且帮助开发诊断、疗法和/或预防。因此，在各种实例中，例如通过由本地计算资源100访问，远程计算资源300可以被配置为数据处理枢纽，例如其中来自多种源的数据可以在等待变换和/或传送时被传送、处理和/或存储。更确切地说，远程处理枢纽300可以被配置成用于从多个资源100接收数据，处理数据，且将已处理的数据分布回到多种本地资源100以便允许研究人员和/或资源100之间的合作。此类合作可以包含各种数据共享协议，且可以另外包含例如通过允许系统1的用户在各种安全协议和/或隐私设定当中进行选择以便控制将如何准备数据用于传送来准备将传送的数据。在一个特定实例中，如图42b中呈现，例如在用户的位置现场提供本地计算100和/或存储200资源。计算资源100和/或存储200资源可以例如在直接或内联网连接10上耦合到数据产生资源121，例如在芯片上的ngs或定序器，如本文中所述，其中定序器121被配置成用于产生基因定序数据，例如bcl和/或fastq文件。举例来说，定序器121可以是与计算资源100和/或存储单元200的设备相同的设备的部分和/或容纳于其中，以便具有与其的直接可通信和/或可操作连接，或者定序器121和计算资源100和/或存储资源200可以是彼此分离的设备的部分，但容纳于同一设施中，且因此在电缆或内联网10连接上连接。在一些实例中，定序器121可以容纳于与计算100和/或存储200资源分开的设施中，且因此可以在因特网30或混合云连接50上连接。在此类实例中，基因序列数据可以在变换之前由合适配置的变换器进行处理100和本地存储200，或者产生的序列数据可以如上文所描述例如在本地处理之前，例如在合适配置的本地连接10、内联网30或混合云连接50上直接传输到变换器和/或分析器152中的一个或多个。具体来说，类似于数据产生资源121，变换器151和/或分析器152可以是与计算资源100和/或存储单元200的设备相同的设备的部分和/或容纳于其中，以便具有与其的直接可通信和/或可操作连接，或者变换器和/或分析器152和计算资源100和/或存储资源200可以是彼此分开的设备的部分，但容纳于同一设施中，且因此在电缆或内联网10连接上连接。在一些实例中，变换器151和/或分析器152可以容纳于与计算100和/或存储200资源分开的设施中，且因此可以在因特网30或混合云连接50上连接。举例来说，变换器可以被配置成用于在例如由合适配置的计算资源100和/或分析器152进行分析之前或分析之后准备将传输的数据。举例来说，分析器152可以如本文中所述对数据执行二级和/或三级处理功能，例如用于分析产生的序列数据以确定其基因组和/或外显子组特性152a、其表观基因组特征152b、任何各种关注的dna和/或rna标记和/或癌症指示符152c和其与一个或多个微生物群落的关系152d，以及如本文中所描述的一个或多个其它二级和/或三级过程。如所指示，产生的和/或处理的数据可以例如在直接本地10、因特网30或混合云50连接上例如在整个系统1中从其一个组件传输到另一组件之前，例如由合适配置的变换器进行变换。此类变换可以包含以下一个或多个：转换151d，例如其中数据从一个形式转换到另一形式；理解151c，包含从不可理解的形式将数据编码、解码和/或另外取得并将数据变换为可理解的形式，或从一个可理解的形式到另一可理解的形式；标引151b，例如包含编译和/或核对来自一个或多个资源的所产生数据，且例如经由产生的索引而使其变为可定位和/或可搜索的；和/或加密151a，例如在因特网30和/或混合云50上传输之前例如创建可锁定且可解锁的密码保护数据集。因此，如相对于图42c可见，在这些和/其它此类实例中，混合云50可以被配置成用于允许数据贯穿系统的组件的无缝且受保护传输，例如其中混合云50适于允许系统的各种用户配置其组成部分和/或系统自身，以便满足用户的研究、诊断、治疗和/或防治性发现和/或开发需要。具体来说，混合云50和/或系统1的各种组件可以与兼容和/或对应api接口可操作地连接，所述接口适于允许用户远程配置系统1的各种组件以便以所需方式部署所需资源，并且进一步例如基于系统的需求和正执行的分析的细节而本地、远程或其组合方式来这样做，全部同时实现以在安全、可加密的环境中通信。在特定实例中，系统1可以包含被配置成用于执行解译功能310的处理架构310，例如解译器。解译器310可以对产生的数据执行一个或一系列分析功能，例如标注311、解译312、诊断313和/或检测和/或分析功能，以用于确定例如基因数据中的一个或多个生物标记的存在。解译器313可以是本地计算资源100的部分或与其分离，例如其中解译器310经由例如混合云50的云接口耦合到计算资源100。此外可以包含额外处理架构320，例如其中架构320被配置成协作器。协作器320可以被配置成用于执行针对确保将传输的数据的安全和/或隐私的一个或多个功能。举例来说，协作器可以被配置成用于保护数据共享过程321，用于确保传输322的隐私，设定控制参数323，和/或用于发起安全协议324。协作器313被配置成用于允许数据共享，例如用于促进处理的合作，因此协作器320可以是本地计算资源100的部分或与其分离，例如其中协作器320经由例如混合云50的云接口耦合到计算资源100。解译器310、协作器320和/或本地计算资源100可以进一步耦合到远程计算资源300，例如用于通过将计算300和/或存储400功能卸载到云50中而增强系统效率。在各种实例中，系统1可以被配置成用于允许安全的第三方分析121发生，例如其中第三方可例如通过合适配置的api与系统连接和接合。如相对于图43可见，系统1可以是多层和/或多路复用生物分析处理平台，其包含数据产生和/或数据处理单元的层，所述层各自具有可以系统性且同时或循序方式部署的一个或多个处理管线，以便从其一级处理级到二级和/或三级处理级处理基因信息。具体来说，本文提出被配置成用于在硬件和/或软件和/或量子处理实施方案中的一个或多个中执行生物分析的装置，以及其使用方法和包含其的系统。举例来说，在一个实施例中，可以提供基因组学处理平台且配置为大量集成电路，所述集成电路可以被适配为或另外包含于中央或图形处理单元中的一个或多个内，例如通用cpu和/或gpu、硬接线实施方案和/或量子处理单元。具体来说，在各种实施例中，基因组学处理平台的一个或多个管线可以由量子处理单元的一个或多个集成式和/或量子电路配置。因此，本文提出的平台可以被配置以便利用优化软件和/或硬件和/或量子处理实施方案的极大能力来执行本文所公开的可以在一个或多个集成电路上运行的各种基因定序和/或二级和/或三级处理功能。此类集成电路可以无缝耦合在一起且可以进一步无缝耦合到系统的各种其它集成电路，例如cpu和/或gpu和/或qpu，所述集成电路被配置成用于运行三级生物分析功能的各种基于软件和/或硬接线的应用。具体来说，在各种实施例中，这些过程可以由在cpu、gpu和/或qpu上运行的优化软件执行，和/或可以被实施为固件配置的集成电路，例如fpga，其可以是可定位于同一主板上的同一装置或单独装置的部分、同一装置内的不同pcie卡、同一设施中的单独装置，和/或位于不同设施处。因此，所述一个或多个处理单元和/或集成电路可以例如紧密地直接耦合在一起，例如通过物理上并入同一主板或定位在同一外壳内的单独主板中和/或另外耦合在一起，或者它们可以定位于能够例如无线和/或经由联网接口(例如经由本地云30)彼此远程通信的单独主板或pcie卡上，且在各种实施例中所述一个或多个处理单元和/或集成电路可以地理上彼此远离定位，但可以经由混合云50通信。在特定实例中，可以配置形成或作为cpu、gpu和/或qpu的部分的集成电路，所述集成电路可以被布置成和/或作为二级和/或三级分析平台的部分，以便形成一个或多个分析管线，其中产生的各种数据可以例如以无缝和/或流式传输方式在各种处理单元和/或集成电路之间来回馈入和馈出，以便允许数据在大量集成电路之间快速传输，且更具体地说加快其中的分析。举例来说，在一些实例中，根据本文公开的方法使用的各种装置可以包含或另外关联于一个或多个定序装置，用于执行定序协议，所述定序协议可以由在远程定序器上运行的软件执行，例如由位于例如经由基于云的界面可访问的核心定序设施中的下一代定序器(例如，illumina的hiseqten)执行。在其它实例中，定序可以在例如由thermofisher的iontorrent实施的定序芯片或其它定序器芯片技术上运行的硬接线配置执行，其中定序是通过使用提供台式下一代定序的半导体技术和/或通过集成电路来执行，所述集成电路被配置为或另外包含采用石墨烯沟道层的场效应晶体管。在其中定序是由被配置为或包含半传导定序微芯片的一个或多个集成电路执行的此类实例中，芯片可以远离本文公开的可以被配置成用于对定序数据执行二级和/或三级分析的一个或多个其它处理单元和/或集成电路而定位。替代地，芯片和/或处理单元可以彼此相对靠近地定位以便直接耦合在一起，或至少在彼此的同一一般接近度内，例如在同一设施内。在此和其它此类实例中，可以形成定序和/或bioit分析管线以使得由定序器产生的原始定序数据可以例如流式传输方式快速传送(例如，流式传输)到管线的其它分析组件用于直接分析。此外，一旦原始定序数据(例如，bcl数据)或读段数据(例如，fastq数据)由定序仪器产生，则此数据可以传输到集成电路且由集成电路接收，所述集成电路被配置成用于例如关于分析产生的和/或接收的dna、rna和/或蛋白质序列数据而对基因和/或蛋白质序列执行各种生物分析功能。此序列分析可以涉及将产生或接收的核酸或蛋白质序列与一个或多个已知序列的数据库进行比较，例如用于对接收的数据执行二级分析，和/或在一些实例中，用于执行疾病诊断，例如其中用于执行比较的已知序列数据库可以是含有形态上相异和/或异常的序列数据的数据库，所述数据即涉及或被认为涉及一个或多个患病状态的基因样本的数据。因此，在各种实例中，一旦被隔离和定序，基因(例如，dna和/或rna)数据就可以经受二级分析，所述二级分析可以对接收的数据执行，例如用于执行映射、对准、分选、变异体调用和/或其类似者，以便产生映射和/或对准数据，所述数据可以随后用以导出一个或多个vcf，其详述映射和/或对准基因序列与参考序列之间的差异。具体来说，一旦二级处理已发生，基因信息就可以随后传递到系统的一个或多个三级处理模块上，例如用于进而进行进一步处理，以便导出治疗和/或防治性结果。更确切地说，在变异体调用之后，映射器/对准器/变异体调用器可以输出标准vcf文件，其准备好且可以传送到额外集成电路用于执行三级分析，例如涉及以下的分析：基因组(例如，全基因组)分析，基因分型(例如，联合基因分型)分析，微阵列分析，外显子组分析，微生物群落分析，表观基因组分析，宏基因组分析，联合基因分型分析，变化分析，例如gatk分析、结构变异体分析、体细胞变异体分析及类似物，以及rna定序或其它基因组学分析。因此，本文提出的生物分析(例如，bioit)平台可以包含例如以软件、硬接线和/或量子处理配置用于映射、对准、分选、重复标记、单倍型变异体调用、压缩和/或解压缩的高度优化算法。举例来说，虽然这些功能中的一个或多个可以被配置成完全或部分地以硬接线配置执行，但在特定实例中，二级和/或三级处理平台可以被配置成用于运行一个或多个软件和/或量子处理应用程序，例如针对执行一个或多个生物分析功能的一个或多个程序，所述生物分析功能例如本文在下文公开的功能中的一个或多个。具体来说，定序和/或映射和/或对准和/或其它已处理的数据可以随后由一个或多个其它高度优化算法进一步处理以用于以下一个或多个：全基因组分析，基因分型分析，微阵列分析，外显子组分析，微生物群落分析，表观基因组分析，宏基因组分析，联合基因分型，和/或变异体(例如，gatk)分析，其例如由正在通用cpu和/或gpu和/或qpu上运行的软件实施，但在某些实例中这些功能中的一个或多个可以至少部分地以硬件实施。因此，如参考图43可见，在各种实施例中，多路复用生物分析处理平台被配置成用于执行一级、二级和/或三级处理中的一个或多个。举例来说，一级处理级例如在一个或多个bcl和/或fastq文件中产生基因序列数据以用于传送进入系统1。一旦在系统1内，包含任何相关联元数据的定序基因数据就可以前进到二级处理级600，以便产生一个或多个变异体调用文件。因此，系统还可以被配置成取得一个或多个变异体调用文件连同任何相关联元数据，和/或或其它相关联已处理的数据，且在一个或多个三级处理级中，可以对数据执行一个或多个其它操作，例如用于由此执行一个或多个诊断学和/或防治性和/或治疗过程的目的。具体来说，可以例如响应于例如从远程计算资源100做出的用户请求120和/或响应于由第三方121所提交的数据和/或从本地200和/或远程400存储设施自动检索的数据而发起数据的分析。此进一步处理可以包含第一层处理，其中各种管线运行协议700被配置成对一个或多个受试者的所确定基因(例如，变异)数据执行分析。举例来说，第一层三级处理单元可以包含基因组学处理平台，其被配置成执行基因组、表观基因组、宏基因组、基因分型和/或各种变异体分析，和/或其它基于生物信息学的分析。另外，在第二三级处理层中，可以执行各种疾病诊断、研究和/或分析协议800，所述分析可以包含nipt、nicu、癌症、ldt、生物、agbio应用及类似物中的一个或多个。系统1可以进一步被适配以便接收和/或传输与本文所公开的过程和进程有关的各种数据900，例如与电子医疗记录(emr)数据、联邦药物管理局测试和/或构造数据、关于标注的数据及类似数据有关。此类数据可以是有用的，以便允许用户做出和/或允许访问所产生的通过使用系统1开发和/或进而可访问的医疗、诊断、治疗和/或防治性方式。因此，在各种实例中，本文提出的装置、方法和系统允许基因和生物分析的安全执行，以及用于其结果在可以容易用于下游处理的环境中的安全传送。另外，在各种实例中，本文提出的装置、方法和系统允许例如从一个或多个健康监视和/或数据存储设施和/或从例如fda或nih等政府代理将数据安全传输到系统中。举例来说，系统可以被配置成用于安全地接收emr/phr数据，例如可以从医疗保健和/或存储设施传输以根据本文公开的方法来使用，此用于执行基因和生物分析，以及用于其结果在可以容易用于下游处理的环境中的安全传送。具体来说，第一三级处理层700可以包含一个或多个基因组学处理平台，例如用于例如对例如成sam或bam文件格式的映射和/或对准数据执行遗传分析，和/或用于处理例如成vcf格式的变异体数据。举例来说，第一三级处理平台可以包含以下一个或多个：基因组管线，表观基因组管线，宏基因组管线，联合基因分型管线，以及一个/或多个变异体分析管线，包含gatk管线、结构变异体管线、体细胞变异体调用管线，且在一些实例中，可以包含rna定序分析管线。也可以包含一个或多个其它基因组分析管线。更具体地，参考图43，在各种实例中，多层和/或多路复用生物分析处理平台包含又一个数据产生和/或处理单元层。举例来说，在某些实例中，生物分析处理平台在软件和/或硬件实施方案中的一个或多个中并入有针对执行一个或多个三级处理协议的一个或多个处理管线。举例来说，在特定实例中，三级处理管线700的平台可以包含以下一个或多个：基因组管线，表观基因组管线，宏基因组管线，联合基因分型管线，例如gatk管线的变化管线，和/或其它管线，例如rna管线。另外，三级处理分析平台的第二层可以包含若干处理管线，例如以下一个或多个：微阵列分析管线，基因组(例如，全基因组)分析管线，基因分型分析管线，外显子组分析管线，表观基因组分析管线，宏基因组分析管线，微生物群落分析管线，包含联合基因分型的基因分型分析管线，包含结构变异体管线、体细胞变异体管线和gatk和/或mutect2管线的变异体分析管线，以及rna定序管线和其它基因分析管线。因此，在一个实施例中，多层生物分析处理平台包含宏基因组学管线。举例来说，可以包含宏基因组学管线，例如用于执行一个或多个环境基因组学过程。具体来说，在各种实施例中，宏基因组学分析可以被配置成用于确定生物群组是否从共同祖先(例如物种或其它进化枝)进化而来。更确切地说，在各种实施例中，可以获得在其内含有大量活的和/或死的生物的环境样本，经由本文的处理平台中的一个或多个可以从所述环境样本隔离、定序和处理存在的dna/rna，以便识别存在的特定物种和/或与其相关的一个或多个其它基因组因子。此类“环境”样本可以包含大量人微生物群落(例如，与结合健康和患病人类发现的微生物有关，包含在皮肤、血液、痰液、样本中发现的微生物)以及外部环境因素。存在用于导出定序基因样本用于执行宏基因组处理的多个方法。第一方法包含靶向16s核糖体rna克隆和/或基因定序协议。举例来说，16s核糖体rna跨物种(或甚至一个物种的菌株)是高度可变的。因此，此rna可以被隔离且定序以产生从天然产生的生物样本导出的生物多样性的基因谱，其可以用于告知系统的a/i或其它数据库。然而，此定序的问题在于，大量微生物生物多样性可能仅仅由于其培养方式而被遗漏。因此，第二方法包含猎枪法和/或pcr指导协议，其可以用于从取样社区的所有生物制剂产生多个(例如，所有)基因的样本，所述样本一旦定序就可以揭露微观生命的基因多样性。具体地，在猎枪法定序方法中，可以例如从不同物种的许多(例如，数万)参考基因组产生聚集参考序列。然而，此许多参考基因组的聚集大小是巨大的。因此，有利的是从每一参考基因组选择一个或多个独特子序列以便建置聚集参考序列。举例来说，此子序列可以从数百个碱基到数千个碱基长，其理想地是在其它物种(或菌株)中未发生的独特序列。这些子序列可以随后被聚集以便构造参考序列。因此，一旦被隔离、定序、映射且对准，这些宏基因组序列就可以对照许多物种的部分或完整参考基因组进行比较，且可确定基因生物多样性。因此，宏基因组学为观察微生物世界提供了一个强大的镜头，可以彻底改变我们对生物世界的理解。因此，在这些实例中的任一个中，当样本中存在生物dna的显著存在时，所述物种可被识别为在所述环境内。理想地，以例如此方式，可以识别对所述环境中大体上存在的其它物种不常见的物种。具体地，当所有物种的覆盖范围针对所获得环境样本正规化时，可确定存在的所有物种的基因多样性且可对照整个覆盖范围进行比较，例如通过将特定生物体的dna的一部分与所产生的生物上多样的参考基因序列进行比较。这些分析的显著性可通过贝叶斯方法确定，例如通过假定给定物种存在或不存在而估计观察到特定生物的定序读段的概率。贝叶斯概率方法是针对基于可能与事件有关的条件而描述所述事件的概率。举例来说，如果有兴趣确定受试者的癌症的存在，且如果受试者的年龄是已知的，且如果确定癌症是与年龄有关的疾病，那么使用贝叶斯定理，可以使用关于受试者的年龄的信息来更准确地评估癌症的概率。具体地，利用贝叶斯概率解释，所述定理表达主观信念程度可以如何合理地改变以考虑观察到的证据。贝叶斯定理在数学上被表示为以下等式：p(a/b)＝p(b/a)p(a)/p(b)，其中a和b是事件且p(b)≠0。p(a)和p(b)是无关于彼此而观察到a和b的概率。p(a|b)，条件概率，是在b为真的条件下观察到事件a的概率。p(b|a)是在a为真的条件下观察到事件b的概率。因此，在此上下文中用于执行贝叶斯概率分析的一个或多个步骤可以包含以下一个或多个：可针对各种分类层级的进化枝做出存在调用：界、门、类、次序、族、种属、物种和/或菌株。然而，由于在共享较低分类层级的生物体之间dna往往越来越相似的事实，这变得复杂。另外，时常样本可能匹配于来自较高分类层级内的多个物种(或一个物种的多个菌株)的参考基因组，且因此在许多情况下，仅更一般进化枝(例如种属或族)可称为明确地存在，而不是特定物种或菌株。然而，使用本文公开的装置、系统和方法可用以克服这些和其它此类困难。具体地，在一个实施例中，提供用于从样本确定生物体的两个或更多个物种或进化枝的存在的方法。举例来说，在第一步骤中，可以从样本获得基因组序列数据的读段，例如其中所述读段可以成fastq或bcl格式。可以执行基因组序列的映射以便将读段映射到多个基因组参考序列。在此实例中，基因组参考序列可以是全基因组，或可以是部分基因组，以便减少每一物种、菌株或进化枝所需的数据量。然而，使用基因组的较大部分将增加检测灵敏度，且应当选择使用的每一参考序列以表示将彼此不同的每一物种、菌株或进化枝。为此目的，可以使用来自每一物种或进化枝的16s核糖体的基因组序列的全部或一部分。以此方式，可以建置疑似在样本中的生物体的物种、菌株或进化枝的两个或更多个基因组参考序列，以便检测样本中的这些群组的成员。一旦建置，则也可以建置用于基因组参考序列中的每一个的索引。索引可以是散列表或树索引，例如前缀或后缀树索引。一旦索引已建置，则可以将样本基因组序列读段与两个或更多个索引中的每一个进行比较。随后可以确定样本基因组序列读段是否映射到索引中的每一个。同样，基因组序列的读段也可以对准到它们映射到的基因组参考序列。根据本文的方法，这将产生对准评分，其可用于分析读段指示样本中的生物体的物种或进化枝的存在或不存在的概率。具体地，如本文中所描述，映射和/或对准可以通过当前软件和/或硬件模块实现。在一些实施例中，映射和对准的数据可以随后传送到计算资源100/300用于进一步分析和处理。举例来说，可以分析映射和/或对准的基因组序列读段以确定样本中存在具有基因组参考序列的生物体的可能性。同样，可以报告确定在环境样本中存在的物种、菌株或进化枝的列表。在某些实施例中，所述列表可以与置信度度量(例如，p值)一起报告以便指示评估的统计置信度。分析的生物体的物种、菌株或进化枝的整个列表也可以连同哪些物种、菌株或进化枝存在的指示和置信度度量一起报告。应注意虽然相对于微生物群落的分析进行描述，但本文公开的各种技术和过程在适当时可以用于所有其它三级处理协议的分析中。举例来说，图43b阐述用于执行例如环境样本内的微生物群落的环境分析的方法的示例性实施方案。举例来说，在第一实例中，可以获得环境样本，且各种遗传物质可以与其隔离。随后可以例如经由合适配置的ngs来处理且定序各种遗传物质。因此，在第一步骤1000中，一旦各种遗传物质已例如由ngs定序，则其可以传输到本文公开的系统1。在步骤1010中，可以建置例如将在样本内检测的所关注的一个、两个或多个基因组参考序列。在步骤1020，可以建置用于所述一个、两个或多个基因组参考序列中的每一个的索引。此外，在步骤1030，可以随后例如经由合适配置的映射模块将获得的基因组样本的定序读段与所述一个、两个或多个索引进行比较。在步骤1040，随后可以确定定序读段的基因组样本是否映射到所述两个或更多个索引中的每一个。此时如果需要，在步骤1050，可以将映射读段与基因组参考序列对准以产生对准和/或对准评分。因此，一旦样本内的所获得遗传物质被映射和/或对准，则在步骤1060，可以确定具有参考序列的给定生物体存在于样本内的可能性。且一旦已处理，则可以识别和/或报告样本中存在的物种、菌株和/或进化枝的列表。本文公开的三级平台还可以包含表观基因组管线。具体来说，表观遗传学研究在生物体的dna序列中未编码的遗传效应。该术语还指代改变自身：并不涉及核苷酸序列的改变的对基因组的功能上相关改变。然而，表观遗传改变是由染色体中不更改dna序列的改变引起的稳定可遗传的表现型。这些更改可遗传或不可遗传。具体来说，表观遗传改变会修改某些基因的激活，但不修改dna的基因密码序列。可以修改的是dna自身或相关联染色质蛋白质的微结构(不是代码)，从而造成激活或沉默。表观基因组参与调节基因表达、开发、组织区分和转座因子的抑制。不同于在个体内大部分静态的底层基因组，表观基因组可通过环境条件动态地更改。该领域类似于基因组学和蛋白质组学，它们是对细胞的基因组和蛋白质组的研究。另外，表观基因组学涉及在细胞的遗传物质上的表观遗传修改的完整集合的研究，称为表观基因组，由生物体的dna和组蛋白蛋白质的化学改变的记录组成。这些改变可经由跨代表观遗传继承传递给生物体的后代。表观基因组的改变可导致染色质结构的改变和基因组功能的改变。此表观遗传机制使得多细胞生物体中的分化细胞能够仅表达对于其自身活动必要的基因。当细胞分裂时表观遗传改变保留。具体来说，大多数表观遗传改变仅发生在一个个别生物体的寿命过程内。然而，如果基因去活化发生在导致繁殖的精子或卵细胞中，那么一些表观遗传改变可以转移给下一代。若干类型的表观遗传继承系统可以在所谓的细胞记忆中起一定作用。举例来说，dna(例如，胞嘧啶甲基化和羟甲基化)或组蛋白蛋白质(例如，离胺酸乙酰化、离胺酸和精胺酸甲基化、丝胺酸和苏氨酸磷酸化，以及离胺酸泛素化和苏素化)的各种共价修改可以在许多类型的表观遗传继承中起重要作用。因为细胞或个体的表现型受其哪些基因被转录的影响，所以可遗传的转录状态可引起表观遗传效应。此类对细胞和生理表现型特点的影响可以由打开和关闭基因且影响细胞如何表达基因的外部或环境因素引起。举例来说，dna损伤可造成表观遗传改变。dna损伤是极频繁的。这些伤害大部分被修复，但在dna修复的位点，表观遗传改变仍然存在。确切地说，dna中的双链断裂会通过引起dna甲基化以及通过促进沉默类型的组蛋白修改(染色质重塑)来发起无计划的表观遗传基因沉默。产生此类改变的机制的其它示例是dna甲基化和组蛋白修改，其中的每一个都更改如何表达基因而不会更改底层dna序列。还发现核小体重塑会造成dna修复的表观遗传沉默。此外，损坏dna的化学物质也可造成dna的相当大的低甲基化，例如通过氧化应激路径的激活。另外，可通过附接到dna的沉默区的抑制蛋白质的作用来控制基因表达。这些表观遗传改变可以在细胞寿命的持续时间中持续经过细胞分裂，且还可以持续多代，即使它们并不涉及生物体的底层dna序列中的改变；实际上，非基因因素造成生物体的基因表现不同(或“表达自身”)。真核生物学中的表观遗传改变的一个示例是细胞分化过程。在形态发生期间，分化全能干细胞变为胚胎的各种多能细胞系，其又变为完全分化细胞。换句话说，在单个受精卵细胞-接合子继续分裂时，通过激活一些基因同时抑制其它基因的表达，所得的子细胞会变成生物体中的所有不同细胞类型，包含神经元、肌肉细胞、上皮、血管内皮等。存在基因表达的若干层调节。调节基因的一种方法是通过染色质的重塑。染色质是dna和其相关联的组蛋白蛋白质的复合物。如果dna包裹在组蛋白周围的方式改变，那么基因表达也可改变。第一种方法是构成组蛋白蛋白质的氨基酸的翻译后修改。组蛋白蛋白质由氨基酸的长链组成。如果链中的氨基酸改变，那么组蛋白的形状可能被修改。dna在复制期间未完全展开。随后有可能可以将修改的组蛋白携带到dna的每一新拷贝中。一旦在那里，则这些组蛋白可以充当模板，从而发起周围的新组蛋白以新方式塑形。通过更改其周围的组蛋白的形状，这些修改的组蛋白将确保在细胞分裂之后维持谱系特定的转录程序。第二种方法是将甲基添加到dna，大部分在cpg位点处，以将胞嘧啶转换为5-甲基胞嘧啶。5-甲基胞嘧啶的表现很像与双链dna中的鸟嘌呤配对的常规胞嘧啶。然而，基因组的一些区域与其它区域相比更大量地甲基化，且通过未完全了解的机制，高度甲基化区域往往转录活性较低。胞嘧啶的甲基化也可从一个亲本的生殖系持续进入接合子，将染色体标记为从一个亲代或另一亲代继承(基因印记)。虽然组蛋白修改在整个序列中发生，但组蛋白的非结构化n末端(称为组蛋白尾部)被特别高度地修改。这些修改包含乙酰化、甲基化、泛素化、磷酸化、苏素化、核糖基化和瓜氨酸化。因此，dna甲基化是一些dna核苷酸上的甲基的存在，特别是‘c’碱基随后为‘g’或“cpg”二核苷酸。启动子区中的甲基化往往抑制基因表达。甲基化分析是检测给定样本基因组中哪些‘c’碱基被甲基化的过程。亚硫酸氢盐定序(methylc-seq)是使用全基因组定序检测甲基化的最常见方法，其中未甲基化的胞嘧啶(‘c’)碱基被化学转换成尿嘧啶(‘u’)碱基，其在pcr放大之后变为胸腺嘧啶(‘t’)碱基。甲基化‘c’碱基抵抗转换。因此，根据本文公开的装置和方法，例如通过对表观遗传遗传物质执行一个或多个映射和/或对准操作，本文提供dna分子的修改的检测，其中所述修改并不影响dna序列，但影响基因表达。在此类方法中，获得的读段可以映射且对准到参考基因组，其方式为允许转换的‘t’碱基对准到参考‘c’位置，且‘c’碱基可以被参考序列中的‘t’替换，然后进行映射/对准。这允许具有亚硫酸氢盐转换的c(现在为t)的读段的准确映射和对准，因此揭露基因组序列读段中的非亚硫酸氢盐转换(甲基化)的c。对于反向互补对准，可以使用互补取代，例如‘g’可以用‘a’替换。同样，可以修改参考索引(例如，散列表)建置器和映射器/对准器以自动执行这些取代以用于methylc-seq用途。替代地，可以修改映射器/对准器以允许读段‘t’向前对准到参考‘c’，且读段‘a’反向互补对准到参考‘g’。本文公开的方法改善了准确性，且防止读段‘c’错误向前对准到参考‘t’，或读段‘g’错误反向互补对准到参考‘a’。另外，本文提供用于确定基因组序列读段中的胞嘧啶碱基的甲基化状态的方法。举例来说，在第一步骤中，可以获得来自亚硫酸氢盐处理的核苷酸样本的基因组序列的读段。具体来说，在这些方面，可以采用一个或多个修改的定序协议以便产生用于二级处理的读段。具体地，可以使用全基因组硫酸氢盐定序、减少表示硫酸氢盐定序、甲基化dna免疫沉淀定序和甲基化敏感限制酶定序中的一种或多种来在降至碱基对水平的变化水平的分辨率下识别跨基因组的部分的dna甲基化。此外，可以访问染色质可接入性，举例来说，其中可以执行dna酶i超敏位点定序，例如其中可以使用dna酶i酶来找到基因组中的开放或可接入的区。此外，可以使用rna定序和表达阵列来识别表达水平或蛋白质编码基因。具体来说，可以使用smrna定序来识别小非编码rna的表达，主要是mirna。因此，一旦定序以产生读段，就可以建置基因组参考序列用于与读段进行比较。随后可以标记基因组参考序列中的cpg位置。此外，可以通过以t替换基因组中的c来预处理基因组参考序列。可以建置用于基因组参考序列的索引。且一旦索引已建置，则可以将样本基因组序列读段与索引进行比较，且可以确定样本表观基因组序列读段是否映射到索引。此外，映射读段可以与基因组参考序列对准以便产生对准评分。在某些实施例中，可以在读段序列中做出碱基取代，且读段可以与索引重新比较和重新对准。在一些实施例中，在读段的映射和/或对准期间可以利用对准定向限制，以使得对于读段和基因组序列参考中的c到t替换可以准许仅向前对准，且对于读段和基因组序列参考中的g到a替换仅准许反向互补对准。这些映射和对准过程可以通过本文所描述的各种软件和/或硬件模块实现。在一些实施例中，映射和对准数据可以随后传送到cpu/gpu/qpu用于进一步分析和处理。举例来说，映射和对准的读段可以通过其映射的参考位置来分选。在一些实施例中，可以标记和移除重复读段。可以在每一标记参考cpg位置上分析来自读段堆积物的重叠读段。在此实例中，已经替换胞嘧啶(c)的胸腺嘧啶(t)指示非甲基化胞嘧啶是被如此标记。且保持在读段序列中的胞嘧啶可以被标记为甲基化胞嘧啶。cpg位置的反向互补对准也可以被标记为甲基化或非甲基化。举例来说，已经替换腺嘌呤(a)的鸟嘌呤(g)被标记为非甲基化胞嘧啶(c)的反向互补，而保持在读段序列中的鸟嘌呤(g)被标记为甲基化胞嘧啶的反向互补。可以报告每一核苷酸链上的每一cpg位置的可能甲基化状态，且可以做出甲基化调用中的相关联置信度度量(例如，p值)。在一些实施例中，也可以针对染色体的二倍体对的每一染色体指示所标记cpg位置的甲基化状态。相对于组蛋白修改，组蛋白修改包含dna包围的组蛋白蛋白质的各种天然产生的化学修改，从而导致dna或多或少紧密地包围。举例来说，松散包围的dna与较高的基因表达率相关联。此类组蛋白修改可以通过染色质免疫沉淀定序(chromatinimmunoprecipitationsequencing，chip-seq)来确定，其可以用于例如通过使用针对修改的抗体来识别组蛋白修改的基因组范围的模式。此外，chip-seq是可以采用以便隔离且序列紧密地结合到组蛋白(或其它选定蛋白质)的dna的方法。在已执行chip-seq之后，可以准备样本，隔离且定序dna，且定序的dna可以随后映射/对准到如本文所公开的参考基因组，且可以使用映射覆盖范围来推断在基因组中的各种基因座的组蛋白结合水平。另外本文提供分析chip导出的核苷酸序列的方法，其类似于下文针对分析结构变异体所描述的方法。特别注意的是表观遗传在癌症研究和诊断中是有用的。举例来说，人肿瘤经受dna甲基化和组蛋白修改模式的主要中断。事实上，癌细胞的异常表观遗传概貌被表征为全局基因组低甲基化、肿瘤遏制基因的cpg岛启动子超甲基化、关键基因的更改组蛋白代码，以及单乙酰化和三甲基化组蛋白h4的全局损失。因此，本文公开的方法可用于癌症研究和/或诊断的目的。此外，本文所公开的方法可以适用于产生一个或多个表观基因组数据库和/或参考基因组。举例来说，本文所公开的方法，例如采用系统的a/i学习协议，可以适用于例如从跨越很多种细胞系、原代细胞和/或原代组织的正常健康个体产生表观基因组的人参考。产生的此类数据可以随后用以增强本文公开的映射和/或对准协议。此外，一旦已产生表观基因组差异的数据库，就可以例如由a/i模块挖掘所述数据库以便较好地表征和确定在例如癌症、痴呆、阿尔茨海默病和其它神经病况等各种疾病病况中发生的相关因素。因此，在各种实例中，可以执行表观基因组学分析，以便识别在细胞的遗传物质上已经发生的表观遗传修改的一个或多个或整个集合。具体来说，采用本文公开的方法，可以确定生物体和/或其细胞的表观基因组，以便录入和/或记录生物体的细胞的dna和组蛋白蛋白质的化学改变。举例来说，图43c中在此阐述示例性表观基因组分析。举例来说，在第一步骤中，可以从生物体获得基因组样本，且将遗传物质从其隔离和定序。因此，一旦定序，在步骤1000，样本的定序读段就可以传输进入系统1且由系统1接收。在此实例中，读段可以从硫酸氢盐处理的核苷酸样本导出。同样，在步骤1010，可以建置例如生物体的序列的基因组参考，例如用于执行表观基因组样本读段的比较。在步骤1012，可以识别基因组参考序列中的任何各种cpg位置。一旦识别，则在1014，可以用“t”替换参考中的cpg位置的“c”，且在步骤1020，可以产生用于修改的基因组参考序列的索引。一旦产生用于修改的参考的索引，则在步骤1030，可以将样本的基因组序列读段与索引进行比较，且在步骤1040，例如通过根据本文公开的方法及设备进行映射，可以确定样本的基因组序列读段是否映射到索引。映射的读段可以随后与基因组参考序列对准，且例如通过执行如本文所论述的一个或多个对准操作，可以产生对准评分。此时，可以执行几种不同分析中的一种。举例来说，在步骤1051，如果期望较大的上下文，那么可以调整如上处理的读段中的碱基取代和/或对准定向和/或参数限制，且可以重复比较步骤1030-1050。此过程自身可以按需要重复直到实现足够的上下文水平。因此，一旦已实现足够的上下文水平，在步骤1080就可以例如在本文中所公开的方法中通过映射/对准的参考位置来分选映射和/或对准的读段。且在步骤1081，可以标记和/或移除任何重复读段。此外，在步骤1082，可以分析来自读段堆积物的与每一标记参考cpg位置重叠的读段。在“t”已被“c”替换的情况下，其可以在步骤1083标记为非甲基化“c”；且在“c”保持于序列中的情况下，在步骤1084，“c”可以标记为甲基化“c”。最终在步骤1086，也可以做出关于每一核苷酸链上的每一个cpg位置的可能甲基化状态的确定和/或报告，以及甲基化调用中的置信度。另外，本文所提供的是用于分析遗传物质的方法，其中遗传物质的部分可以具有或可以另外关联于结构变异体。具体来说，结构变异是生物体的染色体的结构中的变异。结构变异涉及物种的基因组中的许多种类的变异，包含微观和亚微观的类型，例如缺失、复制、拷贝数变异体、插入、倒位和易位。许多结构变异体与基因疾病相关联。事实上，约13％的人类基因组被定义为正常群体中的结构变异体，且人群体中存在至少240个基因作为纯合缺失多态性存在。此类结构变异可包括每个基因组内的数百万个异质性核苷酸，且可能对人疾病易感性做出重要贡献。拷贝数变异是一大类结构变异，其包含插入、缺失和复制。存在已知与人疾病有关的若干倒位。举例来说，因子viii基因中的反复发生的400kb倒位是a型血友病的常见原因，且影响2型硫酸氢酶的较小倒位将引起亨特综合征。更多示例包含angelman综合症和sotos综合症。最常见类型的复杂结构变异是非串连复制，其中序列被复制且以倒置或直接定向插入基因组的另一部分中。其它类的复杂结构变异体包含缺失-倒位-缺失、复制-倒位-复制，以及具有嵌套缺失的串连复制。还有隐性易位和节段性单亲二体性(uniparentaldisomy，upd)。然而，异常dna结构的检测是成问题的，且超出迄今为止已知的变异体调用的范围。检测成问题的此类结构变异体包含具有以下的那些结构变异体：大的插入和缺失(例如，超出50-100bp插入缺失大小)；复制，和其它拷贝数变异(copy-numbervariation，cnv)；倒位和易位，以及非整倍体(异常染色体拷贝计数：单体性、二体性、三体性等)。在本文公开的某些实例中，例如通过使用定量snp基因分型，可以对并不具有基因疾病的受试者测试所识别拷贝数变异。结构变异检测大体上开始于使用本文公开的装置和方法执行映射和对准操作。举例来说，例如在支持嵌合对准的协议中，待分析的基因组样本的读段可以映射且对准到参考基因组。具体地，可通过相对映射覆盖范围的分析而检测一些结构变异体(例如，cnv和非整倍体)。然而，可通过剪切和嵌合对准的分析来检测其它结构变异体(例如，大插入缺失、倒位、易位)。具体地，每一结构变异体涉及一个或多个“断裂”位置，其中读段不映射到参考基因组，例如其中几何形状在样本与参考之间改变。在此实例中，堆积物可以被配置成使得其中与结构变异体断裂稍微重叠的读段可以在断裂处被剪切，且与结构变异体断裂基本上重叠的读段可以被嵌合对准，例如读段的两个部分映射到不同参考位置。然而，与结构变异体断裂重叠的读段对可以不一致地对准，其中两个配合读段映射到广泛不同的参考位置，和/或具有配合读段的异常相对定向。此类障碍可以通过本文公开的方法克服。举例来说，在某些实例中可以使用关于已知结构变异体的数据来较好地确定结构变异体的序列。举例来说，可以编译具有人类基因组中的结构变异的列表的数据库，例如具有对cnv的强调，且此类数据可以用于确定例如合适配置的加权协议中的特定变异体的序列。具体来说，在结构变异体已知的情况下，其“内部”和“外部”坐标可以用作可能受结构变异影响的序列的最小和最大范围。另外，已知的插入、损失、增益、倒位、loh、翻转、跨越和upd变异可以被分类且馈送到当前系统的知识库。在各种实例中，结构变异体的确定可以由运行合适配置的软件的cpu/gpu/qpu例如采用先前确定的定序数据来执行，且在其它实例中，结构变异体分析可以例如在本文公开的硬件中执行。因此，在特定实例中，提供用于分析结构变异体的基因组序列的方法。举例来说，在第一步骤中，可以从核苷酸样本接收基因组序列读段。在某些实例中，定序读段可能已从用于检测结构变异体的成对端或配对协议导出。接着可以建置用于基因组参考序列的索引，例如其中所述索引可以是散列表或树，例如前缀或后缀树。一旦索引已建置，就可以将样本基因组序列与索引进行比较以便确定样本基因组序列读段是否映射到索引。如果是，那么可以将样本基因组序列读段对准到它们映射到的基因组参考序列，且可以确定对准评分。如上文所指出，映射和对准可以由如本文中所描述的硬件模块实现。在一些实施例中，映射和对准的数据可以随后传送到相关联cpu/gpu/qpu用于进一步分析和处理。可以通过映射的参考位置来分选读段，且可以标记和删除重复读段。可以确定嵌合读段和/或两个配合读段的不寻常的相对对准，且可以基于任何检测到的嵌合读段和/或不寻常的相对对准(例如，大的插入缺失、倒位或易位)而确定可能的结构变异体。同样，可以计算每一可能的结构变异体的后验概率。在一些实施例中，例如通过使用嵌合读段和/或不寻常的相对对准的hmm分析，可以确定结构变异体单倍型。举例来说，成对hmm可用于此确定。成对hmm可以使用硬件模块实现。因此，在各种实例中，如相对于图43d可见，提出用于确定生物体的染色体的结构中的变异的方法。举例来说，根据本文公开的方法，在步骤1000，可以接收基因组序列数据的读段。在步骤1010，可以建置一个或多个基因组参考序列，以便执行读段与参考序列之间的比较。具体地，在步骤1010，可以建置基因组参考序列以便允许将所接收读段与所产生参考进行比较。更具体地，出于这些目的，在步骤1020，可以产生用于基因组参考序列的索引，举例来说，在步骤1020可以产生散列表或前缀/后缀树。因此，在步骤1030，可以例如根据本文公开的软件和/或硬件实施方案将样本基因组序列的读段与产生的索引进行比较。如果在步骤1040确定样本基因组序列的读段映射到索引，那么在步骤1050，可以将映射读段与基因组参考序列对准，且可以产生对准评分。在步骤1080，样本读段可以通过其映射参考位置进行分选。此时，在步骤1081，可以标记且移除重复读段。此外，在步骤1090，可以检测例如两个配合读段的嵌合读段和/或不寻常的相对对准，且在1092可以例如基于检测到的嵌合读段和/或不寻常的相对对准而确定可能的结构变异体。此外，可以计算每一可能的结构变异体的后验概率，且任选地在步骤1096，可以例如通过使用如本文所描述的嵌合读段和/或不寻常的相对对准的hmm分析而确定结构变异体单倍型。此外，本文公开的装置、系统和方法可以用于rna序列的处理。具体来说，本文提出用于例如采用拼接映射和对准协议(例如，具有合适配置的rna映射器/对准器)分析rna序列读段的方法。举例来说，在一个实施例中，可以提供转录物组管线，例如用于超快速rna序列数据分析。具体来说，此管线可以被配置成例如相对于仅参考对准以及标注辅助对准而对rna转录物执行二级分析。因此，在第一方法中，例如成bcl和/或fastq文件格式的原始读段数据可以由定序仪器产生，且可以输入到系统中，其中可以执行映射、对准和变异体调用。然而，在各种实例中，一个或多个基因标注文件(geneannotationsfile，gtf)可以输入到系统中，以便引导拼接对准，例如可以建置和使用拼接点lut。举例来说，可以采用对准准确性和拼接点表。因此，可以执行2阶段对准，例如其中在第一检测阶段中可以采用新型拼接点，其可以随后用以引导第二遍映射/对准阶段。在变异体调用之后，系统将输出标准vcf文件准备用于三级分析。具体来说，一旦接收到输入文件，就可以例如对单个和配对读段末端执行拼接映射和对准。如所指示，可以使用可配置的结滤波器产生单结输出。可以执行位置分选，其可以包含按参考范围分仓，并且接着按参考位置进行仓位的分选，且重复标记可以例如基于起始位置和cigar串而发生以便实现高质量重复报告，由此可以移除任何重复。可以随后例如使用sw和hmm处理引擎执行单倍型变异体调用，且可以执行组装。另外，本文公开的装置、系统和方法可以用于执行体细胞变异体调用。举例来说，可以采用体细胞变异体调用协议以便检测可能在癌细胞中发生的变异体。具体来说，用于体细胞调用的基因组样本可以从单个或多个肿瘤活检体或从血液获得。任选地，还可以获得“正常”(非肿瘤)样本，例如用于在变异体调用期间的比较，例如，其中体细胞变异体将在肿瘤细胞中发生但不在正常样本的细胞中发生。可以例如通过下一代定序器来隔离且定序dna/rna形式样本。例如来自每一样本的定序数据可以随后传输进入二级处理平台，且读段可以映射且对准。此外，读段可以经受多个变异体调用过程，包含通过sw和成对hmm引擎中的一个或两个的处理。然而，系统应当被配置以便能够检测低变异等位基因频率，例如3％到10％(或更高)。更确切地说，可以采用基因分型概率模型，其中所述模型被配置成允许任意等位基因频率。用于允许这种情况的一个方法是指派对应于重叠读段中的观察到的等位基因频率的每一变异体基因型等位基因频率。举例来说，如果10％的重叠读段展现某一变异体，那么可以测试由90％参考等位基因和10％替代等位基因组成的基因型。对于肿瘤/正常双重样本，可估计变异体存在于肿瘤样本中但不存在于正常样本中的后验概率。此外，体细胞变异体调用器管线可以被配置成提供关于肿瘤异质性的信息，例如发生一系列相异的突变事件，例如其中已识别具有不同基因型(亚克隆)的肿瘤的一个或多个区段。此亚克隆信息可以从变异等位基因频率及其分布的确定导出，和/或通过在多个肿瘤样本当中有差异地显式地调用变异体而导出。因此，提供用于从样本检测癌细胞的序列变异体的方法。在第一步骤中，可以从癌细胞和/或正常细胞获得来自核苷酸样本的基因组序列读段。序列读段可以来自成对端或配对协议，类似于用于检测结构变异体的协议。可以建置用于基因组参考序列的索引，例如其中所述索引可以是散列表或树，例如前缀或后缀树。可以将例如肿瘤和/或正常样本的样本基因组序列读段与索引进行比较，且可以确定样本基因组序列读段是否映射到索引。可以随后将样本基因组序列读段对准到它们映射到的基因组参考序列，且可以产生对准评分。如本文中所描述，映射和对准可以由软件和/或硬件模块实现。在一些实施例中，映射和对准数据可以随后传送到cpu/gpu/qpu用于进一步分析和处理。可以通过映射的参考位置来分选读段，且可以标记和删除任何重复读段。可以使用被修改以预期任意变异等位基因频率且检测和报告可能的低等位基因频率(例如，3％到10％)的贝叶斯分析来检测变异体。在一些实施例中，可以在非癌性和癌性样本中检测生殖系变异体，且可以仅在癌性样本中检测体细胞变异体。举例来说，生殖系和体细胞突变可以通过相对频率区分。可以计算每一可能的癌症变异体的后验概率，且在一些实施例中，可以使用嵌合读段和/或不寻常的相对对准的hmm分析来确定结构变异体单倍型。举例来说，成对hmm可用于此确定。成对hmm可以使用如本文中所描述的硬件模块实现。因此，在各种实施例中，可以执行如图43e中例示的体细胞变异体调用过程，以便计算变异体是癌症变异体的概率。举例来说，在步骤1000，基因组序列样本的读段可以例如经由ngs的定序而产生，和/或例如经由在合适配置的基于云的网络系统上的传输例如从癌性和非癌性基因样本中的一个或两个接收。在步骤1010，可以产生基因组参考序列例如用于读段的比较，在步骤1020可以从基因组参考序列建置索引，且在步骤1030可以将样本基因组序列与索引进行比较，例如采用本文公开的软件和/或硬件实施方案，以便在步骤1040将基因组序列读段映射到索引。此外，在步骤1050，映射读段可以与基因组参考序列对准以产生对准评分。可以随后在1080相对于参考位置分选映射和/或对准读段，和任选地，在1081可以标记且移除任何重复读段。另外，一旦读段已经映射和/或对准和/或分选和/或去除重复，那么在步骤1100可以例如通过采用贝叶斯分析检测变异体，且在1101可以任选地检测非癌性和癌性样本两者中的生殖系变异体以及其中的体细胞变异体。同样，在步骤1094，可以计算每一可能的癌症变异体的后验概率。此外，在步骤1096，例如通过如本文所公开以软件和/或硬件实施hmm分析可以任选地确定癌症变异体单倍型。此外，本文公开的装置、系统和方法可以被配置成用于执行联合基因分型操作。具体来说，可以采用联合基因分型操作以便例如通过联合地考虑来自多个受试者的群组的读段而改进变异体调用准确性。举例来说，在各种实例中，基因组变异可能在某些群体中高度相关，例如，其中某些变异体对多个受试者是共同的。在此类实例中，可通过联合地考虑来自多个dna(或rna)样本的每一变异体的证据而改进变异体调用的灵敏度和特异性。具体地，可以改进灵敏度是因为一个受试者中的变异体的弱证据可以通过其它样本中的同一变异体的证据增强。更具体地，可以改进灵敏度是因为错误肯定的变异体的适度证据可以通过其它样本中的同一变异体的证据不存在而调和。大体上，参与联合基因分型的样本越多，针对任何给定受试者的变异体调用可以越准确。联合基因分型涉及使用表达基因变异中观察到的相关的先验概率来估计具有给定变异体的所有受试者的各种子集的后验概率。在各种实例中，可以在单个变异体调用遍次中执行联合基因分型，其中来自多个样本的对准读段由变异体调用器检查。这通常仅对于少量样本是实际的，因为当涉及数十、数百或数千个样本时，总数据大小对于快速访问和操纵变得不切实际。替代地，可通过首先针对每一样本单独地执行变异体调用，随后以联合基因分型工具合并结果来完成联合基因分型，所述联合基因分型工具使用联合信息更新每一受试者的变异体概率。此方法使用来自每一单个样本变异体调用遍次的额外输出，以便较好地测量变异体的弱证据的区域和/或其中在无联合处理的情况下将不调用变异体的区。vcf格式常用于表示从单个样本变异体调用的调用变异体，而特殊gvcf格式可以用于表示准备用于合并的第一级变异体(和非变异体)调用。gvcf格式包含其中最可能不存在变异体的位置和/或多个位置的块的记录，因此此信息可与在相同位置的其它gvcf调用或非调用合并，以产生每一受试者的改进的联合基因型调用。因此，联合基因分型管线可以被配置成更快且以更大准确性从多个样本调用变异体。另外，联合基因分型管线可以进一步被配置成支持从样本群组的谱系以及群体变异体调用。举例来说，管线可以被配置成一次处置多达10、15、20、25、甚至50或更多的样本。在各种实例中，群体调用配置可以适于一次处置数千的样本大小。此外，多个样本的速度和阶层式分组的组合提供了用于联合基因分型的计算上高效的分析解决方案。另外，用于联合基因分型的样本的定序可以在下一代定序器的同一流动池内执行，进而允许系统同时映射/对准多个样本输入进而加速联合调用的总体过程，例如其中bcl数据可以直接馈送到管线以产生每一样本的唯一gvcf文件。因此，本文提供用于通过联合地考虑来自多个受试者的群组的读段而改进变异体调用准确性的方法。在第一步骤中，接收来自两个或更多个样本的基因组序列的读段。建置用于与读段进行比较的基因组参考序列，且从基因组参考序列产生索引。随后将每一样本的基因组序列读段与索引进行比较，且确定每一样本的基因组序列读段是否映射到索引。随后可以将映射读段与基因组参考序列对准，且可以产生对准评分。可以通过映射的参考位置来分选读段，且可以标记和/或移除重复读段。另外，可以随后分析来自读段的堆积物的重叠读段以确定大多数读段是否与参考基因组序列一致。计算每一可能的变异体的后验概率，且可以合并来自所有样本的变异体调用数据以便增强每一个别样本的变异体调用准确性。这可以增强每一样本的变异体调用准确性(例如，灵敏度和特异性)，且可以在所有样本已经进行变异体调用分析之后作为处理步骤实现，或者其可以在样本中的每一个经历变异体调用分析之后累积实现。可以随后确定在其中不调用变异体的区中的非参考等位基因的可能性，且可以报告在其中不调用变异体的区中的非参考等位基因的所确定可能性。因此，在各种实施例中，可以执行如图43f中例示的体细胞变异体调用过程，以便计算变异体是癌症变异体的概率。举例来说，在步骤1000，基因组序列样本的读段可以例如经由ngs的定序而产生，和/或例如经由在合适配置的基于云的网络系统上的传输例如从癌性和非癌性基因样本中的一个或两个接收。在步骤1010，可以产生基因组参考序列例如用于读段的比较，在步骤1020可以从基因组参考序列建置索引，且在步骤1030可以将样本基因组序列与索引进行比较，例如采用本文公开的软件和/或硬件实施方案，以便在步骤1040将基因组序列读段映射到索引。此外，在步骤1050，映射读段可以与基因组参考序列对准以产生对准评分。可以随后在1080相对于参考位置分选映射和/或对准读段，和任选地，在1081可以标记且移除任何重复读段。同样，在1082，可以分析来自读段的堆积物的重叠读段以确定一个或多个(例如，大多数)读段是否与参考基因组序列一致，且在步骤1094，可以计算每一可能的变异体的后验概率。此时，在步骤1096，如果需要，可以例如通过执行hmm分析而确定变异体单倍型，和/或在步骤1120，可以任选地合并例如来自所有样本的变异体调用数据以便增强每一个别样本的变异体调用准确性。此外，在步骤1122，可以确定且报告例如在其中不调用变异体的区中的非参考等位基因的可能性。另外，如参考图43可见，在一个方面中，提供在线应用商店以允许用户开发、出售和使用基因组学工具，所述工具可并入到系统中且用于分析传输到和进入系统的基因组数据。具体来说，基因组应用商店使需要的客户能够开发基因测试(例如，类似于nicu测试)，且一旦开发就可以上载到系统上，例如基因市场，用于购买且作为其上的平台而运行，以使得运行新开发的系统平台的任何人可经由网络门户部署所上载的测试。更确切地说，用户可以浏览网络门户“应用”商店，找到所需测试，例如nicu测试，将其下载，和/或配置系统以例如对它们的可上载的基因数据实施所述测试。在线“群组”市场因此呈现部署新基因分析应用程序的快速且高效方式，所述应用程序允许从运行所下载应用程序的任何当前系统平台获得相同结果。更确切地说，在线市场提供用于任何人以系统工作以开发基因分析应用程序的机制，远程用户可下载所述应用程序且配置以根据当前工作流模型而使用。本文公开的群组市场的另一方面是其允许数据的安全共享。举例来说，基因组数据的传输和存储应当高度受保护。然而，此类基因数据经常较大且难以用安全且受保护方式传送，例如在受试者的身份受限制的情况下。因此，当前基因市场允许群组参与者共享基因数据而不必识别受试者。在此市场中，群组参与者可共享问题和过程以便在受保护且安全环境中推进其研究，而没有其相应受试者的基因组的身份的风险。另外，用户可在其样本集合的分析中寻求其它研究人员的帮助而无需识别那些基因组属于谁。举例来说，用户可识别具有例如3期乳癌的特定基因型和/或表现型和/或已经用特定药物治疗的受试者。可形成群组以查看这些药物如何在基因水平上影响癌细胞生长。因此，这些特性和其它特性可以形成群组选择准则，这将允许例如位于远处的其它研究人员对他们访问的适合于群组准则的受试者使用均匀分析过程对基因数据执行标准基因分析。以此方式，给定研究人员无需负责识别和保护样本集合的所有成员，例如适合于准则的受试者，以证实他或她的科学探究。具体来说，研究人员a可以在市场内设置研究群组，且识别受试者的适当选择准则、将运行的基因组测试，以及将运行测试的参数。远离研究人员a定位的研究人员b和c可以随后注册所述群组，识别且选择匹配于准则的受试者，并且接着使用本文公开的均匀过程对他们的受试者运行指定测试，以便帮助研究人员a以迅捷方式实现或较好地实现他或她的研究目标。这是有益的，因为正传输基因数据的仅一部分，受试者身份受保护，且由于正使用采用相同参数的同一基因分析系统分析数据，因此结果数据将是相同的，无论测试在何处以及在何种机器上运行。因此，群组市场允许用户简单地通过在仪表板上发布选择准则和运行参数来形成和建置群组。也可以通过采用合适配置的商务(例如，货币兑换)程序来发布补偿率并进行支付。接受参与群组的任何人都可以随后下载准则和数据文件和/或使用他们在执行所请求分析中已经产生和/或存储的受试者的基因数据。举例来说，每一群组参与者将具有或能够产生存储于其个别服务器中的bcl和/或fastq文件的数据库。这些基因文件将已经从恰好满足选择准则的受试者导出。具体地，可以扫描受试者的此存储的基因和/或其它数据以便确定是否适合包含在群组选择准则内。此类数据可能已出于若干目的而产生，但无论产生的原因如何，一旦产生其就可以被选定且经受所请求管线分析且用于包含在群组内。因此，在各种实施例中，群组系统可以是用于连接研究人员的论坛，以便允许他们汇集他们的资源和数据，例如基因序列数据。举例来说，参与群组将允许第一研究人员介绍需要基因数据分析的项目，所述分析需要例如相对于映射、对准、变异体调用和/或其类似者挖掘和/或检查来自各种受试者的若干基因组。因此，不必搜集受试者和个别地收集样本集合，群组发起者可通告对先前或即将由他人收集的样本集合运行规定分析过程的需要，并且因此，通过本文的群组组织而提供产生样本集合且分析样本集合的集合方法。具体来说，群组发起者可设置群组选择，创建配置文件以与可能的群组参与者共享，例如在工作流文件夹内创建工作流参数，且可进而例如经由工作流管理系统使数据产生和分析自动化。系统还可以实现交易的商业方面，例如用于补偿群组参与者提供其基因数据集合的支付处理，所述基因数据集合可以例如相对于映射、对准、变异体调用和/或相对于三级分析来进行分析。在各种实施例中，群组结构化分析可以针对例如dna或rna的一级处理，例如相对于图像处理和/或碱基质量评分再校准、甲基化分析及类似处理；和/或可以针对二级分析的执行，例如相对于映射、对准、分选、变异体调用及类似处理；和/或可以针对三级分析，例如相对于阵列、基因组、表观基因组、宏基因组、基因分型、变异体和/或其它形式的三级分析。另外，应理解虽然进而执行的许多管线和分析可以涉及一级和/或二级处理，但此处的各种分析平台可以不针对一级或二级处理。举例来说，在某些实例中，分析平台可以专门针对例如对基因数据执行三级分析，或其它形式的基因组学和/或生物信息学分析。举例来说，在特定实施例中，相对于将运行的特定分析过程，将执行的分析可以包含映射、对准、分选、变异体调用及类似处理中的一个或多个，以便产生结果数据，取决于选择运行的特定管线，结果数据可以经受一个或多个其它二级和/或三级分析过程。工作流可以是简单的或者可以是复杂的，例如，可能需要执行一个管线模块，例如映射，或多个模块，例如映射、对准、分选、变异体调用和/或其它，但重要参数是工作流对于参与群组的每个人应当是相同的。具体来说，系统的独特特征是，建立群组的请求者阐述控制参数以便确保将执行的分析是以相同方式执行，无论那些过程在何处以及在何种机器上执行。因此，当设置群组时，请求者将选择准则连同配置文件一起上载。其它群组参与者将随后查看选择准则以确定他们是否具有属于所阐述准则内的基因信息的数据集，且如果是的话将基于配置文件的设定对数据执行所请求的分析。研究可以注册以选定为群组参与者，且如果订阅较大，那么可以举行抽奖或竞赛以选择参与者。在各种实例中，可以发起投标系统。由群组参与者产生的结果数据可以在现场或在云上处理，且只要遵循配置文件，数据的处理就将是相同的。具体来说，配置文件阐述bioit分析装置将如何配置，且一旦装置根据规定的配置设置，与系统相关联的装置就将以相同方式执行所请求基因分析，无论位于何处(例如，在本地或远程)。结果数据可以随后上载到群组市场上，且鉴于接收的结果数据而招标和接收支付。举例来说，基因数据的分析可以本地执行，且将结果上载到云上，或基因数据自身可以上载且在云上运行分析，例如与云相关联的服务器或服务器网络，例如量子处理平台。在各种实例中，仅上载结果数据以便较好地保护受试者的身份可以是有用的。具体来说，通过仅上载结果数据，不仅保护安全，而且无需传送大量数据，进而增强系统效率。更确切地说，在各种实例中，可以上载含有来自管线中的一个或多个的结果数据的压缩文件，且在一些实例中，仅需要上载含有变异的描述的文件。在一些实例中，仅需要给出答案，例如文字答案，例如“是”或“否”答案。此类答案是优选的，因为它们并不阐明受试者的身份。然而，如果需要在线(例如，在云上)执行分析，那么可以上载选定bcl和/或fastq文件，执行分析，且可以随后将结果数据推送回到初始提交者，初始提交者随后可在群组界面上载结果数据。随后可以从在线存储器删除原始的原始数据。在这种和其它此类方式中，群组请求者将无法访问受试者的身份。例如在“及时系统分析”(jit)中采用的压缩特别有用于增强群组效率。举例来说，使用典型过程，进出群组系统的数据移动是极昂贵的。因此，虽然在各种配置中，上载到系统的原始和/或未经压缩的数据可以存储在那里，但在特定实例中，数据可在上载之前压缩，数据可以随后在系统内处理，且结果可随后在传输出系统之前压缩，例如其中压缩是根据jit协议实现。在此实例中，例如成压缩形式的此类数据的存储是更便宜的，并且因此群组系统是极有成本效益的。另外，在各种实例中，可以在在线市场内提供多个群组，且给定本文描述的压缩过程，数据可以从一个群组传输到另一群组，以便允许研究各种不同群组以在其之间共享数据，在无本文公开的压缩方法的情况下所述共享可能会非常昂贵。具体来说，在无jit压缩的速度和效率的情况下，数据一旦传输进入云就将通常保持在云中，但将在其中是可访问的以用于审阅和操纵。然而，jit允许数据快速传输到云和从云传输，以用于本地和/或基于云的处理。此外，如相对于图41b和43可见，在特定实例中，系统1可以被配置成用于例如经由本地100和/或远程300计算资源使产生的和/或二级处理的数据经受进一步处理，例如通过使数据运行通过一个或多个三级处理管线，例如以下一个或多个：微阵列分析管线，基因组(例如，全基因组)分析管线，基因分型分析管线，外显子组分析管线，表观基因组分析管线，宏基因组分析管线，微生物群落分析管线，包含联合基因分型的基因分型分析管线，包含结构变异体管线、体细胞变异体管线和gatk和/或mutect2管线的变异体分析管线，以及rna定序管线，和/或其它三级处理管线。来自此处理的结果数据可以随后被压缩和/或远程400存储和/或传送以便本地200存储。具体来说，这些功能中的一个或多个(例如，所有)可以本地(例如，现场10)执行，在本地云30上执行，或经由通过混合云50的受控访问来执行。在此实例中，创建开发者环境，其允许用户控制系统1的功能性以满足他或她的个别需要和/或允许对其访问以用于他人寻求相同或相似结果。因此，系统的各种组件、进程、过程、工具、层和层次结构可以例如经由gui界面而可配置，所述gui界面允许用户根据用户确定的需求和协议而选择运行系统的哪些组件，对哪些数据运行，在什么时间运行，以及按什么次序运行，以便产生相关数据和数据之间的连接，其可以在整个系统中安全地传送，无论是在本地还是远程。如所指示，例如无论位置和/或连接方式如何，都可以使这些组件无缝地一起通信，例如通过成紧密耦合配置和/或无缝基于云的耦合，和/或通过例如经由jit协议可配置，以便以相同或相似方式运行相同或相似过程，例如通过采用分散于整个系统中的对应api接口，所述api接口的采用允许各种用户配置各种组件以用类似方式运行各种过程。举例来说，可以在标头文件中相对于将由系统1的每一特定组件运行的过程而定义api，其中标头描述功能性且确定如何调用功能，例如传递的参数，接收的输入和传输的输出，以及此发生的方式，进入的内容和进入的方式，出去的内容和出去的方式，以及返回的内容和以何种方式返回。举例来说，在各种实施例中，可以形成系统的一个或多个层的一个或多个管线的组件和/或其元件中的一个或多个可以例如通过由用户和/或一个或多个第二和/或第三方应用程序输入的指令来配置。这些指令可以经由对应api传送到系统，所述api与系统的各种驱动器中的一个或多个通信，指示所述驱动器在给定预先选择的参数配置下将激活系统的哪些部分，例如哪些模块和/或其哪些过程，在何时激活以及以何种次序激活，所述预先选择的参数配置可以由用户可选界面(例如，gui)确定。具体来说，系统1的一个或多个dma驱动器可以被配置成以对应方式运行，例如在每一组件的内核层级和整个系统1。在此实例中，提供的内核中的一个或多个可以具有其自身的极低层级基本api，所述api提供对系统1的各种组件的硬件和功能的访问，以便访问适用的寄存器和模块以便配置和引导它们在系统1上运行的过程和方式。具体地，在此层之上，可以建置服务功能的虚拟层以便形成用于大量功能的建置块，所述功能将文件发送到内核且得到返回结果，编码、加密和/或传输相关数据并且进一步对其执行更高层级功能。在所述层之上可以建置使用那些服务功能的额外层，其可以是用户可以与之介接的api层级，其可以适于主要用于整个系统1或其组成部分的配置，下载文件，和上载结果，所述文件和/或结果可以在本地或全局地在整个系统中传输。可以如上文相对于安全数据存储更详细阐述来配置和包含额外api。系统的各种api、存储器和/或固件的此配置可以包含与寄存器通信并且还执行功能调用。举例来说，如上文中所述，对于例如循序地实行步骤以执行映射和/或对准和/或分选和/或变异体调用或如本文描述的其它二级和/或三级功能来说必要和/或有用的一个或多个功能调用可以根据硬件操作和/或相关算法实施，以便产生必要过程且执行所需的步骤。具体地，因为在某些实施例中这些操作中的一个或多个可基于一个或多个结构，所以可能需要构造用于实施这些操作所需要的各种结构。因此将存在执行此功能的功能调用，所述功能调用将致使为了操作的执行而建置必备的结构，且因为这一点，调用将接受结构参数文件存储于何处的文件名，且将随后产生含有和/或配置所述必备的结构的一个或多个数据文件。另一功能调用可以是加载经由相应算法产生的结构且将其传送到芯片和/或系统1上的存储器，和/或将其放在硬件期望它们所在的正确位置。当然，各种数据将需要下载到芯片上和/或另外传送到系统产生器，还用于执行系统1的各种其它选定功能，且配置管理器可执行这些功能，例如通过将为了芯片和/或整个系统的平台的层的管线的模块执行其功能而需要存在的所有内容加载到存储器中，所述存储器在芯片和/或系统上、与芯片和/或系统附接或另外相关联。另外，系统可以被配置成允许系统的各种组件彼此通信，以便允许系统1的一个或多个芯片与定序器121、计算资源100/300、变换器151、分析器152、解译器310、协作器320或其它系统组件(当与其一起包含时)的电路板介接，以便例如在一旦已经产生和/或处理时立即直接从定序器或其它处理组件接收fastq和/或其它产生的和/或处理的基因定序文件，并且接着将所述信息传送到配置管理器，配置管理器随后引导所述信息到硬件和/或软件中的适当的存储器存储体，所述硬件和/或软件使所述信息可用于硬件、软件和/或整个系统的相关模块，以使得它们可对所述信息执行其指定功能，以便相对于参考基因组调用碱基、映射、对准、分选等样本dna/rna，和或对其运行相关联二级和/或三级处理操作。因此，在各种实施例中，可以包含客户端层级界面(clientlevelinterface，cli)，其中cli可以允许用户直接调用这些功能中的一个或多个。在各种实施例中，cli可以是例如具有gui的软件应用程序，其适于配置系统的硬件和/或各种其它软件应用程序的可接入性和/或使用。因此，cli可以是接受指令(例如，自变量)且简单地通过调用应用程序而使功能性可用的程序。如上文所指出，cli可以是基于命令行的或基于图形用户界面(gui)的。基于行的命令发生在gui以下的层级，其中gui包含具有点击功能框的基于窗口的文件管理器，所述点击功能框划定将使用哪些模块、哪些管线、哪些层、属于哪些平台以及其使用参数。举例来说，在操作中，如果被指示，那么cli将定位参考，将确定是否需要产生散列表和/或索引，或在已经产生的情况下定位其存储于何处，且引导产生的散列表和/或索引的上载等。这些类型的指令可以表现为在gui处的用户选项，用户可选择相关联芯片/系统1来执行。此外，可以包含库，其中所述库可以包含预先存在的可编辑配置文件，例如面向硬件和/或相关联软件例如关于部分或全基因组和/或蛋白质分析的典型用户选定功能的文件，举例来说用于各种分析，例如个人医疗历史和祖先分析，或疾病诊断，或药物发现、疗法和/或其它分析中的一个或多个等。这些类型的参数可以预设以例如用于执行此类分析，且可以存储于库中。举例来说，如果采用本文描述的平台例如用于nipt、nicu、癌症、ldt、agbio和在集合层级上的相关研究，那么与所述平台简单地针对例如在个体层级上研究基于基因组和/或谱系学的研究的情况相比可以不同方式配置所述预设参数。更确切地说，对于个体的特定诊断，准确性可能是重要因素。因此，可以设定系统的参数以确保增加的准确性，但可能有速度的减小作为交换。然而，对于其它基因组学应用，速度可能是关键决定因素，并且因此可以设定系统的参数以最大化速度，然而这可能牺牲一些准确性。因此，在各种实施例中，用于执行不同任务的经常使用的参数设定可预设到库中以促进易用性。此类参数设定还可以包含在运行系统1中采用的必要软件应用程序和/或硬件配置。举例来说，所述库可含有执行api的代码，且可进一步包含用于运行系统1所必要的样本文件、脚本和任何其它辅助信息。因此，库可以被配置成用于编译软件以用于运行api以及各种可执行文件。另外，如相对于图42c和43可见，系统可以被配置成使得系统组件中的一个或多个可以远程执行，例如其中系统组件适于对数据运行一个或多个比较性功能，例如解释性功能310和/或合作功能320。举例来说，在对数据采用解释性协议的情况下，解释性协议312可以被配置成关于数据进行分析且得出结论和/或相对于其确定各种关系，也可以执行一个或多个其它分析协议且包含标注数据311、对数据执行诊断313和/或分析数据，以便确定一个或多个生物标记314的存在或不存在。如所指示，这些功能中的一个或多个可以由wms引导，和/或由本文公开的a/i模块执行。另外，在执行合作协议的情况下，系统1可以被配置成用于提供其中数据共享321可以发生的电子论坛，数据共享协议可以包含用户可选的安全324和/或隐私322设定，其允许数据被加密和/或受密码保护，以使得数据的身份和源可以对系统1的用户隐藏。在特定实例中，系统1可以被配置以便允许第三方分析器121对数据运行虚拟模拟。此外，一个产生的解译数据和/或经受一个或多个合作分析的数据可以远程400或本地200存储，以便可用于远程300或本地100计算资源，例如用于进一步处理和/或分析。在另一方面中，如相对于图44可见，提供使用系统产生一个或多个数据文件的方法，可以对所述数据文件运行一个或多个二级和/或三级处理协议。举例来说，所述方法可以包含提供基因组基础结构例如用于现场、基于云的和/或混合基因组和/或生物信息学产生和/或处理和/或分析中的一个或多个。在此实例中，基因组基础结构可以包含具有一个或多个存储器的生物信息学处理平台，所述存储器被配置成存储一个或多个可配置处理结构以用于配置系统以便能够对数据执行一个或多个分析处理功能，例如包含所关注的基因组序列的数据或与其有关的处理结果数据。存储器可以包含待处理的所关注基因组序列，例如一旦产生和/或获取，则包含一个或多个基因参考序列，和/或可以另外包含所述一个或多个基因参考序列和/或与其有关的拼接点的列表的索引。系统还可以包含具有平台应用程序编程接口(api)的输入，所述api用于从选项的列表选择可配置处理结构中的一个或多个，例如用于配置系统，例如通过选择将对数据(例如，所关注的预处理或已处理基因组序列)运行系统的哪些处理功能。图形用户界面(gui)也可以存在，例如与所述api可操作地相关联，以便呈现菜单，用户可通过所述菜单选择他或她希望对数据运行哪些可用选项。因此，在这些和/其它此类实例中，混合云50可以被配置成用于允许数据贯穿系统的组件的无缝且受保护传输，例如其中混合云50适于允许系统的各种用户例如经由wms配置其组成部分和/或系统自身，以便满足用户的研究、诊断、治疗和/或防治性发现和/或开发需要。具体来说，混合云50和/或系统1的各种组件可以与兼容和/或对应api接口可操作地连接，所述接口适于允许用户远程配置系统1的各种组件以便以所需方式部署所需资源，并且进一步例如基于系统的需求和正执行的分析的细节而本地、远程或其组合方式来这样做，全部同时实现以在安全、可加密的环境中通信。如上文所描述，系统可以实施于一个或多个集成电路上，所述集成电路可以由可以通过多个物理电互连件互连的一组或多组可配置(例如，预配置和/或硬接线)数字逻辑电路形成。在此实例中，集成电路可以具有用于例如从存储器接收可配置结构协议中的一个或多个的输入，例如存储器接口，且可以进一步适于根据可配置处理结构协议在集成电路上实施所述一个或多个结构。所述输入的存储器接口也可以被配置成用于接收可呈基因组数据的多个读段的形式的基因组序列数据。所述接口也可以适合于访问一个或多个基因参考序列和索引。在各种实例中，数字逻辑电路可以被布置成一组处理引擎，其各自由数字逻辑电路的子组形成。数字逻辑电路和/或处理引擎可以被配置以便执行一级、二级和/或三级处理协议的一个或多个可预配置的步骤以便产生基因组序列数据的所述多个读段，和/或用于例如根据基因参考序列或其它基因序列导出的信息处理基因组数据的所述多个读段。集成电路可以进一步具有输出以便例如根据平台应用程序编程接口(api)输出来自一级、二级和/或三级处理的结果数据。具体来说，在各种实施例中，数字逻辑电路和/或处理引擎集合可以形成多个基因组处理管线，例如其中每一管线可以具有根据平台应用程序编程接口定义的输入以便接收来自生物信息学处理平台的一级和/或二级处理的结果数据，且用于对其执行一个或多个分析过程以便产生结果数据。另外，所述多个基因组处理管线可以具有共同管线api，其限定将对来自一级和/或二级已处理数据的结果数据运行的二级和/或三级处理操作，例如其中所述多个基因组处理管线中的每一个被配置成执行二级和/或三级处理操作的子组且根据管线api输出二级和/或三级处理的结果数据。在此类实例中，多个基因组分析应用程序可以存储于存储器和/或相关联可搜索的应用程序存储库中，例如其中所述多个基因组分析应用程序中的每一个可以经由电子介质由计算机访问以例如用于由计算机处理器执行，以便例如通过所述多个基因组处理管线中的一个或多个执行来自一级、二级和/或三级处理的结果数据的基因组预处理或后处理数据的靶向分析。在特定实例中，所述多个基因组分析应用程序中的每一个可以由api限定且可以被配置成用于接收一级、二级和/或三级处理的结果数据，和/或用于执行预处理或后处理基因组数据的目标分析，且用于将来自靶向分析的结果数据输出到一个或多个基因组数据库中的一个。所述方法可以另外包含例如从gui的菜单选择来自系统的多个可用基因组处理管线的一个或多个基因组处理管线；从存储于应用程序存储库中的所述多个基因组分析应用程序选择一个或多个基因组分析应用程序；以及使用计算机处理器执行所述一个或多个选定基因组分析应用程序以从一级、二级和/或三级处理的结果数据执行基因组数据的靶向分析。另外，在各种实施例中，所有映射、对准和分选以及变异体调用可以在芯片上发生，且本地再对准、重复标记、碱基质量评分再校准可以和/或三级处理协议和/或管线中的一个或多个在各种实施例中也可以在芯片上或软件中发生，且在各种实例中，例如sam和/或bam和/或cram等各种压缩协议也可以在芯片上发生。然而，一旦一级、二级和/或三级处理的数据已产生，其就可以例如在例如通过跨系统发送、发送直到云而传输之前被压缩，例如用于执行变异体调用模块、二级、三级和/或其它处理平台，例如包含解释性和/或合作分析协议。特别是在包含其三级处理的变异体调用可为移动目标的事实下这可能是有用的，例如，并不存在行业使用的一个标准化的商定算法。因此，可以例如由远程用户采用不同算法，以便按需要实现不同类型的结果，并且因此，具有用于执行此功能的基于云的模块可以适用于允许选择在任何特定给定时刻哪一个算法有用的灵活性，并且还适用于串行和/或并行处理。因此，本文公开的模块中的任一个可被实施为例如在芯片上的硬件，或例如在云上的软件，但在某些实施例中，所有模块可以被配置以使得其功能可以在芯片上执行，或所有模块可以被配置以使得其功能可以例如在云上远程执行，或将存在模块的混合物，其中一些模块定位于一个或多个芯片上且一些模块定位于云上。此外，如所指示，在各种实施例中，芯片自身可以被配置以便与基因定序器结合起作用，且在一些实施例中与基因定序器立即操作，所述基因定序器例如ngs和/或在芯片上的定序器。更具体地，在各种实施例中，本公开的设备可以是芯片，例如被配置成用于例如通过采用数据分析模块的管线来处理基因组学数据的芯片。因此，如相对于图45可见，连同基因组学管线处理器系统10的相关联硬件一起提供基因组学管线处理器芯片100。芯片100具有到外部存储器102的一个或多个连接(在“ddr3存储器控制器”处)，以及到例如主机计算机1000的外部世界的连接104(例如，pcie或qpi接口)。纵横开关108(例如，开关)为各种请求者提供对存储器接口的访问。dma引擎110在主机与处理器芯片100的外部存储器102之间(经由纵横开关108)和/或主机与中央控制器112之间以高速传送数据。中央控制器112控制芯片操作，特别是协调多个处理引擎13的工作。处理引擎是由通过物理电互连件互连的一组硬接线数字逻辑电路形成，且被组织成引擎集群11/114。在一些实施方案中，一个集群11/114中的引擎13经由仲裁器115共享一个纵横开关端口。中央控制器112具有到引擎集群中的每一个的连接。每一引擎集群11/114具有用于处理基因组数据的若干处理引擎13，包含映射器120(或映射模块)、对准器122(或对准模块)和分选器124(或分选模块)，也可以提供用于执行例如变异体调用等其它功能的一个或多个处理引擎。因此，引擎集群11/114还可包含其它引擎或模块，例如变异体调用器模块。根据与本文所描述的实施方案一致的一个数据流模型，主机cpu1000经由dma引擎110将命令和数据发送到中央控制器112，所述中央控制器对到处理引擎13的数据进行负载平衡。处理引擎将已处理的数据返回到中央控制器112，所述中央控制器经由dma引擎110将数据流式传输回到主机。此数据流模型适合于映射和对准和变异体调用。如所指示，在各种实例中，与主机cpu的通信可以通过相对松散或紧密的耦合，例如低时延高带宽互连件，例如qpi，以便维持所述两个或更多个装置的相关联存储器元件之间的高速缓冲存储器相干性。举例来说，在各种实例中，由于例如当执行大数据分析时的各种功率和/或空间约束，例如如本文所描述的在混合软件/硬件加速环境中的映射/对准/变异体调用，其中数据需要在系统装置之间快速且无缝地移动，高速缓冲存储器相干的紧密耦合接口可以适用于以快速的高速缓冲存储器相干的方式在整个系统中执行去往和来自耦合装置的此类数据传输，例如去往和来自定序器、数字信号处理器(dsp)、cpu和/或gpu或cpu/gpu混合、例如fpga、asic(在网卡上)的加速集成电路，以及其它智能网络加速器。在此类实例中，合适的高速缓冲存储器相干的紧密耦合互连件可以是单个互连技术规范中的一个或多个，其被配置成确保例如大量处理平台之间使用不同指令集架构(isa)的处理可以在不同平台之间和/或与一个或多个相关联加速器(例如，硬接线fpga实施的加速器)相干地共享数据，以便实现高效的异构计算，且进而显著改进系统的计算效率，所述系统在各种实例中，可以被配置为基于云的服务器系统。因此，在某些实例中，可以采用高带宽、低时延、高速缓冲存储器相干的互连协议，例如qpi、相干处理器加速器接口(coherentprocessoracceleratorinterface，capi)、nvlink/gpu或其它合适的互连协议，以便加快系统的各种组件之间的各种数据传输，例如关于可能涉及使用加速引擎的映射、对准和/或变异体调用计算功能，所述加速引擎的功能需要在各种系统组件之间访问、处理和无缝地移动数据而与待处理的各种数据在系统中将驻留于何处无关。并且，在此类数据保持在例如ram或dram等相关联存储器装置内的情况下，传输活动可以进一步涉及加速且相干的搜索和存储器内数据库处理。具体来说，在特定实施例中，此类异构计算可以涉及可以精简指令集计算格式互连的大量处理和/或加速架构。在此实例中，此互连装置可以是相干连接互连六(coherentconnectinterconnectsix，ccvi)装置，其被配置成允许系统内的所有计算组件以单个、一致且相干的方式对一个或多个相关联存储器进行寻址、读取和/或写入。更确切地说，可以采用ccvi互连件以便例如以高带宽方式使系统的各种装置彼此连接，所述装置例如cpu和/或gpu或cpu/gpu混合、fpga和/或相关联存储器等，所述高带宽方式被配置成增加各种组件之间的传送速率，同时证明极低的时延率。具体地，可以采用ccvi互连件且配置以便允许系统的组件访问和处理数据而不管数据驻留于何处，且不需要原本将需要实施以使数据相干的复杂编程环境。可以采用以便加速(例如，减少)处理时间且增加准确性的其它此类互连件包含qpi、capi、nvlink或可以被配置成互连系统的各种组件和/或搁置于相关联pci快速外围互连件之上的其它互连件。因此，根据与本文所描述的实施方案一致的替代数据流模型，主机cpu1000直接经由dma引擎110和纵横开关108或经由中央控制器112将数据流式传输进入外部存储器1014。主机cpu1000发送命令到中央控制器112，所述中央控制器发送命令到处理引擎13，指示所述处理引擎将处理何种数据。由于紧密耦合，处理引擎13直接从外部存储器1014或与其相关联的高速缓冲存储器访问输入数据，处理所述数据，且例如在紧密耦合互连件3上将结果写回到外部存储器1014，向中央控制器112报告状态。中央控制器112从外部存储器1014将结果数据流式传输回到主机1000，或通知主机经由dma引擎110获取结果数据自身。图46示出基因组学管线处理器和系统20，示出引擎集群11/214内部的处理引擎13的完整互补。管线处理器系统20可以包含一个或多个引擎集群11/214。在一些实施方案中，管线处理器系统20包含四个或更多个引擎集群11/214。处理引擎13或处理引擎类型可包含但不限于映射器、对准器、分选器、本地再对准器、碱基质量再校准器、重复标记、变异体调用器、压缩器和/或解压缩器。在一些实施方案中，每一引擎集群11/214具有每一处理引擎类型中的一个。因此，同一类型的所有处理引擎13可通过不同纵横开关端口同时访问纵横开关208，因为它们各自在不同引擎集群11/214中。并非每个处理引擎类型都需要在每个引擎集群11/214中形成。需要大规模并行处理或存储器带宽的处理引擎类型，例如映射器(和附接的对准器)和分选器，可以出现在管线处理器系统20的每个引擎集群中。其它引擎类型可以按需要出现在引擎集群214中的仅一个或一些中，以满足其性能要求或管线处理器系统20的性能要求。图47示出基因组学管线处理器系统30，除上文描述的引擎集群11之外还示出一个或多个嵌入式中央处理单元(cpu)302。此类嵌入式cpu的示例包含或标准核心，或在其它实例中，可以是fpga。这些cpu执行完全可编程的生物it算法，例如高级变异体调用，例如dbg的建置或hmm的执行。此类处理通过各种引擎集群11中的计算功能加速，所述功能可由cpu核心302按需要调用。此外，甚至以引擎为中心的处理，例如映射和对准，也可以由cpu核心302管理，从而给予其加强的可编程性。图48示出用于基因组学管线处理器系统和方法的处理流程。在一些优选实施方案中，存在数据的三个遍次的处理。第一遍次包含映射402和对准404，其中读段的完整集合流式传输通过引擎13。第二遍次包含分选406，其中将分选的一个大块(例如，先前映射到单个染色体的绝大部分或所有读段)加载到存储器中，由处理引擎分选，且返回到主机。第三遍次包含下游阶段(局部再对准408、重复标记410、碱基质量评分再校准(bqsr)412、sam输出414、减少的bam输出416和/或cram压缩418)。第三遍次的步骤和功能可以任何组合或子组合完成，且按任何次序在单个遍次中完成。因此，以此方式，例如根据本文所描述的方法中的一个或多个，数据从一个或多个处理引擎相对无缝地传递到主机cpu。因此，例如上文描述的虚拟管线架构用以将读段从主机流式传输进入存储器中的循环缓冲器，按顺序通过一个接一个处理引擎，且输出回到主机。在一些实施方案中，cram解压缩可为单独的流式传输功能。在一些实施方案中，sam输出414、减少的bam输出416和/或cram压缩418可被变异体调用、压缩和解压缩代替。在各种实例中，描述序列分析管线的的硬件实施方案。这可以若干不同方式完成，例如fpga或asic或结构化asic实施方案。图49中阐述由fpga或asic或结构化asic实施的功能块。因此，系统包含若干块或模块来进行序列分析。对硬件实现的输入可为fastq文件，但不限于此格式。除fastq文件之外，对fpga或asic或结构化asic的输入还包括辅助信息，例如来自例如ngs等技术的流动空间信息。块或模块可以包含以下块：错误控制、映射、对准、分选、局部再对准、重复标记、碱基质量再校准、bam和辅助信息减少和/或变异体调用。这些块或模块可存在于硬件内部或由硬件实施，但可省略这些块中的一些，或添加其它块以达成实现序列分析管线的目的。块2和3描述序列分析管线平台的两个替代方案。序列分析管线平台包括fpga或asic或结构化asic以及由具有云和/或集群存储的主机(例如，pc、服务器、集群或云计算)辅助的软件。块4-7描述序列分析管线可具有的不同接口。在块4和6中，接口可为pcie和/或qpi/capi/ccvi/nvlink接口，但不限于pcie、qpi或其它接口。在块5和7中，硬件(fpga或asic或结构化asic)可直接集成到定序机器中。块8和9描述集成到例如pc、服务器集群或定序器等主机系统中的硬件序列分析管线的集成。围绕硬件fpga或asic或结构化asic的是多个ddr3存储器元件和pcie/qpi/capi/ccvi/nvlink接口。具有fpga/asic/sasic的板连接到由主机cpu和/或gpu组成的主机计算机，所述cpu和/或gpu可以是低功率cpu，例如或任何其它处理器。块10示出可由第三方应用程序访问以执行三级分析的硬件序列分析管线api。图50a和50b描绘本公开的具有处理芯片100(例如，fpga)的扩展卡104，以及用于耦合fpga100与主机cpu/gpu以例如用于从cpu/gpu到fpga100来回的数据传送的一个或多个相关联元件105，所述数据例如待处理的数据和结果数据。图50b描绘图50a的扩展卡，其具有含有本公开的多个(例如，3个)处理芯片的多个(例如，3个)槽。具体地，如图50a和50b所描绘，在各种实施例中，本公开的设备可以包含计算架构，其例如嵌入于硅场门可编程阵列(fpga)或专用集成电路(asic)100中。fpga100可集成到印刷电路板(pcb)104中，例如外围组件接口快速(pcie)卡，所述卡可插入到计算平台中。在各种实例中，如图50a所示，pcie卡104可以包含单个fpga100，所述fpga可以由本地存储器105包围，然而，在各种实施例中，如图50b中所描绘，pcie卡104可以包含多个fpga100a、100b和100c。在各种实例中，pci卡还可以包含pcie总线。此pcie卡104可添加到计算平台以对极大数据集执行算法。在替代实施例中，如上文相对于图34所提到，在各种实施例中，fpga可以被适配以便例如经由闯入器直接与cpu/gpu相关联，且例如经由qpi、capi、ccvi接口与其紧密耦合。因此，在各种实例中，涉及fpga的基因组定序的总体工作流可以包含以下：样本制备，对准(包含映射和对准)，变异体分析，生物解译，和/或特定应用。因此，在各种实施例中，本公开的设备可以包含例如在数据集展现不良参考地点(localityofreference，lor)的情况下实现对极大数据集操作的例如映射和对准算法等算法的高性能执行的计算架构。这些算法被设计成通过现代的所谓下一代定序器从数百万的短读段序列重构全基因组，需要随机存取的数千兆字节数据结构。一旦实现重构，如上文中所述，就使用具有相似特性的另外算法将一个基因组与其它基因组的库进行比较，进行基因功能分析等。存在一般来说可以构造用于执行本文详细地描述的操作中的一个或多个的两个其它典型架构，例如包含专用多核cpu和通用图形处理单元(generalpurposegraphicprocessingunit，gpgpu)。在此实例中，多核心系统中的每一cpu/gpu可以具有经典的基于高速缓冲存储器的架构，其中指令和数据是从小但具有极快存取的1级高速缓冲存储器(l1高速缓冲存储器)取得。多个l1高速缓冲存储器可以连接到较大但较慢的共享l2高速缓冲存储器。l2高速缓冲存储器可以连接到大但较慢的动态随机存取存储器(dynamicrandomaccessmemory，dram)系统存储器，或可以连接到甚至更大但更慢的l3高速缓冲存储器，其可以随后连接到dram。此布置的优点可以是其中程序和数据展现参考地点的应用程序表现为几乎如同它们在具有单个存储器的计算机上执行，所述单个存储器与dram一样大但与l1高速缓冲存储器一样快。因为完全定制的高度优化cpu以例如2到4ghz的极高时钟速率操作，所以此架构对于实现良好性能是必不可少的。另外，如相对于图33详细论述，在各种实施例中cpu可以例如经由例如qpi、ccvi、capi等高带宽低时延互连件紧密耦合fpga，例如被配置成用于运行与本文所描述的各种操作有关的一个或多个功能的fpga，以便进一步增强性能以及贯穿系统传送的数据的速度和相干性。在此实例中，如上所述可以在所述两个装置之间维持高速缓冲存储器相干性。此外，可以使用gpgpu来延伸此架构，例如通过实施极大量的小cpu，各自具有其自身的小l1高速缓冲存储器，其中每一cpu对数据的不同子集执行相同指令。这是所谓的单指令流多数据流(singleinstructionstream,multipledatastream，simd)架构。可以通过跨大量cpu共享指令获取和解码逻辑来获得经济性。每一高速缓冲存储器能够经由互连网络访问多个大的外部dram。假定将执行的计算高度可平行化，则gpgpu由于具有大量计算资源而具有优于通用cpu的显著优点。然而，它们仍具有高速缓冲存储架构，且其性能受到并不具有足够高程度的参考地点的应用程序的损害。这导致较高的高速缓冲存储器未命中率以及处理器在等待数据从外部dram到达时是空闲的。举例来说，在各种实例中，动态ram可用于系统存储器，因为它们比静态ram(sram)更经济。经验法则是在与sram成本相同的情况下dram具有4倍的容量。然而，由于对sram的需求下降而有利于dram，此差异由于有利于高需求的dram的规模经济已经大大增加。与成本无关，dram的密度是布置于相同硅面积中的sram的4倍，因为它们每位仅需要一个晶体管和电容器，而实施sram的触发器则每位需要4个晶体管。dram表示作为电容器上的电荷存在或不存在的单个信息位。这种布置的问题在于电荷随时间衰变，因此必须周期性地刷新。这样做的需要已经导致将存储器组织成独立块和存取机制的架构，所述机构每请求递送多个存储器字。这补偿了当刷新时给定块不可用的时间。想法是当给定块可用时移动大量数据。这与存储器中的任何位置在单次存取中在恒定时间量中可用的sram形成对比。此特性允许存储器存取是面向单个字的而不是面向块的。dram在高速缓冲存储架构中工作良好，因为每一高速缓冲存储器未中都导致存储器块从dram被读入。参考地点的理论是如果仅存取字n，那么不久可能将要存取字n+1、n+2、n+3等等。图51提供本公开的系统500的示例性实施方案，包含例如用于生物信息学处理10的图50的扩展卡中的一个或多个。系统包含生物it处理芯片100，其被配置成用于在处理管线中执行一个或多个功能，例如碱基调用、错误校正、映射、对准、分选、组装、变异体调用及类似功能，如本文中所描述。系统500还包含适合于配置一个或多个处理器100的机载功能的配置管理器。具体地，在各种实施例中，配置管理器适于例如通过合适配置的驱动器经由松散或紧密耦合互连件将指令传送到fpga的内部控制器，例如固件，以便配置系统500的一个或多个处理功能。举例来说，配置管理器可以适于配置内部处理集群11和/或与其相关联的引擎13以便根据接收的指令执行一个或多个所需操作，例如映射、对准、分选、变异体调用及类似操作。以此方式，仅含有用于对从主机系统1000提供到芯片100的数据执行所请求处理操作的处理引擎13的集群11可以从事根据所接收指令处理数据。另外，在各种实施例中，配置管理器可以进一步被适配以便自身例如在api连接上由第三方用户例如远程适配，如本文在上文较详细描述，例如通过由系统500的应用程序呈现的用户界面(gui)来进行。另外，配置管理器可以连接到一个或多个外部存储器，例如形成或另外含有数据库的存储器，所述数据库例如包含一个或多个参考或个别地定序的基因组和/或其索引和/或一个或多个先前映射、对准和/或分选的基因组或其部分的数据库。在各种实例中，数据库可进一步包含表征患病状态的一个或多个基因配置文件，例如用于在新映射、对准的遗传序列或与其有关的vcf上执行一个或多个三级处理协议。系统500还可以包含基于网络的访问，以便允许例如经由因特网进行远程通信以便形成云或至少混合云504通信平台。以如此方式，从生物it处理器产生的经处理信息(例如，结果数据)可以被加密且存储为例如外部(例如，远程)数据库中的电子健康记录。在各种实例中，emr数据库可以例如相对于存储于其中的基因信息是可搜索的，以便对数据执行一个或多个统计分析，以便确定患病状态或趋势或者用于分析一个或多个预防剂或与其有关的治疗的有效性的目的。此类信息连同emr数据可以随后以一方式被进一步处理和/或存储于又一数据库508中，以便确保基因信息的源的保密性。更确切地说，图51示出用于对基因序列数据执行序列分析管线的系统500。系统500包含配置管理器502，其包含计算系统。配置管理器502的计算系统可包含个人计算机或其它计算机工作站，或可由一套联网计算机实施。配置管理器502还可包含通过一个或多个api与计算系统连接的一个或多个第三方应用程序，其利用一个或多个专有应用程序产生用于处理来自定序器或其它基因组学数据源的基因组学数据的配置。配置管理器502还包含将所述配置加载到基因组学管线处理器系统10的驱动器。基因组学管线处理器系统10可将结果数据输出到网络504或其它网络或经由其进行访问，以用于将结果数据存储于电子健康记录506或其它知识数据库508中。如本文在上文的若干处所论述，实施基因组学管线处理器的芯片可连接或集成在定序器中。芯片也可以例如经由闯入器直接地或例如在扩展卡上例如经由pcie间接地连接或集成，且扩展卡可连接或集成在定序器中。在其它实施方案中，芯片可连接或集成在连接到定序器的服务器计算机中，以将基因组读段从定序器传送到服务器。在又其它实施方案中，芯片可以连接或集成在计算机和服务器的云计算集群中的服务器中。系统可包含(例如，经由以太网)连接到含有芯片的服务器的一个或多个定序器，其中基因组读段是由多个定序器产生，传输到服务器，并且接着在芯片中映射和对准。举例来说，在一般的下一代dna定序器(ngs)数据管线中，一级分析阶段处理对给定测序技术是大体上特定的。此一级分析阶段用以将在定序器内部检测到的物理信号转换为具有相关联质量(置信度)评分的核苷酸序列的“读段”，例如fastq格式文件，或含有序列和通常质量信息的其它格式。如上文所提及，一级分析经常对于采用的定序技术在性质上是相当特定的。在各种定序器中，通过感测荧光和/或电荷、电流或辐射光的改变来检测核苷酸。一些一级分析管线经常包含：放大、滤波、分离和测量传感器输出的信号处理；例如通过量化、抽取、平均化、变换等的数据精简；识别和增强有意义的信号且使它们与特定读段和核苷酸关联的图像处理或数字处理(例如，图像偏移计算、集群识别)；补偿定序技术假象的算法处理和试探法(例如，定相估计、串扰矩阵)；贝叶斯概率计算；隐式马尔可夫模型；碱基调用(选择序列中的每一位置处的最可能核苷酸)；碱基调用质量(置信度)估计，及类似处理。如本文在上文所论述，这些步骤中的一个或多个可以通过在硬件中实施必要处理功能中的一个或多个而受益，例如通过例如fpga的集成电路来实施。此外，在实现此格式之后，如本文所描述，二级分析继续，以例如通过将读段映射和对准到参考基因组、分选、重复标记、碱基质量评分再校准、局部再对准和变异体调用而确定定序样本dna(或rna等)的内容。随后可以进行三级分析，以从确定的dna内容提取医学或研究意义。因此，给定以上处理功能的循序性质，可能有利的是将一级、二级和/或三级处理加速集成于单个集成电路中，或者定位于单个扩展卡上的多个集成电路中。这可以是有益的，因为定序器产生通常需要一级和二级分析以便为有用的数据，且可以进一步在各种三级处理协议中使用，且将它们集成于单个装置中在成本、空间、功率和资源共享方面是最有效的。因此，在一个特定的方面中，本公开涉及一种系统，例如用于对基因序列数据执行序列分析管线的系统。在各种实例中，系统可以包含电子数据源，例如提供数字信号的数据源，举例来说，表示基因组数据的多个读段的数字信号，其中基因组数据的所述多个读段中的每一个包含核苷酸序列。系统可以包含一个或多个存储器，例如存储一个或多个基因参考序列和/或所述一个或多个基因参考序列的索引的存储器；和/或系统可以包含芯片，例如asic、fpga或sasic。本文所描述的主题的一个或多个方面或特征可以在数字电子电路、集成电路、专门设计的专用集成电路(asic)、现场可编程门阵列(fpga)或结构化asic计算机硬件、固件、软件和/或其组合中实现。这些各种方面或特征可包含在可以在可编程系统上执行和/或解译的一个或多个计算机程序中的实施方案，所述可编程系统包含可为专用或通用的至少一个可编程处理器，所述处理器被耦合以从存储系统、至少一个输入装置和至少一个输出装置接收数据和指令以及向它们传输数据和指令。可编程系统或计算系统可以包含客户端和服务器。客户端和服务器一般远离彼此且通常通过通信网络交互。客户端与服务器的关系是借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。也可称为程序、软件、软件应用程序、应用程序、组件或代码的这些计算机程序包含用于可编程处理器的机器指令，且可以高级过程和/或面向对象的编程语言和/或以汇编/机器语言来实施。如本文所使用，术语“机器可读介质”指代用以将机器指令和/或数据提供到可编程处理器的任何计算机程序产品、设备和/或装置，例如磁盘、光盘、存储器和可编程逻辑装置(pld)，包含接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指代用以将机器指令和/或数据提供到可编程处理器的任何信号。机器可读介质可非暂时地存储此类机器指令，例如非瞬态固态存储器或磁性硬盘驱动器或任何等效存储介质。机器可读媒体可以替代地或另外以瞬时方式存储此类机器指令，例如与一个或多个物理处理器核心相关联的处理器高速缓冲存储器或其它随机存取存储器。另外，由于21世纪的数据产生和获取的巨大增长，需要开发能够处置用于建立现代开发的不断增长的计算密集分析的增加处理能力。已经引入超级计算机，且已经用于推进在广泛范围的平台上的技术开发。然而，虽然超级计算是有用的，但事实证明它不足以应对当今许多技术公司面临的一些非常复杂的计算问题。具体来说，由于人类基因组的定序，生物领域的技术进步已经是指数级的。然而，鉴于每天产生的原始数据的高速率和增加的复杂性，在产生的数据的处理和分析中已经演化出成问题的瓶颈。已经为此开发了量子计算机来帮助解决此瓶颈。量子计算表示计算的新前沿，为解决世界上最具挑战性的计算需要提供了全新的方法。量子计算自从1982年以来就为人所知。举例来说，在《国际理论物理期刊》中，richardfeynman理论化了一种用于执行量子计算的系统。具体地，feynman提出一种量子系统，其可以被配置成用于模拟其它量子系统，其方式为使得计算机处理的常规功能可以更快速且高效地执行。参见feynman在1982年《国际理论物理期刊》的第21页467-488，其以全文引用的方式并入本文。具体来说，可以设计量子计算机系统以便展现复杂计算中的指数级时间节省。此类可控的量子系统通常称为量子计算机，且已经成功地开发成通用处理计算机，其不仅可以用于模拟量子系统，而且可以适合于运行专用量子算法。更确切地说，可以例如哈密顿量(hamiltonian)的方程式的形式建模复杂问题，其可以系统的表现提供关于方程式的解的信息的方式在量子系统中表示。参见deutsch在1985年《伦敦皇家学会学报a》的第400页97-117，其以全文引用的方式并入本文。在此类实例中，求解用于量子系统的表现的模型可以被配置以便涉及求解与量子系统的粒子(例如，哈密顿量)的波-机械描述有关的微分方程。本质上，量子计算是使用量子力学现象(例如，叠加和/或纠缠)来极快地对大量数据执行各种计算的计算系统。因此，量子计算机是对常规数字逻辑计算机的巨大改进。具体地，常规数字逻辑电路通过使用二进制数字逻辑门来起作用，所述二进制数字逻辑门通过导电衬底上的电子电路的硬连线而形成。在数字逻辑电路中，晶体管的“接通/断开”状态充当基本信息单位，例如位。具体来说，常见的数字计算机处理器采用“接通”或“断开”状态(例如，0或1)中的二进制数字，例如位，来对数据进行编码。另一方面，量子计算采用信息装置，其使用纠缠状态、调用量子位或量子比特的叠加来对数据进行编码。执行此类量子计算的基础是形成量子位的信息装置，例如单元。量子位类似于传统数字计算机中的数字“位”，不同之处在于量子位具有比数字位多得多的计算潜力。具体来说，如本文中更详细描述，并非仅编码两个离散状态中的一个，例如数字位中所见的“0”和“1”，量子位也可被置于“0”和“1”的叠加中。具体地，量子位可以同时存在于“0”和“1”状态中。因此，量子位可同时在两个状态上执行量子计算。大体来说，n个量子位可以处于2n个状态的叠加。因此，量子算法可利用此叠加性质来加速某些计算。因此，量子位类似于传统数字计算机中的位，且是展现相干的一类信息装置。具体来说，量子计算装置是从多个信息装置(例如，量子位)建置块建置。举例来说，量子计算机的计算能力随着形成其建置块的信息装置以可控方式耦合(例如，纠缠)在一起而增加。在此实例中，一个信息装置的量子状态影响其耦合到的其它信息装置中的每一个的量子状态。因此，类似于传统数字计算中的位，量子计算中的量子位充当用于例如量子信息等信息的编码的基本单位。类似于位，量子位在两状态系统中编码数据，所述系统在此实例中是量子力学系统。具体地，对于量子位，两个量子状态涉及纠缠，例如涉及单个光子的偏振。因此，在经典的系统中，位必须处于一个状态或另一状态，而在量子计算平台中，量子位可以同时处于两个状态的叠加，此性质是量子处理的基础。因此，量子位与经典位之间的区别特征是多个量子位展现量子纠缠。此类纠缠是非局部性质，其允许一组量子位表达比经典系统中可能的情况更高的相关。为了起作用，此类信息装置，例如量子位，必须满足若干要求。第一，所述信息装置必须可精简为量子两级系统。这意味着所述信息装置必须具有可用于执行计算的两个可区分的量子状态。第二，所述信息装置必须能够产生类似于纠缠和叠加的量子效应。另外，在某些实例中，所述信息装置可以被配置成用于例如以相干的形式存储信息，例如量子信息。在此类实例中，相干的装置可以具有在例如约几微秒或更多的长时段内持续而不会有显著降级的量子状态。具体来说，量子纠缠是当一对或一组粒子产生或另外被配置成以一个粒子的量子状态无法独立于另一粒子来描述的方式交互时发生的物理现象，尽管有空间将它们分开。因此，并非将一个粒子的状态与其它粒子隔离地描述，必须针对整个系统描述量子状态。在此类实例中，对纠缠粒子执行的例如位置、动量、自旋和/或偏振等各种物理性质的测量是相关的。举例来说，如果产生一对粒子以使得它们的总自旋已知为零，且发现一个粒子在某一轴线上具有顺时针自旋，则在同一轴线上测量的另一粒子的自旋将被发现是逆时针的，如同由于它们的纠缠而预期的那样。因此，纠缠对的一个粒子简单地“知道”已对另一粒子执行了何种测量，且具有何种结果，即使不存在用于在粒子之间传达此信息的已知方式也是如此，而所述粒子在测量时可以分开任意大的距离。由于此关系，不同于每次仅可具有一个值的经典位，纠缠允许同时对多个状态作用。是这些独特的纠缠关系和量子状态被广泛用于量子计算的开发。因此，存在可执行的采用纯量子位状态的各种物理操作。举例来说，可形成量子逻辑门且配置成在基本量子位上操作，其中量子位经历单一变换，例如其中所述单一变换对应于量子位的旋转或其它量子现象。事实上，任何两级系统都可用作量子位，例如光子、电子、核自旋、相干光状态、光学晶格、josephson结、量子点及类似物。具体地，量子门是在少量量子位上操作的量子电路的基础。举例来说，量子电路包括对例如两个或三个或更多的固定数目量子位起作用的量子门。因此，量子位是量子电路的建置块，类似于用于常规数字电路的经典逻辑门。具体地，量子电路是用于量子计算的模型，其中计算是作为在n位寄存器的量子力学模拟上的可逆变换的一系列量子门。此类类似结构称为n量子位寄存器。因此，不同于经典的逻辑门，量子逻辑门始终是可逆的。具体来说，如本文所描述，数字逻辑栅极是物理有线装置，其可以使用一个或多个二极管或晶体管来实施，所述二极管或晶体管充当用于对一个或多个二进制输入执行逻辑操作(例如，布尔函数)的电子开关，以便产生单个二进制输出。通过放大，逻辑门可以可构建布尔函数的相同方式级联，从而允许构造所有布尔逻辑的物理模型，并因此可以布尔逻辑描述的所有算法和数学可以由数字逻辑门执行。以类似方式，可形成量子逻辑门的级联以用于执行布尔逻辑运算。量子门通常表示为矩阵。在各种实施方案中，量子门作用于k个量子位，其可以由2kx2k酉矩阵表示。在此类实例中，门的输入和输出中的量子位的数目应当相等，且门在特定量子状态上的动作是通过将表示所述状态的向量乘以表示所述门的矩阵来找到。因此，给定此配置，量子计算操作可以在极小数目的量子位上执行。举例来说，存在被配置成用于运行比任何可能的概率性经典算法更快的更复杂计算的量子算法。具体来说，量子算法是在量子电路计算模型上运行的算法。经典的算法是可以由传统计算机的数字逻辑电路执行的逐步指令或过程的有限序列；量子算法是其中每一个步骤可在量子计算机上执行的逐步过程。然而，即使量子算法存在，例如shor、grovar和simon算法，也可以在具有正确配置的量子计算机上执行所有经典算法。量子算法通常用于本质上是量子的那些算法，例如涉及叠加或量子纠缠。量子算法可以在各种量子计算模型中陈述，例如哈密顿量oracle模型。因此，经典计算机具有由位组成的存储器，其中每一位由“1”或“0”表示；量子计算机支持一系列量子位，其中单个量子位可表示一、零，或这两个量子位状态的任何量子叠加。因此，一对量子位可处于4个状态的任何量子叠加，且三个量子位可处于8个状态的任何叠加。大体来说，具有n个量子位的量子计算机可处于同时高达2n个不同状态的任意叠加，这与在任何一个时间仅可处于这些2n个状态中的一个的正常计算机形成对比。因此，量子位可以保持比其经典对应物在指数级上更多的信息。实际上，量子计算机通过设定漂移中的量子位来操作，所述漂移通过用量子逻辑门的固定序列操纵那些量子位来解决问题。是量子逻辑门的此序列形成量子算法的运算。计算以测量结束，将量子位的系统收缩成2n个纯状态中的一个，其中每一量子位是“0”或“1”，进而分解为经典状态。因此，传统的算法也可以在量子计算平台上执行，其中结果通常是n个经典信息位。在标准记法中，量子位的基本状态称为“0”和“1”状态。然而，在量子计算期间，量子位的状态大体来说可以是基本或基础状态的叠加，以使得量子位具有占用“0”基础状态的非零概率和占用“1”基础状态的同时非零概率。因此，量子位的量子性质大部分是得自于其在基础状态的相干叠加中存在的能力，以及量子位的状态具有相位。量子位将保持此能力以作为基础状态的相干叠加而存在，只要量子位与退相干的源充分隔离即可。因此，为了使用量子位完成计算，测量量子位的状态。如上文所指出，当量子位的测量完成时，量子位的量子性质可能临时丢失，且基础状态的叠加可以收缩到“0”基础状态或“1”基础状态。因此，以如此方式，量子位重新获得其与常规数字“位”的相似性。然而，量子位在其已收缩之后的实际状态将取决于紧接在测量操作之前存在的各种概率状态。因此，量子位可以用于形成量子电路，所述量子电路自身可以被配置成形成量子计算机。量子计算机的设计和操作存在几种一般方法。已经提出的一个方法是用于量子计算的电路模型的方法。电路模型量子计算需要长量子相干，因此在支持此方法的量子计算机中使用的信息装置的类型可以是量子位，其按照定义具有长相干时间。因此，用于量子计算的电路模型是基于这样的前提：极类似于位，量子位可以由逻辑门形成且由逻辑门作用，且可使用量子逻辑进行编程以便执行计算，例如布尔计算。已经进行研究以开发可被编程来以此方式执行量子逻辑功能的量子位。举例来说，参见shor在2001年的arxiv.org:quant-ph/0005003，其以全文引用的方式并入本文。同样，计算机处理器可以采取量子处理器的形式，例如超导量子处理器。超导量子处理器可以包含若干量子位和相关联局部偏置装置，举例来说，两个、三个或更多超导量子位。因此，虽然在各种实施例中，计算机处理器可以被配置为非传统的超导处理器，但在其它实施例中，计算机处理器可以被配置为超导处理器。举例来说，在一些实施例中，非传统的超导处理器可以被配置以便不关注例如叠加、纠缠和/或量子隧穿等量子效应，而是可以通过强调不同原理而操作，例如掌控经典计算机处理器的操作的那些原理。在其它实施例中，例如通过适应于通过例如叠加、纠缠和/或量子隧穿等各种量子效应的过程，计算机处理器可以被配置为传统的超导处理器。因此，在各种实例中，此类超导处理器的实施方案可能存在某些优点。具体来说，由于其自然物理性质，超导处理器一般来说可能够具有比非超导处理器更高的切换速度和更短的计算时间，并且因此在超导处理器上解决某些问题可能更实际。此外，可以与本装置、系统及其使用方法结合使用的示例性量子处理器的细节和实施例描述于以下各项中：ussns：11/317,838；12/013,192；12/575,345；12/266,378；13/678,266和14/255,561；以及其各种分案、接续案和/或部分接续案；包含美国专利号7,533,068；7,969,805；9,026,574；9,355,365；9,405,876；以及所有其国外对应案，以上均以全文引用的方式并入本文中。此外，除以上量子装置和系统之外，还呈现其用于解决复杂计算问题的方法。举例来说，本文所公开的量子装置和系统可以用于以相干方式控制一个或多个信息装置和/或系统的量子状态，以便执行生物信息学和/或基因组学处理管线中的一个或多个步骤，例如用于执行图像处理、碱基调用、映射、对准、分选、变异体调用和/或其它基因组学和/或生物信息学管线中的一个或多个操作。在特定实施例中，所述一个或多个操作可以包含执行burrow-wheelers、smith-waterman和/或hmm操作。具体来说，使用量子计算装置解决复杂基因组学和/或生物信息学计算问题可以包含产生一个或多个量子位且使用所述量子位形成计算问题的量子逻辑电路表示，将所述逻辑电路表示编码为离散优化问题，且使用量子处理器解决所述离散优化问题。所述表示可以是用于通过加法、减法、乘法和/或除法电路求解的算术和/或几何问题。所述离散优化问题可以包括一组小型优化问题，其中每一小型优化问题编码来自所述逻辑电路表示的相应逻辑门。举例来说，数学电路可以采用因数的二进制表示，且这些二进制表示可以被分解以减少表示所述数学电路所需的变量的总数。因此，根据本文中的教示，计算机处理器可以采取数字和/或模拟处理器的形式，举例来说，例如超导量子处理器的量子处理器。超导量子处理器可以包含若干量子位和相关联局部偏置装置，举例来说两个或更多个超导量子位，其可以形成为一个或多个量子逻辑电路表示。更确切地说，在各种实施例中，可以提供超导集成电路。具体地，在特定实施例中，此超导集成电路可以包含安置于金属层(例如，第一金属层)中的第一超导电流路径。也可以包含电介质(例如，第一电介质)层，例如其中所述电介质层的至少一部分关联于第一金属层内和/或承载于第一金属层上。也可以包含第二超导电流路径且安置于第二金属层中，例如承载于第一电介质层上或另外与第一电介质层相关联的金属层。在此类实施例中，第二超导电流路径的至少一部分可以覆盖第一超导电流路径的至少一部分。同样，也可以包含第二电介质层，例如其中第二电介质层的至少一部分与第二金属层相关联或承载于第二金属层上。另外，可以包含第三超导电流路径且安置于第三金属层中，所述第三金属层可以与第二电介质层相关联或承载于第二电介质层上，例如其中第三超导电流路径的至少一部分可以覆盖第一和第二超导电流路径中的一个或两个的至少一部分。也可以包含一个或多个额外金属层、电介质层和/或电流路径且相应地进行配置。此外，第一超导连接可以定位于第一超导电流路径与第三超导电流路径之间，例如其中第一超导连接延伸穿过第一电介质层和第二电介质层两者。也可以包含第二超导连接且将其定位于第一超导电流路径与第三超导电流路径之间，例如其中第二超导连接可以延伸穿过第一电介质层和第二电介质层两者。另外，第二超导电流路径的至少一部分可以由外部超导电流路径环绕，所述外部超导电流路径可以由第一超导电流路径、第二超导电流路径的至少一部分和/或第一和第二超导连接中的一个或多个的至少一部分形成。因此，在此类实例中，第二超导电流路径可以被配置成将信号耦合(例如，以感应方式耦合)到外部超导电流路径。在一些实施例中，第二超导电流路径与外部超导电流路径之间的互电感可以与第一电介质层的厚度和第二电介质层的厚度亚线性地成比例。第一和第二超导连接还可以各自包含至少一个相应超导通孔。此外，在各种实施例中，第二超导电流路径可以是输入信号线的一部分，且第一和第三超导电流路径中的一个或两个可以耦合到超导可编程装置。在其它实施例中，第二超导电流路径可以是超导可编程装置的一部分，且第一和第三超导电流路径两者可以耦合到输入信号线。在特定实施例中，超导可编程装置可以是超导量子位，其可以随后耦合(例如，量子耦合)到一个或多个其它量子位以便来自例如量子处理装置的量子电路。因此，本文提供用于解决计算问题的装置、系统和方法，特别是与解决本文中以上所描述的基因组学和/或生物信息学瓶颈有关的问题。在各种实施例中，这些装置、系统和方法引入一种技术，由此可以直接求解计算问题的逻辑电路表示和/或可以将其编码为离散优化问题，且可以随后使用例如量子处理器的计算机处理器来解决离散优化问题。举例来说，在特定实施例中，解决此类离散优化问题可以包含执行逻辑电路以解决原始计算问题。因此，本文所描述的装置、系统和方法可以使用任何形式的计算机处理器实施，例如包含传统的逻辑电路和/或逻辑电路表示，例如被配置成用于作为量子处理器和/或在超导处理中使用。具体来说，在执行图像处理、碱基调用、映射、对准和/或变异体调用生物信息学管线中的各种步骤可以被编码为离散优化问题，并且因此，可以特别适合使用本文公开的量子处理器来解决。在其它实例中，此类计算可以更一般化地通过利用量子效应来实现此计算的计算机处理器来解决；和/或在其它实例中，此类计算可以使用专用集成电路执行，例如fpga、asic或结构化asic，如本文中详细描述。在一些实施例中，通过在量子处理器中配置逻辑电路、量子位和/或耦合器而将离散优化问题视为问题。在一些实施例中，量子处理器可以特别适于促进解决此类离散优化问题。如贯穿本说明书和所附权利要求书所公开，经常参考例如计算问题的“逻辑电路表示”。取决于上下文，逻辑电路可以并入有一组逻辑输入、一组逻辑输出和一组逻辑门(例如，与非门、异或门及类似物)，所述逻辑门通过一组中间逻辑输入和中间逻辑输出将逻辑输入变换为逻辑输出。完整逻辑电路可以包含对计算问题的输入的表示、计算问题的输出的表示，且输入与输出之间的中间步骤序列的表示。因此，出于本装置、系统和方法的各种目的，计算问题可以由其输入、其输出和将输入变换为输出的中间步骤来定义，且“逻辑电路表示”可以包含所有这些元件。所属领域的技术人员将了解，将计算问题的“逻辑电路表示”编码为离散优化问题以及离散优化问题到量子处理器的后续映射可以导致任何数目的层，涉及每层任何数目的量子位。此外，此映射可以实施量子位间耦合的任何方案，以实现层间耦合(例如，不同层的量子位之间的耦合)和层内耦合(例如，在特定层内的量子位之间的耦合)的任何方案。因此，如所指示，在一些实施例中，逻辑电路的结构可以分层为若干层。举例来说，逻辑输入可以表示第一层，每一循序逻辑(或算术)运算可以表示相应额外层，且逻辑输出可以表示另一层。且如先前描述，取决于正执行的特定逻辑运算，可以由单个逻辑门或由逻辑门的组合执行逻辑运算。因此，取决于正实施的特定逻辑电路，逻辑电路中的“层”可以包含单个逻辑门或逻辑门的组合。因此，在例如其中逻辑电路的结构分层为若干层(例如，其中逻辑输入表示第一层，每一循序逻辑运算表示相应额外层，且逻辑输出表示另一层)的各种实施例中，每一层可以由量子和/或超导处理器中的量子位的相应集合实施。举例来说，在量子处理器的一个实施例中，量子位的一个或多个(例如，每一)行可以被编程以表示量子逻辑电路的相应层。即，特定量子位可以被编程以表示对逻辑电路的输入，其它量子位可以被编程以表示第一逻辑运算(由一个或多个逻辑门执行)，并且另外的量子位可以被编程以表示第二逻辑运算(类似地由一个或多个逻辑门执行)，且再另外的量子位可以被编程以表示逻辑电路的输出。另外，通过表示问题的各种层的量子位的各种集合，可能有利的是实现每一相应集合的独立动态控制。此外，在各种实施例中，各种串行逻辑电路可以映射到量子处理器，且相应量子位被映射以用适合于实现其独立控制的方式促进量子处理的功能交互。从上可知，所属领域的技术人员将了解针对任何逻辑门可以如何定义相似的目标功能。因此，在一些实施例中，表示逻辑电路的问题可以基本上包括多个小型优化问题，其中逻辑电路中的每一门对应于特定小型优化问题。因此，可以使用此项技术中已知的系统和方法产生示例性逻辑电路表示。在一个实例中，例如基因组学和/或生物信息学问题的计算问题的逻辑电路表示可以使用经典的数字计算机处理器和/或如本文中所描述的量子和/或超导处理器来产生和/或编码。因此，计算问题的逻辑电路表示可以存储于至少一个计算机或处理器可读存储介质中，例如计算机可读非暂时性存储介质或存储器(例如，易失性或非易失性)。因此，如本文所论述，计算问题的逻辑电路表示可以被编码为离散优化问题，或一组优化目标，且在例如其中经典的数字计算机处理范例被配置成解决问题的各种实施例中，系统可以被配置以使得满足逻辑电路的位串具有零能量且所有其它位串具有大于零的能量，其中可以以此方式解决离散优化问题以便建立原始计算问题的解决方案。此外，在其它实施例中，可以使用例如量子处理器的计算机处理器解决离散优化问题。在此实例中，解决离散优化问题可以随后涉及例如使量子处理器演进到使系统的能量最小化以便建立满足优化目标的位串的配置。因此，在一些实施例中，解决离散优化问题的动作可以包含三个动作。第一，离散优化问题可以映射到计算机处理器。在一些实施例中，计算机处理器可以包含量子和/或超导处理器，且将离散优化问题映射到计算机处理器可以包含对量子和/或超导处理器的元件(例如，量子位和耦合器)进行编程。将离散优化问题映射到计算机处理器可以包含例如计算机可读非暂时性存储介质或存储器(例如，易失性或非易失性)等至少一个计算机或处理器可读存储介质中的离散优化问题。因此，鉴于上文，在各种实例中，提供用于例如对基因组学材料执行序列分析管线的装置、系统和方法。举例来说，基因组学材料可以包含例如图像文件、bcl、fastq文件及类似物中的基因组数据的多个读段。在各种实施例中，装置和/或系统可以用于例如通过使用例如存储于存储器中的一个或多个基因参考序列的索引来对基因组数据(例如，基因组数据的读段)执行序列分析，举例来说，其中基因组数据的每一读段和每一参考序列表示核苷酸序列。具体来说，在各种实施例中，装置可以是例如由一组量子逻辑电路(例如，硬接线量子逻辑电路)形成的量子计算装置，举例来说，其中所述逻辑电路彼此互连。在各种实例中，量子逻辑电路可以由一个或多个超导连接互连。另外，所述超导连接中的一个或多个可以包含例如用于存取存储器的存储器接口。逻辑电路和互连件一起可以被配置成处理被表示为量子状态的信息，所述量子状态自身被表示为一组一个或多个量子位。更确切地说，所述组硬接线量子逻辑电路可以被布置成一组处理引擎，例如其中每一处理引擎可以由硬接线量子逻辑电路的子组形成，且可以被配置成对基因组数据的读段执行序列分析管线中的一个或多个步骤。举例来说，所述组处理引擎可以被配置以便包含图像处理、碱基调用、映射、对准、分选、变异体调用和/或其它基因组学和/或生物信息学处理模块。举例来说，在各种实施例中，可以包含例如呈第一硬接线配置的映射模块。另外，在另外的实施例中，可以包含例如呈第二硬接线配置的对准模块。此外，可以包含例如呈第三硬接线配置的分选模块。并且，在额外实施例中，可以包含例如呈第四硬接线配置的变异体调用模块。更进一步，在各种实施例中，图像处理和/或碱基调用模块可以另外的硬接线配置包含，例如其中这些硬接线配置中的一个或多个可以包含硬接线量子逻辑电路可以被布置成一组处理引擎。更确切地说，在特定实例中，量子计算装置和/或系统可以包含映射模块，其中所述映射模块包括被布置成一组处理引擎的一组量子逻辑电路，所述处理引擎中的一个或多个被配置成用于执行映射过程的一个或多个步骤。举例来说，一个或多个量子处理引擎可以被配置成例如经由多个超导连接中的一个或多个接收基因组数据的读段。此外，所述一个或多个量子处理引擎可以被配置成提取读段的一部分以产生种子，例如其中所述种子可以表示由所述读段表示的核苷酸序列的子集。另外，量子处理引擎中的一个或多个可以被配置成基于所述种子计算索引内的第一地址，且在存储器中访问索引中的所述地址，以便从所述地址接收记录，例如其中所述记录表示基因参考序列中的位置信息。此外，所述一个或多个量子处理引擎可以被配置成例如基于所述记录确定从读段到基因参考序列的一个或多个匹配位置；以及经由存储器接口将匹配位置中的至少一个输出到存储器。更进一步，映射模块可以包含被布置成一组处理引擎的一组量子逻辑电路，所述处理引擎被配置成用于例如基于记录以及不包含于核苷酸序列的第一子集中的核苷酸序列的第二子集而计算索引内的第二地址。处理引擎可以随后访问存储器中的索引中的第二地址以便从第二地址接收第二记录，例如其中所述第二记录或后续记录包含基因参考序列中的位置信息。处理引擎可以还被配置成基于位置信息确定从读段到基因参考序列的一个或多个匹配位置。另外，在各种实例中，量子计算装置和/或系统可以包含对准模块，其中所述对准模块包括被布置成一组处理引擎的一组量子逻辑电路，所述处理引擎中的一个或多个被配置成用于执行对准过程的一个或多个步骤。举例来说，一个或多个量子处理引擎可以被配置成从存储器接收读段的多个映射位置，且访问存储器以检索对应于映射位置中的每一个的基因参考序列的片段。形成为对准模块的所述一个或多个处理引擎可以还被配置成计算读段到基因参考序列的每一检索片段的对准，以便产生每一对准的评分。此外，一旦已经产生一个或多个评分，那么可以选择读段的至少一个最佳评分对准。在特定实例中，量子计算装置可以包含被布置成一组处理引擎的一组量子逻辑电路，所述处理引擎被配置成用于执行有间隙的或无间隙的对准，例如smithwaterman对准。此外，在某些实例中，量子计算装置和/或系统可以包含变异体调用模块，其中所述变异体调用模块包括被布置成一组处理引擎的一组量子逻辑电路，所述处理引擎中的一个或多个被配置成用于执行变异体调用过程的一个或多个步骤。举例来说，量子计算变异体调用模块可以包含适合于例如使用例如存储于存储器中的一个或多个候选单倍型对基因组数据的多个读段执行分析的一组量子逻辑电路，其中基因组数据的每一读段和每一候选者单倍型表示核苷酸序列。具体地，所述组量子逻辑电路可以形成为一个或多个量子处理引擎，所述处理引擎被配置成例如经由多个超导连接中的一个或多个例如从存储器接收基因组数据读段中的一个或多个且产生和/或接收一个或多个候选单倍型。此外，所述一个或多个量子处理引擎可以被配置成从存储器接收基因组数据读段中的一个或多个和一个或多个候选单倍型，以及将所述一个或多个读段中的每一个中的核苷酸与所述一个或多个候选单倍型进行比较，以便确定每一候选者单倍型表示正确变异体调用的概率。另外，量子处理引擎中的一个或多个可以被配置成基于所确定概率产生输出。另外，在各种实例中，所述组量子逻辑电路可以形成为一个或多个量子处理引擎，所述量子处理引擎被配置成基于至少一个候选者单倍型是例如所述多个读段的源生物体的真实核苷酸序列而确定观察到所述多个读段中的每一读段的概率。在特定实例中，关于确定概率，所述一个或多个量子处理引擎可以被配置成用于执行隐式马尔可夫模型。更确切地说，在额外实施例中，所述一个或多个量子处理引擎可以被配置成用于将所述多个读段合并成一个或多个邻接核苷酸序列，和/或用于从所述一个或多个邻接核苷酸序列产生一个或多个候选单倍型。举例来说，在各种实施例中，所述多个读段的合并包含所述一个或多个量子处理引擎构造debruijn图。因此，根据上文，提供用于在解决与基因组学和/或生物信息学处理有关的问题中执行各种计算的系统。举例来说，所述系统可以包含以下一个或多个：现场自动定序器(例如ngs)和/或处理服务器，其中的任一个或两个可以包含一个或多个cpu、gpu和/或其它集成电路，例如包含如本文描述被配置为用于执行序列分析管线中的一个或多个步骤的fpga、asic和/或结构化asic。具体来说，下一代定序器可以被配置成用于对多个核酸序列进行定序以便产生表示已定序核酸序列一个或多个图像、bcl和/或fastq文件，所述核酸序列可以是dna和/或rna序列。这些序列文件可以由定序器自身或由相关联服务器单元处理，例如其中定序器和/或相关联服务器包含例如fpga或asic的集成电路，其如本文描述被配置为用于执行二级序列分析管线中的一个或多个步骤。然而，在例如其中自动定序器和/或相关联服务器未被配置成用于对从定序器产生的数据执行二级序列分析的各种实例中，产生的数据可以传输到远程服务器，所述远程服务器被配置成用于例如经由云介导的接口对所述数据执行二级和/或三级序列分析。在此实例中，云可访问的服务器可以被配置成用于接收例如成图像、bcl和/或fastq形式的所产生的序列数据，且可以还被配置成对接收的数据执行一级(例如，图像处理)和/或二级和/或三级处理分析，例如序列分析管线。举例来说，云可访问的服务器可以是包含cpu和/或gpu的一个或多个服务器，所述cpu和/或gpu中的一个或两个可以与例如fpga或asic等集成电路相关联，如本文中所述。具体来说，在某些实例中，云可访问的服务器可以是量子计算服务器，如本文中所述。具体地，云可访问的服务器可以被配置成用于对接收的数据执行一级、二级和/或三级基因组学和/或生物信息学分析，所述分析可以包含在图像处理、碱基调用、映射、对准、分选和/或变异体调用协议中的一个或多个中执行一个或多个步骤。在某些实例中，一些步骤可以由例如cpu或gpu的一个处理平台执行，且其它步骤可以由另一处理平台执行，所述另一处理平台例如为相关联(例如，紧密耦合)集成电路，例如fpga或asic，其特定地配置成用于执行序列分析管线中的各种步骤。在其中数据和分析结果将从一个平台传送到另一平台的此类实例中，系统和其组件可以被配置成用于在传送之前压缩数据，且一旦已传送则解压缩数据，并且因此，系统组件可以被配置成用于产生sam、bam或cram文件中的一个或多个例如用于传送。另外，在各种实施例中，云可访问的服务器可以是量子计算平台，其在此被配置以执行序列分析管线中的一个或多个步骤，如本文所描述，且可以包含根据本文公开的方法中的一个或多个执行一个或多个二级和/或三级处理步骤。此外，关于量子计算，可以与本装置、系统和方法结合使用的示例性量子处理器和其使用方法的细节和实施例描述于以下各项中：美国专利号7,135,701；7,533,068；7,969,805；8,560,282；8,700,689；8,738,105；9,026,574；9,355,365；9,405,876；以及其各种对应案，均以全文引用的方式并入本文中。另外，关于上述人工智能模块，在一个方面中，提供云可访问的人工智能模块，且将其配置成用于可通信地且可操作地耦合到本文公开的bioit管线的其它组件中的一个或多个。举例来说，a/i模块可以与wms密切地合作，以便高效地引导和/或控制本文公开的系统的各种过程。因此，在各种实施例中，提供a/i模块，其中a/i模块被配置成用于充当基因组世界与临床世界之间的接口。举例来说，在各种实例中，bioit系统可以被配置成用于接收临床数据。在此实例中，工作流管理器系统可以被配置成用于接收且分析临床数据和其它此类数据，且对其实施一个或多个相关和/或进一步分析。举例来说，在各种实施例中，本文在此公开的方法和/或系统可以适合于使基因组数据与临床数据相关，所述数据可以包含一个或多个个人健康记录(phr)和/或电子医疗记录(emr)。具体地，如上文中所述，在特定实例中，系统的映射器、对准器和变异体调用器被配置成用于接收例如成fastq和/或bcl文件格式的基因序列数据，且处理接收的基因数据，已处理的数据可以随后存储和/或另外对三级处理模块可访问，例如用于进一步处理。在某些实施例中，系统可以被配置成用于产生或接收基因序列数据。在各种实例中，如所指示，基因序列数据可以直接通过对个体的全基因组或其部分进行定序而获得，例如通过手动或自动(例如，nextgen)dna/rna定序以便确定来自个体的遗传样本中的核苷酸碱基序列。在特定实施例中，基因数据的源可以从公共或专用数据库导出和/或接收，例如从学术和/或商业诊断实验室导出和/或接收。此类定序的基因序列数据可以提供作为电子文本文件、html文件、xml文件和各种其它常规数据库格式，如本文上文所论述。举例来说，基因序列数据可以作为bcl和/或fastq文件接收。一旦获得受试者的基因(例如，核苷酸)序列，它们就可以经受各种不同的生物信息学技术，例如其中这些核苷酸序列可以随后组装在一起以产生受试者的映射和对准基因组序列。具体地，根据本文上文所公开的方法，受试者的基因序列可以映射且对准到相对于静态或动态参考基因组的基因组位置，以便产生映射和对准的基因组序列数据。在各种实例中，此基因组数据不仅包含个体的映射和对准核苷酸序列，而且还可以包含表观遗传信息，例如dna甲基化模式、组蛋白去乙酰化模式及类似信息。此映射和对准序列可以随后与一个或多个静态和/或动态参考基因组序列进行比较，以确定个体的基因组序列如何与参考的基因组序列不同。更具体地，受试者的dna可以经受一个或多个变异体调用协议。举例来说，如上文所描述，变异体调用是识别测试样本的序列读段与参考序列之间的真实差异的方法。变异体调用可以用于以高度的置信度来识别体细胞变异体。举例来说，变异体调用可以用于确定受试者的单核苷酸多态性(“snp”)。snp是当基因组中的单核苷酸在物种的成员之间(或个体中的配对染色体之间)不同时发生的dna序列变异。另外，根据本文上文所公开的方法，可以确定个体的取样序列中的变异体以便为系统提供个体的变异体信息，并且接着此类数据可以与其emr/phr相比较来使用，以确定疾病表现型与其基因谱之间的相关。具体来说，可以分析(例如，可视化)个体的基因组数据，且例如关于可参考一个或多个等位基因的染色体或基因组标注来进行标注。举例来说，染色体是以基因编码的dna的链，且等位基因可以是同一基因的在同源染色体上具有相同的相对位置的任何两个或更多个替代形式。dna是含有基因密码的脱氧核糖核酸。其由两个核苷酸链组成，所述两个核苷酸链成双螺旋且通过腺嘌呤和胸嘧啶以及胞嘧啶和鸟嘌呤的互补碱基之间的氢键接合。受试者的基因组是染色体的完整集合，其包含生物体的遗传物质，且包含基因和dna/rna的非编码序列。外显子组是基因组的由外显子形成的部分，所述序列当转录时在通过rna拼接而移除内含子之后保留在成熟rna内。同样，核酸库是为了特定过程而制备、组装和/或修改的多个多核苷酸分子。在各种实例中，基因组标注信息可以从第三方接收，例如加州大学圣克鲁兹分校浏览器和ensemble基因组浏览器，它们显示基因组的特定区的各种标注。具体来说，ensemble是欧洲分子生物学实验室(europeanmolecularbiologylaboratory)、欧洲生物信息学研究所(europeanbioinformaticsinstitute)和维康信托桑格研究所(wellcometrustsangerinstitute)之间的联合项目。此类基因组数据可呈含有基因(例如，染色体)信息的个体样本的形式。在各种实施例中，基因组数据可以包含一个或多个测量，例如在染色体上的特定位置和/或大体上与基因组有关的至少一个事件(例如，畸变)的测量。此类测量的示例可以包含基因的表达、在特定位置的外显子、基因组的已经获得或丢失的部分的拷贝数目、在特定位置的基因组的甲基化程度、某些启动子对结合到基因组上的特定区域的亲和力等。在一些情况下，可以例如基于选定样本中的事件的发生的频率而计算事件的频率。具体来说，在某些实例中，可能需要例如当与样本的选定群体中的参考样本进行比较时计算畸变的频率，例如染色体拷贝的获得或损失的频率。在其它环境中，可能需要审阅标注或旗标，从而划分与特定染色体区、内含子、外显子、基因或类似物有关的特定信息。此类信息可能包含例如在一个位置中存在何种基因以及所述区域中是否存在已知的拷贝数目多态性(例如，包含此类多态性的列表)等项目。其它项目可能包含关于区域中的微rna和可能的单核苷酸多态性(snp)的存在等等的信息。个体的变异体信息(例如，变异体调用)可以随后经受进一步处理且根据本文的方法使用，以确定或预测个体中的患病状态的发生。举例来说，在本公开的一个方面中，系统可以还被配置成使接收和/或产生的基因组数据与临床数据相关，所述临床数据可以包含一个或多个个人健康记录(phr)和/或电子医疗记录(emr)。举例来说，用以形成此相关的临床数据可以来自大量来源，且可能涉及多种性状，例如一个或多个表现型性状。具体地，表现型性状指代生物体的可观测的特性的复合物，其包含但不限于其形态、发育、生物化学或生理性质、物候学、行为、行为的产物等等。表现型性状还可以包含可观测的疾病性状，例如各种癌、心脏病、年龄相关性黄斑变性及类似疾病。表现型由生物体的基因的表达以及环境因素的影响产生。因此，在各种实例中，本文提出用于使基因组数据(例如，变异体调用数据)与临床数据、emr/phr相关的方法。举例来说，所述方法可以包含识别受试者的基因组数据的一个或多个源，例如一个或多个基因组文件，产生和/或接收基因组数据，例如bam、sam和/或cram文件，且产生用于每一基因组文件的索引文件。在各种实例中，每一基因组文件可以通过唯一did来识别。一旦索引文件产生，就可以例如利用在用于源的源站点处的处理器将其加密和/或传输到中央存放库。另外，所述方法可以包含识别基因组数据的每一源的电子医疗记录(emr)和/或个人健康记录(phr)数据，且一旦识别，方法就可以包含使每一基因组文件与对应emr/phr数据相关。在各种实例中，所述方法可以包含与例如外部存储库等数据库连接，和/或搜索和接收基因组和/或临床数据，所述数据当收集时可以彼此相关。本文还提出用于执行搜索、识别和相关的系统，所述相关例如为用于使基因组数据与临床数据相关。因此，在各种实施例中，系统的组件可以包含以下一个或多个：服务器，包含处理器、数据库、中央存放库和/或存储库站点，用于基因组和/或emr/phr数据的一个或多个源，搜索浏览器，及类似物。举例来说，可以包含一个或多个中央存储库站点，例如其中所述存储库与数据库相关联，例如包含一个或多个基因组、临床和/或索引文件的数据库。所述多个索引文件中的每一个表示加密的基因组文件，例如加密的基因组、emr、phr文件，例如其中所述加密的文件与唯一did相关联，例如其中每一emr/phr文件匹配于具有相同唯一did的基因组文件。此类加密和系统设置对于维持隐私是重要的。浏览器可以被配置成用于例如经由使用一个或多个索引文件搜索所述多个文件。文件(例如，记录和/或索引文件)可以使用任何合适的传送协议从每一产生源传输到存储库，且可以在染色体层级、外显子组层级、基因层级、等位基因面板、在个体snp或任何相关层级处是可搜索的。服务器可以是多个服务器，例如在临床数据的中央存储库的服务器，和/或在基因组数据的中央存储库的服务器，和/或在例如代理站点处的代理服务器等第三站点的服务器。在各种实施例中，每一基因组文件和每一临床文件和/或每一索引文件可以根据相应唯一did识别符而存储为多个可搜索的文件的部分，例如其中每一emr/phr和/或基因组数据具有唯一did。所述方法因此包含识别每一相应源处的电子医疗记录(emr)和/或个人健康记录(phr)数据。每一emr/phr数据匹配于所述多个基因组文件中的基因组文件。受试者的emr/phr数据可以包含受试者的一般健康记录、医疗程序记录、过敏、疾病及类似情况。emr/phr/基因组数据可以被加密和/或编索引且远程或本地存储。举例来说，远程存储站点可以是用于存储巨大数据的仓库，或可以是不需要大存储资源的本地存储数据库。在各种实例中，集中式代理服务器仅需要维持可容易搜索的多个索引文件。此外，基因组/emr/phr数据的处理可以在站点或存储和/或数据产生中执行。因此，所述方法还可以包含例如使用浏览器搜索所述多个可搜索的文件，所述浏览器例如与代理服务器相关联的浏览器，和/或使每一基因组文件与对应emr/phr数据匹配。应注意，加密文件的所有者控制对文件的访问，且可以例如通过did而在整个系统中跟踪所有文件和其访问。举例来说，此处产生的基因组数据可以包含变异体调用数据，例如受试者vcf文件，所述文件可以被编索引且存储为一个或多个索引文件，例如加密的索引文件。did是去除识别的识别符，例如唯一id令牌可以是任何合适的加密数据源，以便不包含容易可访问的识别信息，例如患者的电子邮件、电话号码、出生日期、zip等。可以将did号码提供给每一索引文件以维持隐私和匿名。举例来说，加密算法可用于产生用于索引文件的did，且可以是用于对emr/phr数据进行加密的相同算法，并且因此文件可基于did号码来匹配。因此，在某些实施例中，提供用于具有隐私控制的基因组可视化的系统。系统可以包含一个或多个中央存放库站点、一个或多个基因组数据源、一个或多个emr/phr数据源、一个或多个搜索实体，以便允许系统用户和/或基因组数据和emr数据的数据所有者访问系统，搜索数据，且检索其相关记录。在一个实例中，中央存放库站点可以充当已经产生基因组数据和/或emr/phr数据的源和/或利用所述信息用于学术、商业和其它目的的多个搜索者之间的数据代理。搜索实体可以是例如大学、生物技术公司、医院及类似者的研究人员，其中所有者可以控制对未加密数据的访问，且可以在数据分布到搜索实体时跟踪数据。因此，在特定实例中，所述方法可以包含使在一个站点产生的基因组数据与在另一站点产生的临床数据(例如，emr/phr数据)相关。因此，所述方法可以包含识别和/或激活一个或多个基因组数据产生源，其可以包含接收遗传样本，对其进行定序和/或处理以便产生例如成一个或多个变异体调用文件的形式的基因组数据。一旦基因组文件产生，就可以被加密、编索引、(本地)存储和/或传送例如用于远程存储，例如一个或多个文件。在此实例中，所述多个基因组文件中的每一个可以被给定唯一did且用所述唯一did来识别。同样，可以识别和/或激活用于电子医疗记录(emr)和/或个人健康记录(phr)数据的一个或多个源，例如用于临床数据的产生和/或检索。每一emr/phr数据也可以被给定唯一did，其方式为使得每一emr/phr数据匹配于对应基因组文件。因此，以例如此方式，每一基因组文件可以与对应相关联emr/phr数据相关。系统管理员、临床医生、加密文件的所有者和/或具有适当权限的某人可以设定访问权限以便控制对加密文件的访问，且系统可以跟踪对加密文件的访问。因此，如本文所公开，bioit系统可以不仅被配置成用于接收临床数据，而且在各种实例中，系统可以还被配置成使例如由系统产生的基因组数据与由系统接收和/或产生的临床数据相关。举例来说，工作流管理器系统可以被配置成用于实施一个或多个确定性的规则系统，以便依据其对基因组和/或临床数据的分析导出结果数据。举例来说，在某些实施例中，系统的各种数据库可以被配置以便具有关系架构这些构造可以由一个或多个表结构表示。举例来说，可以随后采用一系列表，通过所述表可以迭代方式由wms做出相关。举例来说，在各种使用模型中，可以相对于具有医学病况的受试者的姓名做出第一相关。随后可以使用另一表使受试者的医学病况与其药物相关。同样，可以使用又一表来使药物的进展相对于症状的缓解和/或疾病自身进行相关。可以使用密钥来相关表，可以响应于问题提示或命令来访问所述密钥。密钥可以是任何常见的识别符，例如姓名、号码，例如社会保障号码、税收标识编号、雇员号码、电话号码及类似物，由此可以访问、相关所述表中的一个或多个和/或回答问题。在无所述密钥的情况下，在一个表中的信息与另一表的信息之间建立相关变得更困难。因此，提出了用于回答查询的数据结构，其中数据架构可以被结构化且响应于查询而搜索。在典型架构中，数据库可以是关系数据库，例如结构化查询语言(structuredquerylanguage，sql)数据库，其可以经由关系数据库管理系统(wms)实施。举例来说，在一个实施方案中，sql数据库可以是基于文档的数据库，例如其中例如查找表(lut)的一个或多个表形成结构，在所述结构中数据可以被存储、搜索、确定关系和回答查询。具体来说，在各种实施例中，可以呈现、搜索和使用基于文档或表的数据库以确定关系，可以从所述关系确定对一个或多个查询的答案。举例来说，通常，sql数据库具有关系架构。这些构造可以由表结构表示。举例来说，可以随后采用一系列表，通过所述表可以迭代方式做出相关。举例来说，相对于本文所论述的基因组学分析，可以相对于受试者的did且相对于如其emr/phr中所阐述的其临床简档(例如，医学病况)做出第一相关。可以随后使用另一表使受试者的医学病况(emr/phr)与其基因组谱和/或将处方的药物进行相关。同样，可以使用又一表使药物的进展相对于症状的缓解和/或疾病自身和/或对其的基因响应进行相关。受试者的did可以充当可用于相关表的密钥，可以响应于问题提示或命令而访问所述密钥。具体地，密钥可以是受试者的did，或可以是任何常见的识别符，例如姓名、号码，例如社会保障号码、税收标识编号、雇员号码、电话号码及类似物，由此可以访问、相关所述表中的一个或多个和/或回答问题。可以用于结构化数据库的又一数据架构是数据树，其中各种数据元素可以压缩但相关方式存储，和/或存储于散列表中，如上文中所述。然而，在各种实施例中，这些数据结构可能不太理想。因此，在其它实例中，基于图的架构可以被结构化且用以确定一个或多个查询的结果。具体来说，可以使用知识图架构来结构化数据库，以便增强使用所述数据库执行的计算分析的性能。具体来说，本文公开的复杂算法适合于结构化关系数据库的基础结构以便例如经由执行基于图的分析而实现更高效且准确的搜索，以及用于执行基于表或树的分析。因此，在一个方面中，提供用于建置例如本文所描述的可搜索的关系数据结构的装置、系统和其使用方法。具体地，在一个实例中，可以采用本文公开的机器和方法以便产生和/或另外收集数据，例如关于二级和/或三级处理的结果数据。更具体地，在第一实例中，本文公开的机器和方法可以用于产生bcl、fastq、bam、cram、sam和/或vcf数据中的一个或多个，且在第二实例中，本文公开的机器和方法可以用于产生用于以关系架构存储所述数据的可搜索的数据结构。在各种实例中，可以产生额外数据或例如经由合适配置的api另外传输进入系统，所述数据也可以被配置成用于以关系数据结构存储，例如其它基因组学、基因和/或其它临床数据。举例来说，在本公开的另一方面中，所述系统可以包含人工智能(a/i)模块，其可以被配置成提供对产生的和/或提供的数据的更全面分析。举例来说，a/i模块可以被配置以便对系统的数据实施一个或多个机器学习协议，所述协议被设计成教示ai模块在例如由系统产生的基因和/或基因组数据与一个或多个受试者的例如在emr和输入到系统中的其它临床上相关数据方面的临床积累之间做出相关。具体地，a/i模块可以被配置成用于接收一个或多个输入且可以适合于建置和结构化数据库。举例来说，在第一步骤中，可以收集、清洁并且接着准备数据用于分析。在各种实施例中，可以例如关于元数据来标记和/或分类数据。举例来说，可以实施侧录器以用于结构化数据库的目的，例如用于对数据库提供关系结构。且一旦数据库被结构化，就可以随后根据确定或推断的关系以数据填充数据库。在某些实例中，可以采用如本文所公开的机器学习协议以便确定进入数据库的数据点之间的关系。此类关系可以基于已知事实而确定，并且因此，学习可以是受监督的学习，例如其中根据一个或多个类别和/或标签将进入数据库的数据分类。具体来说，可以使用已知因数来标记、分类和存储数据，所述因数可以通过正寻求回答的查询来告知。因此，知道将用以对正存储的数据进行标记和分类的因数使建置存储架构更高效。在其它实例中，可以例如在非监督学习中推断学习。举例来说，在某些实例中，可能不知道将存储的数据，可能未确定数据之间的关系，且也可能未识别将回答的查询。在此类实例中，将存储的数据是无监督的，并且因此，可以确定将存储的数据和其关系的模式，例如数据点之间的共性，且一旦确定，则此类模式可以随后用于形成结构化数据存储的架构。举例来说，在各种实施例中，a/i模块可以包含针对训练系统的编程，以更快速(例如，即刻)辨识如何基于所接收输入的类型和特性而实现输出。系统因此被配置成用于从其接收的输入和其输出的结果进行学习，以便能够基于所接收数据的初始输入更快速且准确地得出相关。通常，输入数据可具有两个一般类型。在第一实例中，数据可具有其中输出(例如，答案)已知的类型。此类型的数据可以输入到系统中且用于训练目的。第二类型的数据可以是其中答案未知并因此必须确定的数据。此数据可以是任何形式的数据，但在各种实例中，可以是将做出分析的基因组数据；或其可以是将确定临床上相关结果的临床数据。此数据可以用于增强a/i模块从第一类型的输入数据学习的能力，以便较好地预测第二种输入数据的结果。具体地，基于历史证据，a/i模块可以被配置成学习基于先前观察的数据预测结果。更具体地，本文提出临床基因组学平台，其中所述临床基因组学平台被配置成使疾病的临床结果与基因组学数据相关。在此实例中，受试者的临床简档可以输入到系统中，且可以连同其确定的基因组谱一起评估。具体来说，在组合这两个数据集时，a/i模块被配置成用于确定其之间的各种相互关系。因此，在a/i平台的核心处是图数据库，其被配置成用于接收来自多个不同源的数据，例如来自基因组信息、临床信息和根据本文公开的系统和方法有用的任何类型的其它数据的源。如上文所描述，此类数据可以由系统例如从存储电子医疗记录的临床数据存储设施、诊所、医疗机构、例如来自fitbit的生物监视器和/或生物跟踪装置或其它此类跟踪器和/或其类似装置产生和/或接收。如所指示，系统可以被配置成用于在一个或多个学习协议中采用接收的数据例如用于机器学习。举例来说，通过训练系统即刻辨识如何基于所接收输入的类型和特性而实现输出来进行机器学习。因此，本系统被配置成用于从其接收的输入和其输出的结果进行学习，以便学习基于所接收数据的初始输入更快速且准确地得出相关。因此，系统接收其中结果已知的第一数据集，且此数据由系统采用以产生一个或多个规则，通过所述规则可以获得结果，且一旦获得则与已知结果进行比较。因此，系统被配置成训练自身以更准确地(例如，具有较少错误肯定)且更高效地较好辨识数据库内的数据点之间的相关，且做出预测性结果。以此方式，机器学习算法可以学习行为，确定准确性，且可以由人工智能模块使用以关于回答一个或多个搜索查询而分析另外的样本集合，所述查询例如为需要a/i模块推断节点或数据集之间的相关的查询。因此，一旦a/i机器学习表现，则学习的表现可以随后应用于第二类型的数据，例如推断引擎，其用以回答一个或多个未知的变量。机器从第一类型的输入数据学习越多，推断引擎在预测第二种输入数据的结果时就越好。更具体地，基于历史证据，人工智能模块可以被配置成学习基于先前观察的数据预测结果。相对于系统的基因组学和/或临床数据，本临床基因组学平台被配置成使疾病的临床结果与基因组学数据相关。在此实例中，将受试者的临床简档连同其确定的基因组谱一起评估。然而，为了组合这两者，确定其相互关系。因此，在第一步骤中，可以构造图数据库或知识图。举例来说，在此实例中，知识图可以包括三个典型元素，其基本上包含主题、谓词和对象，这些可以形成节点，且必须确定节点之间的关系。任何特定数据点可以被选择为节点，且节点可以基于正执行的查询而变化。存在可确定的若干不同类型的关系。举例来说，关系可以基于其效果而确定，例如它们是基于效果的；或它们可以基于推断而确定，例如未知但可确定的关系。具体来说，每一效果和/或关系的特征可在于不同性质，所述性质可以用于产生权重、概率、做出假设及类似情形。此类性质可以用于以可形成图的节点的数据点填充知识图。更确切地说，为了较好地确定因果和/或可预测结果，可以例如基于确定性程度、共性的数目、共享节点的实例的数目、共同关系的数目及类似物而对各种不同关系进行加权。在各种实施例中，可以形成纲要，例如其中所述纲要是用以对图给出结构的架构。因此，动态知识图的构造和实施方案是临床基因组学处理平台的核心。举例来说，相对于构造知识图，任何特定数据点可以形成节点。举例来说，在图的一侧上，疾病状况可以形成节点，且在图的另一侧上，例如变化序列的基因型可以形成节点。这两个节点之间可以是第三节点，例如一系列第三节点，例如一种或多种症状、一种或多种药物、一种或多种过敏、一个或多个其它状况或表现型性状，例如血压、胆固醇等。另外，这些节点之间是可以确定的关系。具体地，当建置知识图时，例如从医疗记录设施输入到系统中的临床数据，例如电子医疗记录、医学病况的家族历史等，可以被加密且以电子方式安全地传送。同样，来自受试者的基因组数据可以根据本文阐述的二级处理步骤而定序和产生。此外，一旦这两个节点已经建立，就可以将一个或多个第三节点输入到系统中，从其存在可以确定两个原始节点之间的关系。举例来说，在一个实例中，第一节点可以由人或人的群体的医疗记录表示，且第二节点可以由疾病特性表示。在此实例中，一个或多个第三节点可以输入到系统且在图内产生，例如其中第三节点可以是药物治疗；身体、生物、精神、状况和/或特性；过敏；地理区；饮食、食物和/或配料；环境条件；地理条件；电力线、蜂窝塔；和/或类似物。可以随后通过分析这三个项目之间的各种连接点来确定一系列关系。具体来说，在特定实例中，一个节点可以表示患有疾病状况的患者，第二节点可以是所述患者的基因组数据，且第三节点当中可以是患者的基因组变异，例如受试者的突变、逐个染色体、其药物治疗、生理条件及类似情况。同样，此过程可以针对具有相同诊断和/或病况的多个受试者进行重复。因此，以例如此方式可以确定临床和基因组学世界之间的相关。因此，在建置临床基因组学图中的步骤是定义锚节点，这些锚节点表示两个限界元件，在所述两个限界元件之间定义和探索所有各种共性。因此，又一步骤是定义所述两个锚节点之间的所有可能的已知对应性，其可以在图中表示为第三节点。这些已知对应性可以围绕详述一个节点或另一节点造成的影响和/或特性来建立。这些可以形成节点之间的已知和/或可观测的关系。从这些已知关系，可以探索和/或确定第二类型的关系，所述关系可以基于推断而建立。此外，为了较好地确定因果和/或可预测结果，可以例如基于确定性程度、共性的数目、共享节点的实例的数目、共同关系的数目及类似物而对各种不同关系进行加权。因此，动态知识图的构造和实施方案是临床基因组学处理平台的核心。如所指示，全局系统的各种处理平台可以耦合在一起，以便在其各种组件之间无缝地传送数据。举例来说，如所指示，映射、对准和/或变异体调用管线可以被配置成用于将其数据(例如，结果数据)传输到人工智能模块。具体来说，a/i模块可以被配置成用于从二级处理平台组件中的一个或多个和/或系统的其它组件中的一个或多个接收数据输入。更确切地说，a/i模块被配置成用于从映射器、对准器和/或变异体调用处理引擎接收映射、对准和/或变异体调用数据，且用于取得所述数据并使用所述数据产生知识图内的一个或多个节点。此外，如所指示，a/i模块可以被配置成用于从一个或多个其它源，例如从医疗办公室、医疗保健服务提供商、研究实验室、记录存储设施及类似的源接收输入数据，例如其中所述记录包含关于一个或多个受试者的身体、精神和/或情绪健康状况的数据，且用于取得所述数据并使用所述数据产生知识图内的一个或多个节点。另外，一旦已构造知识图架构，就可以通过将越来越多的相关数据添加到知识结构中来连续地更新和增长所述知识图架构，从而建立越来越多的潜在节点和/或关系。在此实例中，限界节点可以是节点的任何组合，并且因此，在某些实例中可以是用户可选的。举例来说，在各种实施例中，系统可以被配置成可以由第三方访问。在此实例中，用户可以例如经由合适配置的用户界面访问a/i模块，将相关信息上载到系统中和/或例如通过点击或拖放相关节点而确定用来限定查询的相关节点，且可以制定a/i模块将回答的相关问题。因此，用户可以审阅和/或选择限界节点，并且接着允许系统采用选定节点产生适当的知识地图，且确定节点之间的关系，从所述关系可以例如由a/i系统查询和回答或至少推断各种查询。举例来说，在一个使用模型中，用户可以是希望知道某一药物剂量相对于给定疾病如何影响患者的医生。因此，医生可以上载患者的emr、疾病状况和药物剂量，且通过此数据a/i模块可以产生合适的知识图(和/或添加到已经存在的知识图)，从所述知识图可以选择限界节点且确定关系。此外，在各种实例中，用户可以上载患者的基因数据，所述数据可以经受二级处理，以及其结果，例如映射、对准和/或变异体调用结果数据，且上载到a/i模块中。在此实例中，疾病和/或emr和/或家庭病史数据可以与基因组数据相关，从所述数据可以确定各种关系、评估推断且做出预测。具体地，医生可以对受试者执行一个或多个临床上相关的测试，将数据输入到患者的电子医疗记录中，且例如以突发或流式传输方式将受试者的emr、疾病状况和药物剂量上载到系统，例如其a/i模块。通过此数据，a/i模块可以产生合适的知识图(和/或添加到已经存在的知识图)，从所述知识图可以选择限界节点且确定关系。用于药物剂量计算的工作流可以被处理，例如先前嵌入于系统内或输入到系统中，可以随后运行查询，且可以对所述数据发起预测模型以确定关于所产生的处理对个体的个人特性是特定的一个或多个相关查询结果。具体来说，由于每个人的新陈代谢大体上彼此不同，因此在给定时间周期内到达最大功效所需的药物的剂量对于每一个体将是不同的。因此，本系统可以是可配置的，以便在基因方面(例如，从由本文公开的系统执行的基因组分析)和/或在表现型方面(例如，从医生上载到系统中的临床数据)考虑个体的个人特性，所述特性数据可以随后由a/i模块采用以便确定一个或多个相关和/或关于其执行一个或多个计算，且进而导出和报告可以随后对受试者适当地施用的一个或多个药物的准确剂量以用于病况的治疗和/或预防。另外，也可以考虑受试者的基因谱。举例来说，医生或系统自身可以上载受试者的基因数据，例如dna和/或rna，所述数据可以经受二级处理，且其结果，例如映射、对准和/或变异体调用结果数据，可以上载到a/i模块中。在此实例中，患者的临床数据，例如疾病和/或emr和/或家庭病史数据，也可以上载到系统中且可以填充到系统的知识图中，由此各种节点可以被识别和/或与基因组数据相关，从所述相关可以确定各种关系，评估推断，执行计算，且做出和/或报告预测。并且，由于本系统和其方法能够传输和产生结果数据的快速性，系统可以容易地适合于提供护理点装置和服务。具体地，可以获得受试者的dna/rna，输入到系统中和/或另外进行定序且上载到本文公开的bioit平台中。此vcf数据可以输入到系统中，且因此用以形成系统的一个或多个节点，例如其中每一节点包括一个或多个性质，例如所有确定的基因和/或染色体性质可以上载到系统中。以此方式，此数据以及任何其它相关数据，例如患者的emr数据，连同与待分析的特定查询相关的所有性质一起可以上载到系统中且用以形成节点的群集，所述节点可以用于例如通过查询系统且允许系统产生可以从中推断答案的适当连接而确定与受试者有关的各种关系。另外，系统可以被配置成用于从一个或多个受试者接收可能彼此相关或不相关的多个基因组简档。受试者的vcf可以由系统接收或产生,例如所有确定d染色体性质可以例如作为节点的群集而上载，所述节点可以用于例如通过查询系统且允许系统产生可以从中推断答案的适当连接而确定与受试者中的没有任一个或多个相关的各种关系。更具体地，一个或多个受试者的表型特性，例如人表现型本体，可以上载到系统中，以便产生节点的又一群集。举例来说，当两个人的基因组和/或病史被输入系统中时，其之间的任何关系可以由a/i模块确定，例如关于共同基因型、表现型、状况、环境、地理、过敏、种族文化背景、药剂及类似情况来确定。具体来说，此类数据，例如一个或多个受试者vcf和/或emr(phr)数据，可以构成进入系统的各种输入。更确切地说，受试者的整个vcf，例如其基因变化的整个特性，连同其伴随的性质一起可以上载到系统中，且可以用于形成填充知识图的节点。同样，患者的其emr/phr的相关部分和/或其它相关临床数据可以连同其伴随性质一起输入到系统中，且可以用于进一步填充知识图。一旦以例如此方式填充，就可以对数据运行一个或多个查询以便隔离各种子简档，可以随后挖掘所述子简档以找到相关关系和/或相关。更具体地，一个或多个受试者的表型特性，例如人表现型本体“hpo”，可以上载到系统中，以便产生节点的又一群集。举例来说，当两个或更多个人的基因组和/或病史和/或hpo输入到系统中时，其之间的任何关系可以由a/i模块确定，例如关于其之间共同的基因型、表现型、状况、环境、地理、过敏、种族文化背景、药剂及类似情况来确定。可以随后确定受试者的两个或更多个特性之间或受试者之间的关系。举例来说，以如此方式，例如通过使患者的临床(例如)表现型数据与其基因(例如，变化)数据相关，受试者的表现型特性可以与其基因型构成相关。这可以针对单个受试者或例如形成受试者群体的多个受试者完成。更确切地说，在一个使用模型中，系统可以确定两个性质之间的关系，例如性质a：受试者的收缩血压，和性质b：受试者的舒张血压。具体地，每一性质的一系列历史读数，例如收缩压和舒张压读数，可以输入到系统中，例如每一性质1,000个读数，由此系统的机器学习平台可以分析所述读数，和/或确定所述两个性质之间的一个或多个相关和/或关系，以使得如果给定性质a(例如，收缩压)输入被输入到系统中，那么可以推断预测性质b，例如舒张压，其中考虑了两者之间的预测权重。在此实例中，当参考性质a和b评估输入时，两者之间的关系可以由人工智能处理器确定，以使得如果给定性质a的新输入，所确定关系可以随后用以预测性质b的结果将是什么，前提是所述两个性质事实上是数学相关的。因此，此机器学习关系可以用于确定所述两个性质何时彼此对准，例如一切都正常运行，并且可以进一步用于确定事情何时未对准运行，例如何时未观察到预测结果，且因此指示它们是成问题的状态。应注意虽然先前示例是关于血压给定，但在单个受试者内，同样将适用于例如关于大量受试者和/或多种条件彼此成数学关系的任何给定节点。然而，在某些实例中，两个或更多个性质之间的关系不是线性的，而是可能是更复杂的。举例来说，在某些实施例中，人工智能模块可以被配置成以类似于神经网络的方式，例如在深度学习协议中对更复杂的关系处理进行建模。因此，虽然在一些实例中，关系可以以线性阵列配置，以便形成性质之间的直接联系，但在其它实例中，关系可以在彼此之上分层以便形成信息的堆叠(例如，神经)网络。因此，在特定实例中，关系可以以大量的级和/或层级形成，其中例如在深度学习协议中一个信息层级连接到下一信息层级。另外，从一个层级到另一层级的各种性质之间的关系可以被加强，并且因此由所使用的机器学习协议给出较大权重，或者被减弱，且因此被给出较少权重。因此，在跨越系统的不同层级中的性质处理和分配信息时，在每一阶段，对多种不同点给出越来越大的权重，以使得当给定特定输入时，a/i模块可以更准确地基于经加权历史信息的各种不同层级更高效地预测给定结果。举例来说，a/i系统可以被适配以便以分层或多阶段方式处理信息，例如用于深度学习的目的。因此，系统可以被配置成以多个阶段评估数据。具体地，a/i模块可以被适配以使得在其检查各种数据时，例如当逐个阶段执行学习协议时，数据之间的每一连接由系统例如基于关系的历史证据和/或特性而得到加权。在系统内发起的学习阶段越多，接合点之间的加权越好，且学习越深。此外，以多个阶段上载数据允许系统内的数据的较大收敛。具体来说，也可以采用各种特征提取范例以便更好地组织、加权和分析将上载的数据的最突出特征。另外，为了更好地使数据相关，一个或多个用户可以输入和/或调节基本加权函数，而系统自身可以采用基于主动学习协议的更高级的加权函数。具体来说，可以采用深度学习协议来训练和实施如本文所论述的本公开的搜索功能。更确切地说，深度学习是其中采用数据集的增加层级来产生查询的答案的范例。如果仅涉及一个学习阶段，当回答查询时，网络架构可以被配置为神经网络。然而，如果确定实施多阶段学习过程，当导出查询的答案时，所述架构可以被配置为深度学习网络。在每一阶段包含权重的情况下，存在的阶段越多，学习将越深。然而，对于添加的每一阶段，使数据收敛所需的计算能力变得越来越大。具体地，对于正处理的每一额外数据集合，产生另一节点，其增加未来处理能力的水平。关于本公开，当运行深度学习协议时，过程首先实施特征提取协议，其中提取突出特征且与存储于先前所提取特征的数据库中的相似特征相比较来考虑，例如其中每一特征表示可以分类到一个或多个标签中的特性，所述标签可以用于辨识模式，由此机器因此可被训练以辨识那些模式在其它表示中的复发，且进而基于那些辨识的模式得出结论性预测。因此，为了执行机器学习，将需要功能库。这例如在情况下是有用的：可以识别例如图像或视频的锚点表征，且后续分析或分布不涉及整个后续表征的分析或分布，而是仅与从锚点的任何差异或发散有关的数据。这被称为特征提取、锚点表征的优先分析，或在一些实例中仅被称为差量。因此，在各种实例中，本文公开的方法是针对使用标签(例如，指针)来分类和结构化数据库，例如用于在人工智能模块中使用以分析其中的数据。在此类机器学习中，可以首先清理数据且准备用于特征提取，例如基因和/或临床和/或其它重要数据的特征提取。具体地，用于提取的此类特征可以包含bcl或fastq文件、bam、cram、sam文件以及其它特征，其可以用于加速基因组和表现型数据两者的处理以便更高效且准确地确定基因身份与表现型结果之间的相关。拼接点也可以用作用于提取的特征：举例来说，拼接的分化调节dna转录的方式以及蛋白质如何被配置和起作用。具体来说，拼接的百分比可以决定疾病表征。更确切地说，由突变造成的遗传病的高达60％可能与拼接过程中的缺陷有关。另外，造成突变的疾病的几乎1/3更改了拼接位点，进而导致异常的外显子组跳过。疾病相关联的变异体的几乎45％是在内含子中，且其中大多数被认为模拟了由替代性拼接模式中的偏差组成的拼接模式的模型。拼接的百分比也可以被测量且可以被视为其特征中的一个，例如用于替代性拼接。此类变异可以从bam/vcf文件提取，且可进而产生拼接点库，其可以关于个体、个体的群组、群体而捕获，且可基于一个特征、多个特征等，进而在数据将进入系统时建置特征库。且一旦数据处于系统中，必须训练机器以建置图组装，以便产生潜在的对应性水平。如所指示，a/i系统可以被配置成用于回答例如来自例如医生或医疗研究人员等第三方的查询。因此，当执行a/i存储库或数据库的搜索功能时，数据库可以被配置为关系数据库，其中所述数据库的架构使得其被构造成表，或所述架构可以被配置成使得数据以例如知识图的图形式存储于其中，如上文所描述。另外，当执行数据库的搜索时，所述搜索可以是基于效果或基于推断的搜索查询。基于效果的搜索通常是其中结果已知和/或预期的搜索，而在基于推断的搜索中，结果是未知的。虽然基于表的搜索是有用的，但其是基于由表分类的已知关系，可以通过使用已知密钥来搜索所述表。此类搜索大体上是基于效果的搜索，其中答案是已知的，且仅需要例如经由使用密钥来识别与其查询的关系。另一方面，基于推断的搜索是其中两个数据点之间的关系是未知的，但将相对于其它关系和那些关系的规则基于知识图的建立和系统的学习而确定，允许发现新关系且确定原本未知的结果。因此，知识图的产生和实施方案是基于推断的学习纲要中的当前搜索功能的核心，如本文中所述的机器学习和人工智能引擎主要建立于所述学习纲要纸上。因此，在数据流入数据库时，其被调配到这些或另一此类结构中的一个或多个中，且数据例如在其与其它数据的关系已知的情况下可以随后用于训练系统的搜索功能以确定数据点和/或数据点之间的关系，其中关系在此之前是未知的，即不需要密钥来确定关系的存在。具体地，一旦通过训练过程已经确定已知关系，则新训练的系统和开发的规则可以随后用于以一概率推断数据点之间的迄今为止未知的其它关系，所述概率建立了推断的关系事实上是实际关系的预测。因此，如上文所阐述，本文所公开的系统可以用于从不同源接收数据，一方面例如临床数据，例如一个或多个受试者的一个或多个电子医疗/健康记录，以及另一方面例如从本文中所公开的二级过程导出的基因组数据，进而使临床和基因组世界相关。以此方式，受试者的emr可以作为一组数据点输入到系统中，且同样受试者的基因组数据也可以输入到系统中，且此数据可以用于建置知识图，由此可以确定已知和推断的各种关系。这可以针对一个或多个受试者完成，其中关系和从其的学习可以用于确定已知结果，例如用于训练系统，且一旦经合适训练，系统就可以随后采用这些学习来确定迄今为止未知的关系以便从其推断结果。因此，已知的事实和关系可以用于训练a/i引擎，所述引擎一旦经训练就可以确定可用来确定未知关系的规则，且可以例如通过系统的合适配置的推断引擎来推断和/或另外确定基于那些关系的结果。更确切地说，受试者的医疗信息和/或健康记录可以作为数据输入到系统中，如上文所描述，且可以用于产生知识图。由于此数据已通过医学检查确定，因此此数据是已知的，并且因此是基于事实的数据。举例来说，此类数据可以例如通过呈现在定位于医生办公室或类似地方内的系统的客户端计算机上的图形用户界面输入到系统中。以此方式，来自一个或多个受试者的一个或多个医疗记录(例如，临床数据)可以例如通过远程接口输入到系统中。临床数据可以是具有临床意义的任何数据，例如医疗或健康数据、疾病相关数据、药物治疗或处方数据、牙科历史、过敏数据及类似数据。所述数据还可以包含供体的特性数据，例如供体性别、年龄、体重、其它身体特性数据及类似数据。所述数据，例如供体数据，可以被加密且与去除识别的识别符(did)相关联，以便使供体的个人识别信息保密。同样，如本文上文所论述，供体的基因数据也可以上载到系统中或由系统产生，且可以随后根据本文公开的方法与其基因组数据相关，所述基因组数据例如由系统产生的基因组数据。基因组数据可以包含其变异体调用文件，例如突变数据，以及其它相关基因组信息，如本文所公开。此外，在各种实施例中，供体数据可以来自多个供体，例如来自一个群组或多个群组、一个社区或多个社区、来自一个群体或多个群体，及类似情形。在各种实例中，系统可以被配置成使得此数据可以从一个或多个源自动上载到系统中。因此，a/i系统服务器，例如推断引擎实施方案，可以远离临床和/或基因组数据上载到系统中所来自的位置而定位，但可以如本文中所描述根据混合云配置而在本地或远程地访问。此数据用于许多目的，一个此类目的是a/i引擎的训练，和/或其在一个或多个预测性模型中的使用。在此类训练中，可将已知关系和结果视为好像它们是未知的，且因此可以使机器确定关系且再次预测结果，所述训练可以继续直到系统已学会预测正确结果为止。具体来说，此训练，例如两个类模型训练可用于数据的子部分，例如50％，训练部分，且其它数据可以用于测试从训练部分的学习以关于数据的其它50％预测已知结果。因此，数据的第一部分可以用于开发训练模型，且数据的第二部分可以用于测试训练模型以增强预测模型的准确性，所述预测模型一旦充分训练就可以用于做出其它推断且进而预测其它结果。举例来说，一旦经训练，推断引擎就可以用于响应于用户输入的查询而搜索数据库，且基于系统的各种数据之间的已知和/或推断关系可以推断所述查询的答案且预测结果，例如，给定请求可以输入到系统中，且可以随后由系统基于数据之间的关系而产生答案。除查询之外，一个、两个、三个或多个输入可以输入到系统中，且系统可以确定且返回输出。举例来说，受试者(例如，供体)的突变谱可以与其临床数据相关，且上载到来自其它受试者的潜在相关数据的数据库中，由此系统可以执行一个或多个受试者的临床和/或基因组数据之间的比较，例如用于预测模型的训练和/或开发。具体地，如上文所述，输入到系统中的数据可以用于训练系统，且一旦经训练，系统就可以用于例如响应于查询而由此做出一个或多个相关或预测。因此，在各种实例中，系统可以包含例如被配置为神经网络的推断引擎，其适合于接收多个输入，执行数据的分析，且产生各种数据点之间的一个或多个相关。在特定实例中，系统被配置成用于允许例如经由通过客户端计算机访问的基于云的接口而远程访问推断引擎。一旦被访问，就可以将关于特定受试者的信息上载到系统上，或者如果已经上载则可以通过其did来访问。举例来说，一旦上载，系统就可以将受试者的数据馈送到相对于所关注的给定群体的系统的知识图中。具体地，系统可以接收受试者的数据，且基于数据的初始分析可以关于数据可以适合的一个或多个群体来标记和存储数据。此分组可以基于若干特性而做出，包含年龄、体重、性别、医学病况、处方药物或治疗、基因和/或临床谱(emr/phr)、人口统计(国籍、种族/宗教背景、性倾向等)及类似特性，所述数据可以上载到系统中，且可以关于所关注的所界定群体中的他人充当用于产生知识图的节点，其中每一节点可以由若干性质定义。一旦已定义相关群组且在知识图内表征相关性质，就可以随后采用推断引擎以便确定各种数据点和/或其特性之间的已知相关和推断相关。此类推断可以自动执行，或响应于输入的查询而执行。具体来说，在一个使用模型中，医生可以经由在他的办公室的计算机的图形用户界面访问推断引擎，他可以上载受试者信息，所述信息可以被加密且传输到中央存储库，例如服务器系统，其可以接收编码的数据，将数据解密，且通过从具有对应相关特性的其它受试者拉动数据以便产生图的节点而使用所述数据建置知识图。医生可以随后输入用以发起数据库的搜索的查询，且推断引擎响应于所述查询可随后定义相关节点之间的关系，且形成那些已知关系，返回答案，或者产生(例如，推断)另外迄今为止未知的关系，由此可以确定答案且连同关于返回的答案预期的准确程度的预测性质量评分(例如，置信度评分)一起返回给医生。基于置信度评分和/或其它相关因数，推断引擎用来定义知识图中的特定节点之间的各种关系的规则可以被调整为关于当做出给定预测模型时何种数据点和哪些关系将被视为有效的方面更严格或更宽松，例如哪些节点可以被视为对象，哪些可以被视为主体和谓词，且哪些可以被相关作为对象。因此，以例如此方式，一旦受试者的基因和/或基因组谱已知，此数据就可以与其临床谱(例如，emr/phr)关联使用，以便例如基于其基因谱而确定关于将施用的药物和/或剂量及类似物的特定药物处方或其它治疗方案将对此特定受试者具有的有效性，其可以进一步与具有相似基因简档、医疗记录或其它相似条件的其它已知或未知的受试者相关地确定。当形成对应节点的个体之间，例如家庭成员和/或可能或可能不患有相同或相似医学病况和/或可能在相同或相似治疗方案上的人之间存在强基因关系时，所述系统特别有用。此类关系加强了节点之间的关系，且两个节点之间的关系的数目还可用以当在给定节点之间的推断关系之间做出预测时加强置信度。因此，一旦各种关系已经定义且加权，就可以做出例如呈“如果”/“那么”语句的形式的预测性查询，例如其中医生将查询输入到系统中，且推断引擎通过采用预测模型例如基于概率展望来产生所得结果而确定语句的“那么”部分。如上所述，以例如此方式，医生不需要访问用于任何其它受试者的识别信息，除了它们当前代表的受试者。因此，医生可以输入其受试者的状况和/或当前特性以及所提出的治疗计划，且推断引擎可以随后使用所述数据建置知识图，由此系统可以随后返回关于治疗计划的对受试者的所提出展望，和/或可以建议对于取代或补充原始所提出的治疗计划而实施来说可能有用的替代或补充治疗。具体来说，本系统以此方式将有用于确定为受试者开出何种药物或其它治疗、剂量、周期性和其它临床上相关参数，例如通过与一个或多个其它数据点相关地考虑其基因、基因组、临床和其它此类数据中的一个或多个。更确切地说，系统可以被配置成用于不仅基于受试者的基因组成和其它相关联数据(例如，其突变谱)而确定他们可能特别易受何种疾病，而且确定何种治疗(例如，药物处方和使用)例如在给定其当前条件下可以对受试者有益。在各种实例中，人工智能模块的某些方面可以例如通过以硬件实施而加速，例如通过合适配置的集成电路，例如通过fpga、asic、结构化asic及类似物。举例来说，在某些实施例中，a/i系统可以被配置成对包含深度学习神经网络的神经网络进行建模，所述神经网络可以由多层和层或处理引擎形成，其中提供的层越多，学习配置越深，且其中每一处理引擎是根据本文公开的方法进行训练以执行预测性分析，所述分析基于层的数目可以允许执行指数分析。因此，为了提供与用户的交互，本文所描述的主题的一个或多个方面或特征可实施于具有显示装置以及键盘和指向装置的计算机上，所述显示装置例如用于向用户显示信息的阴极射线管(crt)、液晶显示器(lcd)或发光二极管(led)监视器，所述指向装置例如鼠标或轨迹球，由此用户可以对计算机提供输入。其它种类的装置也可以用于提供与用户的交互。举例来说，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；且来自用户的输入可以任何形式接收，包含但不限于声学、语音或触觉输入。其它可能的输入装置包含(但不限于)触摸屏或例如单点或多点电阻式或电容式触摸垫等其它触敏装置、话音辨识硬件和软件、光学扫描器、光学指向器、数字图像捕获装置和相关联解译软件，及类似物。取决于所希望的配置，本文中所描述的主题可以实施于系统、设备、方法和/或制品中。前述描述中所阐述的实施方案并不表示符合本文中所描述的主题的所有实施方案。实际上，这些实施方案仅是符合与所描述的主题相关的方面的一些实例。尽管上文已详细描述若干变化，但是其它修改或添加也是可能的。确切地说，除了本文阐述的那些之外还可以提供另外的特征和/或变化。例如，上文所描述的实施方案可以涉及所公开的特征的各种组合和子组合和/或上文所公开的若干其它特征的组合和子组合。另外，附图中所描绘的和/或本文中所描述的逻辑流并不一定需要所示出的特定次序或顺序次序来实现所希望的结果。其它实施方案可以在所附权利要求书的范围内。当前第1页12当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马克·大卫·哈姆;雅各布斯·德比尔;瓦伦·贾因;拉米·米霍奥;埃里克·奥贾尔德;迈克尔·吕勒;阿姆农·普塔什伊克;塞维琳·卡特雷尤斯;阿伦·维斯夫纳特赫
技术所有人：伊鲁米那股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。