背景技术:
技术实现思路
1、在一些实施例中,提供了一种计算机实施的方法来生成特定分子的共有序列。访问特定分子的序列集,该序列集中的每个序列已经独立于该序列集中的其他序列而生成,并且该序列集中的每个序列包括有序碱基集。使用该序列集来执行对齐过程以生成对齐结果,该对齐结果针对序列集的有序碱基集中的每个碱基而将该碱基与来自参考位置集中的参考位置相关联。对于参考位置集中的每个参考位置,为参考位置生成特征向量,该特征向量表示来自有序碱基集的与参考位置对齐的每个碱基。使用机器学习模型来处理参考位置集的特征向量,以生成特定分子的共有序列。
2、执行对齐处理可以包括执行多序列对齐。对于参考位置集中的每个参考位置,特征向量可以针对序列集中的每个序列包括关于有序碱基集中的哪个碱基(如果有的话)与参考位置对齐的指示。对于参考位置集中的至少一个参考位置的每个参考位置,特征向量可以包括序列集中的至少一个序列中的每个序列不包括与参考位置对齐的碱基的指示。针对序列集中的至少一个序列的每个序列,该方法还可以包括:确定该序列包括一种或多种均聚物,该一种或多种均聚物中的每一种均聚物均包括序列中相同碱基的多个连续表示;和生成序列的折叠表示,在折叠表示中一种或多种均聚物中的每一种均聚物被折叠成单个碱基,其中对齐过程使用序列的折叠表示来执行。针对一种或多种均聚物中的每一种,折叠表示可以包括均聚物中碱基数量的指示。机器学习模型可以包括循环神经网络。机器学习模型可以包括一个或多个长短期记忆(lstm)单元。该方法还可以包括:针对序列集中的至少一些序列的每个序列,访问有序碱基集中的一个或多个碱基中的每个碱基的质量度量,其中生成的特征向量中的至少一个特征向量包括一个或多个质量值,一个或多个质量值中的每个质量值包括质量度量或基于质量度量。
3、在一些实施例中,提供了一种系统,其包括一个或多个数据处理器和包含指令的非暂时性计算机可读存储介质,当在一个或多个数据处理器上执行时,该指令使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部。
4、在一些实施例中,提供了一种计算机程序产品,其有形地体现在非暂时性机器可读存储介质中并且包括指令,该指令配置为使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部。
5、本公开的一些实施例包括一种系统,该系统包括一个或多个数据处理器。在一些实施例中,该系统包括包含指令的非暂时性计算机可读存储介质,当在一个或多个数据处理器上执行时,该指令使一个或多个数据处理器执行一种或多种方法的部分或全部和/或本文公开的一个或多个过程的部分或全部。本公开的一些实施例包括一种计算机程序产品,其有形地体现在非暂时性机器可读存储介质中,包括指令,该指令配置为使一个或多个数据处理器执行一种或多种方法的部分或全部和/或本文公开的一个或多个过程的部分或全部。
6、所使用的术语和表述用作描述而非限制,并且在使用此类术语和表述时无意排除所示和所描述的特征或其部分的任何等同物,但认识到在要求保护的本发明的范围内可以进行各种修改。因此,应当理解,尽管所要求保护的本发明已经通过实施例和可选特征具体公开,但是本领域技术人员可以对本文所公开的概念进行修改和变化,并且这些修改和变化被认为是落在由所附权利要求限定的本发明的范围内。
1.一种生成特定分子的共有序列的方法,所述方法包括:
2.根据权利要求1所述的方法,其中,执行对齐处理包括执行多序列对齐。
3.根据权利要求1或权利要求2所述的方法,其中,对于所述参考位置集中的每个参考位置,所述特征向量针对所述序列集中的每个序列而包括关于所述有序碱基集中的哪个碱基,如果有的话,与所述参考位置对齐的指示。
4.根据权利要求1至3中任一项所述的方法,其中,对于所述参考位置集中的至少一个参考位置的每个参考位置,所述特征向量包括所述序列集中的至少一个序列中的每个序列不包括与所述参考位置对齐的碱基的指示。
5.根据权利要求1至4中任一项所述的方法,针对所述序列集中的至少一个序列的每个序列,所述方法还包括:
6.根据权利要求5所述的方法,其中,针对所述一种或多种均聚物中的每一种均聚物,所述折叠表示包括所述均聚物中碱基数量的指示。
7.根据权利要求1至6中任一项所述的方法,其中,所述机器学习模型包括循环神经网络。
8.根据权利要求1至7中任一项所述的方法,其中,所述机器学习模型包括一个或多个长短期记忆(lstm)单元。
9.根据权利要求1至8中任一项所述的方法,所述方法还包括:
10.一种生成特定分子的共有序列的系统,所述系统包括:
11.根据权利要求10所述的系统,其中,执行对齐处理包括执行多序列对齐。
12.根据权利要求10或权利要求11所述的系统,其中,对于所述参考位置集中的每个参考位置,所述特征向量针对所述序列集中的每个序列而包括关于所述有序碱基集中的哪个碱基,如果有的话,与所述参考位置对齐的指示。
13.根据权利要求10至12中任一项所述的系统,其中,对于所述参考位置集中的至少一个参考位置的每个参考位置,所述特征向量包括所述序列集中的至少一个序列中的每个序列不包括与所述参考位置对齐的碱基的指示。
14.根据权利要求10至13中任一项所述的方法,其中,针对所述序列集中的至少一个序列的每个序列,所述动作集还包括:
15.根据权利要求14所述的系统,其中,针对所述一种或多种均聚物中的每一种均聚物,所述折叠表示包括所述均聚物中碱基数量的指示。
16.根据权利要求10至15中任一项所述的系统,其中,所述机器学习模型包括循环神经网络。
17.根据权利要求10至16中任一项所述的系统,其中,所述机器学习模型包括一个或多个长短期记忆(lstm)单元。
18.根据权利要求10至17中任一项所述的系统,其中,所述动作集还包括:
19.一种计算机程序产品,其有形地体现在非暂时性机器可读存储介质中,其包括指令,所述指令配置为使所述一个或多个数据处理器执行动作集,所述动作集包括:
20.根据权利要求19所述的计算机程序产品,其中,执行对齐处理包括执行多序列对齐。