用于纳米孔信号的编码器、解码器、编解码系统和方法与流程

文档序号:36179278发布日期:2023-11-29 10:50阅读:51来源:国知局
用于纳米孔信号的编码器的制作方法

本技术涉及生物检测,尤其涉及一种用于纳米孔信号的编码器、解码器、编解码系统和方法。


背景技术:

1、现有技术中通常是使用序列到序列(seq-to-seq)的方法将纳米孔电信号识别为碱基序列,而传统的seq-to-seq方法主要是基于马尔可夫模型的方法进行识别。随着深度学习的快速发展,基于深度学习的方法有着更优异的识别性能。由于在seq-to-seq任务中,输入序列和输出序列通常是不等长的,典型的深度学习的seq-to-seq模型通常包含编码器和解码器两个部分。其中,编码器负责对输入序列进行信息提取,并转换成特征向量或特征矩阵;将特征向量或特征矩阵作为输入传给解码器,解码器负责将其转换为输出序列。

2、在纳米孔测序的任务中,编码器负责纳米孔电信号的特征提取,并集成上下文的信息,解码器则负责将信号特征翻译为碱基序列。在现有的技术中,编码器主要是通过纯卷积神经网络(convolutional neural networks,cnn)堆叠或卷积神经网络加循环神经网络(recurrent neural network,rnn)的堆叠来实现,而解码器则主要是通过基于ctc的维特比或束搜索来实现。

3、然而,在编码方面,纳米孔信号受限于控速酶的特点,每一个聚合物单元的过孔时间较不稳定,表达成信号以后持续的长度高度不均。当使用cnn网络作为编码器时,cnn网络卷积核是固定不变的,并且每一个卷积核对整条信号权值共享。因此,cnn作为编码器中主要的特征提取单元,比较难同时对较快和较慢的聚合物表达进行兼容。如果通过rnn实现这个精度的特征提取和快慢兼容,由于rnn的参数量非常大,模型效率会非常低下。总之,在纳米孔测序任务中,当前技术对控速酶控速稳定性的要求非常高。

4、在解码方面,使用ctc模型虽然可以很好的实现长序列到短序列(信号序列到测序序列)的映射,但是有以下的缺点:需要通过维特比或者束搜索算法解码,难以实现完全端到端预测,理论上模型性能受到人为设计的状态节点的影响,不能充分发挥机器学习技术的优势;比较难以利用目前不断发展的并行化高速计算技术(如gpu),效率(特别是未来的效率)比较低。


技术实现思路

1、有鉴于此,本公开的实施例提供了一种用于纳米孔信号的编码器、解码器、编解码系统和方法。

2、第一方面,本公开的实施例提供了一种用于纳米孔信号的编码器,该编码器中包括:分窗单元、移位单元和至少两个编码单元;

3、所述分窗单元,用于将所接收的纳米孔信号分割为m个信号段后输出至与所述分窗单元连接的编码单元,所述m个信号段中的数据无交叠;其中,m为大于1的整数;

4、所述编码单元中至少包括:第一自查询权值计算器;

5、所述第一自查询权值计算器中包括:至少一个第一注意力模块;

6、所述第一注意力模块,用于对所接收的每个信号段分别进行注意力计算,将m个信号段的注意力计算结果组合成一个注意力计算结果作为信号特征输出;

7、每两个相邻的编码单元之间设置有一个移位单元;

8、所述移位单元,用于对所接收的信号特征按照预设的平移值进行数据循环平移,将平移后的信号特征重新分割为m个信号段后输出至与其输出端连接的编码单元。

9、第二方面,本公开的实施例提供了一种用于纳米孔信号的解码器,该解码器中包括:分窗单元、移位单元和至少两个解码单元;

10、所述分窗单元,用于将所接收的信号特征分割为m个信号段后输出至与所述分窗单元连接的解码单元,所述m个信号段中的数据无交叠;其中,m为大于1的整数;

11、所述解码单元中至少包括:第二自查询权值计算器;

12、所述第二自查询权值计算器中包括:至少一个第二注意力模块;

13、所述第二注意力模块,用于对所接收的每个信号段分别进行注意力计算,将并将m个信号段的注意力计算结果组合成一个注意力计算结果作为信号特征输出;

14、每两个相邻的解码单元之间设置有一个移位单元;

15、所述移位单元,用于对所接收的信号特征按照预设的平移值进行数据循环平移,将平移后的信号特征重新分割为m个信号段后输出至与其输出端连接的解码单元。

16、第三方面,本公开的实施例提供了一种用于纳米孔信号的编解码系统,该编解码系统中包括:编码器和解码器;

17、所述编码器中包括:分窗单元、移位单元和至少两个编码单元;

18、所述分窗单元,用于将所接收的纳米孔信号分割为m个信号段后输出至与所述分窗单元连接的编码单元,所述m个信号段中的数据无交叠;其中,m为大于1的整数;

19、所述编码单元中至少包括:第一自查询权值计算器;

20、所述第一自查询权值计算器中包括:至少一个第一注意力模块;

21、所述第一注意力模块,用于对所接收的每个信号段分别进行注意力计算,将m个信号段的注意力计算结果组合成一个注意力计算结果作为信号特征输出;

22、每两个相邻的编码单元之间设置有一个移位单元;

23、所述移位单元,用于对所接收的信号特征按照预设的平移值进行数据循环平移,将平移后的信号特征重新分割为m个信号段后输出至与其输出端连接的编码单元;

24、所述解码器中包括:分窗单元、移位单元和至少两个解码单元;

25、所述分窗单元,用于将所接收的信号特征分割为m个信号段后输出至与所述分窗单元连接的解码单元,所述m个信号段中的数据无交叠;其中,m为大于1的整数;

26、所述解码单元中至少包括:第二自查询权值计算器;

27、所述第二自查询权值计算器中包括:至少一个第二注意力模块;

28、所述第二注意力模块,用于对所接收的每个信号段分别进行注意力计算,并将m个信号段的注意力计算结果组合成一个将注意力计算结果作为信号特征输出;

29、每两个相邻的解码单元之间设置有一个移位单元;

30、所述移位单元,用于对所接收的信号特征按照预设的平移值进行数据循环平移,将平移后的信号特征重新分割为m个信号段后输出至与其输出端连接的解码单元。

31、第四方面,本公开的实施例提供了一种用于纳米孔信号的编码方法,该方法包括:

32、将纳米孔信号分割为m个信号段,所述m个信号段中的数据无交叠;其中,m为大于1的整数;

33、对每个信号段分别进行注意力计算,并将m个信号段的注意力计算结果组合成一个注意力计算结果作为信号特征;

34、对信号特征按照预设的平移值进行数据循环平移,将平移后的信号特征重新分割为m个信号段;

35、对每个信号段分别进行注意力计算,并将m个信号段的注意力计算结果组合成一个注意力计算结果作为信号特征。

36、第五方面,本公开的实施例提供了一种用于纳米孔信号的解码方法,该方法包括:

37、将信号特征分割为m个信号段,所述m个信号段中的数据无交叠;其中,m为大于1的整数;

38、对每个信号段分别进行注意力计算,并将m个信号段的注意力计算结果组合成一个注意力计算结果作为信号特征;

39、对信号特征按照预设的平移值进行数据循环平移,将平移后的信号特征重新分割为m个信号段;

40、对每个信号段分别进行注意力计算,并将m个信号段的注意力计算结果组合成一个注意力计算结果作为信号特征输出。

41、如上可见,在本发明中的用于纳米孔信号的编码器、解码器、编解码系统和方法中,在对纳米孔信号进行编码时,可以根据纳米孔信号速度不均的特点,通过堆叠一个或多个自注意力结构,在进行注意力计算时可以自行判断需要关注的区域大小,从而实现自适应多尺度的信号特征捕捉;还可以利用注意机制让模型有效判断一条信息的有效边界(例如,一个聚合物单元信号段的位置),通过增加自注意力结构的堆叠数量,可以让模型有更强的多尺度信息的获取能力。另外,还可以进一步使用分窗移位的方法来进行注意力计算,分窗的操作可以使得在每个位置上都只在相邻的区域内进行注意力计算,移位的操作可以使得不同的分窗间有信息交互,从而不仅可以保证所有位置上的数据都会参与邻域注意力计算,而且还可以提高计算速度、降低内存消耗。此外,在进行解码时,也形成了多个注意力结构的堆叠,因此可以根据纳米孔信号速度不均的特点,通过上述堆叠的注意力结构进行多次注意力计算,以提高解码准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1