本公开涉及深度学习,具体而言,涉及一种数据处理方法、装置、电子设备、存储介质及计算机程序产品。
背景技术:
1、随着深度学习的研究与发展,基于注意力的transformer网络在各种任务中表现出优异的性能,但普通的vanilla transformer网络的时空复杂度与其输入长度的二次方程正比,使得vanilla transformer网络的计算效率较低。
2、为了缓解vanilla transformer网络存在的计算效率低的问题,提出了线性的linear transformer网络,linear transformer网络具有线性时空复杂度,故利用lineartransformer网络能够提高计算效率;然而,与vanilla transformer网络相比,lineartransformer网络的性能较差。
技术实现思路
1、有鉴于此,本公开至少提供一种数据处理方法、装置、电子设备、存储介质及计算机程序产品。
2、第一方面,本公开提供了一种数据处理方法,包括:
3、获取待处理数据;
4、利用transnormer网络中第一编码模块包括的标准注意力机制层,对所述待处理数据进行特征提取,将提取得到的多种特征数据进行融合处理,并对融合后的第一融合特征数据进行标准化处理,得到第一中间特征数据;
5、基于所述第一中间特征数据,生成针对所述待处理数据的检测结果。
6、上述方法中,利用transnormer网络中第一编码模块包括的标准注意力机制层,可以对待处理数据进行特征提取,得到多种特征数据;再可以将提取得到的多种特征数据进行融合处理,得到第一融合特征数据;并可以对融合后的第一融合特征数据进行标准化处理,得到第一中间特征数据;研究发现linear transformer网络的梯度无界是由于注意力矩阵中的缩放因子导致的,且linear attention机制中可以不包括缩放操作,故本公开中利用标准化处理代替该缩放操作,使得改进后的transnormer网络的梯度较稳定,缓解了linear transformer网络梯度不稳定的问题,在保障了计算效率的同时,提升了网络性能。进一步地,基于第一中间特征数据,能够较高效的生成针对待处理数据的检测结果。
7、一种可能的实施方式中,所述第一编码模块还包括:第一残差和标准化层、第一门控线性单元、第二残差和标准化层;所述基于所述第一中间特征数据,生成针对所述待处理数据的检测结果,包括:
8、利用所述第一残差和标准化层,将所述待处理数据和所述第一中间特征数据进行残差连接,得到第一残差特征数据,对所述第一残差特征数据进行标准化处理,得到第一标准化特征数据;
9、利用第一门控线性单元,对所述第一标准化特征数据进行门控线性激活处理,得到第一门控线性激活特征数据;
10、利用第二残差和标准化层,将所述第一标准化特征数据和所述第一门控线性激活特征数据进行残差连接,得到第二残差特征数据,并对所述第二残差特征数据进行标准化处理,生成目标特征数据;
11、基于所述目标特征数据,确定针对所述待处理数据的检测结果。
12、上述方法中,利用第一残差和标准化层,将待处理数据和第一中间特征数据进行残差连接,并对得到的第一残差特征数据进行标准化处理,得到第一标准化特征数据;再利用第一门控线性单元,对第一标准化特征数据进行门控线性激活处理,得到第一门控线性激活特征数据;进一步利用第二残差和标准化层,将第一标准化特征数据和第一门控线性激活特征数据进行残差连接,并对得到的第二残差特征数据进行标准化处理,生成目标特征数据,可以加快transnormer网络收敛的速度;同时,研究发现利用第一门控线性单元对第一标准化特征数据进行门控线性激活处理,能够提升网络性能。
13、一种可能的实施方式中,所述transnormer网络还包括第二编码模块,所述第二编码模块包括对角线注意力机制层;所述获取待处理数据,包括:
14、获取输入数据;
15、利用所述对角线注意力机制层,对所述输入数据进行处理,得到第二中间特征数据;
16、基于所述第二中间特征数据和所述输入数据,生成所述待处理数据。
17、这里,利用层对角线注意力机制,对输入数据进行处理,将注意力约束在相邻标记上,有利于提高transnormer网络对局部数据的关注度,缓解了线性注意力机制存在的注意力稀释的问题。
18、一种可能的实施方式中,所述输入数据为特征矩阵,所述利用所述对角线注意力机制层,对所述输入数据进行处理,得到第二中间特征数据,包括:
19、利用所述对角线注意力机制层,将所述输入数据中除位于对角线的特征位置之外的其他特征位置上的特征值调整为预设值,得到调整后数据;并对所述调整后数据进行处理,得到查询特征数据、键值特征数据和数值特征数据;将所述查询特征数据和所述键值特征数据进行融合,生成第二融合特征数据;并对所述第二融合特征数据进行激活处理,得到激活后特征数据;以及
20、基于所述激活后特征数据和所述数值特征数据,生成第二中间特征数据。
21、这里,将输入数据中除位于对角线的特征位置之外的其他特征位置上的特征值调整为预设值,得到调整后数据,即可以基于块的无重叠策略降低普通注意力的时空复杂度;同时,利用对角线注意力机制对调整后数据进行处理,得到查询特征数据、键值特征数据和数值特征数据;将查询特征数据和键值特征数据进行融合,生成第二融合特征数据;并对第二融合特征数据进行激活处理,得到激活后特征数据;以及基于激活后特征数据和数值特征数据,生成第二中间特征数据,以便在后续将待处理数据输入至标准注意力机制层时,可以缓解注意力稀释问题,提升transnormer网络性能。
22、一种可能的实施方式中,所述第二编码模块还包括:第三残差和标准化层、第二门控线性单元、第四残差和标准化层;所述基于所述第二中间特征数据和所述输入数据,生成所述待处理数据,包括:
23、利用所述第三残差和标准化层,将所述输入数据和所述第二中间特征数据进行残差连接,得到第三残差特征数据,对所述第三残差特征数据进行标准化处理,得到第二标准化特征数据;
24、利用第二门控线性单元,对所述第二标准化特征数据进行门控线性激活处理,得到第二门控线性激活特征数据;
25、利用第四残差和标准化层,将所述第二标准化特征数据和所述第二门控线性激活特征数据进行残差连接,得到第四残差特征数据,并对所述第四残差特征数据进行标准化处理,生成待处理数据。
26、上述方法中,利用第三残差和标准化层,将输入数据和第二中间特征数据进行残差连接,并对得到的第三残差特征数据进行标准化处理,得到第二标准化特征数据;再利用第二门控线性单元,对第二标准化特征数据进行门控线性激活处理,得到第二门控线性激活特征数据;进一步利用第四残差和标准化层,将第二标准化特征数据和第二门控线性激活特征数据进行残差连接,并对得到的第四残差特征数据进行标准化处理,生成待处理数据,可以加快transnormer网络收敛的速度;同时,研究发现利用第二门控线性单元对第二标准化特征数据进行门控线性激活处理,能够提升网络性能。
27、一种可能的实施方式中,所述待处理数据包括待翻译内容对应的第一待处理特征数据;所述检测结果包括:所述待翻译内容在目标语言下的翻译结果;
28、所述方法还包括:
29、控制语音播放设备,播放所述翻译结果;和/或,控制展示界面,展示所述翻译结果。
30、这里,通过上述任一实施方式获得的检测结果较准确,故控制语音播放设备,能够使得播放的翻译结果较精准;和/或,控制展示界面,能够使得展示的翻译结果较准确。
31、一种可能的实施方式中,所述待处理数据包括道路数据对应的第二待处理特征数据;所述检测结果包括:所述道路数据包括的各个待检测对象的对象信息;
32、所述方法还包括:
33、基于所述检测结果,控制采集所述道路数据的行驶装置。
34、这里,通过上述任一实施方式获得的检测结果较准确,因此,基于检测结果,可以较好的控制采集道路数据的行驶装置,保障了自动驾驶的安全性。
35、以下装置、电子设备等的效果描述参见上述方法的说明,这里不再赘述。
36、第二方面,本公开提供了一种数据处理装置,包括:
37、获取模块,用于获取待处理数据;
38、特征提取模块,用于利用transnormer网络中第一编码模块包括的标准注意力机制层,对所述待处理数据进行特征提取,将提取得到的多种特征数据进行融合处理,并对融合后的第一融合特征数据进行标准化处理,得到第一中间特征数据;
39、生成模块,用于基于所述第一中间特征数据,生成针对所述待处理数据的检测结果。
40、第三方面,本公开提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述第一方面或任一实施方式所述的数据处理方法的步骤。
41、第四方面,本公开提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述第一方面或任一实施方式所述的数据处理方法的步骤。
42、第五方面,本公开还提供一种计算机程序产品,所述计算机程序产品包括计算机程序或指令,在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行时实现如上述的数据处理方法的步骤。
43、为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。