[0001]
本发明涉及数据处理技术领域,具体而言,涉及一种深度学习模型训练方法、装置、设备及存储介质。
背景技术:[0002]
深度学习的本质是在大数据支撑下,由多层神经网络堆叠形成的信号处理系统,具有参数量大,计算复杂度高等特点,需要依靠高性能的服务器端来处理庞大的网络参数运算与更新。目前,基于深度学习模型的应用需要依靠大型服务器(云端)的运行能力,而输入输出数据的传输非常依赖良好的网络环境。很多时候,出于响应时间、隐私方面、服务稳定性、以及便捷性等方面考虑,用户更希望将这些深度学习模型放在移动终端上运行。但大多数深度学习模型对计算和内存的需求有一定的限制,移动终端的运算资源及计算能力有限,并不能满足深度学习模型的存储容量和计算能力需求,不能直接运行深度学习模型。
[0003]
对此,一般的解决方式为通过剪枝、量化等压缩方法,对深度学习模型的神经网络结构进行压缩,从而将深度学习模型的大小、参数量、计算量和内存占用等压缩到移动设备能够提供的范围内,实现在移动终端运行深度学习模型。
[0004]
但是,此类深度学习模型进行压缩的方法会降低深度学习模型的学习能力,导致深度学习模型(或称为深度神经网络结构)的准确率下降或损失。
技术实现要素:[0005]
基于上述现有技术存在的深度学习模型进行压缩的方法会降低深度学习模型的学习能力,导致深度学习模型的准确率下降或损失的问题,本发明实施例提供一种深度学习模型训练方法、装置、设备及存储介质,可以在训练获取压缩后的深度学习模型的同时,使得压缩后的深度学习模型能够获得较高的准确率。
[0006]
第一方面,本发明实施例提供一种深度学习模型训练方法,所述方法包括:对深度学习模型的权重矩阵进行奇异值分解,得到压缩后的深度学习模型;获取第一输入数据;对所述第一输入数据进行移位和扩充操作,得到第二输入数据;根据所述第二输入数据、以及所述压缩后的深度学习模型,获取输出数据。
[0007]
本发明实施例提供的该深度学习模型训练方法,通过对深度学习模型的权重矩阵进行svd分解,能够以低秩分解的方式得到压缩后的深度学习模型。通过对用于训练压缩后的深度学习模型的数据进行移位和扩充操作,能够优化深度学习模型因压缩而下降的准确率。
[0008]
换言之,该深度学习模型训练方法中,以张量分解的方式将深度学习模型神经网络的权重矩阵用低秩子空间表征,获得了很好的压缩性能。之后,再与乱序的输入数据进行线性映射,弥补了低秩分解降低的学习能力,从而不仅能得到满意的压缩率还能一定程度提高准确率。
[0009]
可选地,所述对深度学习模型的权重矩阵进行奇异值分解,包括:对所述深度学习
模型的权重矩阵进行svd分解,将所述权重矩阵表达为第一子矩阵和第二子矩阵的组合,所述第一子矩阵所述第二子矩阵相对所述权重矩阵而言是低维矩阵。
[0010]
可选地,所述对所述第一输入数据进行移位和扩充操作,得到第二输入数据,包括:对所述第一输入数据进行洗牌shuffle,得到第二输入数据。
[0011]
可选地,所述第一输入数据为矩阵x=[i,b],
[0012][0013]
对所述第一输入数据进行shuffle,得到的所述第二输入数据为:x
s
=[i,b
×
o],
[0014][0015]
可选地,所述根据所述第二输入数据、以及所述压缩后的深度学习模型,获取输出数据,包括:根据所述第二输入数据、所述第一子矩阵、以及所述第二子矩阵进行计算,获取所述输出数据。
[0016]
可选地,所述根据所述第二输入数据、所述第一子矩阵、以及所述第二子矩阵进行计算,获取所述输出数据,包括:将所述x
s
=[i,b
×
o]与所述第一子矩阵相乘,得到维度为[bo,r]的矩阵;将所述维度为[bo,r]的矩阵与所述第二子矩阵相乘得到维度为[bo,o]的矩阵y;对所述矩阵y只保留b个[o,o]矩阵的对角元素;将所述b个[o,o]矩阵的对角元素组成的矩阵还原为[o,b]维的输出矩阵z,所述输出矩阵z即为所述输出数据。
[0017]
第二方面,本发明实施例提供一种深度学习模型训练装置,所述装置包括:分解模块,用于对深度学习模型的权重矩阵进行奇异值分解,得到压缩后的深度学习模型;数据处理模块,用于获取第一输入数据;对所述第一输入数据进行移位和扩充操作,得到第二输入数据;计算模块,用于根据所述第二输入数据、以及所述压缩后的深度学习模型,获取输出数据。
[0018]
可选地,所述分解模块,具体用于对所述深度学习模型的权重矩阵进行svd分解,将所述权重矩阵表达为第一子矩阵和第二子矩阵的组合,所述第一子矩阵所述第二子矩阵相对所述权重矩阵而言是低维矩阵。
[0019]
可选地,所述数据处理模块,具体用于对所述第一输入数据进行洗牌shuffle,得到第二输入数据。
[0020]
可选地,所述第一输入数据为矩阵x=[i,b],
[0021][0022]
对所述第一输入数据进行shuffle,得到的所述第二输入数据为:x
s
=[i,b
×
o],
[0023][0024]
可选地,所述计算模块,具体用于根据所述第二输入数据、所述第一子矩阵、以及所述第二子矩阵进行计算,获取所述输出数据。
[0025]
可选地,所述计算模块,具体用于将所述x
s
=[i,b
×
o]与所述第一子矩阵相乘,得到维度为[bo,r]的矩阵;将所述维度为[bo,r]的矩阵与所述第二子矩阵相乘得到维度为[bo,o]的矩阵y;对所述矩阵y只保留b个[o,o]矩阵的对角元素;将所述b个[o,o]矩阵的对角元素组成的矩阵还原为[o,b]维的输出矩阵z,所述输出矩阵z即为所述输出数据。
[0026]
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如第一方面所述的方法的步骤。
[0027]
第四方面,本发明实施例提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面所述的方法的步骤。
[0028]
以上第二方面至第四方面所述的有益效果,可以参考第一方面中所述,在此不再赘述。
附图说明
[0029]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0030]
图1示出了本发明实施例提供的深度学习模型训练方法的流程示意图;
[0031]
图2示出了本发明实施例提供的深度学习模型训练方法的原理示意图;
[0032]
图3示出了本发明实施例提供的根据第二输入数据与分解后的子矩阵u和v进行计算的示意图;
[0033]
图4示出了本发明实施例提供的深度学习模型训练装置的结构示意图;
[0034]
图5示出了本发明实施例提供的电子设备的结构示意图。
具体实施方式
[0035]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,本发明中附图仅起到说明和描述的目的,并不用于限定本发明的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本发明中使用的流程图示出了根据本发明的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本发明内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
[0036]
另外,本发明所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0037]
需要说明的是,本发明实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。还应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中,还需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0038]
深度学习近年来得到了快速的发展,在计算机视觉,自然语言处理等众多领域有着优越的表现,催生了一系列智能产品的落地。例如,目前所提出的各类深度神经网络模型(或称为深度学习模型)拥有前所未有的精确性,这一性质可以使得深度神经网络解决方案被应用于许多重要的领域,如目标检测、图像分类、多种形式的检测和预测、自主驾驶和金融科技等领域都取得了显著的进步,也越来越融入我们日常生活。
[0039]
而深度学习的本质是在大数据支撑下,由多层神经网络堆叠形成的信号处理系统,具有参数量大,计算复杂度高等特点,需要依靠高性能的服务器端来处理庞大的网络参数运算与更新。目前普遍的做法是将训练好的深度学习模型存放在在云端,通过云端与移动终端(如:手机、平板电脑、车技等)进行信息交互,使得移动终端能够实现上述目标检测、图像分类、多种形式的检测和预测等功能。
[0040]
也即,目前,基于深度学习模型的应用需要依靠大型服务器(云端)的运行能力,而输入输出数据的传输非常依赖良好的网络环境。很多时候,出于响应时间、隐私方面、服务稳定性、以及便捷性等方面考虑,用户更希望将这些深度学习模型放在移动终端上运行。但大多数深度学习模型对计算和内存的需求有一定的限制,移动终端的运算资源及计算能力有限,并不能满足深度学习模型的存储容量和计算能力需求,不能直接运行深度学习模型。
[0041]
对此,一般的解决方式为通过剪枝、量化等压缩方法,对深度学习模型的神经网络结构进行压缩,从而将深度学习模型的大小、参数量、计算量和内存占用等压缩到移动设备能够提供的范围内,实现在移动终端运行深度学习模型。但是,此类深度学习模型进行压缩的方法会降低深度学习模型的学习能力,导致深度学习模型(或称为深度神经网络结构)的准确率下降或损失。
[0042]
在此背景下,本发明实施例提供了一种深度学习模型训练方法,可以在训练获取压缩后的深度学习模型的同时,使得压缩后的深度学习模型能够获得较高的准确率。
[0043]
图1示出了本发明实施例提供的深度学习模型训练方法的流程示意图。
[0044]
如图1所示,该深度学习模型训练方法,可以包括:
[0045]
s101、对深度学习模型的权重矩阵进行奇异值分解(singular value decomposition,svd),得到压缩后的深度学习模型。
[0046]
对深度学习模型的权重矩阵进行svd分解,能够利用张量分解将深度学习模型的神经网络中的权重矩阵近似表达为子矩阵的组合。示例性地,对深度学习模型的权重矩阵进行svd分解,可以将该权重矩阵表达为第一子矩阵和第二子矩阵的组合。相对原来的深度
学习模型的权重矩阵而言,这里得到的第一子矩阵和第二子矩阵是低维矩阵。重新表达后的低维矩阵组能够在一定精度范围内还原原来的深度学习模型的权重矩阵,但重新表达后的低维矩阵所占用的存储空间会大幅度降低,从而可以达到压缩深度学习模型的效果。也即,s101的步骤会得到压缩后的深度学习模型。
[0047]
可选地,本发明实施例中,对深度学习模型的权重矩阵进行svd分解,可以是指将权重矩阵近似为更一般甚至随机的低秩子空间,只要保证svd分解后的子矩阵是低维矩阵即可,在此对svd分解的具体过程不作限制。
[0048]
s102、获取第一输入数据。
[0049]
第一输入数据是指用于训练深度学习模型的初始训练数据。可选地,该初始训练数据可以是经过预处理之后的,如:可以是经过异常数据筛选、缺失值补充处理等之后的数据。
[0050]
s103、对第一输入数据进行移位和扩充操作,得到第二输入数据。
[0051]
将第一输入数据进行移位和扩充操作得到的第二输入数据,会扩大数据的维度,使用第二输入数据对深度学习模型进行训练时,能够使深度学习模型得到更多的训练数据,有助于深度学习模型更充分地学习到输入数据的特征。
[0052]
可选地,对第一输入数据进行移位和扩充操作,得到第二输入数据,可以是指:对第一输入数据进行洗牌(shuffle),或称为乱序,以得到第二输入数据。
[0053]
下面以第一输入数据为矩阵x=[i,b]为例,对shuffle规则进行举例说明。
[0054]
示例性地,x=[i,b]可以如下所示:
[0055][0056]
对x=[i,b]进行shuffle后,可以得到如下所示的x
s
=[i,b
×
o]。
[0057][0058]
通过对x=[i,b]进行shuffle所得到的x
s
=[i,b
×
o]的数据的维度更大,相对于使用x=[i,b]对深度学习模型进行训练而言,使用x
s
=[i,b
×
o]对深度学习模型进行训练时,能够使深度学习模型得到更多的训练数据,有助于深度学习模型更充分地学习到输入数据的特征。
[0059]
s104、根据第二输入数据、以及压缩后的深度学习模型,获取输出数据。
[0060]
s104的步骤中根据第二输入数据、以及压缩后的深度学习模型,获取输出数据,即是对压缩后的深度学习模型进行训练的过程。可以理解的,后续可以结合深度学习模型的目标损失函数,根据输出数据对深度学习模型进行优化,在此不再赘述。
[0061]
本发明实施例中,s101的步骤能够得到压缩后的深度学习模型,s103的步骤能够对s102获取的第一输入数据进行移位和扩充操作,得到维度更大的第二输入数据。s104的步骤根据第二输入数据、以及压缩后的深度学习模型,获取输出数据,实现对压缩后的深度
学习模型进行训练,能够使压缩后的深度学习模型得到更多的训练数据,有助于压缩后的深度学习模型更充分地学习到输入数据的特征,从而提高压缩后的深度学习模型的准确率。
[0062]
也即,本发明实施例提供的该深度学习模型训练方法,通过对深度学习模型的权重矩阵进行svd分解,能够以低秩分解的方式得到压缩后的深度学习模型。通过对用于训练压缩后的深度学习模型的数据进行移位和扩充操作,能够优化深度学习模型因压缩而下降的准确率。
[0063]
换言之,该深度学习模型训练方法中,以张量分解的方式将深度学习模型神经网络的权重矩阵用低秩子空间表征,获得了很好的压缩性能。之后,再与乱序的输入数据进行线性映射,弥补了低秩分解降低的学习能力,从而不仅能得到满意的压缩率还能一定程度提高准确率。
[0064]
可选地,上述s101与s102和s103的执行顺序可以是先执行s101,在执行s102和s103,或者,也可以是先执行s102和s103,再执行s101,在此不作限制。
[0065]
下面结合图2,以一个更具体的实施例,对该深度学习模型训练方法进行说明。
[0066]
图2示出了本发明实施例提供的深度学习模型训练方法的原理示意图。
[0067]
如图2所示,该深度学习模型训练方法可以包括三个部分。第一部分,是对第一输入数据进行移位和扩充操作,得到第二输入数据。第二部分,是对深度学习模型的权重矩阵进行svd分解,得到压缩后的深度学习模型。第三部分,是根据第二输入数据对压缩后的深度学习模型进行训练。
[0068]
请参考图2所示:
[0069]
对于第一部分,可以如前述实施例中所述,对第一输入数据进行shuffle,得到第二输入数据。例如,第一输入数据为上述x=[i,b],第二输入数据为上述x
s
=[i,b
×
o]。
[0070]
对于第二部分,假设深度学习模型的权重矩阵为w,则对w进行svd分解后,可以得到两个子矩阵,如:u和v。u和v也即为上述第一子矩阵和第二子矩阵。
[0071]
对于第三部分,根据第二输入数据对压缩后的深度学习模型进行训练,即是指将第二输入数据输入压缩后的深度学习模型,获取输出数据。具体则是指:根据第二输入数据与分解后的子矩阵u和v进行计算,获取输出数据。
[0072]
图3示出了本发明实施例提供的根据第二输入数据与分解后的子矩阵u和v进行计算的示意图。
[0073]
如图3所示,x
s
表示第二输入数据,u和v表示两个子矩阵。在根据第二输入数据与分解后的子矩阵u和v进行计算时,首先可以将x
s
与u矩阵相乘,得到维度为[bo,r]的矩阵。接着,将维度为[bo,r]的矩阵与v相乘得到维度为[bo,o]的矩阵y,对该矩阵y只保留b个[o,o]矩阵的对角元素。然后将矩阵还原为[o,b]维的输出矩阵z,该输出矩阵z即为输出数据。例如,当输出矩阵为维度为[bo,o]的矩阵时,可理解为该矩阵包含b个[o,o]维的矩阵,进行b次对角元素的提取后最后可以压缩为维度为[o,b]的矩阵。
[0074]
具体对角元素的提取,可以如下所示:
[0075]
假设维度为[bo,o]的矩阵为y1:
[0076][0077]
则,取对角元素后的矩阵可以为z1:
[0078][0079]
为检验该深度学习模型训练方法中,使用shuffle对压缩后的深度学习模型进行优化的性能,本发明可以在简易模型和深层网络结构两个不同模型上进行实验。
[0080]
1)对于简易模型的试验,该简易模型可以为一个简单的卷积神经网络结构,实验对mnist手写数据进行识别。搭建的网络结构包含2个卷积层和2个全连接层,使用relu作为激活函数,卷积层后使用最大池化,全连接层的输出使用soft-max分类函数,学习速率为0.1,动量系数为0.9,具体设置如下表1。input表示输入。
[0081]
表1
[0082][0083]
对于该简易模型,可以对神经网络结构的第一个全连接层进行svd分解,通过设置不同的秩(rank)测试shuffle对压缩后的模型(svd分解后的模型)的优化效果,在实验中测试了秩为1、5和10时有无shuffle的实验结果,实验结果如表2。
[0084]
表2
[0085][0086]
通过表2所示可知,基准模型定义为模型在无分解的情况下,准确率为99.11%。秩为1时,模型的准确率大幅度降低,通过shuffle后模型可以大幅度恢复准确率(如:由
79.69%恢复至98.22%)。秩为5时,模型的准确率与基准模型相差较大(为88.43%),经过shuffle后,模型基本达到原精确率(为98.37%)。当秩为10,模型的准确率损失不大(为98.17%),经过shuffle操作之后的准确率与原模型基本一致(为99.08%)。通过以上实验结果可以得到,权重矩阵进行分解后,模型的准确率下降明显,而shuffle可以优化由于分解而造成的模型准确率下降问题,且秩越低,shuffle的优化效果越明显,对损失的准确率恢复效果越好。
[0087]
2)为进一步确保实验的准确性,搭建了一个包含6个卷积层和3个全连接层的深层网络结构进行实验,模型具体如表3所示,超参数设置与上部分实验一致。
[0088]
表3
[0089][0090]
该实验对模型第一个全连接层的权重矩阵进行svd分解,通过调节秩来控制模型的压缩率。在此次实验中,检验当秩为1、5和10时shuffle对压缩模型准确率的优化性能,如表4所示。
[0091]
表4
[0092][0093]
实验中对输入数据进行shuffle操作。搭建的网络结构无分解时设为基准模型,基准模型的准确率为88.77%。首先把秩的值设为1,此时由于秩太低模型的特征不能很好的被提取,准确率为47.67%,在此基础上使用shuffle之后,准确率恢复为88.69%,这已经接近基准模型的准备率。当把模型秩的值设置为10,模型的准确率为80.95%,相比之前的
47.67%有很大的提升,同时也证明在一定范围内,提升秩的值是有利于整个模型准确率的提升。而在此基础上我们使用shuffle之后,准确率也得到了大幅度的提升,为88.97%甚至略高于基准模型。以上实验证明,shuffle在一定程度上是可以弥补因低秩分解造成的模型准确率下降。而且模型的秩越低,shuffle的效果越好,可以通过乱序学习到权重矩阵中的特征。
[0094]
通过以上实验对比,可以看到该深度学习模型训练方法中,基于shuffle对压缩后的深度学习模型进行优化,可以弥补低秩分解降低的学习能力,从而提高深度学习模型的准确率。
[0095]
可以理解的,在使用该深度学习模型对数据进行处理,如:目标检测、图像分类等时(具体取决于深度学习模型的类型,此处不作限制),也可以对输入数据进行shuffle,具体方式与前述实施例相同。
[0096]
基于前述实施例所述的深度学习模型训练方法中,本申请实施例还提供一种深度学习模型训练装置。
[0097]
图4示出了本发明实施例提供的深度学习模型训练装置的结构示意图。
[0098]
如图4所示,该深度学习模型训练装置包括:分解模块401,用于对深度学习模型的权重矩阵进行奇异值分解,得到压缩后的深度学习模型;数据处理模块402,用于获取第一输入数据;对所述第一输入数据进行移位和扩充操作,得到第二输入数据;计算模块403,用于根据所述第二输入数据、以及所述压缩后的深度学习模型,获取输出数据。
[0099]
可选地,所述分解模块401,具体用于对所述深度学习模型的权重矩阵进行svd分解,将所述权重矩阵表达为第一子矩阵和第二子矩阵的组合,所述第一子矩阵所述第二子矩阵相对所述权重矩阵而言是低维矩阵。
[0100]
可选地,所述数据处理模块402,具体用于对所述第一输入数据进行洗牌shuffle,得到第二输入数据。
[0101]
可选地,所述第一输入数据为矩阵x=[i,b],
[0102][0103]
对所述第一输入数据进行shuffle,得到的所述第二输入数据为:x
s
=[i,b
×
o],
[0104][0105]
可选地,所述计算模块403,具体用于根据所述第二输入数据、所述第一子矩阵、以及所述第二子矩阵进行计算,获取所述输出数据。
[0106]
可选地,所述计算模块403,具体用于将所述x
s
=[i,b
×
o]与所述第一子矩阵相乘,得到维度为[bo,r]的矩阵;将所述维度为[bo,r]的矩阵与所述第二子矩阵相乘得到维度为[bo,o]的矩阵y;对所述矩阵y只保留b个[o,o]矩阵的对角元素;将所述b个[o,o]矩阵的对角元素组成的矩阵还原为[o,b]维的输出矩阵z,所述输出矩阵z即为所述输出数据。
[0107]
上述装置可以集成于服务器、计算机等设备,本发明在此不作限制。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,该深度学习模型训练装置的具体工作过程,可以参考前述方法实施例中所述的深度学习模型训练方法的对应过程,本发明中不再赘述。
[0108]
应该理解,以上所描述的装置实施例仅仅是示意性的,本发明实施例所揭露的装置和方法,也可以通过其它的方式实现。例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0109]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得用户终端或司机终端执行本发明各个实施例所述方法的全部或部分步骤。
[0110]
也即,本领域内的技术人员应明白,本发明实施例可以采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式中的任一种实现。
[0111]
基于此,本发明实施例还提供一种程序产品,该程序产品可以是u盘、移动硬盘、rom、ram、磁碟或者光盘等存储介质,存储介质上可以存储有计算机程序,计算机程序被处理器运行时执行如前述方法实施例中所述的深度学习模型训练方法的步骤。具体实现方式和技术效果类似,在此不再赘述。
[0112]
可选地,本发明实施例还提供一种电子设备,该电子设备可以是服务器、计算机等设备,图5示出了本发明实施例提供的电子设备的结构示意图。
[0113]
如图5所示,该电子设备可以包括:处理器501、存储介质502和总线503,存储介质502存储有处理器501可执行的机器可读指令,当电子设备运行时,处理器501与存储介质502之间通过总线503通信,处理器501执行机器可读指令,以执行时执行如前述实施例中所述的深度学习模型训练方法的步骤。具体实现方式和技术效果类似,在此不再赘述。
[0114]
为了便于说明,在上述电子设备中仅描述了一个处理器。然而,应当注意,一些实施例中,本发明中的电子设备还可以包括多个处理器,因此本发明中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。
[0115]
以上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。