基于深度模型的数据处理方法、装置、电子设备及存储介质与流程

文档序号:27941157发布日期:2021-12-11 13:11阅读:102来源:国知局
基于深度模型的数据处理方法、装置、电子设备及存储介质与流程

1.本发明涉及人工智能领域,尤其涉及一种基于深度模型的数据处理方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.随着人工智能技术的不断发展,许多业务领域都在积极利用机器学习模型、深度学习模型来为其业务得快速发展进行赋能,而在使用深度模型结合业务场景为业务发展赋能时,由于深度模型的黑盒性,在利用来自业务领域内的训练数据对深度模型进行训练与优化时,只能通过损失函数(loss function)与梯度下降优化方法(gradient descent optimization method)来大致把控模型效果的优化方向与优化程度,而对深度模型内部最重要的参数(权重矩阵内的权重参数值的变化方向与变化程度)无法做到精细化的把控,这样容易导致在深度模型在接收到当前业务场景下的新业务数据后,使用新业务数据继续进行深度模型的训练与优化时,便可能会出现深度模型出现遗忘的问题,即在新业务数据上预测效果好、预测准确,而在原先能够预测准确的旧数据上出现了预测错误的问题。
3.目前,通常采用动态扩展深度模型的权重矩阵参数来防止模型在持续学习中业务数据时发生“遗忘”问题的方法,但是,这样的方法会使得深度模型的权重矩阵参数越来越多,从而使得深度模型开始变得越来越臃肿,且深度模型对于内存的占用也会越来越大,因此亟待一种基于深度模型的数据处理方法,以解决深度模型在处理数据过程中发生数据遗忘的问题,同时又可以避免在深度模型中出现过多的权重矩阵参数。


技术实现要素:

4.本发明提供一种基于深度模型的数据处理方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决深度模型在处理数据过程中发生数据遗忘的问题,同时又可以避免在深度模型中出现过多的权重矩阵参数。
5.为实现上述目的,本发明提供的一种基于深度模型的数据处理方法,包括:
6.将待持续学习的深度模型划分为新深度模型和旧深度模型,并获取所述旧深度模型中的旧权重矩阵参数;
7.将新业务数据输入至所述新深度模型中,以通过所述新业务数据对所述新深度模型进行训练,并生成所述新业务数据的预测值,利用所述新深度模型中的损失函数计算所述预测值与其对应真实值的第一损失;
8.获取训练后的所述新深度模型中的新权重矩阵参数,将所述旧权重矩阵参数和所述新权重矩阵参数进行归一化,并计算归一化后的所述旧权重矩阵参数和所述新权重矩阵参数的第二损失;
9.根据所述第一损失和所述第二损失,计算训练后的所述新深度模型的最终损失;
10.判断所述最终损失是否满足预设条件;
11.在所述最终损失不满足所述预设条件时,调整所述新深度模型的参数后,返回所
述将新业务数据输入至所述新深度模型中的步骤;
12.在所述最终损失满足所述预设条件时,得到持续学习后的新深度模型;
13.将待处理业务数据输入至所述持续学习后的新深度模型中,以输出所述待处理业务数据的模型处理结果。
14.可选地,所述将新业务数据输入至所述新深度模型中,以通过所述新业务数据对所述新深度模型进行训练,并生成所述新业务数据的预测值,包括:
15.利用所述新深度模型中的输入层接收所述新业务数据,并利用所述新深度模型中的隐藏层提取接收的所述新业务数据的特征数据;
16.利用所述新深度模型中的全连接层计算所述特征数据的数据预测值;
17.利用所述新深度模型中的输出层输出所述数据预测值,生成所述新业务数据的预测值。
18.可选地,所述新深度模型中的损失函数包括:
[0019][0020]
其中,loss
acc
表示损失值,k表示新业务数据的数量,i表示新业务数据的序列号,y
i
表示第i个预测值,y

i
表示第i个真实值。
[0021]
可选地,所述分别将所述新权重矩阵参数和所述旧权重矩阵参数进行归一化,包括:
[0022]
查询所述新模型权重矩阵参数中的新参数最小值,及所述旧模型权重矩阵参数中的旧参数最小值,将所述新参数最小值与所述旧参数最小值进行相加操作后得到模型参数最小值;
[0023]
分别将所述新模型权重矩阵参数和所述旧模型权重矩阵参数中每个参数与所述模型参数最小值进行相减操作,分别得到所述新模型权重矩阵参数的新参数和所述旧模型权重矩阵参数的旧参数;
[0024]
分别将所述新模型权重矩阵参数的新参数和所述旧模型权重矩阵参数的旧标参数进行累加操作,分别得到新参数总和值和旧参数总和值;
[0025]
根据所述新参数与所述新参数总和值,及所述旧参数与所述旧参数总和值,分别执行所述新模型权重矩阵参数和所述旧模型权重矩阵参数的归一化。
[0026]
可选地,所述根据所述新参数与所述新参数总和值,及所述旧参数与所述旧参数总和值,分别执行所述新模型权重矩阵参数和所述旧模型权重矩阵参数的归一化,包括:
[0027]
利用下述公式分别执行所述新模型权重矩阵参数的新参数和所述旧模型权重矩阵参数的归一化:
[0028][0029]
[0030]
其中,表示归一化后的新模型权重矩阵参数,表示归一化后的旧模型权重矩阵参数,n表示参数的总量,i表示参数的序列号,表示新模型权重矩阵参数中第i个参数,表示旧模型权重矩阵参数中第i个参数,表示新模型权重矩阵参数中新参数最小值,表示旧模型权重矩阵参数中旧参数最小值。
[0031]
可选地,所述计算归一化后的所述旧权重矩阵参数和所述新权重矩阵参数的第二损失,包括:
[0032]
利用下述公式计算归一化后的所述旧权重矩阵参数和所述新权重矩阵参数的第二损失:
[0033][0034]
其中,loss
kl
表示第二损失,p(x
i
)表示归一化后的所述旧权重矩阵参数的概率分布,q(x
i
)表示归一化后的所述新权重矩阵参数的概率分布,n表示参数的总量,i表示参数的序列号。
[0035]
可选地,所述调整所述新深度模型的参数,包括:
[0036]
利用下述公式调整所述新深度模型的参数:
[0037][0038]
其中,lθ表示调整的参数,m表示新业务数据的数量,k表示新业务数据的序列号,loss
total
表示最终损失,f(x
i,j
,θ)表示下降函数,θ表示学习率,x
i,j
和y
i,j
表示新业务数据的横纵坐标位置。
[0039]
为了解决上述问题,本发明还提供一种基于深度模型的数据处理装置,所述装置包括:
[0040]
模型划分模块,用于将待持续学习的深度模型划分为新深度模型和旧深度模型,并获取所述旧深度模型中的旧权重矩阵参数;
[0041]
模型损失计算模块,用于将新业务数据输入至所述新深度模型中,以通过所述新业务数据对所述新深度模型进行训练,并生成所述新业务数据的预测值,利用所述新深度模型中的损失函数计算所述预测值与其对应真实值的第一损失;
[0042]
所述模型损失计算模块,还用于获取训练后的所述新深度模型中的新权重矩阵参数,将所述旧权重矩阵参数和所述新权重矩阵参数进行归一化,并计算归一化后的所述旧权重矩阵参数和所述新权重矩阵参数的第二损失;
[0043]
所述模型损失计算模块,还用于根据所述第一损失和所述第二损失,计算训练后的所述新深度模型的最终损失;
[0044]
模型损失判断模块,用于判断所述最终损失是否满足预设条件;
[0045]
模型参数调整模块,用于在所述最终损失不满足所述预设条件时,调整所述新深度模型的参数后,返回所述将新业务数据输入至所述新深度模型中的步骤;
[0046]
模型生成模块,用于在所述最终损失满足所述预设条件时,得到持续学习后的新深度模型;
[0047]
数据处理模块,用于将待处理业务数据输入至所述持续学习后的新深度模型中,以输出所述待处理业务数据的模型处理结果。
[0048]
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
[0049]
至少一个处理器;以及,
[0050]
与所述至少一个处理器通信连接的存储器;其中,
[0051]
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以实现上述所述的基于深度模型的数据处理方法。
[0052]
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于深度模型的数据处理方法。
[0053]
可以看出,本发明实施例首先通过获取旧深度模型的旧权重矩阵参数和训练后的新深度模型的新权重矩阵参数,以了解所述新旧深度模型在输出预测值时的概率分布情况,并利用所述新深度模型计算所述新业务数据的第一损失,以作为所述新深度模型在预测新业务数据过程中模型损失判断的依据;其次,本发明实施例通过分别将所述旧权重矩阵参数和所述新权重矩阵参数进行归一化,以保障新旧权重矩阵参数的概率分布损失的计算前提,并计算归一化后的所述旧权重矩阵参数和所述新权重矩阵参数的第二损失,可以衡量所述新模型权重矩阵参数与所述旧模型权重矩阵参数的分布差异性,避免在深度模型学习过程中出现过多权重矩阵参数数量的问题,并根据所述第一损失和所述第二损失,计算训练后的所述新深度模型的最终损失,以识别训练后的所述新深度模型是否既具有旧业务数据的识别能力又具有新业务数据的识别能力;进一步地,本发明实施例在所述最终损失不满足预设条件时,优化所述新深度模型的参数,以使所述新深度模型继续学习,避免新深度模型在旧数据识别过程中出现数据遗忘的现象,在所述最终损失满足所述预设条件时,生成持续学习后的新深度模型,以执行待处理业务数据的数据处理。因此,本发明提出的一种基于深度模型的数据处理方法、装置、电子设备以及存储介质可以可以解决深度模型在处理数据过程中发生数据遗忘的问题,同时又可以避免在深度模型中出现过多的权重矩阵参数。
附图说明
[0054]
图1为本发明一实施例提供的基于深度模型的数据处理方法的流程示意图;
[0055]
图2为本发明一实施例提供的基于深度模型的数据处理装置的模块示意图;
[0056]
图3为本发明一实施例提供的实现基于深度模型的数据处理方法的电子设备的内部结构示意图;
[0057]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0058]
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0059]
本技术实施例提供一种基于深度模型的数据处理方法。所述基于深度模型的数据处理方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。换言之,所述基于深度模型的数据处理方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0060]
参照图1所示,为本发明一实施例提供的基于深度模型的数据处理方法的流程示意图。在本发明实施例中,所述基于深度模型的数据处理方法包括:
[0061]
s1、将待持续学习的深度模型划分为新深度模型和旧深度模型,并获取所述旧深度模型中的旧权重矩阵参数。
[0062]
本发明实施例中,所述深度模型可以理解为深层次的神经网络,通过所述深度模型可以获得深层次的特征表示,免除人工选取特征的复杂冗余和高维数据维度灾难问题,常见的深度模型如lenet模型、alexnet模型等,进一步地,所述待持续学习的深度模型(continual learning)用于在一个业务场景下不断有新业务数据产生,并且产生的新业务数据中会有新类别的业务数据出现,此时使用这些新业务数据对深度模型进行持续训练与优化后,可以使深度模型既能在新业务数据上进行准确地预测,也能保持在旧有业务数据上的预测效果,不会发生旧深度模型“遗忘”退化的问题,于是,本发明实施例通过将待持续学习的深度模型划分为新深度模型和旧深度模型,以使所述旧深度模型作为所述新深度模型在进行新业务数据预测过程中起到监督作用,保障所述新深度模型既具有旧数据的预测能力又具有新数据的预测能力。
[0063]
需要说明的是,本发明实施例中,所述待持续学习的深度模型基于不同业务场景产生,例如对于语音处理场景,所述待持续学习的深度模型可以为如语音识别、语音合成以及语音控制等模);对于图像处理场景,所述待持续学习的深度模型可以为如图像检测、图像分类以及图像定位等模型;对于文本处理场景,所述待持续学习的深度模型可以为如文本分类、文本抽取以及文本分析等模型。
[0064]
进一步地,本发明实施例中,所述待持续学习的深度模型划分通过将所述待持续学习的深度模型进行复制成结构具有完全相同两个的深度模型实现,即将用于新业务数据预测的模型作为新深度模型,不用于新业务数据预测的模型作为旧深度模型,应该了解的是,所述待持续学习的深度模型是指已经通过历史数据进行训练过的模型,因此,本发明实施例通过获取所述旧深度模型的旧权重矩阵参数,以了解所述旧深度模型在输出预测值时的概率分布情况。可选的,本发明实施例所述旧深度模型中的旧权重矩阵参数可以通过查找所述旧深度模型中的关键模型层得到。
[0065]
s2、将新业务数据输入至所述新深度模型中,以通过所述新业务数据对所述新深度模型进行训练,并生成所述新业务数据的预测值,利用所述新深度模型中的损失函数计算所述预测值与其对应真实值的第一损失。
[0066]
本发明实施例中,所述新业务数据与所述新深度模型产生于同一业务场景下,需说明的是,所述新业务数据区别与所述旧深度模型的历史业务数据,即所述新业务数据与所述历史业务数据具有明显区别的特征,如所述历史业务数据为ct图像,则所述新业务数据可以为脑科图像,所述历史业务数据为医疗科室,则所述新业务数据可以为医疗人员,所述历史业务数据为医院a的医生语音,则所述新业务数据可以为医院b的医生语音,应该了解的是,由于所述新深度模型和所述旧深度模型为结构完全相同的模型,且所述新业务数据区别与所述旧深度模型的历史业务数据,因此,所述新深度模型并不具有所述新业务数据的预测能力,于是,本发明实施例通过将所述新业务数据输入至所述新深度模型中,以通过所述新业务数据对所述新深度模型进行训练,并生成所述新业务数据的预测值,使得训练后的所述新深度模型具备新业务数据的识别能力。
[0067]
作为本发明的一个实施例,所述将新业务数据输入至所述新深度模型中,以通过所述新业务数据对所述新深度模型进行训练,并生成所述新业务数据的预测值,包括:利用所述新深度模型中的输入层接收所述新业务数据,并利用所述新深度模型中的隐藏层提取接收的所述新业务数据的特征数据,利用所述新深度模型中的全连接层计算所述特征数据的数据预测值,利用所述新深度模型中的输出层输出所述数据预测值,生成所述新业务数据的预测值。
[0068]
需要说明的是,所述新深度模型的训练过程与所述旧深度模型的训练过程相同,且模型的训练原理属于当前较为成熟的技术,在此本发明不做进一步地细述。
[0069]
进一步地,本发明实施例通过利用所述新深度模型中的损失函数计算所述预测值与其真实值的第一损失,以作为后续所述新深度模型在预测新业务数据过程中模型损失判断的依据,所述真实值是指所述新业务数据的真实标签,如所述新业务数据为金融文本,则其对应的真实标签可以为金融。
[0070]
进一步地,本发明又一可选实施例中,所述新深度模型中的损失函数包括:
[0071][0072]
其中,loss
acc
表示损失值,k表示新业务数据的数量,i表示新业务数据的序列号,y
i
表示第i个预测值,y

i
表示第i个真实值。
[0073]
s3、获取训练后的所述新深度模型中的新权重矩阵参数,将所述旧权重矩阵参数和所述新权重矩阵参数进行归一化,并计算归一化后的所述旧权重矩阵参数和所述新权重矩阵参数的第二损失。
[0074]
应该了解,在所述新深度模型通过所述新业务数据进行训练后,其内部的权重矩阵参数会发生变化,因此,本发明实施例通过获取训练后的所述新深度模型中的新权重矩阵参数,以识别出新深度模型在进行训练后与所述旧深度模型的概率分布差异性,可以更好的调整训练后的所述新深度模型的参数,从而使得训练后的所述新深度模型与所述旧深度模型保持一致性,进而使得所述新深度模型既具有旧深度模型的旧业务数据识别能力又具有新业务数据识别能力。可选的,本发明实施例所述新权重矩阵参数可以通过查找训练后的所述新深度模型中的关键模型层得到。
[0075]
进一步地,为保障所述新权重矩阵参数的复用性和隐私性,所述新权重矩阵参数
还可存储于一区块链节点中。
[0076]
进一步地,由于所述新权重矩阵参数和所述旧权重矩阵参数并不具有概率分布的特征,因此无法直接计算所述新权重矩阵参数和所述旧权重矩阵参数的差异分布,于是,本发明实施例通过分别将所述新权重矩阵参数和所述旧权重矩阵参数进行归一化,以保障所述新权重矩阵参数和所述旧权重矩阵参数的第二损失计算前提。
[0077]
作为本发明的一个实施例,所述分别将所述新权重矩阵参数和所述旧权重矩阵参数进行归一化,包括:查询所述新模型权重矩阵参数中的新参数最小值及所述旧模型权重矩阵参数中的旧参数最小值将所述新参数最小值与所述旧参数最小值进行相加操作后得到模型参数最小值分别将所述新模型权重矩阵参数和所述旧模型权重矩阵参数中每个参数与所述模型参数最小值进行相减操作,分别得到所述新模型权重矩阵参数的新参数和所述旧模型权重矩阵参数的旧参数,并分别将所述新模型权重矩阵参数的新参数和所述旧模型权重矩阵参数的旧标参数进行累加操作,分别得到新参数总和值和旧参数总和值,根据所述新参数与所述新参数总和值,及所述旧参数与所述旧参数总和值,分别执行所述新模型权重矩阵参数和所述旧模型权重矩阵参数的归一化。
[0078]
进一步地,本发明实施例中,利用下述公式分别执行所述新模型权重矩阵参数的新参数和所述旧模型权重矩阵参数的归一化:
[0079][0080][0081]
其中,表示归一化后的新模型权重矩阵参数,表示归一化后的旧模型权重矩阵参数,n表示参数的总量,i表示参数的序列号,表示新模型权重矩阵参数中第i个参数,表示旧模型权重矩阵参数中第i个参数,表示新模型权重矩阵参数中新参数最小值,表示旧模型权重矩阵参数中旧参数最小值。
[0082]
需要说明的是,所述新深度模型和所述旧深度模型是属于结构完全相同的两个模型,因此,所述新模型权重矩阵参数和所述旧模型权重矩阵参数的参数的总量是一致的,且在所述新模型权重矩阵参数和所述旧模型权重矩阵参数中每个参数的位置也是相同的,于是,本发明实施例用相同的i和n表示新旧模型权重矩阵参数的参数序列号和参数总量。
[0083]
进一步地,本发明实施例通过计算归一化后的所述旧权重矩阵参数和所述新权重
矩阵参数的第二损失,以衡量所述新模型权重矩阵参数与所述旧模型权重矩阵参数的分布差异性,避免在深度模型学习过程中出现过多权重矩阵参数数量的问题,其中,若所述第二损失越小,则代表所述新模型权重矩阵参数的分布与所述旧模型权重矩阵参数的分布越相似,则越表征所述新深度模型在学习新业务数据过程中并没有遗忘旧业务数据的识别能力。
[0084]
进一步地,本发明一可选实施例中,利用下述公式计算归一化后的所述旧权重矩阵参数和所述新权重矩阵参数的第二损失:
[0085][0086]
其中,loss
kl
表示第二损失,p(x
i
)表示归一化后的所述旧权重矩阵参数的概率分布,q(x
i
)表示归一化后的所述新权重矩阵参数的概率分布,n表示参数的总量,i表示参数的序列号。
[0087]
s4、根据所述第一损失和所述第二损失,计算训练后的所述新深度模型的最终损失。
[0088]
本发明实施例根据所述第一损失和所述第二损失,计算训练后的所述新深度模型的最终损失,以识别训练后的所述新深度模型是否既具有旧业务数据的识别能力又具有新业务数据的识别能力。可选的,本发明实施例利用下述公式计算训练后的所述新深度模型的最终损失:
[0089]
loss
total
=loss
acc
+loss
kl
[0090]
其中,loss
total
表示最终损失,loss
acc
表示第一损失,loss
kl
表示第二损失。
[0091]
s5、判断所述最终损失是否满足预设条件;
[0092]
本发明实施例通过判断所述最终损失是否满足预设条件,以识别所述训练后的所述新深度模型是否还需要继续学习,即在所述最终损失不满足所述预设条件时,表示所述训练后的所述新深度模型还需要继续学习,在所述最终损失不满足所述预设条件时,表示所述训练后的所述新深度模型不需要继续学习。
[0093]
其中,所述预设条件可以设置为所述最终损失是否小于0.1,也可以根据实际业务场景设置,需要说明的是,在所述最终损失不小于0.1时,表示所述最终损失不满足预设条件,在所述最终损失小于0.1时,表示所述最终损失满足预设条件。
[0094]
s6、在所述最终损失不满足预设条件时,调整所述新深度模型的参数后,返回所述将新业务数据输入至所述新深度模型中的步骤。
[0095]
应该了解,在所述最终损失不满足所述预设条件时,则表示训练后的所述新深度模型并不同时具备旧业务数据和新业务数据的识别能力,因此本发明实施例通过调整所述新深度模型的参数后,返回所述将新业务数据输入至所述新深度模型中的步骤,以使所述新深度模型继续学习,避免新深度模型在旧数据识别过程中出现遗忘的现象。
[0096]
本发明一可选实施例中,利用下述公式调整所述新深度模型的参数:
[0097][0098]
其中,lθ表示调整的参数,m表示新业务数据的数量,k表示新业务数据的序列号,
loss
total
表示最终损失,f(x
i,j
,θ)表示下降函数,θ表示学习率,x
i,j
和y
i,j
表示新业务数据的横纵坐标位置。
[0099]
s7、在所述最终损失满足所述预设条件时,得到持续学习后的新深度模型。
[0100]
应该了解,在所述最终损失满足所述预设条件时,则表示训练后的所述新深度模型同时具备旧业务数据和新业务数据的识别能力,因此本发明实施例直接生成持续学习后的新深度模型。
[0101]
s8、将待处理业务数据输入至所述持续学习后的新深度模型中,以输出所述待处理业务数据的模型处理结果。
[0102]
本发明实施例中,所述待处理业务数据是指保持与上述新业务数据和旧业务数据具有相同特征的数据,如所述新业务数据和旧业务数据为语音数据,则该处理业务数据为待处理的语音数据,所述新业务数据和旧业务数据为图像数据,则该处理业务数据为待处理的图像数据,所述新业务数据和旧业务数据为文本数据,则该处理业务数据为待处理的文本数据,需要说明的是,本发明实施例中,所述持续学习后的新深度模型在经过所述新业务数据训练后,其已经具备旧业务数据和新业务数据的识别能力,因此,本发明实施例通过将待处理业务数据输入至所述持续学习后的新深度模型中,以输出所述待处理业务数据的模型处理结果。
[0103]
可以看出,本发明实施例首先通过获取旧深度模型的旧权重矩阵参数和训练后的新深度模型的新权重矩阵参数,以了解所述新旧深度模型在输出预测值时的概率分布情况,并利用所述新深度模型计算所述新业务数据的第一损失,以作为所述新深度模型在预测新业务数据过程中模型损失判断的依据;其次,本发明实施例通过分别将所述旧权重矩阵参数和所述新权重矩阵参数进行归一化,以保障新旧权重矩阵参数的概率分布损失的计算前提,并计算归一化后的所述旧权重矩阵参数和所述新权重矩阵参数的第二损失,可以衡量所述新模型权重矩阵参数与所述旧模型权重矩阵参数的分布差异性,避免在深度模型学习过程中出现过多权重矩阵参数数量的问题,并根据所述第一损失和所述第二损失,计算训练后的所述新深度模型的最终损失,以识别训练后的所述新深度模型是否既具有旧业务数据的识别能力又具有新业务数据的识别能力;进一步地,本发明实施例在所述最终损失不满足预设条件时,优化所述新深度模型的参数,以使所述新深度模型继续学习,避免新深度模型在旧数据识别过程中出现数据遗忘的现象,在所述最终损失满足所述预设条件时,生成持续学习后的新深度模型,以执行待处理业务数据的数据处理。因此,本发明提出的一种基于深度模型的数据处理方法可以可以解决深度模型在处理数据过程中发生数据遗忘的问题,同时又可以避免在深度模型中出现过多的权重矩阵参数。
[0104]
如图2所示,是本发明基于深度模型的数据处理装置的功能模块图。
[0105]
本发明所述基于深度模型的数据处理装置100可以安装于电子设备中。根据实现的功能,所述基于深度模型的数据处理装置可以包括模型划分模块101、模型损失计算模块102、模型损失判断模块103、模型参数调整模块104、模型生成模块105以及数据处理模块106。本发明所述模块也可以称之为单元,是指一种能够被电子设备的处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
[0106]
在本实施例中,关于各模块/单元的功能如下:
[0107]
所述模型划分模块101,用于将待持续学习的深度模型划分为新深度模型和旧深
度模型,并获取所述旧深度模型中的旧权重矩阵参数;
[0108]
所述模型损失计算模块102,用于将新业务数据输入至所述新深度模型中,以通过所述新业务数据对所述新深度模型进行训练,并生成所述新业务数据的预测值,利用所述新深度模型中的损失函数计算所述预测值与其对应真实值的第一损失;
[0109]
所述模型损失计算模块102,还用于获取训练后的所述新深度模型中的新权重矩阵参数,将所述旧权重矩阵参数和所述新权重矩阵参数进行归一化,并计算归一化后的所述旧权重矩阵参数和所述新权重矩阵参数的第二损失;
[0110]
所述模型损失计算模块102,还用于根据所述第一损失和所述第二损失,计算训练后的所述新深度模型的最终损失;
[0111]
所述模型损失判断模块103,用于判断所述最终损失是否满足预设条件;
[0112]
所述模型参数调整模块104,用于在所述最终损失不满足所述预设条件时,调整所述新深度模型的参数后,返回所述将新业务数据输入至所述新深度模型中的步骤;
[0113]
所述模型生成模块105,用于在所述最终损失满足所述预设条件时,得到持续学习后的新深度模型。
[0114]
所述数据处理模块106,用于将待处理业务数据输入至所述持续学习后的新深度模型中,以输出所述待处理业务数据的模型处理结果。
[0115]
详细地,本发明实施例中所述基于深度模型的数据处理装置100中的所述各模块在使用时采用与上述的图1中所述的基于深度模型的数据处理方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
[0116]
如图3所示,是本发明实现基于深度模型的数据处理方法的电子设备1的结构示意图。
[0117]
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于深度模型的数据处理程序。
[0118]
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备1的控制核心(control unit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行基于深度模型的数据处理程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
[0119]
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于深度模型的数据处理程序的代码等,还可以用于暂时地
存储已经输出或者将要输出的数据。
[0120]
所述通信总线12可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
[0121]
所述通信接口13用于上述电子设备1与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如wi

fi接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备1之间建立通信连接。所述用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light

emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
[0122]
图3仅示出了具有部件的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0123]
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、wi

fi模块等,在此不再赘述。
[0124]
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
[0125]
所述电子设备1中的所述存储器11存储的基于深度模型的数据处理程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
[0126]
将待持续学习的深度模型划分为新深度模型和旧深度模型,并获取所述旧深度模型中的旧权重矩阵参数;
[0127]
将新业务数据输入至所述新深度模型中,以通过所述新业务数据对所述新深度模型进行训练,并生成所述新业务数据的预测值,利用所述新深度模型中的损失函数计算所述预测值与其对应真实值的第一损失;
[0128]
获取训练后的所述新深度模型中的新权重矩阵参数,将所述旧权重矩阵参数和所述新权重矩阵参数进行归一化,并计算归一化后的所述旧权重矩阵参数和所述新权重矩阵参数的第二损失;
[0129]
根据所述第一损失和所述第二损失,计算训练后的所述新深度模型的最终损失;
[0130]
判断所述最终损失是否满足预设条件;
[0131]
在所述最终损失不满足所述预设条件时,调整所述新深度模型的参数后,返回所述将新业务数据输入至所述新深度模型中的步骤;
[0132]
在所述最终损失满足所述预设条件时,得到持续学习后的新深度模型;
[0133]
将待处理业务数据输入至所述持续学习后的新深度模型中,以输出所述待处理业
务数据的模型处理结果。
[0134]
具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
[0135]
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read

only memory)。
[0136]
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备1的处理器所执行时,可以实现:
[0137]
将待持续学习的深度模型划分为新深度模型和旧深度模型,并获取所述旧深度模型中的旧权重矩阵参数;
[0138]
将新业务数据输入至所述新深度模型中,以通过所述新业务数据对所述新深度模型进行训练,并生成所述新业务数据的预测值,利用所述新深度模型中的损失函数计算所述预测值与其对应真实值的第一损失;
[0139]
获取训练后的所述新深度模型中的新权重矩阵参数,将所述旧权重矩阵参数和所述新权重矩阵参数进行归一化,并计算归一化后的所述旧权重矩阵参数和所述新权重矩阵参数的第二损失;
[0140]
根据所述第一损失和所述第二损失,计算训练后的所述新深度模型的最终损失;
[0141]
判断所述最终损失是否满足预设条件;
[0142]
在所述最终损失不满足所述预设条件时,调整所述新深度模型的参数后,返回所述将新业务数据输入至所述新深度模型中的步骤;
[0143]
在所述最终损失满足所述预设条件时,得到持续学习后的新深度模型;
[0144]
将待处理业务数据输入至所述持续学习后的新深度模型中,以输出所述待处理业务数据的模型处理结果。
[0145]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0146]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0147]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0148]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
[0149]
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的
含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0150]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0151]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0152]
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
[0153]
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1