模型获取方法、装置、系统、电子设备及存储介质与流程

文档序号:31374393发布日期:2022-09-02 23:15阅读:71来源:国知局
模型获取方法、装置、系统、电子设备及存储介质与流程

1.本公开涉及人工智能技术领域,特别涉及深度学习以及自然语言处理等领域的模型获取方法、装置、系统、电子设备及存储介质。


背景技术:

2.语音情绪识别在心理评估、机器人助手以及移动服务等方面有着广泛的应用。在实际应用中,通常借助于语音情绪识别模型来进行语音情绪识别,而模型的精度直接影响着识别结果的准确性。


技术实现要素:

3.本公开提供了模型获取方法、装置、系统、电子设备及存储介质。
4.一种模型获取方法,包括:
5.获取云端最新得到的全局模型,所述全局模型为所述云端确定不符合预定的结束条件时发送给至少两个设备端的;
6.利用所述全局模型为未标注的数据生成伪标签,得到具有所述伪标签的第一类训练数据;
7.利用所述第一类训练数据以及具有人工标注标签的第二类训练数据对所述全局模型进行训练,得到更新模型;
8.将所述更新模型返回给所述云端,用于所述云端结合获取到的各更新模型更新所述全局模型。
9.一种模型获取方法,包括:
10.获取预训练得到的全局模型,并执行以下第一处理:
11.将所述全局模型发送给至少两个设备端,并获取所述设备端返回的更新模型,所述更新模型为所述设备端利用第一类训练数据以及第二类训练数据对所述全局模型进行训练后得到的模型,所述第一类训练数据为具有伪标签的训练数据,所述伪标签为利用所述全局模型为未标注的数据生成的标签,所述第二类训练数据为具有人工标注标签的训练数据;
12.结合获取到的各更新模型更新所述全局模型;
13.响应于确定符合预定的结束条件,将最新得到的所述全局模型作为最终所需的模型,否则,基于最新得到的所述全局模型重复执行所述第一处理。
14.一种模型获取装置,包括:第一获取模块、生成模块、训练模块以及发送模块;
15.所述第一获取模块,用于获取云端最新得到的全局模型,所述全局模型为所述云端确定不符合预定的结束条件时发送给至少两个设备端的;
16.所述生成模块,用于利用所述全局模型为未标注的数据生成伪标签,得到具有所述伪标签的第一类训练数据;
17.所述训练模块,用于利用所述第一类训练数据以及具有人工标注标签的第二类训
练数据对所述全局模型进行训练,得到更新模型;
18.所述发送模块,用于将所述更新模型返回给所述云端,用于所述云端结合获取到的各更新模型更新所述全局模型。
19.一种模型获取装置,包括:第二获取模块以及更新模块;
20.所述第二获取模块,用于获取预训练得到的全局模型;
21.所述更新模块,用于执行以下第一处理:将所述全局模型发送给至少两个设备端,并获取所述设备端返回的更新模型,所述更新模型为所述设备端利用第一类训练数据以及第二类训练数据对所述全局模型进行训练后得到的模型,所述第一类训练数据为具有伪标签的训练数据,所述伪标签为利用所述全局模型为未标注的数据生成的标签,所述第二类训练数据为具有人工标注标签的训练数据;结合获取到的各更新模型更新所述全局模型;响应于确定符合预定的结束条件,将最新得到的所述全局模型作为最终所需的模型,否则,基于最新得到的所述全局模型重复执行所述第一处理。
22.一种模型获取系统,包括如以上所述的两种装置。
23.一种电子设备,包括:
24.至少一个处理器;以及
25.与所述至少一个处理器通信连接的存储器;其中,
26.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
27.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行如以上所述的方法。
28.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如以上所述的方法。
29.上述公开中的一个实施例具有如下优点或有益效果:可利用全局模型的能力来对各设备端的未标注的数据进行标注,从而扩充了训练数据,而且,可结合多个设备端的模型更新结果来更新全局模型,进而提升了模型的精度,以所述模型为语音情绪识别模型为例,相应地,采用所述语音情绪识别模型进行语音情绪识别,可提升识别结果的准确性。
30.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
31.附图用于更好地理解本方案,不构成对本公开的限定。其中:
32.图1为本公开所述模型获取方法第一实施例的流程图;
33.图2为本公开所述全局模型的结构示意图;
34.图3为本公开所述每个块中的处理方式示意图;
35.图4为本公开所述模型获取方法第二实施例的流程图;
36.图5为本公开所述模型获取装置第一实施例500的组成结构示意图;
37.图6为本公开所述模型获取装置第二实施例600的组成结构示意图;
38.图7为本公开所述模型获取系统实施例700的组成结构示意图;
39.图8示出了可以用来实施本公开的实施例的电子设备800的示意性框图。
具体实施方式
40.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
41.另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
42.图1为本公开所述模型获取方法第一实施例的流程图。如图1所示,包括以下具体实现方式。
43.在步骤101中,获取云端最新得到的全局模型,所述全局模型为云端确定不符合预定的结束条件时发送给至少两个设备端的。
44.在步骤102中,利用全局模型为未标注的数据生成伪标签,得到具有伪标签的第一类训练数据。
45.在步骤103中,利用第一类训练数据以及具有人工标注标签的第二类训练数据对全局模型进行训练,得到更新模型。
46.在步骤104中,将更新模型返回给云端,用于云端结合获取到的各更新模型更新全局模型。
47.为提升模型的精度,关键在于需要有足够多的训练数据,但在实际应用中,由于用户隐私、商业机密、法律法规监管等原因,数据孤岛问题普遍存在,无法将大量训练数据整合在一起,用来训练一个效果较好的模型。
48.而采用上述方法实施例所述方案,可利用全局模型的能力来对各设备端的未标注的数据进行标注,从而扩充了训练数据,而且,可结合多个设备端的模型更新结果来更新全局模型,即可采用联合训练的方式,进而提升了模型的精度,以所述模型为语音情绪识别模型为例,相应地,采用所述语音情绪识别模型进行语音情绪识别,可提升识别结果的准确性。
49.初始的全局模型可为云端通过预训练得到的。以语音情绪识别场景为例,可对语音数据进行分帧,如每帧时长为40ms,帧移为20ms,并可分别对每帧语音数据进行特征提取,所述特征可为梅尔频率倒谱系数(mfcc,mel frequency cepstrum coefficient)、感知线性预测系数(plp,perceptual linear predictive)或滤波器组系数(fbank,filter bank)等,可将提取到的语音特征数据及对应的标签作为训练数据,训练得到全局模型,如可进行模型的前向计算,根据交叉熵(ce,cross entropy)得到损失,根据随机梯度下降准则反向转播梯度,更新模型参数,并反复迭代多轮至收敛等,从而得到具有一定的语音情绪识别能力的全局模型,即基础模型。
50.云端可将预训练得到的全局模型发送给至少两个设备端,相应地,图1所示方法实施例的执行主体可为设备端。
51.设备端在获取到来自云端的全局模型后,可利用全局模型为未标注的数据生成伪标签,从而得到具有伪标签的第一类训练数据。由于不是通过人工标注的方式生成的标签,因此称为伪标签。
52.本公开的一个实施例中,针对任一未标注的数据,可分别获取m条增强数据,m为大于一的正整数,每条增强数据可分别为对该未标注的数据进行随机噪声叠加后得到的数据,之后可分别将m条增强数据作为全局模型的输入,得到m个输出结果,进而可结合m个输出结果确定出该未标注的数据的伪标签。
53.通过上述处理,可借助于全局模型,实现为未标注的数据自动打标签,从而扩充了训练数据,而且,通过对未标注的数据进行随机噪声叠加,可提升模型的鲁棒性以及对复杂环境的适应性等。
54.可通过引入系数因子来实现所述随机噪声叠加,即实现随机特征增强,具体如下所示:
55.φ(x)=x

α+r;(1)
56.其中,φ(x)表示增强数据,x表示未标注的数据,α表示服从均值为1方差为σ1的高斯分布,即r表示服从均值为0方差为σ2(通常取0.1)的高斯分布,即可通过调节σ1(如弱:0.1,强:0.25)的大小来调节增强的强弱。
57.m的具体取值可根据实际需要而定,比如,可为10。
58.相应地,针对任一未标注的数据,可分别对其进行10次随机噪声叠加,从而可得到10条增强数据,每次叠加时的系数(α,r)均可随机产生,之后,可分别将10条增强数据输入到全局模型,从而分别得到10个输出结果,进而可结合10个输出结果确定出该未标注的数据的伪标签。
59.本公开的一个实施例中,所述输出结果可包括:由n个元素组成的向量,n为大于一的正整数,每个元素分别表示属于对应的标签的概率值,相应地,在结合m个输出结果确定出未标注的数据的伪标签时,可计算m个向量的均值,得到均值向量,并可将均值向量中取值最大的元素对应的标签作为未标注的数据的伪标签。
60.以语音情绪识别场景为例,假设共包括4种情绪识别结果,分别为生气、开心、中立和伤心,那么n的取值可为4,每个输出结果可分别为一个由4个元素组成的向量,其中,第1个元素可表示属于“生气”这一标签(情绪类别)的概率值,第2个元素可表示属于“开心”这一标签的概率值,第3个元素可表示属于“中立”这一标签的概率值,第4个元素可表示属于“伤心”这一标签的概率值,对于得到的10个向量,可计算其均值,从而得到一个均值向量,进而可将均值向量中取值最大的元素对应的标签(如“开心”)作为未标注的数据的伪标签。
61.通过上述处理,可结合同一未标注的数据对应的多条增强数据来最终确定出该未标注的数据的伪标签,从而提升了确定结果的准确性。
62.本公开的一个实施例中,还可响应于确定均值向量中取值最大的元素大于第一阈值,将均值向量中取值最大的元素对应的标签作为未标注的数据的伪标签。
63.即针对均值向量中取值最大的元素,还可将其与第一阈值进行比较,若均值向量中取值最大的元素大于第一阈值,则可将均值向量中取值最大的元素对应的标签作为未标注的数据的伪标签。
64.第一阈值的具体取值可根据实际需要而定,并可随时进行调整,比如,训练初期可为0.5,中后期可一直递增到0.9。
65.通过设置第一阈值并进行比较,可进一步提升生成的伪标签的准确性。
66.本公开的一个实施例中,还可计算m个向量的方差,响应于确定所述方差小于第二
阈值,可保留未标注的数据及对应的伪标签,即确定伪标签可用,否则,可丢弃未标注的数据及对应的伪标签。
67.第二阈值的具体取值也可根据实际需要而定,比如,可为0.005。
68.通过上述处理,可充分利用网络预测的不确定性来挑选出更为准确的伪标签,进而进一步提升了伪标签的质量。
69.在获取到第一类训练数据后,可利用第一类训练数据以及具有人工标注标签的第二类训练数据对获取到的全局模型进行训练,得到更新模型。
70.本公开的一个实施例中,在对全局模型进行训练之前,还可对第二类训练数据进行随机噪声叠加,通过叠加随机噪声,可提升模型的鲁棒性以及对复杂环境的适应性等。
71.本公开的一个实施例中,为第一类训练数据叠加的噪声可强于为第二类训练数据叠加的噪声,和/或,第一类训练数据的数量可小于第二类训练数据的数量。
72.即对于第二类训练数据,可进行弱增强,对于第一类训练数据,可进行强增强,如前所述,可通过调节σ1(如弱:0.1,强:0.25)的大小来调节增强的强弱,从而进一步提升了模型的鲁棒性等。另外,相比于第二类训练数据,第一类训练数据的数量通常较少,如在所有训练数据中的占比通常不超过20%,并且可逐渐递增至20%,即随着训练轮数的增加,占比可逐渐增大,直到20%。由于第二类训练数据的标注结果更为准确,因此其占比可较大,以提升模型的训练效果,随着训练轮数的增加,全局模型的性能提升,得到的伪标签也会越来越准确,相应地,可适当增大第一类训练数据的占比,从而可以利用更多的未标注的数据来对模型进行训练。
73.以语音情绪识别场景为例,在将任一训练数据输入全局模型时,还可带有一定数量的上下文,如将相邻4帧(前后各2帧)语音数据对应的训练数据一并输入,以提升识别结果的准确性。
74.本公开的一个实施例中,设备端在利用第一类训练数据以及第二类训练数据对全局模型进行训练时,还可根据获取自云端的全局控制变量对全局模型的模型参数进行更新。
75.本公开的一个实施例中,所述全局控制变量可包括:各模型参数分别对应的全局控制变量;对于任一模型参数,该模型参数对应的全局控制变量可为该模型参数在云端最新一次获取到的各更新模型中的更新量的均值,相应地,根据获取自云端的全局控制变量对全局模型的模型参数进行更新可包括:针对任一模型参数,分别获取该模型参数在最新一次生成(设备端)的更新模型中的更新量与该模型参数对应的全局控制变量的差异,根据所述差异对该模型参数进行更新。
76.由于多设备端数据不同源,分布不同等,训练过程中很容易出现梯度漂移(或称为设备漂移)问题,导致模型不稳定,本公开所述方式中,可利用全局控制变量来对设备端的模型参数更新进行指导/引导,即通过引入全局控制变量,有效地引导设备端的训练方向,充分地利用全局模型的知识去限制局部模型(即设备端的模型)的模型参数更新,以防止那些与全局模型相差较大的局部模型带偏整个系统的训练方向,提升训练效果等。
77.比如,假设总共有10个设备端参与联合训练,每一轮的训练中,云端可从中随机地选出部分或全部设备端,并可将全局模型发送给选出的这些设备端,同时可向这些设备端发送各模型参数分别对应的全局控制变量,其中,对于任一模型参数来说,其对应的全局控
制变量可为云端最新一次获取到的各更新模型(即上一次选出的各设备端返回的更新模型)中、该模型参数的更新量的均值,即在各更新模型中的更新量的均值,更新量即指相比于更新前的值的变化量。
78.对于设备端来说,在对全局模型进行更新时,针对任一模型参数,可分别获取该模型参数在最新一次生成的更新模型中的更新量与该模型参数对应的全局控制变量的差异,并可根据所述差异对该模型参数进行更新,即可将所述差异引入到该模型参数的更新中,以防止更新方向偏移全局最优点,比如,可基于所述差异,增大或减小原本的参数更新幅度。
79.设备端可将生成的更新模型返回给云端,相应地,云端可结合获取到的各更新模型更新全局模型,即可根据各设备端更新后的模型参数,通过综合平均等,进行全局模型的更新,并可进行各模型参数对应的全局控制变量的更新。进一步地,云端可确定是否符合结束条件,若是,可结束处理,否则,可将最新得到的全局模型发送给至少两个设备端,重复前述处理。
80.即多个设备端模型进行云端融合,共同更新,提升云端模型能力,再分发给各设备端,使得各设备端能够享有其它设备端的数据带来的性能提升。
81.在实际应用中,对于设备端来说,若确定自身的全局模型已收敛,可主动退出,对于退出的设备端,后续云端将不会再向其发送全局模型。比如,设备端可将每次训练时的所有训练数据中的80%用于训练,剩下20%用于验证模型效果,即验证训练后的模型是否收敛。另外,未标注的数据可重复使用,即设备端每次获取到新的全局模型后,可对之前打过标签的未标注的数据重新打标签。
82.本公开的一个实施例中,全局模型中可包括:p个块(block)、注意力模块以及回归输出模块,p为正整数;每个块分别用于进行时域和频域的卷积运算,并将两个运算结果拼接后输出,注意力模块用于基于时频域注意力机制和/或信道注意力机制对最后一个块的输出结果进行处理,回归输出模块用于基于注意力模块的输出结果以及预定的常量因子生成全局模型的输出结果。
83.p的具体取值可根据实际需要而定,比如,可为4。
84.图2为本公开所述全局模型的结构示意图。如图2所示,其前半部分可由4个块组成,每个块中可分别进行两个独立的卷积运算,一个为时域维度(temporal dimension)的卷积运算,另一个为频域维度(spectral dimension)的卷积运算,并可将两个结果进行拼接后输出,从而可以从每个维度分别捕获细粒度的特性,并可从它们的共享输出中学习到高级特性,另外,还可在每个块中分别引入组规范化(group normalization)以及基于空间的丢弃(spatial dropout)处理,以加速训练和避免过拟合。
85.图3为本公开所述每个块中的处理方式示意图。如图3所示,时域维度和频域维度的处理可分别包括:卷积(conv)、组规范化以及整流线性单元(relu,rectified linear units)处理,并可将时域维度和频域维度的输出结果依次执行以下处理后输出:卷积、组规范化、整流线性单元、最大池化(maxpooling)以及基于空间的丢弃。
86.另外,优选地,图2所示注意力模块中可同时采用时频域注意力机制以及信道注意力机制,以语音情绪识别场景为例,采用时频域注意力机制可以捕捉韵律特征和频谱特征,如节奏、音高、语调、共振峰和和声等,采用信道注意力机制可以发现不同卷积信道之间的
相互影响,因为情绪特性是在语音中稀疏分散分布的,需要从多个角度去捕捉刻画,才能准确抓取。
87.图2所示回归输出模块在计算回归(softmax)输出时,可结合常量因子t(通常取值为2),以使得模型的输出更加平稳,即可将计算中涉及到的e
*
修改为e
*/t
,*表示任意内容。
88.图4为本公开所述模型获取方法第二实施例的流程图。如图4所示,包括以下具体实现方式。
89.在步骤401中,获取预训练得到的全局模型。
90.在步骤402中,执行以下第一处理:将全局模型发送给至少两个设备端,并获取设备端返回的更新模型,更新模型为设备端利用第一类训练数据以及第二类训练数据对全局模型进行训练后得到的模型,第一类训练数据为具有伪标签的训练数据,所述伪标签为利用全局模型为未标注的数据生成的标签,第二类训练数据为具有人工标注标签的训练数据;结合获取到的各更新模型更新全局模型;响应于确定符合预定的结束条件,将最新得到的全局模型作为最终所需的模型,否则,基于最新得到的全局模型重复执行所述第一处理。
91.采用上述方法实施例所述方案,可利用全局模型的能力来对各设备端的未标注的数据进行标注,从而扩充了训练数据,而且,可结合多个设备端的模型更新结果来更新全局模型,即可采用联合训练的方式,进而提升了模型的精度。
92.在实际应用中,图4所示实施例的执行主体可为云端。
93.本公开的一个实施例中,云端还可向设备端发送全局控制变量,用于设备端根据所述全局控制变量对全局模型的模型参数进行更新,从而得到更新模型。
94.本公开的一个实施例中,所述全局控制变量可包括:各模型参数分别对应的全局控制变量,相应地,针对任一模型参数,可分别获取该模型参数在最新一次获取到的各更新模型中的更新量的均值,并可将所述均值作为该模型参数对应的全局控制变量,用于设备端根据该模型参数对应的全局控制变量对该模型参数进行更新。
95.云端可通过预训练得到初始的全局模型,由于此时不符合结束条件,因此可将得到的全局模型发送给至少两个设备端。比如,假设总共有10个设备端参与联合训练,可从中随机地选出如5个设备端,并可将初始的全局模型分别发送给这5个设备端,另外,还可将各模型参数分别对应的全局控制变量发送给这5个设备端,初始,各全局控制变量均可为0,当然,由于为0,也可不发送全局控制变量,以节省资源,各设备端可利用获取到的全局模型为未标注的数据生成伪标签,得到第一类训练数据,并可利用第一类训练数据以及第二类训练数据对全局模型进行训练,得到更新模型,进而可将得到的更新模型返回给云端。云端可结合获取到的各更新模型更新全局模型,并可更新各模型参数对应的全局控制变量,假设仍不符合结束条件,那么可从10个参与联合训练的设备端中随机选出如6个设备端,将最新得到的全局模型分别发送给这6个设备端,并可将更新后的各模型参数分别对应的全局控制变量发送给这6个设备端,各设备端可利用获取到的全局模型为未标注的数据生成伪标签,得到第一类训练数据,并可利用第一类训练数据以及第二类训练数据对全局模型进行训练,得到更新模型,其中,可利用获取到的全局控制变量指导模型参数的更新,进而可将得到的更新模型返回给云端。之后可不断地重复上述处理,直到符合结束条件。
96.对于设备端来说,若确定自身的全局模型已收敛,可主动退出,对于退出的设备端,后续云端将不会再向其发送全局模型。相应地,若确定参与联合训练的所有设备端或绝
大多数设备端均已达到收敛,云端则可认为符合结束条件,进而可将最新得到的全局模型作为最终所需的模型。
97.以语音情绪识别场景为例,对于设备端来说,后续,当需要进行语音情绪识别时,既可采用云端最终得到的全局模型,如果需要,也可采用自身训练收敛的全局模型。
98.需要说明的是,对于前述的各方法实施例,为了简单描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本公开所必须的。另外,某个实施例中没有详述的部分,可以参见其它实施例中的相关说明。
99.总之,采用本公开方法实施例所述方案,可提升获取到的模型的精度,并可提升基于所述模型进行的处理(如语音情绪识别)的处理结果的准确性,另外,本公开方法实施例所述方案中的模型不限于语音情绪识别模型,也可为其它任意模型,具有广泛适用性。
100.以上是关于方法实施例的介绍,以下通过装置实施例,对本公开所述方案进行进一步说明。
101.图5为本公开所述模型获取装置第一实施例500的组成结构示意图。所述装置可应用在设备端。如图5所示,包括:第一获取模块501、生成模块502、训练模块503以及发送模块504。
102.第一获取模块501,用于获取云端最新得到的全局模型,所述全局模型为所述云端确定不符合预定的结束条件时发送给至少两个设备端的。
103.生成模块502,用于利用全局模型为未标注的数据生成伪标签,得到具有伪标签的第一类训练数据。
104.训练模块503,用于利用第一类训练数据以及具有人工标注标签的第二类训练数据对全局模型进行训练,得到更新模型。
105.发送模块504,用于将更新模型返回给云端,用于云端结合获取到的各更新模型更新全局模型。
106.采用上述装置实施例所述方案,可利用全局模型的能力来对各设备端的未标注的数据进行标注,从而扩充了训练数据,而且,可结合多个设备端的模型更新结果来更新全局模型,即可采用联合训练的方式,进而提升了模型的精度,以所述模型为语音情绪识别模型为例。
107.本公开的一个实施例中,生成模块502可针对任一未标注的数据,分别获取m条增强数据,m为大于一的正整数,每条增强数据分别为对该未标注的数据进行随机噪声叠加后得到的数据,并可分别将m条增强数据作为全局模型的输入,得到m个输出结果,进而可结合m个输出结果确定出未标注的数据的伪标签。
108.其中,可通过引入系数因子来实现所述随机噪声叠加,即实现随机特征增强。
109.本公开的一个实施例中,所述输出结果可包括:由n个元素组成的向量,n为大于一的正整数,每个元素分别表示属于对应的标签的概率值,相应地,生成模块502在结合m个输出结果确定出未标注的数据的伪标签时,可计算m个向量的均值,得到均值向量,并可将均值向量中取值最大的元素对应的标签作为未标注的数据的伪标签。
110.本公开的一个实施例中,生成模块502还可响应于确定均值向量中取值最大的元
素大于第一阈值,将均值向量中取值最大的元素对应的标签作为未标注的数据的伪标签。
111.即针对均值向量中取值最大的元素,还可将其与第一阈值进行比较,若均值向量中取值最大的元素大于第一阈值,则可将均值向量中取值最大的元素对应的标签作为未标注的数据的伪标签。
112.本公开的一个实施例中,生成模块502还可计算m个向量的方差,响应于确定所述方差小于第二阈值,可保留未标注的数据及对应的伪标签,即确定伪标签可用,否则,可丢弃未标注的数据及对应的伪标签。
113.在获取到第一类训练数据后,训练模块503可利用第一类训练数据以及具有人工标注标签的第二类训练数据对获取到的全局模型进行训练,得到更新模型。
114.本公开的一个实施例中,在对全局模型进行训练之前,训练模块503还可对第二类训练数据进行随机噪声叠加。
115.本公开的一个实施例中,为第一类训练数据叠加的噪声可强于为第二类训练数据叠加的噪声,和/或,第一类训练数据的数量可小于第二类训练数据的数量。
116.本公开的一个实施例中,训练模块503在利用第一类训练数据以及第二类训练数据对全局模型进行训练时,还可根据获取自云端的全局控制变量对全局模型的模型参数进行更新。
117.本公开的一个实施例中,所述全局控制变量可包括:各模型参数分别对应的全局控制变量;对于任一模型参数,该模型参数对应的全局控制变量可为该模型参数在云端最新一次获取到的各更新模型中的更新量的均值,相应地,根据获取自云端的全局控制变量对全局模型的模型参数进行更新可包括:针对任一模型参数,分别获取该模型参数在最新一次生成(设备端)的更新模型中的更新量与该模型参数对应的全局控制变量的差异,根据所述差异对该模型参数进行更新。
118.另外,本公开的一个实施例中,全局模型中可包括:p个块、注意力模块以及回归输出模块,p为正整数;每个块分别用于进行时域和频域的卷积运算,并将两个运算结果拼接后输出,注意力模块用于基于时频域注意力机制和/或信道注意力机制对最后一个块的输出结果进行处理,回归输出模块用于基于注意力模块的输出结果以及预定的常量因子生成全局模型的输出结果。
119.图6为本公开所述模型获取装置第二实施例600的组成结构示意图。所述装置可应用在云端。如图6所示,包括:第二获取模块601以及更新模块602。
120.第二获取模块601,用于获取预训练得到的全局模型。
121.更新模块602,用于执行以下第一处理:将全局模型发送给至少两个设备端,并获取设备端返回的更新模型,更新模型为设备端利用第一类训练数据以及第二类训练数据对全局模型进行训练后得到的模型,第一类训练数据为具有伪标签的训练数据,伪标签为利用全局模型为未标注的数据生成的标签,第二类训练数据为具有人工标注标签的训练数据;结合获取到的各更新模型更新全局模型;响应于确定符合预定的结束条件,将最新得到的全局模型作为最终所需的模型,否则,基于最新得到的全局模型重复执行所述第一处理。
122.采用上述装置实施例所述方案,可利用全局模型的能力来对各设备端的未标注的数据进行标注,从而扩充了训练数据,而且,可结合多个设备端的模型更新结果来更新全局模型,即可采用联合训练的方式,进而提升了模型的精度,以所述模型为语音情绪识别模型
为例。
123.本公开的一个实施例中,更新模块602还可向设备端发送全局控制变量,用于设备端根据所述全局控制变量对全局模型的模型参数进行更新,得到更新模型。
124.本公开的一个实施例中,所述全局控制变量可包括:各模型参数分别对应的全局控制变量,相应地,更新模块602可针对任一模型参数,分别获取该模型参数在最新一次获取到的各更新模型中的更新量的均值,并可将所述均值作为该模型参数对应的全局控制变量,用于设备端根据该模型参数对应的全局控制变量对该模型参数进行更新。
125.图7为本公开所述模型获取系统实施例700的组成结构示意图。如图7所示,包括:第一模型获取装置701以及第二模型获取装置702。
126.其中,第一模型获取装置701可为图5中所示的模型获取装置,第二模型获取装置702可为图6中所示的模型获取装置。
127.上述装置和系统实施例的具体工作流程可参照前述方法实施例中的相关说明,不再赘述。
128.总之,采用本公开装置和系统实施例所述方案,可提升获取到的模型的精度,并可提升基于所述模型进行的处理(如语音情绪识别)的处理结果的准确性,另外,本公开装置和系统实施例所述方案中的模型不限于语音情绪识别模型,也可为其它任意模型,具有广泛适用性。
129.本公开所述方案可应用于人工智能领域,特别涉及深度学习以及自然语言处理等领域。人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术,人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术,人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
130.本公开所述实施例中的数据等并不是针对某一特定用户的,并不能反映出某一特定用户的个人信息。本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
131.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
132.图8示出了可以用来实施本公开的实施例的电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
133.如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
134.设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
135.计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如本公开所述的方法。例如,在一些实施例中,本公开所述的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram 803并由计算单元801执行时,可以执行本公开所述的方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开所述的方法。
136.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
137.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
138.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
139.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的
反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
140.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
141.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
142.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
143.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1