一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质与流程

文档序号:32746420发布日期:2022-12-30 22:22阅读:51来源:国知局
一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质与流程

1.本公开涉及互联网技术领域,尤其涉及一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质。


背景技术:

2.声音携带的大量信息可以在我们的日常生活中发挥重要作用。在平常生活中,我们会收到各种声音,并用它们来判断我们在哪里(地铁,街道等),以及正在发生什么(警报器,狗叫等)。
3.随着人工智能的飞速发展,计算机也可以做出这样的判断,其准确性甚至超过了人类。计算机听觉和机器听觉成为流行且有前途的研究领域。音频分类与音频事件检测在物联网、移动导航设备等领域以及视觉信息不明确的情况下可以用于感知计算并为用户提供更好的响应。但是大部分工作都关注在有监督学习或者半监督学习中,这种学习模式需要数据的标签信息,而标签数据尤其是音频领域的数据标注成本较高,这就导致了标签数据获取难度大,从而加大了工作成本。


技术实现要素:

4.本公开提供一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质,本公开的技术方案如下:
5.根据本公开实施例的第一方面,提供一种音频识别模型训练方法,包括:
6.确定目标音频特征信息;
7.对目标音频特征信息分别进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息;
8.基于第一音频特征信息和第二音频特征信息分别对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络;第一目标网络的第一音频输出数据和第二目标网络的第二音频输出数据之间的差距小于等于预设差距;
9.基于第一目标网络中的第一编码层或者第二目标网络中的第二编码层确定音频识别模型。
10.在一些可能的实施例中,基于第一音频特征信息和第二音频特征信息分别对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络,包括:
11.通过第一原始网络对第一音频特征信息进行音频识别处理,得到第一音频输出数据;
12.通过第二原始网络对第二音频特征信息进行音频识别处理,得到第二音频输出数据;其中,第一音频输出数据和第二音频输出数据的数据维度相同;
13.基于第一音频输出数据和第二音频输出数据确定音频相似度数据;
14.基于音频相似度数据训练第一原始网络和第二原始网络;
15.在满足迭代终止条件的情况下,得到第一目标网络和第二目标网络。
16.在一些可能的实施例中,基于音频相似度数据训练第一原始网络和第二原始网络;在满足迭代终止条件的情况下,得到第一目标网络和第二目标网络,包括:
17.基于音频相似度数据对第一原始网络的第一网络参数进行更新,得到更新后的第一网络参数和更新后的第一原始网络;
18.基于更新后的第一网络参数对第二原始网络的第二网络参数进行更新,得到更新后的第二网络参数和更新后的第二原始网络;
19.循环训练第一原始网络和第二原始网络,直至满足迭代终止条件;
20.将训练后的第一原始网络确定为第一目标网络,将训练后的第二原始网络确定为第二目标网络。
21.在一些可能的实施例中,基于更新后的第一网络参数对第二原始网络的第二网络参数进行更新,得到更新后的第二网络参数和更新后的第二原始网络,包括:
22.获取第二原始网络的第二网络参数和滑动平均参数;
23.基于更新后的第一网络参数、第二网络参数和滑动平均参数确定更新后的第二网络参数;
24.基于更新后的第二网络参数对第二原始网络进行更新,得到更新后的第二原始网络。
25.在一些可能的实施例中,确定目标音频特征信息,包括:
26.获取原始音频;
27.对原始音频进行片段截取,得到目标音频;
28.对目标音频进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到目标音频特征信息。
29.在一些可能的实施例中,对目标音频特征信息进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息,包括:
30.对目标音频特征信息进行音频数据扩充处理、音频数据融合处理、音频数据时移处理和音频数据音高变化处理中的一项或者多项处理,得到第一音频特征信息;
31.对目标音频特征信息进行音频数据扩充处理、音频数据融合处理、音频数据时移处理和音频数据音高变化处理中的一项或者多项处理,得到第二音频特征信息;第一音频特征信息和第二音频特征信息不相同。
32.在一些可能的实施例中,基于第一目标网络中的第一编码层确定音频识别模型之后,还包括:
33.获取音频风格数据集;音频风格数据集中包括n个音频风格对应的第一音频片段;其中,n为大于1的正整数;
34.对音频风格数据集中的每个第一音频片段进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到每个第一音频片段对应的第三音频特征信息;
35.将每个第一音频片段对应的第三音频特征信息输入音频识别模型,得到每个第一音频片段对应的第一编码特征信息;
36.基于每个第一音频片段对应的第一编码特征信息进行分类,将音频风格数据集分为多个第一音频片段集;每个第一音频片段集中包括音频风格数据集中的至少一个第一音
频片段;
37.当第一音频片段集的数量满足n个时,确定音频识别模型验证成功。
38.在一些可能的实施例中,基于第一目标网络中的第一编码层确定音频识别模型之后,还包括:
39.获取音频场景数据集;音频场景数据集中包括m个音频场景对应的第二音频片段;其中,m为大于1的正整数;
40.对音频场景数据集中的每个第二音频片段进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到每个第二音频片段对应的第四音频特征信息;
41.将每个第二音频片段对应的第四音频特征信息输入音频识别模型,得到每个第二音频片段对应的第二编码特征信息;
42.基于每个第二音频片段对应的第二编码特征信息进行分类,将音频场景数据集分为多个第二音频片段集;每个第二音频片段集中包括声学场景数据集中的至少一个第二音频片段;
43.当第二音频片段集的数量满足m个时,确定音频识别模型验证成功。
44.在一些可能的实施例中,第一编码层和第二编码层都为38层的残差网络。
45.根据本公开实施例的第二方面,提供一种音频识别方法,包括:
46.获取待识别音频;
47.将待识别音频输入根据音频识别模型训练方法训练得到的音频识别模型,得到待识别音频的编码特征信息;
48.基于待识别音频的编码特征信息确定待识别音频的风格信息和/或场景信息。
49.根据本公开实施例的第三方面,提供一种音频识别模型训练装置,包括:
50.第一信息确定模块,被配置为执行确定目标音频特征信息;
51.第二信息确定模块,被配置为执行对目标音频特征信息分别进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息;
52.网络训练模块,被配置为执行基于第一音频特征信息和第二音频特征信息分别对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络;第一目标网络的第一音频输出数据和第二目标网络的第二音频输出数据之间的差距小于等于预设差距;
53.识别模型确定模块,被配置为执行基于第一目标网络中的第一编码层或者第二目标网络中的第二编码层确定音频识别模型。
54.在一些可能的实施例中,网络训练模块,被配置为执行:
55.通过第一原始网络对第一音频特征信息进行音频识别处理,得到第一音频输出数据;
56.通过第二原始网络对第二音频特征信息进行音频识别处理,得到第二音频输出数据;其中,第一音频输出数据和第二音频输出数据的数据维度相同;
57.基于第一音频输出数据和第二音频输出数据确定音频相似度数据;
58.基于音频相似度数据训练第一原始网络和第二原始网络;
59.在满足迭代终止条件的情况下,得到第一目标网络和第二目标网络。
60.在一些可能的实施例中,网络训练模块,被配置为执行:
61.基于音频相似度数据对第一原始网络的第一网络参数进行更新,得到更新后的第一网络参数和更新后的第一原始网络;
62.基于更新后的第一网络参数对第二原始网络的第二网络参数进行更新,得到更新后的第二网络参数和更新后的第二原始网络;
63.循环训练第一原始网络和第二原始网络,直至满足迭代终止条件;
64.将训练后的第一原始网络确定为第一目标网络,将训练后的第二原始网络确定为第二目标网络。
65.在一些可能的实施例中,网络训练模块,被配置为执行:
66.获取第二原始网络的第二网络参数和滑动平均参数;
67.基于更新后的第一网络参数、第二网络参数和滑动平均参数确定更新后的第二网络参数;
68.基于更新后的第二网络参数对第二原始网络进行更新,得到更新后的第二原始网络。
69.在一些可能的实施例中,第一信息确定模块,被配置为执行:
70.获取原始音频;
71.对原始音频进行片段截取,得到目标音频;
72.对目标音频进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到目标音频特征信息。
73.在一些可能的实施例中,第二信息确定模块,被配置为执行:
74.对目标音频特征信息进行音频数据扩充处理、音频数据融合处理、音频数据时移处理和音频数据音高变化处理中的一项或者多项处理,得到第一音频特征信息;
75.对目标音频特征信息进行音频数据扩充处理、音频数据融合处理、音频数据时移处理和音频数据音高变化处理中的一项或者多项处理,得到第二音频特征信息;第一音频特征信息和第二音频特征信息不相同。
76.在一些可能的实施例中,装置还包括第一验证模块,被配置为执行:
77.获取音频风格数据集;音频风格数据集中包括n个音频风格对应的第一音频片段;其中,n为大于1的正整数;
78.对音频风格数据集中的每个第一音频片段进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到每个第一音频片段对应的第三音频特征信息;
79.将每个第一音频片段对应的第三音频特征信息输入音频识别模型,得到每个第一音频片段对应的第一编码特征信息;
80.基于每个第一音频片段对应的第一编码特征信息进行分类,将音频风格数据集分为多个第一音频片段集;每个第一音频片段集中包括音频风格数据集中的至少一个第一音频片段;
81.当第一音频片段集的数量满足n个时,确定音频识别模型验证成功。
82.在一些可能的实施例中,装置还包括第二验证模块,被配置为执行:
83.获取音频场景数据集;音频场景数据集中包括m个音频场景对应的第二音频片段;其中,m为大于1的正整数;
84.对音频场景数据集中的每个第二音频片段进行对数梅尔特征提取或者梅尔倒谱
系数特征提取,得到每个第二音频片段对应的第四音频特征信息;
85.将每个第二音频片段对应的第四音频特征信息输入音频识别模型,得到每个第二音频片段对应的第二编码特征信息;
86.基于每个第二音频片段对应的第二编码特征信息进行分类,将音频场景数据集分为多个第二音频片段集;每个第二音频片段集中包括声学场景数据集中的至少一个第二音频片段;
87.当第二音频片段集的数量满足m个时,确定音频识别模型验证成功。
88.在一些可能的实施例中,第一编码层和第二编码层都为38层的残差网络。
89.根据本公开实施例的第四方面,提供一种音频识别装置,包括:
90.音频获取模块,被配置为执行获取待识别音频;
91.编码信息确定模块,被配置为执行将待识别音频输入音频识别模型训练方法训练得到的音频识别模型,得到待识别音频的编码特征信息;
92.风格场景确定模块,被配置为执行基于待识别音频的编码特征信息确定待识别音频的风格信息和/或场景信息。
93.根据本公开实施例的第五方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现如上述第一方面或者第二方面中任一项的方法。
94.根据本公开实施例的第六方面,提供一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例的第一方面或者第二方面中任一项的方法。
95.根据本公开实施例的第七方面,提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序存储在可读存储介质中,计算机设备的至少一个处理器从可读存储介质读取并执行计算机程序,使得计算机设备执行本公开实施例的第一方面或者第二方面中任一项的方法。
96.本公开的实施例提供的技术方案至少带来以下有益效果:
97.确定目标音频特征信息,对目标音频特征信息分别进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息,基于第一音频特征信息和第二音频特征信息分别对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络,第一目标网络的第一音频输出数据和第二目标网络的第二音频输出数据之间的差距小于等于预设差距,基于第一目标网络中的第一编码层或者第二目标网络中的第二编码层确定音频识别模型。本技术通过数据增强处理后的第一音频特征信息和第二音频特征信息对第一原始网络和第二原始网络进行训练,无需标签数据,从而减少了训练成本。
98.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
99.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
100.图1是根据一示例性实施例示出的一种应用环境的示意图;
101.图2是根据一示例性实施例示出的一种音频识别模型训练方法的流程图;
102.图3是根据一示例性实施例示出的一种确定目标音频特征信息的流程图;
103.图4是根据一示例性实施例示出的一种第一原始网络和第二原始网络的结构示意图;
104.图5是根据一示例性实施例示出的一种网络训练的流程图;
105.图6是根据一示例性实施例示出的一种第一编码层的结构示意图;
106.图7是根据一示例性实施例示出的一种残差层的结构示意图,包括(a)、(b)、(c)和(d)四个子图;
107.图8是根据一示例性实施例示出的一种音频识别方法的流程图;
108.图9是根据一示例性实施例示出的一种音频识别模型训练装置框图;
109.图10是根据一示例性实施例示出的一种音频识别装置框图;
110.图11是根据一示例性实施例示出的一种用于音频识别模型训练或者音频识别的电子设备的框图。
具体实施方式
111.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
112.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的第一对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
113.需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
114.请参阅图1,图1是根据一示例性实施例示出的一种音频识别模型训练方法的应用环境的示意图,如图1所示,该应用环境可以包括服务器01和客户端02。
115.在一些可能的实施例中,服务器01可以包括是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云音频识别模型训练、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器上运行的操作系统可以包括但不限于安卓系统、ios系统、linux、windows、unix等。
116.在一些可能的实施例中,上述的客户端02可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、智能可穿戴设备等类型的客户端。也可以为运行于上述客户端的软体,例如应用程序、小程序等。可选的,客户端上运行的操作系统可以包括但不限于安卓系统、ios系统、linux、windows、unix等。
117.在一些可能的实施例中,服务器01或者客户端02可以确定目标音频特征信息,对目标音频特征信息分别进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息,基于第一音频特征信息和第二音频特征信息分别对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络,第一目标网络的第一音频输出数据和第二目标网络的第二音频输出数据之间的差距小于等于预设差距,基于第一目标网络中的第一编码层或者第二目标网络中的第二编码层确定音频识别模型。
118.在一些可能的实施例中,客户端02可以和服务器01之间可以通过有线链路连接,也可以通过无线链路连接。
119.在一个示例性的实施方式,客户端、服务器和服务器对应的数据库均可以是区块链系统中的节点设备,能够将获取到以及生成的信息共享给区块链系统中的其他节点设备,实现多个节点设备之间的信息共享。区块链系统中的多个节点设备可以配置有同一条区块链,该区块链由多个区块组成,并且前后相邻的区块具有关联关系,使得任一区块中的数据被篡改时都能通过下一区块检测到,从而能够避免区块链中的数据被篡改,保证区块链中数据的安全性和可靠性。
120.图2是根据一示例性实施例示出的一种音频识别模型训练方法的流程图,如图2所示,音频识别模型训练方法可以应用于服务器,也可以应用于其他节点设备,比如客户端,下面以服务器为例进行阐述,该方法包括以下步骤:
121.在步骤s201中,确定目标音频特征信息。
122.本技术实施例中,服务器可以确定目标音频特征。下面介绍一种确定目标音频特征信息的实施方式。图3是根据一示例性实施例示出的一种确定目标音频特征信息的流程图,如图3所示,包括:
123.在步骤s301中,获取原始音频。
124.本技术实施例中,原始音频可以是从真实环境获取,比如在沙滩环境中录制得到的。原始音频可以是基于某个场景合成的,比如可以是基于沙滩场景合成得到的。因此,合成得到的原始音频可以存在明显的沙滩场景特质。
125.在一种可选的实施例中,服务器可以从客户端获取原始音频,比如,可以从线上的音频库获取原始音频。可选的,从客户端获取的原始音频可以是客户端拍摄或者录制获取得到的。
126.在一些可选的实施例中,原始音频的数量可以是一个,或者,原始音频的数量可以是多个,比如1000个原始音频。其中,多个原始音频可以属于同一个场景中的音频,还可以属于不同场景的音频,不同场景可以包括沙滩场景、火车行驶场景、室内场景、堵车场景等等。
127.在步骤s303中,对原始音频进行片段截取,得到目标音频。
128.在一种可选的实施例中,由于原始音频的时长可以是不定的,比如有的是60秒,有
的是2分钟,而为了使得后续在模型训练过程中尽量节约计算机算力,节省资源,服务器可以对原始音频进行时长检测,并对超过预设时长的原始音频进行片段截取,得到预设时长或者小于预设时长的目标音频。可选的,预设时长可以是60秒。
129.在另一种可选的实施例中,服务器也可以不对原始音频进行片段截取,直接将原始音频当作目标音频。
130.在步骤s305中,对目标音频进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到目标音频特征信息。
131.本技术实施例中,此时的目标音频为包含时间轴的一维数据。为了使得目标音频可以呈现更多的信息,服务器可以对目标音频进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到目标音频特征信息。
132.可选的,服务器对目标音频进行梅尔倒谱系数特征提取的过程包括:
133.第一步,服务器对目标音频进行预加重处理,即将目标音频通过一个高通滤波器。预加重的目标是为了提升高频部分,使目标音频的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。
134.第二步,服务器可以将滤波后的目标音频进行分帧处理,得到分帧后的目标音频。具体的分帧处理包括:首先将滤波后的目标音频分成一个个观测单位,即帧,每个帧可以由l(比如256或者512)个采样点集合成。为了避免相邻两帧之间的变化过大,可以让相邻两帧之间存在一段重叠区域,如此,将部分帧重叠的滤波后的目标音频当作分帧后的目标音频。
135.第三步,服务器可以将分帧后的目标音频进行加窗处理,得到加窗后的目标音频。具体地,服务器可以将分帧后的目标音频的每一帧乘以汉明窗,以增加帧得左端和右端的连续性。
136.第四步,服务器对加窗后的目标音频进行快速傅里叶变化,得到目标音频的频谱。由于信号在时域上的变化通常很难看出信号的特征,所以可以将其转换成频域上的能量分布,不同的能量可以代表不同音频的特征,因此,服务器可以将加窗后的目标音频的各帧信号进行快速傅里叶变化得到各帧的频谱,并对各帧的频谱取模平方得到目标音频的功率谱。
137.第五步,服务器将目标音频的功率谱通过一个mel尺度的三角形滤波器组。具体地,服务器可以定义一个有m个滤波器的滤波器组,采用的滤波器为三角滤波器,m个滤波器的滤波器组可以对频谱进行平滑化,并消除谐波的作用,凸显目标音频的共振峰。
138.第六步,服务器计算m个滤波器的滤波器组处处的对数能量,并将上述的对数能量进行离散余弦变换,求出l阶的梅尔倒谱系数,并将梅尔倒谱系数当作目标音频特征信息。
139.然而,第六步中将对数能量进行离散余弦变换将会去除目标音频的相关性,使得得到的目标音频特征信息缺少相关性特征,因此,服务器可以对目标音频进行对数梅尔特征提取,得到包含相关性特征的目标音频特征信息。
140.可选的,服务器对目标音频进行对数梅尔特征提取的过程包括:
141.第一步,服务器对目标音频进行预加重处理,即将目标音频通过一个高通滤波器。预加重的目标是为了提升高频部分,使目标音频的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,
来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。
142.第二步,服务器可以将滤波后的目标音频进行分帧处理,得到分帧后的目标音频。具体的分帧处理包括:首先将滤波后的目标音频分成一个个观测单位,即帧,每个帧可以由l(比如256或者512)个采样点集合成。为了避免相邻两帧之间的变化过大,可以让相邻两帧之间存在一段重叠区域,如此,将部分帧重叠的滤波后的目标音频当作分帧后的目标音频。
143.第三步,服务器可以将分帧后的目标音频进行加窗处理,得到加窗后的目标音频。具体地,服务器可以将分帧后的目标音频的每一帧乘以汉明窗,以增加帧得左端和右端的连续性。
144.第四步,服务器对加窗后的目标音频进行快速傅里叶变化,得到目标音频的频谱。由于信号在时域上的变化通常很难看出信号的特征,所以可以将其转换成频域上的能量分布,不同的能量可以代表不同音频的特征,因此,服务器可以将加窗后的目标音频的各帧信号进行快速傅里叶变化得到各帧的频谱,并对各帧的频谱取模平方得到目标音频的功率谱。
145.第五步,服务器将目标音频的功率谱通过一个mel尺度的三角形滤波器组。具体地,服务器可以定义一个有m个滤波器的滤波器组,采用的滤波器为三角滤波器,m个滤波器的滤波器组可以对频谱进行平滑化,并消除谐波的作用,凸显目标音频的共振峰。
146.第六步,服务器计算m个滤波器的滤波器组处处的对数能量,将对数能量确定为目标音频特征信息。
147.如此,本技术通过上述实施例可以确定目标音频的目标音频特征信息,该目标音频特征信息可以包括时域信息和频域信息,相较于一维的目标音频,具有更多的特征信息。
148.在步骤s203中,对目标音频特征信息分别进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息。
149.本技术实施例中,服务器可以对目标音频特征信息进行第一数据增强处理,得到第一音频特征信息,可以对目标音频特征信息进行第二数据增强处理,得到第二音频特征信息。
150.本技术实施例中,由于第一音频特征信息输入的第一原始网络和第二音频信息输入的第二原始网络的结构是不同的,因此,第一数据增强处理和第二数据增强处理可以是相同的数据增强处理。然而,为了能够更好地训练第一原始网络和第二原始网络,第一数据增强处理和第二数据增强处理可以是不同的数据增强处理。
151.可选的,第一数据增强处理可以包括不处理、可以包括音频数据扩充处理spec-augment、音频数据融合处理mixup、音频数据时移处理time shift augmengtation和音频数据音高变化处理pitch shift augmentation中的一项处理,可以包括音频数据扩充处理、音频数据融合处理、音频数据时移处理和音频数据音高变化处理中的多项联合处理。
152.可选的,第二数据增强处理可以包括不处理、可以包括音频数据扩充处理、音频数据融合处理、音频数据时移处理和音频数据音高变化处理中的一项处理,可以包括音频数据扩充处理、音频数据融合处理、音频数据时移处理和音频数据音高变化处理中的多项联合处理。
153.可选的,音频数据扩充处理是指对目标音频特征信息的时域或者频域中分别对频谱汇总增加长度为t和f的掩码。
154.可选的,音频数据融合处理可以被称为相同类别增强。服务器在从原始音频进行片段截取,得到目标音频,并对目标音频进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到目标音频特征信息的同时,还可以从该原始音频再次进行片段截取,得到和目标音频不一样的类比音频,并对该类比音频进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到类比音频特征信息。
155.随后,服务器可以基于如下的公式(1)对进行目标音频特征信息和类比音频特征信息融合处理,得到第一音频特征信息,公式(1)包括:
[0156][0157]
其中,表征第一音频特征信息;xi表征目标音频特征信息;xj表征类比音频特征信息;λ表征融合参数,其中,融合参数的取值在0至1之间。
[0158]
可选的,音频数据时移处理是指将目标音频特征信息延时间轴滚动信号来随机移位信号,得到比如第一音频特征信息。
[0159]
可选的,音频数据音高变化处理指围绕频率轴的预设范围内的随机滚动,得到比如第一音频特征信息。
[0160]
如此,本技术通过上述独立的四种数据增强方式中的一种、二种、三种或四种结合的数据增强方式对目标音频特征信息进行数据增强处理,得到不同的第一音频特征信息和第二音频特征信息。由于第一音频特征信息和第二音频特征信息来源的目标音频是从原始音频中随机截取的,且数据增强的方式也是随机选择的,因此第一音频特征信息和第二音频特征信息包含的信息更加丰富和广泛,为后续网络学习得到的特征能够更具鲁棒性和广泛性建立了良好的基础。
[0161]
在步骤s205中,基于第一音频特征信息和第二音频特征信息分别对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络;第一目标网络的第一音频输出数据和第二目标网络的第二音频输出数据之间的差距小于等于预设差距。
[0162]
本技术实施例中,服务器可以基于第一音频特征信息和第二音频特征信息训练第一原始网络和第二原始网络,得到第一目标网络和第二目标网络。
[0163]
在一种可选的实施例中,图4是根据一示例性实施例示出的一种第一原始网络和第二原始网络的结构示意图,如图4所示,第一原始网络包括依次连接的第一编码层、第一投影层和预测层,第二原始网络包括第二编码层和第二投影层。图5为根据一示例性实施例示出的一种网络训练的流程图,下面结合图5,对网络训练过程进行阐述,如图5所示,包括:
[0164]
在步骤s501中,通过第一原始网络对第一音频特征信息进行音频识别处理,得到第一音频输出数据。
[0165]
可选的,服务器可以将第一音频特征信息输入第一编码层,输出第一音频特征信息对应的编码特征信息,然后将编码特征信息输入第一投影层,输出第一音频特征信息对应的投影表示信息,将该投影表示信息的输入预测层,得到第一音频输出数据。
[0166]
图6是根据一示例性实施例示出的一种第一编码层的结构示意图。可选的,第一编码层可以由38层残差网络组成,包括输入卷积层、残差层和输出卷积层。其中,输入层卷积层由两个卷积层组成,卷积核数为64,大小为(3,3)。可选的,输出层卷积层也由两个卷积层组成,卷积核数为128,大小为(3,3)。
[0167]
可选的,残差层在输入卷积层和输出卷积层之间,图7是根据一示例性实施例示出的一种残差层的结构示意图。如图7所示共有(a)、(b)、(c)和(d)四种卷积核数目,依次是[64,128,256,512],不同卷积核数的模块被称为残差子模块,每个残差子模块分别重复的次数依次为[3,4,6,3]。
[0168]
每个残差子模块中都有残差连接,输入在分别经过基本块和补充块,并将输出结果相加,再经过relu激活函数,得到残差子模块的输出。基本块由平均池化(第一个残差子模块(a)没有)、两层(3,3)的卷积层,批标准化bn层和激活函数relu层组成,补充块由平均池化(第一个残差子模块(a)没有)、一层(1,1)的卷积层和批标准化bn层组成。
[0169]
其中,残差子模块的通过如下的公式(2)表示:
[0170]
f(x)=relu(f1(x)+f2(x))......公式(2)
[0171]
其中,f为残差子模块的表示函数,f1为基本块的表示函数,f2为补充块的表示函数。
[0172]
可选的,第一投影层和预测层可以是不同神经元个数的全连接层组成。比如,第一投影层的神经元个数为128个,预测层的神经元个数为512个。
[0173]
在步骤s503中,通过第二原始网络对第二音频特征信息进行音频识别处理,得到第二音频输出数据;其中,第一音频输出数据和第二音频输出数据的数据维度相同。
[0174]
可选的,服务器可以将第二音频特征信息输入第二编码层,输出第二音频特征信息对应的编码特征信息,然后将编码特征信息输入第二投影层,得到第二音频输出数据。
[0175]
可选的,第二编码层的结构可以参考第一编码层的结构,由38层残差网络组成,包括输入卷积层、残差层和输出卷积层。第二投影层可以基于预测层确定,有512个神经元的全连接层。如此,第二投影层可以输出和预测层输出维度一致的第二音频输出数据,方便后续相似性的计算。
[0176]
在步骤s505中,基于第一音频输出数据和第二音频输出数据确定音频相似度数据。
[0177]
本技术实施例中,因为第一音频特征信息和第二音频特征信息来源于同一个原始音频,因此第一音频特征信息和第二音频特征信息中包含的事件和特征是相近的,且,第一音频输出数据和第二音频输出数据的数据维度相同。基于此,可以利用第一音频输出数据和第二音频输出数据形成相似度矩阵,并计算音频相似度数据。其中,音频相似度数据的公式(3)为:
[0178][0179]
其中,l表征音频相似度数据;q
θ
(zθ)表征第一音频输出数据;z

ξ
表征第二音频输出数据。
[0180]
在步骤s507中,基于音频相似度数据训练第一原始网络和第二原始网络。
[0181]
如此,服务器可以利用上述的音频相似度数据训练第一原始网络和第二原始网络。
[0182]
可选的,服务器可以基于音频相似度数据对第一原始网络的第一网络参数进行更新,得到更新后的第一网络参数和更新后的第一原始网络,并基于更新后的第一网络参数
对第二原始网络的第二网络参数进行更新,得到更新后的第二网络参数和更新后的第二原始网络。
[0183]
具体地,服务器可以获取第二原始网络的第二网络参数和滑动平均参数,基于更新后的第一网络参数、第二网络参数和滑动平均参数确定更新后的第二网络参数,基于更新后的第二网络参数对第二原始网络进行更新,得到更新后的第二原始网络。
[0184]
具体地,服务器可以通过滑动平均更新第二网络参数和第二原始网络,表现为如下的公式(4):
[0185]
ξ
′←
τξ+(1-τ)θ......公式(4)
[0186]
其中,ξ表征更新前的第二网络参数;ξ

表征更新后的第二网络参数;θ表征更新后的第一网络参数;τ表征滑动平均参数。
[0187]
在步骤s509中,在满足迭代终止条件的情况下,得到第一目标网络和第二目标网络。
[0188]
本技术实施例中,服务器可以循环训练第一原始网络和第二原始网络,直至满足迭代终止条件,将训练后的第一原始网络确定为第一目标网络,将训练后的第二原始网络确定为第二目标网络。
[0189]
可选的,服务器可以将第一音频特征信息输入更新后的第一原始网络,得到此次循环的第一音频输出数据,将第二音频特征信息输入更新后的第二原始网络,得到此次循环地第二音频输出数据。并基于此次循环的第一音频输出数据和第二音频输出数据确定音频相似度数据,并按照上述的更新方式,利用新的音频相似度数据更新更新后的第一原始网路和第二原始网络,如此,服务器完成了第二次循环的第一原始网络和第二原始网络的训练。接着,服务器可以按照上文的方式完成第三次循环训练,第四次循环训练,第五次循环训练
……
直至满足迭代终止条件,将训练后的第一原始网络确定为第一目标网络,将训练后的第二原始网络确定为第二目标网络。
[0190]
在一些可能的实施例中,迭代终止条件可以是预设循环次数,比如,当前的循环次数满足预设循环次数(比如100次),则满足迭代终止条件。
[0191]
在另一些可能的实施例中,迭代终止条件可以是预设相似度数据,将音频相似度数据小于等于预设相似度数据,则满足迭代终止条件。
[0192]
本技术实施例中,区别于现有技术必须构建正负样本才能用来训练模型导致的训练难度变大,本技术不需要正负样本的建立,只需要通过两个网络输出分布的一致性就可以优化模型,样本的获取降低,进而使得训练难度降低。
[0193]
在步骤s207中,基于第一目标网络中的第一编码层或者第二目标网络中的第二编码层确定音频识别模型。
[0194]
本技术实施例中,服务器可以将第一目标网络中的第一编码层或者第二目标网络中的第二编码层确定音频识别模型。如此,服务器可以得到音频识别模型。
[0195]
在另一些可能的实施例中,服务器还可以通过验证方式确定音频识别模型的准确性、泛化性和鲁棒性。服务器可以通过音乐风格和声学场景两个维度验证音频识别模型。
[0196]
在一种可选的实施例中,服务器可以获取音频风格数据集,该音频风格数据集中包括n个音频风格对应的第一音频片段,其中,n为大于1的正整数。n个音频风格可以包括流行音乐对应的音频、古典音乐对应的音频、重金属音乐对应的音频、摇滚音乐对应的音频以
及其他风格的音频等等。
[0197]
服务器可以对音频风格数据集中的每个第一音频片段进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到每个第一音频片段对应的第三音频特征信息。其中,对数梅尔特征提取或者梅尔倒谱系数特征提的具体方式可以参考上文内容,这里就不再赘述。
[0198]
服务器可以将每个第一音频片段对应的第三音频特征信息输入音频识别模型,得到每个第一音频片段对应的第一编码特征信息。服务器可以利用k邻近算法基于每个第一音频片段对应的第一编码特征信息进行分类,将音频风格数据集分为多个第一音频片段集。其中,每个第一音频片段集中包括所述音频风格数据集中的至少一个第一音频片段。当第一音频片段集的数量满足n个时,确定音频识别模型收敛验证成功,当第一音频片段集的数量不满足n个时,确定音频识别模型验证失败,需要进一步地训练。
[0199]
在另一种可选的实施例中,服务器可以获取音频场景数据集,该音频场景数据集中包括m个音频场景对应的第二音频片段,其中,m为大于1的正整数。m个音频场景可以包括沙滩场景、火车行驶场景、室内场景、堵车场景等等。
[0200]
服务器可以对音频场景数据集中的每个第二音频片段进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到每个第二音频片段对应的第四音频特征信息。其中,对数梅尔特征提取或者梅尔倒谱系数特征提的具体方式可以参考上文内容,这里就不再赘述。
[0201]
服务器可以将每个第二音频片段对应的第四音频特征信息输入音频识别模型,得到每个第二音频片段对应的第二编码特征信息。服务器可以利用k邻近算法基于每个第二音频片段对应的第二编码特征信息进行分类,将音频场景数据集分为多个第二音频片段集。其中,每个第二音频片段集中包括声学场景数据集中的至少一个第二音频片段。当第二音频片段集的数量满足m个时,确定音频识别模型收敛验证成功。当第二音频片段集的数量不满足m个时,确定音频识别模型验证失败,需要进一步地训练。
[0202]
通过音频风格和音频场景对音频识别模型的再次检测,可以验证音频识别模型的准确性,从而保证音频识别模型后续应用。
[0203]
本技术实施例中,不需要数据量很大的数据集,可以通过小部分的目标音频结合两个网络输出分布的一致性来训练模型,训练难度较低。其次,本技术采用四种数据增强方式得到不同的第一音频特征信息和第二音频特征信息,且由于第一音频特征信息和第二音频特征信息来源的目标音频是从原始音频中随机截取的,数据增强的方式也是随机选择的,因此第一音频特征信息和第二音频特征信息包含的信息更加丰富和广泛,为后续网络学习得到的特征能够更具鲁棒性和广泛性建立了良好的基础。
[0204]
图8是根据一示例性实施例示出的一种音频识别方法的流程图,如图8所示,音频识别方法可以应用于服务器,也可以应用于客户端,包括以下步骤:
[0205]
在步骤s801中,获取待识别音频。
[0206]
在步骤s803中,将待识别音频输入音频识别模型训练方法训练得到的音频识别模型,得到待识别音频的编码特征信息。
[0207]
在步骤s805中,基于待识别音频的编码特征信息确定待识别音频的风格信息和/或场景信息。
[0208]
本技术实施例中,服务器可以获取待识别音频,将待识别音频输入音频识别模型训练方法训练得到的音频识别模型,得到待识别音频的编码特征信息,基于待识别音频的
编码特征信息确定待识别音频的风格信息和/或场景信息。
[0209]
图9是根据一示例性实施例示出的一种音频识别模型训练装置框图。该装置具有实现上述方法实施例中数据处理方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。参照图9,该装置包括第一信息确定模块901、第二信息确定模块902、网络训练模块903和识别模型确定模块904。
[0210]
第一信息确定模块901,被配置为执行确定目标音频特征信息;
[0211]
第二信息确定模块902,被配置为执行对目标音频特征信息分别进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息;
[0212]
网络训练模块903,被配置为执行基于第一音频特征信息和第二音频特征信息分别对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络;第一目标网络的第一音频输出数据和第二目标网络的第二音频输出数据之间的差距小于等于预设差距;
[0213]
识别模型确定模块904,被配置为执行基于第一目标网络中的第一编码层或者第二目标网络中的第二编码层确定音频识别模型。
[0214]
在一些可能的实施例中,网络训练模块,被配置为执行:
[0215]
通过第一原始网络对第一音频特征信息进行音频识别处理,得到第一音频输出数据;
[0216]
通过第二原始网络对第二音频特征信息进行音频识别处理,得到第二音频输出数据;其中,第一音频输出数据和第二音频输出数据的数据维度相同;
[0217]
基于第一音频输出数据和第二音频输出数据确定音频相似度数据;
[0218]
基于音频相似度数据训练第一原始网络和第二原始网络;
[0219]
在满足迭代终止条件的情况下,得到第一目标网络和第二目标网络。
[0220]
在一些可能的实施例中,网络训练模块,被配置为执行:
[0221]
基于音频相似度数据对第一原始网络的第一网络参数进行更新,得到更新后的第一网络参数和更新后的第一原始网络;
[0222]
基于更新后的第一网络参数对第二原始网络的第二网络参数进行更新,得到更新后的第二网络参数和更新后的第二原始网络;
[0223]
循环训练第一原始网络和第二原始网络,直至满足迭代终止条件;
[0224]
将训练后的第一原始网络确定为第一目标网络,将训练后的第二原始网络确定为第二目标网络。
[0225]
在一些可能的实施例中,网络训练模块,被配置为执行:
[0226]
获取第二原始网络的第二网络参数和滑动平均参数;
[0227]
基于更新后的第一网络参数、第二网络参数和滑动平均参数确定更新后的第二网络参数;
[0228]
基于更新后的第二网络参数对第二原始网络进行更新,得到更新后的第二原始网络。
[0229]
在一些可能的实施例中,第一信息确定模块,被配置为执行:
[0230]
获取原始音频;
[0231]
对原始音频进行片段截取,得到目标音频;
[0232]
对目标音频进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到目标音频特征信息。
[0233]
在一些可能的实施例中,第二信息确定模块,被配置为执行:
[0234]
对目标音频特征信息进行音频数据扩充处理、音频数据融合处理、音频数据时移处理和音频数据音高变化处理中的一项或者多项处理,得到第一音频特征信息;
[0235]
对目标音频特征信息进行音频数据扩充处理、音频数据融合处理、音频数据时移处理和音频数据音高变化处理中的一项或者多项处理,得到第二音频特征信息;第一音频特征信息和第二音频特征信息不相同。
[0236]
在一些可能的实施例中,装置还包括第一验证模块,被配置为执行:
[0237]
获取音频风格数据集;音频风格数据集中包括n个音频风格对应的第一音频片段;其中,n为大于1的正整数;
[0238]
对音频风格数据集中的每个第一音频片段进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到每个第一音频片段对应的第三音频特征信息;
[0239]
将每个第一音频片段对应的第三音频特征信息输入音频识别模型,得到每个第一音频片段对应的第一编码特征信息;
[0240]
基于每个第一音频片段对应的第一编码特征信息进行分类,将音频风格数据集分为多个第一音频片段集;每个第一音频片段集中包括音频风格数据集中的至少一个第一音频片段;
[0241]
当第一音频片段集的数量满足n个时,确定音频识别模型验证成功。
[0242]
在一些可能的实施例中,装置还包括第二验证模块,被配置为执行:
[0243]
获取音频场景数据集;音频场景数据集中包括m个音频场景对应的第二音频片段;其中,m为大于1的正整数;
[0244]
对音频场景数据集中的每个第二音频片段进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到每个第二音频片段对应的第四音频特征信息;
[0245]
将每个第二音频片段对应的第四音频特征信息输入音频识别模型,得到每个第二音频片段对应的第二编码特征信息;
[0246]
基于每个第二音频片段对应的第二编码特征信息进行分类,将音频场景数据集分为多个第二音频片段集;每个第二音频片段集中包括声学场景数据集中的至少一个第二音频片段;
[0247]
当第二音频片段集的数量满足m个时,确定音频识别模型验证成功。
[0248]
在一些可能的实施例中,第一编码层和第二编码层都为38层的残差网络。
[0249]
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0250]
图10是根据一示例性实施例示出的一种音频识别装置框图。该装置具有实现上述方法实施例中数据处理方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。参照图10,该装置包括音频获取模块1001、编码信息确定模块1002和风格场景确
定模块1003。
[0251]
音频获取模块1001,被配置为执行获取待识别音频;
[0252]
编码信息确定模块1002,被配置为执行将待识别音频输入音频识别模型训练方法训练得到的音频识别模型,得到待识别音频的编码特征信息;
[0253]
风格场景确定模块1003,被配置为执行基于待识别音频的编码特征信息确定待识别音频的风格信息和/或场景信息。
[0254]
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0255]
图11是根据一示例性实施例示出的一种用于音频识别模型训练或者音频识别的装置3000的框图。例如,装置3000可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
[0256]
参照图11,装置3000可以包括以下一个或多个组件:处理组件3002,存储器3004,电力组件3006,多媒体组件3008,音频组件3010,输入/输出(i/o)的接口3012,传感器组件3014,以及音频识别模型训练组件3016。
[0257]
处理组件3002通常控制装置3000的整体操作,诸如与显示,电话呼叫,数据音频识别模型训练,相机操作和记录操作相关联的操作。处理组件3002可以包括一个或多个处理器3020来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件3002可以包括一个或多个模块,便于处理组件3002和其他组件之间的交互。例如,处理组件3002可以包括多媒体模块,以方便多媒体组件3008和处理组件3002之间的交互。
[0258]
存储器3004被配置为存储各种类型的数据以支持在设备3000的操作。这些数据的示例包括用于在装置3000上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器3004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0259]
电源组件3006为装置3000的各种组件提供电力。电源组件3006可以包括电源管理系统,一个或多个电源,及其他与为装置3000生成、管理和分配电力相关联的组件。
[0260]
多媒体组件3008包括在所述装置3000和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件3008包括一个前置摄像头和/或后置摄像头。当设备3000处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0261]
音频组件3010被配置为输出和/或输入音频信号。例如,音频组件3010包括一个麦
克风(mic),当装置3000处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器3004或经由音频识别模型训练组件3016发送。在一些实施例中,音频组件3010还包括一个扬声器,用于输出音频信号。
[0262]
i/o接口3012为处理组件3002和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0263]
传感器组件3014包括一个或多个传感器,用于为装置3000提供各个方面的状态评估。例如,传感器组件3014可以检测到设备3000的打开/关闭状态,组件的相对定位,例如所述组件为装置3000的显示器和小键盘,传感器组件3014还可以检测装置3000或装置3000一个组件的位置改变,用户与装置3000接触的存在或不存在,装置3000方位或加速/减速和装置3000的温度变化。传感器组件3014可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件3014还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件3014还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0264]
音频识别模型训练组件3016被配置为便于装置3000和其他设备之间有线或无线方式的音频识别模型训练。装置3000可以接入基于音频识别模型训练标准的无线网络,如wifi,运营商网络(如2g、3g、4g或5g),或它们的组合。在一个示例性实施例中,音频识别模型训练组件3016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述音频识别模型训练组件3016还包括近场音频识别模型训练(nfc)模块,以促进短程音频识别模型训练。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
[0265]
在示例性实施例中,装置3000可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
[0266]
本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质可设置于电子设备之中以保存用于实现一种音频识别模型训练方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的音频识别模型训练方法。
[0267]
本发明的实施例还提供了提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序存储在可读存储介质中,计算机设备的至少一个处理器从可读存储介质读取并执行计算机程序,使得计算机设备执行本公开实施例的第一方面中任一项的方法。
[0268]
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0269]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部
分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0270]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0271]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1