基于神经网络的语音端点检测方法、装置、设备及介质与流程

文档序号:28718041发布日期:2022-01-29 14:47阅读:175来源:国知局
基于神经网络的语音端点检测方法、装置、设备及介质与流程

1.本技术涉及人工智能技术领域,尤其涉及一种基于神经网络的语音端点检测方法、装置、计算机设备及存储介质。


背景技术:

2.在诸多语音应用技术例如语音识别、说话人识别、语音增强中,语音端点检测(voice activity detection,vad)是重要的预处理环节。早期的语音端点检测检测技术主要基于时域功率、过零率、倒谱特征或谱熵等实现。
3.现在,基于神经网络的语音端点检测模型的应用也逐渐增多。然而,在低信噪比、带噪环境中,基于神经网络的语音端点检测技术准确性较低。


技术实现要素:

4.本技术实施例的目的在于提出一种基于神经网络的语音端点检测方法、装置、计算机设备及存储介质,以解决基于神经网络的语音端点检测技术准确性较低的问题。
5.为了解决上述技术问题,本技术实施例提供一种基于神经网络的语音端点检测方法,采用了如下所述的技术方案:
6.获取带有标签的音频样本;
7.将所述音频样本输入初始端点检测模型,得到所述初始端点检测模型中第一层隐藏层输出的隐藏状态信息;
8.将所述隐藏状态信息输入注意力层,以从时域和频域对所述隐藏状态信息进行特征提取,得到补充状态信息;
9.根据所述隐藏状态信息和所述补充状态信息生成下一层隐藏层的输入信息,并对所述输入信息进行迭代计算,直至所述初始端点检测模型中的最后一层隐藏层,得到所述最后一层隐藏层的隐藏状态信息;
10.将所述最后一层隐藏层的隐藏状态信息输入检测输出层,得到所述音频样本的端点预测结果;
11.根据所述端点预测结果和所述标签计算模型损失;
12.根据所述模型损失调整所述初始端点检测模型的模型参数,直至模型收敛,得到端点检测模型;
13.将待检测音频样本输入所述端点检测模型,得到端点检测结果。
14.为了解决上述技术问题,本技术实施例还提供一种基于神经网络的语音端点检测装置,采用了如下所述的技术方案:
15.样本获取模块,用于获取带有标签的音频样本;
16.样本输入模块,用于将所述音频样本输入初始端点检测模型,得到所述初始端点检测模型中第一层隐藏层输出的隐藏状态信息;
17.特征提取模块,用于将所述隐藏状态信息输入注意力层,以从时域和频域对所述
隐藏状态信息进行特征提取,得到补充状态信息;
18.迭代计算模块,用于根据所述隐藏状态信息和所述补充状态信息生成下一层隐藏层的输入信息,并对所述输入信息进行迭代计算,直至所述初始端点检测模型中的最后一层隐藏层,得到所述最后一层隐藏层的隐藏状态信息;
19.端点预测模块,用于将所述最后一层隐藏层的隐藏状态信息输入检测输出层,得到所述音频样本的端点预测结果;
20.损失计算模块,用于根据所述端点预测结果和所述标签计算模型损失;
21.模型调整模块,用于根据所述模型损失调整所述初始端点检测模型的模型参数,直至模型收敛,得到端点检测模型;
22.端点检测模块,用于将待检测音频样本输入所述端点检测模型,得到端点检测结果。
23.为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
24.获取带有标签的音频样本;
25.将所述音频样本输入初始端点检测模型,得到所述初始端点检测模型中第一层隐藏层输出的隐藏状态信息;
26.将所述隐藏状态信息输入注意力层,以从时域和频域对所述隐藏状态信息进行特征提取,得到补充状态信息;
27.根据所述隐藏状态信息和所述补充状态信息生成下一层隐藏层的输入信息,并对所述输入信息进行迭代计算,直至所述初始端点检测模型中的最后一层隐藏层,得到所述最后一层隐藏层的隐藏状态信息;
28.将所述最后一层隐藏层的隐藏状态信息输入检测输出层,得到所述音频样本的端点预测结果;
29.根据所述端点预测结果和所述标签计算模型损失;
30.根据所述模型损失调整所述初始端点检测模型的模型参数,直至模型收敛,得到端点检测模型;
31.将待检测音频样本输入所述端点检测模型,得到端点检测结果。
32.为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
33.获取带有标签的音频样本;
34.将所述音频样本输入初始端点检测模型,得到所述初始端点检测模型中第一层隐藏层输出的隐藏状态信息;
35.将所述隐藏状态信息输入注意力层,以从时域和频域对所述隐藏状态信息进行特征提取,得到补充状态信息;
36.根据所述隐藏状态信息和所述补充状态信息生成下一层隐藏层的输入信息,并对所述输入信息进行迭代计算,直至所述初始端点检测模型中的最后一层隐藏层,得到所述最后一层隐藏层的隐藏状态信息;
37.将所述最后一层隐藏层的隐藏状态信息输入检测输出层,得到所述音频样本的端点预测结果;
38.根据所述端点预测结果和所述标签计算模型损失;
39.根据所述模型损失调整所述初始端点检测模型的模型参数,直至模型收敛,得到端点检测模型;
40.将待检测音频样本输入所述端点检测模型,得到端点检测结果。
41.与现有技术相比,本技术实施例主要有以下有益效果:将音频样本输入初始端点检测模型,得到第一层隐藏层输出的隐藏状态信息;将隐藏状态信息输入注意力层,注意力层可以自适应地关注时域和频域信息、预测每个域的注意力向量,从而得到补充状态信息;根据隐藏状态信息和补充状态信息生成下一层隐藏层的输入信息并对其进行迭代计算,以不断增强模型的表达能力,直至最后一层隐藏层,将最后一层隐藏层的隐藏状态信息输入检测输出层,得到音频样本的端点预测结果;然后根据端点预测结果和标签计算模型损失;根据模型损失进行模型调整直至模型收敛,得到端点检测模型;本技术中通过注意力层从音频样本中提取出更全面的信息,提高了依据最后得到的模型进行端点检测的准确性。
附图说明
42.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
43.图1是本技术可以应用于其中的示例性系统架构图;
44.图2是根据本技术的基于神经网络的语音端点检测方法的一个实施例的流程图;
45.图3是根据本技术的基于神经网络的语音端点检测装置的一个实施例的结构示意图;
46.图4是根据本技术的计算机设备的一个实施例的结构示意图。
具体实施方式
47.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
48.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
49.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
50.如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
51.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
52.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture expertsgroup audio layeriii,动态影像专家压缩标准音频层面3)、mp4(moving pictureexperts group audio layeriv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
53.服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
54.需要说明的是,本技术实施例所提供的基于神经网络的语音端点检测方法一般由服务器执行,相应地,基于神经网络的语音端点检测装置一般设置于服务器中。
55.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
56.继续参考图2,示出了根据本技术的基于神经网络的语音端点检测方法的一个实施例的流程图。所述的基于神经网络的语音端点检测方法,包括以下步骤:
57.步骤s201,获取带有标签的音频样本。
58.在本实施例中,基于神经网络的语音端点检测方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是,上述无线连接方式可以包括但不限于3g/4g连接、wifi连接、蓝牙连接、wimax连接、zigbee连接、uwb(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
59.具体地,服务器首先获取音频样本,音频样本带有标签,标签用于标识音频样本所对应的音频中是否包含语音端点。
60.需要强调的是,为进一步保证上述音频样本的私密和安全性,上述音频样本还可以存储于一区块链的节点中。
61.本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
62.进一步的,上述步骤s201可以包括:获取初始音频;对初始音频进行特征提取,得到多组梅尔频率倒谱系数;获取针对各组梅尔频率倒谱系数的标签,得到音频样本。
63.具体地,服务器获取初始音频,初始音频可以是音频信号,对初始音频进行特征提取,以得到用于模型处理的数据。在一个实施例中,特征提取可以是从初始音频中提取梅尔频率倒谱系数。
64.在语音处理领域中,梅尔频率倒谱(mel-frequency cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。梅尔频率倒谱系数(mel-frequency cepstral coefficients,mfccs)就是组成梅尔频率倒谱的系数。它衍生自音频片段的倒频谱(cepstrum)。梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用
于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统,可以在多个领域中使声音信号有更好的表示。
65.由于在提取梅尔频率倒谱系数时需要对初始音频进行分帧处理,因此基于初始音频会得到多组梅尔频率倒谱系数。每组梅尔频率倒谱系数具有标签,该标签可以人工添加,用于标识这一组梅尔频率倒谱系数所对应的一帧音频信号是否包含语音端点,且一组梅尔频率倒谱系数及其标签可以作为一份音频样本。
66.本实施例中,获取到初始音频后,对初始音频进行特征提取得到梅尔频率倒谱系数,并获取对应的标签,即可生成用于模型训练的音频样本。
67.步骤s202,将音频样本输入初始端点检测模型,得到初始端点检测模型中第一层隐藏层输出的隐藏状态信息。
68.其中,初始端点检测模型可以是尚未完成训练的端点检测模型,端点检测模型可以是用于检测音频中是否包含语音端点的模型。
69.具体地,初始端点检测模型可以由若干层顺序相连的隐藏层和注意力层组成。隐藏层可以是长短期记忆网络(lstm,long short-term memory),lstm是一种时间循环神经网络,lstm本身网络结构中包含了一个记忆模块,因此lstm能够对长时序列进行建模。
70.音频样本首先被输入初始端点检测模型中的第一层隐藏层,由第一层隐藏层对音频样本进行处理,输出隐藏状态信息。隐藏状态信息又可以叫隐藏层特征图。
71.步骤s203,将隐藏状态信息输入注意力层,以从时域和频域对隐藏状态信息进行特征提取,得到补充状态信息。
72.具体地,隐藏层输出的隐藏状态信息不会直接输入下一层隐藏层,而是先输入注意力层。注意力层可以自适应地关注隐藏层特征图的时域和频域信息,预测时域和频域的注意力向量,从而在时域和频域提取到更多有用的信息,同时摒弃不需要的信息,压缩了隐藏层特征图,增强了网络的表达能力。注意力层从时域和频域提取到的特征构成了补充状态信息。
73.步骤s204,根据隐藏状态信息和补充状态信息生成下一层隐藏层的输入信息,并对输入信息进行迭代计算,直至初始端点检测模型中的最后一层隐藏层,得到最后一层隐藏层的隐藏状态信息。
74.具体地,根据隐藏状态信息和补充状态信息可以生成下一层隐藏层的输入信息;将得到的输入信息输入下一层隐藏层,获取下一隐藏层输出的隐藏状态信息,然后将下一层隐藏层的隐藏状态信息输入注意力层,由注意力层提取新的补充状态信息,依据新的补充状态信息和隐藏状态信息计算新的输入信息,以此进行迭代,依次从各隐藏层输出的隐藏状态信息中提取补充状态信息,不断增强网络的表达能力,直至初始端点检测模型中的最后一层隐藏层,得到最后一层隐藏层的隐藏状态信息。
75.步骤s205,将最后一层隐藏层的隐藏状态信息输入检测输出层,得到音频样本的端点预测结果。
76.具体地,最后一层隐藏层的隐藏状态信息将输入检测输出层,检测输出层包括两层前向网络计算层和一层分类层。分类层有两个输出节点,一个代表存在语音端点,一个代表不存在语音端点,两个节点的结果经过softmax变换之后以概率的形式进行输出,从而得到音频样本的端点预测结果。在一个实施例中,可以选取概率较大的节点结果,作为音频样
本的预测结果。
77.步骤s206,根据端点预测结果和标签计算模型损失。
78.具体地,在得到端点预测结果后,可以根据端点预测结果和标签计算模型损失,模型损失可以是交叉熵损失。当端点预测结果中既有音频样本包含语音端点的概率值,又有音频样本不包含语音端点的概率值时,选取较大的概率值进行损失计算。
79.步骤s207,根据模型损失调整初始端点检测模型的模型参数,直至模型收敛,得到端点检测模型。
80.具体地,在得到模型损失后,以最小化模型损失为目标,调整初始端点检测模型的模型参数。在参数调整后,将音频样本重新输入初始端点检测模型进行迭代训练,直至模型收敛,则停止训练,得到端点检测模型。
81.步骤s208,将待检测音频样本输入端点检测模型,得到端点检测结果。
82.具体地,在进行模型应用时,获取待检测音频样本,待检测音频样本可以是从待检测音频中提取到的梅尔频率倒谱系数,然后将待检测音频样本输入训练完毕的端点检测模型。
83.端点检测模型对待检测音频样本进行处理,其处理过程与训练阶段初始端点检测模型对音频样本的处理过程相同,得到端点检测结果。
84.本实施例中,将音频样本输入初始端点检测模型,得到第一层隐藏层输出的隐藏状态信息;将隐藏状态信息输入注意力层,注意力层可以自适应地关注时域和频域信息、预测每个域的注意力向量,从而得到补充状态信息;根据隐藏状态信息和补充状态信息生成下一层隐藏层的输入信息并对其进行迭代计算,以不断增强模型的表达能力,直至最后一层隐藏层,将最后一层隐藏层的隐藏状态信息输入检测输出层,得到音频样本的端点预测结果;然后根据端点预测结果和标签计算模型损失;根据模型损失进行模型调整直至模型收敛,得到端点检测模型;本技术中通过注意力层从音频样本中提取出更全面的信息,提高了依据最后得到的模型进行端点检测的准确性。
85.进一步的,上述步骤s203可以包括:将隐藏状态信息输入初始端点检测模型中的注意力层;通过注意力层从时域对隐藏状态信息进行池化,得到时域特征图;通过注意力层从频域对隐藏状态信息进行池化,得到频域特征图;将时域特征图和频域特征图相加,得到补充状态信息。
86.具体地,隐藏状态信息被输入初始端点检测模型中的注意力层,注意力层以池化的方式从隐藏状态信息中进行特征提取,池化包括时域角度的池化以及频域角度的池化,可以保证获取到更多信息。其中,注意力层从时域对隐藏状态信息h∈r
t
×d进行池化得到时域特征图h
temp
,从频域对隐藏状态信息进行池化得到频域特征图h
freq
,时域特征图与频域特征图维度相同,对时域特征图和频域特征图相加,得到补充状态信息
87.进一步的,上述通过注意力层从时域对隐藏状态信息进行池化,得到时域特征图的步骤可以包括:通过注意力层从时域对隐藏状态信息分别进行最大池化、均值池化和标准差池化,并分别得到最大池化特征向量、均值池化特征向量和标准差池化特征向量;将最大池化特征向量、均值池化特征向量、标准差池化特征向量进行拼接,得到拼接特征向量;对拼接特征向量进行卷积,得到时域特征图。
88.具体地,注意力层从时域对隐藏状态信息进行池化时,可以进行多种池化操作,包
括:对隐藏状态信息进行最大池化,得到最大池化特征向量其中,t代表序列长度;对隐藏状态信息进行均值池化,得到均值池化特征向量对隐藏状态信息进行标准差池化,得到标准差池化向量对于相同的隐藏状态信息,不同的池化操作提取到的信息是不同的,因此三种池化保证了能够从隐藏状态信息中提取到尽可能多的信息提供给模型进行判断处理。
89.然后将最大池化特征向量、均值池化特征向量、标准差池化特征向量进行拼接,得到拼接特征向量。在拼接时,可以按照最大池化特征向量、均值池化特征向量、标准差池化特征向量的顺序,将得到的向量依次拼接在一起。注意力层中还可以包括卷积层,拼接特征向量将被输入卷积层进行卷积处理,从而得到时域特征图h
temp

90.进一步的,上述对拼接特征向量进行卷积,得到时域特征图的步骤可以包括:将拼接特征向量输入卷积层进行卷积,卷积层包括若干层顺序相连的子卷积层;获取卷积层中最后一层子卷积层的输出向量;基于隐藏状态信息对输出向量进行维度扩展,得到时域特征图。
91.具体地,卷积层可以由若干层顺序相连的子卷积层构成,子卷积层可以是一维卷积层,在一个实施例中,可以是一维的cnn(convolutional neural networks)神经网络。拼接特征向量输入卷积层后,将依次被各子卷积层处理,直至最后一层子卷积层。
92.获取最后一层子卷积层的输出向量,通过复制与拼接的方式对该输出向量进行维度扩展,以便达到与隐藏状态信息相同的维度,从而得到时域特征图。
93.在此说明,注意力层从频域对隐藏状态信息的处理,与注意力层从时域对隐藏状态信息的处理过程是相同的。注意力层从频域对隐藏状态信息进行最大池化、均值池化以及标准差池化,得到最大池化特征向量均值池化特征向量以及标准差池化特征向量然后将频域上的最大池化特征向量、均值池化特征向量以及标准差池化特征向量依次进行拼接,输入卷积层进行卷积处理,将卷积层中最后一层子卷积层的输出向量进行维度扩展,得到频域特征图h
freq

94.本实施例中,将拼接特征向量输入卷积层进行卷积,基于最后一层子卷积层的输出向量生成与隐藏状态信息维度相同的时域特征图,完成时域层面对隐藏状态信息的特征提取。
95.本实施例中,分别对隐藏状态信息进行最大池化、均值池化和标准差池化,以便从隐藏状态信息中提取出尽可能多的信息,保证端点检测的准确性。
96.本实施例中,通过注意力层分别从时域和频域对隐藏状态信息进行池化,可以提取到更丰富的信息,得到时域特征图和频域特征图,并生成补充状态信息,提高了输入下一层隐藏层的信息的丰富程度,从而提高了语音端点检测的准确性。
97.进一步的,上述根据隐藏状态信息和补充状态信息生成下一层隐藏层的输入信息的步骤可以包括:将补充状态信息输入激活函数,得到激活函数输出结果;将激活函数输出结果与隐藏状态信息相乘,得到下一层隐藏层的输入信息。
98.具体地,将补充状态信息输入激活函数,得到激活函数输出结果,在一个实施例
中,激活函数可以是sigmoid函数。然后,将激活函数出结果与隐藏状态信息进行相乘运算,即可得到下一层隐藏层的输入信息:
[0099][0100]
其中,为补充状态信息,h为上一层隐藏层输出的隐藏状态信息,h

为下一层隐藏层的输入信息。
[0101]
本实施例中,将补充状态信息输入激活函数后,再与隐藏状态信息相乘得到下一层隐藏层的输入信息,保证了迭代的顺利进行。
[0102]
进一步的,上述步骤s206可以包括:根据端点预测结果和标签计算预测差值;基于预测差值选取平衡参数;根据平衡参数、端点预测结果和标签计算模型损失。
[0103]
具体地,音频样本带有标签,标签可以是数值0或者1,用于表示音频样本所对应的音频中是否包含语音端点,例如,以0表示没有语音端点,以1表示存在语音端点。
[0104]
端点预测结果可以记录音频有语音端点的概率以及没有语音端点的概率,选取较大的概率值,与标签相减得到预测差值。
[0105]
在实际训练中,由于很难以相同或相似的语音与噪声的比例记录音频,因此很多音频中都存在语音和噪声之间不平衡的情况,普通的交叉熵损失不适合处理这种不平衡的样本,因此,本技术使用平衡参数来对交叉熵公式进行改进。
[0106]
本技术中的交叉熵损失函数如下:
[0107]
loss(y
t
)=-(1-y
t
)
γ
log(y
t
)
ꢀꢀ
(2)
[0108]
当y=1时,当y≠1时,其中,y表示标签,代表模型对标签y=1的音频样本的预测概率;γ是平衡参数,平衡参数的值随着预测的概率值和标签值之间预测差值的增大而增大,因此,可以根据预测差值选取对应的平衡参数,然后根据平衡参数、端点预测结果和标签计算模型损失。
[0109]
在本技术的交叉熵损失中,当标签和端点预测结果差异较大时,调节因子(1-y
t
)
γ
会增大,这种机制可以减轻类别不均衡问题中对主要类别的偏向性,缓解分类不均衡的问题。
[0110]
本实施例中,根据端点预测结果和标签之间的预测差值选取对应的平衡参数,通过平衡参数的引入减轻类别不均衡的问题,基于平衡参数、端点预测结果和标签计算模型损失,提高了模型损失计算的准确性。
[0111]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0112]
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0113]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介
质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
[0114]
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0115]
进一步参考图3,作为对上述图2所示方法的实现,本技术提供了一种基于神经网络的语音端点检测装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
[0116]
如图3所示,本实施例所述的基于神经网络的语音端点检测装置300包括:样本获取模块301、样本输入模块302、特征提取模块303、迭代计算模块304、端点预测模块305、损失计算模块306、模型调整模块307以及端点检测模块308,其中:
[0117]
样本获取模块301,用于获取带有标签的音频样本。
[0118]
样本输入模块302,用于将音频样本输入初始端点检测模型,得到初始端点检测模型中第一层隐藏层输出的隐藏状态信息。
[0119]
特征提取模块303,用于将隐藏状态信息输入注意力层,以从时域和频域对隐藏状态信息进行特征提取,得到补充状态信息。
[0120]
迭代计算模块304,用于根据隐藏状态信息和补充状态信息生成下一层隐藏层的输入信息,并对输入信息进行迭代计算,直至初始端点检测模型中的最后一层隐藏层,得到最后一层隐藏层的隐藏状态信息。
[0121]
端点预测模块305,用于将最后一层隐藏层的隐藏状态信息输入检测输出层,得到音频样本的端点预测结果。
[0122]
损失计算模块306,用于根据端点预测结果和标签计算模型损失。
[0123]
模型调整模块307,用于根据模型损失调整初始端点检测模型的模型参数,直至模型收敛,得到端点检测模型。
[0124]
端点检测模块308,用于将待检测音频样本输入端点检测模型,得到端点检测结果。
[0125]
本实施例中,将音频样本输入初始端点检测模型,得到第一层隐藏层输出的隐藏状态信息;将隐藏状态信息输入注意力层,注意力层可以自适应地关注时域和频域信息、预测每个域的注意力向量,从而得到补充状态信息;根据隐藏状态信息和补充状态信息生成下一层隐藏层的输入信息并对其进行迭代计算,以不断增强模型的表达能力,直至最后一层隐藏层,将最后一层隐藏层的隐藏状态信息输入检测输出层,得到音频样本的端点预测结果;然后根据端点预测结果和标签计算模型损失;根据模型损失进行模型调整直至模型收敛,得到端点检测模型;本技术中通过注意力层从音频样本中提取出更全面的信息,提高了依据最后得到的模型进行端点检测的准确性。
[0126]
在本实施例的一些可选的实现方式中,样本获取模块301可以包括:音频获取子模
块、特征提取子模块以及标签获取子模块,其中:
[0127]
音频获取子模块,用于获取初始音频。
[0128]
特征提取子模块,用于对初始音频进行特征提取,得到多组梅尔频率倒谱系数。
[0129]
标签获取子模块,用于获取针对各组梅尔频率倒谱系数的标签,得到音频样本。
[0130]
本实施例中,获取到初始音频后,对初始音频进行特征提取得到梅尔频率倒谱系数,并获取对应的标签,即可生成用于模型训练的音频样本。
[0131]
在本实施例的一些可选的实现方式中,特征提取模块303可以包括:信息输入子模块、时域池化子模块、频域池化子模块以及特征图相加子模块,其中:
[0132]
信息输入子模块,用于将隐藏状态信息输入初始端点检测模型中的注意力层。
[0133]
时域池化子模块,用于通过注意力层从时域对隐藏状态信息进行池化,得到时域特征图。
[0134]
频域池化子模块,用于通过注意力层从频域对隐藏状态信息进行池化,得到频域特征图。
[0135]
特征图相加子模块,用于将时域特征图和频域特征图相加,得到补充状态信息。
[0136]
本实施例中,通过注意力层分别从时域和频域对隐藏状态信息进行池化,可以提取到更丰富的信息,得到时域特征图和频域特征图,并生成补充状态信息,提高了输入下一层隐藏层的信息的丰富程度,从而提高了语音端点检测的准确性。
[0137]
在本实施例的一些可选的实现方式中,时域池化子模块可以包括:时域池化单元、向量拼接单元以及向量卷积单元,其中:
[0138]
时域池化单元,用于通过注意力层从时域对隐藏状态信息分别进行最大池化、均值池化和标准差池化,并分别得到最大池化特征向量、均值池化特征向量和标准差池化特征向量。
[0139]
向量拼接单元,用于将最大池化特征向量、均值池化特征向量、标准差池化特征向量进行拼接,得到拼接特征向量。
[0140]
向量卷积单元,用于对拼接特征向量进行卷积,得到时域特征图。
[0141]
本实施例中,分别对隐藏状态信息进行最大池化、均值池化和标准差池化,以便从隐藏状态信息中提取出尽可能多的信息,保证端点检测的准确性。
[0142]
在本实施例的一些可选的实现方式中,向量卷积单元可以包括:拼接输入子单元、输出获取子单元以及向量扩展子单元,其中:
[0143]
拼接输入子单元,用于将拼接特征向量输入卷积层进行卷积,卷积层包括若干层顺序相连的子卷积层。
[0144]
输出获取子单元,用于获取卷积层中最后一层子卷积层的输出向量。
[0145]
向量扩展子单元,用于基于隐藏状态信息对输出向量进行维度扩展,得到时域特征图。
[0146]
本实施例中,将拼接特征向量输入卷积层进行卷积,基于最后一层子卷积层的输出向量生成与隐藏状态信息维度相同的时域特征图,完成时域层面对隐藏状态信息的特征提取。
[0147]
在本实施例的一些可选的实现方式中,迭代计算模块304可以包括:补充输入子模块以及相乘子模块,其中:
[0148]
补充输入子模块,用于将补充状态信息输入激活函数,得到激活函数输出结果。
[0149]
相乘子模块,用于将激活函数输出结果与隐藏状态信息相乘,得到下一层隐藏层的输入信息。
[0150]
所述迭代计算模块304还用于:对输入信息进行迭代计算,直至初始端点检测模型中的最后一层隐藏层,得到最后一层隐藏层的隐藏状态信息。
[0151]
本实施例中,将补充状态信息输入激活函数后,再与隐藏状态信息相乘得到下一层隐藏层的输入信息,保证了迭代的顺利进行。
[0152]
在本实施例的一些可选的实现方式中,损失计算模块306可以包括:差值计算子模块、参数选取子模块以及损失计算子模块,其中:
[0153]
差值计算子模块,用于根据端点预测结果和标签计算预测差值。
[0154]
参数选取子模块,用于基于预测差值选取平衡参数。
[0155]
损失计算子模块,用于根据平衡参数、端点预测结果和标签计算模型损失。
[0156]
本实施例中,根据端点预测结果和标签之间的预测差值选取对应的平衡参数,通过平衡参数的引入减轻类别不均衡的问题,基于平衡参数、端点预测结果和标签计算模型损失,提高了模型损失计算的准确性。
[0157]
为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
[0158]
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
[0159]
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
[0160]
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如基于神经网络的语音端点检测方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0161]
所述处理器42在一些实施例中可以是中央处理器(central processing unit,
cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述基于神经网络的语音端点检测方法的计算机可读指令。
[0162]
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
[0163]
本实施例中提供的计算机设备可以执行上述基于神经网络的语音端点检测方法。此处基于神经网络的语音端点检测方法可以是上述各个实施例的基于神经网络的语音端点检测方法。
[0164]
本实施例中,将音频样本输入初始端点检测模型,得到第一层隐藏层输出的隐藏状态信息;将隐藏状态信息输入注意力层,注意力层可以自适应地关注时域和频域信息、预测每个域的注意力向量,从而得到补充状态信息;根据隐藏状态信息和补充状态信息生成下一层隐藏层的输入信息并对其进行迭代计算,以不断增强模型的表达能力,直至最后一层隐藏层,将最后一层隐藏层的隐藏状态信息输入检测输出层,得到音频样本的端点预测结果;然后根据端点预测结果和标签计算模型损失;根据模型损失进行模型调整直至模型收敛,得到端点检测模型;本技术中通过注意力层从音频样本中提取出更全面的信息,提高了依据最后得到的模型进行端点检测的准确性。
[0165]
本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于神经网络的语音端点检测方法的步骤。
[0166]
本实施例中,将音频样本输入初始端点检测模型,得到第一层隐藏层输出的隐藏状态信息;将隐藏状态信息输入注意力层,注意力层可以自适应地关注时域和频域信息、预测每个域的注意力向量,从而得到补充状态信息;根据隐藏状态信息和补充状态信息生成下一层隐藏层的输入信息并对其进行迭代计算,以不断增强模型的表达能力,直至最后一层隐藏层,将最后一层隐藏层的隐藏状态信息输入检测输出层,得到音频样本的端点预测结果;然后根据端点预测结果和标签计算模型损失;根据模型损失进行模型调整直至模型收敛,得到端点检测模型;本技术中通过注意力层从音频样本中提取出更全面的信息,提高了依据最后得到的模型进行端点检测的准确性。
[0167]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
[0168]
显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进
行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1