本发明涉及语音识别领域,特别涉及一种基于深度学习的语音性别识别的方法及系统。
背景技术:
随着人工智能技术的发展,很多重复性的工作将由机器完成,客服机器人就是一种实例。当前,酒店开发了一种面向订单确认场景的客服机器人,为了做好服务跟踪,客服机器人除了需要记录与其通话的用户的姓氏,还需要记录用户的性别,因此,亟待需要一种利用通话过程中的语音同步识别性别的方案以解决该问题。
技术实现要素:
本发明要解决的技术问题是为了克服现有技术中需要记录用户性别的缺陷,提供一种利用通话过程中的语音同步识别用户性别的方案,具体提供一种语音性别识别方法及系统。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种语音性别识别系统,包括:预处理模块、空间特征提取模块、时序特征提取模块以及性别识别模块;
所述预处理模块用于对采集的用户的语音数据进行预处理得到语谱图;
所述空间特征提取模块用于提取所述语谱图的空间特征;
所述时序特征提取模块用于基于所述空间特征提取时序特征;
所述性别识别模块用于对各时序特征的隐向量做筛选和聚合,并利用分类器识别所述用户的性别。
较佳地,所述预处理模块具体用于对采集的用户的语音数据做预加重、分帧、加窗以及快速傅里叶变换的处理,得到各帧的频谱,以及将各帧频谱沿时序拼合成语谱图。
较佳地,所述空间特征提取模块具体用于利用基于深度学习框架的卷积神经网络提取所述语谱图的空间特征。
较佳地,所述时序特征提取模块具体用于利用基于深度学习框架的循环神经网络提取所述空间特征的时序特征。
较佳地,所述性别识别模块具体用于将最大预测概率对应的性别作为所述用户的性别。
本发明还提供一种语音性别识别方法,利用如上所述的语音性别识别系统实现,所述语音性别识别方法包括以下步骤:
对采集的用户的语音数据进行预处理得到语谱图;
提取所述语谱图的空间特征;
基于所述空间特征提取时序特征;
对各时序特征的隐向量做筛选和聚合,并利用分类器识别所述用户的性别。
较佳地,所述对采集的用户的语音数据进行预处理得到语谱图的步骤具体包括:
对采集的用户的语音数据做预加重、分帧、加窗以及快速傅里叶变换的处理,得到各帧的频谱;
将各帧频谱沿时序拼合成语谱图。
较佳地,所述提取所述语谱图的空间特征的步骤具体包括:利用基于深度学习框架的卷积神经网络提取所述语谱图的空间特征。
较佳地,所述基于所述空间特征提取时序特征的步骤具体包括:利用基于深度学习框架的循环神经网络提取所述空间特征的时序特征。
较佳地,所述利用分类器识别所述用户的性别的步骤具体包括:将最大预测概率对应的性别作为所述用户的性别。
本发明的积极进步效果在于:基于用户语音数据的频域特征,利用深度学习框架提取语谱图的空间特征和时序特征,然后经过分类器实现了用户性别的识别。另外,在语音通话的场景中,能够基于语音通话数据实现实时识别对方的性别。
附图说明
图1为本发明实施例提供的语音性别识别系统的结构框图。
图2为本发明实施例提供的语音性别识别方法的流程图。
图3为本发明实施例中采集的语音数据以及变换得到的语谱图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
语音的特征种类繁多,常见的有韵律特征,如:基频、共振峰、语速、能量等,这种特征能反映语音的连续特征;谱特征,如:频谱,梅尔倒谱系数,线性预测倒谱系数等,这种特征能反映语音的短时特征;其他统计学特征。其中,各种特征多偏向于基于频域的信息,即先对语音原始的时域信号做傅里叶变换至频域后,再做进一步的特征提取。
语音性别识别模型属于一种基于语音信号的分类模型,输入是原始的语音信号,输出为男、女性别。日常生活中,人们只需听取极短暂的声音,通过声音内的音调,音色等即可分辨出说话人的性别,由此可知,区分性别的特征主要集中在频域。因此,本发明中建立语音性别识别模型主要依赖语音的频域信息,先将语音逐帧做傅里叶变换得频谱,再按时序将各帧频谱拼合成语谱图,最后对语谱图做特征提取。
本发明中基于深度学习的模型,随着层数的加宽、加深能够很好的实现特征提取的作用,相较传统的机器学习方法,省去了人工提取特征的步骤,能取得更好的效果。特征提取器有卷积神经网络和循环神经网络,卷积神经网络多用于图像的特征提取,其可以提取空间特征,而循环神经网络多用于文本的特征提取,其可以提取时序特征。因语音信号处理成语谱图后兼具了空间和时序特征,故可以同时利用到两种特征提取器。
如图1所示,本发明实施例提供一种语音性别识别系统100,包括:预处理模块101、空间特征提取模块102、时序特征提取模块103以及性别识别模块104。
预处理模块101用于对采集的用户的语音数据进行预处理得到语谱图。
在可选的一种实施方式中,预处理模块具体用于对采集的用户的语音数据做预加重、分帧、加窗以及快速傅里叶变换的处理,得到各帧的频谱,以及将各帧频谱沿时序拼合成语谱图。
空间特征提取模块102用于提取所述语谱图的空间特征。
在可选的一种实施方式中,空间特征提取模块具体用于利用基于深度学习框架的卷积神经网络提取所述语谱图的空间特征。
时序特征提取模块103用于基于所述空间特征提取时序特征。
在可选的一种实施方式中,时序特征提取模块具体用于利用基于深度学习框架的循环神经网络提取所述空间特征的时序特征。
性别识别模块104用于对各时序特征的隐向量做筛选和聚合,并利用分类器识别所述用户的性别。
在可选的一种实施方式中,性别识别模块具体用于将最大预测概率对应的性别作为所述用户的性别。
本实施例提供了一种语音性别识别系统,基于用户语音数据的频域特征,利用深度学习框架提取语谱图的空间特征和时序特征,然后经过分类器实现用户性别的识别。另外,在语音通话的场景中,能够基于语音通话数据实时识别出对方的性别。
本发明实施例还提供一种语音性别识别方法,利用如上所述的语音性别识别系统实现,如图2所示,所述语音性别识别方法包括以下步骤:
s01、对采集的用户的语音数据进行预处理得到语谱图。
步骤s01具体包括以下步骤:
如图3所示,对采集的用户的语音数据做预加重、分帧、加窗以及快速傅里叶变换的处理,得到各帧的频谱;将各帧频谱沿时序拼合成语谱图。
s02、提取所述语谱图的空间特征。
步骤s02中,利用基于深度学习框架的卷积神经网络提取所述语谱图的空间特征。其中,可以采用多层多个卷积核的方案,每层的多个卷积核使提取的特征更丰富,多层卷积核使特征更具辨识力,同时起到降维的作用。
在一个具体的例子中,利用3层conv1d(一维卷积)提取语谱图的空间特征。
s03、基于所述空间特征提取时序特征。
步骤s03中,利用基于深度学习框架的循环神经网络提取所述空间特征的时序特征。在一个具体的例子中,利用2层bi-gru(bi-gatedrecurrentunit,双向门控循环单元)网络提取空间特征的时序特征,相比gru(gatedrecurrentunit,门控循环单元)能提取双向的特征,使特征更加丰富。
s04、对各时序特征的隐向量做筛选和聚合,并利用分类器识别所述用户的性别。
attention机制通俗的讲就是把注意力集中放在重要的点上,而忽略其他不重要的因素。步骤s04中,利用attention机制对前序提取的时序特征的隐向量做筛选和聚合,其中,hit代表t时刻输出的隐向量,ww,bw,uw均为参数,si为attention计算出的i时刻的context向量:
uit=tanh(wwhit+bw)
最终利用分类器实现用户性别的识别。其中,将最大预测概率对应的性别作为所述用户的性别。在一个具体的例子中,利用softmax函数做分类。
本发明实施例提供的语音性别识别方法,基于用户语音数据的频域特征,利用深度学习框架提取语谱图的空间特征和时序特征,然后经过分类器实现用户性别的识别。另外,在语音通话的场景中,能够基于语音通话数据实时识别出对方的性别。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。