动态选择语音模型的语音识别方法及装置的制造方法

文档序号:10536379阅读:250来源:国知局
动态选择语音模型的语音识别方法及装置的制造方法
【专利摘要】本发明实施例提供一种动态选择语音模型的语音识别方法及装置。获取待测语音的第一个语音包,并对所述第一个语音包进行基频的提取,其中所述基频为声带振动的频率;根据所述基频对所述待测语音的来源进行分类并选择预先训练的相应类别的语音模型;对待测语音进行前端处理以获取所述待测语音的特征参数的值,并将处理后的所述待测语音与所述语音模型进行匹配打分,从而获取语音识别的结果。实现了女性语音和儿童语音识别率的提升,具有高效率,低成本的优势。
【专利说明】
动态选择语音模型的语音识别方法及装置
技术领域
[0001]本发明实施例涉及语音识别领域,尤其涉及一种动态选择语音模型的语音识别方法及装置。
【背景技术】
[0002]语音识别是一门交叉学科,近些年来,语音识别逐渐从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
[0003]在互联网语音识别应用系统中,通常训练出一个通用的语音模型,男性语音的训练数据占主导,因此使用通用模型进行语音识别,在识别阶段,相对于男性,女性和儿童的语音识别率明显偏低,导致语音识别系统的总体用户体验下降。
[0004]为了解决这一问题,现有的解决方案是采用模型自适应,包括无监督的和有监督的模型自适应。这两种解决方案都具有很大缺陷。对于无监督的模型自适应,其缺陷在于,训练出的模型有可能偏移很大,越训越差;对于有监督的模型自适应,训练过程需要女性和儿童的参与,这样做需要很大的人力和物力,成本会很高。
[0005]因此,一种高效率、低成本的语音识别方法及装置亟待提出。

【发明内容】

[0006]本发明实施例提供一种动态选择语音模型的语音识别方法及装置,用以解决现有技术中女性和儿童的语音识别率明显偏低的缺陷,实现了高效准确的语音识别。
[0007]本发明实施例提供一种动态选择语音模型的语音识别方法,包括:
[0008]获取待测语音的第一个语音包,并对所述第一个语音包进行基频的提取,其中所述基频为声带振动的频率;
[0009]根据所述基频对所述待测语音的来源进行分类并选择预先训练的相应类别的语音模型;
[0010]对待测语音进行前端处理以获取所述待测语音的特征参数的值,并将处理后的所述待测语音与所述语音模型进行匹配打分,从而获取语音识别的结果。
[0011]本发明实施例提供一种动态选择语音模型的语音识别装置,包括:
[0012]基频提取模块,用于获取待测语音的第一个语音包,并对所述第一个语音包进行基频的提取,其中所述基频为声带振动的频率;
[0013]分类模块,用于根据所述基频对所述待测语音的来源进行分类并选择预先训练的相应类别的语音模型;
[0014]语音识别模块,用于对待测语音进行前端处理以获取所述待测语音的特征参数的值,并将处理后的所述待测语音与所述语音模型进行匹配打分,从而获取语音识别的结果。
[0015]本发明提出的语音识别系统,可以通过检测说话人的类别,进行动态的选择说话人丰旲型进彳丁识别,可以提尚女性和儿童的识别率,具有尚效率,低成本的优势。
【附图说明】
[0016]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为现有技术中语音识别方法流程图;
[0018]图2为本发明语音识别方法实施例流程图;
[0019]图3为本发明语音识别装置实施例结构示意图。
【具体实施方式】
[0020]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0021]需要说明的是,本发明的各实施例并非独立存在,若干个实施例之间可以相互补充或组合存在。例如,实施一和实施例二分别是对本发明实施例中的语音识别阶段和语音模型训练阶段的阐述,实施例二是实施例一的依托,二者的结合是一个更加完整的技术方案。
[0022]实施例一
[0023]图1是本发明实施例一的技术流程图,结合图1,本发明实施例一种动态选择语音模型的语音识别方法,主要由以下的几个步骤实现:
[0024]步骤110:获取待测语音的第一个语音包,并对所述第一个语音包进行基频的提取,其中所述基频为声带振动的频率;
[0025]本发明实施例的核心在于,在语音识别之前预先判断请求语音识别的语音来源,是男性、女性或是儿童,从而选择与所述语音来源相匹配的语音模型进行语音识别,进一步提高语音识别的准确率。
[0026]当检测到有语音输入时,首先对语音信号进行采样,并通过采样信号迅速判断当选择何种语音识别的模型。所述采样信号的采样起始时间和信号长度是非常关键的,就采样起始时间而言,对靠近语音信号起始端点的一部分进行采样能够迅速的在语音输入之后启动检测,及时判断语音信号的来源,从而提高语音识别的效率,提升用户体验;就信号长度而言,若采样间隔太小,则不足以对采集到的样本进行足够正确的判断,容易出现误检,采样间隔过大,又会使得语音输入语音来源检测之间的间隔过长,会导致识别缓慢,用户体验差,通常采样间隔大于0.3s才能保证较好的检测。经过反复的实验,本发明实施例将采样时间的起始点设置为语音输入的启示点,以0.5s作为所述采样间隔。
[0027]具体地,首先对待测语音进行端点检测(VAD),即从包含语音的一段信号中确定出语音信号的起始点及结束点,获取从起始点开始到该时间点后约0.5秒的语音数据作为所述第一个语音包,根据所述第一个语音包进行快速准确的语音来源的判断。
[0028]步骤120:根据所述基频对所述待测语音的来源进行分类并选择预先训练的相应类别的语首t旲型;
[0029]在浊音的发音过程中,气流通过声门使得声带产生张弛振荡式的振动,产生一股准周期脉冲气流,这一气流激励声道就产生浊音,它携带了语音中的大部分能量,其中声带的振动频率就称为基频。
[0030]本发明实施例中,采用基于时域的算法和/或基于空域的算法提取所述第一个语音包的基频,其中,所述基于时域的算法包括自相关函数算法和平均幅度差函数算法,所述基于空域的算法包括倒普分析法和离散小波变换法。
[0031]自相关函数法是利用了浊音信号的准周期性,通过对比原始信号和它的位移后信号之间的类似性来进行基频的检测,其原理是浊音信号的自相关函数在时延等于基音周期整数倍的地方产生一个峰值,而清音信号的自相关函数无明显的峰值。因此通过检测语音信号的自相关函数的峰值位置,就可以估计语音的基频。
[0032]平均幅度差函数法检测基频的依据为:语音的浊音具有准周期性,完全周期信号在相距为周期的倍数的幅值点上的幅值是相等的,从而差值为零。假设基音周期为P,则在浊音段,则平均幅度差函数将出现谷底,则两个谷底之间的距离即为基音周期,其倒数则为基频。
[0033]倒谱分析是谱分析的一种方法,输出是傅里叶变换的幅度谱取对数后做傅里叶逆变换的结果。该方法所依据的理论是,一个具有基频的信号的傅立叶变换的幅度谱有一些等距离分布的峰值,代表信号中的谐波结构,当对幅度谱取对数之后,这些峰值被削弱到一个可用的范围。幅度谱取对数后得到的结果是在频域的一个周期信号,而这个频域信号的周期(是频率值)可以认为就是原始信号的基频,所以对这个信号做傅里叶逆变换就可以在原始信号的基音周期处得到一个峰值。
[0034]离散小波变换是一个强大的工具,它允许在连续的尺度上把信号分解为高频成分和低频成分,它是时间和频率的局部变换,能有效地从信号中提取信息。与快速傅里叶变换相比,离散小波变换的主要好处在于,在高频部分它可以取得好的时间分辨率,在低频部分可以取得好的频率分辨率。
[0035]本发明实施例中,根据语音样本的来源,训练了不同类型的语音模型,如男性语音模型、女性语音模型以及儿童语音模型等。与此同时,对于每种不同的类型设置相应的基频阈值,所述基频阈值的取值范围通过大量的试验检测得到。
[0036]基频取决于声带的大小、厚薄、松弛程度以及声门上下之间的气压差的效应等。当声带被拉得越长、越紧、越薄,声门的形状就变得越细长,而且这时声带在闭合时也未必是完全的闭合,相应的基频就越高。基频随着发音人的性别,年龄及具体情况而定,总体来说,老年男性偏低,女性和儿童偏高。经测试,一般地,男性的基频范围大概在80Hz到200Hz之间,女性的基频范围大概在200-350HZ之间,而儿童的基频范围大概在350-500HZ之间。
[0037]当一段语音输入请求语音识别时,提取其基频,并判断其所述的阈值范围,即可判断输入语音的来源是男性、女性或是儿童,若是得不到检测结果。
[0038]具体地,根据待检测语音来源类别进行语音模型的选择,可以分为以下四种情况:
[0039]若所述待检测语音来源于男性,则选择男性语音模型;
[0040]若所述待检测语音来源于女性,则选择女性语音模型;
[0041]若所述待检测语音来源于儿童,则选择儿童语音模型;
[0042]若无检测结果或为其他,则选择通用语音模型进行待测语音的识别。
[0043]步骤130:对待测语音进行前端处理以获取所述待测语音的特征参数的值,并将处理后的所述待测语音与所述语音模型进行匹配打分,从而获取语音识别的结果。
[0044]对语料进行前端处理,主要是提取语音的特征参数,语音特征参数包括Mel频率倒谱系数(MFCC),线性预测系数(LPC),线性预测倒谱系数(LPCC)等,本发明实施例并不做限制。因MFCC在一定程度上模拟了人耳对语音的处理特点,因此本实施例提取MFCC作为特征参数。
[0045]MFCC的计算流程如下:将语音信号进行段式傅里叶变换得到其频谱;求频谱幅度的平方,即能量谱,并用一组三角滤波器在频域对能量进行带通滤波;对滤波器的输出取对数,然后做傅里叶逆变换或DCT变换即可得到MFCC的值。
[0046]本发明实施例中将处理后的所述待测语音与所述语音模型进行匹配打分,实际上是待测语音的MFCC值与训练好的所述语音模型中的MFCC值进行匹配,计算二者的匹配度得分,从而得出识别结果。
[0047]需要说明的是,在语音识别阶段对所述待测语音进行前端处理和训练阶段对语料样本进行前端处理的过程相同,选取的特征参数相同,这样特征参数的值才具有可比性。
[0048]本实施例首先将待测语音经过端点检测,获取待测语音段的起始点,然后对其进行分包;获取第一个语音包的数据后,对所述第一个语音包进行语音来源类别的检测(SCD)从而判断出待测语音属于男性,女性还是儿童并选择相应语音来源对应的语音模型;通过提取待测语音的特征参数进行语音识别,得出识别结果。实现了通过检测语音来源的类别,进行动态的选择语音模型进行识别,提高了女性和儿童的语音识别率,同时具有高效率,低成本的优势。
[0049]实施例二
[0050]图2是本发明实施例二的技术流程图,结合图2,本发明实施例一种动态选择语音模型的语音识别方法中,预先训练不同的语音来源对应的语音模型,主要由以下的步骤实现:
[0051]步骤210:对不同来源的语料进行所述前端处理以获取所述语料的所述特征参数;
[0052]本步骤的执行过程与技术效果同实施例二中的步骤130相同,此处不赘述。
[0053]步骤220:根据所述特征参数对所述语料进行训练,得到与不同的所述来源对应的语音模型。
[0054]本步骤中,利用各类来源的语料提取的所述特征参数,分别进行四个类别的模型训练,即男性语料训练男性语音模型;女性语料训练女性语音模型;儿童语料训练儿童语音模型;三种类别的混合语料训练通用语音模型。
[0055]本发明实施例中,语音模型的训练可以采用HMM,GMM-HMM, DNN-HMM等。
[0056]HMM(Hidden Markov Model),即隐马尔可夫模型。HMM是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集。自20世纪80年代以来,HMM被应用于语音识别,取得重大成功。GMM为混合高斯模型,DNN为深度神经网络模型。
[0057]GMM-HMM和DNN-HMM都是基于HMM的变形,由于这三种模型都是非常成熟的现有技术且并非本发明实施例保护重点,此处将不再赘述。
[0058]本实施例这种,通过对现有不同来源的语料进行特征参数的提取以及语音模型的训练,得到了与语音来源相匹配的几类语音模型,将之用于语音识别,可以有效的提升女性语音和儿童语音的相对识别率。
[0059]实施例三
[0060]图3是本发明实施例三的装置结构示意图,结合图3,本发明实施例一种动态选择语音模型的语音识别装置主要包括如下的几个模块:基频提取模块310、分类模块320、语音识别模块330、语音模型训练模块340。
[0061]所述基频提取模块310,用于获取待测语音的第一个语音包,并对所述第一个语音包进行基频的提取,其中所述基频为声带振动的频率;
[0062]所述分类模块320,与所述基频提取模块310相连并调用所述基频提取模块310提取到的基频值,根据所述基频对所述待测语音的来源进行分类并选择预先训练的相应类别的语首t旲型;
[0063]所述语音识别模块330,与所述分类模块320相连接,用于对待测语音进行前端处理以获取所述待测语音的特征参数的值,并将处理后的所述待测语音与所述分类模块320分类所得的所述语音模型进行匹配打分,从而获取语音识别的结果。
[0064]具体地,所述基频提取模块310进一步用于:对所述待测语音进行端点检测以获取所述待测语音的起始点;以所述起始点之后一定时间范围内的语音信号作为所述第一个语音包。
[0065]具体地,所述基频提取模块310进一步还用于:采用基于时域的算法和/或基于空域的算法提取所述第一个语音包的基频,其中,所述基于时域的算法包括自相关函数算法和平均幅度差函数算法,所述基于空域的算法包括倒普分析法和离散小波变换法。
[0066]具体地,所述分类模块330用于:根据预设的基频阈值判断所述基频所属的阈值范围,并根据所述阈值范围对所述待测语音的来源进行分类,其中,所述阈值范围与语音的不同来源存在唯一的对应关系。
[0067]具体地,所述装置进一步包括语音模型训练模块340:对不同来源的语料进行所述前端处理以获取所述语料的所述特征参数;根据所述特征参数对所述语料进行训练,得到与不同的所述来源对应的语音模型。
[0068]图2所示装置可以执行图1以及图2所示实施例的方法,实现原理和技术效果参考图1以及图2所示实施例,不再赘述。
[0069]以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0070]通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如R0M/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行各个实施例或者实施例的某些部分所述的方法。
[0071]最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
【主权项】
1.一种动态选择语音模型的语音识别方法,其特征在于,包括如下的步骤: 获取待测语音的第一个语音包,并对所述第一个语音包进行基频的提取,其中所述基频为声带振动的频率; 根据所述基频对所述待测语音的来源进行分类并选择预先训练的相应类别的语音模型; 对待测语音进行前端处理以获取所述待测语音的特征参数的值,并将处理后的所述待测语音与所述语音模型进行匹配打分,从而获取语音识别的结果。2.根据权利要求1所述的方法,其特征在于,获取待测语音的第一个语音包,进一步包括: 对所述待测语音进行端点检测以获取所述待测语音的起始点; 以所述起始点之后一定时间范围内的语音信号作为所述第一个语音包。3.根据权利要求1所述的方法,其特征在于,对所述第一个语音包进行基频的提取,进一步包括: 采用基于时域的算法和/或基于空域的算法提取所述第一个语音包的基频,其中,所述基于时域的算法包括自相关函数算法和平均幅度差函数算法,所述基于空域的算法包括倒普分析法和离散小波变换法。4.根据权利要求1所述的方法,其特征在于,根据所述基频对所述待测语音的来源进行分类,进一步包括: 根据预设的基频阈值判断所述基频所属的阈值范围,并根据所述阈值范围对所述待测语音的来源进行分类,其中,所述阈值范围与语音的不同来源存在唯一的对应关系。5.根据权利要求1所述的方法,其特征在于,根据所述基频对所述待测语音的来源进行分类并选择预先训练的相应类别的语音模型之前,进一步包括: 对不同来源的语料进行所述前端处理以获取所述语料的所述特征参数; 根据所述特征参数对所述语料进行训练,得到与不同的所述来源对应的语音模型。6.一种动态选择语音模型的语音识别装置,其特征在于,包括如下的模块: 基频提取模块,用于获取待测语音的第一个语音包,并对所述第一个语音包进行基频的提取,其中所述基频为声带振动的频率; 分类模块,用于根据所述基频对所述待测语音的来源进行分类并选择预先训练的相应类别的语首t旲型; 语音识别模块,用于对待测语音进行前端处理以获取所述待测语音的特征参数的值,并将处理后的所述待测语音与所述语音模型进行匹配打分,从而获取语音识别的结果。7.根据权利要求6所述的装置,其特征在于,所述基频提取模块进一步用于: 对所述待测语音进行端点检测以获取所述待测语音的起始点; 以所述起始点之后一定时间范围内的语音信号作为所述第一个语音包。8.根据权利要求6所述的装置,其特征在于,所述基频提取模块进一步还用于: 采用基于时域的算法和/或基于空域的算法提取所述第一个语音包的基频,其中,所述基于时域的算法包括自相关函数算法和平均幅度差函数算法,所述基于空域的算法包括倒普分析法和离散小波变换法。9.根据权利要求6所述的装置,其特征在于,所述分类模块用于: 根据预设的基频阈值判断所述基频所属的阈值范围,并根据所述阈值范围对所述待测语音的来源进行分类,其中,所述阈值范围与语音的不同来源存在唯一的对应关系。10.根据权利要求6所述的装置,其特征在于,所述装置进一步包括语音模型训练模块: 对不同来源的语料进行所述前端处理以获取所述语料的所述特征参数; 根据所述特征参数对所述语料进行训练,得到与不同的所述来源对应的语音模型。
【文档编号】G10L15/07GK105895078SQ201510849106
【公开日】2016年8月24日
【申请日】2015年11月26日
【发明人】王永庆
【申请人】乐视致新电子科技(天津)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1