目标任务分布估计和声学模型自适应方法及系统的制作方法
【技术领域】
[0001] 本发明涉及语音识别领域,尤其涉及一种面向任务的声学模型自适应方法及系 统。
【背景技术】
[0002] 自20世纪90年代起,研究人员针对语音识别系统中的声学模型提出了说话人自 适应技术,如最大似然线性回归(MLLR)、最大后验概率(MAP)等,通过该技术,仅需采集少 量说话人数据即可对原始声学模型(预先在大量通用数据上训练得到的说话人无关模型) 进行优化调整,使得调整后的声学模型能够更加接近说话人特点,进而提高识别准确率。近 年来,随着移动互联网和云计算的高速发展,语音识别技术更加普及,其应用环境也日趋复 杂化,面向任务的声学模型自适应技术已成为新的研究热点。面向任务(指语音识别任务) 的声学模型自适应技术针对具体的识别应用对声学模型参数进行自适应调整,使得调整后 的声学模型参数与语音识别任务更加匹配进而获得更好的识别性能。传统的针对具体说话 人的说话人自适应技术已不能满足应用的需求。
[0003] 传统的面向语音识别任务的声学模型自适应方法包括如下步骤:
[0004] 步骤A :统计具体语音识别任务中基本语音单元的出现频率作为目标任务分布; 其中的基本语音单元通常为音节单元、音素单元等基本识别单元。在统计基本语音单元的 分布时,系统通常根据任务相关的人工标注训练数据(即对语音识别任务进行人工识别的 结果数据)或者任务相关的语音识别结果数据(即系统对语音识别任务进行识别的结果数 据)进行统计,统计各基本语音单元在上述数据中的出现频率作为目标任务分布。
[0005] 步骤B :根据所述目标任务分布从任务相关的人工标注训练数据或者任务相关的 语音识别结果数据中挑选自适应数据,使自适应数据的分布与目标任务分布一致。
[0006] 在步骤B中,通过基于KL距离(Kullback-Leibler Divergence)通过贪心算法挑 选该自适应数据,具体步骤如下:
[0007] 步骤Bl :将任务相关的人工标注训练数据或者任务相关的语音识别结果数据作 为备选数据集合,设定已挑选数据集为空集,并设定挑选数据量。
[0008] 步骤B2 :依次考察备选数据集合中的每一个数据,其中,考察当前数据的方法为: 将当前数据放入已挑选数据集合,计算已挑选数据集合的分布与目标任务分布的KL距离, 之后恢复已挑选数据集合。
[0009] 步骤B3 :选择步骤B2中使得新的已挑选数据集合与目标任务分布的KL距离最小 的数据作为本次的挑选对象,将该数据放入已挑选数据集合,并从备选数据集合中删除该 数据。
[0010] 步骤M :判断已挑选数据集中的数据量是否达到设定的挑选数据量,如果达到, 则退出挑选步骤,否则,继续执行步骤B2。
[0011] 步三:对步骤B中挑选的自适应数据进行人工标注修正;如果备选数据集合来源 于任务相关的语音识别结果数据,那么为了保证自适应数据的正确性还需要对所挑选的自 适应数据进行人工标注修正,如果备选数据集合来源于任务相关的人工标注训练数据,则 省略步骤三。
[0012] 步四:利用所挑选的自适应数据对原有声学模型进行模型参数的自适应调整,获 取优化的声学模型。
[0013] 由此可见,以上传统的面向语音识别任务的声学模型自适应方法主要基于语音单 元分布一致性的原则挑选自适应数据,该种方法的实现简单直接,且取得了一定的成果,但 在实际应用中依然存在以下缺陷:
[0014] 1.计算目标任务分布存在一定的不确定性,比如:传统方法挑选的自适应数据仅 考虑自适应数据具有和具体任务一致的语音单元数据覆盖度,而语音识别系统性能的提升 需要重点提高原系统中识别效果较差的语音单元识别情况,因而在保证数据平衡的条件下 合理关注识别较差的语音单元的数据对提高系统性能有实际意义。
[0015] 2.传统的基于任务相关的人工标注训练数据的覆盖度分析存在一定的问题,一方 面要估计较为准确的数据分布需要较大量的人工标注数据,另一个方面人工标注数据往往 不是时效性很强的数据,使用这些数据估计的分布难以真实反映当前系统中的数据分布情 况。
[0016] 3.传统的基于语音识别结果数据的覆盖度分布,虽然可以保证分布的时效性,但 是由于语音识别结果往往有误,据此获得的分布估计也并不准确。
[0017] 4.所挑选的自适应数据不一定满足应用需求,这体现在传统的任务自适应方法如 果基于人工标注数据进行数据挑选,那么在人工标注的数据量方面存在一定的问题,如果 人工标注的数据量不充足,则难以保证达到挑选的自适应数据的分布与估计的数据分布尽 可能的接近的目标,而如果要达到这样的目标,就需要大量的人工标注数据作为挑选的备 选数据,这需要消耗大量的人力标注资源;传统的任务自适应方法如果基于语音识别结果 数据进行数据挑选,那么由于识别结果有误,挑选的数据集的数据分布很可能与估计的目 标分布有较大差距。
[0018] 基于上述分析,传统的任务声学模型自适应都有可能造成最终的任务自适应的效 果不佳。对此本案提出了一种新的面向任务的自适应方法,提出了一种新的目标任务分布 估计准则和方法,通过更加准确有效地估计语音单元分布及高效的数据挑选,提高自适应 识别系统的识别性能。
【发明内容】
[0019] 本发明的一个目的在于克服现有技术中的不足,提供了一种更加准确有效的目标 任务分布估计方法。
[0020] 为实现上述目的,本发明采用的技术方案为:一种目标任务分布估计方法,包括:
[0021] 获取所述目标任务相应于候选语音识别结果数据集的分布,作为所述目标任务的 覆盖度分布;
[0022] 获取所述候选语音识别结果数据集中首选语音识别结果的置信度小于等于第一 置信度门限值的语音识别结果,构成第一低置信度数据集;
[0023] 获取所述目标任务相应于所述第一低置信度数据集的分布,作为所述目标任务的 混淆度分布;
[0024] 对所述目标任务的覆盖度分布和混淆度分布进行融合,获得所述目标任务分布。
[0025] 优选的是,所述获取所述目标任务相应于候选语音识别结果数据集的分布包括:
[0026] 将所述目标任务分解为各语音单元;
[0027] 计算所述语音单元在所述候选语音识别结果数据集的各语音识别结果中的出现 频率,作为所述语音单元的第一出现频率;
[0028] 获取所述目标任务中所有语音单元的所述第一出现频率,作为所述目标任务相应 于候选语音识别结果数据集的分布。
[0029] 优选的是,所述获取所述目标任务相应于所述第一低置信度数据集的分布包括;
[0030] 计算所述语音单元在所述第一低置信度数据集的各语音识别结果中的出现频率, 作为所述语音单元的第二出现频率;
[0031] 获取所述目标任务中所有语音单元的所述第二出现频率,作为所述目标任务相应 于所述第一低置信度数据集的分布。
[0032] 优选的是,所述对所述目标任务的覆盖度分布和混淆度分布进行融合,获得所述 目标任务分布包括:
[0033] 对所述语音单元的第一出现频率和第二出现频率进行线性加权,获得所述语音单 元的融合出现频率;
[0034] 获取所述目标任务中所有语音单元的融合出现频率作为所述目标任务分布。
[0035] 本发明的第二个目的是基于上述目标任务分布估计方法,提供一种更加准确有效 的声学模型自适应方法。
[0036] 本发明米用的技术方案为:一种声学模型自适应方法,包括:
[0037] 利用上述任一项目标任务分布估计方法获取目标任务分布;
[0038] 从候选语音识别结果数据中挑选自适应数据,使自适应数据的分布与所述目标任 务分布最接近;
[0039] 利用所述自适应数据对当前声学模型进行模型参数的自适应调整,获取优化的声 学模型。
[0040] 优选的是,所述从候选语音识别结果数据中挑选自适应数据包括:
[0041] 获取所述候选语音识别结果数据集中首选语音识别结果的置信度小于等于第二 置信度门限值的语音识别结果,构成第二低置信度数据集;
[0042] 从所述第二低置信度数据集中挑选低置信度数据,使低置信度数据的分布与所述 目标任务分布最接近;
[0043] 对所述低置信度数据进行人工标注,使进行人工标注的低置信度数据成为一部分 自适应数据;
[0044] 从首选语音识别结果数据集中补充挑选另一部分自适应数据,使所述自适应数据 的分布与所述目标任务分布最接近。
[0045] 优选的是,从所述第二低置信度数据集中挑选低置信度数据,使低置信度数据的 分布与所述目标任务分布最接近包括:
[0046] 将所述低置信度数据作为所述目标任务获取所述低置信度数据的分布。
[0047] 优选的是,从所述第二低置信度数据集中挑选低置信度数据,使低置信度数据的 分布与所述目标任务分布最接近还包括:
[0048] 基于