目标任务分布估计和声学模型自适应方法及系统的制作方法_2

文档序号:8446551阅读:来源:国知局
KL距离通过贪心算法挑选所述低置信度数据,其中初始的已挑选数据集为 空集,备选数据集为第二低置信度数据集。
[0049] 优选的是,从首选语音识别结果数据集中补充挑选另一部分自适应数据,使所述 自适应数据的分布与所述目标任务分布最接近包括:
[0050] 获取所述自适应数据相应于所述首选语音识别结果数据集的分布作为所述自适 应数据的分布。
[0051] 优选的是,从首选语音识别结果数据集中补充挑选另一部分自适应数据,使所述 自适应数据的分布与所述目标任务分布最接近还包括:
[0052] 基于KL距离通过贪心算法挑选所述另一部分自适应数据,其中,初始的已挑选数 据集由所述进行人工标注的低置信度数据构成,备选数据集为所述首选语音识别结果数据 集。
[0053] 本发明的第三个目的是提供了一种更加准确有效的目标任务分布估计系统。
[0054] 本发明米用的技术方案为:一种目标任务分布估计系统,包括:
[0055] 覆盖度分布获取模块,用于获取所述目标任务相应于候选语音识别结果数据集的 分布,作为所述目标任务的覆盖度分布;
[0056] 第一低置信度数据集获取模块,用于获取所述候选语音识别结果数据集中首选语 音识别结果的置信度小于等于第一置信度门限值的语音识别结果,构成第一低置信度数据 集;
[0057] 混淆度分布获取模块,用于获取所述目标任务相应于所述第一低置信度数据集的 分布,作为所述目标任务的混淆度分布;以及,
[0058] 目标任务分布获取模块,用于对所述目标任务的覆盖度分布和混淆度分布进行融 合,获得所述目标任务分布。
[0059] 优选的是,所述覆盖度分布获取模块包括:
[0060] 分解单元,用于将所述目标任务分解为各语音单元;
[0061] 第一出现频率计算单元,用于计算所述语音单元在所述候选语音识别结果数据集 的各语音识别结果中的出现频率,作为所述语音单元的第一出现频率;以及,
[0062] 覆盖度分布统计单元,用于获取所述目标任务中所有语音单元的所述第一出现频 率,作为所述目标任务相应于候选语音识别结果数据集的分布。
[0063] 优选的是,所述混淆度分布获取模块包括:
[0064] 所述分解单元;
[0065] 第二出现频率计算单元,用于计算所述语音单元在所述第一低置信度数据集的各 语音识别结果中的出现频率,作为所述语音单元的第二出现频率;以及,
[0066] 混淆度分布统计单元,用于获取所述目标任务中所有语音单元的所述第二出现频 率,作为所述目标任务相应于所述第一低置信度数据集的分布。
[0067] 优选的是,所述目标任务分布获取模块包括:
[0068] 融合单元,用于对所述语音单元的第一出现频率和第二出现频率进行线性加权, 获得所述语音单元的融合出现频率;
[0069]目标任务分布统计单元,用于获取所述目标任务中所有语音单元的融合出现频率 作为所述目标任务分布。
[0070] 本发明的第四个目的是提供一种更加准确有效的声学模型自适应系统。
[0071] 本发明采用的技术方案为:一种声学模型自适应系统,包括:
[0072] 上述任一种目标任务分布估计系统,用于获取目标任务分布;
[0073] 自适应数据挑选模块,用于从候选语音识别结果数据中挑选自适应数据,使自适 应数据的分布与所述目标任务分布最接近;以及,
[0074] 声学模型优化模块,用于利用所述自适应数据对当前声学模型进行模型参数的自 适应调整,获取优化的声学模型。
[0075] 优选的是,所述自适应数据挑选模块包括:
[0076] 第二低置信度数据集获取单元,用于获取所述候选语音识别结果数据集中首选语 音识别结果的置信度小于等于第二置信度门限值的语音识别结果,构成第二低置信度数据 集;
[0077] 低置信度数据挑选单元,用于从所述第二低置信度数据集中挑选低置信度数据, 使低置信度数据的分布与所述目标任务分布最接近;
[0078] 人工标注单元,用于对所述低置信度数据进行人工标注,使进行人工标注的低置 信度数据成为一部分自适应数据;
[0079] 高置信度数据挑选单元,用于从首选语音识别结果数据集中补充挑选另一部分自 适应数据,使所述自适应数据的分布与所述目标任务分布最接近。
[0080] 优选的是,所述低置信度数据挑选单元用于将所述低置信度数据作为所述目标任 务输入至所述目标任务分布估计系统,以获取所述低置信度数据的分布。
[0081] 优选的是,所述低置信度数据挑选单元用于基于KL距离通过贪心算法挑选所述 低置信度数据,其中初始的已挑选数据集为空集,备选数据集为第二低置信度数据集。
[0082] 优选的是,所述高置信度数据挑选单元用于获取所述自适应数据相应于所述首选 语音识别结果数据集的分布作为所述自适应数据的分布。
[0083] 优选的是,所述高置信度数据挑选单元用于基于KL距离通过贪心算法挑选所述 另一部分自适应数据,其中,初始的已挑选数据集由所述进行人工标注的低置信度数据构 成,备选数据集为所述首选语音识别结果数据集。
[0084] 本发明的有益效果在于,首先,本发明的目标任务分布估计和声学模型自适应方 法及系统基于候选语音识别结果数据集估计目标任务分布,并非基于人工标注训练数据进 行,所以具有时效性强、节省人力成本的优点;再者,本发明的目标任务分布估计方法及系 统融合了基于识别效果较差的语音识别结果获取的目标任务的混淆度分布,可以有效提升 整体语音识别系统的性能;最后,本发明的声学模型自适应方法及系统通过采用挑选低置 信度数据进行人工标注及挑选高置信度数据进行补充的方式实现自适应数据的高效挑选。
【附图说明】
[0085] 图1示出了根据本发明所述目标任务分布估计方法的一种实施方式的流程图;
[0086] 图2示出了根据本发明所述声学模型自适应方法中自适应数据挑选的一种实施 方式的流程图;
[0087] 图3示出了图2中挑选低置信度数据的一种实施方式的流程图;
[0088] 图4示出了图2中挑选高置信度数据作为补充的一种实施方式的流程图;
[0089] 图5示出了根据本发明所述目标任务分布估计系统的一种实施结构的方框原理 图;
[0090] 图6示出了根据本发明所述声学模型自适应系统的一种实施结构的方框原理图。
【具体实施方式】
[0091] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0092] 如图1所示,本发明的目标任务分布估计方法包括:
[0093] 步骤Sl :获取目标任务相应于候选语音识别结果数据集的分布,作为所述目标任 务的覆盖度分布;在此,语音识别结果针对具体的目标任务会识别出多个语音识别结果, 语音识别系统将从这些语音识别结果作中选出置信度最高的一个语音识别结果输出,选择 输出的语音识别结果也被称为是I-Best语音识别结果,由所有I-Best语音识别结果构成 的集合则被称为是首选语音识别结果数据集,现有技术中即是基于首选语音识别结果数 据集获得目标任务分布;其中的候选语音识别结果数据集即为语音识别系统中存储的由 N-Best语音识别结果构成的数据集,针对某一目标任务的N-Best语音识别结果通常为语 音识别系统所获得的所有语音识别结果,当然,该N-Best语音识别结果也可以是置信度高 于设定阈值的所有识别结果,或者是按置信度从高至低排序位于前N个的语音识别结果。
[0094] 步骤S21 :获取候选语音识别结果数据集中首选语音识别结果的置信度小于等于 第一置信度门限值的语音识别结果,构成第一低置信度数据集;该第一置信度门限值可根 据实际应用场合(即具体的语音识别任务)选择,在此,如果语音识别结果整体置信度偏低, 则可选择较小的第一置信度门限值,如果语音识别结果整体置信度偏高,则可选择较大的 第一置信度门限值,通常情况下,第一置信度门限值在〇. 5~0. 8的范围内选择。
[0095] 步骤S22 :获取目标任务相应于第一低置信度数据集的分布,作为所述目标任务 的混淆度分布。
[0096] 步骤S3 :对目标任务的覆盖度分布和混淆度分布进行融合,获得目标任务分布。
[0097] 上述步骤Sl中获取目标任务相应于候选语音识别结果数据集的分布可具体包 括:
[0098] 步骤Sll :将目标任务分解为各语音单元,该语音单元可以是音节、音素,也可以 是一个词。
[0099] 步骤S12 :计算语音单元在候选语音识别结果数据集的各语音识别结果中的出现
【主权项】
1. 一种目标任务分布估计方法,其特征在于,包括: 获取所述目标任务相应于候选语音识别结果数据集的分布,作为所述目
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1