筛选发音词典有效词条的方法及装置的制造方法
【专利摘要】本发明实施例提供一种筛选发音词典有效词条的方法及装置。遍历语音词典的每一词条,调用预先训练的统计模型,并根据预设的打分策略,对所述词条打分,其中,所述统计模型中保存有所述词条与相应发音分布的对照关系;根据预设的筛选策略对所述打分后的所述语音词典进行筛选,得到优化后的语音词典。实现了低成本、高效率的发音词典优化,同时提高了发音词典的识别率。
【专利说明】
筛选发音词典有效词条的方法及装置
技术领域
[0001] 本发明实施例涉及语音技术领域,尤其涉及一种筛选发音词典有效词条的方法及 装置。
【背景技术】
[0002] 发音词典是语音识别系统的重要组成部分,描述了词的发音方法。对于汉语普通 话,一个常见问题是发音词典经常存在大量冗余条目。这个问题的原因是发音词典通常用 计算机通过查词典的方式自动生成,而汉语存在大量的多音字,计算机又难以判断应该使 用多音字的哪个发音来生成发音词典,只好使用全部发音来生成发音词典的条目。这导致 词典中有大量的条目的发音是实际中用不到的。
[0003] 对于词典冗余问题,若是放任这种冗余,不去处理,将带有冗余的词典应用于语音 识别系统,带来的是将是空间和时间的浪费以及一定程度的识别准确率下降。
[0004] 现有技术中,针对词典条冗余的处理方法是人工筛选,删除不需要的发音,这种方 法可以有效地解决词典条目冗余问题,但缺点是成本太高,工作量过大。
[0005] 因此,一种高效的筛选发音词典有效词条的方法亟待提出。
【发明内容】
[0006] 本发明实施例提供一种筛选发音词典有效词条的方法及装置,用以解决现有技术 中人工筛选发音词典从而解决发音词典资源冗余的高成本、高工作量的缺陷,实现了发音 词典有效条目的自动筛选。
[0007] 本发明实施例提供一种筛选发音词典有效词条的方法,包括:
[0008] 遍历语音词典的每一词条,调用预先训练的统计模型,并根据预设的打分策略,对 所述词条打分,其中,所述统计模型中保存有所述词条与相应发音分布的对照关系;
[0009] 根据预设的筛选策略对所述打分后的所述语音词典进行筛选,得到优化后的语音 词典。
[0010] 本发明实施例提供一种筛选发音词典有效词条的装置,包括:
[0011] 打分模块,用于遍历语音词典的每一词条,调用统计模型训练模块预先训练的统 计模型,并根据预设的打分策略,对所述词条打分,其中,所述统计模型中保存有所述词条 与相应发音分布的对照关系;
[0012] 筛选模块,用于根据预设的筛选策略对所述打分后的所述语音词典进行筛选,得 到优化后的语音词典。
[0013] 本发明实施例提供的筛选发音词典有效词条的方法及装置,使用一定数量的语料 库进统计模型的训练,从而根据所述统计模型判断语音词典的条目是否为有效条目,改变 了现有发音词典条目冗余的缺陷,优化了现有发音词典;与此同时,相对与现有技术中需大 量人工筛选无效条目的不足,本发明实施例实现了无效词条的高效率、低成本的自动删除。
【附图说明】
[0014] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根 据这些附图获得其他的附图。
[0015] 图1为本发明实施例一的技术流程图;
[0016] 图2为本发明实施例二的技术流程图;
[0017] 图3为本发明实施例三的技术流程图;
[0018] 图4为本发明实施例四的装置结构示意图;
[0019] 图5为本发明应用实例的技术流程图。
【具体实施方式】
[0020] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0021] 需要说明的是,本发明的各实施例并非独立存在,而是可以相互结合或者互为依 托的。
[0022] 实施例一
[0023] 图1是本发明实施例一的技术流程图,结合图1所示,本发明实施例一种筛选发音 词典有效词条的方法主要包括如下的步骤:
[0024] 步骤110 :遍历语音词典的每一词条,调用预先训练的统计模型,并根据预设的打 分策略,对所述词条打分,其中,所述统计模型中保存有所述词条与相应发音分布的对照关 系;
[0025] 发音词典是语音识别系统的重要组成部分,描述了词的发音方法。下面的例子是 一个用汉语拼音表示的发音词典的片段:
[0026] 保定市 bao3ding4shi4
[0027] 保福寺 bao3fu2si4
[0028] 保福寺桥 bao3fu2si4qiao2
[0029] 对于汉语普通话,一个常见问题是发音词典经常存在大量冗余条目。这个问题的 原因是发音词典通常用计算机通过查词典的方式自动生成,而汉语存在大量的多音字,计 算机又难以判断应该使用多音字的哪个发音来生成发音词典,只好使用全部发音来生成发 音词典的条目。这导致词典中有大量的条目的发音是实际中用不到的。例如:
[0030] 每个人都这么说 mei3ge4ren2doulzhe4melshu
[0031] 每个人都这么说 mei3ge4ren2doulzhe4melshu
[0032] 每个人都这么说 mei3ge4ren2doulzhe4melyue
[0033] 每个人都这么说 mei3ge4ren2dulzhe4melshui
[0034] 每个人都这么说 mei3ge4ren2dulzhe4melshuo
[0035] 每个人都这么说 mei3ge4ren2dulzhe4melyue4
[0036] 上述示意的词典中,虽然"都"和"说"是多音字,但"每个人都这么说"这个短句的 发音是唯一的。在计算机制作词典时,由于不能判断应该采用"都"和"说"的哪个发音,而 只好采用了所有可能发音,这造成了大量的冗余。这导致语音识别的资源占用升高、存储空 间浪费,也对识别性能有一定干扰。
[0037] 本发明实施例通过对一定数量的语料进行训练,得到统计模型,从所述统计模型 中读取相应的参数,评估发音词典中词条在和所述统计模型中数据的相似程度。并通过打 分机制计算所述词条的得分,从而实现有效词条的筛选。
[0038] 具体的实现过程为:查询所述统计模型,根据所述词条中每个所述单字的平均发 音频率获取所述词条的平均分;将所述语音词典中的每一所述单字与上下文环境中的文字 进行不同程度的结合生成带有优先级的字单元;从优先级最高的所述字单元开始查询所述 统计模型,若查询到所述统计模型中存在所述字单元对应的所述发音频率,则将所述发音 频率作为所述单字的分数;否则,将所述单字在所述统计模型中发音频率的最大值作为所 述单字的分数。
[0039] 步骤120 :根据预设的筛选策略对所述打分后的所述语音词典进行筛选,得到优 化后的语音词典。
[0040] 具体地,设定分数阈值,对于每一组文本相同而发音不同的词条集合,若每个所述 单字的分数都小于所述分数阈值,则保留所述平均分最高的词条;否则,删除所述词条集合 中包含有单字分数小于所述分数阈值的词条。
[0041] 本实施例通过对现有的发音词典中的每一个词条进行打分,并根据分数值进行词 条的筛选自动地判断词典条目是否为有效条目,从而能够删除无效条目,有效的解决了现 有发音词典词条冗余的缺陷,降低了发音词典的资源占用率以及语音识别的误检率。
[0042] 实施例二
[0043] 图2是本发明实施例二的计算流程图,结合图2,本发明实施例一种筛选发音词典 有效词条的方法中,统计模型的建立由以下的步骤实现:
[0044] 步骤210 :将用于训练的所述语料进行预处理得到语料库,其中,所述预处理包括 去除冗余的文本、断句、去除标点符号、添加句首和句尾的识别标记等;
[0045] 需要说明的是,本发明实施例的所述语料包括一定数量的文本及其对应的拼音。 文本的数量应该尽可能大,其内容应尽可能覆盖各个领域,而不应集中在有限的领域。语料 文本可以通过网页爬取、转录或直接向数据提供商购买等方式获取。与此同时,语料文本, 必须是有意义的句子,而不能是零散的汉字或无意义的汉字组合。因具有实际意义的句子 中,每一个单字都有一个与上下文环境结合的发音。因此得到语料库之前需对语料进行冗 余文本的去除,得到具有参考意义的文本。另外,对于非多音字的拼音,可以通过计算机查 词典得到;对于多音字的拼音,一般需要使用一定的人力,进行手工标注得到。
[0046] 本发明实施例对语料的预处理还包括断句、去除标点符号、添加句首和句尾的识 别标记等。具体的操作为,在逗号、句号、问号和感叹号处把句子切开,切成短句;把其他标 点符号,如引号、冒号、书名号等删掉;在每个短句的句首句尾添加识别标记,例如,在句首 加<s>标记,在句尾加</s>标记。上述操作进一步可以采用正则匹配法来实现,正则匹配 法主要通过正则表达式来获取目标文本以及根据预设的分割符进行文本分割等。正则匹配 是非常成熟的现有技术,此处不赘述。
[0047] 步骤220 :根据所述语料库,将所述单字与上下文环境中的文字进行不同程度的 结合生成带有优先级的字单元;
[0048] 本发明实施例中的所述统计模型是指使用已处理好的训练语料,计算若干统计数 据得到的模型。本发明实施例中所述统计模型训练方式可以包括,最大熵原理法,决策树方 法、基于上下文环境发音概率的模型训练方法等,本发明实施例并不作限制。本实施例中, 采用基于上下文环境发音概率的模型训练方法对所述语料库进行统计模型的训练,其主要 思路是统计每个"字单元"的各种发音在语料中的出现频率,所述"字单元"由某一单字与 文本上下文环境中的文字进行结合生成。本发明实施例中,根据所述单字与上下文的文字 环境结合的程度为生成的不同长度的所述字单元进行优先级的排序。可选的,对于所述单 字,可以有这样的字单元优先级排序:
[0049] 类型A :上文的N个字-单字+下文的M个字
[0050] 类型B :上文的N-1个字-单字+下文的M-1个字
[0051] ....................................
[0052] 类型C :上文的1个字-单字
[0053] 类型D 单字+下文的1个字
[0054] 类型E 单字+*
[0055] 其中,符号表示不限制文字环境,符号表示与上文环境中的文字结合,符 号" + "表示与下文中的文字结合;其中,N和M是整数,M和N的值不做限制,可以相等,也 可以不等。
[0056] 上述类型A~类型E的优先级是降序排列的,因考虑到一个单字的发音受其使用 的语言环境限制。在本实施例的统计模型训练过程中,通过对每一个单字都进行字单元的 划分,覆盖了每个单字与上下文的文字的之间的组合,因此,将M和N的值都设为1并不会 影响模型的训练结果。当M = M = 1时,得到的字单元按照优先级排列为:
[0057] 类型A :上文的1个字-单字+下文的1个字
[0058] 类型B :上文的1个字-单字
[0059] 类型C 单字+下文的1个字
[0060] 类型D 单字+*
[0061] 以下部分通过一个实际的例子来说明本实施例字单元的划分。例如,词条"这场音 乐会十分精彩"中"乐"是个多音字,将"乐"字与其所在的上下文环境中的文字进行结合可 以可到以下结果:
[0062] 类型1 :本字是"乐",前面的第一个字是"音",后面的第一个字是"会",其他环境 不限。这个单元记作:"音-月+会"。
[0063] 类型2:本字是"乐",前面的第一个字是"音",其他环境不限。这个单元记作: "音-乐+*,,。
[0064] 类型3:本字是"乐",后面的第一个字是"会",其他环境不限。这个单元记作: 乐+会"。
[0065] 类型4 :本字是"乐",其他环境不限。这个单元记作:"*_乐+*"。
[0066] 上述四种类型中,类型1里,单字"乐"分别与上文和下文的文字环境相结合,故其 优先级最高。类型2、3、4的优先级依次降低。
[0067] 步骤230 :统计每个所述单字对应的字单元的相应发音在所述语料库中出现的发 音频率,以所述统计的结果生成所述统计模型。
[0068] 本实施例中,对于每个单字,查询其对应的所有类型的字单元,并统计每个所述字 单元对应的发音的频率,得到所述语料库中的每个单字的发音分布,这些发音分布就是所 述统计模型。
[0069] 承接上述的例子,词条"这场音乐会十分精彩"的中"乐"的发音分布可以有如下 的结果:
[0070]
[0071] 本实施例中,通过对现有语料库的处理以及统计训练,得到了每个单字的发音分 布,从而后续进行发音词典有效条目进行筛选时,可以通过与所述统计模型进行匹配,快速 高效的自动查询匹配相应发音,并筛选出有效的词条。
[0072] 实施例三
[0073] 图3是本发明实施例三的技术流程图,结合图3,本发明实施例一种筛选发音词典 有效词条的方法中,调用预先训练的统计模型,并根据预设的打分策略对所述词条打分从 而实现有效词条筛选的过程主要由以下的步骤实现:
[0074] 步骤310 :查询所述统计模型,根据所述词条中每个所述单字的平均发音频率获 取所述词条的平均分;
[0075] 本实施例中,假设待检测的词条为"美妙的音乐让人沉醉",其在发音词典中对应 两种发音,因其中"乐"字为多音字,但是"乐"字在上述词条中的发音是唯一的,因此需筛 选出一条正确的发音条目。
[0076] 本实施例中,首先计算出"美妙的音乐让人沉醉"这一词条中每一个单字的发音频 率,根据每一个单字的发音频率计算出这一词条的平均分。所述平均分用于后续筛选过程; 与此同时,统计出所述词条中,各单字之间的最低分,将这些分数作为一个向量用于后续的 发音条目筛选
[0077] 步骤320 :将所述语音词典中的每一所述单字与上下文环境中的文字进行不同程 度的结合生成带有优先级的字单元;
[0078] 本步骤与实施例二中的步骤220执行过程相同,此处不再赘述。此处仅以一个实 际的例子示意字单元的生成结果。承接上一步骤中的词条"美妙的音乐让人沉醉",单字 "乐"对应的字单元按照优先级排序为:
[0079] 类型1 "音-月+让"
[0080] 类型2 "音-乐+*"
[0081] 类型3 乐+让"
[0082] 类型 4 乐 +*"
[0083] 步骤330 :从优先级最高的所述字单元开始查询所述统计模型,若查询到所述统 计模型中存在所述字单元对应的所述发音频率,则将所述发音频率作为所述单字的分数; 否则,跳转到步骤340 ;
[0084] 承接上述例子,检查统计模型中是否有类型1对应的字单元的发音分布,若有,则 以发音词典中所述单字的发音在模型中的发音频率作为该字的分数。如果类型1对应的字 单元没有找到发音分布,就依次查询类型2、类型3和类型4,直至找到发音分布为止,并将 所述发音分布对应的频率值作为所述单字的分数。
[0085] 例如,对于类型1 "音-月+让"这一字单元在统计模型中没有发现其发音分布, 则查询类型2 "音-乐+*"这一字单元在模型中的发音分布。当查询到发音为yue4的频率 为97. 66%,得到这个"乐"字的分数是0. 9766, "乐"字评分结束。
[0086] 值得注意的是,步骤320和步骤330还可以有以下的实现方式:
[0087] 首先生成类型1对应的字单元,即带有前后字环境的字单元。检查统计模型中是 否有其发音分布,若有,则以发音词典中所述单字的发音在模型中的发音频率作为该字的 分数。如果类型1对应的字单元没有找到发音分布,就依次生成类型2、类型3和类型4,直 至找到发音分布为止,并将所述发音分布对应的频率值作为所述单字的分数。
[0088] 步骤340 :将所述单字在所述统计模型中发音频率的最大值作为所述单字的分 数;
[0089] 若是所述单字对应的所有带有上下文语言环境的字单元均找不到对应的发音分 布,则以这个单字的发音分布中的最大值作为所述单字的分数。
[0090] 例如,在统计模型中,"音-月+让"。"音-乐+* "、*_乐+让"都找不到对应的 发音分布,而"乐"对应的yue4的发音频率为55%,超过了半数,则以0. 55作为"乐"字的 分数。
[0091] 步骤350 :设定分数阈值,对于每一组文本相同而发音不同的词条集合,若每个 所述单字的分数都小于所述分数阈值,则保留所述平均分最高的词条;否则,跳转到步骤 360 〇
[0092] 基于上述步骤的评分结果,可以有多种条目筛选的策略,例如:保留分数均值大于 指定值的条目、保留分数最小值大于指定值的条目、保留分数大于指定值的单字大于指定 比例的条目等,本发明实施例对此并不做限制。本实施例将采用一种更高效的筛选策略,即 设定分数阈值,对于每一组文本相同而发音不同的词条集合,若每个所述单字的分数都小 于所述分数阈值,则保留所述平均分最高的词条。以下将通过一个实例来示意这一筛选过 程:
[0093] 假设待筛选词条为"心情好",其得到的评分结果如下:
[0096] 假设所述分数阈值为0. 2,则上述这一组文本相同而发音不同的词条集合中,并非 每个所述单字的分数都小于所述分数阈值,因此跳转到步骤360。
[0097] 步骤360 :删除所述词条集合中包含有单字分数小于所述分数阈值的词条。
[0098] 承接上述例子,xinlqing2haol和xinlqing2hao4这两种发音中"haol"的分数为 0. 036,"ha〇4"的分数为0. 019,都低于所述分数阈值,因此,将这两种发音词条删去,保留有 效词条"心xinl情qing2好hao3"。
[0099] 本实施例中,根据所述统计模型判断语音词典的条目是否为有效条目,改变了现 有发音词典条目冗余的缺陷,优化了现有发音词典;与此同时,相对与现有技术中需大量人 工筛选无效条目的不足,本发明实施例实现了无效词条的高效率、低成本的自动删除。
[0100] 实施例四
[0101] 图4是本发明实施例四的装置结构示意图,如图4所示,本发明实施例一种筛选发 音词典有效词条的装置主要包括如下的模块:打分模块410、筛选模块420、统计模型训练 模块430。
[0102] 所述打分模块410,用于遍历语音词典的每一词条,调用统计模型训练模块430预 先训练的统计模型,并根据预设的打分策略,对所述词条打分,其中,所述统计模型中保存 有所述词条与相应发音分布的对照关系;
[0103] 所述筛选模块420,用于根据预设的筛选策略对所述打分模块410打分后的所述 语音词典进行筛选,得到优化后的语音词典。
[0104] 进一步地,所述统计模型训练模块430,用于根据语料采用如下的步骤训练所述统 计模型:
[0105] 将用于训练的所述语料进行预处理得到语料库,其中,所述预处理包括去除冗余 的文本、断句、去除标点符号、添加句首和句尾的识别标记等;
[0106] 根据所述语料库,将所述单字与上下文环境中的文字进行不同程度的结合生成带 有优先级的字单元;
[0107] 统计每个所述单字对应的字单元的相应发音在所述语料库中出现的发音频率,以 所述统计的结果生成所述统计模型。
[0108] 进一步地,所述打分模块410,用于查询所述统计模型,根据所述词条中每个所述 单字的平均发音频率获取所述词条的平均分;
[0109] 将所述语音词典中的每一所述单字与上下文环境中的文字进行不同程度的结合 生成带有优先级的字单元;
[0110] 从优先级最高的所述字单元开始查询所述统计模型,若查询到所述统计模型中存 在所述字单元对应的所述发音频率,则将所述发音频率作为所述单字的分数;否则,将所述 单字在所述统计模型中发音频率的最大值作为所述单字的分数。
[0111] 进一步地,所述筛选模块420,用于设定分数阈值,对于每一组文本相同而发音不 同的词条集合,若每个所述单字的分数都小于所述分数阈值,则保留所述平均分最高的词 条;否则,删除所述词条集合中包含有单字分数小于所述分数阈值的词条。
[0112] 图5所示装置可以执行图1、图2、图3对应实施例的方法,其实现原理和技术效果 可以参考图1、图2、图3对应的实施例的内容,此处不再赘述。
[0113] 应用实例
[0114] 以下部分将通过一个具体的例子阐述本发明实施例一种筛选发音词典有效词条 的方法中,训练统计模型和使用统计模型的具体实现过程。
[0115] 首先将用于训练的所述语料进行预处理得到语料库,其中,所述预处理包括去除 冗余的文本、断句、去除标点符号、添加句首和句尾的识别标记等。语料库中的文本,必须是 有意义的句子,而不能是零散的汉字或无意义的汉字组合。例如,下面的文本是不符合要求 的:
[0116] 差把大法阿斯发,的巍撒
[0117] 月们最得说区行又标不谈身事特的表
[0118] 画人爱军设小然心。脚开家市了有果们还对以教立分
[0119] 苦简头书报现
[0120] 以下是一个符合要求的文本的例子:
[0121] 几点开始呢
[0122] 不行,我这周末还有"考试"呢,下周怎么样
[0123] 但是工作真的很难找,最近好像很烦,我也没和他说
[0124] 给我回个电话好吗
[0125] 对文本中的每个汉字,还需要提供相应的拼音标注。例如,下面的例子把上面的有 效文本加上了拼音标注:
[0126] 几- ji2 点 _dian3 开-kail 始 _shi3 呢 _ne5
[0127] 不 _bu4 行 _xing2,我 _wo3 这 _zhe4 周-zhoul 末 _mo4 还 _hai2 有 _you2"考 _kao3 试 _shi4',呢 _ne5,下 _xia4 周-zhoul 怎 _zen3 么 _me5 样 _yang4
[0128] 但 _dan4 是 _shi4 工-gongl 作 _zuo4 真-zhenl 的 _de5 很 _hen3 难 _nan2 找_zhao3,最 _zui4近-jin4好_hao3 像_xiang4 很 _hen3烦-fan2,我_wo2 也-ye3 没_mei2 和 _he2 他-tal 说-shuol
[0129] 给-gei2 我 _wo3 回 _hui2 个 _ge4 电 _dian4 话 _hua4 好 _hao3 吗 _ma5
[0130] 对语料进行如下的处理:
[0131] 在逗号、句号、问号和感叹号处把句子切开,切成短句
[0132] 把其他标点符号,如引号、冒号、书名号等删掉
[0133] 在每个短句的句首加<s>标记,在句尾加</s>标记
[0134] 处理后的语料示例如下:
[0135] <s> 几 _ji2 点 _dian3 开-kail 始 _shi3 呢 _ne5〈/s>
[0136] <s> 不 _bu4 行 _xing2〈/s>
[0137] <s> 我 _wo3 这 _zhe4 周-zhoul 末 _mo4 还 _hai2 有-you2 考 _kao3 试 _shi4 呢 _ne5〈/s>
[0138] <s> 下 _xia4 周-zhoul 怎 _zen3 么 _me5 样 _yang4〈/s>
[0139] <s> 但 _dan4 是 _shi4 工-gongl 作 _zuo4 真-zhenl 的 _de5 很 _hen3 难 _nan2 找-zhao3〈/s>
[0140] <s> 最 _zui4 近 _jin4 好 _hao3 像 _xiang4 很 _hen3 烦 _fan2〈/s>
[0141] <s> 我 _wo2 也 _ye3 没 _mei2 和 _he2 他-tal 说 _shuol〈/s>
[0142] <s> 给 _gei2 我 _wo3 回 _hui2 个 _ge4 电 _dian4 话 _hua4 好 _hao3 吗 _ma5〈/s>
[0143] 至此就得到了统计模型所需的训练语料库。
[0144] 根据所述语料库,将所述单字与上下文环境中的文字进行不同程度的结合生成带 有优先级的字单元。例如,句子"我从小长在河边"中的"长"字,其可能的单元包括:
[0145] 类型1 :本字是"长",前面的第一个字是"小",后面的第一个字是"在",其他环境 不限。这个单元记作:"小-长+在"。
[0146] 类型2:本字是"长",前面的第一个字是"小",其他环境不限。这个单元记作: "小-长+*"。
[0147] 类型3:本字是"长",后面的第一个字是"在",其他环境不限。这个单元记作: 长+在"。
[0148] 类型4 :本字是"长",其他环境不限。这个单元记作:"*_长+*"。
[0149] 对每个单元,统计语料中的发音分布情况。下面是一个统计结果的例子:
[0150] 小-长 + 在 zhang3:100. 00 %
[0151] 小-长+* chang2:67.66% zhang3:32. 34%
[0152] *_ 长 + 在 chang2:10. 12% zhang3:89. 88%
[0153] *-长+* chang2:57. 78% zhang3:42. 22%
[0154] 这些统计结果就构成了统计模型。
[0155] 对发音词典的每一个条目,需打出一组0至1之间的分数。打分的具体方式是,对 词典条目中的每一个汉字,分别根据统计模型打出一个分数,最后统计出该条目中各字分 数的平均值、最小值。
[0156] 首先生成类型1的单元,即带有前后字环境的单元。检查统计模型中是否有该单 元的发音分布。如果发现了该单元的发音分布,以发音词典中该字的发音在模型中的发音 频率作为该字的分数。如果类型1的单元没有找到发音分布,就依次生成类型2、类型3和 类型4,直至找到发音分布为止。
[0157] 例如,对于词典条目:
[0158] 小长假 xiao3chang2jia4
[0159] 中的"长"字的评分,首先生成类型1单元"小-长+假",在模型中没有发现该单 元的发音分布。因此生成类型2单元"小-长+*",在模型中发现发音分布,并读到发音为 chang2的频率为67. 66%,因此得到这个"长"字的分数是0. 6766,该字评分结束。
[0160] 又如,对于词典条目:
[0161] 大长今 da4chang2jinl
[0162] 中的"长"字的评分,生成类型1、类型2和类型3的单元都没有找到模型中的发音 分布,因此使用类型4"*-长+*",即不考虑上下文环境的发音分布。得到发音为chang2的 频率为57. 78%,因此得到这个"长"字的分数是0. 5778。
[0163] 按照上述步骤,对词条中的每一个字,都评出一个分数,同时统计出该条目各单字 的平均分和最低分。将这些分数作为一个向量用于后续的发音条目筛选。
[0164] 基于上一步的评分结果,设定阈值为0.2。对每一组文本相同、发音不同的词典条 目集合,如果全部单字的分数都小于阈值,保留平均分数最大的条目;否则删除小于阈值的 条目。
[0165] 例如,对下面的已评分条目:
[0166] 最小值平均值各单字分数 文本 发音 0.036 0.645 [ 1.000 0.900 0.036]心情好 xin 1 qi】ig2 haol 0.900 0.966 [ 1.000 0.900 1.000]心情好 xin Iqmg2 hao3 0.019 0.639 [ 1.000 0.900 0.019]心情好 xin 1 qing2 hao4
[0167] 按照上述的筛选策略,就只保留了 xinlqing2hao3这一词条。
[0168] 使用以上的步骤,对一个发音词典进行了筛选,结果如下:
[0169]
[0170] 从结果中可见,本发明的装置使词典的大小得到了显著的压缩,而识别正确率没 有下降,反而还有少许的上升。
[0171] 以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可 以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单 元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其 中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性 的劳动的情况下,即可以理解并实施。
[0172] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可 借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上 述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该 计算机软件产品可以存储在计算机可读存储介质中,如R0M/RAM、磁碟、光盘等,包括若干指 令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行各个实施 例或者实施例的某些部分所述的方法。
[0173] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽 管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然 可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替 换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精 神和范围。
【主权项】
1. 一种筛选发音词典有效词条的方法,其特征在于,包括如下的步骤: 遍历语音词典的每一词条,调用预先训练的统计模型,并根据预设的打分策略,对所述 词条打分,其中,所述统计模型中保存有所述词条与相应发音分布的对照关系; 根据预设的筛选策略对所述打分后的所述语音词典进行筛选,得到优化后的语音词 典。2. 根据权利要求1所述的方法,其特征在于,所述方法进一步包括,根据语料采用如下 的步骤训练所述统计模型: 将用于训练的所述语料进行预处理得到语料库,其中,所述预处理包括去除冗余的文 本、断句、去除标点符号、添加句首和句尾的识别标记等。3. 根据权利要求2所述的方法,其特征在于,所述方法进一步包括: 根据所述语料库,将所述单字与上下文环境中的文字进行不同程度的结合生成带有优 先级的字单元; 统计每个所述单字对应的字单元的相应发音在所述语料库中出现的发音频率,以所述 统计的结果生成所述统计模型。4. 根据权利要求3所述的方法,其特征在于,对所述词条打分,进一步包括: 查询所述统计模型,根据所述词条中每个所述单字的平均发音频率获取所述词条的平 均分; 将所述语音词典中的每一所述单字与上下文环境中的文字进行不同程度的结合生成 带有优先级的字单元; 从优先级最高的所述字单元开始查询所述统计模型,若查询到所述统计模型中存在所 述字单元对应的所述发音频率,则将所述发音频率作为所述单字的分数;否则, 将所述单字在所述统计模型中发音频率的最大值作为所述单字的分数。5. 根据权利要求1或4所述的方法,其特征在于,根据预设的筛选策略对所述打分后的 所述语音词典进行筛选,得到优化后的语音词典,进一步包括: 设定分数阈值,对于每一组文本相同而发音不同的词条集合,若每个所述单字的分数 都小于所述分数阈值,则保留所述平均分最高的词条;否则, 删除所述词条集合中包含有单字分数小于所述分数阈值的词条。6. -种筛选发音词典有效词条的装置,其特征在于,包括如下的模块: 打分模块,用于遍历语音词典的每一词条,调用统计模型训练模块预先训练的统计模 型,并根据预设的打分策略,对所述词条打分,其中,所述统计模型中保存有所述词条与相 应发音分布的对照关系; 筛选模块,用于根据预设的筛选策略对所述打分后的所述语音词典进行筛选,得到优 化后的语音词典。7. 根据权利要求6所述的装置,其特征在于,所述统计模型训练模块,用于根据语料采 用如下的步骤训练所述统计模型: 将用于训练的所述语料进行预处理得到语料库,其中,所述预处理包括去除冗余的文 本、断句、去除标点符号、添加句首和句尾的识别标记等。8. 根据权利要求7所述的装置,其特征在于,所述统计模型训练模块进一步用于: 根据所述语料库,将所述单字与上下文环境中的文字进行不同程度的结合生成带有优 先级的字单元; 统计每个所述单字对应的字单元的相应发音在所述语料库中出现的发音频率,以所述 统计的结果生成所述统计模型。9. 根据权利要求8所述的装置,其特征在于,所述打分模块,进一步用于: 查询所述统计模型,根据所述词条中每个所述单字的平均发音频率获取所述词条的平 均分; 将所述语音词典中的每一所述单字与上下文环境中的文字进行不同程度的结合生成 带有优先级的字单元; 从优先级最高的所述字单元开始查询所述统计模型,若查询到所述统计模型中存在所 述字单元对应的所述发音频率,则将所述发音频率作为所述单字的分数;否则, 将所述单字在所述统计模型中发音频率的最大值作为所述单字的分数。10. 根据权利要求6或9所述的装置,其特征在于,所述筛选模块,进一步用于: 设定分数阈值,对于每一组文本相同而发音不同的词条集合,若每个所述单字的分数 都小于所述分数阈值,则保留所述平均分最高的词条;否则, 删除所述词条集合中包含有单字分数小于所述分数阈值的词条。
【文档编号】G06F17/30GK105893414SQ201510848815
【公开日】2016年8月24日
【申请日】2015年11月26日
【发明人】张俊博
【申请人】乐视致新电子科技(天津)有限公司