一种确定语音识别结果置信度的方法和装置制造方法
【专利摘要】本发明提供了一种确定语音识别结果置信度的方法和装置,其中方法包括:确定解码得到的词图中每条弧的置信度,并确定词图中的最优路径;对所述最优路径上的每条弧Ai,在词图中确定与该弧Ai存在竞争关系的弧集合T;在确定所述弧Ai表示的词语的置信度时,从与所述Ai存在竞争关系的弧集合T中确定出弧Aj,其中弧Aj与弧Ai表示相同的词语,或者弧Aj与其所连接弧组合构成与弧Ai表示相同的词语;结合弧Ai和弧Aj的置信度,或进一步结合所述弧Aj所连接弧的置信度确定弧Ai表示的词语的置信度。本发明在确定语音识别结果的置信度时,考虑了复合词的构成因素,使得置信度更加准确地反映真实状况。
【专利说明】一种确定语音识别结果置信度的方法和装置
【【技术领域】】
[0001]本发明涉及计算机应用技术中的语音识别领域,特别涉及一种确定语音识别结果置信度的方法和装置。
【【背景技术】】
[0002]在语音识别中置信度用来表示识别结果为正确结果的可能性,值越大表示识别结果是正确结果的可能性越高,是进行语音识别的重要依据,语音识别结果置信度的确定方法直接影响了语音识别的准确性。
[0003]语音识别结果的置信度确定主要是通过对解码生成的词图(Aattice)进行处理得到的。词图是近年来较常用的一种语音识别结果表现形式,它将解码的多个候选结果在一个有向无环图上表示,在保留多候选信息的同时节约了存储空间。在词图中弧表示词,以结点表示词的连接关系,而每个词都属于一个从开始结点到结束结点的路径。其中词图中的每条弧可由一个五兀组表不{W,Aw, Lw, Sw, EwI ,其中W表不弧对应的词,Aw表不产生词W的声学得分,Lw表示产生词W的语言得分,Sw表示产生词W的开始时间,Ew表示产生词W的结束时间。图1为一个词图的实例,图中<s>和</s>分别表示路径开始符和路径结束符。
[0004]现有语音识别结果的置信度在确定时,按照最优路径确定词语的置信度,如图1中所示,对于“中国人民”而言由于最优路径是弧“中国人民”,因此该词语的置信度为弧“中国人民”的置信度。然而在汉语中,一个词语可由另外两个词语组成,即所谓的复合词,对应于这种类型的词语,正如“中国人民”由词语“中国”和“人民”构成,现有语音识别结果的置信度确定方式就忽略了复合词的构成因素,使得识别结果置信度并不能反映真实的状况,由于识别结果的置信度可能会在后续声学模型和语言模型的自适应调整过程中产生影响,因此也会对识别结果的准确性带来影响。
【
【发明内容】
】
[0005]有鉴于此,本发明提供了一种确定语音识别结果置信度的方法和装置,以便于提高语音识别结果置信度的准确性。
[0006]具体技术方案如下:
[0007]—种确定语音识别结果置信度的方法,该方法包括:
[0008]S1、确定解码得到的词图中每条弧的置信度,并确定词图中的最优路径;
[0009]S2、对所述最优路径上的每条弧Ai,在词图中确定与该弧Ai存在竞争关系的弧集合T ;
[0010]S3、在确定所述弧Ai表示的词语的置信度时,从与所述Ai存在竞争关系的弧集合T中确定出弧、,其中弧~与弧Ai表示相同的词语,或者弧~与其所连接弧组合构成与弧Ai表示相同的词语;结合弧Ai和弧Aj的置信度,或进一步结合所述弧Aj所连接弧的置信度确定弧Ai表示的词语的置信度。
[0011]根据本发明一优选实施例,在所述步骤SI中,每条弧的置信度等于经过该弧的所有路径的得分之和除以词图中所有路径的得分之和所得到的值。
[0012]根据本发明一优选实施例,在所述步骤S2中确定两条弧是否存在竞争关系时,采用以下方式:
[0013]如果两条弧在持续时间上存在交置,则确定两条弧存在竞争关系;或者,
[0014]如果两条弧在持续时间上存在交叠,且两条弧表示的词语在发音上的相似度满足预设要求,则确定两条弧存在竞争关系。
[0015]根据本发明一优选实施例,所述S3具体包括:
[0016]S31、初始化弧Ai表示的词语的置信度为弧Ai的置信度;
[0017]S32、从与所述弧Ai存在竞争关系的弧集合T中选择一条未被选择过的弧;
[0018]S33、判断选择的弧是否与弧Ai表示相同的词语,如果是,将弧Ai表示的词语的置信度更新为该词语的置信度当前值加上选择的弧的置信度,执行步骤S35 ;否则,执行步骤S34 ;
[0019]S34、判断选择的弧与其所连接的弧组合是否与弧Ai表示相同的词语,如果是,结合弧Ai表示的词语的置信度当前值以及所述弧组合中各弧的置信度更新弧Ai表示的词语的置信度,执行步骤S35 ;否则直接执行步骤S35 ;
[0020]S35、判断所述弧集合T中是否还存在未被选择的弧,如果是,转至所述步骤S32 ;否则,结束弧Ai表示的词语的置信度确定流程。
[0021]根据本发明一优选实施例,在步骤S34中所述结合弧Ai表示的词语的置信度当前值以及所述弧组合中各弧的置信度更新弧Ai表示的词语的置信度具体为:
[0022]将弧Ai表示的词语的置信度更新为该词语的置信度当前值加上所述弧组合中各弧的置信度最小值。
[0023]一种确定语音识别结果置信度的装置,该装置包括:
[0024]初始确定单元,用于确定解码得到的词图中每条弧的置信度,并确定词图中的最优路径;
[0025]集合确定单元,用于对所述最优路径上的每条弧Ai,在词图中确定与该弧Ai存在竞争关系的弧集合T ;
[0026]置信度确定单元,用于在确定所述弧Ai表示的词语的置信度时,从与所述Ai存在竞争关系的弧集合T中确定出弧Ap其中弧与弧Ai表示相同的词语,或者弧与其所连接弧组合构成与弧Ai表示相同的词语;结合弧Ai和弧Aj的置信度,或进一步结合所述弧Aj所连接弧的置信度确定弧Ai表示的词语的置信度。
[0027]根据本发明一优选实施例,所述初始确定单元确定每条弧的置信度等于经过该弧的所有路径的得分之和除以词图中所有路径的得分之和所得到的值。
[0028]根据本发明一优选实施例,所述集合确定单元在确定两条弧是否存在竞争关系时,采用以下方式:
[0029]如果两条弧在持续时间上存在交叠,则确定两条弧存在竞争关系;或者,
[0030]如果两条弧在持续时间上存在交叠,且两条弧表示的词语在发音上的相似度满足预设要求,则确定两条弧存在竞争关系。
[0031]根据本发明一优选实施例,所述置信度确定单元具体包括:
[0032]初始化子单元,用于初始化弧八1表示的词语的置信度为弧Ai的置信度,触发弧选择子单元;
[0033]弧选择子单元,用于受到触发后从与所述弧Ai存在竞争关系的弧集合T中选择一条未被选择过的弧;
[0034]第一更新子单元,用于判断所述弧选择子单元选择的弧是否与弧Ai表示相同的词语,如果是,将弧Ai表示的词语的置信度更新为该词语的置信度当前值加上选择的弧的置信度,触发判断子单元;否则触发第二更新子单元;
[0035]第二更新子单元,用于判断所述弧选择子单元选择的弧与其所连接的弧组合是否与弧Ai表示相同的词语,如果是,结合弧Ai表示的词语的置信度当前值以及所述弧组合中各弧的置信度更新弧Ai表示的词语的置信度,触发判断子单元;否则直接触发判断子单元;
[0036]判断子单元,用于判断所述弧集合T中是否还存在未被选择的弧,如果是,触发所述弧选择子单元,否则结束弧Ai表示的词语的置信度确定流程。
[0037]根据本发明一优选实施例,所述第二更新子单元更新弧Ai表示的词语的置信度时,具体将弧Ai表示的词语的置信度更新为该词语的置信度当前值加上所述弧组合中各弧的置信度最小值。
[0038]由以上技术方案可以看出,本发明在确定语音识别结果的置信度时,考虑了复合词的构成因素,对于多个词语组合构成一个词语的情况,将这种组合情况的置信度也纳入词语的置信度确定,使得置信度更加准确地反映真实状况。
【【专利附图】
【附图说明】】
[0039]图1为词图的一个实例图;
[0040]图2为本发明实施例一提供的方法流程图;
[0041]图3为本发明实施例一提供的图2中步骤204的具体实现流程图;
[0042]图4为本发明实施例二提供的确定语音识别结果置信度的装置结构图;
[0043]图5为本发明实施例二提供的置信度确定单元的结构图。
【【具体实施方式】】
[0044]为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0045]实施例一、
[0046]图2为本发明实施例一提供的方法流程图,如图2所示,该方法可以具体包括以下步骤:
[0047]步骤201:确定解码得到的词图中每条弧的置信度。
[0048]本步骤中每条弧的置信度等于经过该弧的所有路径的得分之和除以词图中所有路径的得分之和所得到的值,其中路径得分为该路径的声学得分和语言得分的总和。
[0049]仍以图1中所示词图为例,假设路径“人民大学”的得分为5,路径“中国“人民”的得分为3,路径“中国“人们”的得分为2,那么可以得到:
[0050]弧“人民大学”的置信度为^1=0.5;[0051 ] 弧“中国”的置信度为3+2/ 5 + 3 + 2=0.5;
[0052]弧“人民”的置信度为3/ 5 + 3 + 2=0.3;
[0053]弧“人们”的置信度为2/ 5 + 3 + 2=0.2。
[0054]步骤202:确定词图中的最优路径。
[0055]所谓词图中的最优路径就是所有路径中得分最高的路径。
[0056]上述步骤201和步骤202是现有技术在此不再赘述,另外,上述步骤201和步骤202也可以同时执行,也可以按照任意顺序先后执行,上述顺序仅是其中一种实施例。
[0057]步骤203:对最优路径上的每条弧Ai,在词图中确定与该弧Ai存在竞争关系的弧集合T.
[0058]在判断两条弧是否存在竞争关系时,可以依据时间因素来确定,即如果两条弧在持续时间上存在交叠,则确定两条弧存在竞争关系。例如,两条弧A1和A2:A1= Iff1, Awl, Lwl, Swl, EwJ,A2= {w2,Aw2, Lw2, Sw2, EwJ,如果满足 Sw2 ( (Swl+Ewl) /2 < Ew2,则认为弧A2与弧A1具有竞争关系。
[0059]为了更准确地描述竞争关系,除了依据时间因素之外,还需要两条弧表示的词语在发音上的相似度满足预设要求才确定存在竞争关系,其中发音上的相似度可以采用音节的编辑距离来体现,也可以采用声学模型或语言模型的欧式距离来体现。
[0060]步骤204:在确定最优路径上每条弧Ai表示的词语的置信度时,从与弧Ai存在竞争关系的弧集合T中确定出弧、,其中弧~与弧Ai表示相同词语,或者弧~与其所连接弧组合构成与弧Ai相同的词语,结合弧Ai和Aj的置信度,或者进一步结合上述Aj所连接弧的置信度确定弧Ai表示的词语的置信度。
[0061]具体地,本步骤可以针对最优路径上的每条弧Ai分别具体执行如图3所示的流程从而得到每条弧表示的词语的置信度,如图3所示包括以下步骤:
[0062]步骤301:初始化弧Ai表示的词语的置信度为弧Ai的置信度。
[0063]步骤302:从与该弧Ai存在竞争关系的弧集合中选择一条未被选择过的弧。
[0064]步骤303:判断选择的弧是否与弧Ai表示相同词语,如果是,执行步骤304 ;否则,执行步骤305。
[0065]步骤304:将弧Ai表示的词语的置信度设置为该词语的置信度当前值加上选择的弧的置信度,执行步骤307。
[0066]步骤305:判断选择的弧与其所连接的弧组合是否与弧Ai表示相同词语,如果是,执行步骤306 ;否则,执行步骤307。
[0067]这里可以将选择的弧向前扩展或者向后扩展来与其所连接的弧进行组合。
[0068]步骤306:将弧Ai表示的词语的置信度更新为该词语的置信度当前值加上上述弧组合中各弧的置信度的最小值,执行步骤307。
[0069]例如,图1所示词图中,弧“中国”是与弧“中国人民”存在竞争关系的一条弧,由于弧“中国”向后扩展与其连接的弧“人民”的弧组合也表示“中国人民”,则将弧“中国人民”的置信度加上弧“中国”和弧“人民”之间的最小值后,将得到的值作为词语“中国人民”的
置信度。[0070]在此处采用词语的置信度当前值加上弧组合中各弧的置信度最小值是本实施例采用的一种优选实施方式,除了这种实施方式之外,还可以采用诸如词语的置信度当前值加上弧组合中各弧的置信度平均值等方式,只是准确度不如加上最小值的方式高。
[0071]步骤307:判断与该弧Ai存在竞争关系的弧集合中是否还存在未被选择的弧,如果是,转至步骤302 ;否则结束弧Ai表示的词语的置信度确定流程。
[0072]这样就可以得到最优路径上每条弧表示词语的置信度,该置信度包含了复合词中各词语分别被解码为单独词语的情况,使得置信度更加准确地反映了该词语作为最优识别结果的可能性。
[0073]以上是对本发明所提供的方法进行的详细描述,下面结合实施例二对本发明提供的装置进行详细描述。
[0074]实施例二、
[0075]图4为本发明实施例二提供的确定语音识别结果置信度的装置结构图,如图4所示,该装置可以包括:初始确定单元400、集合确定单元410和置信度确定单元420。
[0076]首先初始确定单元400确定解码得到的词图中每条弧的置信度,并确定词图中的最优路径。具体地,每条弧的置信度等于经过该弧的所有路径的得分之和除以词图中所有路径的得分之和所得到的值,其中路径得分为该路径的声学得分和语言得分的总和。词图中的最优路径就是所有路径中得分最高的路径。
[0077]然后集合确定单元410对最优路径上的每条弧Ai,在词图中确定与该弧Ai存在竞争关系的弧集合T。
[0078]其中,集合确定单元410在确定两条弧是否存在竞争关系时,可以采用以下方式:如果两条弧在持续时间上存在交叠,则确定两条弧存在竞争关系;或者,如果两条弧在持续时间上存在交叠,且两条弧表示的词语在发音上的相似度满足预设要求,则确定两条弧存在竞争关系。其中发音上的相似度可以采用音节的编辑距离来体现,也可以采用声学模型或语言模型的欧式距离来体现。
[0079]最后置信度确定单元420在确定弧Ai表示的词语的置信度时,从与Ai存在竞争关系的弧集合T中确定出弧、,其中弧?与弧Ai表示相同的词语,或者弧?与其所连接弧组合构成与弧Ai表示相同的词语;结合弧Ai和弧Aj,或进一步结合弧Aj所连接弧的置信度确定弧Ai表示的词语的置信度。
[0080]下面对置信度确定单元420的具体结构进行详细描述,如图5所示,该置信度确定单元420可以具体包括:初始化子单元421、弧选择子单元422、第一更新子单元423、第二更新子单元424和判断子单元425。
[0081]其中初始化子单元421,用于初始化弧Ai表示的词语的置信度为弧Ai的置信度,然后触发弧选择子单元422。
[0082]弧选择子单元422,用于受到触发后从与弧Ai存在竞争关系的弧集合T中选择一条未被选择过的弧。
[0083]第一更新子单元423,用于判断弧选择子单元422选择的弧是否与弧Ai表示相同的词语,如果是,将弧Ai表示的词语的置信度更新为该词语的置信度当前值加上选择的弧的置信度,触发判断子单元425 ;否则触发第二更新子单元424。
[0084]第二更新子单元424,用于判断弧选择子单元422选择的弧与其所连接的弧组合是否与弧Ai表示相同的词语,如果是,结合弧Ai表示的词语的置信度当前值以及弧组合中各弧的置信度更新弧Ai表示的词语的置信度,触发判断子单元425 ;否则直接触发判断子单元425。
[0085]优选地,第二更新子单元更新弧Ai表示的词语的置信度时,可以将弧Ai表示的词语的置信度更新为该词语的置信度当前值加上弧组合中各弧的置信度最小值。
[0086]判断子单元425,用于判断弧集合T中是否还存在未被选择的弧,如果是,触发弧选择子单元422,否则结束弧Ai表示的词语的置信度确定流程。
[0087]在采用上述方法和装置确定出最优路径上各弧表示的词语的置信度后,可以包括但不限于以下应用:
[0088]I)如果最优路径上某词语的置信度低于预设的置信度阈值,则说明以最优路径确定的识别结果中存在不准确的识别结果,为了避免识别错误给用户带来较差的用户体验,可以拒绝返回识别结果,并可以进一步提示用户再次输入语音。
[0089]2)将确定出的词语的置信度应用于语音识别无监督自适应技术中,即用于后续声学模型和语音模型的自适应调整过程中,从而使得语音识别更加准确。
[0090]3)可以用于对识别结果进行纠错,如果某词语的置信度低于预设的置信度阈值,则说明该词语的识别存在错误,为识别结果的纠错提供了基础。
[0091]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
【权利要求】
1.一种确定语音识别结果置信度的方法,其特征在于,该方法包括: 51、确定解码得到的词图中每条弧的置信度,并确定词图中的最优路径; 52、对所述最优路径上的每条弧Ai,在词图中确定与该弧Ai存在竞争关系的弧集合T; 53、在确定所述弧Ai表示的词语的置信度时,从与所述Ai存在竞争关系的弧集合T中确定出弧Ap其中弧与弧Ai表示相同的词语,或者弧与其所连接弧组合构成与弧Ai表示相同的词语;结合弧Ai和弧Aj的置信度,或进一步结合所述弧AjK连接弧的置信度确定弧^表示的词语的置信度。
2.根据权利要求1所述的方法,其特征在于,在所述步骤SI中,每条弧的置信度等于经过该弧的所有路径的得分之和除以词图中所有路径的得分之和所得到的值。
3.根据权利要求1所述的方法,其特征在于,在所述步骤S2中确定两条弧是否存在竞争关系时,采用以下方式: 如果两条弧在持续时间上存在交叠,则确定两条弧存在竞争关系;或者, 如果两条弧在持续时间上存在交叠,且两条弧表示的词语在发音上的相似度满足预设要求,则确定两条弧存在竞争关系。
4.根据权利要求1所述的方法,其特征在于,所述S3具体包括: 531、初始化弧八1表示的 词语的置信度为弧Ai的置信度; 532、从与所述弧Ai存在竞争关系的弧集合T中选择一条未被选择过的弧; 533、判断选择的弧是否与弧^表示相同的词语,如果是,将弧Ai表示的词语的置信度更新为该词语的置信度当前值加上选择的弧的置信度,执行步骤S35 ;否则,执行步骤S34 ; 534、判断选择的弧与其所连接的弧组合是否与弧Ai表示相同的词语,如果是,结合弧Ai表示的词语的置信度当前值以及所述弧组合中各弧的置信度更新弧Ai表示的词语的置信度,执行步骤S35 ;否则直接执行步骤S35 ; 535、判断所述弧集合T中是否还存在未被选择的弧,如果是,转至所述步骤S32;否则,结束弧Ai表示的词语的置信度确定流程。
5.根据权利要求4所述的方法,其特征在于,在步骤S34中所述结合弧Ai表示的词语的置信度当前值以及所述弧组合中各弧的置信度更新弧Ai表示的词语的置信度具体为: 将弧Ai表示的词语的置信度更新为该词语的置信度当前值加上所述弧组合中各弧的置信度最小值。
6.一种确定语音识别结果置信度的装置,其特征在于,该装置包括: 初始确定单元,用于确定解码得到的词图中每条弧的置信度,并确定词图中的最优路径; 集合确定单元,用于对所述最优路径上的每条弧Ai,在词图中确定与该弧Ai存在竞争关系的弧集合T ; 置信度确定单元,用于在确定所述弧Ai表示的词语的置信度时,从与所述Ai存在竞争关系的弧集合T中确定出弧Ap其中弧与弧Ai表示相同的词语,或者弧与其所连接弧组合构成与弧Ai表示相同的词语;结合弧Ai和弧Aj的置信度,或进一步结合所述弧Aj所连接弧的置信度确定弧Ai表示的词语的置信度。
7.根据权利要求6所述的装置,其特征在于,所述初始确定单元确定每条弧的置信度等于经过该弧的所有路径的得分之和除以词图中所有路径的得分之和所得到的值。
8.根据权利要求6所述的装置,其特征在于,所述集合确定单元在确定两条弧是否存在竞争关系时,采用以下方式: 如果两条弧在持续时间上存在交叠,则确定两条弧存在竞争关系;或者, 如果两条弧在持续时间上存在交叠,且两条弧表示的词语在发音上的相似度满足预设要求,则确定两条弧存在竞争关系。
9.根据权利要求6所述的装置,其特征在于,所述置信度确定单元具体包括: 初始化子单元,用于初始化弧Ai表示的词语的置信度为弧Ai的置信度,触发弧选择子单元; 弧选择子单元,用于受到触发后从与所述弧Ai存在竞争关系的弧集合T中选择一条未被选择过的弧; 第一更新子单元,用于判断所述弧选择子单元选择的弧是否与弧Ai表示相同的词语,如果是,将弧Ai表示的词语的置信度更新为该词语的置信度当前值加上选择的弧的置信度,触发判断子单元;否则触发第二更新子单元; 第二更新子单元,用于判断所述弧选择子单元选择的弧与其所连接的弧组合是否与弧Ai表示相同的词语,如果是,结合弧Ai表示的词语的置信度当前值以及所述弧组合中各弧的置信度更新弧Ai表示的词语的置信度,触发判断子单元;否则直接触发判断子单元;判断子单元,用于判断所述弧集合T中是否还存在未被选择的弧,如果是,触发所述弧选择子单元,否则结束弧A i表示的词语的置信度确定流程。
10.根据权利要求9所述的装置,其特征在于,所述第二更新子单元更新弧Ai表示的词语的置信度时,具体将弧Ai表示的词语的置信度更新为该词语的置信度当前值加上所述弧组合中各弧的置信度最小值。
【文档编号】G10L15/06GK103810997SQ201210459131
【公开日】2014年5月21日 申请日期:2012年11月14日 优先权日:2012年11月14日
【发明者】李新辉 申请人:北京百度网讯科技有限公司