一种基于索引融合和伪反馈的语音检索方法与流程

文档序号:32503261发布日期:2022-12-10 05:52阅读:88来源:国知局
一种基于索引融合和伪反馈的语音检索方法与流程

1.本发明属于语音检索技术领域,特别涉及一种基于索引融合和伪反馈的语音检索方法。


背景技术:

2.语音检索,即用户输入查询的关键词,然后从语音数据中快速地搜索并返回与查询关键词相关的语音段或语音文件的过程,它可以实现信息的快速检索。目前,基于关键词查询的语音检索技术有着非常广阔的应用前景,可以有效地对新闻播报、会议录音等语音信息进行分类、搜索和管理,在军事、国家安全和各产业领域都具有重要的应用价值。
3.为了使语音查询项检索系统的召回率与精确率均达到较高的水平,研究人员提出了基于系统融合的语音关键词检测技术,这项技术在检测系统的前端采用多套语音识别系统,并通过融合方法来提高整体系统的性能。目前的研究主要集中在检测结果层和识别结果层的融合,现有检测结果融合利用不同的音素集和基于神经网络的声学建模方法搭建了具有建模差异性的语音识别系统,然后采用投票融合的方法将不同识别系统的检测结果进行整合,存在以下不足:
4.对于每类语音识别系统均需要分别建立索引并独立检索,存在重复项的重复检索,检索效率较低;
5.由于语音识别系统本身存在一定性能限制,在将语音信号转录为文本的过程中很多信息会丢失,并且相关路径的后验概率本身为估算结果,所有识别结果均存在一定程度的不匹配,直接影响查询项与音频的相关度计算,从而导致检索结果排序不准确。


技术实现要素:

6.本发明解决的技术问题是:克服现有技术的不足,提供了一种基于索引融合和伪反馈的语音检索方法,有效提升了语音检索的效率和准确度。
7.本发明的技术解决方案是:
8.一种基于索引融合和伪反馈的语音检索方法,包括以下步骤:
9.1)采用至少两种语音识别系统对待检索语音文档进行语音识别,将各语音识别系统的识别结果保存为lattice;
10.2)将各语音识别系统的识别结果从lattice转换为混淆网络;
11.3)采用倒排索引结构对各语音识别系统的混淆网络分别建立索引表;所述索引表的索引项为语音识别结果的基本单元,所述基本单元为词或音节或音素,每个索引项对应一条或多条索引记录,每条索引记录的内容包括索引项所对应的文档编号、起止时间和后验概率;
12.4)根据索引项对各语音识别系统的索引表进行融合,建立融合索引表;
13.5)获取用户输入的检索关键词q,将其转换为与索引项对应的基本单元,再根据融合索引表进行检索,检索得到包含检索关键词q的语音文档,计算包含检索关键词q的各语
音文档与检索关键词q的相关度得分,将相关度得分满足要求的语音文档形成初次候选结果集合x;
14.6)将x中相关度得分排序前n的语音文档构成伪相关集合y,将相关度得分排序后n的语音文档构成伪不相关集合z;采用dtw方法计算x与y、z中的各语音文档在检索关键词q出现时间段内的声学特征距离,基于声学特征距离计算结果计算x中各语音文档的声学相似度得分;
15.7)对x中各语音文档的相关度得分和声学相似度得分进行加权融合,获取表征x中各语音文档与检索关键词q关联程度的最终得分;
16.8)输出最终得分满足阈值要求的语音文档。
17.优选的,所述步骤4)中,根据索引项对各语音识别系统的索引表进行融合,建立融合索引表,具体为:若索引项在两个及以上索引表中出现,将属于同一语音文档且起止时间有重叠的索引记录合并为一条,将起止时间更新为合并前后验概率最高的索引记录的起止时间,将后验概率采用线性逻辑回归加权方法进行更新,得到新的索引记录;对于其余的索引记录,将后验概率乘以惩罚因子作为新的后验概率。
18.优选的,所述将后验概率采用线性逻辑回归加权方法进行更新,具体采用以下公式进行更新:
19.p(s)=α1p1(s)+α2p2(s)+

+αnpn(s)
20.其中,p(s)为索引项s更新后的后验概率,p1(s)~pn(s)为索引项s在各语音识别系统的索引表的索引记录中对应的后验概率;α1、α2…
αn为权重系数,且α1+α2+

αn=1,基于线性逻辑回归训练得到。
21.优选的,所述索引记录起止时间有重叠的判定方法具体为:两条索引记录的起止时间的时间段内有一半及上时间重叠。
22.优选的,所述步骤5)中,计算包含检索关键词q的各语音文档与检索关键词q的相关度得分,具体为:通过以下表达式计算:
[0023][0024]
式中,qa为关键词q根据融合索引表索引项的基本单元切分得到的任一分词,lb为与qa相匹配的语音文档d在融合索引项表所对应的任一索引项,p(qa|lb)为与qa相匹配的lb对应的后验概率,1≤a<a,1≤b<b,a为关键词q根据融合索引表索引项的基本单元切分得到的分词的数量,b为与qa相匹配的语音文档d在融合索引项表所对应的索引项的数量。
[0025]
优选的,所述步骤(6)中,基于声学特征距离计算结果计算x中各语音文档的声学相似度得分,具体为:
[0026][0027]
式中,xi为x中的任一语音文档,yj为y中任一语音文档,zk为z中任一语音文档,dtw(xi,yj)为xi与yj在关键词匹配时段的音频声学特征距离,dtw(xi,zk)为xi与zk在关键词匹配时段的音频声学特征距离。
[0028]
优选的,所述步骤(7)中,对x中各语音文档的相关度得分和声学相似度得分进行加权融合,获取表征x中各语音文档与检索关键词q关联程度的最终得分,具体通过以下表
达式计算:
[0029]
score(xi)=ω1×
rescore(xi)+ω2×
s(q,xi)
[0030]
式中,ω1+ω2=1。
[0031]
优选的,ω1、ω2通过以下方式计算:
[0032][0033]
式中,i=1,2,e1为x中各语音文档的相关度得分的信息熵,e2为x中各语音文档的声学相似度得分的信息熵。
[0034]
优选的,所述步骤6)中,n通过以下方式获取:
[0035]
n为x中语音文档数量的10%的取整值。
[0036]
本发明与现有技术相比的优点在于:
[0037]
(1)本发明提供的一种基于索引融合和伪反馈的语音检索方法,通过对不同语音识别系统的具有不同特性的识别结果进行联合,利用系统之间良好的互补性,在此基础上融合各系统索引列表生成新索引表进行统一检索,大大降低算法复杂度,有效提升了关键词检测效率;
[0038]
(2)本发明提供的一种基于索引融合和伪反馈的语音检索方法,基于语音信号本身的声学特征信息,综合考虑反馈信息中的相关和不相关两方面因素,在此基础上对关键词与检索结果的相关度进行评估,进而对包含检索关键词的语音文件进行排序,从而保证检索结果更加准确,提升检索准确度。
附图说明
[0039]
图1为本发明基于索引融合和伪反馈的语音检索方法流程图;
[0040]
图2为本发明索引融合流程图;
[0041]
图3为本发明声学特征相似度伪反馈流程图。
具体实施方式
[0042]
下面通过对本发明进行详细说明,本发明的特点和优点将随着这些说明而变得更为清楚、明确。
[0043]
一种基于索引融合和伪反馈的语音检索方法,如图1所示,包括下述步骤:
[0044]
步骤1,采用至少两种语音识别系统对待检索的语音文档进行语音识别,得到各语音识别系统lattice形式的识别结果。
[0045]
具体讲,结合各个语音识别系统自身优势与特征,选择多个类型的语音识别系统,利用不同的声学模型,产生不同的识别结果。例如,gmm系统,采用传统hmm-gmm框架的连续语音识别系统;sgmm,应用了子空间高斯混合声学模型,与传统声学模型不同,在sgmm中所有的状态共享相同gmm结构,并应用了最大互信息准则区分性训练;dnn,建立一个深层神经网络声学模型,相继进行了预训练,帧级的互熵训练和状态级的最小贝叶斯风险训练。
[0046]
步骤2,将各语音识别系统的识别结果的形式由lattice转换为混淆网络。
[0047]
具体讲,lattice是一种非线性的图形结构,在面向大型的语音音频文件进行语音
检索的过程中,用词图作为索引会使索引所占的存储空间较大;同时词图包含的每一个候选结果都是基于其后验概率尽可能大这一原则而得来的,不能保证识别结果中每个词的错误率最小。
[0048]
进一步,采用聚类算法将lattice转化为混淆网络,首先采用前-后向算法计算每条弧的后验概率;然后对后验概率小于事先设定阈值的弧进行裁减;对相同词的弧进行合并,合并前将每条弧上的后验概率进行求和,得到合并弧的后验概率;最后对在同一时间间隔内相互竞争且拥有相同语音性质的互不相同的词进行聚类,最终形成混淆网络。
[0049]
步骤3,对各语音识别系统的混淆网络中的所有候选识别结果分别建立倒排索引。
[0050]
具体讲,为了达到快速检索的目的,需要对多候选识别结果建立索引,使用倒排索引结构可以有效地提升检索速度。倒排索引的索引项是词(或字或其它单元),每个词对应一系列的索引记录。对于语音文档,一个语音数据可能对应不同的识别候选,每一种识别候选都可以看成词序列。因此,将音频倒排索引结构中的索引项所连接的每一个记录表示为四元组的形式:
[0051]
(docid,ts,te,score)
[0052]
其中docid表示该词所属的语音文档id,ts与te分别表示该词所属片段的开始与终止时间,score则表示相应的后验概率,后验概率可以直接作为置信度。
[0053]
整体倒排索引结构如表1所示:
[0054]
表1识别结果倒排索引结构
[0055]
特征项记录i
……
记录mterm1(doci,ts(t),te(t),score
i1
)
……
(docm,ts(t),te(t),score
m1
)term2(doci,ts(t),te(t),score
i2
)
……
(docm,ts(t),te(t),score
m2
)
……………………
termn(doci,ts(t),te(t),score
in
)
……
(docm,ts(t),te(t),score
mn
)
[0056]
步骤4,对比各语音识别系统的相同候选识别结果的索引列表,利用索引融合更新候选索引后验概率,形成新的索引列表。索引融合流程如图2所示,包括以下步骤:
[0057]
步骤41,对比各语音识别系统的索引列表,筛选出相同索引项的索引候选;
[0058]
步骤42,判断索引候选时间是否重叠;
[0059]
具体讲,可以设定索引信息中的起始时间至结束时间的这段时间内,有一半及以上时间重叠即可认为索引候选时间重叠,否则认为不重叠。
[0060]
步骤43,对于存在时间重叠的索引候选,利用线性逻辑回归融合加权得到新的后验概率,起始时间和终止时间设置为合并前得分最高的候选结果的起止时间;
[0061]
进一步,线性逻辑回归融合加权按照下式进行计算:
[0062]
p(s)=α1p1(s)+α2p2(s)+

+αnpn(s)
[0063]
其中,p(s)为索引项s更新后的后验概率,p1(s)~pn(s)为索引项s在各语音识别系统的索引表的索引记录中对应的后验概率;其中,权重系数基于线性逻辑回归训练得到,且α1+α2+

αn=1。
[0064]
具体讲,基于线性逻辑回归训练的加权系统由所有n个语音检索系统得分拼接为特征向量作为监督训练的样本,样本由正例样本和反例样本构成,正例和反例样本均为n个语音检索系统的某个关键词检索实例q的得分构成的列向量,并且检索实例为正确召回或
者错误召回。如果某个系统没有检出q,则拼接时该系统对应得分为0。在获得训练样本之后,按照共轭梯度下降算法开展参数训练。
[0065]
步骤44,对于不存在时间重叠的索引候选,将线性逻辑回归训练得到的系统权重作为惩罚因子对后验概率进行惩罚,采用下式计算:
[0066]
p(q)=p
·
p1(q)
[0067]
其中,p由线性逻辑回归训练得到,0<p<1。
[0068]
步骤45,合并生成新的索引列表。
[0069]
通过步骤1~4,构建了待检索语音文档的关键词索引列表。
[0070]
步骤5,接收用户输入的检索关键词,进行检索排序,得到初次候选结果集合x。
[0071]
对检索关键词q进行分词和去除停用词等处理,在倒排索引列表中分别查找分词l1,l2,...,lk,根据索引结构中的起始时间判断命中分词的音节是否关联。根据命中路径的后验概率可以计算查询词q与语音文档d的相关度,采用以下公式:
[0072][0073]
式中,qa为关键词q根据融合索引表索引项的基本单元切分得到的任一分词,lb为与qa相匹配的语音文档d在融合索引项表所对应的任一索引项,p(qa|lb)为与qa相匹配的lb对应的后验概率,1≤a<a,1≤b<b,a为关键词q根据融合索引表索引项的基本单元切分得到的分词的数量,b为与qa相匹配的语音文档d在融合索引项表所对应的索引项的数量。
[0074]
根据相关度得分s(d,q)排列音频文件,根据自行设定的得分阈值得到包含检索关键词q的语音文档集合x,作为初步检索结果。
[0075]
通过相关度的计算可以计算出查询词所发生的频率,利用此值排序文档,因此查询词出现频率越高,查询词与语音文档间的相关度越大。
[0076]
步骤6,利用候选结果与伪相关音频集、伪不相关音频集的声学特征相似度伪反馈,重新计算初次候选结果的相关度得分。
[0077]
声学特征相似度伪反馈流程如图3所示,包括以下步骤:
[0078]
步骤61,选出伪相关音频集y、伪不相关音频集z。检索结果与标注为相关音频的相关性越高,则该检索结果越有可能是用户需要查找的相关音频,在重排序中将此类音频向前排;检索结果与标注为不相关音频的相关性越高,则该检索结果就越不太可能是用户所希望得到的相关音频。基于此考虑,在x中选出排名前10%的n篇相关度得分较高的文档记为伪相关集合y,将x中排序后10%的n篇文档标记为伪不相关集合z。
[0079]
步骤62,分别计算x与y、z在关键词时段音频声学特征距离。采用动态时间规划(dtw)方法,计算匹配区域hq(x)与hq(y)、hq(z)的声学特征距离dtwq(x,y)和dtwq(x,z)。
[0080]
步骤63,计算x在关键词时段的声学特征相似度得分rescore(xi)。利用下列公式进行计算:
[0081][0082]
如果某音频与被标注为相关的音频相似,而与被标注为不相关的音频差别大,则rescore(xi)取值偏高;如果某音频与被标注为相关的音频差别较大,而与被标注为不相关的音频较相近,则rescore(xi)取值偏低。
[0083]
步骤64,对原始相关度和声学特征相似度进行加权融合。利用下列公式计算:
[0084]
score(xi)=ω1×
rfscore(xi)+ω2×
s(q,xi),ω1+ω2=1。
[0085]
利用信息熵值法计算确定权重其中,i=1,2,e1为x中各语音文档的相关度得分的信息熵,e2为x中各语音文档的声学相似度得分的信息熵。
[0086]
将候选音频与相关音频和不相关音频间的相似度作为反馈信息,调节音频相似度得分得到最终得分,从而保证检索性能和精准度。
[0087]
步骤7,依据新的相关度得分对检索结果进行重排序,并输出给用户。
[0088]
本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1