关键词检测方法和装置制造方法

文档序号：2825920阅读：256来源：国知局

关键词检测方法和装置制造方法
【专利摘要】本申请提供了关键词检测方法和装置。其中，该方法包括：使用IPA音素集合和多个不同语种的数据训练一个声学模型；其中，所述前景模型用于描述关键词对应的音素，所述背景模型用于吸收非关键词对应的音素；利用所述声学模型搭建一个对应的音素解码器；采集待检测的关键词音频样本，利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列；利用所述声学模型检测待测音频，以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素，而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素。采用本发明，能够提高关键测的检测的灵活性和广泛性。
【专利说明】关键词检测方法和装置
【技术领域】
[0001]本申请涉及互联网技术，特别涉及关键词检测方法和装置。
【背景技术】
[0002]音频关键词检测是语音安全监控中的重要一环，其中最大的难点是语言种类较多，而识别引擎往往只能对某一种语言进行较为准确的识别，导致关键词检测系统很难普适的对各种语言音频进行识别。
[0003]基于此，基于音频样本的关键词检测方法应运而生，该方法并不需要具体明确待检测音频的语言种类，下面对该基于音频样本的关键词检测方法进行描述:
[0004]首先，利用任意一种语言的音频数据训练得到音素级后验概率的神经网络；
[0005]其后，在获得一个待检测的关键词音频样本时，利用神经网络获取该关键词音频样本对应的特征序列，具体就是该关键词音频样本在神经网络训练时候得到的各个音素上的后验概率，形成该关键词音频样本的一种表征形式。
[0006]最后，使用滑动窗从特征序列开始逐步向后平移，每一次的平移继续使用神经网络得到每一个滑动窗内的特征表征，之后使用动态时间归整(DTW:Dynamic Time Warping)算法进行弯曲比对，如果特征表征符合的情况下，则输出一次关键词的检出。
[0007]至此，完成现有基于音频样本的关键词检测方法的描述。
[0008]上述基于音频样本的关键词检测方法中，特征层表征、特征序列基于神经网络提取，具备一定的鲁棒性；另外，该方法使用DTW算法配合滑动窗来检出关键词，而DTW算法是早期语音识别中使用的一种方案，主要适用于孤立词语音识别系统中，其核心思想是基于动态规划，对音频特征在特征层面直接进行比对，因此实现较为简单，实时率较高。
[0009]但是，由于人在发声的时候会随着年龄，情绪，环境，健康情况等等外界因素而发生读音的改变，因此，DTW算法不具备非常高的鲁棒性，往往环境噪声就可以导致该关键词检测的精确度大幅下降；
[0010]还有，在现有关键词检测方法中，神经网络的训练是基于单一语种，如此，当该语种的音频样本进行关键词检测时会有较好的性能，但是扩充到其他语种之后，由于单一语种的音素集以及数据发音特点限制，在非训练语种的音频上，难以取得较好的识别性能。

【发明内容】

[0011]本申请提供了关键词检测方法和装置，以提闻关键词的检测精确度。
[0012]本申请提供的技术方案包括:
[0013]一种关键词检测方法，该方法包括:
[0014]使用国际通用音标IPA音素集合和多个不同语种的数据训练一个声学模型；其中，所述前景模型用于描述关键词对应的音素，所述背景模型用于吸收非关键词对应的音素；
[0015]利用所述声学模型搭建一个对应的音素解码器；[0016]采集关键词音频样本，利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词首素序列；
[0017]利用所述声学模型对待检测音频进行检测，以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素部分，而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素部分。
[0018]一种关键词检测装置，该装置包括:
[0019]声学模型训练模块，用于使用国际通用音标IPA音素集合和多个不同语种的数据训练一个声学模型；其中，所述前景模型用于描述关键词对应的音素，所述背景模型用于吸收非关键词对应的音素；
[0020]音素解码器模块，用于利用所述声学模型搭建成一个对应的音素解码器；
[0021]关键词音频样本采集模块，用于采集关键词音频样本，利用所述音素解码器对采集的关键词首频样本进行解码得到对应的关键词首素序列；
[0022]关键测检测模块，用于利用所述声学模型检测所述待检测音频，以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素部分，而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素部分。
[0023]由以上技术方案可以看出，本发明不再使用DTW算法，而是通过对多个不同语种的数据和IPA音素集合训练声学模型，该声学模型融合各个语种的音素，真正的实现了声学模型和语种无关，如此，基于声学模型的识别系统进行关键词的检测，这相比于单纯的DTW算法具有非常大的鲁棒性能优势，也能提高关键测的检测精度。
【专利附图】

【附图说明】
[0024]图1为本发明实施例提供的方法流程图；
[0025]图2为本发明实施例提供的关键词检索模型示意图；
[0026]图3为本发明实施例提供的框架示意图；
[0027]图4为本发明实施例提供的前景模型训练流程图；
[0028]图5为本发明实施例提供的隐马尔可夫模型结构示意图；
[0029]图6为本发明实施例提供的关键词音素序列确定流程图；
[0030]图7为本发明实施例提供的PCN线性结构示意图；
[0031]图8为本发明实施例提供的步骤603实现流程图；
[0032]图9为本发明实施例提供的装置结构图。
【具体实施方式】
[0033]为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。
[0034]本发明提供的方法在进行关键词检测时不再使用DTW算法，而是通过训练声学模型，基于声学模型的识别系统进行关键词的检测，这相比于单纯的DTW算法具有非常大的鲁棒性能优势。
[0035]下面对本发明提供的方法进行描述:
[0036]参见图1，图1为本发明实施例提供的方法流程图。如图1所示，该流程可包括以下步骤:
[0037]步骤101，使用国际通用音标(IPA)音素集合和多个不同语种的数据训练一个声学模型；其中，所述前景模型用于描述关键词对应的音素，所述背景模型用于吸收非关键词对应的音素。
[0038]作为本发明的一个实施例，步骤101中，使用IPA音素集合和多个不同语种的数据训练一个声学模型可包括:
[0039]采集多个不同语种的音频数据和该音频数据的标注数据；
[0040]获取所述多个不同语种中每一语种的音素集合；
[0041]将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合；
[0042]基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型。
[0043]IPA，国际通用且被认为音素覆盖面最广泛，基于此，本发明先将采集的各个音频数据所使用的各个语种比如中文、英语等的音素映射到IPA的音素映射到IPA音素得到IPA音素映射集合(也称映射后的音素集合)，利用该IPA音素映射集合训练声学模型，能够保证训练出的声学模型融合各个语种的音素，从而真正的实现声学模型和语种无关，便于后续关键词的检测。
[0044]还有，本发明中，将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合具体实现时可有多种实现方式，下面仅举出以下三种实现方式。其中，该三种实现方式仅是一种举例，并非用于限定本发明:
[0045]方式1:
[0046]本方式I比较简单，其是基于预设定的音素映射规则的方法实现。其中，音素映射规则是经由语言学家的研究得到各个语种中音素的发音规律，利用该发音规律与IPA音素的发音规律来建立各个语种中音素与IPA的音素之间的映射关系。基于此，本方式I可直接利用该音素映射规则将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合。
[0047]方式2:
[0048]本方式2是基于数据驱动的方法。其中，基于数据驱动的方法是通过解码一定数量的特定语种数据，得到特定语种的音素和IPA音素的混淆关系，如果特定语种的一个音素与IPA的一个音素的混淆程度比较大，比如大于第一设定阈值，则就认为这两个音素之间具有映射关系。
[0049]方式3:
[0050]一般来说，基于数据驱动的方法优于基于音素映射规则的方法，因此，作为本发明的一个实施例，本方式3是上述方式I和方式2的组合，即先基于音素映射规则初步建立语种的音素与IPA音素的映射关系，之后再进行数据驱动的方法修正得到的初步映射关系。
[0051]至此，完成上述三种方式的描述。
[0052]还有，本发明中，上述如何基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型在下文进行了描述。
[0053]步骤102，利用所述声学模型搭建一个对应的音素解码器。
[0054]步骤103，采集关键词音频样本，利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列。[0055]作为本发明的一个实施例，步骤103中，利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列具体为:
[0056]识别采集的关键词音频样本的数量，
[0057]在采集的关键词音频样本的数量仅为一个时，利用所述音素解码器对采集的一个关键词音频样本进行解码，将解码之后得到的唯一音素系列确定为所述关键词音素序列；
[0058]在采集的关键词音频样本的数量大于I时，利用所述音素解码器对采集的每一个关键词首频样本进行解码得到每一关键词首频样本对应的首素序列，从得到的首素序列中选择一个作为所述关键词音素序列。
[0059]至于在所述数量大于I时，如何从得到的音素序列中选择一个作为关键词音素序列这在下文进行了描述，这里暂不赘述。
[0060]步骤104，利用所述声学模型对待检测音频进行检测，以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素部分，而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素部分。
[0061]作为本发明的一个实施例，贝1J基于声学模型，本发明构建了图2所不的关键词检索模型。如图2所示，该关键词检索模型由前景模型网络和背景模型网络组成，其中，前景模型网络中KW_1至KW_N表示关键词音素序列，具体由前景模型表征，而背景模型网络中FILLER_1至FILLER_N表示背景模型的所有音素，当待检测音频进入图2所示的模型时，包含关键词的音素会在前景模型网络中吸收，而非关键词部分会被背景模型网络吸收，从而实现关键词的检出。
[0062]至此，完成图1所示的流程。对应图1所示的流程，本发明提供了对应的框架示意图，具体如图3所示。
[0063]在上面描述中，作为本发明的一个实施例，基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型可包括:
[0064]对采集的每一语种的音频数据进行特征提取得到对应的音频特征序列；这里，特征提取方式具体实现时可有多种实现形式，比如感知线性预测数据(PLP)、或者为Mel频率倒谱系数(MFCC)数据等，本发明并不具体限定；
[0065]从IPA音素映射集合中获取每一音频特征序列对应的特征音素集合；
[0066]利用特征音素集合、采集的标注数据分别训练前景模型和背景模型；
[0067]利用所述前景模型和背景模型组合成所述声音模型。
[0068]下面对如何训练前景模型和背景模型分别进行重点描述:
[0069]前景模型训练:
[0070]参见图4，图4为本发明实施例提供的前景模型训练流程图。如图4所示，该流程可包括以下步骤:
[0071]步骤401，训练种子模型。
[0072]这里，训练种子模型就是为特征音素集合中每一音素的三个状态训练最初始的隐马尔可夫模型(HMM:Hidden Markov Model)。也就是说,执行完步骤401,特征音素集合中每一音素就为一个隐马尔可夫模型，该隐马尔可夫模型拓扑结构如图5所示。在图5中，每一音素其中包含三个状态，从左向右时序排列，依次为S1、S2、S3。
[0073]在每一个状态上,音素的发射概率是使用混合高斯模型(GMM:Gaussian mixturemodel)进行估计的，其数学表达式如下式:
【权利要求】
1.一种关键词检测方法，其特征在于，该方法包括: 使用国际通用音标IPA音素集合和多个不同语种的数据训练一个声学模型；其中，所述前景模型用于描述关键词对应的音素，所述背景模型用于吸收非关键词对应的音素；利用所述声学模型搭建一个对应的音素解码器；采集关键词音频样本，利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词首素序列；利用所述声学模型对待检测音频进行检测，以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素部分，而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素部分。
2.根据权利要求1所述的方法，其特征在于，所述利用音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列包括: 识别采集的关键词音频样本的数量，在所述数量仅为一个时，利用所述音素解码器对采集的一个关键词音频样本进行解码，将解码之后得到的唯一音素序列确定为所述关键词音素序列；在所述数量大于I时，利用所述音素解码器对采集的每一个关键词音频样本进行解码得到每一关键词音频样本对应的音素序列，从得到的音素序列中选择一个作为所述关键词音素序列。
3.根据权利要求1所述的方法，其特征在于，所述使用国际通用音标IPA音素集合和多个不同语种的数据训练一个声学模型包括: 采集多个不同语种的音频数据和该音频数据的标注数据；获取所述多个不同语种中每一语种的音素集合；将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合；基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型。
4.根据权利要求3所述的方法，其特征在于，所述将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合包括: 针对各个音素集合中的每一音素，基于预设定的音素映射规则从IPA音素集合中识别出与该音素具有映射关系的IPA音素，将该识别出的IPA音素记录至IPA音素映射集合；或者，针对各个音素集合中的每一音素，计算该音素与任一 IPA音素的混淆度，如果该计算的混淆度大于第一设定阈值，则确定该音素与该IPA音素具映射关系，将该IPA音素记录至IPA音素映射集合；或者，针对各个音素集合中的每一音素，基于预设定的音素映射规则从IPA音素集合中识别出与该音素具有映射关系的IPA音素，计算该音素与该识别出的IPA音素的混淆度，如果该计算的混淆度大于第一设定阈值，则确定该音素与该IPA音素具映射关系，将该IPA音素记录至IPA音素映射集合。
5.根据权利要求3所述的方法，其特征在于，所述基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型包括: 对采集的每一语种的音频数据进行特征提取得到对应的音频特征序列；从IPA音素映射集合中获取每一音频特征序列对应的特征音素集合；利用特征音素集合、采集的标注数据分别训练前景模型和背景模型；利用所述前景模型和背景模型组合成所述声学模型。
6.根据权利要求5所述的方法，其特征在于，所述前景模型通过以下步骤训练: 为特征音素集合中每一音素的三个状态训练最初始的隐马尔可夫模型，并从采集的标注数据中获取与该音素相关的数据，利用该获取的数据对最初始的隐马尔可夫模型进行更新，得到单音素模型；针对标注音素集合中的每一音素，获取该音素的上下文音素，得到三音素，所述标注音素集合为标注数据对应的音素集合；对获取的每一三音素的状态进行决策树聚类，对聚类后的三音素进行相应参数的更新之后进行最小音素错误MPE鉴别性训练，得到三音素模型；基于得到的单音素模型和三音素模型训练出所述前景模型。
7.根据权利要求6所述的方法，其特征在于，该方法进一步包括: 计算任意两个单音素模型之间的混合高斯模型GMM距离；比较该计算的GMM距离与第二设定阈值，如果前者大于后者，则认为该两个单音素模型对应的单音素相似，将相似的单音素聚类在一起并记录至用于描述相似音素的混淆矩阵。
8.根据权利要求7所述的方法，其特征在于，所述背景模型通过以下步骤训练: 利用所述混淆矩阵对所述前景模型中的音素进行处理，以实现同一类的音素用一个对应的混淆音素替代，得到混淆音素集合；通过所述混淆音素集合训练所述背景模型。
9.根据权利要求2所述的方法，其特征在于，所述从得到的音素序列中选择一个作为所述关键词首素序列包括: 将得到的每一音素序列作为一个音素序列候选；采用PCN方式将所有音素序列候选组合成PCN线性结构，在所述PCN线性结构中，所有音素序列候选中的音素对应作为所述PCN线性结构的一条边，相似的各个音素对应的边归并至同一个槽，各个槽之间形成了线性连接关系；从所述PCN线性结构中选择出一条路径，将组成该路径的各条边上的音素作为所述关键词音素序列。
10.根据权利要求9所述的方法，其特征在于，所述从PCN线性结构中选择出一条路径，将组成该路径的各个边对应的音素作为关键词音素序列包括: 计算所述PCN线性结构中每一条边上的音素在所有音素序列候选中的出现频率；遍历所述PCN线性结构中的每一路径，利用组成该路径的各条边上音素的出现频率计算该路径的得分；将每一路径的得分从高至低进行排序，选择前N条路径作为备选路径，N大于I ; 利用N条备选路径分别和所有音素序列候选进行置信度计算，依据计算结果选择一条备选路径作为关键词音素序列。
11.根据权利要求10所述的方法，其特征在于，所述利用N条备选路径分别和所有音素序列候选进行置信度计算，依据计算结果选择一条备选路径作为关键词音素序列包括:针对每一条备选路径，用该备选路径与每一音素序列候选进行强制对齐来进行置信度计算；将该备选路径与所有音素序列候选进行强制对齐后计算的置信度进行平均值运算，将得到的结果作为该备选路径对应的置信度；从N条备选路径对应的置信度中选择取值最大的置性度，将该选择的置信度对应的备选路径作为所述关键词音素序列。
12.一种关键词检测装置，其特征在于，该装置包括: 声学模型训练模块，用于使用国际通用音标IPA音素集合和多个不同语种的数据训练一个声学模型；其中，所述前景模型用于描述关键词对应的音素，所述背景模型用于吸收非关键词对应的首素；音素解码器模块，用于利用所述声学模型搭建成一个对应的音素解码器；关键词音频样本采集模块，用于采集关键词音频样本，利用所述音素解码器对采集的关键词首频样本进行解码得到对应的关键词首素序列；关键测检测模块，用于利用所述声学模型检测所述待检测音频，以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素部分，而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素部分。
13.根据权利要求12所述的装置，其特征在于，所述声学模型训练模块包括: 数据采集单元，用于采集多个不同语种的音频数据和该音频数据的标注数据；获取单元，用于获取所述多个不同语种中每一语种的音素集合；映射单元，用于将各个音素集合中的音素映射到IPA音素得到IPA音素映射集合；训练单元，用于基于采集的各个语种的音频数据、该音频数据的标注数据、以及所述IPA音素映射集合训练一个声学模型。
14.根据权利要求13所述的装置，其特征在于，所述训练单元包括: 特征提取子单元，用于对采集的每一语种的每一条音频数据进行特征提取得到对应的音频特征序列，从IPA音素映射集合中获取每一音频特征序列对应的特征音素集合；训练子单元，用于利用特征音素集合、采集的标注数据分别训练前景模型和背景模型，并利用所述前景模型和背景模型组合成所述声音模型。
15.根据权利要求14所述的装置，其特征在于，所述训练子单元通过以下步骤训练前景模型: 为特征音素集合中每一音素的三个状态训练最初始的隐马尔可夫模型，并从采集的标注数据中获取与该音素相关的数据，利用该获取的数据对最初始的隐马尔可夫模型进行更新，得到单音素模型；针对标注音素集合中的每一音素，获取该音素的上下文音素，得到三音素，所述标注音素集合为标注数据对应的音素集合；对获取的每一三音素的状态进行决策树聚类，对聚类后的三音素进行相应参数的更新之后进行最小音素错误MPE鉴别性训练，得到三音素模型；基于得到的三音素模型训练出所述前景模型。
16.根据权利要求15所述的装置，其特征在于，所述训练子单元进一步计算任意两个单音素模型之间的混合高斯模型GMM距离；比较该计算的GMM距离与第二设定阈值，如果前者大于后者，则认为该两个单音素模型对应的单音素相似，将相似的单音素聚类在一起并记录至用于描述相似音素的混淆矩阵；所述训练子单元通过以下步骤训练所述背景模型: 利用所述混淆矩阵对所述前景模型中的音素进行处理，以实现同一类的音素用一个对应的混淆音素替代，得到混淆音素集合；通过所述混淆音素集合训练所述背景模型。
17.根据权利要求12至16任一所述的装置，其特征在于，所述关键词音频样本采集模块包括: 样本采集单元，用于采集关键词音频样本；确定单元，用于在所述样本采集单元采集到的所述关键词音频样本的数量仅为一个时，利用所述音素解码器对采集的一个关键词音频样本进行解码，将解码之后得到的唯一音素序列确定为所述关键词音素序列；在所述样本采集单元采集到的关键词音频样本的数量大于I时，利用所述音素解码器对采集的每一个关键词音频样本进行解码得到每一关键词音频样本对应的音素序列，从得到的音素序列中选择一个作为所述关键词音素序列。
18.根据权利要求17所述的装置，其特征在于，所述确定单元从得到的音素序列中选择一个作为关键词音素序列包括: 将得到的每一音素序列作为一个音素序列候选；采用PCN方式将所有音素序列候选组合成PCN线性结构，在所述PCN线性结构中，所有音素序列候选中的音素对应作为所述PCN线性结构的一条边，相似的各个音素对应的边归并至同一个槽，各个槽之间形成了线性连接关系；通过置信度算法从所述PCN线性结构中选择出一条路径，将组成该路径的各条边上的音素作为所述关键词音素序列。
【文档编号】G10L15/18GK103971678SQ201310034769
【公开日】2014年8月6日申请日期:2013年1月29日优先权日:2013年1月29日
【发明者】卢鲤, 张翔, 岳帅, 饶丰, 王尔玉, 李露申请人:腾讯科技（深圳）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卢鲤;张翔;岳帅;饶丰;王尔玉;李露
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：语音命令识别方法和系统的制作方法
上一篇：一种添加标点的方法、系统及其语言模型建立方法、装置制造方法