本公开涉及语音识别,尤其涉及语音关键词识别方法及装置。
背景技术:
1、语音关键词检索(keyword spotting,简称kws)是人与机器进行语音交互的一项重要技术,其目标是快速准确地从连续的音频流中检索出指定的关键词,这一技术被广泛应用于进行各类智能设备控制和设备唤醒等等。
2、目前现有的kws方法中,其中一种是补白模型,它将kws考虑为序列标注问题,使用隐马尔可夫模型(hidden markov models,hmms)或者神经网络(neural network,nn)对关键词进行建模,用额外的类别标注来匹配所有的非关键词。另一种是基于样例的kws,将其定义为匹配问题,通过计算关键词音频和非关键词音频之间的相似度来完成检索任务。上述两种方法受限于只能对指定的关键词建模,如果更换了关键词则模型不能复用。
技术实现思路
1、为了解决上述技术问题中的至少一个,本公开提供了语音关键词识别方法及装置。
2、本公开第一方面提出了一种语音关键词识别方法,包括:对待识别的音频信号进行特征提取得到音频特征;将所述音频特征输入lstm模块映射到高维特征空间得到输出;对所述lstm模块的输出进行维度变换得到后验概率矩阵;生成关键词的关键词解码图,所述关键词解码图为有向有环图,所述有向有环图中包含所有关键词的可选路径;依据所述后验概率矩阵对所述有向有环图中的可选路径进行加权,得到所述关键词的路径得分,从而识别出所述关键词。
3、根据本公开的一个实施方式,将所述音频特征输入lstm模块得到特征输出,包括:对于每个隐藏节点,依据当前帧的音频特征得到当前帧的记忆状态;依据当前帧的音频特征和当前帧的记忆状态得到当前帧的隐藏信息。
4、根据本公开的一个实施方式,依据当前帧的音频特征得到当前帧的记忆状态,包括:依据当前帧的音频特征和上一帧的隐藏信息得到当前帧的遗忘信息、更新信息和候选信息;依据当前帧的遗忘信息和上一帧的记忆状态得到保留信息;依据保留信息以及当前帧的更新信息和候选信息得到当前帧的记忆状态。
5、根据本公开的一个实施方式,依据当前帧的音频特征和当前帧的记忆状态得到当前帧的隐藏信息,包括:依据当前帧的音频特征和上一帧的隐藏信息得到当前帧的初始输出;依据当前帧的初始输出和当前帧的记忆状态得到当前帧的隐藏信息。
6、根据本公开的一个实施方式,依据所述后验概率矩阵对所述有向有环图中的可选路径进行加权,包括:对于每个音频帧的后验概率向量,从所述有向有环图中确定与集束的每个当前状态相对应的子状态,其中,所述子状态为所述有向有环图中状态的子节点;依据所述后验概率向量计算到达当前子状态的路径得分;依据所述路径得分选取至少部分所述子状态并更新到所述集束中;依据剪枝阈值和所述路径得分对所述集束中的子状态进行剪枝;将初始状态加入到所述集束中,并将所述集束中的子状态作为新的当前状态,再次进行加权,直至完成所述待识别的音频信号;其中,若集束中的当前状态满足预设的终止条件,则确定当前状态的路径得分的exp值,并在所述exp值大于预设的置信度阈值时确定识别出关键词。
7、根据本公开的一个实施方式,通过下式计算所述子状态的路径得分score:
8、
9、其中,cur_frame为到达当前状态记录的时间帧,start_frame为关键词开始的时间帧,yt为t时刻状态所对应标签的后验概率。
10、根据本公开的一个实施方式,依据所述路径得分选取至少部分所述子状态并更新到所述集束中,包括:若多个子状态的标签相同,则选取其中路径得分最高的子状态更新所述集束。
11、根据本公开的一个实施方式,所述剪枝阈值的确定方式包括:确定每一时间步集束中每个当前状态的路径得分,从所有当前状态的路径得分中确定出最高得分,将所述最高得分和预设阈值的差值作为剪枝阈值。
12、根据本公开的一个实施方式,下一时刻状态的路径得分为当前时刻子状态的路径得分。
13、本公开第二方面提出了一种语音关键词识别装置,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一实施方式所述的语音关键词识别方法。
1.一种语音关键词识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,将所述音频特征输入lstm模块得到特征输出,包括:
3.根据权利要求2所述的方法,其特征在于,依据当前帧的音频特征得到当前帧的记忆状态,包括:
4.根据权利要求2所述的方法,其特征在于,依据当前帧的音频特征和当前帧的记忆状态得到当前帧的隐藏信息,包括:
5.根据权利要求1所述的方法,其特征在于,依据所述后验概率矩阵对所述有向有环图中的可选路径进行加权,包括:
6.根据权利要求5所述的方法,其特征在于,通过下式计算所述子状态的路径得分score:
7.根据权利要求5所述的方法,其特征在于,依据所述路径得分选取至少部分所述子状态并更新到所述集束中,包括:
8.根据权利要求5所述的方法,其特征在于,所述剪枝阈值的确定方式包括:
9.根据权利要求5所述的方法,其特征在于,下一时刻状态的路径得分为当前时刻子状态的路径得分。
10.一种语音关键词识别装置,其特征在于,包括: