语音检测方法、装置及电子设备的制作方法
【专利摘要】本发明实施例提供了一种语音检测方法、装置及电子设备,该方法包括:通过所述音频采集单元获取音频信息;从所述音频信息中获取用户的语音信息;通过所述视频采集单元获取视频信息;从所述视频信息中获取所述用户发出与所述语音信息对应的语音时的面部表情变化信息;对所述语音信息以及所述面部表情变化信息进行判断,当判断结果表明所述语音信息满足第一预设条件且所述面部表情变化信息满足第二预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间,所述时间为时间段或时刻;利用所述时间确定所述语音信息的尾点语音端点。采用本发明实施例提供的方法、装置及电子设备,可以提高获取尾点语音端点的准确率。
【专利说明】语音检测方法、装置及电子设备
【技术领域】
[0001]本发明涉及语音识别【技术领域】,更具体的说,是涉及语音检测方法、装置及电子设备。
【背景技术】
[0002]随着电子设备的发展,语音识别越来越被广泛的应用到电子设备中。语音端点检测是语音识别中的一个必要环节,语音端点包括尾点语音端点。
[0003]尽管语音端点检测技术在安静的环境中已经达到了令人鼓舞的准确率,但是在实际应用时,由于噪声引入通常会使尾点语音端点检测的准确率显著下降。
【发明内容】
[0004]有鉴于此,本发明提供了一种语音检测方法及电子设备,以克服现有技术中由于噪声引入通常会使尾点语音端点检测的准确率显著下降的问题。
[0005]为实现上述目的,本发明提供如下技术方案:
[0006]一种语音检测方法,应用于具有音频采集单元和视频采集单元的电子设备,所述语首?目息检测方法包括:
[0007]通过所述音频采集单元获取音频信息;
[0008]从所述音频信息`中获取用户的语音信息;
[0009]通过所述视频采集单元获取视频信息;
[0010]从所述视频信息中获取所述用户发出与所述语音信息对应的语音时的面部表情变化信息;
[0011]对所述语音信息以及所述面部表情变化信息进行判断,当判断结果表明所述语音信息满足第一预设条件且所述面部表情变化信息满足第二预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间,所述时间为时间段或时刻;
[0012]利用所述时间确定所述语音信息的尾点语音端点。
[0013]其中,所述音频信息为振动信息,所述振动信息通过所述电子设备与所述用户的身体接触获得的,所述从所述音频信息中获取用户的语音信息包括:
[0014]从所述振动信息中获得所述语音信息。
[0015]其中,所述时间为时间段,所述利用所述时间确定所述语音信息的尾点语音端点包括:
[0016]当所述语音信息满足第一预设条件时,根据所述语音信息,以预设帧为时间间隔分别计算所述时间内各个时间点成为第一尾点语音端点的置信度;
[0017]当所述面部表情变化信息满足第二预设条件时,根据所述面部表情变化信息,分别计算所述各个时间点成为第二尾点语音端点的置信度;
[0018]根据为所述语音信息分配的第一权重、所述各个时间点成为第一尾点语音端点的置信度、为所述面部表情变化信息分配的第二权重以及所述各个时间点成为第二尾点语音端点的置信度,分别计算出所述各个时间点对应的尾点语音端点的置信度;
[0019]从各个所述尾点语音端点的置信度中选择满足第三预设条件的尾点语音端点的置信度对应的尾点语音端点作为所述第一尾点语音端点。
[0020]其中,获取所述第一权重与所述第二权重的方法包括:
[0021]获取所述电子设备的环境状态;
[0022]根据所述电子设备的环境状态确定出所述第一权重以及所述第二权重。
[0023]其中,所述当判断结果表明所述语音信息满足第一预设条件且所述面部表情变化信息满足第二预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间包括:
[0024]当所述结果表明所述语音信息满足第一预设条件时,判断所述面部表情变化信息是否满足所述第二预设条件;当所述面部表情变化信息满足所述第二预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间;
[0025]或,
[0026]当所述结果表明所述面部表情变化信息满足所述第二预设条件时,判断所述语音信息是否满足第一预设条件;当所述语音信息满足第一预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间;
[0027]或,
[0028]当所述结果表明所述语音信息以及所述面部表情变化信息同时分别满足所述第一预设条件以及所述第二预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间。
[0029]其中,所述第一预设条件包括所述电子设备保持静音状态或所述电子设备保持静音状态预设时间,检测所述电子设备保持静音状态预设时间的方法包括:
[0030]记录所述电子设备处于静音状态的时刻;
[0031]以所述电子设备处于静音状态的时刻为起始时间记录延时时间;
[0032]当所述延时时间等于预设时间时,确定所述电子设备保持静音状态预设时间,所述预设时间依据第四预设条件进行设定。
[0033]一种语音检测装置,应用于具有音频采集单元和视频采集单元的电子设备,所述语音信息检测装置包括:
[0034]第一获取模块,用于通过所述音频采集单元获取音频信息;
[0035]第二获取模块,用于从所述音频信息中获取用户的语音信息;
[0036]第三获取模块,用于通过所述视频采集单元获取视频信息;
[0037]第四获取模块,用于从所述视频信息中获取所述用户发出与所述语音信息对应的语音时的面部表情变化信息;
[0038]判断模块,用于对所述语音信息以及所述面部表情变化信息进行判断,当判断结果表明所述语音信息满足第一预设条件且所述面部表情变化信息满足第二预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间,所述时间为时间段或时刻;
[0039]第一确定模块,用于利用所述时间确定所述语音信息的尾点语音端点。
[0040]其中,所述音频信息为振动信息,所述振动信息通过所述电子设备与所述用户的身体接触获得的,所述第二获取模块具体用于:从所述振动信息中获得所述语音信息。[0041]其中,所述时间为时间段,所述第一确定模块包括:
[0042]第一计算单元,用于当所述语音信息满足第一预设条件时,根据所述语音信息,以预设帧为时间间隔分别计算所述时间内各个时间点成为第一尾点语音端点的置信度;
[0043]第二计算单元,用于当所述面部表情变化信息满足第二预设条件时,根据所述面部表情变化信息,分别计算所述各个时间点成为第二尾点语音端点的置信度;
[0044]第三计算单元,用于根据为所述语音信息分配的第一权重、所述各个时间点成为第一尾点语音端点的置信度、为所述面部表情变化信息分配的第二权重以及所述各个时间点成为第二尾点语音端点的置信度,分别计算出所述各个时间点对应的尾点语音端点的置信度;
[0045]选择单元,用于从各个所述尾点语音端点的置信度中选择满足第三预设条件的尾点语音端点的置信度对应的尾点语音端点作为所述第一尾点语音端点。
[0046]其中,还包括:
[0047]第五获取模块,用于获取所述电子设备的环境状态;
[0048]第二确定模块,用于根据所述电子设备的环境状态确定出所述第一权重以及所述
第二权重。
[0049]其中,所述判断模块具体用于:
[0050]当所述结果表明所述语音信息满足第一预设条件时,判断所述面部表情变化信息是否满足所述第二预设条件;当所述面部表情变化信息满足所述第二预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间;
[0051]或,
[0052]当所述结果表明所述面部表情变化信息满足所述第二预设条件时,判断所述语音信息是否满足第一预设条件;当所述语音信息满足第一预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间;
[0053]或,
[0054]当所述结果表明所述语音信息以及所述面部表情变化信息同时分别满足所述第一预设条件以及所述第二预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间。
[0055]其中,所述第一预设条件包括所述电子设备保持静音状态或所述电子设备保持静音状态预设时间,所述语音检测装置还包括:
[0056]第一记录模块,用于记录所述电子设备处于静音状态的时刻;
[0057]第二记录模块,用于以所述电子设备处于静音状态的时刻为起始时间记录延时时间;
[0058]第三确定模块,用于当所述延时时间等于预设时间时,确定所述电子设备保持静音状态预设时间,所述预设时间依据第四预设条件进行设定。
[0059]一种电子设备,包括:
[0060]音频采集单元;
[0061]视频采集单元;
[0062]以及上述任一所述语音检测装置。
[0063]经由上述的技术方案可知,与现有技术相比,本发明实施例提供了一种语音检测方法,同时根据用户发出与语音信息对应的语音时的面部表情变化信息和语音信息获得尾点语音端点,由于用户发出与语音信息对应的语音时的面部表情变化信息不受外界噪声的影响,所以可以提高获取尾点语音端点的准确率。
【专利附图】
【附图说明】
[0064]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0065]图1为本发明实施例提供了一种语音检测方法的流程示意图;
[0066]图2为本发明实施例提供的一种语音检测方法中利用上述时间确定上述语音信息的尾点语音端点的一种实现方式的方法流程示意图;
[0067]图3为本发明实施例提供的一种语音检测方法中获取第一权重和第二权重的方法的一种实现方式的方法流程示意图;
[0068]图4为本发明实施例提供的一种语音检测方法中的检测电子设备保持静音状态预设时间的一种实现方式的方法流程示意图;
[0069]图5为本发明实施例提供的一种语音检测装置的结构示意图;
[0070]图6为本发明实施例提供的一种语音检测装置中的第一确定模块的一种实现方式的结构示意图;
[0071]图7为本发明实施例提供的一种语音检测装置中的第一权重和第二权重的获取装置的一种实现方式的结构示意图;
[0072]图8为本发明实施例提供的一种语音检测装置中检测上述电子设备保持静音状态预设时间的装置的结构示意图。
【具体实施方式】
[0073]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0074]请参阅附图1,为本发明实施例提供了一种语音检测方法的流程示意图,该方法应用于具有音频采集单元和视频采集单元的电子设备,上述语音检测方法包括:
[0075]步骤SlOl:通过音频采集单元获取音频信息。
[0076]步骤S102:从音频信息中获取用户的语音信息。
[0077]音频信息可以包括用户发出的语音对应的语音信息,还可以包括背景杂音,例如,用户在电影院观看电影,电影的声音就可以称为背景杂音,当然音频信息也可以不包括背景杂音,例如用户在一个非常安静的场所,本发明实施例对音频信息包含的内容不作具体限定。
[0078]步骤S103:通过视频采集单元获取视频信息。
[0079]步骤S104:从视频信息中获取用户发出与上述语音信息对应的语音时的面部表情变化信息。
[0080]用户发出与上述语音信息对应的语音时,用户的面部肌肉会发生相应的变化、用户的嘴部会进行相应的一张一合的动作,所以面部表情变化信息可以为用户的面部肌肉会发生相应的变化信息,和/或用户的嘴部会进行相应的一张一合的动作信息,当然面部表情变化信息还可以为其他信息,本发明实施例对此不作具体限定。
[0081]步骤S105:对语音信息以及面部表情变化信息进行判断,当判断结果表明语音信息满足第一预设条件且面部表情变化信息满足第二预设条件时,获取面部表情变化信息满足第二预设条件的时间。
[0082]上述时间为时间段或时刻。
[0083]上述第一预设条件可以为上述电子设备处于静音状态或保持静音状态预设时间。上述第二预设条件可以为用户的嘴部停止一张一合的动作或用户的面部肌肉停止动作等等,本发明实施例并不对第一预设条件和第二预设条件的具体内容作限定。
[0084]步骤S106:利用上述时间确定语音信息的尾点语音端点。
[0085]当上述时间为时刻时,则将该时刻对应的时间点或该时刻对应的时间点附近的时间点作为上述尾点语音端点。当上述时间为时间段时,该时间段内有多个时间点,每一时间点对应一时刻,可以计算出各个时间点成为尾点语音端点的置信度,即概率,可以根据各个时间点成为尾点语音端点 的置信度,确定出上述尾点语音端点。
[0086]本发明实施例提供了一种语音检测方法,同时根据用户发出与语音信息对应的语音时的面部表情变化信息和语音信息获得尾点语音端点,由于用户发出与语音信息对应的语音时的面部表情变化信息不受外界噪声的影响,所以可以提高获取尾点语音端点的检测的准确率。
[0087]可以理解的是,声音是依靠介质以声波的形式传输的,用户发出的声音(即用户发出的语音)是一种振动信号。音频信息可以为振动信息,当用户发出语音时,该振动信号可以通过人的身体传递给电子设备,电子设备中的音频采集单元可以获取到该振动信息(振动信息包括振动信号),即振动信息通过电子设备与用户的身体接触获得的,然后从音频信息中获得该振动信号,即该语音信息。上述从上述音频信息中获取用户的语音信息具体为:从振动?目息中获得上述语首/[目息。
[0088]电子设备与用户的身体接触,可以是用户的嘴部或面部与电子设备相接触,电子设备的音频采集单元可以获取用户发出的振动信号。
[0089]当用户发出语音信息时,音频采集单元可以获得振动信号,电子设备可以从音频信息中获得语音信息,当用户停止发出语音信息时,音频采集单元获取不到振动信号,电子设备不能从音频信息中获得语音信息,本发明实施例中当电子设备所在的环境比较黑暗且背景杂音较大时,通过用户面部表情变化信息也难以获得准确的尾点语音端点时,可以通过本发明实施例提供的方法获得尾点语音端点。
[0090]可以理解的是,当上述时间为时间段时,该时间段内可以有多个时间点,每个时间点都有一成为尾点语音端点的置信度,且根据语音信息可以获得各个时间点的尾点语音端点,根据面部表情变化信息也可以获得各个时间点的尾点语音端点。请参阅图2,为本发明实施例提供的一种语音检测方法中利用上述时间确定上述语音信息的尾点语音端点的一种实现方式的方法流程示意图,该方法包括:[0091]步骤S201:当上述语音信息满足第一预设条件时,根据上述语音信息,以预设帧为时间间隔分别计算上述时间内各个时间点成为第一尾点语音端点的置信度。
[0092]假设上述时间为10ms,预设帧为1ms,则上述时间中共有10个时间点,当预设帧为2ms时,上述时间中共有5个时间点。
[0093]步骤S202:当面部表情变化信息满足第二预设条件时,根据面部表情变化信息,分别计算上述各个时间点成为第二尾点语音端点的置信度。
[0094]根据面部表情变化信息,分别计算上述各个时间点成为第二尾点语音端点的置信度中的各个上时间点,与根据上述语音信息分别计算的上述时间内各个时间点成为第一尾点语音端点的置信度中的时间点是一一对应的。例如用户在10点10分15秒10毫秒发出语音,在10点10分20秒10毫秒停止发出语音,假设上述时间为10点10分20秒O毫秒至10点10分20秒10毫秒,且预设帧为2ms,则该时间内的5个时间点对应的时刻分别为:10点10分20秒2晕秒、10点10分20秒4晕秒、10点10分20秒6晕秒、10点10分20秒8毫秒以及10点10分20秒10毫秒。根据面部表情变化信息,分别计算上述各个时间点成为第二尾点语音端点的置信度中的各个上时间点分别为10点10分20秒2毫秒、10点10分20秒4晕秒、10点10分20秒6晕秒、10点10分20秒8晕秒以及10点10分20秒10毫秒。根据上述语音信息分别计算的上述时间内各个时间点成为第一尾点语音端点的置信度中的时间点分别为10点10分20秒2毫秒、10点10分20秒4毫秒、10点10分20秒6晕秒、10点10分20秒8晕秒以及10点10分20秒10晕秒。
[0095]步骤S203:根据为上述语音信息分配的第一权重、上述各个时间点成为第一尾点语音端点的置信度、为面部表情变化信息分配的第二权重以及上述各个时间点成为第二尾点语音端点的置信度,分别计算出上述各个时间点对应的尾点语音端点的置信度。
[0096]对于每一时间点而言,仍以上述10点10分20秒2毫秒(称为第一时间点)、10点10分20秒4毫秒(称为第二时间点)、10点10分20秒6毫秒(称为第三时间点)、10点10分20秒8毫秒(称为第四时间点)以及10点10分20秒10毫秒(称为第五时间点)五个时间点为例,第一时间点对应的尾点语音端点的置信度可以等于第一权重X第一时间点对应的第一尾点语音端点的置信度+第二权重X第一时间点对应的第二尾点语音端点的置信度,第三时间点至第五时间点对应的计算尾点语音端点的置信度的方法可以一致,此处不再进行一一赘述。
[0097]步骤S204:从各个上述尾点语音端点的置信度中选择满足第三预设条件的尾点语音端点的置信度对应的尾点语音端点作为第一尾点语音端点。
[0098]第三预设条件可以是指上述各个时间点对应的尾点语音端点的置信度中最大的尾点语音端点的置信度对应的尾点语音端点。
[0099]第三预设条件可以是指上述各个时间点对应的尾点语音端点的置信度中次大的尾点语音端点的置信度对应的尾点语音端点。
[0100]本发明实施例并不对第三预设条件作具体限定。
[0101]可以理解的是,上述语音检测方法实施例中的第一权重和第二权重的获取方法有多种,本发明实施例提供但不限于以下几种。请参阅图3,为本发明实施例提供的一种语音检测方法中获取第一权重和第二权重的方法的一种实现方式的方法流程示意图,该方法包括:[0102]步骤S301:获取电子设备的环境状态。
[0103]电子设备的环境状态可以为背景杂音较大、背景杂音较小、无背景杂音、天色较暗、天色黑暗、天色较亮。其中,背景杂音较大时,音频采集单元可能无法辨别用户发出的语音和背景杂音;背景杂音较小时,音频采集单元可以获取用户发出的语音,但是可能获取的不太准确;无背景杂音时,音频采集单元可以准确的获得用户发出的语音;天色黑暗时,视频采集单元无法从黑暗中区分出用户的面部表情变化信息,视频采集单元无法获取用户的面部表情变化信息;天色较暗时,视频采集单元可以获取用户的面部表情变化信息,但是可能获取的不太准确。天色较亮时,视频采集单元可以准确的获取用户的面部表情变化信息。
[0104]步骤S302:根据电子设备的环境状态确定出第一权重以及第二权重。
[0105]当环境状态为天色黑暗且无背景杂音时,可以将第一权重设置为1,第二权重设置为0,当环境状态为天色较亮且背景杂音较大时,可以将第一权重设置为0,将第二权重设置为I。当环境状态为天色较暗(或天色较亮)且背景杂音较小(或无背景杂音)时,可以设置第一权重为第一值,第二权重为第二值,第一值与第二值之和为I。本发明实施例并不对第一权重和第二权重的具体值作具体限定。
[0106]可以理解的是,上述语音检测方法中“当判断结果表明上述语音信息满足第一预设条件且上述面部表情变化信息满足第二预设条件时,获取上述面部表情变化信息满足上述第二预设条件的时间”可以具体为:当上述结果表明上述语音信息满足第一预设条件时,判断上述面部表情变化信息是否满足上述第二预设条件;当上述面部表情变化信息满足上述第二预设条件时,获取上述面部表情变化信息满足上述第二预设条件的时间;或,当上述结果表明上述面部表情变化信息满足上述第二预设条件时,判断上述语音信息是否满足第一预设条件;当上述语音信息满足第一预设条件时,获取上述面部表情变化信息满足上述第二预设条件的时间;或,当上述结果表明上述语音信息以及上述面部表情变化信息同时分别满足上述第一预设条件以及上述第二预设条件时,获取上述面部表情变化信息满足上述第二预设条件的时间。
[0107]上述语音检测方法实施例中的第一预设条件可以包括上述电子设备保持静音状态或上述电子设备保持静音状态预设时间,请参阅图4,为本发明实施例提供的一种语音检测方法中的检测电子设备保持静音状态预设时间的一种实现方式的方法流程示意图,该方法包括:
[0108]步骤S401:记录上述电子设备处于静音状态的时刻。
[0109]步骤S402:以上述电子设备处于静音状态的时刻为起始时间记录延时时间。
[0110]步骤S403:当上述延时时间等于预设时间时,确定上述电子设备保持静音状态预设时间,上述预设时间依据第四预设条件进行设定。
[0111]用户在电子设备中进行语音输入时,通常需要按下某一按键,例如微信中用户进行语音输入时,需要一直按下“按住说话”按键,即“按住说话”按键处于选中状态,当用户松开按键(即“按住说话”按键处于未选中状态)时录音停止。但是用户有时还未说完话,就将按键松开,导致录音中没有录制尾点语音端点。这样就会影响电子设备语音识别的准确率。所以本发明实施例中,当电子设备处于静音状态时,表明用户停止发出语音,为了避免音频采集单元没有采集到尾点语音端点,在电子设备处于静音状态后,还延长预设时间,以确保音频采集单元可以采集到尾点语音端点。[0112]上述第四预设条件可以包括:用户的语速或用户的历史语音输入行为习惯信息。用户的历史语音输入行为习惯信息可以包括:历史延时时间和/或历史录音延时时间与通话信息的对应关系,通话信息包括时间信息、应用场景信息、位置信息和通话对象信息中的一种或多种。
[0113]上述本发明公开的实施例中详细描述了方法,对于本发明的方法可采用多种形式的装置实现,因此本发明还公开了一种装置,下面给出具体的实施例进行详细说明。
[0114]请参阅图5,为本发明实施例提供的一种语音检测装置的结构示意图,该语音检测装置应用于有音频采集单元和视频采集单元的电子设备,该语音检测装置包括:第一获取模块501、第二获取模块502、第三获取模块503、第四获取模块504、判断模块505以及第一确定模块506,其中:
[0115]第一获取模块501,用于通过上述音频采集单元获取音频信息。
[0116]音频信息可以包括用户发出的语音对应的语音信息,还可以包括背景杂音,例如,用户在电影院观看电影,电影的声音就可以称为背景杂音,当然音频信息也可以不包括背景杂音,例如用户在一个非常安静的场所,本发明实施例对音频信息包含的内容不作具体限定。
[0117]第二获取模块502,用于从上述音频信息中获取用户的语音信息。
[0118]第三获取模块503,用于通过上述视频采集单元获取视频信息。
[0119]第四获取模块504,用于从上述视频信息中获取上述用户发出与上述语音信息对应的语音时的面部表情变化信息。
[0120]用户发出与上述语音信息对应的语音时,用户的面部肌肉会发生相应的变化、用户的嘴部会进行相应的一张一合的动作,所以面部表情变化信息可以为用户的面部肌肉会发生相应的变化信息,和/或用户的嘴部会进行相应的一张一合的动作信息,当然面部表情变化信息还可以为其他信息,本发明实施例对此不作具体限定。
[0121]判断模块505,用于对上述语音信息以及上述面部表情变化信息进行判断,当判断结果表明上述语音信息满足第一预设条件且上述面部表情变化信息满足第二预设条件时,获取上述面部表情变化信息满足上述第二预设条件的时间。
[0122]上述时间为时间段或时刻。
[0123]上述第一预设条件可以为上述电子设备处于静音状态或保持静音状态预设时间。上述第二预设条件可以为用户的嘴部停止一张一合的动作或用户的面部肌肉停止动作等等,本发明实施例并不对第一预设条件和第二预设条件的具体内容作限定。
[0124]第一确定模块506,用于利用上述时间确定上述语音信息的尾点语音端点。
[0125]当上述时间为时刻时,则该时刻对应的时间点为上述尾点语音端点。当上述时间为时间段时,该时间段内有多个时间点,每一时间点对应一时刻,第一确定模块506可以计算出各个时间点成为尾点语音端点的置信度,即概率,可以根据各个时间点成为尾点语音端点的置信度,确定出上述尾点语音端点。
[0126]本发明实施例提供了一种语音检测装置,同时根据用户发出与语音信息对应的语音时的面部表情变化信息和语音信息获得尾点语音端点,由于用户发出与语音信息对应的语音时的面部表情变化信息不受外界噪声的影响,所以可以提高获取尾点语音端点的准确率。[0127]可以理解的是,声音是依靠介质以声波的形式传输的,用户发出的声音(即用户发出的语音)是一种振动信号。音频信息可以为振动信息,当用户发出语音时,该振动信号可以通过人的身体传递给电子设备,电子设备中的音频采集单元可以获取到该振动信息(振动信息包括振动信号),即振动信息通过电子设备与用户的身体接触获得的,然后从音频信息中获得该振动信号,即该语音信息。上述语音检测装置实施例中的第二获取模块具体用于:从上述振动信息中获得上述语音信息。
[0128]电子设备与用户的身体接触,可以是用户的嘴部与电子设备相接触,电子设备的音频采集单元可以获取用户发出的振动信号。
[0129]当用户发出语音信息时,音频采集单元可以获得振动信号,第二获取模块可以从音频信息中获得语音信息,当用户停止发出语音信息时,音频采集单元获取不到振动信号,第二获取模块不能从音频信息中获得语音信息,本发明实施例中当电子设备所在的环境比较黑暗且背景杂音较大时,通过用户面部表情变化信息也难以获得准确的尾点语音端点时,可以通过本发明实施例提供的装置获得尾点语音端点。
[0130]可以理解的是,当上述时间为时间段时,该时间段内可以有多个时间点,每个时间点都有一成为尾点语音端点的置信度,且根据语音信息可以获得各个时间点的尾点语音端点,根据面部表情变化信息也可以获得各个时间点的尾点语音端点,请参阅图6,为本发明实施例提供的一种语音检测装置中的第一确定模块的一种实现方式的结构不意图,第一确定模块可以包括:第一计算单元601、第二计算单元602、第三计算单元603以及选择单元604,其中:
[0131]第一计算单元601,用于当上述语音信息满足第一预设条件时,根据上述语音信息,以预设帧为时间间隔分别计算上述时间内各个时间点成为第一尾点语音端点的置信度。
[0132]假设上述时间为10ms,预设帧为lms,则上述时间中共有10个时间点,当预设帧为2ms时,上述时间中共有5个时间点。
[0133]对第一计算单元601中的时间点的与步骤S201中的时间点一样,相关描述请参照对步骤S201中的时间点的解释说明,本发明实施例在此不再进行一一赘述。
[0134]第二计算单元602,用于当上述面部表情变化信息满足第二预设条件时,根据上述面部表情变化信息,分别计算上述各个时间点成为第二尾点语音端点的置信度。
[0135]第三计算单元603,用于根据为上述语音信息分配的第一权重、上述各个时间点成为第一尾点语音端点的置信度、为上述面部表情变化信息分配的第二权重以及上述各个时间点成为第二尾点语音端点的置信度,分别计算出上述各个时间点对应的尾点语音端点的置信度。
[0136]计算出上述各个时间点对应的尾点语音端点的置信度的过程与对步骤S203中的计算出上述各个时间点对应的尾点语音端点的置信度的过程一致,本发明实施例在此不再进行 赘述。
[0137]选择单元604,用于从各个上述尾点语音端点的置信度中选择满足第三预设条件的尾点语音端点的置信度对应的尾点语音端点作为上述第一尾点语音端点。
[0138]第三预设条件可以是指上述各个时间点对应的尾点语音端点的置信度中最大的尾点语音端点的置信度对应的尾点语音端点。[0139]第三预设条件可以是指上述各个时间点对应的尾点语音端点的置信度中次大的尾点语音端点的置信度对应的尾点语音端点。
[0140]本发明实施例并不对第三预设条件作具体限定。
[0141]可以理解的是,述语音检测装置实施例中的第一权重和第二权重的获取装置有多种,本发明实施例提供但不限于以下几种。请参阅图7,为本发明实施例提供的一种语音检测装置中的第一权重和第二权重的获取装置的一种实现方式的结构示意图,该装置包括:第五获取模块701以及第二确定模块702,其中:
[0142]第五获取模块701,用于获取上述电子设备的环境状态.[0143]第二确定模块702,用于根据上述电子设备的环境状态确定出上述第一权重以及
上述第二权重。
[0144]对此处的解释与步骤S301与步骤S302中的解释相同,在次不再进行一一赘述。
[0145]上述语音检测装置实施例中的判断模块具体用于:当上述结果表明上述语音信息满足第一预设条件时,判断上述面部表情变化信息是否满足上述第二预设条件;当上述面部表情变化信息满足上述第二预设条件时,获取上述面部表情变化信息满足上述第二预设条件的时间;或,当上述结果表明上述面部表情变化信息满足上述第二预设条件时,判断上述语音信息是否满足第一预设条件;当上述语音信息满足第一预设条件时,获取上述面部表情变化信息满足上述第二预设条件的时间;或,当上述结果表明上述语音信息以及上述面部表情变化信息同时分别满足上述第一预设条件以及上述第二预设条件时,获取上述面部表情变化信息满足上述第二预设条件的时间。
[0146]上述语音检测装置实施例中的第一预设条件可以包括上述电子设备保持静音状态或上述电子设备保持静音状态预设时间,请参阅图8,为本发明实施例提供的一种语音检测装置中检测上述电子设备保持静音状态预设时间的装置的结构示意图,该装置包括:第一记录模块801、第二记录模块802以及第`三确定模块803,其中:
[0147]第一记录模块801,用于记录上述电子设备处于静音状态的时刻。
[0148]第二记录模块802,用于以上述电子设备处于静音状态的时刻为起始时间记录延时时间。
[0149]第三确定模块803,用于当上述延时时间等于预设时间时,确定上述电子设备保持静音状态预设时间,上述预设时间依据第四预设条件进行设定。
[0150]用户在电子设备中进行语音输入时,通常需要按下某一按键,例如微信中用户进行语音输入时,需要一直按下“按住说话”按键,即“按住说话”按键处于选中状态,当用户松开按键(即“按住说话”按键处于未选中状态)时录音停止。但是用户有时还未说完话,就将按键松开,导致录音中没有录制尾点语音端点。这样就会影响电子设备语音识别的准确率。所以本发明实施例中,当电子设备处于静音状态时,表明用户停止发出语音,为了避免音频采集单元没有采集到尾点语音端点,在电子设备处于静音状态后,还延长预设时间,以确保音频采集单元可以采集到尾点语音端点。
[0151]上述第四预设条件可以包括:用户的语速或用户的历史语音输入行为习惯信息。用户的历史语音输入行为习惯信息可以包括:历史延时时间和/或历史录音延时时间与通话信息的对应关系,通话信息包括时间信息、应用场景信息、位置信息和通话对象信息中的一种或多种。[0152]本发明实施例还提供了一种电子设备,该电子设备包括:音频采集单元、视频采集单元以及上述语音检测装置实施例中任一语音检测装置。
[0153]语音端点包括初始语音端点,初始语音端点的检测也可以用上述语音检测方法检测初始语音端点。
[0154]需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置或系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0155]还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0156]结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或【技术领域】内所公知的任意其它形式的存储介质中。
[0157]对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些`实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
【权利要求】
1.一种语音检测方法,应用于具有音频采集单元和视频采集单元的电子设备,其特征在于,所述语音信息检测方法包括: 通过所述音频采集单元获取音频信息; 从所述音频信息中获取用户的语音信息; 通过所述视频采集单元获取视频信息; 从所述视频信息中获取所述用户发出与所述语音信息对应的语音时的面部表情变化信息; 对所述语音信息以及所述面部表情变化信息进行判断,当判断结果表明所述语音信息满足第一预设条件且所述面部表情变化信息满足第二预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间,所述时间为时间段或时刻; 利用所述时间确定所述语音信息的尾点语音端点。
2.根据权利要求1所述语音检测方法,其特征在于,所述音频信息为振动信息,所述振动信息通过所述电子设备与所述用户的身体接触获得的,所述从所述音频信息中获取用户的语音信息包括: 从所述振动信息中获得所述语音信息。
3.根据权利要求1或2所述语音检测方法,其特征在于,所述时间为时间段,所述利用所述时间确定所述语音信息的尾点语音端点包括: 当所述语音信息满足第一预设条件时,根据所述语音信息,以预设帧为时间间隔分别计算所述时间内各个时间点成为第一尾点语音端点的置信度; 当所述面部表情变化信息满足第二预设条件时,根据所述面部表情变化信息,分别计算所述各个时间点成为第二尾点语音端点的置信度; 根据为所述语音信息分配的第一权重、所述各个时间点成为第一尾点语音端点的置信度、为所述面部表情变化信息分配的第二权重以及所述各个时间点成为第二尾点语音端点的置信度,分别计算出所述各个时间点对应的尾点语音端点的置信度; 从各个所述尾点语音端点的置信度中选择满足第三预设条件的尾点语音端点的置信度对应的尾点语音端点作为所述第一尾点语音端点。
4.根据权利要求3所述语音检测方法,其特征在于,获取所述第一权重与所述第二权重的方法包括: 获取所述电子设备的环境状态; 根据所述电子设备的环境状态确定出所述第一权重以及所述第二权重。
5.根据权利要求1所述语音检测方法,其特征在于,所述当判断结果表明所述语音信息满足第一预设条件且所述面部表情变化信息满足第二预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间包括: 当所述结果表明所述语音信息满足第一预设条件时,判断所述面部表情变化信息是否满足所述第二预设条件;当所述面部表情变化信息满足所述第二预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间; 或, 当所述结果表明所述面部表情变化信息满足所述第二预设条件时,判断所述语音信息是否满足第一预设条件;当所述语音信息满足第一预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间; 或, 当所述结果表明所述语音信息以及所述面部表情变化信息同时分别满足所述第一预设条件以及所述第二预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间。
6.根据权利要求1或5所述语音检测方法,其特征在于,所述第一预设条件包括所述电子设备保持静音状态或所述电子设备保持静音状态预设时间,检测所述电子设备保持静音状态预设时间的方法包括: 记录所述电子设备处于静音状态的时刻; 以所述电子设备处于静音状态的时刻为起始时间记录延时时间; 当所述延时时间等于预设时间时,确定所述电子设备保持静音状态预设时间,所述预设时间依据第四预设条件进行设定。
7.一种语音检测装置,应用于具有音频采集单元和视频采集单元的电子设备,其特征在于,所述语音信息检测装置包括: 第一获取模块,用于通过所述音频采集单元获取音频信息; 第二获取模块,用于从所述音频信息中获取用户的语音信息; 第三获取模块,用于通过所述视频采集单元获取视频信息; 第四获取模块,用于从所述视频信息中获取所述用户发出与所述语音信息对应的语音时的面部表情变化信息; 判断模块,用于对所述语音信息以及所述面部表情变化信息进行判断,当判断结果表明所述语音信息满足第一预设条件且所述面部表情变化信息满足第二预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间,所述时间为时间段或时刻; 第一确定模块,用于利用所述时间确定所述语音信息的尾点语音端点。
8.根据权利要求7所述语音检测装置,其特征在于,所述音频信息为振动信息,所述振动信息通过所述电子设备与所述用户的身体接触获得的,所述第二获取模块具体用于:从所述振动信息中获得所述语音信息。
9.根据权利要求7或8所述语音检测装置,其特征在于,所述时间为时间段,所述第一确定模块包括: 第一计算单元,用于当所述语音信息满足第一预设条件时,根据所述语音信息,以预设帧为时间间隔分别计算所述时间内各个时间点成为第一尾点语音端点的置信度; 第二计算单元,用于当所述面部表情变化信息满足第二预设条件时,根据所述面部表情变化信息,分别计算所述各个时间点成为第二尾点语音端点的置信度; 第三计算单元,用于根据为所述语音信息分配的第一权重、所述各个时间点成为第一尾点语音端点的置信度、为所述面部表情变化信息分配的第二权重以及所述各个时间点成为第二尾点语音端点的置信度,分别计算出所述各个时间点对应的尾点语音端点的置信度; 选择单元,用于从各个所述尾点语音端点的置信度中选择满足第三预设条件的尾点语音端点的置信度对应的尾点语音端点作为所述第一尾点语音端点。
10.根据权利要求9所述语音检测装置,其特征在于,还包括:第五获取模块,用于获取所述电子设备的环境状态; 第二确定模块,用于根据所述电子设备的环境状态确定出所述第一权重以及所述第二权重。
11.根据权利要求6所述语音检测装置,其特征在于,所述判断模块具体用于: 当所述结果表明所述语音信息满足第一预设条件时,判断所述面部表情变化信息是否满足所述第二预设条件;当所述面部表情变化信息满足所述第二预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间; 或, 当所述结果表明所述面部表情变化信息满足所述第二预设条件时,判断所述语音信息是否满足第一预设条件;当所述语音信息满足第一预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间; 或, 当所述结果表明所述语音信息以及所述面部表情变化信息同时分别满足所述第一预设条件以及所述第二预设条件时,获取所述面部表情变化信息满足所述第二预设条件的时间。
12.根据权利要求6或11所述语音检测装置,其特征在于,所述第一预设条件包括所述电子设备保持静音状态或所述电子设备保持静音状态预设时间,所述语音检测装置还包括: 第一记录模块,用于记录所述电子设备处于静音状态的时刻; 第二记录模块,用于以所述电子设备处于静音状态的时刻为起始时间记录延时时间;第三确定模块,用于当所述延时时间等于预设时间时,确定所述电子设备保持静音状态预设时间,所述预设时间依据第四预设条件进行设定。
13.—种电子设备,其特征在于,包括: 音频采集单元; 视频采集单元; 以及权利要求6至12任一所述语音检测装置。
【文档编号】G10L25/78GK103617801SQ201310698482
【公开日】2014年3月5日 申请日期:2013年12月18日 优先权日:2013年12月18日
【发明者】戴海生 申请人:联想(北京)有限公司