一种基于多用户的语音采集方法、装置与流程

文档序号:23094277发布日期:2020-11-27 12:51阅读:160来源:国知局
一种基于多用户的语音采集方法、装置与流程

本发明实施例涉及信息处理技术领域,特别涉及一种基于多用户的语音采集方法、装置。



背景技术:

语音识别的准确率一直是语音识别领域长期研究的问题,语音识别的准确率的提升通常包含两方面,一方面是对语音样本的富集以及训练模型的优化,一方面是获取的语音信号质量的提升。在目前的智能家居的场景中,一个智能家居设备,例如智能音箱往往是通过多麦克风阵列来采集声音的,例如通过一个n麦阵列将空间分为了n个音区,当用户在第1音区通过唤醒词唤醒设备时,多麦克风阵列只采集第1音区的声音,屏蔽剩余音区麦克风采集的信号,以提升语音信号质量。

但是现有技术的弊端在于,当用户在第1音区唤醒设备,然后移动到第2音区后,设备无法自动判断,导致信号就无法采集或者采集不清晰,这时需要用户在第2音区通过唤醒词重新唤醒,或者通过重新采集全部音区的信号实现交互,从而导致用户使用体检较差。如何优化语音采集及语音识别成为一个亟待解决的问题。



技术实现要素:

针对现有技术中的问题,本发明提供一种基于多用户的语音采集方法、装置、终端设备和计算机可读存储介质。

本发明提供一种基于多用户的语音采集方法,其特征在于,所述方法包括:

步骤201,接收第二用户的语音信息;根据所述第二用户的语音信息,确定第二用户所在音区;

步骤202,采集麦克风阵列主音区以及至少两个辅助音区的语音信号,基于用户的语音信息,确定用户属性;根据所述用户属性,确定第一用户和第二用户优先级;并根据所述第一用户和第二用户的语音指令的语音识别结果,确定第一用户语音识别结果与第二用户语音识别结果的关联关系;

步骤203,根据所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号,判断第一用户和/或第二用户是否移动位置,如果第一用户和/或第二用户移动位置,执行步骤204;

步骤204,调整第一用户和/或第二用户移动后位置区对应的主音区,以及基于所述更新的主音区确定至少两个更新的辅助音区,基于所述更新后的主音区和辅助音区进行语音采集。

本发明还提供一种多路语音识别的语音采集装置,其特征在于,所述装置包括:

接口模块,接收第二用户的语音信息;

控制模块,根据所述第二用户的语音信息,确定第二用户所在音区;

所述接口模块,采集麦克风阵列主音区以及至少两个辅助音区的语音信号,基于用户的语音信息,确定用户属性;根据所述用户属性,确定第一用户和第二用户优先级;并根据所述第一用户和第二用户的语音指令的语音识别结果,确定第一用户语音识别结果与第二用户语音识别结果的关联关系;

控制模块,根据所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号,判断第一用户和/或第二用户是否移动位置,如果第一用户和/或第二用户移动位置,调整第一用户和/或第二用户移动后位置区对应的主音区,以及基于所述更新的主音区确定至少两个更新的辅助音区,基于所述更新后的主音区和辅助音区进行语音采集。

本发明还提供一种终端设备,其特征在于,所述终端设备包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如上所述的方法。

本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。

通过本发明的方法,能够优化基于多用户的多路语音识别中麦克风阵列的语音采集过程,提高了语音识别的准确性,提升了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中的一种多路语音识别的语音采集方法。

图2是本发明一个实施例中的一种用户位置移动判断流程。

图3是本发明一个实施例中的基于多用户的语音采集方法。

图4是本发明一个实施例中的基于多用户的语音采集流程。

图5是本发明实施例中的一种多路语音识别的语音采集装置和基于多用户的语音采集装置示意。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明,而非对本发明说明书技术方案的限定,在不冲突的情况下,本发明的实施例以及实施例的技术特征可以相互结合。

本发明的方法可以应用于任何具有语音交互能力的装置或设备,如计算机、手机,平板电脑,车机,车载终端,智能音箱,机顶盒,智慧型家电等。

实施例一

参考图1,本发明实施例一提供一种多路语音识别方法,其特征在于,所述方法包括

步骤100,获取用户第一语音信号;

步骤101,根据所述第一语音信号确定所述麦克风阵列的主音区以及至少两个辅助音区;

步骤102,采集所述麦克风阵列主音区以及至少两个辅助音区的语音信号;

步骤103,根据所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号,判断用户是否移动位置,如果用户移动位置,执行步骤104;

步骤104,调整用户移动后位置区对应的音区为更新的主音区,基于所述更新的主音区确定至少两个更新的辅助音区。

优选地,所述麦克风阵列包含多个麦克风,例如包含n个麦克风,优选地所述n为大于等于6的整数。所述麦克风阵列可以是线形、环形、和/或球形分布。所述麦克风包括全向和/或定向麦克风。基于所述麦克风阵列将声源空间划分为n个子音区,每一子音区对应一个或多个麦克风。

优选地,所述步骤100中所述用户第一语音信号包含唤醒词,所述唤醒词为默认设置,或者基于用户预先设定。

优选地,所述步骤100中所述基于所述第一语音信号唤醒语音助手;

优选地,所述步骤100中,在全双工语音交互场景,接收用户的第一语音信号;

优选地,所述步骤101中根据所述第一语音信号确定所述麦克风阵列的主音区以及至少两个辅助音区具体包括:

步骤1011,基于所述麦克风阵列中多个麦克风采集的第一语音信号,利用声源到达方向(doa)估计,确定用户当前位置;

步骤1012,基于用户当前位置,确定所述麦克风阵列的主音区;

步骤1013,基于所述麦克风阵列的主音区,确定与其相邻的至少两个辅助音区。

具体地,例如利用六个环形分布的麦克风将声源空间划分为六个子音区。例如基于所述麦克风阵列的主音区1,确定与左右相邻的两个辅助音区2和6。

或者,基于立体阵列分布的麦克风,将声源空间划分为n个子音区,确定出麦克风阵列的主音区ni,j,以及与主音区ni,j周边相邻的m个辅助音区。

其中每个音区是做了该目标范围的波束成形(beamforming),通过波束成形增强目标说话人方向语音信号,波束成形的分界点即为各个音区的分界点。

通常,智能语音设备,例如智能音一般多设置于智能家居场景或者车载环境,在上述环境中,通过唤醒词来唤醒设备进行语音识别与交互,或者基于全双工(fullduplex)技术,进行全双工免唤醒,实现人机交互。

例如,在室内,用户a发出“小蓦,xxx”,智能语音设备激活并进入语音识别和交互过程;或者用户a发出“我想。。”等语音,智能语音设备识别出用户发出的语音信息是给它的指令,则进入语音识别的状态。

优选地,步骤102,采集所述麦克风阵列主音区以及至少两个辅助音区的语音信号可以包括:

步骤1021,获取麦克风阵列主音区及至少两个辅助音区的语音信号,

步骤1022,获取多个音区的语音信号的信号强度,构建音区和信号强度的关系数据,

例如,通过对每个音区做beamforming,得到相应增强后信号,对信号的频域内相应有效频段求取信号的能量值作为信号强度,建立{音区id,信号强度}二元组的关系数据;

例如,假设主音区为音区m,辅助音区为音区a,b;此时记录{音区m,pm}、{音区a,pa}、{音区b,pb};其中pm为主音区m信号的信号强度值,pa为辅助音区a信号的信号强度值,pb为辅助音区b信号的信号强度值;

进一步,为关系数据设置相应的标签数据;例如采用1bit或2bit位的标识符,标记所述关系数据的类型,

例如:“1”表征所述关系数据为主音区关系数据;“0”表征所述关系数据为辅助音区关系数据;

或者“10”表征所述关系数据为主音区关系数据;“01”表征所述关系数据为辅助音区关系数据;对于未进行相关计算统计的其他音区以“00”标记。

此时,可以事先创建所有音区的关系数据,对关系数据中的信号强度可以初始值置空。

优选地,步骤103中,所述监测所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号进一步包括:

步骤1031,基于预设周期,对主音区和辅助音区的信号强度进行监测,并更新所述关系数据;

其中所述预设周期可以为10秒,30秒等。

优选地,所述步骤103中,所述判断用户是否移动位置进一步包括;

步骤1032,根据所述音区和信号强度的关系数据,判断映射到不同音区的信号强度的大小;

如果主音区的信号强度大于所有辅助音区的信号强度,则判断用户未移动位置;

具体地,通过重点关注信号强度的大小关系,如果主音区pm强度一直为最大,则此时判定为目标说话人位置没有改变。

如果主音区的信号强度小于或等于任一相邻的第一辅助音区的信号强度,则设置触发周期变更标记,基于所述触发周期变更标记,将所述预设周期变更为第一周期,所述第一周期值小于预设周期值;

具体地,所述第一周期值可为2秒,或5秒等。

基于所述第一周期,更新所述音区和信号强度的关系数据;

判断所述主音区的信号强度与所述第一辅助音区的信号强度的差值是否大于或等于第一阈值;

如果所述主音区的信号强度与所述第一辅助音区的信号强度的差值大于或等于第一阈值,则确定用户满足第一触发条件;

根据所述第一辅助音区的语音信号,进行语音识别,根据识别结果,判断是否为有效内容,若为有效内容,则确定用户位置发生移动;

例如,若主音区强度被相邻的辅音区超过,若pa>pm>pb,则较大概率为说话人切换到音区a,此时认为满足切换到音区a的第一判决条件,即用户可能在发生移动;

当pa超过pm的比值达到某个阈值之后,认为pa信号非常强,pm和pb可以忽略,则满足切换到音区a的第二判决条件,即,用户可能已经移动至其他音区;

此时只需要对音区a的语音信号做asr即可,若asr返回有效内容,则判定用户移动了位置,当前用户处于音区a的覆盖范围内。

同理当pb>pm>pa,且满足上述同样条件时也可判断是否移动至音区b。

如果所述主音区的信号强度与所述第一辅助音区的信号强度的差值小于第一阈值,则确定用户满足第二触发条件;

对主音区的语音信号以及第一辅助音区的语音信号同时进行语音识别,根据识别结果判断是否为有效内容;

如果主音区的语音信号的识别结果为有效内容,则确定用户位置未发生移动;

如果第一辅助音区的语音信号的识别结果为有效内容,且主音区的语音信号识别结果为无效内容,则确定用户位置发生移动;

例如,若pa或pb信号强度超过pm,但相差不大未超过该阈值时,则需要同时做asr,根据返回的识别结果判断是否为有效内容,若主音区为有效内容,则保持不变,若pa为有效内容,pm为无效内容则认为用户发生了移动,并移动至音区a;同理音区b的语音信号为有效内容,pm为无效内容则认为用户发生了移动,并移动至音区b。

所述步骤104,调整用户移动后位置区对应的音区为更新的主音区,基于所述更新的主音区确定至少两个更新的辅助音区进一步包括

步骤1041,将用户移动后所处的音区变更为主音区,并将变更后的主音区相邻的至少两个音区作为辅助音区;

步骤1042,更新音区和信号强度的关系数据。

进一步地,相应变更关系数据的标签信息。

例如,在前判定用户移动了位置,当前用户处于音区a的覆盖范围内。此时音区a成为主音区,同时调整对应的相邻辅助音区,此时设置音区a的关系数据的标签为主音区,标记为“10”,同时更新{音区a,信号强度}关系数据;并将原主音区m变更为辅助音区,标记为“01”,同时更新{音区m,信号强度}关系数据;并增加辅助音区c,标记为“01”,同时更新{音区c,信号强度}关系数据;此外,将原辅助音区b标记为“00”。

若否则保持主音区不变;

同理当pb>pm>pa,且满足上述同样条件时也可判断是否移动至音区b,确定是否将音区b变更为主音区,并相应变更辅助音区。

在执行语音识别时,基于用户的可能动态变化,如果主音区的信号强度大于等于所有辅助音区的信号强度,根据所述主音区的语音信号进行语音识别;

如果主音区的信号强度小于任一辅助音区的信号强度,则,对主音区的语音信号以及信号强度大于主音区信号强度的辅助音区的语音信号进行语音识别。

通过本发明实施例一的方法,能够优化多路语音识别asr中麦克风阵列的语音采集过程,提高了语音识别的准确性,提升了用户体验。

实施例二

参考图2,在实施例一的基础上,提供一种基于多用户的语音采集方法,进一步优化多用户的多路语音识别的语音采集。

在步骤100-101后,

步骤201,接收第二用户的语音信息;根据所述第二用户的语音信息,确定第二用户所在音区;

具体地,可采用步骤101相同的方式确定音区;

例如,根据接收的用户a的语音信息,确定主音区后,其他用户b在同一音区发出指令或在不同音区发出指令。

步骤202,采集麦克风阵列主音区以及至少两个辅助音区的语音信号。

具体地,可采用步骤102相同的方式采集语音信号;例如,用户1在发出第一指令后,确定针对用户1的主音区为音区1,辅助音区为音区2、3;通过对每个音区做beamforming,得到相应增强后信号,对信号的频域内相应有效频段求取信号的能量值作为信号强度,针对用户1,建立{音区id,信号强度}二元组的关系数据;

针对多用户的场景,可以进一步创建用户到关系数据的映射。例如通过映射表将{音区id,信号强度}二元组的关系数据映射到对应的用户。例如,用户1:{音区1,p1};同样,如实施例一,为关系数据设置相应的标签数据;例如采用1bit或2bit位的标识符,标记所述关系数据的类型。

当接收到用户2的语音数据后,确定用户2的主音区以及辅助音区。例如,用户2在发出第一指令后,确定针对用户2的主音区和辅助音区;通过对每个音区做beamforming,得到相应增强后信号,对信号的频域内相应有效频段求取信号的能量值作为信号强度,针对用户2,建立{音区id,信号强度}二元组的关系数据;

所述步骤202,采集麦克风阵列主音区以及至少两个辅助音区的语音信号之后,进一步包括:基于用户的语音信息,确定用户属性;

其中基于用户的语音信息,确定用户属性具体包括

根据用户的语音信息,提取声纹数据,根据所述声纹数据匹配相应的用户数据库,确定用户属性,所述用户属性包括用户身份标识,用户权限。

步骤203,根据所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号,判断第一用户和/或第二用户是否移动位置,如果第一用户和/或第二用户移动位置,执行步骤204;

步骤204,调整第一用户和/或第二用户移动后位置区对应的主音区,以及基于所述更新的主音区确定至少两个更新的辅助音区。

步骤202进一步包括,

根据所述用户属性,确定第一用户和第二用户优先级;并根据所述第一用户和第二用户的语音指令的语音识别结果,确定第一用户语音识别结果与第二用户语音识别结果的关联关系。

其中所述关联关系包含指令逻辑关系,所述指令逻辑关系为互斥指令或非互斥指令。

例如识别用户a语音意图为关闭a设备,用户b语音意图为打开a设备;或者用户a意图调低空调,用户b意图调高空调,则为互斥指令;

能够被顺序执行的合乎逻辑的指令,例如用户a意图打开电视,用户b意图打开xx视频应用,或者用户a意图关闭窗帘,用户b意图调整灯光等为非互斥指令。

所述步骤203中,根据所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号,判断第一用户和/或第二用户是否移动位置具体包括:

步骤301,判断第一语音识别结果与第二语音识别结果是否为互斥,如果是,根据第一用户和第二用户的优先级,确定高优先级用户的主音区为第一主音区,高优先级用户的辅助音区为第一辅助音区,并将所述高优先级用户标记为主用户。

步骤302,根据主用户的音区和信号强度的关系数据,判断主用户是否移动位置;

所述步骤302具体包括:

步骤3021,根据主用户的音区和信号强度的关系数据,判断映射到不同音区的信号强度的大小;

步骤3022,如果主用户的主音区的信号强度大于所有辅助音区的信号强度,则判断主用户未移动位置;

具体地,通过实施例一相同的基于信号强度的监测方式;如重点关注信号强度的大小关系,根据周期更新的用户到关系数据的映射,例如:用户a:{音区1,p1},“10”;用户a:{音区2,p2},“01”;用户a:{音区3,p3},“01”;

其中,对于第一语音识别结果与第二语音识别结果是否为互斥的情况下,可以设置定时器,在定时器超时前暂不更新低优先级用户数据。

如果主音区p1强度一直为最大,则此时判定为主用户位置没有改变。

如果主音区的信号强度小于或等于任一相邻的第一辅助音区的信号强度,则设置触发周期变更标记,基于所述触发周期变更标记,将所述预设周期变更为第一周期,所述第一周期值小于预设周期值;

具体地,所述第一周期值可为2秒,或5秒等。

基于所述第一周期,更新所述音区和信号强度的关系数据;

判断所述主音区的信号强度与所述第一辅助音区的信号强度的差值是否大于或等于第一阈值;

如果所述主音区的信号强度与所述第一辅助音区的信号强度的差值大于或等于第一阈值,则确定用户满足第一触发条件;

根据所述第一辅助音区的语音信号,进行语音识别,根据识别结果,判断是否为有效内容,若为有效内容,则确定用户位置发生移动;

例如,若主音区强度被相邻的辅音区超过,若p2>p1>p3,则较大概率为主用户切换到音区1,此时认为满足切换到音区1的第一判决条件,即用户可能在发生移动;

当p2超过p1的比值达到某个阈值之后,认为p2信号非常强,p1和p3可以忽略,则满足切换到音区2的第二判决条件,即,用户可能已经移动至其他音区;

此时只需要对音区1的语音信号做asr即可,若asr返回有效内容,则判定用户移动了位置,当前用户处于音区1的覆盖范围内。

同理当p3>p1>p2,且满足上述同样条件时也可判断是否移动至音区3。

如果所述主音区的信号强度与所述第一辅助音区的信号强度的差值小于第一阈值,则确定用户满足第二触发条件;

对主音区的语音信号以及第一辅助音区的语音信号同时进行语音识别,根据识别结果判断是否为有效内容;

如果主音区的语音信号的识别结果为有效内容,则确定用户位置未发生移动;

如果第一辅助音区的语音信号的识别结果为有效内容,且主音区的语音信号识别结果为无效内容,则确定主用户位置发生移动;

例如,若p2或p3信号强度超过p1,但相差不大未超过该阈值时,则需要同时做asr,根据返回的识别结果判断是否为有效内容,若主音区为有效内容,则保持不变,若p2为有效内容,p1为无效内容则认为用户发生了移动,并移动至音区2;同理音区3的语音信号为有效内容,p1为无效内容则认为用户发生了移动,并移动至音区3。

所述步骤203中,根据所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号,判断第一用户和/或第二用户是否移动位置具体还可以包括:

步骤311,判断第一语音识别结果与第二语音识别结果是否为互斥,如果不为互斥,根据第一用户和第二用户的优先级,确定高优先级用户的主音区为第一主音区,高优先级用户的辅助音区为第一辅助音区,低优先级用户的主音区为第二主音区,低优先级用户的辅助音区为第二辅助音区,并将所述高优先级用户标记为主用户,将低优先级用户标记为次用户。

步骤312,根据主用户以及次用户的音区和信号强度的关系数据,判断主用户和/或次用户是否移动位置;

进一步地,步骤512具体包括:

步骤3121,根据主用户的音区和信号强度的关系数据,判断主用户映射到不同音区的信号强度的大小;根据次用户的音区和信号强度的关系数据,判断次用户映射到不同音区的信号强度的大小;

步骤3122,如果主用户或次用户的主音区的信号强度大于所有辅助音区的信号强度,则判断主用户或次用户未移动位置;

具体地,通过实施例一相同的基于信号强度的监测方式;如重点关注信号强度的大小关系,根据周期更新的用户到关系数据的映射,例如:用户a:{音区1,p1},“10”;用户a:{音区2,p2},“01”;用户a:{音区3,p3},“01”;用户b:{音区1,p1’},“10”;用户b:{音区2,p2’},“01”;用户b:{音区3,p3’},“01”;或者,用户a:{音区1,p1},“10”;用户a:{音区2,p2},“01”;用户a:{音区3,p3},“01”;用户b:{音区4,p4},“10”;用户b:{音区5,p5},“01”;用户b:{音区6,p6},“01”。

如果主用户的主音区p1强度一直为最大,则此时判定为主用户位置没有改变。同理如果次用户的主音区p1’强度一直为最大,则此时判定为次用户位置没有改变。

同理,针对主用户和次用户,采用类似的处理,如果主音区的信号强度小于或等于任一相邻的第一辅助音区的信号强度,则设置触发周期变更标记,基于所述触发周期变更标记,将所述预设周期变更为第一周期,所述第一周期值小于预设周期值;

具体地,所述第一周期值可为2秒,或5秒等。

基于所述第一周期,更新所述音区和信号强度的关系数据;

判断所述主音区的信号强度与所述第一辅助音区的信号强度的差值是否大于或等于第一阈值;

如果所述主音区的信号强度与所述第一辅助音区的信号强度的差值大于或等于第一阈值,则确定用户满足第一触发条件;

根据所述第一辅助音区的语音信号,进行语音识别,根据识别结果,判断是否为有效内容,若为有效内容,则确定用户位置发生移动;

如果所述主音区的信号强度与所述第一辅助音区的信号强度的差值小于第一阈值,则确定用户满足第二触发条件;

对主音区的语音信号以及第一辅助音区的语音信号同时进行语音识别,根据识别结果判断是否为有效内容;

如果主音区的语音信号的识别结果为有效内容,则确定用户位置未发生移动;

如果第一辅助音区的语音信号的识别结果为有效内容,且主音区的语音信号识别结果为无效内容,则确定用户位置发生移动。

例如,针对用户a,当p2超过p1的比值达到某个阈值之后,认为p2信号非常强,p1和p3可以忽略,则满足切换到音区2的第二判决条件,即,用户a可能已经移动至音区2;针对用户b,p1’强度一直为最大,则用户b位置没有改变。或者当p3’超过p1的比值达到某个阈值之后,认为p3’信号非常强,p1’和p2’可以忽略,则满足切换到音区3的第二判决条件,即,用户b可能已经移动至音区3。

步骤201,接收第二用户的语音信息;根据所述第二用户的语音信息,确定第二用户所在音区;

具体地,可采用步骤101相同的方式确定音区;

例如,根据接收的用户a的语音信息,确定主音区后,其他用户b在同一音区发出指令或在不同音区发出指令。

步骤202,采集麦克风阵列主音区以及至少两个辅助音区的语音信号。

具体地,可采用步骤102相同的方式采集语音信号;例如,用户1在发出第一指令后,确定针对用户1的主音区为音区1,辅助音区为音区2、3;通过对每个音区做beamforming,得到相应增强后信号,对信号的频域内相应有效频段求取信号的能量值作为信号强度,针对用户1,建立{音区id,信号强度}二元组的关系数据;

针对多用户的场景,可以进一步创建用户到关系数据的映射。例如通过映射表将{音区id,信号强度}二元组的关系数据映射到对应的用户。例如,用户1:{音区1,p1};同样,如实施例一,为关系数据设置相应的标签数据;例如采用1bit或2bit位的标识符,标记所述关系数据的类型。

当接收到用户2的语音数据后,确定用户2的主音区以及辅助音区。例如,用户2在发出第一指令后,确定针对用户2的主音区和辅助音区;通过对每个音区做beamforming,得到相应增强后信号,对信号的频域内相应有效频段求取信号的能量值作为信号强度,针对用户2,建立{音区id,信号强度}二元组的关系数据;

所述步骤202,采集麦克风阵列主音区以及至少两个辅助音区的语音信号之后,进一步包括:基于用户的语音信息,确定用户属性;

其中基于用户的语音信息,确定用户属性具体包括

根据用户的语音信息,提取声纹数据,根据所述声纹数据匹配相应的用户数据库,确定用户属性,所述用户属性包括用户身份标识,用户权限。

步骤203,根据所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号,判断第一用户和/或第二用户是否移动位置,如果第一用户和/或第二用户移动位置,执行步骤204;

步骤204,调整第一用户和/或第二用户移动后位置区对应的主音区,以及基于所述更新的主音区确定至少两个更新的辅助音区。

步骤202进一步包括,

根据所述用户属性,确定第一用户和第二用户优先级;并根据所述第一用户和第二用户的语音指令的语音识别结果,确定第一用户语音识别结果与第二用户语音识别结果的关联关系。

其中所述关联关系包含指令逻辑关系,所述指令逻辑关系为互斥指令或非互斥指令。

例如识别用户a语音意图为关闭a设备,用户b语音意图为打开a设备;或者用户a意图调低空调,用户b意图调高空调,则为互斥指令;

能够被顺序执行的合乎逻辑的指令,例如用户a意图打开电视,用户b意图打开xx视频应用,或者用户a意图关闭窗帘,用户b意图调整灯光等为非互斥指令。

所述步骤203中,根据所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号,判断第一用户和/或第二用户是否移动位置具体包括:

步骤301,判断第一语音识别结果与第二语音识别结果是否为互斥,如果是,根据第一用户和第二用户的优先级,确定高优先级用户的主音区为第一主音区,高优先级用户的辅助音区为第一辅助音区,并将所述高优先级用户标记为主用户。

步骤302,根据主用户的音区和信号强度的关系数据,判断主用户是否移动位置;

所述步骤302具体包括:

步骤3021,根据主用户的音区和信号强度的关系数据,判断映射到不同音区的信号强度的大小;

步骤3022,如果主用户的主音区的信号强度大于所有辅助音区的信号强度,则判断主用户未移动位置;

具体地,通过实施例一相同的基于信号强度的监测方式;如重点关注信号强度的大小关系,根据周期更新的用户到关系数据的映射,例如:用户a:{音区1,p1},“10”;用户a:{音区2,p2},“01”;用户a:{音区3,p3},“01”;

其中,对于第一语音识别结果与第二语音识别结果是否为互斥的情况下,可以设置定时器,在定时器超时前暂不更新低优先级用户数据。

如果主音区p1强度一直为最大,则此时判定为主用户位置没有改变。

如果主音区的信号强度小于或等于任一相邻的第一辅助音区的信号强度,则设置触发周期变更标记,基于所述触发周期变更标记,将所述预设周期变更为第一周期,所述第一周期值小于预设周期值;

具体地,所述第一周期值可为2秒,或5秒等。

基于所述第一周期,更新所述音区和信号强度的关系数据;

判断所述主音区的信号强度与所述第一辅助音区的信号强度的差值是否大于或等于第一阈值;

如果所述主音区的信号强度与所述第一辅助音区的信号强度的差值大于或等于第一阈值,则确定用户满足第一触发条件;

根据所述第一辅助音区的语音信号,进行语音识别,根据识别结果,判断是否为有效内容,若为有效内容,则确定用户位置发生移动;

例如,若主音区强度被相邻的辅音区超过,若p2>p1>p3,则较大概率为主用户切换到音区1,此时认为满足切换到音区1的第一判决条件,即用户可能在发生移动;

当p2超过p1的比值达到某个阈值之后,认为p2信号非常强,p1和p3可以忽略,则满足切换到音区2的第二判决条件,即,用户可能已经移动至其他音区;

此时只需要对音区1的语音信号做asr即可,若asr返回有效内容,则判定用户移动了位置,当前用户处于音区1的覆盖范围内。

同理当p3>p1>p2,且满足上述同样条件时也可判断是否移动至音区3。

如果所述主音区的信号强度与所述第一辅助音区的信号强度的差值小于第一阈值,则确定用户满足第二触发条件;

对主音区的语音信号以及第一辅助音区的语音信号同时进行语音识别,根据识别结果判断是否为有效内容;

如果主音区的语音信号的识别结果为有效内容,则确定用户位置未发生移动;

如果第一辅助音区的语音信号的识别结果为有效内容,且主音区的语音信号识别结果为无效内容,则确定主用户位置发生移动;

例如,若p2或p3信号强度超过p1,但相差不大未超过该阈值时,则需要同时做asr,根据返回的识别结果判断是否为有效内容,若主音区为有效内容,则保持不变,若p2为有效内容,p1为无效内容则认为用户发生了移动,并移动至音区2;同理音区3的语音信号为有效内容,p1为无效内容则认为用户发生了移动,并移动至音区3。

所述步骤203中,根据所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号,判断第一用户和/或第二用户是否移动位置具体还可以包括:

步骤311,判断第一语音识别结果与第二语音识别结果是否为互斥,如果不为互斥,根据第一用户和第二用户的优先级,确定高优先级用户的主音区为第一主音区,高优先级用户的辅助音区为第一辅助音区,低优先级用户的主音区为第二主音区,低优先级用户的辅助音区为第二辅助音区,并将所述高优先级用户标记为主用户,将低优先级用户标记为次用户。

步骤312,根据主用户以及次用户的音区和信号强度的关系数据,判断主用户和/或次用户是否移动位置;

进一步地,步骤312具体包括:

步骤3121,根据主用户的音区和信号强度的关系数据,判断主用户映射到不同音区的信号强度的大小;根据次用户的音区和信号强度的关系数据,判断次用户映射到不同音区的信号强度的大小;

步骤3122,如果主用户或次用户的主音区的信号强度大于所有辅助音区的信号强度,则判断主用户或次用户未移动位置;

具体地,通过实施例一相同的基于信号强度的监测方式;如重点关注信号强度的大小关系,根据周期更新的用户到关系数据的映射,例如:用户a:{音区1,p1},“10”;用户a:{音区2,p2},“01”;用户a:{音区3,p3},“01”;用户b:{音区1,p1’},“10”;用户a:{音区2,p2’},“01”;用户a:{音区3,p3’},“01”;

如果主用户的主音区p1强度一直为最大,则此时判定为主用户位置没有改变。同理如果次用户的主音区p1’强度一直为最大,则此时判定为次用户位置没有改变。

同理,针对主用户和次用户,采用类似的处理,如果主音区的信号强度小于或等于任一相邻的第一辅助音区的信号强度,则设置触发周期变更标记,基于所述触发周期变更标记,将所述预设周期变更为第一周期,所述第一周期值小于预设周期值;

具体地,所述第一周期值可为2秒,或5秒等。

基于所述第一周期,更新所述音区和信号强度的关系数据;

判断所述主音区的信号强度与所述第一辅助音区的信号强度的差值是否大于或等于第一阈值;

如果所述主音区的信号强度与所述第一辅助音区的信号强度的差值大于或等于第一阈值,则确定用户满足第一触发条件;

根据所述第一辅助音区的语音信号,进行语音识别,根据识别结果,判断是否为有效内容,若为有效内容,则确定用户位置发生移动;

如果所述主音区的信号强度与所述第一辅助音区的信号强度的差值小于第一阈值,则确定用户满足第二触发条件;

对主音区的语音信号以及第一辅助音区的语音信号同时进行语音识别,根据识别结果判断是否为有效内容;

如果主音区的语音信号的识别结果为有效内容,则确定用户位置未发生移动;

如果第一辅助音区的语音信号的识别结果为有效内容,且主音区的语音信号识别结果为无效内容,则确定用户位置发生移动。

例如,针对用户a,当p2超过p1的比值达到某个阈值之后,认为p2信号非常强,p1和p3可以忽略,则满足切换到音区2的第二判决条件,即,用户a可能已经移动至音区2;针对用户b,p1’强度一直为最大,则用户b位置没有改变。或者当p3’超过p1的比值达到某个阈值之后,认为p3’信号非常强,p1’和p2’可以忽略,则满足切换到音区3的第二判决条件,即,用户b可能已经移动至音区3。

通过本发明实施例二的方法,能够优化基于多用户的多路语音识别中麦克风阵列的语音采集过程,提高了语音识别的准确性,提升了用户体验。

实施例三

本发明实施例三还提供一种多路语音识别的语音采集装置,其特征在于,所述装置包括:

接口模块,获取用户第一语音信号;

控制模块,根据所述第一语音信号确定所述麦克风阵列的主音区以及至少两个辅助音区;

所述接口模块,采集所述麦克风阵列主音区以及至少两个辅助音区的语音信号;

所述控制模块,根据所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号,判断用户是否移动位置,如果用户移动位置,调整用户移动后位置区对应的音区为更新的主音区,基于所述更新的主音区确定至少两个更新的辅助音区。

优选地,所述控制模块具体用于:

基于所述麦克风阵列中多个麦克风采集的第一语音信号,利用声源到达方向(doa)估计,确定用户当前位置;

基于用户当前位置,确定所述麦克风阵列的主音区;

基于所述麦克风阵列的主音区,确定与其相邻的至少两个辅助音区。

优选地,所述接口模块进一步用于:

获取麦克风阵列主音区及至少两个辅助音区的语音信号,

获取多个音区的语音信号的信号强度,构建音区和信号强度的关系数据。

优选地,控制模块进一步用于:

基于预设周期,对主音区和辅助音区的信号强度进行监测,并更新所述关系数据;

根据所述音区和信号强度的关系数据,判断映射到不同音区的信号强度的大小。

优选地,如果主音区的信号强度大于所有辅助音区的信号强度,则判断用户未移动位置;

如果主音区的信号强度小于或等于任一相邻的第一辅助音区的信号强度,则触发周期变更标记,基于所述周期变更标记,将所述预设周期变更为第一周期,所述第一周期值小于预设周期值;

基于所述第一周期,更新所述音区和信号强度的关系数据;

判断所述主音区的信号强度与所述第一辅助音区的信号强度的差值是否大于或等于第一阈值;

如果所述主音区的信号强度与所述第一辅助音区的信号强度的差值大于或等于第一阈值,则确定用户满足第一触发条件;

根据所述第一辅助音区的语音信号,进行语音识别,根据识别结果,判断是否为有效内容,若为有效内容,则确定用户位置发生移动。

实施例四

本发明实施例四还提供一种多路语音识别的语音采集装置,其特征在于,所述装置包括:

接口模块,接收第二用户的语音信息;

控制模块,根据所述第二用户的语音信息,确定第二用户所在音区;

所述接口模块,采集麦克风阵列主音区以及至少两个辅助音区的语音信号,基于用户的语音信息,确定用户属性;根据所述用户属性,确定第一用户和第二用户优先级;并根据所述第一用户和第二用户的语音指令的语音识别结果,确定第一用户语音识别结果与第二用户语音识别结果的关联关系;

控制模块,根据所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号,判断第一用户和/或第二用户是否移动位置,如果第一用户和/或第二用户移动位置,调整第一用户和/或第二用户移动后位置区对应的主音区,以及基于所述更新的主音区确定至少两个更新的辅助音区,基于所述更新后的主音区和辅助音区进行语音采集。

优选地,所述关联关系包含指令逻辑关系,所述指令逻辑关系为互斥指令或非互斥指令。

优选地,所述控制模块还用于:

判断第一语音识别结果与第二语音识别结果是否为互斥,如果是,根据第一用户和第二用户的优先级,确定高优先级用户的主音区为第一主音区,高优先级用户的辅助音区为第一辅助音区,并将所述高优先级用户标记为主用户。

根据主用户的音区和信号强度的关系数据,判断主用户是否移动位置。

优选地,所述控制模块还用于:

根据主用户的音区和信号强度的关系数据,判断映射到不同音区的信号强度的大小;

如果主用户的主音区的信号强度大于所有辅助音区的信号强度,则判断主用户未移动位置。

优选地,所述控制模块还用于:

判断第一语音识别结果与第二语音识别结果是否为互斥,如果不为互斥,根据第一用户和第二用户的优先级,确定高优先级用户的主音区为第一主音区,高优先级用户的辅助音区为第一辅助音区,低优先级用户的主音区为第二主音区,低优先级用户的辅助音区为第二辅助音区,并将所述高优先级用户标记为主用户,将低优先级用户标记为次用户。

根据主用户以及次用户的音区和信号强度的关系数据,判断主用户和/或次用户是否移动位置。

本发明还提供一种终端设备,其特征在于,所述终端设备包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如上所述的方法。

所述终端设备包括但不限于计算机、手机,平板电脑,车机,车载终端,智能音箱,机顶盒,智慧型家电。

本发明提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、闪存、可擦式可编程只读存储器(eprom)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。

以上说明只是为了方便理解本发明而举出的例子,不用于限定本发明的范围。在具体实现时,本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少,在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。

尽管已经示出和描述了本发明的实施例,本领域技术人员应当理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同替换所限定,在未经创造性劳动所作的改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1