音区调整方法及相关装置、设备、系统和介质与流程

文档序号:31074771发布日期:2022-08-09 21:34阅读:117来源:国知局
音区调整方法及相关装置、设备、系统和介质与流程

1.本技术涉及语音识别技术领域,特别是涉及一种音区调整方法及相关装置、设备、系统和介质。


背景技术:

2.随着汽车技术的发展,越来越多的车辆选择配置车载控制系统,以基于语音识别等技术,提升用户交互体验。
3.目前,车载控制系统通常将车内空间划分为不同拾音区域,以实现对目标音区的语音指令进行强化处理,同时降低非目标区域内声音信号的干扰。然而,现有拾音区域的划分,与车型、车内环境等因素强相关,一旦锁定,将无法根据实际的车内人员以及实际用车场景等来进行自适应调整。有鉴于此,如何自适应调整拾音区域成为亟待解决的问题。


技术实现要素:

4.本技术主要解决的技术问题是提供一种音区调整方法及相关装置、设备、系统和介质,能够自适应调整拾音区域。
5.为了解决上述技术问题,本技术第一方面提供了一种音区调整方法,包括:获取车载拾音设备基于预设拾音区域采集的第一音频;其中,第一音频包含由车内的语音交互人所发出的预设语音指令;基于第一音频对语音交互人进行音区判断,得到第一拾音区域,并获取车载拾音设备基于第一拾音区域采集的第二音频;基于第二音频进行频域分析,得到第二音频的频域分布;其中,频域分布包括:形成第二音频的各个声源的声音频率;响应于频域分布满足第一条件,调整车载拾音设备的设备参数,得到车载拾音设备的优化拾音区域。
6.为了解决上述技术问题,本技术第二方面提供了一种音区调整装置,包括:第一获取模块、音区判断模块、第二获取模块、频域分析模块和音区优化模块,第一获取模块,用于获取车载拾音设备基于预设拾音区域采集的第一音频;其中,第一音频包含由车内的语音交互人所发出的预设语音指令;音区判断模块,用于基于第一音频对语音交互人进行音区判断,得到第一拾音区域;第二获取模块,用于获取车载拾音设备基于第一拾音区域采集的第二音频;频域分析模块,用于基于第二音频进行频域分析,得到第二音频的频域分布;其中,频域分布包括:形成第二音频的各个声源的声音频率;音区优化模块,用于响应于频域分布满足第一条件,调整车载拾音设备的设备参数,得到车载拾音设备的优化拾音区域。
7.为了解决上述技术问题,本技术第三方面提供了一种控制设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面的音区调整方法。
8.为了解决上述技术问题,本技术第四方面提供了一种车载控制系统,包括车载拾音设备和上述第三方面的控制设备,车载拾音设备与控制设备通信连接,且车载拾音设备用于基于车载拾音设备当前所配置的拾音区域采集音频数据。
9.为了解决上述技术问题,本技术第五方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面的音区调整方法。
10.上述方案,获取车载拾音设备基于预设拾音区域采集的第一音频,且第一音频包括由车内的语音交互人所发出的预设语音指令,再基于第一音频对语音交互人进行音区判断,得到第一拾音区域,并获取车载拾音设备基于第一拾音区域采集的第二音频,以及基于第二音频进行频域分析,得到第二音频的频域分布,且频域分布包括形成第二音频的各个声源的声音频率,从而响应于频域分布满足第一条件,调整车载拾音设备的设备参数,得到车载拾音设备的优化拾音区域,故在车内人员语音交互过程中,一旦采集到包含语音交互人的预设语音指令即可开启音区调整,且在调整过程中先根据第一音频进行初步音区判断,再根据第二音频的频域分布进一步调整,一方面能够随实际情况的变化而调整拾音区域,另一方面通过两个阶段确定出优化拾音区域,也能够提升拾音区域的准确性。故此,能够自适应调整拾音区域。
附图说明
11.图1是本技术音区调整方法一实施例的流程示意图;
12.图2是车内情况一实施例的示意图;
13.图3是第二音频在时域上一实施例的示意图;
14.图4是第二音频在频域上一实施例的示意图;
15.图5是车内情况另一实施例的示意图;
16.图6是本技术音区调整方法另一实施例的流程示意图;
17.图7是本技术音区调整装置一实施例的框架示意图;
18.图8是本技术控制设备一实施例的框架示意图;
19.图9是本技术车载控制系统一实施例的框架示意图;
20.图10是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
21.下面结合说明书附图,对本技术实施例的方案进行详细说明。
22.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本技术。
23.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
24.请参阅图1,图1是本技术音区调整方法一实施例的流程示意图。
25.具体而言,可以包括如下步骤:
26.步骤s11:获取车载拾音设备基于预设拾音区域采集的第一音频。
27.本公开实施例中,第一音频包含由车内的语音交互人所发出的预设语音指令。需要说明的是,车内人员可以有一个、两个、三个、四个等,在此不做限定,且语音交互人员为发出预设语音指令的车内人员。示例性地,请结合参阅图2,图2是车内情况一实施例的示意
图。如图2所示,车内人员可以包含甲和乙两人,分别位于驾驶座和后座,且位于驾驶座的甲可以为发出预设语音指令的语音交互人。当然,也可以是位于后座的乙为发出预设语音指令的语音交互人,在此不做限定。此外,图2仅仅示例性地给出实际应用过程中车内情况一种可能的实施方式,并不因此而限定实际应用过程中的车内情况。
28.在一个实施场景中,预设语音指令可以用于唤醒车载语音助手。示例性地,预设语音指令具体可以为包含唤醒词的语音信号。如预设语音指令可以为“魔飞魔飞”、“小飞小飞”等,在此不做限定。
29.在一个实施场景中,预设拾音区域可以视为车载拾音设备默认配置的拾音区域。具体而言,预设拾音区域可以覆盖车内尽可能多的车座。示例性地,预设拾音区域可以覆盖车内所有车座。此外,预设拾音区域具体可以为一个扇形区域,且该扇形区域的中心线与车载拾音设备的法线具有预设夹角,如预设夹角可以设置为零度,即预设拾音区域的中心线可以与车载拾音设备的法线重合,当然预设夹角也可以大于零度,如可以设置为1度、2度、3度等,在此不做限定。此外,该扇形区域的张角(即圆心角)可以根据需要覆盖的车座设置,如在需要覆盖车内所有车座的情况下,该扇形区域的张角(即圆心角)可以设置为160度、170度等,在此不做限定。其他情况可以以此类推,在此不再一一举例。此外,除上述夹角、张角等参数表征拾音区域之外,表征拾音区域的参数还可以进一步包括倾角(如,上倾角、下倾角等),在此不做限定。
30.在一个实施场景中,请继续结合参阅图2,车载拾音设备可以为麦克风阵列,且麦克风阵列可以包含若干麦克风。需要说明的是,车载拾音设备可以设置于前挡风玻璃上方的内饰板内。当然,车载拾音设备也可以设置于诸如中控台区域等其他位置,在此不做限定。此外,各个麦克风的分布位置也可以调整,以支持自适应调整车载拾音设备的拾音区域。示例性地,各个麦克风可以分别安装于诸如丝杆等机械机构,从而可以通过丝杆等机械机构带动麦克风改变其分布位置。
31.步骤s12:基于第一音频对语音交互人进行音区判断,得到第一拾音区域,并获取车载拾音设备基于第一拾音区域采集的第二音频。
32.在一个实施场景中,为了提升确定第一拾音区域的准确性,可以基于波束形成对第一音频进行处理,得到关于第一拾音区域的本端判断结果,并将第一音频上传至云端,以及接收云端基于第一音频分析的关于第一拾音区域的云端判断结果。在此基础上,可以基于本端判断结果和云端判断结果,确定第一拾音区域。需要说明的是,车内还可以集成有移动通信设备(如,4g通信模块、5g通信模块等),从而可以通过移动通信设备将第一音频上传至云端。上述方式,结合在本端对第一音频的音区判断结果和在云端对第一音频的音区判断结果,共同决策出第一拾音区域,能够通过云+端的融合决策方式,提升确定第一拾音区域的准确性。
33.在一个具体的实施场景中,需要说明的是,在车内未集成移动通信设备的情况下,也可以仅在本端对第一音频进行音区判断,得到第一拾音区域;或者,在车内不具备本端判断功能的情况下,也可以仅在云端对第一音频进行音区判断,得到第一拾音区域,在此不做限定。
34.在一个具体的实施场景中,第一音频可以包含由各个麦克风分别采集到的子音频,则基于波束形成的技术思路,在本端可以对各个子音频进行加权、时延、求和等处理,对
发出预设语音指令的语音交互人进行音区判断,得到本端判断结果。本端判断的具体过程,可以参阅波束形成的技术细节,在此不再赘述。
35.在一个具体的实施场景中,云端可以集成有音区判断算法(如,预先训练的神经网络等),则可以由云端的算法进行处理和分区识别,得到云端判断结果。具体而言,以音频判断算法由神经网络实现为例,可以预先获取车载拾音设备在车内采集得到的样本音频,且样本音频包含由样本语音交互人发出的预设语音指令,样本音频还标注有覆盖样本语音交互人的样本拾音区域。示例性地,样本拾音区域可以为扇形区域,则可以以该扇形区域的中心线与车载拾音设备的法线之间的夹角、该扇形区域的张角(即圆心角)来表示样本拾音区域,即样本音频可以标注有夹角和张角两个数值,以通过所标注的夹角和张角来表示样本拾音区域。在此基础上,可以将样本音频输入神经网络进行预测,得到夹角和张角,再基于标注的夹角与预测的夹角之间的差异,以及标注的张角与预测的张角之间的差异,调整神经网络的网络参数。
36.在一个具体的实施场景中,本端判断结果具体可以包括本端判断音区,云端判断结果具体可以包括云端判断音区,则在得到本端判断结果和云端判断结果之后,可以获取本端判断音区和云端判断音区的重叠率。示例性地,可以先本端判断音区和云端判断音区的交集在车内的第一面积,并获取本端判断音区和云端判断音区的并集在车内的第二面积,再将第一面积和第二面积的比值作为重叠率。在此基础上,可以响应于重叠率低于预设阈值,选择本端判断音区或云端判断音区,作为第一拾音区域。需要说明的是,预设阈值可以根据实际情况进行设置,如在对音区判断较为苛刻的情况下,预设阈值可以设置地高一些,如可以设置为0.8、0.85等,或在对音频判断较为宽松的情况下,预设阈值可以设置地略低一些,如可以设置为0.5、0.6等,在此不做限定。也就是说,在重叠率较低的情况下,可以直接选择本端判断音区或选择云端判断音区,作为第一拾音区域。具体来说,若本端算法置信较高,则可以选择本端判断音区作为第一拾音区域,若云端算法置信较高,则可以选择云端判断音区作为第一拾音区域。此外,还可以响应于重叠率不低于预设阈值,将本端判断音区和云端判断音区的并集作为第一拾音区域。当然,为了简化云+端的融合过程,可以不再获取本端判断音区和云端判断音区的重叠率,而先判断两者是否重合,若不重合,则直接选择本端判断音区或云端判断音区作为第一拾音区域,具体选择方式可以参阅前述相关描述,在此不再赘述。反之,若两者重合,则由于本端判断音区和云端判断音区相同,则任一者均可以直接作为第一拾音区域。上述方式,本端判断结果包括本端判断音区,云端判断结果包括云端判断音区,基于此获取本端判断音区和云端判断音区的重叠率,再响应于重叠率低于预设阈值,选择本端判断音区或云端判断音区作为第一拾音区域,而响应于重叠率不低于预设阈值,将本端判断音区和云端判断音区的并集作为第一拾音区域,故能够通过检测本端判断音区和云端判断音区两者的重叠率,来决策采用不同的融合方式,有利于提升第一拾音区域的准确性。
37.在一个实施场景中,为了进一步提升第一拾音区域的准确性,车内还可以集成有车载感测设备,则在通过云+端,或者仅通过云端,或者仅通过本端,确定得到第一拾音区域之后,可以进一步获取车载感测设备对车内人员的感测数据。在此基础上,可以基于感测数据进行人员分析,得到语音交互人员在车内的乘坐位置,并基于第一拾音区域和乘坐位置进行二重音区判断,得到新的第一拾音区域。需要说明的是,车载感测设备可以包括但不限
于:车载摄像头、车座的压力传感器等,在此不做限定。相应地,感测数据可以包括但不限于:拍摄有车内情况的图像数据、压力传感器测量得到的压力数据等,在此不做限定。上述方式,在得到第一拾音区域之后,进一步结合通过车载感测设备的感测数据所分析得到的语音交互人员在车内的乘坐位置,进行二重音区判断,有利于尽可能地避免由于麦克风故障、车内突发噪音、算法偏差等情况而导致第一拾音区域判断错误,故能够进一步提升第一拾音区域的准确性。
38.在一个具体的实施场景中,在车载感测设备包括车载摄像头的情况下,可以对采集到第一音频时所拍摄的图像数据进行说话人识别,以确定采集到第一音频时的车内说话人,并作为语音交互人,从而可以定位得到语音交互人在车内的乘坐位置;或者,在车载感测设备包括车座的压力传感器的情况下,可以压力数据进行分析,若压力数据所包含的压力值高于预设阈值,则可以认为对应车座上有乘坐人,则可以直接将有乘坐人的车座在车内位置,作为语音交互人的乘坐位置;或者,为了进一步提升乘坐位置的准确性,可以结合图像数据和压力数据两者共同决策出语音交互人的乘坐位置,如可以将对应车座上有乘坐人作为候选人员,并选择在采集第一音频时说话的候选人员作为语音交互人,从而可以确定出语音交互人在车内的乘坐位置。
39.在一个具体的实施场景中,在得到语音交互人在车内的乘坐位置之后,可以响应于乘坐位置位于第一拾音区域,维持第一拾音区域不变,也就是说,新的第一拾音区域就是前述基于第一音频进行音区判断所得到的第一拾音区域。当然,也可以响应于乘坐位置位于第一拾音区域之外,调整第一拾音区域为覆盖乘坐位置,得到新的第一拾音区域。示例性地,如前所述,第一拾音区域可以为扇形区域,则在此情况下,可以调整该扇形区域的中心线与车载拾音设备的法线之间的夹角,即以该扇形区域的顶点为基点进行旋转,与此同时维持该扇形区域的张角(即圆心角)不变,直至该扇形区域覆盖乘坐位置为止,即可停止旋转,此时的扇形区域即可视为新的第一拾音区域。上述方式,响应于乘坐位置位于第一拾音区域,维持第一拾音区域不变,和/或,响应于乘坐位置位于第一拾音区域之外,调整第一拾音区域为覆盖乘坐位置,得到新的第一拾音区域,能够根据第一拾音区域与乘坐位置之间的相对位置关系,调整第一拾音区域,从而能够有效纠正由于麦克风故障、车内突发噪音、算法偏差等情况而导致的音区判断错误,进而能够进一步提升第一拾音区域的准确性。
40.在一个具体的实施场景中,如前所述,第一拾音区域可以为扇形区域,为了进一步提升第一拾音区域的准确性,可以先获取乘坐位置与该扇形区域的顶点之间的连线,并获取该连线与该扇形区域的中心线之间的夹角。在此基础上,可以响应于夹角低于预设阈值,维持第一拾音区域不变,也就是说,新的第一拾音区域就是前述基于第一音频进行音区判断所得到的第一拾音区域。此外,也可以响应于夹角不低于预设阈值,以该扇形区域的顶点为基点进行旋转,与此同时维持该扇形区域的张角(即圆心角)不变,直至扇形区域的中心线与连线之间的夹角低于预设阈值为止(如,中心线与连线重合,即夹角为零度),即可停止旋转,此时的扇形区域即可视为新的第一拾音区域。
41.需要说明的是,在基于第一音频进行音区判断得到第一拾音区域之后,或者,在第一拾音区域的基础上进一步结合感测数据进行二重音区判断得到新的第一拾音区域之后,车载拾音设备即可基于最新的第一拾音区域采集得到第二音频。示例性地,车载拾音设备此时可以基于最新的第一拾音区域连续采集音频信号,得到第二音频。
42.步骤s13:基于第二音频进行频域分析,得到第二音频的频域分布。
43.本公开实施例中,频域分布包括:形成第二音频的各个声源的声音频率。需要说明的是,第一拾音区域内除了可以采集到语音交互人的声音,还可能采集到诸如手机播放的音乐、视频等声音、交谈声音等,在此不做限定。请结合参阅图3和图4,图3是第二音频在时域上一实施例的示意图,图4是第二音频在频域上一实施例的示意图。如图3所示和图4所示,时域上无法区分不同声源,而在频域上可以明显区分不同声源,如从图4所示的第二音频的频谱图可以明显看出,其包含80hz、400hz、1khz、1.5khz、2khz、2.5khz、3khz等分量,由此可见第二音频中混杂有语音交互人之外的诸多干扰声音。需要说明的是,图3和图4仅仅是第二音频在实际应用过程中一种可能的实施方式,并不因此而限定第二音频实际的图谱。此外,请继续结合参阅图2,通常来说,第一拾音区域的张角越大,第二音频包含语音交互人之外的诸多干扰声音的可能性越高。例如,对于图2所示的情况来说,第二音频可能包含位于驾驶座的“甲”的声音,也可能包含位于后座的“乙”的声音。其他情况可以以此类推,在此不再一一举例。此外,可以通过诸如傅里叶变换等算法对第二音频进行频域分析,具体过程可以参阅诸如傅里叶变换等频域分析算法的技术细节,在此不再赘述。
44.步骤s14:响应于频域分布满足第一条件,调整车载拾音设备的设备参数,得到车载拾音设备的优化拾音区域。
45.在一个实施场景中,第一条件可以设置为包括:频域分布在剔除第一声音频率之后存在第二声音频率。需要说明的是,第一声音频率为语音交互人的声音频率,第二声音频率为与第一声音频率不同的声音频率。也就是说,在频域分布剔除第一声音频率之外如果还存在第二声音频率,则可以继续调整车载拾音设备的设备参数,以得到车载拾音设备的优化拾音区域。上述方式,将第一条件设置为包括:频域分布在剔除第一声音频率之后存在第二声音频率,能够在频率分布存在第二声音频率的情况下,持续调整车载拾音设备的设备参数,有利于尽可能地随车内实际情况自适应优化车载拾音设备的拾音区域。
46.在一个实施场景中,优化拾音区域的中心线与第一拾音区域的中心线重合,且优化拾音区域的张角小于第一拾音区域的张角。示例性地,优化拾音区域和第一拾音区域可以均为扇形区域,则上述张角即为圆心角。也就是说,通过调整车载拾音设备的设备参数,能够在不改变第一拾音区域指向的情况下,不断收缩第一拾音区域的张角,以使收缩后的第一拾音区域尽可能地排除语音交互人之外的干扰声源,直至收缩后的第一拾音区域仅覆盖语音交互人这一声源为止,则可以将当前的第一拾音区域作为优化拾音区域。
47.在一个实施场景中,在优化过程中,可以基于预设调整步长调整设备参数,得到第二拾音区域,且第二拾音区域的中心线与第一拾音区域的中心线重合,第一拾音区域、第二拾音区域两者的张角不同。在此基础上,可以将第二拾音区域作为新的第一拾音区域,并重新执行获取车载拾音设备基于第一拾音区域采集的第二音频的步骤以及后续步骤,直至频域分布不满足第一条件为止。也就是说,当频域分布在剔除第一声音频率之后不存在第二声音频率时,可以认为设备参数已调整到位,此时可以将最新的第一拾音区域作为优化拾音区域。上述方式,基于预设调整步长调整设备参数,得到第二拾音区域,且第一拾音区域和第二拾音区域两者的中心线重合而张角不同,基于此将第二拾音区域作为新的第一拾音区域,并重新执行前述采集第二音频以及后续步骤,直至频域分布不满足第一条件为止,从而能够随车内实际情况实时调整设备参数,以自适应调整拾音区域,有助于提升拾音区域
的准确性。
48.在一个具体的实施场景中,如前所述,车载拾音设备为麦克风阵列,且麦克风阵列包括若干麦克风,设备参数包括若干麦克风在车内的分布位置,则预设调整步长可以视为每次移动麦克风的距离。此外,如前所述,通过基于预设调整步长调整设备参数,能够在不改变拾音区域的中心线的情况下,改变拾音区域的张角。例如,在拾音区域为扇形区域的情况下,拾音区域的张角即为扇形区域的圆心角。示例性地,拾音区域的张角a可以表示为:
49.a=2cos-1
(c/mdf)
……
(1)
50.上述公式(1)中,c为声速,m为麦克风阵列所含麦克风的总数,d为麦克风的间距,f为入射声波的频率(即语音交互人的声音频率,即前述第一声音频率)。如前所述,张角a越大,语音指令的识别音区越大,越容易引入周边环境的噪声和干扰声(如,图2所示)。故此,通过前述调整过程,可以精准收缩波束收音范围,以在确保拾音区域覆盖语音交互人的同时,将周边环境的噪声和干扰声尽可能地排除在外。
51.在一个具体的实施场景中,请结合参阅图2和图5,图5是车内情况另一实施例的示意图。如图2所示,通过频域分析,可以确定频域分布在剔除语音交互人“甲”的第一声音频率之后还还存在“乙”第二声音频率。则可以调整车载拾音设备的设备参数,以收缩图2所示的第一拾音区域(如图2中阴影部分所示)的张角,得到图5所示的第二拾音区域(如图5中阴影部分所示),此时由于第二拾音区域不再覆盖“乙”,在将第二拾音区域作为新的第一拾音区域,并获取车载拾音设备基于第一拾音区域采集的第二音频之后,再对第二音频进行频域分析,可以发现频域分布在剔除第一声音频率之后不存在第二声音频率,则可以将最新的第一拾音区域(即图5中阴影部分所示)作为拾音设备的优化拾音区域。当然,若拾音设备在基于图5所示的拾音区域采集得到第二音频,经频域分析之后发现,频域分布在剔除第一声音频率之后存在第二声音频率,则可以继续执行前述按照预设调整步长调整设备参数的步骤,以动态调整拾音区域。
52.在一个实施场景中,在现实场景中,有可能存在优化拾音区域的张角较小,且语音交互人在车内存在一定幅度的移动,从而导致优化拾音区域可能在语音交互人移动之后不再覆盖语音交互人的情况,则为了进一步提升拾音区域的自适应调整能力,可以在确定得到优化拾音区域之后,进一步将优化拾音区域作为新的第一拾音区域,并获取车载拾音设备基于第一拾音区域采集的第二音频,以及基于第二音频进行频域分析,得到第二音频的频域分布,若频域分布不包含第一声音频率,则可以重新执行前述获取车载拾音设备基于预设拾音区域采集的第一音频的步骤以及后续步骤,以从头开始重新执行两阶段的音区调整流程。
53.在一个实施场景中,可以在预设时长(如,一个月、一个季度、一年等)内统计车辆设置过的拾音区域以及各个拾音区域的设置次数。示例性地,如果车辆主要用于通勤,则车辆设置过的拾音区域中,覆盖主驾驶座的拾音区域对应的设置次数理论上会远高于其他拾音区域。此外,由于拾音区域的倾角通常也会随语音交互人的身高变化而存在或多或少的不同。在此基础上,车辆可以将设置次数最多的拾音区域以及对应的语音交互人的身高上传至后台服务系统。后台服务系统对于每款车型可以进一步分析。例如,对于每款车型,可以统计拾音区域随身高的分布情况。举例来说,可以统计各不同身高在数据总量中的占比,并选择占比最多的身高对应的拾音区域,作为该款车型默认的拾音区域,从而该款车型出
厂时,可以将其车载拾音设备直接配置为默认的拾音区域,进而在交付使用时,能够无需调整音区或仅需小幅度调整音区即可。
54.上述方案,获取车载拾音设备基于预设拾音区域采集的第一音频,且第一音频包括由车内的语音交互人所发出的预设语音指令,再基于第一音频对语音交互人进行音区判断,得到第一拾音区域,并获取车载拾音设备基于第一拾音区域采集的第二音频,以及基于第二音频进行频域分析,得到第二音频的频域分布,且频域分布包括形成第二音频的各个声源的声音频率,从而响应于频域分布满足第一条件,调整车载拾音设备的设备参数,得到车载拾音设备的优化拾音区域,故在车内人员语音交互过程中,一旦采集到包含语音交互人的预设语音指令即可开启音区调整,且在调整过程中先根据第一音频进行初步音区判断,再根据第二音频的频域分布进一步调整,一方面能够随实际情况的变化而调整拾音区域,另一方面通过两个阶段确定出优化拾音区域,也能够提升拾音区域的准确性。故此,能够自适应调整拾音区域。
55.请参阅图6,图6是本技术音区调整方法另一实施例的流程示意图。
56.具体而言,可以包括如下步骤:
57.步骤s601:获取车载拾音设备基于预设拾音区域采集的第一音频。
58.本公开实施例中,第一音频包含由车内的语音交互人所发出的预设语音指令,具体可以参阅前述公开实施例,在此不再赘述。
59.步骤s602:基于第一音频对语音交互人进行音区判断,得到第一拾音区域。
60.具体可以参阅前述公开实施例,在此不再赘述。
61.步骤s603:获取车载拾音设备基于第一拾音区域采集的第二音频。
62.具体可以参阅前述公开实施例,在此不再赘述。
63.步骤s604:基于第二音频进行频域分析,得到第二音频的频域分布。
64.本公开实施例中,频域分布包括:形成第二音频的各个声源的声音频率,具体可以参阅前述公开实施例,在此不再赘述。
65.步骤s605:判断频域分布是否满足第一条件,若是,则执行步骤s606,否则执行步骤s609。
66.具体而言,第一条件可以设置为包括:频域分布在剔除第一声音频率之后存在第二声音频率。需要说明的是,第一声音频率为语音交互人的声音频率,第二声音频率为与第一声音频率不同的声音频率。具体可以参阅前述公开实施例,在此不再赘述。
67.步骤s606:基于预设调整步长调整设备参数,得到第二拾音区域。
68.本公开实施例中,第二拾音区域的中心线与第一拾音区域的中心线重合,且第一拾音区域、第二拾音区域两者的张角不同,具体可以参阅前述公开实施例,在此不再赘述。
69.步骤s607:将第二拾音区域作为新的第一拾音区域。
70.步骤s608:重新执行步骤s603的步骤以及后续步骤。
71.步骤s609:将最新的第一拾音区域作为优化拾音区域。
72.步骤s610:判断频域分布是否满足第二条件,若是,则执行步骤s611,否则执行步骤s613。
73.具体而言,第二条件可以设置为包括:频域分布不存在语音交互人的声音频率,即前述第一声音频率。此外,判断频域分布是否满足第二条件的操作,可以在步骤s604之后与
步骤s605同时执行,当然也可以在步骤s604之前或之后执行,在此不做限定。示例性地,可以先执行步骤s610,并在确定断频域分布满足第二条件的情况下,继续执行步骤s604;或者,如图6所示,在执行完步骤s609之后,再执行步骤s610,在此情况下,为获取最新的频域分布,可以将优化拾音区域作为新的第一拾音区域,并重新执行前述步骤s603、步骤s604,以获取最新的频域分布。需要说明的是,图6仅为示例性说明音区调整流程,且为了简化流程图,图6已将这两个步骤省略。
74.步骤s611:确定语音交互人发生改变。
75.需要说明的是,在频域分布满足第二条件的情况下,当前的语音交互人可能还是原来的语音交互人,只不过语音交互人的位置发生改变,从而导致频域分布不再含有第一声音频率;或者,当前的语音交互人已经不是原来的语音交互人,即语音交互人的身份发生改变(如,原来的语音交互人为乘坐于驾驶座的车内人员,而当前的语音交互人为乘坐于后座的车内人员),从而导致频域分布不再含有第一声音频率。本公开实施例中,上述两种情况均可以视为语音交互人发生改变。
76.步骤s612:重新执行步骤s601的步骤以及后续步骤。
77.具体而言,在确定语音交互人发生改变的情况下,可以从头开始重新开启两阶段的音区调整流程,以确定出优化拾音区域。
78.步骤s613:重新执行步骤s603以及后续步骤。
79.具体而言,在确定语音交互人未发生改变的情况下,可以重新在最新的第一拾音区域采集第二音频,并进行频域分析以及后续操作,以根据车内情况实时调整拾音区域。
80.上述方案,在音区调整过程中,进一步判断频域分布是否满足第二条件,且第二条件设置为包括:频域分布不存在语音交互人的声音频率,并在满足第二条件的情况下,确定语音交互人发生改变,以及重新执行获取车载拾音设备基于预设拾音区域采集的第一音频的步骤以及后续步骤,从而能够及时感知语音交互人员的变化情况,并随变化情况实时调整拾音音区,进而能够提升音区调整的自适应能力。
81.请参阅图7,图7是本技术音区调整装置70一实施例的框架示意图。音区调整装置70包括:第一获取模块71、音区判断模块72、第二获取模块73、频域分析模块74和音区优化模块75,第一获取模块71,用于获取车载拾音设备基于预设拾音区域采集的第一音频;其中,第一音频包含由车内的语音交互人所发出的预设语音指令;音区判断模块72,用于基于第一音频对语音交互人进行音区判断,得到第一拾音区域;第二获取模块73,用于获取车载拾音设备基于第一拾音区域采集的第二音频;频域分析模块74,用于基于第二音频进行频域分析,得到第二音频的频域分布;其中,频域分布包括:形成第二音频的各个声源的声音频率;音区优化模块75,用于响应于频域分布满足第一条件,调整车载拾音设备的设备参数,得到车载拾音设备的优化拾音区域。
82.上述方案,获取车载拾音设备基于预设拾音区域采集的第一音频,且第一音频包括由车内的语音交互人所发出的预设语音指令,再基于第一音频对语音交互人进行音区判断,得到第一拾音区域,并获取车载拾音设备基于第一拾音区域采集的第二音频,以及基于第二音频进行频域分析,得到第二音频的频域分布,且频域分布包括形成第二音频的各个声源的声音频率,从而响应于频域分布满足第一条件,调整车载拾音设备的设备参数,得到车载拾音设备的优化拾音区域,故在车内人员语音交互过程中,一旦采集到包含语音交互
人的预设语音指令即可开启音区调整,且在调整过程中先根据第一音频进行初步音区判断,再根据第二音频的频域分布进一步调整,一方面能够随实际情况的变化而调整拾音区域,另一方面通过两个阶段确定出优化拾音区域,也能够提升拾音区域的准确性。故此,能够自适应调整拾音区域。
83.在一些公开实施例中,音区优化模块75包括参数调整子模块,用于基于预设调整步长调整设备参数,得到第二拾音区域;其中,第二拾音区域的中心线与第一拾音区域的中心线重合,且第一拾音区域、第二拾音区域两者的张角不同;音区优化模块75包括第一选择子模块,用于将第二拾音区域作为新的第一拾音区域,音区优化模块75包括循环执行子模块,用于结合第二获取模块73、频域分析模块74重新执行获取车载拾音设备基于第一拾音区域采集的第二音频的步骤以及后续步骤,音区优化模块75包括第二选择子模块,用于在频域分布不满足第一条件的情况下,将最新的第一拾音区域作为优化拾音区域。
84.因此,基于预设调整步长调整设备参数,得到第二拾音区域,且第一拾音区域和第二拾音区域两者的中心线重合而张角不同,基于此将第二拾音区域作为新的第一拾音区域,并重新执行前述采集第二音频以及后续步骤,直至频域分布不满足第一条件为止,从而能够随车内实际情况实时调整设备参数,以自适应调整拾音区域,有助于提升拾音区域的准确性。
85.在一些公开实施例中,车载拾音设备为麦克风阵列,且麦克风阵列包括若干麦克风,设备参数包括若干麦克风在车内的分布位置。
86.因此,将车载拾音设备设置为麦克风阵列,且麦克风阵列包括若干麦克风,设备参数包括若干麦克风在车内的分布位置,从而能够根据车内实际情况通过实时改变麦克风在车内的分布位置,提升音区调整的自适应能力。
87.在一些公开实施例中,第一条件包括:频域分布在剔除第一声音频率之后存在第二声音频率;其中,第一声音频率为语音交互人的声音频率,第二声音频率为与第一声音频率不同的声音频率。
88.因此,将第一条件设置为包括:频域分布在剔除第一声音频率之后存在第二声音频率,能够在频率分布存在第二声音频率的情况下,持续调整车载拾音设备的设备参数,有利于尽可能地随车内实际情况自适应优化车载拾音设备的拾音区域。
89.在一些公开实施例中,音区调整装置70还包括人员确定模块,用于响应于频域分布满足第二条件,确定语音交互人发生改变,音区调整装置70还包括循环调整模块,用于结合第一获取模块71、音区判断模块72、第二获取模块73、频域分析模块74和音区优化模块75重新执行获取车载拾音设备基于预设拾音区域采集的第一音频的步骤以及后续步骤;第二条件包括:频域分布不存在语音交互人的声音频率。
90.因此,在音区调整过程中,进一步判断频域分布是否满足第二条件,且第二条件设置为包括:频域分布不存在语音交互人的声音频率,并在满足第二条件的情况下,确定语音交互人发生改变,以及重新执行获取车载拾音设备基于预设拾音区域采集的第一音频的步骤以及后续步骤,从而能够及时感知语音交互人员的变化情况,并随变化情况实时调整拾音音区,进而能够提升音区调整的自适应能力。
91.在一些公开实施例中,音区判断模块72包括本端判断子模块,用于基于波束形成对第一音频进行处理,得到关于第一拾音区域的本端判断结果;音区判断模块72包括云端
判断子模块,用于将第一音频上传至云端,并接收云端基于第一音频分析的关于第一拾音区域的云端判断结果;音区判断模块72包括判断结合子模块,用于基于本端判断结果和云端判断结果,确定第一拾音区域。
92.因此,结合在本端对第一音频的音区判断结果和在云端对第一音频的音区判断结果,共同决策出第一拾音区域,能够通过云+端的融合决策方式,提升确定第一拾音区域的准确性。
93.在一些公开实施例中,本端判断结果包括本端判断音区,且云端判断结果包括云端判断音区;判断结合子模块包括重叠计算单元,用于获取本端判断音区和云端判断音区的重叠率;判断结合子模块包括第一响应单元,用于响应于重叠率不满足第三条件,选择本端判断音区或云端判断音区作为第一拾音区域,判断结合子模块包括第二响应单元,用于响应于重叠率满足第三条件,将本端判断音区和云端判断音区的并集作为第一拾音区域;其中,第三条件包括:重叠率不低于预设阈值。
94.因此,本端判断结果包括本端判断音区,云端判断结果包括云端判断音区,基于此获取本端判断音区和云端判断音区的重叠率,再响应于重叠率低于预设阈值,选择本端判断音区或云端判断音区作为第一拾音区域,而响应于重叠率不低于预设阈值,将本端判断音区和云端判断音区的并集作为第一拾音区域,故能够通过检测本端判断音区和云端判断音区两者的重叠率,来决策采用不同的融合方式,有利于提升第一拾音区域的准确性。
95.在一些公开实施例中,音区调整装置70包括人员分析模块,用于基于车载感测设备对车内人员的感测数据进行人员分析,得到语音交互人在车内的乘坐位置;音区调整装置70包括二重判定模块,用于基于第一拾音区域和乘坐位置进行二重音区判断,得到新的第一拾音区域。
96.因此,在得到第一拾音区域之后,进一步结合通过车载感测设备的感测数据所分析得到的语音交互人员在车内的乘坐位置,进行二重音区判断,有利于尽可能地避免由于麦克风故障、车内突发噪音、算法偏差等情况而导致第一拾音区域判断错误,故能够进一步提升第一拾音区域的准确性。
97.在一些公开实施例中,二重判定模块包括第一响应子模块,用于响应于乘坐位置位于第一拾音区域,维持第一拾音区域不变;二重判定模块包括第二响应子模块,用于响应于乘坐位置位于第一拾音区域之外,调整第一拾音区域为覆盖乘坐位置,得到新的第一拾音区域。
98.因此,响应于乘坐位置位于第一拾音区域,维持第一拾音区域不变,和/或,响应于乘坐位置位于第一拾音区域之外,调整第一拾音区域为覆盖乘坐位置,得到新的第一拾音区域,能够根据第一拾音区域与乘坐位置之间的相对位置关系,调整第一拾音区域,从而能够有效纠正由于麦克风故障、车内突发噪音、算法偏差等情况而导致的音区判断错误,进而能够进一步提升第一拾音区域的准确性。
99.请参阅图8,图8是本技术电子设备80一实施例的框架示意图。电子设备80包括相互耦接的存储器81和处理器82,存储器81中存储有程序指令,处理器82用于执行程序指令以实现上述任一音区调整方法实施例中的步骤。具体地,电子设备80可以包括但不限于:工控主机、车载中控等等,在此不做限定。
100.具体而言,处理器82用于控制其自身以及存储器81以实现上述任一音区调整方法
实施例中的步骤。处理器82还可以称为cpu(central processing unit,中央处理单元)。处理器82可能是一种集成电路芯片,具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器82可以由集成电路芯片共同实现。
101.上述方案,在车内人员语音交互过程中,一旦采集到包含语音交互人的预设语音指令即可开启音区调整,且在调整过程中先根据第一音频进行初步音区判断,再根据第二音频的频域分布进一步调整,一方面能够随实际情况的变化而调整拾音区域,另一方面通过两个阶段确定出优化拾音区域,也能够提升拾音区域的准确性。故此,能够自适应调整拾音区域。
102.请参阅图9,图9是本技术车载控制系统90一实施例的框架示意图。车载控制系统90包括车载拾音设备91和如前述公开实施例中的控制设备92,车载拾音设备91与控制设备92通信连接,且车载拾音设备91用于基于车载拾音设备91当前所配置的拾音区域采集音频数据。具体来说,车载拾音设备91可以包括但不限于麦克风阵列,具体可以参阅前述公开实施例中相关描述,在此不再赘述。
103.在一个实施场景中,车载控制系统90还可以包括车载感测设备93,如前述公开实施例中所述,车载感测设备93可以包括但不限于:车载摄像头、车座的压力传感器等,在此不做限定。车载感测设备93与控制设备92通信连接,且车载感测设备93用于对车内人员进行信息采集得到感测数据。关于感测数据的具体内容,可以参阅前述公开实施例中相关描述,在此不再赘述。
104.在一个实施场景中,车载控制系统90还可以包括车载多媒体设备(未图示),车载多媒体设备与控制设备92通信连接。具体而言,车载多媒体设备可以包括但不限于:音箱、屏幕等,在此不做限定。
105.上述方案,在车内人员语音交互过程中,一旦采集到包含语音交互人的预设语音指令即可开启音区调整,且在调整过程中先根据第一音频进行初步音区判断,再根据第二音频的频域分布进一步调整,一方面能够随实际情况的变化而调整拾音区域,另一方面通过两个阶段确定出优化拾音区域,也能够提升拾音区域的准确性。故此,能够自适应调整拾音区域。
106.请参阅图10,图10是本技术计算机可读存储介质100一实施例的框架示意图。计算机可读存储介质100存储有能够被处理器运行的程序指令101,程序指令101用于实现上述任一音区调整方法实施例中的步骤。
107.上述方案,在车内人员语音交互过程中,一旦采集到包含语音交互人的预设语音指令即可开启音区调整,且在调整过程中先根据第一音频进行初步音区判断,再根据第二音频的频域分布进一步调整,一方面能够随实际情况的变化而调整拾音区域,另一方面通过两个阶段确定出优化拾音区域,也能够提升拾音区域的准确性。故此,能够自适应调整拾音区域。
108.在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执
行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
109.上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
110.在本技术所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
111.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
112.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
113.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1