自移动设备的音频数据处理方法、设备及存储介质与流程

文档序号：33016552发布日期：2023-01-20 16:13阅读：48来源：国知局

自移动设备的音频数据处理方法、设备及存储介质
【技术领域】
1.本技术属于语音交互技术领域，具体涉及一种自移动设备的音频数据处理方法、设备及存储介质。

背景技术：

2.目前，自移动设备例如扫地机、移动机器人都具备与用户进行语音交互的能力，在语音交互的过程中需要对音频数据进行处理。
3.传统的音频数据处理方法包括：获取音频数据；基于波束成形算法对音频数据进行降噪处理。
4.然而，由于自移动设备在移动的过程中会产生很多不可控的噪声，传统的音频处理方法会导致对音频降噪效果较差的问题。

技术实现要素：

5.本技术提供了自移动设备的音频数据处理方法、设备及存储介质，可以解决由于自移动设备在移动的过程中会产生很多不可控的噪声，传统的音频处理方法会导致对音频降噪效果较差的问题。本技术提供如下技术方案：
6.第一方面，提供了一种自移动设备的音频数据处理方法，所述方法包括：获取所述至少两组音频采集组件采集的第一音频数据；
7.基于所述第一音频数据确定所述自移动设备所处的噪声环境；
8.基于所述噪声环境确定第一降噪模型本次降噪使用的模型分支和第二降噪模型本次降噪使用的模型参数；所述第一降噪模型包括至少两个模型分支，所述第一降噪模型使用训练数据对预设的神经网络模型训练得到，所述训练数据包括样本数据和标注数据，所述样本数据包括目标音频与机械噪声融合的样本音频数据，所述标注数据为所述目标音频；所述第二模型基于波束成形算法构建，所述波束成形算法包括至少一个模型参数；
9.将所述第一音频数据输入所述第一降噪模型，以过滤所述第一音频数据中的机械噪声，得到第一过滤数据；
10.将所述第一过滤数据输入所述第二降噪模型，以过滤所述第一过滤数据中所述自移动设备外部产生的噪声，得到第二过滤数据。
11.可选地，所述将所述第一过滤数据输入所述第二降噪模型，以过滤所述第一过滤数据中所述自移动设备外部产生的噪声，得到第二过滤数据之后，还包括：
12.确定所述第二过滤数据是否为唤醒音频；
13.在所述第二过滤数据是唤醒音频的情况下，使用所述第二过滤数据确定所述第一音频数据对应的第一声源位置，以基于与所述第一声源位置相适配的波达方向采集音频数据。
14.可选地，所述方法还包括：
15.获取所述自移动设备的当前运动状态；
16.在所述第二过滤数据是唤醒音频、且所述当前运动状态为静置状态的情况下，触发所述使用所述唤醒音频确定所述第一音频数据对应的声源位置的步骤。
17.可选地，所述方法还包括：
18.在所述第二过滤数据是唤醒音频，且所述当前运动状态为移动状态的情况下，获取第二音频数据；
19.使用所述第一降噪模型和所述第二降噪模型依次对所述第二音频数据进行过滤，得到第三过滤数据；
20.使用所述第三过滤数据确定所述第二音频数据对应的第二声源位置，以基于与所述第二声源位置相适配的波达方向采集音频数据。
21.可选地，所述使用所述第三过滤数据确定所述第二音频数据对应的第二声源位置，包括：
22.确定所述第二音频数据是否有效；
23.在所述第二音频数据有效的情况下，使用所述第三过滤数据确定所述第二音频数据对应的第二声源位置。
24.可选地，所述方法还包括：
25.在所述第二过滤数据是唤醒音频的情况下，获取图像采集组件采集的所述噪声环境的环境图像；
26.基于所述环境图像确定目标声源相对于所述自移动设备的位置关系；
27.结合所述位置关系和使用声源数据确定出的声源位置，确定所述目标声源的声源位置；所述声源数据为所述第一声源数据或第二声源数据，所述第二声源数据是所述当前运动状态为移动状态的情况下采集的。
28.可选地，所述确定所述第二过滤数据是否为唤醒音频，包括：
29.基于所述噪声环境确定唤醒模型本次唤醒使用的模型分支；
30.将所述第二过滤数据输入所述唤醒模型，得到唤醒结果，所述唤醒结果用于指示所述第二过滤数据是否为唤醒音频。
31.可选地，所述至少两组音频采集组件包括：第一音频采集组件和第二音频采集组件，所述第一音频采集组件用于采集所述自移动设备外部产生的音频数据，所述第二音频采集组件用于采集所述自移动设备内部产生的音频数据；
32.所述第二音频采集组件为主动降噪音频采集组件。
33.第二方面，提供了一种电子设备，所述设备包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现如第一方面所述的自移动设备的音频数据处理方法。
34.第三方面，提供了一种计算机可读存储介质，所述存储介质中存储有程序，所述程序被处理器执行时用于实现如第一方面所述的自移动设备的音频数据处理方法。
35.本技术的有益效果在于：通过获取至少两组音频采集组件采集的第一音频数据；基于第一音频数据确定自移动设备所处的噪声环境；基于噪声环境确定第一降噪模型本次降噪使用的模型分支和第二降噪模型本次降噪使用的模型参数；第一降噪模型包括至少两个模型分支，第一降噪模型使用训练数据对预设的神经网络模型训练得到，训练数据包括样本数据和标注数据，样本数据包括目标音频与机械噪声融合的样本音频数据，标注数据
为目标音频；第二模型基于波束成形算法构建，波束成形算法包括至少一个模型参数；将第一音频数据输入第一降噪模型，以过滤第一音频数据中的机械噪声，得到第一过滤数据；将第一过滤数据输入第二降噪模型，以过滤第一过滤数据中自移动设备外部产生的噪声，得到第二过滤数据；可以解决由于自移动设备在移动的过程中会产生很多不可控的噪声，传统的音频处理方法会导致对音频降噪效果较差的问题；通过基于当前噪声环境确定降噪模型的模型参数，将至少两组音频采集组件采集的音频数据依次输入第一降噪模型和第二降噪模型，进行两次降噪处理，因此可以避免自移动设备在移动的过程中会产生很多不可控的噪声从而导致降噪效果较差的问题，由于两个降噪模型分别可以针对性处理不同情况下产生的噪声，因此可以提高音频降噪效果。
36.另外，通过将第二音频采集组件设置为主动降噪音频采集组件，可以在获得第一音频数据之前对内部噪声进行一次降噪过滤处理，这样可以进一步提升语音交互的降噪效果。
37.另外，由于传统的降噪模型通常使用一个模型参数对噪声进行降噪处理，这就会导致传统的降噪模型难以兼顾多种不同噪声场景，从而导致降噪效果较差的问题，本实施例中通过基于噪声环境确定第一降噪模型本次降噪使用的模型分支和第二降噪模型本次降噪使用的模型参数，不同的噪声环境使用不同的模型参数，这样可以兼顾多种不同的噪声环境进行降噪处理，从而进一步提高降噪效果。
38.另外，通过基于噪声环境确定唤醒模型本次唤醒使用的模型分支，从而可以保证自移动设备可以自适应地在不同噪声环境下进行自适应唤醒，这样提高了自移动设备的智能化效果。
39.另外，通过基于自移动设备的移动状态确定使用不同的音频数据进行声源定位，这样可以避免自移动设备在不同的运动状态下所面临的噪声环境不同，此时若使用同一种唤醒方式可能会导致唤醒不准确的问题。由于在自移动设备静置时采用唤醒音频进行声源定位，在自移动设备移动时采用实时产生的第二音频数据进行声源定位，这样可以保证自移动设备声源定位的准确性。
40.另外，由于自移动设备在从运动到停止的过程中会存在本身机器噪声的畸变场景，即自噪声从高噪的情况立即降为低噪的情况。此时vad模型的语音识别流程已经启动，该类畸变的噪声非常容易导致vad模型误触发，从而导致语音识别的准确率降低。本实施例中通过对vad模型进行优化，得到优化后的vad模型，因此可以适应不同噪声环境下的噪声数据，从而避免畸变的噪声对vad模型进行误触发的情况。
41.另外，通过结合图像采集组件采集的噪声环境的环境图像结合声源数据确定出声源位置，由于图像采集组件采集的噪声环境的环境图像可以起到辅助声源定位的作用，这样即使自移动设备在移动过程中沿边行走或者被障碍物遮挡也可以准确进行声源定位。
【附图说明】
42.图1是本技术一个实施例提供的自移动设备的结构示意图；
43.图2是本技术一个实施例提供的自移动设备音频处理方法的流程图；
44.图3是本技术另一个实施例提供的自移动设备音频处理方法的流程图；
45.图4是本技术一个实施例提供的自移动设备音频处理装置的框图；
46.图5是本技术一个实施例提供的电子设备的框图。
【具体实施方式】
47.下面将结合附图对本技术的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。下文中将参考附图并结合实施例来详细说明本技术。需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。
48.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。
49.在申请中，在未作相反说明的情况下，使用的方位词如“上、下、顶、底”通常是针对附图所示的方向而言的，或者是针对部件本身在竖直、垂直或重力方向上而言的；同样地，为便于理解和描述，“内、外”是指相对于各部件本身的轮廓的内、外，但上述方位词并不用于限制本技术。
50.如图1所示为本技术一个实施例提供的自移动设备的结构示意图，该自移动设备可以为扫地机器人，洗地机器人，送餐机器人等可自行移动的设备，本实施例不对自移动设备的设备类型作限定。根据图1可知，自移动设备至少包括：驱动组件110、移动组件120、控制器130和音频采集组件140。
51.驱动组件110与移动组件120相连，并用于驱动移动组件120运行，以带动自移动设备移动。
52.驱动组件110与控制器130相连，并用于响应控制器130发出的指令，以驱动移动组件120运行。
53.可选地，驱动组件110可以实现为直流电机、伺服电机、步进电机等，本实施例不对驱动组件110的实现方式作限定。
54.音频采集组件140用于采集自移动设备所处的噪声环境的音频数据。可选地，音频采集组件140可以为麦克风阵列或者其它可以采集音频数据的传感器，本实施例不对音频采集组件140的类型作限定。
55.可选地，音频数据包括但不限于：音频编码、音频码流、音频声道数、音频量化位数、音频采样频率和码率等，本实施例不对音频数据的类型作限定。
56.可选地，音频采集组件140的数量为至少两组，本实施例不对音频采集组件140的数量作限定。
57.可选地，至少两组音频采集组件140中的每一组音频采集组件140的类型相同或者不同。
58.当至少两组音频采集组件140的类型不同的情况下，至少两组音频采集组件包括：第一音频采集组件和第二音频采集组件，其中，第一音频采集组件用于采集自移动设备外部产生的音频数据，第二音频采集组件用于采集自移动设备内部产生的音频数据。
59.可选地，第二音频采集组件为主动降噪音频采集组件。
60.可选地，当音频采集组件140为麦克风阵列时，麦克风阵列中的麦克风数量可以为至少两个，本实施例不对麦克风阵列中的麦克风数量作限定。
61.可选地，为了采集噪声环境的环境图像，本实施例中自移动设备还设置有图像采
集组件150。
62.其中，图像采集装置150用于采集噪声环境的环境图像。可选地，图像采集组件150可以为三原色光(red green blue，rgb)摄像头、飞行时间(time of flight，tof)摄像头、激光雷达传感器等，本实施例不对图像采集组件150的类型作限定。
63.音频采集组件140和图像采集装置150分别控制器130相连。
64.可选地，控制器130可以实现为单片机或者微型计算机，本实施例不对，控制器130的实现方式作限定。
65.本实施例中，控制器130用于：获取至少两组音频采集组件采集的第一音频数据；基于第一音频数据确定自移动设备所处的噪声环境；基于噪声环境确定第一降噪模型本次降噪使用的模型分支和第二降噪模型本次降噪使用的模型参数；第一降噪模型包括至少两个模型分支，第一降噪模型使用训练数据对预设的神经网络模型训练得到，训练数据包括样本数据和标注数据，样本数据包括目标音频与机械噪声融合的样本音频数据，标注数据为目标音频；第二模型基于波束成形算法构建，波束成形算法包括至少一个模型参数；将第一音频数据输入第一降噪模型，以过滤第一音频数据中的机械噪声，得到第一过滤数据；将第一过滤数据输入第二降噪模型，以过滤第一过滤数据中自移动设备外部产生的噪声，得到第二过滤数据。
66.在实际实现时，自移动设备还可以包括其它组件，比如：无线传输模块、蓝牙模块等本实施例在此不对可移动设备包括的组件一一进行列举。
67.本实施例中，通过基于当前噪声环境确定降噪模型的模型参数，将至少两组音频采集组件采集的音频数据依次输入第一降噪模型和第二降噪模型，进行两次降噪处理，因此可以避免自移动设备在移动的过程中会产生很多不可控的噪声从而导致降噪效果较差的问题，由于两个降噪模型分别可以针对性处理不同情况下产生的噪声，因此可以提高音频降噪效果。
68.本实施例提供的一种自移动设备的音频数据处理方法，如图1所示。本实施例以该方法用于自移动设备中为例进行说明，在实际实现时，该方法也可以用于与自移动设备通信相连的其它设备中，比如：用于计算机、手机、可穿戴式设备中等，本实施例不对其它设备的实现方式作限定。其中，自移动设备可以为扫地机器人，洗地机器人，送餐机器人等可自行移动的设备，本实施例不对自移动设备的设备类型作限定。其中自移动设备设备包括至少两组音频采集组件，该方法至少包括以下几个步骤：
69.步骤101，获取至少两组音频采集组件采集的第一音频数据。
70.可选地，至少两组音频采集组件包括第一音频采集组件和第二音频采集组件。
71.其中，第一音频采集组件用于采集自移动设备外部产生的音频数据，第二音频采集组件用于采集自移动设备内部产生的音频数据。
72.可选地，自移动设备外部产生的音频数据可以为自移动设备在运动过程中与外界物体产生碰撞或者摩擦的噪声数据，或者为外界其它人声等噪声数据等，本实施例不对自移动设备外部产生的音频数据类型作限定。
73.可选地，自移动设备内部产生的音频数据可以为自移动设备在运动过程中机器内部驱动组件或者移动组件在运行中产生的噪声数据，或者可以为自移动设备内部各机器臂旋转或者移动摩擦所产生的噪声数据等，本实施例不对自移动设备内部产生的音频数据类
型作限定。
74.由于自移动设备在移动过程中内部产生的音频数据的噪声类型可能较为复杂且多变，这就会导致第二音频采集组件在采集内部产生的音频数据时会出现噪声较多的情况。
75.基于上述技术问题，本实施例中，第二音频采集组件为主动降噪音频采集组件。
76.其中，主动降噪音频采集组件是指将主动降噪算法集成于音频采集组件中。
77.具体地，主动降噪算法通过第二音频采集组件采集自移动设备内部产生的音频数据，并同时生成与自移动设备内部产生的音频数据反相的音频数据，从而中和自移动设备内部产生的音频数据中噪声的能量，实现降低噪声的效果。
78.本实施例中，通过将第二音频采集组件设置为主动降噪音频采集组件，可以在获得第一音频数据之前对内部噪声进行一次降噪过滤处理，这样可以进一步提升语音交互的降噪效果。
79.步骤102，基于第一音频数据确定自移动设备所处的噪声环境。
80.其中，噪声环境是指自移动设备所处的环境下噪声大小情况的环境。
81.可选地，噪声环境可以为高噪声环境、中噪声环境、低噪声环境或者无噪声环境。
82.在一个示例中，基于第一音频数据确定自移动设备所处的噪声环境，包括：将第一音频数据输入预先训练的噪声环境识别模型，得到噪声环境。
83.其中，噪声环境识别模型使用训练数据对预设的神经网络模型训练得到；训练数据包括样本音频数据和样本音频数据对应的噪声环境标签。
84.在另一个示例中，基于第一音频数据确定自移动设备所处的噪声环境，包括：获取第一音频数据的分贝大小与噪声环境的对应关系；确定第一音频数据的分贝大小；基于对应关系确定自移动设备所处的噪声环境。
85.其中，第一音频数据的分贝大小与噪声环境的对应关系预存于自移动设备中。
86.比如：第一音频数据的分贝大小与噪声环境的对应关系为：第一音频数据的分贝为70分贝以上对应的噪声环境为高噪声环境；第一音频数据为50分贝至70分贝对应的噪声环境为中噪声环境；第一音频数据为30分贝至50分贝对应的噪声环境为低噪声环境；第一音频数据为30分贝以下对应的噪声环境为无噪声环境。
87.步骤103，基于噪声环境确定第一降噪模型本次降噪使用的模型分支和第二降噪模型本次降噪使用的模型参数。
88.可选地，第一降噪模型包括至少两个模型分支。
89.其中，第一降噪模型使用训练数据对预设的神经网络模型训练得到，训练数据包括样本数据和标注数据，样本数据包括目标音频与机械噪声融合的样本音频数据，标注数据为目标音频；
90.其中，第二模型基于波束成形算法构建，波束成形算法包括至少一个模型参数。
91.在一个示例中，基于噪声环境确定第一降噪模型本次降噪使用的模型分支和第二降噪模型本次降噪使用的模型参数，包括：将噪声环境类型输入预先训练的模型参数识别模型，得到模型参数。
92.其中，模型参数识别模型使用训练数据对预设的神经网络模型训练得到；训练数据包括样本噪声环境和样本噪声环境对应的模型参数标签。
93.在另一个示例中，基于噪声环境确定第一降噪模型本次降噪使用的模型分支和第二降噪模型本次降噪使用的模型参数，包括：获取噪声环境与模型参数的对应关系；确定当前噪声环境；基于噪声环境确定第一降噪模型本次降噪使用的模型分支和第二降噪模型本次降噪使用的模型参数。
94.其中，噪声环境与模型参数的对应关系预存于自移动设备中。
95.比如：噪声环境与模型参数的对应关系为：噪声环境为高噪声环境对应模型参数a；噪声环境为中噪声环境对应模型参数b；噪声环境为低噪声环境对应模型参数c；噪声环境为无噪声环境对应模型参数d。
96.由于传统的降噪模型通常使用一个模型参数对噪声进行降噪处理，这就会导致传统的降噪模型难以兼顾多种不同噪声场景，从而导致降噪效果较差的问题，本实施例中通过基于噪声环境确定第一降噪模型本次降噪使用的模型分支和第二降噪模型本次降噪使用的模型参数，不同的噪声环境使用不同的模型参数，这样可以兼顾多种不同的噪声环境进行降噪处理，从而进一步提高降噪效果。
97.步骤104，将第一音频数据输入第一降噪模型，以过滤第一音频数据中的机械噪声，得到第一过滤数据。
98.步骤105，将第一过滤数据输入第二降噪模型，以过滤第一过滤数据中自移动设备外部产生的噪声，得到第二过滤数据。
99.可选地，将第一过滤数据输入第二降噪模型，以过滤第一过滤数据中自移动设备外部产生的噪声，得到第二过滤数据之后，还包括：确定第二过滤数据是否为唤醒音频；在第二过滤数据是唤醒音频的情况下，使用第二过滤数据确定第一音频数据对应的第一声源位置，以基于与第一声源位置相适配的波达方向采集音频数据。
100.可选地，确定第二过滤数据是否为唤醒音频，包括：基于噪声环境确定唤醒模型本次唤醒使用的模型分支；将第二过滤数据输入唤醒模型，得到唤醒结果，唤醒结果用于指示第二过滤数据是否为唤醒音频。
101.本实施例中，通过基于噪声环境确定唤醒模型本次唤醒使用的模型分支，从而可以保证自移动设备可以自适应地在不同噪声环境下进行自适应唤醒，这样提高了自移动设备的智能化效果。
102.由于自移动设备在工作过程中可能出现静置或者移动的状态，在不同的运动状态下所面临的噪声环境不同，此时若使用同一种唤醒方式可能会导致唤醒不准确的问题。
103.基于上述技术问题，本实施例中还包括：获取自移动设备的当前运动状态；在第二过滤数据是唤醒音频、且当前运动状态为静置状态的情况下，触发使用唤醒音频确定第一音频数据对应的声源位置的步骤。
104.可选地，自移动设备的当前运动状态的获取方式可以为接收与自移动设备通信相连的其它设备发送的当前运动状态，或者为自移动设备基于惯性传感器的传感数据生成的，本实施例不对自移动设备当前运动状态的获取方式作限定。
105.可选地，在第二过滤数据是唤醒音频，且当前运动状态为移动状态的情况下，获取第二音频数据；使用第一降噪模型和第二降噪模型依次对第二音频数据进行过滤，得到第三过滤数据；使用第三过滤数据确定第二音频数据对应的第二声源位置，以基于与第二声源位置相适配的波达方向采集音频数据。
106.其中，第二音频数据为音频采集组件再次采集的音频数据。
107.本实施例中，通过基于自移动设备的移动状态确定使用不同的音频数据进行声源定位，这样可以避免自移动设备在不同的运动状态下所面临的噪声环境不同，此时若使用同一种唤醒方式可能会导致唤醒不准确的问题。由于在自移动设备静置时采用唤醒音频进行声源定位，在自移动设备移动时采用实时产生的第二音频数据进行声源定位，这样可以保证自移动设备声源定位的准确性。
108.可选地，使用第三过滤数据确定第二音频数据对应的第二声源位置，包括：确定第二音频数据是否有效；在第二音频数据有效的情况下，使用第三过滤数据确定第二音频数据对应的第二声源位置。
109.可选地，确定第二音频数据是否有效，包括：将第二音频数据输入优化后的语音活动检测(voice activity detection,vad)模型中。
110.其中，优化后的vad模型是通过采集不同噪声环境下的噪声数据对原始vad模型进行训练优化得到的模型。
111.由于自移动设备在从运动到停止的过程中会存在本身机器噪声的畸变场景，即自噪声从高噪的情况立即降为低噪的情况。此时vad模型的语音识别流程已经启动，该类畸变的噪声非常容易导致vad模型误触发，从而导致语音识别的准确率降低。本实施例中通过对vad模型进行优化，得到优化后的vad模型，因此可以适应不同噪声环境下的噪声数据，从而避免畸变的噪声对vad模型进行误触发的情况。
112.由于自移动设备在沿边行走或者与障碍物距离较近的情况下，音频数据的波达信号可能会出现无法反射的情况，从而导致无法进行声源定位。
113.基于上述技术问题，本实施例中，通过在第二过滤数据是唤醒音频的情况下，获取图像采集组件采集的噪声环境的环境图像；基于环境图像确定目标声源相对于自移动设备的位置关系；结合位置关系和使用声源数据确定出的声源位置，确定目标声源的声源位置；声源数据为第一声源数据或第二声源数据，第二声源数据是当前运动状态为移动状态的情况下采集的。
114.本实施例中，通过结合图像采集组件采集的噪声环境的环境图像结合声源数据确定出声源位置，由于图像采集组件采集的噪声环境的环境图像可以起到辅助声源定位的作用，这样即使自移动设备在移动过程中沿边行走或者被障碍物遮挡也可以准确进行声源定位。
115.综上所述，本实施例提供的自移动设备的音频数据处理方法，通过获取至少两组音频采集组件采集的第一音频数据；基于第一音频数据确定自移动设备所处的噪声环境；基于噪声环境确定第一降噪模型本次降噪使用的模型分支和第二降噪模型本次降噪使用的模型参数；第一降噪模型包括至少两个模型分支，第一降噪模型使用训练数据对预设的神经网络模型训练得到，训练数据包括样本数据和标注数据，样本数据包括目标音频与机械噪声融合的样本音频数据，标注数据为目标音频；第二模型基于波束成形算法构建，波束成形算法包括至少一个模型参数；将第一音频数据输入第一降噪模型，以过滤第一音频数据中的机械噪声，得到第一过滤数据；将第一过滤数据输入第二降噪模型，以过滤第一过滤数据中自移动设备外部产生的噪声，得到第二过滤数据；可以解决由于自移动设备在移动的过程中会产生很多不可控的噪声，传统的音频处理方法会导致对音频降噪效果较差的问
题；通过基于当前噪声环境确定降噪模型的模型参数，将至少两组音频采集组件采集的音频数据依次输入第一降噪模型和第二降噪模型，进行两次降噪处理，因此可以避免自移动设备在移动的过程中会产生很多不可控的噪声从而导致降噪效果较差的问题，由于两个降噪模型分别可以针对性处理不同情况下产生的噪声，因此可以提高音频降噪效果。
116.另外，通过将第二音频采集组件设置为主动降噪音频采集组件，可以在获得第一音频数据之前对内部噪声进行一次降噪过滤处理，这样可以进一步提升语音交互的降噪效果。
117.另外，由于传统的降噪模型通常使用一个模型参数对噪声进行降噪处理，这就会导致传统的降噪模型难以兼顾多种不同噪声场景，从而导致降噪效果较差的问题，本实施例中通过基于噪声环境确定第一降噪模型本次降噪使用的模型分支和第二降噪模型本次降噪使用的模型参数，不同的噪声环境使用不同的模型参数，这样可以兼顾多种不同的噪声环境进行降噪处理，从而进一步提高降噪效果。
118.另外，通过基于噪声环境确定唤醒模型本次唤醒使用的模型分支，从而可以保证自移动设备可以自适应地在不同噪声环境下进行自适应唤醒，这样提高了自移动设备的智能化效果。
119.另外，通过基于自移动设备的移动状态确定使用不同的音频数据进行声源定位，这样可以避免自移动设备在不同的运动状态下所面临的噪声环境不同，此时若使用同一种唤醒方式可能会导致唤醒不准确的问题。由于在自移动设备静置时采用唤醒音频进行声源定位，在自移动设备移动时采用实时产生的第二音频数据进行声源定位，这样可以保证自移动设备声源定位的准确性。
120.另外，由于自移动设备在从运动到停止的过程中会存在本身机器噪声的畸变场景，即自噪声从高噪的情况立即降为低噪的情况。此时vad模型的语音识别流程已经启动，该类畸变的噪声非常容易导致vad模型误触发，从而导致语音识别的准确率降低。本实施例中通过对vad模型进行优化，得到优化后的vad模型，因此可以适应不同噪声环境下的噪声数据，从而避免畸变的噪声对vad模型进行误触发的情况。
121.另外，通过结合图像采集组件采集的噪声环境的环境图像结合声源数据确定出声源位置，由于图像采集组件采集的噪声环境的环境图像可以起到辅助声源定位的作用，这样即使自移动设备在移动过程中沿边行走或者被障碍物遮挡也可以准确进行声源定位。
122.为了更清楚地了解本技术提供的自移动设备的音频数据处理方法，本实施例对该方法举一个实例进行说明，该实例以音频采集组件包括第一采集组件和第二采集组件为例，具体步骤如图3所示。
123.步骤301，将第一音频采集组件和第二音频采集组件采集的音频数据输入噪声检测模块，得到当前噪声环境，并且确定第一降噪模型、第二降噪模型和唤醒模型的模型参数。
124.其中，第一音频采集组件主要用于采集自移动设备外部产生的音频数据，第二音频采集组件主要用于采集自移动设备内部产生的音频数据。
125.其中，第二音频采集组件集成主动降噪算法。
126.步骤302，将第一音频采集组件和第二音频采集组件采集的音频数据输入第一降噪模型，得到第一过滤数据。
127.其中，第一过滤数据主要包括自移动设备外部产生的噪声和人声。
128.步骤303，将第一过滤数据输入第二降噪模型得到第二过滤数据。
129.其中，第二过滤数据主要包括人声。
130.步骤304，将第二过滤数据输入唤醒模型，确定第二过滤数据是否为唤醒词。
131.步骤305，将第二过滤数据输入vad模型，确定第二过滤数据是否有效。
132.步骤306，判断自移动设备的运动状态，在自移动设备为静置状态的情况下，执行步骤307；在自移动设备为移动状态的情况下，执行步骤308。
133.步骤307，使用唤醒音频确定第一音频数据对应的第一声源位置。
134.步骤308，使用实时产生的音频数据确定实时产生的音频数据对应的第二声源位置。
135.其中，使用实时产生的音频数据为第一音频采集组件和第二音频采集组件再次采集得到的音频数据。
136.步骤309，结合环境图像确定声源位置。
137.图4是本技术一个实施例提供的自移动设备音频数据处理装置的框图，本实施例以该装置应用于图1所示的自移动设备中为例进行说明。该装置至少包括以下几个模块：数据获取模块410、环境确定模块420、参数确定模块430、第一过滤模块440和第二过滤模块450。
138.数据获取模块410，用于获取至少两组音频采集组件采集的第一音频数据。
139.环境确定模块420，用于基于第一音频数据确定自移动设备所处的噪声环境。
140.参数确定模块430，用于基于噪声环境确定第一降噪模型本次降噪使用的模型分支和第二降噪模型本次降噪使用的模型参数；第一降噪模型包括至少两个模型分支，第一降噪模型使用训练数据对预设的神经网络模型训练得到，训练数据包括样本数据和标注数据，样本数据包括目标音频与机械噪声融合的样本音频数据，标注数据为目标音频；第二模型基于波束成形算法构建，波束成形算法包括至少一个模型参数。
141.第一过滤模块440，用于将第一音频数据输入第一降噪模型，以过滤第一音频数据中的机械噪声，得到第一过滤数据。
142.第二过滤模块450，用于将第一过滤数据输入第二降噪模型，以过滤第一过滤数据中自移动设备外部产生的噪声，得到第二过滤数据。
143.相关细节参考上述实施例。
144.需要说明的是：上述实施例中提供的自移动设备音频数据处理装置在进行音频数据处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将自移动设备音频数据处理装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的自移动设备的音频数据处理装置与自移动设备的音频数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
145.本实施例提供一种电子设备，如图5所示，该电子设备可以为图1中的自移动设备。该电子设备至少包括处理器501和存储器502。
146.处理器501可以包括一个或多个处理核心，比如：4核心处理器、8核心处理器等。处理器501可以采用dsp(digital signal processing，数字信号处理)、fpga(field－
programmable gate array，现场可编程门阵列)、pla(programmable logic array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(central processing unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有gpu(graphics processing unit，图像处理器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括ai(artificial intelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。
147.存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本技术中方法实施例提供的自移动设备的音频数据处理方法。
148.在一些实施例中，电子设备还可选包括有：外围设备接口和至少一个外围设备。处理器501、存储器502和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地，外围设备包括但不限于：射频电路、触摸显示屏、音频电路、和电源等。
149.当然，电子设备还可以包括更少或更多的组件，本实施例对此不作限定。
150.可选地，本技术还提供有一种计算机可读存储介质，计算机可读存储介质中存储有程序，程序由处理器加载并执行以实现上述方法实施例的自移动设备的音频数据处理方法。
151.以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
152.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈明佳
技术所有人：思必驰科技股份有限公司
我是此专利的发明人