人声信号响应方法、控制设备及计算机可读存储介质与流程

文档序号:33248264发布日期:2023-02-18 00:00阅读:41来源:国知局
人声信号响应方法、控制设备及计算机可读存储介质与流程

1.本技术涉及语音识别领域,尤其涉及一种人声信号响应方法、控制设备及计算机可读存储介质。


背景技术:

2.随着语音识别技术的发展,越来越多的智能家居设备可以由用户通过语音进行控制,或者实现与用户的语音交互。但是,语音识别的人声信号有可能是用户发出的人声信号,或者,也有可能是其他具备扬声器的电子设备发出的人声信号。
3.由于用户主动发出的人声信号和电子设备发出的人声信号的声学特征较为相似,因此,当出现后一种场景时,语音识别发生误识别的可能性较高,容易出现违背用户意图的操作,影响用户的使用体验。


技术实现要素:

4.本技术实施例提供了一种人声信号响应方法、控制设备及计算机可读存储介质,解决了现有的语音识别技术误识别的可能性高,容易出现违背用户意图的操作的技术问题。
5.为达到上述目的,本技术实施例采用如下技术方案:
6.第一方面,提供一种人声信号响应方法,包括:
7.当拾音设备采集到人声信号时,控制设备获取所述人声信号的目标声源方向;
8.所述控制设备获取目标对象的位置信息,所述目标对象包括用户和/或扬声器设备,所述扬声器设备为具备扬声器的电子设备;
9.所述控制设备根据所述目标声源方向和所述目标对象的位置信息,确定所述人声信号的响应策略。
10.需要说明的是,拾音设备是指具备麦克风的电子设备,拾音设备可以采集周围的声音信号。
11.扬声器设备是指具备扬声器的电子设备,扬声器设备可以通过扬声器发出声音信号。
12.控制设备是指可以对各个智能家居设备进行控制的电子设备。控制设备可以为智能家居设备,或者,控制设备也可以是云端的服务器。
13.例如,控制设备可以为智能音箱、智能大屏等智能家居设备;或者,控制设备也可以为设置在云端的服务器。
14.在本技术实施例提供的人声信号响应方法中,拾音设备可以采集周围的声音信号,检测其中是否存在人声信号;或者,拾音设备也可以采集周围的声音信号,将声音信号发送给控制设备,由控制设备检测上述声音信号中是否存在人声信号。
15.当拾音设备采集的声音信号中包含有人声信号时,控制设备可以获取该人声信号的目标声源方向。
16.并且,控制设备还可以获取目标对象的位置信息,目标对象包括用户和/或扬声器设备。
17.通过目标声源方向和目标对象的位置信息,控制设备可以在一定程度上识别该人声信号是否为用户发出的人声信号,并依此确定相应的响应策略。
18.综上,在本技术实施例提供的人声信号方法中,控制设备会在响应人声信号之前,根据目标声源方向和目标对象的位置信息,识别该人声信号是否为用户发出的人声信号,并确定相应的响应策略,可以降低误识别的可能性,减少违背用户意图的操作,提高用户的使用体验,具有较强的实用性和易用性。
19.在第一方面的一种可能的实现方式中,所述人声信号的响应策略包括对所述人声信号进行响应和不对所述人声信号进行响应。
20.需要说明的是,上述人声信号的响应策略可以包括对人声信号进行响应和不对人声信号进行响应。
21.也即是说,当控制设备识别到该人声信号有较大可能为用户发出的人声信号时,控制设备可以对该人声信号进行响应。
22.当控制设备识别到该人声信号有较大可能为扬声器设备发出的人声信号时,为了降低误识别的可能性,控制设备可以不对该人声信号进行响应,减少违背用户意图的操作。
23.在第一方面的一种可能的实现方式中,所述人声信号包括命令词;所述进行响应包括:
24.所述控制设备执行所述命令词对应的操作,或者,所述控制设备向所述命令词对应的智能家居设备发送控制指令。
25.需要说明的是,当上述人声信号中包括命令词时,如果控制设备设置有该命令词对应的功能,则控制设备可以执行该命令词对应的操作。
26.或者,如果控制设备没有该命令词对应的功能,则控制设备向该命令词对应的智能家居设备发送控制指令。智能家居设备在接收到控制指令之后,智能家居设备执行该命令词对应的操作。
27.例如,假设控制设备为智能音箱,人声信号中的命令词为“播放音乐”。此时,智能音箱具备该命令词对应的功能,智能音箱可以执行“播放音乐”对应的操作。
28.假设控制设备为家庭中枢,人声信号中的命令词为“打开空调”。此时,家庭中枢不具备该命令词对应的功能,所以,家庭中枢可以向智能空调发送控制指令。
29.智能空调接收到控制指令之后,执行“打开空调”对应的操作。
30.在第一方面的一种可能的实现方式中,所述控制设备根据所述目标声源方向和所述目标对象的位置信息,确定所述人声信号的响应策略,包括:
31.所述控制设备根据所述目标声源方向和所述目标对象的位置信息,确定所述目标对象的位置信息与所述目标声源方向的偏差程度;
32.所述控制设备根据所述偏差程度,确定所述人声信号的响应策略。
33.需要说明的是,控制设备在获取到目标声源方向和目标对象的位置信息之后,控制设备可以计算目标对象的位置信息与目标声源方向的偏差程度。
34.通过该偏差程度,控制设备可以识别上述人声信号是否为用户发出的人声信号,进而确定相应的响应策略,降低误识别的可能性。
35.在第一方面的一种可能的实现方式中,所述控制设备根据所述偏差程度,确定所述人声信号的响应策略,包括:
36.当所述控制设备根据所述偏差程度,确定所述人声信号为所述用户发出的人声信号时,所述控制设备对所述人声信号进行响应;
37.当所述控制设备根据所述偏差程度,确定所述人声信号为所述扬声器设备发出的人声信号时,所述控制设备不对所述人声信号进行响应。
38.需要说明的是,控制设备在计算得到偏差程度之后,可以直接根据偏差程度识别上述人声信号是否为用户发出的人声信号。
39.当控制设备根据上述偏差程度确定上述人声信号是用户发出的人声信号时,控制设备应当对该人声信号进行响应。
40.当控制设备根据上述偏差程度确定上述人声信号是扬声器设备发出的人声信号时,控制设备可以不对该人声信号进行响应,降低误识别的可能性,减少违背用户意图的操作。
41.在第一方面的一种可能的实现方式中,所述目标对象包括用户和扬声器设备;所述偏差程度包括所述扬声器设备的位置信息与所述目标声源方向的第一偏差程度,以及,所述用户的位置信息与所述目标声源方向的第二偏差程度;
42.所述控制设备根据所述偏差程度,确定所述人声信号的响应策略,包括:
43.所述控制设备根据所述第一偏差程度计算负向一致性系数;
44.所述控制设备根据所述第二偏差程度计算正向一致性系数;
45.所述控制设备根据所述正向一致性系数和所述负向一致性系数确定所述人声信号的响应策略。
46.需要说明的是,当上述目标对象包括用户和扬声器设备时,上述偏差程度可以包括扬声器设备的位置信息与目标声源方向的第一偏差程度,以及,用户的位置信息与目标声源方向的第二偏差程度。
47.之后,控制设备可以根据第一偏差程度计算负向一致性系数,负向一致性系数和第一偏差程度为负相关关系。第一偏差程度越大,则负向一致性系数越小,表示扬声器设备和目标声源方向的偏差越大;第一偏差程度越小,则负向一致性系数越大,表示扬声器设备和目标声源方向越接近。
48.并且,控制设备还可以根据第二偏差程度计算正向一致性系数,正向一致性系数和第二偏差程度为负相关关系。第二偏差程度越大,则正向一致性系数越小,表示用户和目标声源方向的偏差越大;第二偏差程度越小,则正向一致性系数越大,表示用户和目标声源方向越接近。
49.在获取到正向一致性系数和负向一致性系数之后,控制设备可以根据正向一致性系数和负向一致性系数确定上述人声信号是否为用户发出的人声信号,进而确定该人声信号的响应策略,降低误识别的可能性。
50.在第一方面的一种可能的实现方式中,所述人声信号包括命令词;所述控制设备根据所述正向一致性系数和所述负向一致性系数确定所述人声信号的响应策略,包括:
51.所述控制设备获取所述命令词对应的词汇置信度和置信度阈值;
52.所述控制设备根据所述正向一致性系数和所述负向一致性系数调节所述词汇置
信度,或者,调节所述置信度阈值;
53.若调节后的词汇置信度大于所述置信度阈值,或者,所述词汇置信度大于调节后的置信度阈值,则所述控制设备执行所述命令词对应的操作,或者,所述控制设备向所述命令词对应的智能家居设备发送控制指令。
54.需要说明的是,当上述人声信号包括命令词时,控制设备可以获取该命令词对应的词汇置信度和置信度阈值。词汇置信度是指识别到该命令词的可信程度。
55.然后,控制设备可以根据正向一致性系数和负向一致性系数调节词汇置信度或置信度阈值。
56.当控制设备根据正向一致性系数和负向一致性系数调节命令词的词汇置信度时,正向一致性系数与调节后的词汇置信度呈正相关关系,负向一致性系数与调节后的词汇置信度呈负相关关系。
57.也即是说,正向一致性系数越大,则表示上述人声信号越有可能是用户发出的,控制设备可以适当调高词汇置信度;正向一致性系数越小,则表示上述人声信号越不可能是用户发出的,控制设备可以适当调低词汇置信度。
58.负向一致性系数越大,则表示上述人声信号越有可能是扬声器设备发出的,控制设备可以适当调低词汇置信度;负向一致性系数越小,则表示上述人声信号越不可能是扬声器设备发出的,控制设备可以适当调高词汇置信度。
59.当控制设备根据正向一致性系数和负向一致性系数调节命令词的置信度阈值时,正向一致性系数与调节后的置信度阈值呈负相关关系,负向一致性系数与调节后的置信度阈值呈正相关关系。
60.也即是说,正向一致性系数越大,则调节后的置信度阈值越小;正向一致性系数越小,则调节后的置信度阈值越大。
61.负向一致性系数越大,则调节后的置信度阈值越大;负向一致性系数越小,则调节后置信度阈值越小。
62.控制设备在调节了命令词的词汇置信度或置信度阈值之后,可以将命令词的词汇置信度与置信度阈值进行比较。
63.当词汇置信度小于或等于置信度阈值时,表示命令词识别失败,控制设备可以不响应该命令词。
64.当词汇置信度大于置信度阈值时,表示命令词识别成功,控制设备可以执行该命令词对应的操作,或者,控制设备向该命令词对应的智能家居设备发送控制指令,智能家居设备在接收到控制指令之后,智能家居设备执行该命令词对应的操作。
65.综上,本技术实施例提供的人声信号响应方法中,控制设备可以根据正向一致性系数和负向一致性系数对命令词的词汇置信度或置信度阈值进行调节。
66.然后,控制设备根据调节后的词汇置信度/置信度阈值进行命令词识别,可以提高命令词识别的准确度,减少误识别的可能性,提高用户的使用体验。
67.在第一方面的一种可能的实现方式中,所述控制设备根据所述正向一致性系数和所述负向一致性系数确定所述人声信号的响应策略,包括:
68.当所述正向一致性系数和所述负向一致性系数符合预设的校正规则时,所述控制设备将所述目标声源方向更新为所述用户所在的方向;
69.所述控制设备控制拾音设备对更新后的目标声源方向执行音频定向增强操作,所述拾音设备为具备麦克风的电子设备。
70.需要说明的是,控制设备在获取到正向一致性系数和负向一致性系数之后,如果正向一致性系数和负向一致性系数符合预设的校正规则,则表示上述人声信号有较大可能是用户发出的。此时,控制设备可以将目标声源方向更新为用户所在的方向。
71.之后,控制设备可以控制拾音设备对更新后的目标声源方向执行音频定向增强操作,从而提高拾音设备对用户所在方向的拾音效果。
72.在第一方面的一种可能的实现方式中,所述预设的校正规则为所述正向一致性系数大于所述负向一致性系数;
73.或者,所述预设的校正规则为所述正向一致性系数大于第一偏差阈值,且所述负向一致性系数小于第二偏差阈值;
74.或者,所述预设的校正规则为所述正向一致性系数和所述负向一致性系数的差值大于第三偏差阈值。
75.需要说明的是,预设校正规则的内容可以根据实际需求进行设置。例如,预设校正规则可以是正向一致性系数大于负向一致性系数;或者,预设校正规则也可以是正向一致性系数大于第一偏差阈值,且负向一致性系数小于第二偏差阈值;或者,预设校正规则也可以是正向一致性系数和负向一致性系数的差值大于第三偏差阈值;或者,预设校正规则也可以是其他内容。本技术实施例对预设校正规则的具体内容不予限制。
76.在第一方面的一种可能的实现方式中,所述控制设备根据所述正向一致性系数和所述负向一致性系数确定所述人声信号的响应策略,包括:
77.所述控制设备根据所述正向一致性系数和所述负向一致性系数调节目标音频通道对应的信号比例,所述目标音频通道为所述目标声源方向对应的音频通道。
78.需要说明的是,拾音设备上可能设置有多个麦克风,每个麦克风对应一个音频通道。拾音设备上的多个麦克风采集到声音信号之后,各个麦克风采集到的声音信号分别通过相应的音频通道汇聚形成波束。
79.因此,控制设备在获取到目标声源方向之后,可以将拾音设备在目标声源方向的音频通道确定为目标音频通道。
80.然后,控制设备可以根据上述正向一致性系数和负向一致性系数调节目标音频通道的信号在波束中所占的信号比例。
81.上述信号比例与正向一致性系数呈正相关关系,上述信号比例与负向一致性系数呈负相关关系。
82.也即是说,正向一致性系数越大,则上述信号比例越大;正向一致性系数越小,则上述信号比例越小。负向一致性系数越大,则上述信号比例越小;负向一致性系数越小,则上述信号比例越大。
83.当上述人声信号有较大可能是用户发出的人声信号时,控制设备根据正向一致性系数和负向一致性系数调高目标音频通道的信号比例,使得拾音设备可以更为清晰的采集目标声源方向的音频信号。
84.当上述人声信号有较大可能是扬声器设备发出的人声信号时,控制设备通过正向一致性系数和负向一致性系数调低目标音频通道的信号比例,使得拾音设备可以减少目标
声源方向的干扰。
85.在第一方面的一种可能的实现方式中,所述目标对象包括用户;在所述控制设备获取所述人声信号的目标声源方向之后,还包括:
86.当所述控制设备未获取到用户的位置信息时,所述控制设备不对所述人声信号进行响应。
87.需要说明的是,当控制设备未获取到用户的位置信息时,表示用户不在当前区域,上述人声信号是扬声器设备发出的。所以,控制设备可以不对上述人声信号进行响应,减少违背用户意图的操作。
88.第二方面,提供一种人声信号响应装置,应用于控制设备,包括:
89.声源方向模块,用于当拾音设备检测采集到人声信号时,获取所述人声信号的目标声源方向;
90.位置信息模块,用于获取目标对象的位置信息,所述目标对象包括用户和/或扬声器设备,所述扬声器设备为具备扬声器的电子设备;
91.响应策略模块,用于根据所述目标声源方向和所述目标对象的位置信息,确定所述人声信号的响应策略。
92.在第二方面的一种可能的实现方式中,所述人声信号的响应策略包括对所述人声信号进行响应和不对所述人声信号进行响应。
93.在第二方面的一种可能的实现方式中,所述人声信号包括命令词;所述进行响应包括:
94.所述控制设备执行所述命令词对应的操作,或者,所述控制设备向所述命令词对应的智能家居设备发送控制指令。
95.在第二方面的一种可能的实现方式中,所述响应策略模块,包括:
96.偏差子模块,用于根据所述目标声源方向和所述目标对象的位置信息,确定所述目标对象的位置信息与所述目标声源方向的偏差程度;
97.策略子模块,用于根据所述偏差程度,确定所述人声信号的响应策略。
98.在第二方面的一种可能的实现方式中,所述策略子模块,包括:
99.响应子模块,用于当所述控制设备根据所述偏差程度,确定所述人声信号为所述用户发出的人声信号时,对所述人声信号进行响应;
100.静默子模块,用于当所述控制设备根据所述偏差程度,确定所述人声信号为所述扬声器设备发出的人声信号时,不对所述人声信号进行响应。
101.在第二方面的一种可能的实现方式中,所述目标对象包括用户和扬声器设备;所述偏差程度包括所述扬声器设备的位置信息与所述目标声源方向的第一偏差程度,以及,所述用户的位置信息与所述目标声源方向的第二偏差程度;
102.所述策略子模块,包括:
103.负向系数子模块,用于根据所述第一偏差程度计算负向一致性系数;
104.正向系数子模块,用于根据所述第二偏差程度计算正向一致性系数;
105.综合决策子模块,用于根据所述正向一致性系数和所述负向一致性系数确定所述人声信号的响应策略。
106.在第二方面的一种可能的实现方式中,所述人声信号包括命令词;所述综合决策
子模块,包括:
107.置信度子模块,用于获取所述命令词对应的词汇置信度和置信度阈值;
108.调节子模块,用于根据所述正向一致性系数和所述负向一致性系数调节所述词汇置信度,或者,调节所述置信度阈值;
109.操作子模块,用于若调节后的词汇置信度大于所述置信度阈值,或者,所述词汇置信度大于调节后的置信度阈值,则执行所述命令词对应的操作,或者,向所述命令词对应的智能家居设备发送控制指令。
110.在第二方面的一种可能的实现方式中,所述综合决策子模块,包括:
111.方向更新子模块,用于当所述正向一致性系数和所述负向一致性系数符合预设的校正规则时,将所述目标声源方向更新为所述用户所在的方向;
112.定向拾音子模块,用于控制拾音设备对更新后的目标声源方向执行音频定向增强操作,所述拾音设备为具备麦克风的电子设备。
113.在第二方面的一种可能的实现方式中,所述预设的校正规则为所述正向一致性系数大于所述负向一致性系数;
114.或者,所述预设的校正规则为所述正向一致性系数大于第一偏差阈值,且所述负向一致性系数小于第二偏差阈值;
115.或者,所述预设的校正规则为所述正向一致性系数和所述负向一致性系数的差值大于第三偏差阈值。
116.在第二方面的一种可能的实现方式中,所述综合决策子模块,包括:
117.比例调节子模块,用于根据所述正向一致性系数和所述负向一致性系数调节目标音频通道对应的信号比例,所述目标音频通道为所述目标声源方向对应的音频通道。
118.在第二方面的一种可能的实现方式中,所述目标对象包括用户;所述装置还包括:
119.拒绝响应模块,用于当所述控制设备未获取到用户的位置信息时,不对所述人声信号进行响应。
120.第三方面,本技术实施例提供了一种控制设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器被配置为执行所述计算机程序时实现如第一方面和第一方面可能的实现方式中任一所述的方法。
121.第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质被配置为存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面和第一方面可能的实现方式中任一所述的方法。
122.第五方面,本技术实施例提供了一种计算机程序产品,所述计算机程序产品被配置为在控制设备上运行时,使得控制设备执行如第一方面和第一方面可能的实现方式中任一所述的方法。
123.第六方面,本技术实施例提供了一种芯片系统,所述芯片系统包括存储器和处理器,所述处理器被配置为执行所述存储器中存储的计算机程序,以实现如第一方面和第一方面可能的实现方式中任一所述的方法。
124.本技术实施例的有益效果是:
125.在本技术实施例的人声信号响应方法中,当拾音设备采集到人声信号时,控制设备获取该人声信号的目标声源方向,以及,获取目标对象的位置信息,目标对象可以包括用
户和/或扬声器设备。之后,控制设备可以根据目标声源方向和目标对象的位置信息,识别该人声信号是否用户发出的,进而确定该人声信号的响应策略。
126.本技术实施例的人声信号响应方法在响应人声信号之前,根据目标声源方向和目标对象的位置信息确定该人声信号的响应策略,可以降低误识别的可能性,减少违背用户意图的操作,提高用户的使用体验,具有较强的实用性和易用性。
附图说明
127.图1为本技术实施例提供的一种智能家居系统的系统架构图;
128.图2为本技术实施例提供的一种电子设备的示意图;
129.图3为本技术实施例提供的一种场景示意图;
130.图4为本技术实施例提供的另一种场景示意图;
131.图5为本技术实施例提供的另一种场景示意图;
132.图6为本技术实施例提供的另一种场景示意图;
133.图7为本技术实施例提供的另一种场景示意图;
134.图8为本技术实施例提供的另一种场景示意图;
135.图9为本技术实施例提供的另一种场景示意图;
136.图10为本技术实施例提供的另一种场景示意图;
137.图11为本技术实施例提供的另一种场景示意图;
138.图12为本技术实施例提供的另一种场景示意图;
139.图13为本技术实施例提供的另一种场景示意图;
140.图14为本技术实施例提供的另一种场景示意图;
141.图15为本技术实施例提供的另一种场景示意图;
142.图16为本技术实施例提供的另一种场景示意图;
143.图17为本技术实施例提供的一种麦克风阵列的示意图;
144.图18为本技术实施例提供的一种人声信号响应方法的流程示意图;
145.图19为本技术实施例提供的一种人声信号响应装置的结构示意图。
具体实施方式
146.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本技术的描述。
147.应当理解,当在本技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
148.还应当理解,在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
149.如在本技术说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确
定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0150]
另外,在本技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0151]
在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0152]
在本技术说明书中描述的“多个”可以理解为“两个以上”,或者,也可以理解为“至少两个”。
[0153]
随着语音识别技术的发展,越来越多的智能家居设备可以由用户通过语音进行控制,或者实现与用户的语音交互。例如,用户可以通过“小艺,小艺”这类唤醒命令词唤醒智能家居设备,以及,通过“播放音乐”、“停止播放”这类控制命令词控制智能家居设备执行相应的操作。
[0154]
但是,在进行语音识别时,语音识别的人声信号有可能是用户发出的人声信号,或者,也有可能是其他具备扬声器的电子设备发出的人声信号。
[0155]
例如,当智能音箱检测到人声信号“打开音乐”时,该人声信号可能是用户对智能音箱下达的指令,或者,也有可能是电视在播放节目时发出的人声信号。
[0156]
由于用户主动发出的人声信号和电子设备发出的人声信号的声学特征较为相似,因此,当出现后一种场景时,语音识别发生误识别的可能性较高,容易出现违背用户意图的操作,影响用户的使用体验。
[0157]
有鉴于此,本技术实施例提供了一种人声信号响应方法,可以在检测到人声信号时,根据用户和/或扬声器设备的位置信息确定响应策略,从而在一定程度上减少了语音识别的误识别概率,或者说,误控制、误触发概率,提高用户的使用体验,具有较强的易用性和实用性。
[0158]
首先,请参阅图1。图1示例性地示出了本技术实施例适用的一种智能家居系统。
[0159]
如图1所示,该智能家居系统可以包括:一个或多个智能家居设备101(图1中示出3个),以及,一个或多个控制设备102(图1中示出1个)。
[0160]
上述智能家居设备101可以包括电脑、手机、平板电脑、智能电视、智能大屏、智能音箱、智能空调、扫地机器人、洗碗机、智能灯具、智能门锁、智能窗帘、路由器、家庭中枢等类型的电子设备中的一种或多种。
[0161]
其中,家庭中枢可以是指一个专用于控制全屋智能家居设备的家庭中控电子设备,或者,家庭中枢也可以是指一个软件,可以安装在用户家中已有的智能家居设备(例如路由器、智能大屏等)中,使得已有的智能家居设备在本身已有功能的基础上可以实现对全屋智能家居设备的控制和智能决策。
[0162]
并且,上述智能家居设备101可以处于同一局域网中,各个智能家居设备101可以通过局域网进行数据交互。和/或,各个智能家居101也可以通过蓝牙连接、wi-fi连接通用
串行总线(universal serial bus,usb)连接等连接方式中一种或多种进行数据交互。
[0163]
在上述智能家居设备101中,部分智能家居设备101(例如摄像头、毫米波雷达、激光雷达、超声雷达、热释电红外传感器等)可以对环境进行扫描和/或检测。在以下的描述中,将这些具备环境检测功能的电子设备定义为检测设备。
[0164]
在上述智能家居设备101中,部分智能家居设备101(例如智能电视、智能音箱等)具备扬声器,可以对外播放音频信号。在以下的描述中,将这些具备扬声器的电子设备定义为扬声器设备。
[0165]
在上述智能家居设备101中,部分智能家居设备101(例如智能音箱、平板电脑等)具备麦克风,可以采集外部的音频信号。在以下的描述中,将这些具备麦克风的电子设备定义为拾音设备。
[0166]
控制设备102是指可以对上述智能家居设备101进行控制的电子设备。控制设备102可以是上述智能家居设备101,和/或,控制设备102也可以是远端的服务器。
[0167]
例如,在一些场景中,用户可以将智能电视设置为控制设备102,通过智能电视操控其他智能家居设备101;在另一些场景中,用户可以将智能音箱设置为控制设备102,通过智能音箱控制其他智能家居设备101;在另一些场景中,用户可以将家庭中枢设置为控制设备102,通过家庭中枢控制其他智能家居设备101;在另一些场景中,用户可以将远端的服务器设置为控制设备102,通过远端的服务器和广域网,对局域网内的智能家居设备101进行控制。
[0168]
参考图2,图2示例性示出了本技术实施例提供的电子设备200的结构示意图,该电子设备200可以是上述智能家居设备101,和/或,该电子设备200也可以是上述控制设备102。
[0169]
电子设备200可以包括处理器210,外部存储器接口220,内部存储器221,通用串行总线(universal serial bus,usb)接口230,充电管理模块240,电源管理模块241,电池242,天线1,天线2,移动通信模块250,无线通信模块260,音频模块270,扬声器270a,受话器270b,麦克风270c,耳机接口270d,传感器模块280,按键290,马达291,指示器292,摄像头293,显示屏294,以及用户标识模块(subscriber identification module,sim)卡接口295等。其中传感器模块280可以包括压力传感器280a,陀螺仪传感器280b,气压传感器280c,磁传感器280d,加速度传感器280e,距离传感器280f,接近光传感器280g,指纹传感器280h,温度传感器280j,触摸传感器280k,环境光传感器280l,骨传导传感器280m等。
[0170]
处理器210可以包括一个或多个处理单元,例如:处理器210可以包括应用处理器(application processor,ap),调制解调处理器,图形处理器(graphics processing unit,gpu),图像信号处理器(image signal processor,isp),控制器,视频编解码器,数字信号处理器(digital signal processor,dsp),基带处理器,和/或神经神经网络处理器(neural-network processing unit,npu)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
[0171]
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
[0172]
处理器210中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器210中的存储器为高速缓冲存储器。该存储器可以保存处理器210刚用过或循环使用的指令
或数据。如果处理器210需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器210的等待时间,因而提高了系统的效率。
[0173]
在一些实施例中,处理器210可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,i2c)接口,集成电路内置音频(inter-integrated circuit sound,i2s)接口,脉冲编码调制(pulse code modulation,pcm)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,uart)接口,移动产业处理器接口(mobile industry processor interface,mipi),通用输入输出(general-purpose input/output,gpio)接口,用户标识模块(subscriber identity module,sim)接口,和/或通用串行总线(universal serial bus,usb)接口等。
[0174]
i2c接口是一种双向同步串行总线,包括一根串行数据线(serial data line,sda)和一根串行时钟线(derail clock line,scl)。在一些实施例中,处理器210可以包含多组i2c总线。处理器210可以通过不同的i2c总线接口分别耦合触摸传感器280k,充电器,闪光灯,摄像头293等。例如:处理器210可以通过i2c接口耦合触摸传感器280k,使处理器210与触摸传感器280k通过i2c总线接口通信,实现电子设备200的触摸功能。
[0175]
i2s接口可以用于音频通信。在一些实施例中,处理器210可以包含多组i2s总线。处理器210可以通过i2s总线与音频模块270耦合,实现处理器210与音频模块270之间的通信。在一些实施例中,音频模块270可以通过i2s接口向无线通信模块260传递音频信号,实现通过蓝牙耳机接听电话的功能。
[0176]
pcm接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块270与无线通信模块260可以通过pcm总线接口耦合。在一些实施例中,音频模块270也可以通过pcm接口向无线通信模块260传递音频信号,实现通过蓝牙耳机接听电话的功能。所述i2s接口和所述pcm接口都可以用于音频通信。
[0177]
uart接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,uart接口通常被用于连接处理器210与无线通信模块260。例如:处理器210通过uart接口与无线通信模块260中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块270可以通过uart接口向无线通信模块260传递音频信号,实现通过蓝牙耳机播放音乐的功能。
[0178]
mipi接口可以被用于连接处理器210与显示屏294,摄像头293等外围器件。mipi接口包括摄像头串行接口(camera serial interface,csi),显示屏串行接口(display serial interface,dsi)等。在一些实施例中,处理器210和摄像头293通过csi接口通信,实现电子设备200的拍摄功能。处理器210和显示屏294通过dsi接口通信,实现电子设备200的显示功能。
[0179]
gpio接口可以通过软件配置。gpio接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,gpio接口可以用于连接处理器210与摄像头293,显示屏294,无线通信模块260,音频模块270,传感器模块280等。gpio接口还可以被配置为i2c接口,i2s接口,uart接口,mipi接口等。
[0180]
usb接口230是符合usb标准规范的接口,具体可以是mini usb接口,micro usb接口,usb type c接口等。usb接口230可以用于连接充电器为电子设备200充电,也可以用于电子设备200与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口
还可以用于连接其他电子设备,例如ar设备等。
[0181]
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备200的结构限定。在本技术另一些实施例中,电子设备200也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
[0182]
充电管理模块240用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块240可以通过usb接口230接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块240可以通过电子设备200的无线充电线圈接收无线充电输入。充电管理模块240为电池242充电的同时,还可以通过电源管理模块241为电子设备供电。
[0183]
电源管理模块241用于连接电池242,充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入,为处理器210,内部存储器221,显示屏294,摄像头293,和无线通信模块260等供电。电源管理模块241还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块241也可以设置于处理器210中。在另一些实施例中,电源管理模块241和充电管理模块240也可以设置于同一个器件中。
[0184]
电子设备200的无线通信功能可以通过天线1,天线2,移动通信模块250,无线通信模块260,调制解调处理器以及基带处理器等实现。
[0185]
天线1和天线2用于发射和接收电磁波信号。电子设备200中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
[0186]
移动通信模块250可以提供应用在电子设备200上的包括2g/3g/4g/5g等无线通信的解决方案。移动通信模块250可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,lna)等。移动通信模块250可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块250还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块250的至少部分功能模块可以被设置于处理器210中。在一些实施例中,移动通信模块250的至少部分功能模块可以与处理器210的至少部分模块被设置在同一个器件中。
[0187]
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器270a,受话器270b等)输出声音信号,或通过显示屏294显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器210,与移动通信模块250或其他功能模块设置在同一个器件中。
[0188]
无线通信模块260可以提供应用在电子设备200上的包括无线局域网(wireless local area networks,wlan)(如无线保真(wireless fidelity,wi-fi)网络),蓝牙(bluetooth,bt),全球导航卫星系统(global navigation satellite system,gnss),调频(frequency modulation,fm),近距离无线通信技术(near field communication,nfc),红外技术(infrared,ir)等无线通信的解决方案。无线通信模块260可以是集成至少一个通信
处理模块的一个或多个器件。无线通信模块260经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器210。无线通信模块260还可以从处理器210接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
[0189]
在一些实施例中,电子设备200的天线1和移动通信模块250耦合,天线2和无线通信模块260耦合,使得电子设备200可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,gsm),通用分组无线服务(general packet radio service,gprs),码分多址接入(code division multiple access,cdma),宽带码分多址(wideband code division multiple access,wcdma),时分码分多址(time-division code division multiple access,td-scdma),长期演进(long term evolution,lte),bt,gnss,wlan,nfc,fm,和/或ir技术等。所述gnss可以包括全球卫星定位系统(global positioning system,gps),全球导航卫星系统(global navigation satellite system,glonass),北斗卫星导航系统(beidou navigation satellite system,bds),准天顶卫星系统(quasi-zenith satellite system,qzss)和/或星基增强系统(satellite based augmentation systems,sbas)。
[0190]
电子设备200通过gpu,显示屏294,以及应用处理器等实现显示功能。gpu为图像处理的微处理器,连接显示屏294和应用处理器。gpu用于执行数学和几何计算,用于图形渲染。处理器210可包括一个或多个gpu,其执行程序指令以生成或改变显示信息。
[0191]
显示屏294用于显示图像,视频等。显示屏294包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,lcd),有机发光二极管(organic light-emitting diode,oled),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,amoled),柔性发光二极管(flex light-emitting diode,fled),miniled,microled,micro-oled,量子点发光二极管(quantum dot light emitting diodes,qled)等。在一些实施例中,电子设备200可以包括1个或n个显示屏294,n为大于1的正整数。
[0192]
电子设备200可以通过isp,摄像头293,视频编解码器,gpu,显示屏294以及应用处理器等实现拍摄功能。
[0193]
isp用于处理摄像头293反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给isp处理,转化为肉眼可见的图像。isp还可以对图像的噪点,亮度,肤色进行算法优化。isp还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,isp可以设置在摄像头293中。
[0194]
摄像头293用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,ccd)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,cmos)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给isp转换成数字图像信号。isp将数字图像信号输出到dsp加工处理。dsp将数字图像信号转换成标准的rgb,yuv等格式的图像信号。在一些实施例中,电子设备200可以包括1个或n个摄像头293,n为大于1的正整数。
[0195]
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备200在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
[0196]
视频编解码器用于对数字视频压缩或解压缩。电子设备200可以支持一种或多种视频编解码器。这样,电子设备200可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,mpeg)1,mpeg2,mpeg3,mpeg4等。
[0197]
npu为神经网络(neural-network,nn)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过npu可以实现电子设备200的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
[0198]
外部存储器接口220可以用于连接外部存储卡,例如micro sd卡,实现扩展电子设备200的存储能力。外部存储卡通过外部存储器接口220与处理器210通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
[0199]
内部存储器221可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备200使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器221可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,ufs)等。处理器210通过运行存储在内部存储器221的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备200的各种功能应用以及数据处理。
[0200]
电子设备200可以通过音频模块270,扬声器270a,受话器270b,麦克风270c,耳机接口270d,以及应用处理器等实现音频功能。例如音乐播放,录音等。
[0201]
音频模块270用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块270还可以用于对音频信号编码和解码。在一些实施例中,音频模块270可以设置于处理器210中,或将音频模块270的部分功能模块设置于处理器210中。
[0202]
扬声器270a,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备200可以通过扬声器270a收听音乐,或收听免提通话。
[0203]
受话器270b,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备200接听电话或语音信息时,可以通过将受话器270b靠近人耳接听语音。
[0204]
麦克风270c,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风270c发声,将声音信号输入到麦克风270c。电子设备200可以设置至少一个麦克风270c。在另一些实施例中,电子设备200可以设置两个麦克风270c,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备200还可以设置三个,四个或更多麦克风270c,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
[0205]
耳机接口270d用于连接有线耳机。耳机接口270d可以是usb接口230,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,omtp)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the usa,ctia)标准接口。
[0206]
压力传感器280a用于感受压力信号,可以将压力信号转换成电信号。在一些实施
例中,压力传感器280a可以设置于显示屏294。压力传感器280a的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器280a,电极之间的电容改变。电子设备200根据电容的变化确定压力的强度。当有触摸操作作用于显示屏294,电子设备200根据压力传感器280a检测所述触摸操作强度。电子设备200也可以根据压力传感器280a的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
[0207]
陀螺仪传感器280b可以用于确定电子设备200的运动姿态。在一些实施例中,可以通过陀螺仪传感器280b确定电子设备200围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器280b可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器280b检测电子设备200抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备200的抖动,实现防抖。陀螺仪传感器280b还可以用于导航,体感游戏场景。
[0208]
气压传感器280c用于测量气压。在一些实施例中,电子设备200通过气压传感器280c测得的气压值计算海拔高度,辅助定位和导航。
[0209]
磁传感器280d包括霍尔传感器。电子设备200可以利用磁传感器280d检测翻盖皮套的开合。在一些实施例中,当电子设备200是翻盖机时,电子设备200可以根据磁传感器280d检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
[0210]
加速度传感器280e可检测电子设备200在各个方向上(一般为三轴)加速度的大小。当电子设备200静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
[0211]
距离传感器280f,用于测量距离。电子设备200可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备200可以利用距离传感器280f测距以实现快速对焦。
[0212]
接近光传感器280g可以包括例如发光二极管(led)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备200通过发光二极管向外发射红外光。电子设备200使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备200附近有物体。当检测到不充分的反射光时,电子设备200可以确定电子设备200附近没有物体。电子设备200可以利用接近光传感器280g检测用户手持电子设备200贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器280g也可用于皮套模式,口袋模式自动解锁与锁屏。
[0213]
环境光传感器280l用于感知环境光亮度。电子设备200可以根据感知的环境光亮度自适应调节显示屏294亮度。环境光传感器280l也可用于拍照时自动调节白平衡。环境光传感器280l还可以与接近光传感器280g配合,检测电子设备200是否在口袋里,以防误触。
[0214]
指纹传感器280h用于采集指纹。电子设备200可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
[0215]
温度传感器280j用于检测温度。在一些实施例中,电子设备200利用温度传感器280j检测的温度,执行温度处理策略。例如,当温度传感器280j上报的温度超过阈值,电子
设备200执行降低位于温度传感器280j附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备200对电池242加热,以避免低温导致电子设备200异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备200对电池242的输出电压执行升压,以避免低温导致的异常关机。
[0216]
触摸传感器280k,也称“触控器件”。触摸传感器280k可以设置于显示屏294,由触摸传感器280k与显示屏294组成触摸屏,也称“触控屏”。触摸传感器280k用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏294提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器280k也可以设置于电子设备200的表面,与显示屏294所处的位置不同。
[0217]
骨传导传感器280m可以获取振动信号。在一些实施例中,骨传导传感器280m可以获取人体声部振动骨块的振动信号。骨传导传感器280m也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器280m也可以设置于耳机中,结合成骨传导耳机。音频模块270可以基于所述骨传导传感器280m获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器280m获取的血压跳动信号解析心率信息,实现心率检测功能。
[0218]
按键290包括开机键,音量键等。按键290可以是机械按键。也可以是触摸式按键。电子设备200可以接收按键输入,产生与电子设备200的用户设置以及功能控制有关的键信号输入。
[0219]
马达291可以产生振动提示。马达291可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏294不同区域的触摸操作,马达291也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
[0220]
指示器292可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
[0221]
sim卡接口295用于连接sim卡。sim卡可以通过插入sim卡接口295,或从sim卡接口295拔出,实现和电子设备200的接触和分离。电子设备200可以支持1个或n个sim卡接口,n为大于1的正整数。sim卡接口295可以支持nano sim卡,micro sim卡,sim卡等。同一个sim卡接口295可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。sim卡接口295也可以兼容不同类型的sim卡。sim卡接口295也可以兼容外部存储卡。电子设备200通过sim卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备200采用esim,即:嵌入式sim卡。esim卡可以嵌在电子设备200中,不能和电子设备200分离。
[0222]
可以理解的是,本技术实施例示意的结构并不构成对电子设备200的具体限定。在本技术另一些实施例中,电子设备200可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
[0223]
以下,将根据图1所示的智能家居系统,以及图2所示的智能家居系统中电子设备的结构并结合具体的应用场景,对本技术实施例提供的人声信号响应方法进行详细说明。
[0224]
1、设备位置初始化。
[0225]
在初始化阶段,控制设备可以通过合适的方式获取各个智能家居设备的位置信息。
[0226]
在一些可能的实现方式中,控制设备可以响应于用户的配置操作,得到各个智能家居设备的位置信息。
[0227]
例如,假设控制设备为手机,智能家居设备为智能音箱。
[0228]
在智能音箱接入局域网后,用户可以在手机上打开应用程序“智慧生活”,在“智慧生活”中设置该智能音箱所处的房间。
[0229]
在图3的(a)场景中,用户界面301可以是应用程序“智慧生活”的分类管理界面。在用户界面301中,包括房间控件3011、房间控件3012和房间控件3013。其中,房间控件3011可以是“个人设备”对应的控件,房间控件3012可以是“客厅”对应的控件,房间控件3013可以是“厨房”对应的控件。
[0230]
用户可以在用户界面301中,点击房间控件3012,进入用户界面302。
[0231]
在图3的(b)场景中,用户界面302可以是“客厅”的设置页面。在用户界面302中,包括设备控件3021、设备控件3022、操作控件3023、操作控件3024。其中,设备控件3021表示“智能电视”,控件设备3022表示“扫地机器人”,操作控件3023表示“添加设备”,操作控件3024表示“删除设备”。
[0232]
用户可以在用户界面302中,点击操作控件3023。此时,用户界面302会弹出选择框3025。选择框3025中包括“智能音箱”、“台式电脑”、“平板电脑”这三个选项。用户可以点击“智能音箱”选项,将智能音箱所处的房间设置为“客厅”。此时,手机响应于用户的配置操作,确定智能音箱位于客厅中。
[0233]
在另一些可能的实现方式中,控制设备可以通过检测设备对环境进行检测,得到各个智能家居设备的位置信息。
[0234]
如上所述,智能家居设备中可能包括检测设备,该检测设备可能包括摄像头、毫米波雷达、激光雷达、超声雷达、热释电红外传感器等类型电子设备中的一种或多种。
[0235]
在初始化阶段时,控制设备可以向检测设备发送环境检测指令。
[0236]
当检测设备接收到环境检测指令时,检测设备可以执行环境检测操作,获取周围的环境数据。
[0237]
之后,检测设备可以在本地对环境数据进行处理,识别环境数据中所包含的智能家居设备的设备类型和位置信息,并向控制设备发送检测到的各个智能家居设备的设备类型和位置信息。
[0238]
或者,检测设备也可以直接向控制设备发送环境数据。当控制设备接收到环境数据时,控制设备对环境数据进行处理,识别环境数据中所包含的智能家居设备的设备类型和位置信息。
[0239]
此外,当智能家居系统中包括多个检测设备时,控制设备可以控制其中的一个检测设备执行环境检测操作,或者,控制设备也可以控制其中的多个检测设备执行环境检测操作。
[0240]
当控制设备控制多个检测设备执行环境检测操作时,多个检测设备对应的检测结果中可能包括同一智能家居设备的多个不同的位置信息。
[0241]
此时,控制设备可以从同一智能家居设备的多个不同的位置信息,选择位置置信
度最高的位置信息作为该智能家居设备的位置信息。
[0242]
位置置信度用于表示位置信息的可信程度。检测设备/控制设备在处理得到智能家居设备的位置信息时,还可以得到该位置信息对应的位置置信度。
[0243]
例如,如图4所示,假设房间内设置有家庭中枢11、智能音箱12、摄像头13和毫米波雷达14。其中,家庭中枢11为控制设备,摄像头13和毫米波雷达14为检测设备。
[0244]
当家庭中枢11响应于用户的操作,进入初始化阶段时,家庭中枢11向摄像头13和毫米波雷达14发送环境检测指令。
[0245]
当毫米波雷达14接收到环境检测指令时,毫米波雷达14发射毫米波检测信号,并接收毫米波反射信号。
[0246]
如图5所示,毫米波雷达14对毫米波反射信号进行处理,识别到智能音箱12和摄像头13。然后,毫米波雷达14向家庭中枢11发送检测结果。该检测结果包括智能音箱12和摄像头13的设备类型、位置信息以及位置信息对应的位置置信度。
[0247]
摄像头13接收到环境检测指令时,拍摄环境图像。然后,摄像头13向家庭中枢11发送环境图像。
[0248]
家庭中枢11接收到环境图像后,对环境图像进行图像处理,识别到智能音箱12、智能音箱12的位置信息以及该位置信息对应的位置置信度。
[0249]
此时,摄像头13和毫米波雷达14均检测到智能音箱12的位置信息,毫米波雷达14检测到智能音箱12位于第一位置,摄像头13检测到智能音箱12位于第二位置。因此,家庭中枢11可以获取第一位置对应的位置置信度和第二位置对应的位置置信度。
[0250]
假设第一位置对应的位置置信度为0.84,第二位置对应的位置置信度为0.59,第一位置的位置置信度高于第二位置的位置置信度,则家庭中枢11采用毫米波雷达14检测到的第一位置作为智能音箱12的位置信息。
[0251]
在另一些可能的实现方式中,控制设备也可以通过其他方式获取到各个智能家居设备的位置信息。本技术实施例对控制设备获取位置信息的方式不予限制。
[0252]
控制设备在获取到各个智能家居设备的位置信息之后,可以将各个智能家居设备的位置信息记录在同一物理坐标系中。
[0253]
该物理坐标系可以是二维直角坐标系、斜坐标系、极坐标系、三维直角坐标系、球坐标系等类型的坐标系中的任意一种。
[0254]
并且,该物理坐标系的原点可以是控制设备的位置,或者,该物理坐标系的原点也可以是任一智能家居设备的位置,或者,该物理坐标系的原点也可以是其他位置。本技术实施例对该物理坐标系的原点的设置方式不予限制。
[0255]
例如,如图6所示,假设控制设备接收到了毫米波雷达发送的检测结果,则控制设备可以将毫米波雷达的位置作为原点,建立二维直角坐标系。并且,控制设备还可以根据毫米波雷达检测到的各个智能家居设备的位置信息,将各个智能家居设备的位置以二维坐标的方式展示在二维直角坐标系上。
[0256]
比如,图6中的点o表示原点,即毫米波雷达所在的位置。点a1表示智能音箱的位置,点b1表示智能电视的位置,点c1表示摄像头的位置。
[0257]
在初始化阶段,控制设备除了建立物理坐标系以外,还可以建立声源坐标系。然后,控制设备可以建立上述物理坐标系和上述声源坐标系的映射关系。
[0258]
具体地,控制设备可以建立声源坐标系。声源坐标系可以是二维直角坐标系、斜坐标系、极坐标系、三维直角坐标系、球坐标系等类型的坐标系中的任意一种。声源坐标系的原点可以为拾音设备的位置。
[0259]
以及,控制设备还可以向扬声器设备发送播音指令,以及,向拾音设备发送拾音指令。
[0260]
当扬声器设备接收到播音指令时,扬声器设备可以播放特定的测试音频。
[0261]
测试音频的内容可以根据实际情况进行设置。例如,在一些实施例中,测试音频可以是一段语音播报;在另一些实施例中,测试音频也可以是一段白噪声;在另一些实施例中,测试音频也可以是一段特定的音乐。本技术实施例对测试音频的内容不予限制。
[0262]
当拾音设备接收到拾音指令时,拾音设备可以监听环境中的声音。当拾音设备监听到特定的测试音频时,拾音设备获取该测试音频的声源方向,并向控制设备发送测试音频的声源方向。
[0263]
控制设备在获取到测试音频的声源方向之后,控制设备可以根据测试音频的声源方向确定拾音设备的0度方向(也可以理解为声源坐标系的0度方向)在物理坐标系中的映射方向,并根据上述映射方向建立上述物理坐标系和声源坐标系的映射关系,完成初始化阶段。
[0264]
例如,如图7所示,假设控制设备为家庭中枢21,扬声器设备为智能电视22,拾音设备为智能音箱23。
[0265]
当家庭中枢21进入初始化阶段时,家庭中枢21向智能电视22发送播音指令,以及,家庭中枢21向智能音箱23发送拾音指令。
[0266]
当智能电视22接收到播音指令时,智能电视22通过扬声器播放“小艺,小艺”的音频。
[0267]
当智能音箱23接收到拾音指令时,智能音箱23监听环境中的声音。当智能音箱23监听到“小艺,小艺”的音频时,智能音箱23获取该音频的声源方向,并将该音频的声源方向发送给家庭中枢21。
[0268]
家庭中枢21接收到上述音频的声源方向后,以智能音箱23为原点建立极坐标系,并根据上述音频的声源方向建立物理坐标系和声源坐标系的映射关系。
[0269]
请参阅图8和图9,图8中o1表示极坐标系的原点,o2表示物理坐标系的原点,x轴和y轴为物理坐标系的坐标轴。将图8中的极坐标系和物理坐标系单独提取出来,可以得到图9中(a)场景表示的极坐标系,以及,图9中(b)场景表示的物理坐标系。图9中点a2表示智能音箱23的位置,点b2表示智能电视22的位置。
[0270]
如图9的(a)场景和图9的(b)场景所示,假设智能音箱23检测到声源方向为53度方向,则控制设备可以将物理坐标系中a2-b2的连线沿点a2顺时针旋转53度,找到虚线1。虚线1的箭头指向方向即智能音箱23的0度方向在物理坐标系中的映射方向。
[0271]
之后,控制设备可以根据虚线1确定物理坐标系和声源坐标系的映射关系。
[0272]
请参阅图10,在建立了物理坐标系和声源坐标系的映射关系之后,假设智能音箱23检测到待测音频信号的声源方向为79度,则控制设备可以根据上述映射关系,将物理坐标系中的虚线1沿点a2逆时针旋转79度,得到虚线2。
[0273]
此时,虚线2的箭头指向方式就是物理坐标系中上述待测音频信号的声源方向。
[0274]
2、声源属性分析。
[0275]
在完成初始化阶段之后,拾音设备可以采集周围环境的声音信号。
[0276]
当拾音设备采集到声音信号时,拾音设备可以在本地检测该声音信号中是否存在人声信号,并在检测到人声信号时向控制设备发送人声信号的目标声源方向。
[0277]
或者,当拾音设备采集到声音信号时,拾音设备也可以直接向控制设备发送声音信号。控制设备在接收到声音信号之后,检测上述声音信号中是否存在人声信号,并在检测到人声信号时获取人声信号的目标声源方向。
[0278]
控制设备在获取到目标声源方向之后,可以根据各个扬声器设备的位置信息以及用户当前的位置信息,确定该人声信号的响应策略。
[0279]
具体地,控制设备在获取到目标声源方向之后,可以将目标声源方向从声源坐标系映射到物理坐标系中,或者,也可以将各个扬声器设备的位置信息从物理坐标系映射到声源坐标系中。
[0280]
之后,控制设备可以计算各个扬声器设备的位置信息与上述目标声源方向的第一偏差程度,并根据第一偏差程度计算负向一致性系数。
[0281]
负向一致性系数与上述第一偏差程度呈负相关关系。也即是说,扬声器设备的位置信息与目标声源方向的偏差越小,则负向一致性系数越大;扬声器设备的位置信息与目标声源方向的偏差越大,则负向一致性系数越小。
[0282]
当存在多个扬声器设备时,控制设备可以获取到多个负向一致性系数。此时,控制设备可以采用最大的负向一致性系数。
[0283]
并且,控制设备还可以向检测设备发送用户定位指令。
[0284]
当检测设备接收到用户定位指令时,检测设备可以执行人物检测操作,检测当前区域内是否存在用户。
[0285]
例如,假设检测设备为摄像头,摄像头可以在接收到用户定位指令时,拍摄环境图像。然后,摄像头可以对环境图像进行图像处理,识别环境图像中是否存在用户,以及,识别用户的方位。
[0286]
假设检测设备为毫米波雷达,毫米波雷达可以在接收到用户定位指令时,发射毫米波检测信号,以及,接收毫米波反射信号。然后,毫米波雷达可以对毫米波反射信号进行处理,识别当前区域内是否存在用户,以及,识别用户的方位。
[0287]
如果检测设备在当前区域未检测到用户,则检测设备可以向控制设备发送定位错误指令。定位错误指令用于告知控制设备当前区域中没有找到用户。
[0288]
如果检测设备在当前区域检测到用户,则检测设备可以向控制设备发送用户的位置信息。
[0289]
当各个检测设备返回控制设备的数据均为定位错误指令时,表示用户不在当前区域。也即是说,拾音设备检测到的人声信号是扬声器设备发出的,不是用户发出的。此时,控制设备可以不对该人声信号进行响应,或者,控制设备也可以执行其他预设的操作。
[0290]
例如,在一些实施例中,当控制设备接收到定位错误指令时,控制设备可以保持静默,等待下一次检测到人声信号;在另一些实施例中,当控制设备接收到定位错误信息时,控制设备可以控制扬声器设备发出特定的提示音,该提示音用于告知或提醒用户进行二次确认。
[0291]
当检测设备接收到用户的位置信息时,检测设备可以计算用户的位置信息与上述目标声源方向的第二偏差程度,并根据第二偏差程度计算正向一致性系数。
[0292]
正向一致性系数与上述第二偏差程度呈负相关关系。也即是说,用户的位置信息与目标声源方向的偏差越小,则正向一致性系数越大;用户的位置信息与目标声源方向的偏差越大,则正向一致性系数越小。
[0293]
负向一致性系数和正向一致性系数的具体计算方式可以根据实际场景进行设置。
[0294]
在一些可能的实现方式中,控制设备可以用扬声器设备/用户的位置信息与目标声源方向的偏差角度值表示上述偏差程度。
[0295]
此时,控制设备可以根据拾音设备的位置信息和扬声器设备的位置信息确定第一线段,计算第一线段和目标声源方向的夹角,得到扬声器设备与目标声源方向的第一偏差角度值。
[0296]
第一偏差角度值越小,则表示扬声器设备与目标声源方向的重合程度越高,上述人声信号越有可能是扬声器设备发出的,负向一致性系数越大。
[0297]
第一偏差角度值越大,则表示扬声器设备与目标声源方向的偏差越大,上述人声信号越不可能是扬声器设备发出的,负向一致性系数越小。
[0298]
并且,控制设备还可以根据拾音设备的位置信息和用户的位置信息确定第二线段,计算第二线段和目标声源方向的夹角,得到用户与目标声源方向的第二偏差角度值。
[0299]
第二偏差角度值越小,则表示用户与目标声源方向的重合程度越高,上述人声信号越有可能是用户发出的,正向一致性系数越大。
[0300]
第二偏差角度值越大,则表示用户与目标声源方向的偏差越大,上述人声信号越不可能是用户发出的,正向一致性系数越小。
[0301]
例如,如图11所示,假设点o表示物理坐标系的原点,点a3表示拾音设备的位置,点b3表示扬声器设备的位置,点c3表示用户的位置,虚线3表示目标声源方向。
[0302]
在计算正向一致性系数时,控制设备可以作线段a3-c3,并计算线段a3-c3与虚线3的夹角1的大小。夹角1越大,则正向一致性系数越小;夹角1越小,则正向一致性系数越大。
[0303]
在计算负向一致性系数时,控制设备可以作线段a3-b3,并计算线段a3-b3与虚线3的夹角2的大小。夹角2越大,则负向一致性系数越小;夹角2越小,则负向一致性系数越大。
[0304]
在另一些可能的实现方式中,控制设备可以用扬声器设备/用户的位置信息到目标声源方向的距离表示上述偏差程度。
[0305]
此时,控制设备可以根据扬声器设备的位置信息作目标声源方向的第一垂线,并计算第一垂线的长度。
[0306]
第一垂线的长度越短,则表示扬声器设备与目标声源方向的重合程度越高,上述人声信号越有可能是扬声器设备发出的,负向一致性系数越大。
[0307]
第一垂线的长度越长,则表示扬声器设备与目标声源方向的偏差越大,上述人声信号越不可能是扬声器设备发出的,负向一致性系数越小。
[0308]
并且,控制设备还可以根据用户的位置信息作目标声源方向的第二垂线,并计算第二垂线的长度。
[0309]
第二垂线的长度越短,则表示用户与目标声源方向的重合程度越高,上述人声信号越有可能是用户发出的,正向一致性系数越大。
[0310]
第二垂线的长度越长,则表示用户与目标声源方向的偏差越大,上述人声信号越不可能是用户发出的,正向一致性系数越小。
[0311]
例如,如图12所示,假设点o表示坐标系原点,点a4表示拾音设备的位置,点b4表示扬声器设备的位置,点c4表示用户的位置,虚线4表示目标声源方向。
[0312]
在计算正向一致性系数时,控制设备可以以点c4为起点,做虚线4的垂线1。垂线1的长度越长,则正向一致性系数越小;垂线1的长度越短,则正向一致性系数越大。
[0313]
在计算负向一致性系数时,控制设备可以以点b4为起点,做虚线4的垂线2。垂线2的长度越长,则负向一致性系数越小;垂线2的长度越短,则负向一致性系数越大。
[0314]
在另一些可能的实现方式中,控制设备也可以用其他参数表示上述偏差程度,并根据偏差程度计算一致性系数。本技术实施例对上述正向一致性系数和负向一致性系数的具体计算方式不予限制。
[0315]
控制设备在获取到正向一致性系数和负向一致性系数之后,可以根据正向一致性系数和负向一致性系数确定上述人声信号的响应策略。
[0316]
在一些可能的实现方式中,上述人声信号包括命令词。该命令词可以是唤醒命令词,或者,该命令词也可以是控制命令词。
[0317]
控制设备在检测到人声信号中的命令词时,还可以得到该命令词的词汇置信度。上述词汇置信度用于表示检测到该命令词的准确程度。
[0318]
在控制设备获取到正向一致性系数和负向一致性系数之后,控制设备可以根据正向一致性系数和负向一致性系数调节上述词汇置信度,或者,控制设备也可以根据正向一致性系数和负向一致性系数调节该命令词对应的置信度阈值。
[0319]
当控制设备根据正向一致性系数和负向一致性系数调节命令词的词汇置信度时,正向一致性系数与调节后的词汇置信度呈正相关关系,负向一致性系数与调节后的词汇置信度呈负相关关系。
[0320]
也即是说,正向一致性系数越大,则表示上述人声信号越有可能是用户发出的,控制设备可以适当调高词汇置信度;正向一致性系数越小,则表示上述人声信号越不可能是用户发出的,控制设备可以适当调低词汇置信度。
[0321]
负向一致性系数越大,则表示上述人声信号越有可能是扬声器设备发出的,控制设备可以适当调低词汇置信度;负向一致性系数越小,则表示上述人声信号越不可能是扬声器设备发出的,控制设备可以适当调高词汇置信度。
[0322]
控制设备根据正向一致性系数和负向一致性系数调节词汇置信度的方式可以根据实际需求进行设置。
[0323]
例如,在一些实施例中,控制设备可以通过公式(1)对词汇置信度进行调节。
[0324]
t=t*f/g
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0325]
其中,t表示调节后的词汇置信度,t表示调节前的词汇置信度,f表示正向一致性系数,g表示负向一致性系数。
[0326]
在另一些实施例中,控制设备也可以通过公式(2)对词汇置信度进行调节。
[0327]
t=t+f-g
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0328]
在另一些实施例中,控制设备也可以通过公式(3)对词汇置信度进行调节。
[0329]
t=t*f-g
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0330]
在另一些实施例中,控制设备也可以通过其他方式对词汇置信度进行调节,本技术实施例对控制设备调节词汇置信度的具体方式不予限制。
[0331]
当控制设备根据正向一致性系数和负向一致性系数调节命令词的置信度阈值时,正向一致性系数与调节后的置信度阈值呈负相关关系,负向一致性系数与调节后的置信度阈值呈正相关关系。
[0332]
也即是说,正向一致性系数越大,则调节后的置信度阈值越小;正向一致性系数越小,则调节后的置信度阈值越大。
[0333]
负向一致性系数越大,则调节后的置信度阈值越大;负向一致性系数越小,则调节后置信度阈值越小。
[0334]
控制设备根据正向一致性系数和负向一致性系数调节置信度阈值的方式可以根据实际需求进行设置。
[0335]
例如,在一些实施例中,控制设备可以通过公式(4)对置信度阈值进行调节。
[0336]
d=d*g/f
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0337]
其中,d表示调节后的置信度阈值,d表示调节前的置信度阈值。
[0338]
在另一些实施例中,控制设备也可以通过公式(5)对置信度阈值进行调节。
[0339]
d=d+g-f
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0340]
在另一些实施例中,控制设备也可以通过公式(6)对置信度阈值进行调节。
[0341]
d=d*g-f
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0342]
在另一些实施例中,控制设备也可以通过其他方式对置信度阈值进行调节,本技术实施例对控制设备调节置信度阈值的具体方式不予限制。
[0343]
控制设备在调节了命令词的词汇置信度或置信度阈值之后,可以将命令词的词汇置信度与置信度阈值进行比较。
[0344]
当词汇置信度小于或等于置信度阈值时,表示命令词识别失败,控制设备可以不响应该命令词。
[0345]
当词汇置信度大于置信度阈值时,表示命令词识别成功,控制设备可以执行该命令词对应的操作,或者,控制设备向该命令词对应的智能家居设备发送控制指令,智能家居设备在接收到控制指令之后,智能家居设备执行该命令词对应的操作。
[0346]
例如,请参阅图13,假设房间中设置有智能电视31、智能音箱32、智能空调33和摄像头34。其中,智能音箱32为控制设备和拾音设备,智能电视31为扬声器设备,摄像头34为检测设备。此外,词汇置信度的调节公式为公式(1),各个命令词的置信度阈值均为0.9。
[0347]
在某一时刻,智能电视31正在播放节目,其中一段节目音频为“这天也太热了,赶快打开空调吧”。此时,智能电视31这个电子设备发出了人声信号,而用户可能并没有发出人声信号,用户可能并不希望打开空调。若此时控制设备错误地基于节目音频包含的人声信号中的命令词“打开空调”而控制空调打开,就会产生不符合用户期望的结果。
[0348]
应用本技术实施例提供的方法,可以有效避免此类误识别,或者说,误控制、误触发。
[0349]
具体地,智能音箱32响应于该节目音频,可以执行如下所示过程中的相关步骤:
[0350]
此时,智能音箱32检测到人声信号,并识别到人声信号中的命令词“打开空调”。因此,智能音箱32获取该人声信号的目标声源方向,以及,向摄像头34发送用户定位指令。
[0351]
摄像头34接收到用户定位指令后,拍摄房间内的环境图像,对环境图像进行识别,得到用户的位置信息。
[0352]
然后,摄像头34向智能音箱32传递用户的位置信息。
[0353]
智能音箱32在接收到用户的位置信息之后,将用户的位置信息映射至预先识别的物理坐标系中,根据用户的位置信息和目标声源方向计算正向一致性系数,以及,根据智能电视31的位置信息和目标声源方向计算负向一致性系数。
[0354]
如图14所示,图14为预先识别的物理坐标系。其中,点o表示摄像头34的位置,点a5表示智能空调33的位置,点b5表示智能音箱32的位置,点c5表示智能电视31的位置,点d5表示用户的位置。虚线5的箭头方向表示智能音箱32的0度方向在物理坐标系中的映射方向。
[0355]
假设智能音箱32检测到目标声源方向为33度方向,则智能音箱32可以将虚线5沿点b5逆时针旋转33度,得到虚线6。虚线6的箭头方向表示目标声源方向。
[0356]
然后,智能音箱32可以计算线段b5-d5与虚线5的夹角3,并根据夹角3计算正向一致性系数;以及,智能音箱32可以计算线段b5-c5与虚线5的夹角4,并根据夹角4计算负向一致性系数。
[0357]
假设智能音箱32计算得到的正向一致性系数为0.7,负向一致性系数为0.9,智能音箱32识别到的命令词“打开空调”的词汇置信度为0.92。
[0358]
此时,智能音箱32可以将正向一致性系数、负向一致性系数和词汇置信度的数值代入公式(1),得到调节后的词汇置信度为0.92*0.7/0.9≈0.716。
[0359]
然后,智能音箱32将调节后的词汇置信度0.716与上述置信度阈值0.9进行比较,词汇置信度小于置信度阈值,表示命令词“打开空调”识别错误,智能音箱32不对该命令词进行响应。
[0360]
通过上述示例可知,控制设备在检测到命令词时,可以根据正向一致性系数和负向一致性系数对命令词的词汇置信度或置信度阈值进行调节。
[0361]
然后,控制设备根据调节后的词汇置信度/置信度阈值进行命令词识别,从而提高命令词识别的准确度,减少因电子设备发声而导致命令词误识别的可能性,提高用户的使用体验。
[0362]
在另一些可能的实现方式中,控制设备可以根据上述正向一致性系数和上述负向一致性系数对目标声源方向进行校正。
[0363]
具体地,控制设备可以在获取到正向一致性系数和负向一致性系数之后,判断正向一致性系数和负向一致性系数是否满足预设校正规则。
[0364]
如果正向一致性系数和负向一致性系数满足预设校正规则,则控制设备可以根据用户的位置信息确定用户所在的方向,将目标声源方向更新为用户所在的方向。
[0365]
如果正向一致性系数和负向一致性系数不满足预设校正规则,则控制设备不对目标声源方向进行校正。
[0366]
预设校正规则可以根据实际场景进行设置。例如,在一些实施例中,预设的校正规则可以为正向一致性系数大于负向一致性系数。
[0367]
在另一些实施例中,预设校正规则可以为正向一致性系数大于第一偏差阈值,且负向一致性系数小于第二偏差阈值。
[0368]
第一偏差阈值和第二偏差阈值为预先设置的参数。
[0369]
在另一些实施例中,预设校正规则可以为正向一致性系数和负向一致性系数的差值大于第三偏差阈值。第三偏差阈值为预先设置的参数,且第三偏差阈值大于0。
[0370]
在另一些实施例中,预设校正规则也可以为其他规则,本技术实施例对预设校正规则的具体内容不予限制。
[0371]
控制设备在对目标声源方向进行校正之后,可以向拾音设备发送校正后的目标声源方向,控制拾音设备对校正后的目标声源方向执行音频定向增强操作。
[0372]
例如,请参阅图15,假设房间中设置有家庭中枢41、智能电视42、智能音箱43和毫米波雷达44。其中,家庭中枢41为控制设备,智能音箱43为拾音设备,智能电视42为扬声器设备,毫米波雷达44为检测设备。
[0373]
在某一时刻,用户朝着智能音箱43说话“小艺,小艺,我们聊会天吧”。
[0374]
此时,智能音箱43检测到人声信号,对该人声信号进行识别,得到目标声源方向。
[0375]
然后,智能音箱43向家庭中枢41发送目标声源方向。
[0376]
家庭中枢41接收到目标声源方向之后,向毫米波雷达44发送用户定位指令。
[0377]
毫米波雷达44接收到用户定位指令后,向周围发射毫米波检测信号,以及,接收毫米波反射信号。毫米波雷达44对毫米波反射信号进行识别,得到用户的位置信息。
[0378]
之后,毫米波雷达44向家庭中枢41传递用户的位置信息。
[0379]
家庭中枢41在接收到用户的位置信息之后,将用户的位置信息映射至预先识别的物理坐标系中,根据用户的位置信息和目标声源方向计算正向一致性系数,以及,根据智能电视42的位置信息和目标声源方向计算负向一致性系数。
[0380]
如图16所示,图16为预先识别的物理坐标系。其中,点o表示毫米波雷达44的位置,点a6表示智能音箱43的位置,点b6表示家庭中枢41的位置,点c6表示智能电视42的位置,点d6表示用户的位置。虚线7的箭头方向表示智能音箱43的0度方向在物理坐标系中的映射方向。
[0381]
假设智能音箱43检测到目标声源方向为33度方向,则家庭中枢41可以将虚线7沿点a6逆时针旋转33度,得到虚线8。虚线8的箭头方向表示目标声源方向。
[0382]
然后,家庭中枢41可以计算线段a6-d6与虚线8的夹角5,并根据夹角5计算正向一致性系数;以及,家庭中枢41可以计算线段a6-c6与虚线8的夹角6,并根据夹角6计算负向一致性系数。
[0383]
假设家庭中枢41计算得到的正向一致性系数为0.9,负向一致性系数为0.3。此时,家庭中枢41可以判断正向一致性系数和负向一致性系数是否符合预设校正规则。
[0384]
假设预设校正规则为正向一致性系数大于负向一致性系数。由于家庭中枢41计算得到的正向一致性系数为0.9,大于负向一致性系数0.3,表示正向一致性系数和负向一致性系数符合预设校正规则,上述人声信号有较大的可能是用户发出的人声信号。
[0385]
此时,家庭中枢41可以用夹角5更新目标声源方向。假设夹角5为5度,则表示线段a6-d6与虚线7的夹角为38度(即33度加5度),用户位于极坐标系38度方向,目标声源方向从33度更新为38度。
[0386]
然后,家庭中枢41向智能音箱43发送更新后的目标声源方向,智能音箱43对38度方向执行音频定向增强操作。
[0387]
通过上述示例可知,控制设备可以判断正向一致性系数和负向一致性系数是否符
合预设校正规则,以此识别人声信号是否是用户发出的。比如,在上述示例中,预设校正规则可以是正向一致性系数大于负向一致性系数;在另一些未示出的示例中,预设校正规则也可以是正向一致性系数大于第一偏差阈值,且负向一致性系数小于第二偏差阈值;在另一些未示出的示例中,预设校正规则也可以是正向一致性系数和负向一致性系数的差值大于第三偏差阈值。另一些未示出的示例中,预设校正规则也可以是其他校正规则。
[0388]
当正向一致性系数和负向一致性系数符合预设校正规则时,表示上述人声信号有较大可能是用户发出的。当正向一致性系数和负向一致性系数不符合校正规则时,表示上述人声信号有较大可能是扬声器设备发出的。
[0389]
因此,当正向一致性系数和负向一致性系数符合预设校正规则时,控制设备可以将上述目标声源位置方向更新为用户所在的方向。然后,控制设备可以控制拾音设备对校正后的目标声源方向执行音频定向增强操作,从而提高拾音设备对用户所在方向的拾音效果。
[0390]
在另一些可能的实现方式中,控制设备可以根据上述正向一致性系数和负向一致性系数定向调节目标声源方向的拾音效果。
[0391]
拾音设备上可能设置有多个麦克风,每个麦克风对应一个音频通道。拾音设备上的多个麦克风采集到声音信号之后,各个麦克风采集到的声音信号分别通过相应的音频通道汇聚形成波束。
[0392]
因此,控制设备在获取到目标声源方向之后,可以将拾音设备在目标声源方向的音频通道确定为目标音频通道。
[0393]
然后,控制设备可以根据上述正向一致性系数和负向一致性系数调节目标音频通道的信号在波束中所占的信号比例。
[0394]
上述信号比例与正向一致性系数呈正相关关系,上述信号比例与负向一致性系数呈负相关关系。
[0395]
也即是说,正向一致性系数越大,则上述信号比例越大;正向一致性系数越小,则上述信号比例越小。负向一致性系数越大,则上述信号比例越小;负向一致性系数越小,则上述信号比例越大。
[0396]
上述信号比例的具体调节方式可以根据实际需求进行设置。
[0397]
在一些实施例中,上述信号比例与正向一致性系数和负向一致性系数的关系可以通过公式(7)表示:
[0398]
k=k*f/g
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0399]
其中,k表示更新后的信号比例,k表示更新前的信号比例。
[0400]
在另一些实施例中,上述信号比例与正向一致性系数和负向一致性系数的关系也可以通过公式(8)表示:
[0401]
k=k+f-g
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0402]
在另一些实施例中,上述信号比例与正向一致性系数和负向一致性系数的关系也可以通过公式(9)表示:
[0403]
k=k*f-g
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0404]
在另一些实施例中,控制设备也可以通过其他方式调节信号比例,本技术实施例对控制设备调节信号比例的具体方式不予限制。
[0405]
例如,请参阅图15,假设房间中设置有家庭中枢41、智能电视42、智能音箱43和毫米波雷达44。其中,家庭中枢41为控制设备,智能音箱43为拾音设备,智能电视42为扬声器设备,毫米波雷达44为检测设备。
[0406]
如图17所示,假设智能音箱43的麦克风阵列包括6个麦克风,即图17中的麦克风431、麦克风432、麦克风433、麦克风434、麦克风435和麦克风436。其中,由于各个麦克风的设置位置存在差异,因此,每个麦克风对应的主要拾音区域存在一定的区别。比如,麦克风431对应的主要拾音区域为区域1,麦克风432对应的主要拾音区域为区域2,麦克风433对应的主要拾音区域为区域3,麦克风434对应的主要拾音区域为区域4,麦克风435对应的主要拾音区域为区域5,麦克风436对应的主要拾音区域为区域6。
[0407]
智能音箱43在拾音的过程中,每个麦克风对应一个音频通道,各个麦克风采集到的声音信号分别通过相应的音频通道汇聚形成波束。每个音频通道对应的信号比例表示该音频通道的声音信号在波束中所占的比例。每个麦克风对应的音频通道的信号比例均为默认的16.7%。信号比例的调节公式可以选用上述公式(7)。
[0408]
在某一时刻,用户朝着智能音箱43说话“小艺,小艺,我们聊会天吧”。
[0409]
此时,智能音箱43检测到人声信号,对该人声信号进行识别,得到目标声源方向。
[0410]
然后,智能音箱43向家庭中枢41发送目标声源方向。
[0411]
家庭中枢41接收到目标声源方向之后,向毫米波雷达44发送用户定位指令。
[0412]
毫米波雷达44接收到用户定位指令后,向周围发射毫米波检测信号,以及,接收毫米波反射信号。毫米波雷达44对毫米波反射信号进行识别,得到用户的位置信息。
[0413]
然后,毫米波雷达44向家庭中枢41传递用户的位置信息。
[0414]
家庭中枢41在接收到用户的位置信息之后,将用户的位置信息映射至预先识别的物理坐标系中,根据用户的位置信息和目标声源方向计算正向一致性系数,以及,根据智能电视42的位置信息和目标声源方向计算负向一致性系数。
[0415]
如图16所示,图16为预先识别的物理坐标系。其中,点o表示毫米波雷达44的位置,点a6表示智能音箱43的位置,点b6表示家庭中枢41的位置,点c6表示智能电视42的位置,点d6表示用户的位置。虚线7的箭头方向表示智能音箱43的0度方向在物理坐标系中的映射方向。
[0416]
假设智能音箱43检测到目标声源方向为33度方向,则家庭中枢41可以将虚线7沿点a6逆时针旋转33度,得到虚线8。虚线8的箭头方向表示目标声源方向。
[0417]
然后,家庭中枢41可以计算线段a6-d6与虚线8的夹角5,并根据夹角5计算正向一致性系数;以及,家庭中枢41可以计算线段a6-c6与虚线8的夹角6,并根据夹角6计算负向一致性系数。
[0418]
假设家庭中枢41计算得到的正向一致性系数为0.9,负向一致性系数为0.3。
[0419]
此时,家庭中枢41将正向一致性系数、负向一致性系数和默认的信号比例的数值代入公式(7),得到更新后的信号比例为16.7%*0.9/0.3=50.1%。
[0420]
然后,家庭中枢41向智能音箱43发送更新后的信号比例。
[0421]
假设目标声源方向对应的目标音频通道为麦克风432对应的音频通道,则智能音箱43接收到更新后的信号比例之后,将麦克风432对应的音频通道的信号比例提高至50.1%,将其他麦克风对应的音频通道的信号比例调低至9.98%。
[0422]
通过上述示例可知,控制设备可以根据正向一致性系数和负向一致性系数对目标音频通道的信号比例进行调节。
[0423]
当上述人声信号有较大可能是用户发出的人声信号时,控制设备根据正向一致性系数和负向一致性系数调高目标音频通道的信号比例,使得拾音设备可以更为清晰的采集目标声源方向的音频信号。
[0424]
当上述人声信号有较大可能是扬声器设备发出的人声信号时,控制设备通过正向一致性系数和负向一致性系数调低目标音频通道的信号比例,使得拾音设备可以减少目标声源方向的干扰。
[0425]
在另一些可能的实现方式中,控制设备也可以结合实际场景的需求,根据正向一致性系数和负向一致性系数实施其他响应策略。本技术实施例对上述响应策略的具体内容不予限制。
[0426]
此外,需要说明的是,虽然以上描述各个实施例中,控制设备根据正向一致系数和负向一致性系数两者共同确定响应策略,但是,在另外一些可能的实施例中,控制设备也可以单独根据正向一致性系数或负向一致性系数确定响应策略。
[0427]
例如,控制设备在获取到命令词的词汇置信度时,控制设备可以通过公式(10),单独根据正向一致性系数对上述词汇置信度进行调节,公式(10)的表达式为:
[0428]
t=t+f
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0429]
或者,控制设备也可以通过公式(11),单独根据负向一致性系数对上述词汇置信度进行调节,公式(11)的表达式为:
[0430]
t=t-g
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0431]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
[0432]
以下,将从控制设备的角度,对本技术实施例提供的另一种人声信号响应方法进行详细说明。请参阅图18,本实施例提供的人声信号响应方法包括:
[0433]
s181、当拾音设备采集到人声信号时,控制设备获取人声信号的目标声源方向,拾音设备为具备麦克风的电子设备。
[0434]
在本实施例中,拾音设备是指具备麦克风的电子设备,扬声器设备是指具备扬声器的电子设备。
[0435]
拾音设备可以采集周围环境的声音信号,检测声音信号中是否存在人声信号,并在检测到人声信号时,向控制设备发送人声信号的声源方向。
[0436]
或者,拾音设备也可以采集周围的声音信号,将声音信号发送给控制设备,由控制设备检测上述声音信号中是否存在人声信号。
[0437]
当控制设备检测到上述声音信号中存在人声信号时,控制设备获取该人声信号的目标声源方向。
[0438]
s182、控制设备获取目标对象的位置信息,目标对象包括用户和/或扬声器设备,扬声器设备为具备扬声器的电子设备。
[0439]
控制设备在获取到人声信号的目标声源方向之后,控制对象可以获取目标对象的位置信息。
[0440]
目标对象可以包括用户和/或扬声器设备的位置信息。
[0441]
具体地,控制设备可以通过毫米波雷达、摄像头等具备扫描和/或检测功能的电子设备检测用户和扬声器设备的位置信息。
[0442]
并且,当目标对象包括用户时,如果控制设备在当前区域中检测到用户的位置信息,则控制设备可以根据用户的位置信息执行后续的步骤。
[0443]
如果控制设备未能在当前区域中检测用户的位置信息,则表示用户不在当前区域,上述人声信号不是用户发出的人声信号,控制设备可以不对人声信号进行响应。
[0444]
s183、控制设备根据目标声源方向和目标对象的位置信息,确定人声信号的响应策略。
[0445]
控制设备在获取到目标声源方向和目标对象的位置信息之后,可以根据目标声源方向和目标对象信息判断上述人声信号是否为用户发出的人声信号,并依此确定相应的响应策略。
[0446]
具体地,控制设备根据目标声源方向和目标对象的位置信息,确定人声信号的响应策略包括:
[0447]
控制设备根据目标声源方向和目标对象的位置信息,确定目标对象的位置信息与目标声源方向的偏差程度;
[0448]
控制设备根据偏差程度,确定人声信号的响应策略。
[0449]
需要说明的是,上述偏差程度表示目标对象和目标声源方向的偏差大小。偏差程度越大,则表示目标对象与目标声源方向的差距越大;偏差越小,则表示目标对象与目标声源方向越接近。
[0450]
因此,控制设备可以根据偏差程度,确定上述人声信号与目标对象的关系,进而确定相应的响应策略。
[0451]
在一些可能的实现方式中,控制设备根据偏差程度,确定人声信号的响应策略,包括:
[0452]
当控制设备根据偏差程度,确定人声信号为用户发出的人声信号时,控制设备对人声信号进行响应;
[0453]
当控制设备根据偏差程度,确定人声信号为扬声器设备发出的人声信号时,控制设备不对人声信号进行响应。
[0454]
需要说明的是,控制设备可以直接根据偏差程度确定目标对象与上述人声信号的关系。
[0455]
例如,当目标对象包括扬声器设备,如果扬声器设备与目标对象的第一偏差程度越大,则表示上述人声信号越不可能是扬声器设备发出的;如果扬声器设备与目标对象的第一偏差程度越小,则表示上述人声信号越有可能是扬声器设备发出的。
[0456]
当目标对象为用户,如果用户与目标对象的第二偏差程度越大,则表示上述人声信号越不可能是用户发出的;如果用户与目标对象的第二偏差程度越小,则表示上述人声信号越有可能是用户发出的。
[0457]
当控制设备根据偏差程度,确定人声信号为用户发出的人声信号时,控制设备可以对该人声信号进行响应。
[0458]
当控制设备根据偏差程度,确定人声信号为扬声器设备发出的人声信号时,控制
设备可以不对人声信号进行响应,降低误识别的可能性,减少误操作对用户造成的影响。
[0459]
此外,上述响应策略可以包括对人声信号进行响应和不对人声信号进行响应。
[0460]
并且,控制设备对人声信号的响应方式可以根据实际场景进行设置。比如,当人声信号包括命令词时,控制设备对人声信号进行响应的方式可以为:
[0461]
控制设备执行命令词对应的操作,或者,控制设备向命令词对应的智能家居设备发送控制指令。
[0462]
例如,假设控制设备为智能音箱,人声信号中的命令词为“播放音乐”。此时,智能音箱具备该命令词对应的功能,智能音箱可以执行“播放音乐”对应的操作。
[0463]
假设控制设备为家庭中枢,人声信号中的命令词为“打开空调”。此时,家庭中枢不具备该命令词对应的功能,所以,家庭中枢可以向智能空调发送控制指令。智能空调接收到控制指令之后,执行“打开空调”对应的操作。
[0464]
在另一些可能的实现方式中,目标对象包括用户和扬声器设备;偏差程度包括扬声器设备的位置信息与目标声源方向的第一偏差程度,以及,用户的位置信息与目标声源方向的第二偏差程度;
[0465]
控制设备根据偏差程度,确定人声信号的响应策略,包括:
[0466]
控制设备根据第一偏差程度计算负向一致性系数;
[0467]
控制设备根据第二偏差程度计算正向一致性系数;
[0468]
控制设备根据正向一致性系数和负向一致性系数确定人声信号的响应策略。
[0469]
需要说明的是,负向一致性系数和第一偏差程度呈负相关关系。第一偏差程度越大,则负向一致性系数越小,表示扬声器设备和目标声源方向的偏差越大;第一偏差程度越小,则负向一致性系数越大,表示扬声器设备和目标声源方向越接近。
[0470]
正向一致性系数和第二偏差程度呈负相关关系。第二偏差程度越大,则正向一致性系数越小,表示用户和目标声源方向的偏差越大;第二偏差程度越小,则正向一致性系数越大,表示用户和目标声源方向越接近。
[0471]
控制设备在获取到正向一致性系数和负向一致性系数之后,可以根据正向一致性系数和负向一致性系数确定上述人声信号是否为用户发出的人声信号,进而确定该人声信号的响应策略,降低误识别的可能性。
[0472]
在一些实施例中,人声信号包括命令词;控制设备根据正向一致性系数和负向一致性系数确定人声信号的响应策略,包括:
[0473]
控制设备获取命令词对应的词汇置信度和置信度阈值;
[0474]
控制设备根据正向一致性系数和负向一致性系数调节词汇置信度,或者,调节置信度阈值;
[0475]
若调节后的词汇置信度大于置信度阈值,或者,词汇置信度大于调节后的置信度阈值,则控制设备执行命令词对应的操作,或者,控制设备向命令词对应的智能家居设备发送控制指令。
[0476]
需要说明的是,当上述人声信号包括命令词时,控制设备可以获取该命令词对应的词汇置信度和置信度阈值。词汇置信度是指识别到该命令词的可信程度。
[0477]
然后,控制设备可以根据正向一致性系数和负向一致性系数调节词汇置信度或置信度阈值。
[0478]
当控制设备根据正向一致性系数和负向一致性系数调节命令词的词汇置信度时,正向一致性系数与调节后的词汇置信度呈正相关关系,负向一致性系数与调节后的词汇置信度呈负相关关系。
[0479]
也即是说,正向一致性系数越大,则表示上述人声信号越有可能是用户发出的,控制设备可以适当调高词汇置信度;正向一致性系数越小,则表示上述人声信号越不可能是用户发出的,控制设备可以适当调低词汇置信度。
[0480]
负向一致性系数越大,则表示上述人声信号越有可能是扬声器设备发出的,控制设备可以适当调低词汇置信度;负向一致性系数越小,则表示上述人声信号越不可能是扬声器设备发出的,控制设备可以适当调高词汇置信度。
[0481]
当控制设备根据正向一致性系数和负向一致性系数调节命令词的置信度阈值时,正向一致性系数与调节后的置信度阈值呈负相关关系,负向一致性系数与调节后的置信度阈值呈正相关关系。
[0482]
也即是说,正向一致性系数越大,则调节后的置信度阈值越小;正向一致性系数越小,则调节后的置信度阈值越大。
[0483]
负向一致性系数越大,则调节后的置信度阈值越大;负向一致性系数越小,则调节后置信度阈值越小。
[0484]
控制设备在调节了命令词的词汇置信度或置信度阈值之后,可以将命令词的词汇置信度与置信度阈值进行比较。
[0485]
当词汇置信度小于或等于置信度阈值时,表示命令词识别失败,控制设备可以不响应该命令词。
[0486]
当词汇置信度大于置信度阈值时,表示命令词识别成功,控制设备可以执行该命令词对应的操作,或者,控制设备向该命令词对应的智能家居设备发送控制指令,智能家居设备在接收到控制指令之后,智能家居设备执行该命令词对应的操作。
[0487]
在以上描述的方法中,控制设备对命令词的词汇置信度/置信度阈值进行更新,并根据更新后的词汇置信度和置信度阈值对命令词进行二次判断,可以提高命令词识别的准确度,减少因电子设备发声而导致命令词误识别的可能性,提高用户的使用体验。
[0488]
在另一些实施例中,控制设备根据正向一致性系数和负向一致性系数确定人声信号的响应策略,包括:
[0489]
当正向一致性系数和负向一致性系数符合预设的校正规则时,控制设备将目标声源方向更新为用户所在的方向;
[0490]
控制设备控制拾音设备对更新后的目标声源方向执行音频定向增强操作。
[0491]
需要说明的是,预设的校正规则为正向一致性系数大于负向一致性系数;
[0492]
或者,预设的校正规则为正向一致性系数大于第一偏差阈值,且负向一致性系数小于第二偏差阈值;
[0493]
或者,预设的校正规则为正向一致性系数和负向一致性系数的差值大于第三偏差阈值。
[0494]
当正向一致性系数和负向一致性系数符合预设校正规则时,表示上述人声信号有较大可能是用户发出的。当正向一致性系数和负向一致性系数不符合校正规则时,表示上述人声信号有较大可能是扬声器设备发出的。
[0495]
因此,当正向一致性系数和负向一致性系数符合预设校正规则时,控制设备可以将上述目标声源位置方向更新为用户所在的方向。然后,控制设备可以控制拾音设备对校正后的目标声源方向执行音频定向增强操作,从而提高拾音设备对用户所在方向的拾音效果。
[0496]
在另一些实施例中,控制设备根据正向一致性系数和负向一致性系数确定人声信号的响应策略,包括:
[0497]
控制设备根据正向一致性系数和负向一致性系数调节目标音频通道对应的信号比例,目标音频通道为目标声源方向对应的音频通道。
[0498]
需要说明的是,拾音设备上可能设置有多个麦克风,每个麦克风对应一个音频通道。拾音设备上的多个麦克风采集到声音信号之后,各个麦克风采集到的声音信号分别通过相应的音频通道汇聚形成波束。
[0499]
因此,控制设备在获取到目标声源方向之后,可以将拾音设备在目标声源方向的音频通道确定为目标音频通道。
[0500]
然后,控制设备可以根据上述正向一致性系数和负向一致性系数调节目标音频通道的信号在波束中所占的信号比例。
[0501]
上述信号比例与正向一致性系数呈正相关关系,上述信号比例与负向一致性系数呈负相关关系。
[0502]
也即是说,正向一致性系数越大,则上述信号比例越大;正向一致性系数越小,则上述信号比例越小。负向一致性系数越大,则上述信号比例越小;负向一致性系数越小,则上述信号比例越大。
[0503]
控制设备根据所述正向一致性系数和所述负向一致性系数调节目标音频通道对应的信号比例。
[0504]
当上述人声信号有较大可能是用户发出的人声信号时,控制设备根据正向一致性系数和负向一致性系数调高目标音频通道的信号比例,使得拾音设备可以更为清晰的采集目标声源方向的音频信号。
[0505]
当上述人声信号有较大可能是扬声器设备发出的人声信号时,控制设备通过正向一致性系数和负向一致性系数调低目标音频通道的信号比例,使得拾音设备可以减少目标声源方向的干扰。
[0506]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
[0507]
对应于以上实施例所描述的人声信号响应方法,图19示出了本技术实施例提供的人声信号响应装置的结构框图,为了便于说明,仅示出了与本技术实施例相关的部分。
[0508]
该装置可以应用于控制设备,参照图19,该装置包括:
[0509]
声源方向模块191,用于当拾音设备检测采集到人声信号时,获取所述人声信号的目标声源方向;
[0510]
位置信息模块192,用于获取目标对象的位置信息,所述目标对象包括用户和/或扬声器设备,所述扬声器设备为具备扬声器的电子设备;
[0511]
响应策略模块193,用于根据所述目标声源方向和所述目标对象的位置信息,确定
所述人声信号的响应策略。
[0512]
可选地,所述人声信号的响应策略包括对所述人声信号进行响应和不对所述人声信号进行响应。
[0513]
可选地,所述人声信号包括命令词;所述进行响应包括:
[0514]
所述控制设备执行所述命令词对应的操作,或者,所述控制设备向所述命令词对应的智能家居设备发送控制指令。
[0515]
可选地,所述响应策略模块193,包括:
[0516]
偏差子模块,用于根据所述目标声源方向和所述目标对象的位置信息,确定所述目标对象的位置信息与所述目标声源方向的偏差程度;
[0517]
策略子模块,用于根据所述偏差程度,确定所述人声信号的响应策略。
[0518]
可选地,所述策略子模块,包括:
[0519]
响应子模块,用于当所述控制设备根据所述偏差程度,确定所述人声信号为所述用户发出的人声信号时,对所述人声信号进行响应;
[0520]
静默子模块,用于当所述控制设备根据所述偏差程度,确定所述人声信号为所述扬声器设备发出的人声信号时,不对所述人声信号进行响应。
[0521]
可选地,所述目标对象包括用户和扬声器设备;所述偏差程度包括所述扬声器设备的位置信息与所述目标声源方向的第一偏差程度,以及,所述用户的位置信息与所述目标声源方向的第二偏差程度;
[0522]
所述策略子模块,包括:
[0523]
负向系数子模块,用于根据所述第一偏差程度计算负向一致性系数;
[0524]
正向系数子模块,用于根据所述第二偏差程度计算正向一致性系数;
[0525]
综合决策子模块,用于根据所述正向一致性系数和所述负向一致性系数确定所述人声信号的响应策略。
[0526]
可选地,所述人声信号包括命令词;所述综合决策子模块,包括:
[0527]
置信度子模块,用于获取所述命令词对应的词汇置信度和置信度阈值;
[0528]
调节子模块,用于根据所述正向一致性系数和所述负向一致性系数调节所述词汇置信度,或者,调节所述置信度阈值;
[0529]
操作子模块,用于若调节后的词汇置信度大于所述置信度阈值,或者,所述词汇置信度大于调节后的置信度阈值,则执行所述命令词对应的操作,或者,向所述命令词对应的智能家居设备发送控制指令。
[0530]
可选地,所述综合决策子模块,包括:
[0531]
方向更新子模块,用于当所述正向一致性系数和所述负向一致性系数符合预设的校正规则时,将所述目标声源方向更新为所述用户所在的方向;
[0532]
定向拾音子模块,用于控制拾音设备对更新后的目标声源方向执行音频定向增强操作,所述拾音设备为具备麦克风的电子设备。
[0533]
可选地,所述预设的校正规则为所述正向一致性系数大于所述负向一致性系数;
[0534]
或者,所述预设的校正规则为所述正向一致性系数大于第一偏差阈值,且所述负向一致性系数小于第二偏差阈值;
[0535]
或者,所述预设的校正规则为所述正向一致性系数和所述负向一致性系数的差值
大于第三偏差阈值。
[0536]
可选地,所述综合决策子模块,包括:
[0537]
比例调节子模块,用于根据所述正向一致性系数和所述负向一致性系数调节目标音频通道对应的信号比例,所述目标音频通道为所述目标声源方向对应的音频通道。
[0538]
可选地,所述目标对象包括用户;所述装置还包括:
[0539]
拒绝响应模块,用于当所述控制设备未获取到用户的位置信息时,不对所述人声信号进行响应。
[0540]
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本技术方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
[0541]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0542]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0543]
在本技术所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0544]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0545]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0546]
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述
计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
[0547]
最后应说明的是:以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何在本技术揭露的技术范围内的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1