音频输出方法、装置、电子设备和可读存储介质与流程

文档序号：31873372发布日期：2022-10-21 20:22阅读：58来源：国知局

1.本技术属于人工智能技术领域，具体涉及一种音频输出方法、装置、电子设备和可读存储介质。

背景技术：

2.目前，电子设备可同时播放多个声音。例如，电子设备中两个软件同时运行，一个在播放影视剧，另一个在播放短视频，从而电子设备播放的声音是两种声音混合后的声音。
3.在实际应用中，若用户不想听到混合声音，而是想针对性地听到某个软件发出的声音，则需要手动关闭其它软件，或者关闭其它软件的声音。尤其是用户需要频繁地切换播放声音时，则需要频繁地关闭软件或者关闭软件声音。
4.可见，在现有技术中，在电子设备同时播放多个声音的场景下，用户想要单独听到某个声音时，操作较为繁琐。

技术实现要素：

5.本技术实施例的目的是提供一种音频输出方法，能够解决在现有技术中，在电子设备同时播放多个声音的场景下，用户想要单独听到某个声音时，操作较为繁琐的问题。
6.第一方面，本技术实施例提供了一种音频输出方法，该方法包括：电子设备输出至少两个音频信号；获取与所述电子设备连接的至少一个目标设备的目标位置信息；根据所述目标位置信息，获取与所述目标位置信息对应的目标图像；在所述目标图像包括目标用户的情况下，获取所述目标用户的眼睛在所述电子设备的屏幕上的注视信息；在所述注视信息关联于所述屏幕上显示的第一界面的情况下，向所述目标设备输出所述第一界面对应的第一音频信号，所述至少两个音频信号包括所述第一音频信号。
7.第二方面，本技术实施例提供了一种音频输出装置，该装置包括：第一输出模块，用于电子设备输出至少两个音频信号；第一获取模块，用于获取与所述电子设备连接的至少一个目标设备的目标位置信息；第二获取模块，用于根据所述目标位置信息，获取与所述目标位置信息对应的目标图像；第三获取模块，用于在所述目标图像包括目标用户的情况下，获取所述目标用户的眼睛在所述电子设备的屏幕上的注视信息；第二输出模块，用于在所述注视信息关联于所述屏幕上显示的第一界面的情况下，向所述目标设备输出所述第一界面对应的第一音频信号，所述至少两个音频信号包括所述第一音频信号。
8.第三方面，本技术实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
9.第四方面，本技术实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
10.第五方面，本技术实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方
法。
11.第六方面，本技术实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
12.这样，在本技术的实施例中，电子设备同时输出至少两个音频信号，可以获取与电子设备连接至少一个目标设备的目标位置信息，进而根据目标设备的目标位置信息，在目标位置对应的场景进行图像采集，以获取采集到的目标图像，并在目标图像中确定佩戴目标设备的目标用户。进一步地，在目标图像包括目标用户的情况下，利用摄像头对目标用户的眼睛进行追踪，以获取用户眼睛在电子设备的屏幕上的注视信息，从而在基于注视信息，得到用户眼睛长时间注视的第一界面，即注视信息关联于第一界面，进而向目标设备输出第一界面对应的第一音频信号。可见，基于本技术的实施例，电子设备同时输出至少两个音频信号，可针对用户对屏幕某一区域的观看情景，选择性地向用户佩戴的设备输出该区域播放的音频信号，从而避免用户手动操作，智能地为用户播放某个音频信号，以达到简化用户操作的目的。
附图说明
13.图1是本技术实施例的音频输出方法的流程图；
14.图2是本技术实施例的电子设备与目标设备的位置示意图；
15.图3是本技术实施例的信号示意图之一；
16.图4是本技术实施例的信号示意图之二；
17.图5是本技术实施例的电子设备的显示示意图；
18.图6是本技术实施例的音频输出装置的框图；
19.图7是本技术实施例的电子设备的硬件结构示意图之一；
20.图8是本技术实施例的电子设备的硬件结构示意图之二。
具体实施方式
21.下面将结合本技术实施例的附图，对本技术实施例的技术方案进行清楚地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术的实施例，本领域普通技术人员获得的所有其他实施例，都属于本技术保护的范围。
22.本技术的说明书和权利要求书的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。
23.本技术实施例提供的音频输出方法，其执行主体可以是本技术实施例提供的音频输出装置，或者集成了该音频输出装置的电子设备，其中该音频输出装置可以采用硬件或软件的方式实现。
24.下面结合附图，通过具体的实施例及其应用场景对本技术实施例提供的音频输出方法进行详细地说明。
25.图1示出了本技术一个实施例的音频输出方法的流程图，以该方法应用于电子设备进行举例，包括：
26.步骤110：电子设备输出至少两个音频信号。
27.可选地，电子设备为手机设备、平板设备等。
28.本实施例的应用场景如，电子设备中的多个音频文件同时运行，分别播放不同的音频信号。
29.例如，直播软件和视频软件同时运行，一个播放直播音频，一个播放影视剧音频。
30.步骤120：获取与电子设备连接的至少一个目标设备的目标位置信息。
31.可选地，目标设备为耳机设备等。
32.可选地，电子设备与目标设备之间通过蓝牙数据连接，对应地，电子设备和目标设备之间可以进行蓝牙数据的传输。
33.进一步地，基于双方之间的蓝牙数据的传输，可使得目标设备播放电子设备中的音频信号。
34.可选地，目标位置信息为目标设备相对于电子设备的相对位置信息。
35.例如，目标位置信息包括相对电子设备的角度，进一步地，目标位置信息还包括相对于电子设备的距离。
36.可选地，在电子设备与多个目标设备连接的情况下，分别获取各个目标设备的目标位置信息。
37.步骤130：根据目标位置信息，获取与目标位置信息对应的目标图像。
38.在该步骤中，基于获取到的目标位置信息，电子设备中的摄像头可以朝向目标位置信息所指范围采集图像，即针对该范围内的目标设备进行图像采集。
39.在该步骤中，采集到的图像为目标图像。
40.可选地，电子设备与多个目标设备连接时，佩戴各个目标设备的各个用户同时观看电子设备的屏幕，使得各个用户均可以处于电子设备的摄像头的采集范围，从而确保摄像头可以基于各个目标位置信息进行图像采集。
41.可选地，摄像头为前置摄像头。
42.可选地，在电子设备与多个目标设备连接的情况下，分别获取各个目标位置信息对应的目标图像。
43.步骤140：在目标图像包括目标用户的情况下，获取目标用户的眼睛在电子设备的屏幕上的注视信息。
44.基于电子设备采集到的目标图像，可以确定目标图像中包括的目标用户，目标用户即佩戴目标设备的用户。
45.其中，摄像头的采集范围至少覆盖佩戴目标设备的目标用户的人脸区域，一方面便于在目标图像中确定目标用户，另一方面，便于摄像头对人脸区域中的眼睛进行追踪。
46.对应地，在该步骤中，在目标图像包括目标用户的情况下，可对目标用户的眼睛进行追踪，以达到追踪目标用户的视线的目的，从而可以获取到目标用户的眼睛在电子设备的屏幕上的注视信息。
47.可选地，在电子设备与多个目标设备连接的情况下，分别获取各个目标设备对应的目标用户的眼睛在电子设备的屏幕上的注视信息。
48.步骤150：在注视信息关联于屏幕上显示的第一界面的情况下，向目标设备输出第一界面对应的第一音频信号，至少两个音频信号包括第一音频信号。
49.可选地，至少两个音频信号中的第一音频信号，是由屏幕上的第一界面播放发出的，因此，若基于对目标用户的眼睛的追踪，检测到目标用户的眼睛在观看第一界面，则可以单独向目标用户对应的目标设备输出第一界面对应的第一音频信号。
50.可选地，在电子设备与多个目标设备连接的情况下，分别向各个目标设备输出对应目标用户所观看界面的音频信号。
51.可选地，在该步骤中，注视信息关联于屏幕上显示的第一界面，默认为用户的眼睛更多地在观看第一界面。
52.这样，在本技术的实施例中，电子设备同时输出至少两个音频信号，可以获取与电子设备连接至少一个目标设备的目标位置信息，进而根据目标设备的目标位置信息，在目标位置对应的场景进行图像采集，以获取采集到的目标图像，并在目标图像中确定佩戴目标设备的目标用户。进一步地，在目标图像包括目标用户的情况下，利用摄像头对目标用户的眼睛进行追踪，以获取用户眼睛在电子设备的屏幕上的注视信息，从而在基于注视信息，得到用户眼睛长时间注视的第一界面，即注视信息关联于第一界面，进而向目标设备输出第一界面对应的第一音频信号。可见，基于本技术的实施例，电子设备同时输出至少两个音频信号，可针对用户对屏幕某一区域的观看情景，选择性地向用户佩戴的设备输出该区域播放的音频信号，从而避免用户手动操作，智能地为用户播放某个音频信号，以达到简化用户操作的目的。
53.在本技术另一个实施例的音频输出方法的流程中，步骤120，包括：
54.子步骤a1：发送第一超宽带(ultra wide band，uwb)信号。
55.子步骤a2：在目标设备接收到第一uwb信号的情况下，接收目标设备基于第一uwb信号发送的第二uwb信号。
56.可选地，电子设备包括第一uwb模块，目标设备包括第二uwb模块，第一uwb模块和第二uwb模块之间可以进行uwb信号的传输。
57.因此，电子设备可以发送uwb信号，也可以接收uwb信号；同理，目标设备可以发送uwb信号，也可以接收uwb信号。
58.在本实施例中，电子设备发送第一uwb信号，目标设备接收第一uwb信号，并基于第一uwb信号向电子设备反馈第二uwb信号，从而电子设备接收反馈回来的第二uwb信号。
59.子步骤a3：根据第二uwb信号，获取目标设备的目标位置信息。
60.参见图2，电子设备201可以获取到目标设备202或者目标设备203，相对电子设备201的角度、距离，作为目标位置信息。
61.在本实施例中，基于电子设备与目标设备之间互相传输uwb信号，使得电子设备可以通过uwb信号，判断出目标设备位于相对于电子设备的角度和距离，从而可以准确针对目标设备进行图像采集，以便于后续针对佩戴目标设备的目标用户的眼睛进行追踪。
62.在本技术另一个实施例的音频输出方法的流程中，目标图像为视频图像；对应地，在步骤140之前，该方法还包括：
63.步骤b1：在视频图像中包括人脸子图像的情况下，根据视频图像，获取人脸子图像对应的生命体征信号。
64.步骤b2：在生命体征信号指示人体生命体征信号的情况下，确定与人脸子图像对应的目标用户。
65.在本实施例中，摄像头采集的图像是持续性的，而采集到的所有帧图像，可以形成一段视频，进一步地，在视频中识别到人脸子图像后，，基于后续的视频内容，可以获取到该人脸子图像对应的生命体征信号。
66.因在一些场景中，采集到的视频中出现的人脸子图像可能并不是真实人体的人脸，而是图片等中的非真实人体的人脸。因此，在采集的视频中，可以通过人脸子图像，提取对应的生命特征信号，并利用生命特征信号进行生物识别，以判断提取出来的生命特征信号是否指示人体生命特征信号。
67.例如，判断生命特征信号是否有明显的脉搏规律。如图3所示信号有明显的变化规律，为真实人体生命特征信号；如图4所示信号变化规律不明显，为非真实人体生命特征信号，如环境噪声等。
68.其中，可以根据人脸特征，在采集的图像中识别人脸子图像，以将人脸子图像对应的用户作为确定为目标用户。
69.在本实施例中，通过采集图像的方式，可以基于目标位置信息，在目标设备处识别人脸，并进一步判断该人脸是真实人体的人脸，还是图片等中的人脸，从而在目标设备处确定真实人体的人脸的情况下，将该人脸确定为目标用户的人脸，并对目标用户的眼睛视线进行追踪。可见，本实施例能够较为准确地确定目标图像中包括的目标用户，以确保后续步骤的正常进行。
70.在本技术另一个实施例的音频输出方法的流程中，步骤140，包括：
71.子步骤c1：获取目标时长内目标用户的眼睛基于对电子设备的屏幕的注视，形成的眼动追踪热图。
72.其中，眼动追踪热图用于体现眼睛在屏幕上的注视位置点，以及与注视位置点对应的注视时长。
73.可选地，目标时长的设置是为了便于对一段时间内的视线进行追踪，因为某时刻的视线具有偶然性，这样可以确保所得到的追踪结果能够体现真实的观看情景。
74.在本实施例中，摄像头对目标用户的人脸进行眼动追踪，以获取目标用户的眼睛基于在屏幕上的注视，形成的眼动追踪热图。
75.其中，在眼动追踪热图中，能够体现出目标用户注视在屏幕上的所有位置点，定义为注视位置点，以及在每个注视位置点上停留的时长，定义为注视时长。例如，在某个注视位置点停留的时间越长，这个注视位置点的颜色就会越深，从而基于眼动追踪热图，可以分析出在目标时长内，用户的眼睛在观看屏幕中的哪个区域。
76.可选地，屏幕被划分为多个区域，每个区域用于显示一个界面；进一步地，每个界面对应地发出一个音频信号。
77.例如，参见图5，屏幕上同时显示第一视频的播放界面501和第二视频的播放界面502，图中的注视位置点503为眼动追踪热图中的一个注视位置点。
78.可选地，摄像头基于目标位置信息，以及和人脸子图像中的眼睛特征，确定眼睛相对于电子设备的角度和距离，从而可以对目标用户的眼睛进行精确追踪。
79.在本实施例中，通过摄像头对目标用户的眼睛进行追踪，可以锁定目标用户在一
段时长内注视屏幕上的哪个区域，从而控制为目标用户所佩戴的目标设备单独该音频信号。可见，本实施例智能为用户选择播放的音频信号，满足用户的观看需求。
80.在本技术另一个实施例的音频输出方法的流程中，在步骤150之前，该方法还包括以下至少一项：
81.步骤d1：在根据注视信息得到位于第一界面内的注视位置点的数量大于第一阈值的情况下，确定注视信息关联于第一界面。
82.在该步骤中，一种确定注视信息的关联关系的方式为，在屏幕中，找到注视位置点密集分布的区域，从而将该区域对应的界面，确定为与注视信息关联的界面。
83.其中，在某区域内，注视位置点的数量大于第一阈值，认为注视位置点在该区域内分布密集。
84.例如，第一阈值可由系统自定义；又如，第一阈值可由用户手动定义。
85.步骤d2：在根据注视信息得到注视第一界面的注视时长大于第二阈值的情况下，确定注视信息关联于第一界面。
86.在该步骤中，另一种确定注视信息的关联关系的方式为，在屏幕中，找到注视位置点的颜色较深的分布区域，从而将该区域对应的界面，确定为与注视信息关联的界面。
87.其中，在某区域内，若眼睛观看该区域的时长大于第二阈值，则注视位置点的颜色可以深到某种程度。
88.例如，第二阈值可由系统自定义；又如，第二阈值可由用户手动定义。
89.可选地，不同的注视时长对应不同的背景颜色。
90.可选地，以上两个步骤可组合使用，即找到某个区域，该区域上的注视位置点分布较多，且注视位置点的颜色较深，将该区域对应的界面，作为第一界面。
91.在本实施例中，在屏幕中显示多个界面，且多个界面均播放音频信号的情况下，可以根据目标用户在每个界面上的子注视信息，找到关联的界面，作为第一界面，以向目标设备输出第一界面对应的第一音频信号。可见，基于本实施例，结合用户眼睛在屏幕上的注视情况，可以较为准确地为用户选择适合的音频信号进行播放，以为用户提供智能化服务。
92.综上，本技术的目的在于，提供一种基于眼睛追踪以及uwb信号的音频设备自动切换音频方法，主要是基于利用眼睛追踪，以及将人脸图像生命体征算法、uwb的角度检测方法相结合，判断出哪个是用户眼睛观看的视频，以将音频设备上的音频自动切换到其观看的视频上。其中，音频设备和电子设备均安装uwb模块，从而根据uwb信号检测音频设备所处的相对角度、相对距离；进一步地，基于对音频设备的图像采集，提取出人脸图像的生命体征信号进行生物识别检测，并在生物识别成功的情况下，将人脸图像中眼睛的相对角度、相对距离，结合uwb相对角度、距离，进行视线追踪，并根据图像处理算法对追踪结果进行处理，以得到用户的眼动追踪热图，最后根据眼动追踪热图，判断出哪个是用户眼睛观看的视频。
93.在本技术中，不仅可以自动为用户切换音频，还可以在多人共享单设备的视频资源的场景中，分别为每个用户佩戴的设备匹配适合的音频，多人之间互不干扰。
94.本技术实施例提供的音频输出方法，执行主体可以为音频输出装置。本技术实施例中以音频输出装置执行音频输出方法为例，说明本技术实施例提供的音频输出装置。
95.图6示出了本技术另一个实施例的音频输出装置的框图，该装置包括：
96.第一输出模块10，用于电子设备输出至少两个音频信号；
97.第一获取模块20，用于获取与电子设备连接的至少一个目标设备的目标位置信息；
98.第二获取模块30，用于根据目标位置信息，获取与目标位置信息对应的目标图像；
99.第三获取模块40，用于在目标图像包括目标用户的情况下，获取目标用户的眼睛在电子设备的屏幕上的注视信息；
100.第二输出模块50，用于在注视信息关联于屏幕上显示的第一界面的情况下，向目标设备输出第一界面对应的第一音频信号，至少两个音频信号包括第一音频信号。
101.这样，在本技术的实施例中，电子设备同时输出至少两个音频信号，可以获取与电子设备连接至少一个目标设备的目标位置信息，进而根据目标设备的目标位置信息，在目标位置对应的场景进行图像采集，以获取采集到的目标图像，并在目标图像中确定佩戴目标设备的目标用户。进一步地，在目标图像包括目标用户的情况下，利用摄像头对目标用户的眼睛进行追踪，以获取用户眼睛在电子设备的屏幕上的注视信息，从而在基于注视信息，得到用户眼睛长时间注视的第一界面，即注视信息关联于第一界面，进而向目标设备输出第一界面对应的第一音频信号。可见，基于本技术的实施例，电子设备同时输出至少两个音频信号，可针对用户对屏幕某一区域的观看情景，选择性地向用户佩戴的设备输出该区域播放的音频信号，从而避免用户手动操作，智能地为用户播放某个音频信号，以达到简化用户操作的目的。
102.可选地，第一获取模块20，包括：
103.发送单元，用于发送第一uwb信号；
104.接收单元，用于在目标设备接收到第一uwb信号的情况下，接收目标设备基于第一uwb信号发送的第二uwb信号；
105.第一获取单元，用于根据第二uwb信号，获取目标设备的目标位置信息。
106.可选地，目标图像为视频图像；该装置还包括：
107.第四获取模块，用于在视频图像中包括人脸子图像的情况下，根据视频图像，获取人脸子图像对应的生命体征信号；
108.第一确定模块，用于在生命体征信号指示人体生命体征信号的情况下，确定与人脸子图像对应的目标用户。
109.可选地，第三获取模块40，包括：
110.第二获取单元，用于获取目标时长内目标用户的眼睛基于对电子设备的屏幕的注视，形成的眼动追踪热图；
111.其中，眼动追踪热图用于体现眼睛在屏幕上的注视位置点，以及与注视位置点对应的注视时长。
112.可选地，该装置还包括以下至少一项：
113.第二确定模块，用于在根据注视信息得到位于第一界面内的注视位置点的数量大于第一阈值的情况下，确定注视信息关联于第一界面；
114.第三确定模块，用于在根据注视信息得到注视第一界面的注视时长大于第二阈值的情况下，确定注视信息关联于第一界面。
115.本技术实施例中的音频输出装置可以是电子设备，也可以是电子设备中的部件，
例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device，mid)、增强现实(augmented reality，ar)/虚拟现实(virtual reality，vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本或者个人数字助理(personal digital assistant，pda)等，还可以为服务器、网络附属存储器(network attached storage，nas)、个人计算机(personal computer，pc)、电视机(television，tv)、柜员机或者自助机等，本技术实施例不作具体限定。
116.本技术实施例的音频输出装置可以为具有动作系统的装置。该动作系统可以为安卓(android)动作系统，可以为ios动作系统，还可以为其他可能的动作系统，本技术实施例不作具体限定。
117.本技术实施例提供的音频输出装置能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。
118.可选地，如图7所示，本技术实施例还提供一种电子设备100，包括处理器101，存储器102，存储在存储器102上并可在所述处理器101上运行的程序或指令，该程序或指令被处理器101执行时实现上述任一音频输出方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。
119.需要说明的是，本技术实施例的电子设备包括上述所述的移动电子设备和非移动电子设备。
120.图8为实现本技术实施例的一种电子设备的硬件结构示意图。
121.该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。
122.本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。
123.其中，处理器1010，用于电子设备输出至少两个音频信号；获取与所述电子设备连接的至少一个目标设备的目标位置信息；根据所述目标位置信息，获取与所述目标位置信息对应的目标图像；在所述目标图像包括目标用户的情况下，获取所述目标用户的眼睛在所述电子设备的屏幕上的注视信息；在所述注视信息关联于所述屏幕上显示的第一界面的情况下，向所述目标设备输出所述第一界面对应的第一音频信号，所述至少两个音频信号包括所述第一音频信号。
124.这样，在本技术的实施例中，电子设备同时输出至少两个音频信号，可以获取与电子设备连接至少一个目标设备的目标位置信息，进而根据目标设备的目标位置信息，在目标位置对应的场景进行图像采集，以获取采集到的目标图像，并在目标图像中确定佩戴目标设备的目标用户。进一步地，在目标图像包括目标用户的情况下，利用摄像头对目标用户的眼睛进行追踪，以获取用户眼睛在电子设备的屏幕上的注视信息，从而在基于注视信息，
得到用户眼睛长时间注视的第一界面，即注视信息关联于第一界面，进而向目标设备输出第一界面对应的第一音频信号。可见，基于本技术的实施例，电子设备同时输出至少两个音频信号，可针对用户对屏幕某一区域的观看情景，选择性地向用户佩戴的设备输出该区域播放的音频信号，从而避免用户手动操作，智能地为用户播放某个音频信号，以达到简化用户操作的目的。
125.可选地，处理器1010，还用于发送第一uwb信号；在所述目标设备接收到所述第一uwb信号的情况下，接收所述目标设备基于所述第一uwb信号发送的第二uwb信号；根据所述第二uwb信号，获取所述目标设备的目标位置信息。
126.可选地，所述目标图像为视频图像；处理器1010，还用于在所述视频图像中包括人脸子图像的情况下，根据所述视频图像，获取所述人脸子图像对应的生命体征信号；在所述生命体征信号指示人体生命体征信号的情况下，确定与所述人脸子图像对应的所述目标用户。
127.可选地，处理器1010，还用于获取目标时长内所述目标用户的眼睛基于对所述电子设备的屏幕的注视，形成的眼动追踪热图；其中，所述眼动追踪热图用于体现所述眼睛在所述屏幕上的注视位置点，以及与所述注视位置点对应的注视时长。
128.可选地，处理器1010，还用于在根据所述注视信息得到位于所述第一界面内的注视位置点的数量大于第一阈值的情况下，确定所述注视信息关联于所述第一界面；在根据所述注视信息得到注视所述第一界面的注视时长大于第二阈值的情况下，确定所述注视信息关联于所述第一界面。
129.综上，本技术的目的在于，提供一种基于眼睛追踪以及uwb信号的音频设备自动切换音频方法，主要是基于利用眼睛追踪，以及将人脸图像生命体征算法、uwb的角度检测方法相结合，判断出哪个是用户眼睛观看的视频，以将音频设备上的音频自动切换到其观看的视频上。其中，音频设备和电子设备均安装uwb模块，从而根据uwb信号检测音频设备所处的相对角度、相对距离；进一步地，基于对音频设备的图像采集，提取出人脸图像的生命体征信号进行生物识别检测，并在生物识别成功的情况下，将人脸图像中眼睛的相对角度、相对距离，结合uwb相对角度、距离，进行视线追踪，并根据图像处理算法对追踪结果进行处理，以得到用户的眼动追踪热图，最后根据眼动追踪热图，判断出哪个是用户眼睛观看的视频。
130.在本技术中，不仅可以自动为用户切换音频，还可以在多人共享单设备的视频资源的场景中，分别为每个用户佩戴的设备匹配适合的音频，多人之间互不干扰。
131.应理解的是，本技术实施例中，输入单元1004可以包括图形处理器(graphics processing unit，gpu)10041和麦克风10042，图形处理器10041对在视频图像捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频图像的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072中的至少一种。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、动作杆，在此不再赘述。存储器1009可用于存储软件程序以及各种数据，包括但不限于应用程序和动作系统。处理器1010可集成应用处理器和调制解
调处理器，其中，应用处理器主要处理动作系统、用户页面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。
132.存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器1009可以包括易失性存储器或非易失性存储器，或者，存储器1009可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synch link dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本技术实施例中的存储器1009包括但不限于这些和任意其它适合类型的存储器。
133.处理器1010可包括一个或多个处理单元；可选的，处理器1010集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。
134.本技术实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述音频输出方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
135.其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器rom、随机存取存储器ram、磁碟或者光盘等。
136.本技术实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述音频输出方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
137.应理解，本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
138.本技术实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述音频输出方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
139.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及
的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。
140.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例所述的方法。
141.上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本技术的启示下，在不脱离本技术宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本技术的保护之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：潘慧宇
技术所有人：维沃移动通信有限公司
我是此专利的发明人

上一篇：一种电子烟用储液部以及电子烟的制作方法
上一篇：一种三维投影智能麻将桌的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。