语音控制方法、装置以及电子设备与流程

文档序号：28923049发布日期：2022-02-16 13:40阅读：239来源：国知局

1.本技术涉及计算机技术领域，更具体地，涉及一种语音控制方法、装置以及电子设备。

背景技术：

2.结合人工智能技术以及虚拟个人助理(语音助手)，可以使得电子设备通过听觉模态接收用户发出的语音指令并完成对应的交互任务。然而，在很多情况下，用户在看到交互界面后才会明确自己的交互意图，并希望对所看到的交互界面或其中的对象进行直接操作。但是，相关的语音助手并不能较佳的完成用户针对所看到的交互界面而实时触发的语音指令。

技术实现要素：

3.鉴于上述问题，本技术提出了一种语音控制方法、装置以及电子设备，以实现改善上述问题。
4.第一方面，本技术提供了一种语音控制方法，所述方法包括：获取语音指令；对当前用户界面进行识别以获取所述当前用户界面的可操作信息，所述当前用户界面为接收到所述语音指令时显示的用户界面；将所述语音指令与所述当前用户界面的可操作信息进行匹配，以从当前用户界面的可操作信息中确定目标可操作信息；响应于所述确定目标可操作信息，执行目标操作。
5.第二方面，本技术提供了一种语音控制装置，所述装置包括：语音指令转换单元，用于获取语音指令；操作信息获取单元，用于对当前用户界面进行识别以获取所述当前用户界面的可操作信息，所述当前用户界面为接收到所述语音指令时显示的用户界面；目标信息获取单元，用于将所述语音指令与所述当前用户界面的可操作信息进行匹配，以从当前用户界面的可操作信息中确定目标可操作信息；操作执行单元，用于响应于所述确定目标可操作信息，执行目标操作。
6.第三方面，本技术提供了一种电子设备，包括一个或多个处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。
7.第四方面，本技术提供的一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。
8.本技术提供的一种语音控制方法、装置以及电子设备，通过获取语音指令以及获取当前用户界面对应的可操作信息后，将所述语音指令与所述当前用户界面对应的可操作信息进行匹配，以从当前用户界面对应的可操作信息中确定目标可操作信息，并响应于所述确定目标可操作信息，执行目标操作。从而通过将语音指令与获取到语音指令时所显示的界面(当前用户界面)对应的可操作信息进行匹配的方式，使得对于用户针对所看到的界面而实时触发的语音指令能够较佳的被完成。
附图说明
9.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
10.图1示出了本技术实施例提出的一种语音控制方法的一种应用场景的示意图；
11.图2示出了本技术实施例提出的另一种语音控制方法的一种应用场景的示意图；
12.图3示出了本技术实施例提出的一种语音控制方法的流程图；
13.图4示出了本技术另一实施例提出的一种语音控制方法的流程图；
14.图5示出了本技术实施例中将控件进行网格化排布的示意图；
15.图6示出了本技术再一实施例提出的一种语音控制方法的流程；
16.图7示出了本技术又一实施例提出的一种语音控制方法的流程；
17.图8示出了本技术又一实施例提出的一种语音控制方法的流程图；
18.图9示出了本技术又一实施例提出的一种语音控制方法的流程图；
19.图10示出了本技术又一实施例提出的一种语音控制方法的流程图；
20.图11示出了本技术又一实施例提出的一种语音控制方法的流程图；
21.图12示出了本技术实施例提出的一种目标物识别装置的结构框图；
22.图13示出了本技术提出的一种电子设备的结构框图；
23.图14是本技术实施例的用于保存或者携带实现根据本技术实施例的语音控制方法的程序代码的存储单元。
具体实施方式
24.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
25.智能终端设备的普及给生活带来了种种便利。结合人工智能技术以及虚拟个人助理(语音助手)，可以使得电子设备通过听觉模态接收用户发出的语音指令并完成各项对应的交互任务。然而，在很多情况下，用户在看到交互界面后才会明确自己的交互意图，并希望对所看到的交互界面或其中的对象进行直接操作。
26.但是，发明人在研究中发现，相关的语音助手并不能较佳的完成用户针对所看到的交互界面而实时触发的语音指令。具体的，相关的语音助手通常能良好的对预设的语音指令进行良好的识别，从而完成对应的操作。但是若用户发出的指令并不属于预设的语音指令，电子设备则无法理解用户的意图，从而也就无法顺利的执行对应的操作。
27.因此，发明人提出了本技术中的一种语音控制方法、装置以及电子设备，该方法通过获取语音指令以及获取当前用户界面对应的可操作信息后，将所述语音指令与所述当前用户界面对应的可操作信息进行匹配，以从当前用户界面对应的可操作信息中确定目标可操作信息，并响应于所述确定目标可操作信息，执行目标操作。从而通过将语音指令与获取到语音指令时所显示的界面(当前用户界面)对应的可操作信息进行匹配的方式，使得对于用户针对所看到的界面而实时触发的语音指令能够较佳的被完成。
28.下面先对本技术实施例所涉及的应用场景进行介绍。
29.在本技术实施例中，所提供的语音控制方法可以由电子设备执行。在由电子设备执行的这种方式中，本技术实施例提供的语音控制方法中所有步骤可以均由电子设备执行。例如，如图1所示，通过电子设备100的语音采集装置可以采集语音指令，然后将采集到的语音指令以及当前用户界面均传输给处理器，使得处理器可以实时的对当前用户界面进行识别以得到当前用户界面的可操作信息，进而处理器再利用获取到的语音指令和当前用户界面对应的可操作信息执行本技术提供的语音控制方法涉及的步骤。
30.再者，本技术实施例提供的语音控制方法也可以由服务器(云端)进行执行。对应的，在由服务器执行的这种方式中，可以由电子设备采集语音指令，并将采集的语音指令以及当前用户界面同步发送给服务器，然后由服务器实时的对当前用户界面进行识别以得到当前用户界面的可操作信息，然后由服务器触发电子设备执行目标操作。
31.另外，还可以由电子设备和服务器协同执行。在由电子设备和服务器协同执行的这种方式中，本技术实施例提供的语音控制方法中的部分步骤由电子设备执行，而另外部分的步骤则由服务器来执行。
32.示例性的，如图2所示，电子设备100可以执行语音控制方法包括的：获取语音指令以及获取当前用户界面对应的可操作信息，然后由服务器200来执行将所述语音指令与所述当前用户界面对应的可操作信息进行匹配，以从当前用户界面对应的可操作信息中确定目标可操作信息，并基于所述目标可操作信息执行目标操作。
33.需要说明的是，在由电子设备和服务器协同执行的这种方式中，电子设备和服务器分别执行的步骤不限于上述示例中所介绍的方式，在实际应用中，可以根据实际情况动态的调整电子设备和服务器分别执行的步骤。
34.需要说明的是，该电子设备100除了可以为图1和图2中所示的智能手机外，还可以为车机设备、可穿戴设备、平板电脑、笔记本电脑、智能音箱等。服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统
35.下面则结合附图来对本技术所涉及的实施例进行介绍。
36.请参阅图3，本技术提供的一种语音控制方法，所述方法包括：
37.s110：获取语音指令。
38.在本技术实施例中，用户可以通过语音来表达自己的控制意图。对应的，电子设备可以将用户所发出的语音作为语音指令。
39.s120：对当前用户界面进行识别以获取所述当前用户界面的可操作信息，所述当前用户界面为接收到所述语音指令时显示的用户界面。
40.其中，在本技术实施例中，当前用户界面可以为接收到所述语音指令时显示的用户界面。例如，当前用户界面可以为电子设备的桌面，也可以为电子设备当前所运行的应用程序的界面。再者，在电子设备显示桌面的情况下，若在桌面上还悬浮显示有应用程序的界面，那么当前用户界面可以包括的桌面，也可以包括应用程序的界面，还可以是同时包括桌面以及应用程序的界面。示例性的，若在电子设备当前正显示桌面的情况下，当前用户界面可以为电子设备的桌面。再例如，若电子设备当前显示有桌面，且在桌面上悬浮显示有视频播放界面，那么当前用户界面可以为该视频播放界面。
41.需要说明的是，对于一个界面而言可能会包括有多种的操作。该操作可以包括针
对界面中某个控件的操作，也可以是针对整个界面的操作。例如，若用户的意图为进行页面的滑动(例如，上滑，下滑，左滑以及右滑)，或者意图为进行界面的切换，再或者是退出当前所显示的界面，那么则是针对整个界面的操作。再例如，若用户的意图是点击界面中的某个位置，那么则可以为针对界面中某个控件的操作。而在本技术实施例中，界面所对应的可操作信息则用于描述可以针对该界面所实施的操作。并且，在针对界面所实施的操作可以有多种的情况下，界面所对应的可操作信息也可以有多个。
42.用于对所述当前用户界面进行识别方式至少包括下列识别方式中的至少一项：基于代码解析方式对所述当前用户界面进行识别；基于图文识别方式对所述当前用户界面进行识别；以及基于控件分类模型对所述当前用户界面进行识别。
43.其中，作为一种方式，所述控件分类模型的训练过程包括：获取用户界面；获取从所述用户界面中分类出的控件；通过所述分类出的控件对待训练的神经网络模型进行训练，以得到控件分类模型。
44.s130：将所述语音指令与所述当前用户界面的可操作信息进行匹配，以从当前用户界面的可操作信息中确定目标可操作信息。
45.在电子设备获取到语音指令后，作为一种方式，可以将语音指令转换为对应的控制信息。在本技术实施例中，控制信息可以理解为电子设备对语音指令进行转换后所获取的到用于表征用户控制意图的信息。
46.并且，在本技术实施例中，控制信息所包括的内容可以有多种形式，对应的，也会有多种的获取到控制信息的方式。
47.作为一种方式，可以将语音指令所转换得到的文本内容均作为控制信息。在这种方式下，电子设备可以在接收到语音控制之后基于预先配置的自动语音识别方式(automatic speech recognition)将语音指令转换为对应的文本内容。例如，若接收到的语音指令为“打开相册”，那么在对该语音指令进行转换后所得到的控制信息则包括“打开相册”。
48.作为另外一种方式，可以将语音指令所转换得到的文本内容后，再基于预先配置的方式对该文本内容进行语义识别，将语义识别的结果作为控制信息。可选的，可以基于自然语言理解(nlu)的方式抽取文本内中的意图、控制对象和对象附属信息，整合为样式为{action,object,information}的三元组，则在这种方式中，语义识别的结果为该三元组。其中，action表征意图，或者可以理解为控制目的，object表征控制对象，information则表征对象附属信息。例如，对语音指令进行转换得到的文本内容为“播放陈情令”。基于自然语言理解的方式可以理解用户意图为：“播放”。控制对象为“陈情令”，对象附属信息为空，用三元组记为：{播放，陈情令，φ}。又比如对语音指令进行转换得到的文本内容为“帮我搜一下古董局中局”，意图为“查找”，控制对象为“搜索”，对象附属信息为“古董局中局”，用三元组记为：{查找，搜索，古董局中局}。
49.需要说明的是，用户在发出语音的过程中，可能因为自己的发音习惯问题而使得所发出的语音较为随意，但是较为随意的语音所对应的语音指令可能并不能使得电子设备准确的确定用户的控制意图。例如，若语音指令本身对应的内容为“下一个”，对于该下一个可能所对应的意思可以为接来下的一个，所对应的意思也可能为下载一个。例如，在音频播放场景下一个可能所对应的意思可以为接来下的一个，例如，播放接下来的一首歌。而在软
件下载场景中，下一个可能所对应的意思可以为下载一个。例如，下载一个应用程序。
50.为了能够更为准确的确定用户的真实意图，作为一种方式，在获取得到语音指令后，根据当前用户界面对应的任务场景对所述语音指令进行更新得到场景控制指令；将所述场景控制指令与所述当前用户界面的可操作信息进行匹配，以从当前用户界面的可操作信息中确定目标可操作信息。例如，电子设备在获取得到内容为下一个音乐的语音指令后，所得到的语音指令对应的文本内容可以为“下一个音乐”。再者，电子设备也会检测当前用户界面的对应的任务场景，若确定当前用户界面对应的任务场景为音频播放场景，则可以对下一个音乐进行更新，更新后的文本内容可以为“接下来的一个音乐”，从而所得到的场景控制指令为接下来的一个音乐。若确定当前用户界面对应的任务场景为应用程序下载场景，则可以对下一个音乐进行更新，更新后的文本内容为“下载一个音乐播放程序”，那么对应得到的场景控制指令可以为下载一个音乐播放程序。
51.需要说明的是，在语音控制信息的形式为前述的三元组的情况下，电子设备可以基于当前用户界面对应的任务场景而得到的场景控制指令来获取得到三元组。
52.在得到控制信息以及当前用户界面对应的可操作信息后，则可以将控制信息与当前用户界面的可操作信息进行匹配，以便从当前用户界面对应的可操作信息中确定目标可操作信息。
53.需要说明的是，如前述内容介绍可知，在本技术实施例中控制信息可以有多种形式。而对于不同形式的控制信息，确定与可操作信息成功匹配的方式也对应不同。其中，若控制信息为三元组的形式，则在将控制信息与可操作信息进行匹配的过程中，则可以将控制信息中包括的控制对象与可操作信息进行匹配，在控制对象与可操作信息相同的情况下，确定控制对象所属的控制信息与该可操作信息成功匹配。若控制信息为对语音指令直接转换的都的文本内容，可以在检测到某个可操作信息被文本内容包括的情况下，则确定该可操作信息与控制信息成功匹配。
54.其中，目标可操作信息为用于与用户的操作意图成功匹配的可操作信息。在得到目标可操作信息后，则可以生成针对当前用户界面的控制指令。其中，需要说明的是，在生成控制指令的过程中可以基于电子设备所支持的方式进行控制指令的生成。例如，可以通过系统注入(android所支持的一种操作方式)或模拟屏幕点击的方法生成所述当前用户界面对应的控制指令。
55.s140：响应于所述确定目标可操作信息，执行目标操作。
56.作为一种方式，在确定目标可操作信息后，就可以根据目标可操作信息生成电子设备可执行的控制指令，并通过执行该控制指令而实现执行目标操作。例如，若目标可操作信息为对界面进行指定整体操作的描述信息，生成与所述指定整体操作的控制指令，执行所述控制指令。
57.本实施例提供的一种语音控制方法，通过获取语音指令以及获取当前用户界面对应的可操作信息后，将所述语音指令与所述当前用户界面对应的可操作信息进行匹配，以从当前用户界面对应的可操作信息中确定目标可操作信息，并响应于所述确定目标可操作信息，执行目标操作。从而通过将语音指令与获取到语音指令时所显示的界面(当前用户界面)对应的可操作信息进行匹配的方式，使得对于用户针对所看到的界面而实时触发的语音指令能够较佳的被完成。
58.请参阅图4，本技术提供的一种语音控制方法，所述方法包括：
59.s210：获取语音指令。
60.s220：基于代码解析方式对当前用户界面进行识别以获取所述当前用户界面的可操作信息，所述当前用户界面为接收到所述语音指令时显示的用户界面。
61.在本实施例中，可以先基于代码解析方式对当前用户界面进行识别以获取当前用户界面对应的可操作信息。再者，在本实施例中，对当前用户界面进行识别可以理解为对当前用户界面中所包括的控件进行识别，进而所得到的可操作信息可以包括所能识别出的控件的标识以及描述信息。对应的，基于代码解析方式对当前用户界面进行识别，则可以理解为基于代码解析的方式来获取当前用户界面中所包括的控件以及控件对应的描述信息。
62.s230：检测可操作信息中是否有与所述语音指令成功匹配的可操作信息。
63.s240：若所述可操作信息中有与所述语音指令成功匹配的可操作信息，将可操作信息中与所述语音指令成功匹配的可操作信息作为目标可操作信息。
64.s250：若所述可操作信息中没有与所述语音指令成功匹配的可操作信息，基于图文识别方式对所述当前用户界面进行识别以得到可操作信息，基于对当前用户界面进行图文识别方式识别所得到的可操作信息得到目标可操作信息。
65.作为一种方式，所述基于图文识别方式对所述当前用户界面进行识别以得到可操作信息，基于对当前用户界面进行图文识别方式识别所得到的可操作信息得到目标可操作信息，包括：若对当前用户界面进行图文识别方式识别所得到的可操作信息中有与所述控制指令成功匹配的可操作信息，将与所述控制指令成功匹配的可操作信息作为目标描述信息。若对当前用户界面进行图文识别方式识别所得到的可操作信息中没有与所述控制指令成功匹配的可操作信息，基于控件分类模型对所述当前用户界面进行识别以得到可操作信息，基于通过所述控件分类模型所识别所得到的可操作信息得到目标可操作信息。
66.可选的，对当前用户界面进行图文识别方式识别所得到的可操作信息包括所识别出的控件的位置以及描述信息，所述响应于所述确定目标可操作信息，执行目标操作，包括：响应于从通过图文识别方式识别所得到的可操作信息中确定目标可操作信息，将所述目标可操作信息所对应的控件作为目标控件；基于模拟点击的方式以及所述语音指令的控制目的生成目标控件对应的控制指令，执行所述控制指令。
67.可选的，基于代码解析方式对当前用户界面进行识别所得到的可操作信息包括所识别出的控件的标识以及描述信息；所述响应于所述确定目标可操作信息，执行目标操作，包括：响应于从通过代码解析方式识别所得到的可操作信息中确定目标可操作信息，将所述目标可操作信息所对应的控件作为目标控件；基于所述语音指令对应的控制目的以及所述目标控件的标识生成控制指令。
68.s250：响应于所述确定目标可操作信息，执行目标操作。
69.作为一种方式，所述可操作信息包括从所述当前用户界面中所识别出的控件的位置以及描述信息；所述方法还包括：若所述语音指令包括位置信息，将可操作信息中所包括的控件的位置与所述语音指令包括的位置信息进行匹配；将与所述位置信息成功匹配的位置的控件作为目标控件；响应于确定所述目标控件，执行目标操作。其中，电子设备可以建立有位置信息词库，在这种方式下，电子设备在获取得到语音指令后，可以查询语音指令中是否包括有位置信息词库中的内容，若包括有位置信息词库中的内容，则确定语音指令中
包括有位置信息。其中，位置信息可以为左上角、右上角、左下角、右下角或者第x排第x个等内容。例如，若对语音指令进行转换得到的文本内容为“帮我打开第1排第3个程序”则可以确定该语音指令中包括有位置信息。
70.在这种方式中，电子设备在对当前用户界面进行识别后，所识别出的控件可以对应有位置，并且所识别出的位置可能是坐标形式的。在这种情况下可以基于所识别出的控件的位置对所识别出的控件进行网格化排布，从而使得每个控件可以对应有一个网格化的位置信息。其中，网格化的位置信息可以理解为控件在当前用户界面中的第几排第几个，或者控件位于当前用户界面的某个角。
71.如图5所示，对于电子设备所显示的当前用户界面10，在对当前用户界面10进行识别后可以得到的控件可以包括有描述信息包括阴历的控件、描述信息包括天气的控件、描述信息包括时钟的控件、描述信息包括设置的控件、描述信息包括相册的控件、描述信息包括便签的控件、描述信息包括视频的控件以及描述信息包括相机的控件。并且，还会得到所识别出的控件的坐标形式的位置。对于坐标形式的位置，可以包括有横坐标和纵坐标，可以理解的是，对于横坐标越大的控件则在当前用户界面中的排布位置会相对更加靠左，对应的，对于纵坐标越大的控件则在当前用户界面中的排布位置可以相对更加靠顶部，那么电子设备也就可以确定出如图5所示的网格化排布。
72.本实施例提供的一种语音控制方法，从而通过将语音指令与获取到语音指令时所显示的界面(当前用户界面)对应的可操作信息进行匹配的方式，使得对于用户针对所看到的界面而实时触发的语音指令能够较佳的被完成。并且，在本实施例中，可操作信息包括从所述当前用户界面中所识别出的控件的标识以及描述信息，从而使得可以通过控制信息与描述信息进行匹配以从当前用户界面中所包括的控件中确定出目标控件，以生成与目标控件对应的控制指令。
73.请参阅图6，本技术提供的一种语音控制方法，所述方法包括：
74.s310：获取语音指令对应的指令文本，基于所述指令文本获取控制目的、控制对象以及对象附属信息。
75.s320：获取当前用户界面对应的可操作信息，所述当前用户界面为获取到所述语音指令时所显示的界面，所述可操作信息包括从所述当前用户界面中所识别出的控件的标识以及描述信息，所述可操作信息为用于描述所述当前用户界面所对应操作的信息。
76.s330：将所述控制对象与所述与所述可操作信息进行匹配。
77.s340：将与所述控制对象成功匹配的可操作信息作为目标可操作信息。
78.s350：响应于所述确定目标可操作信息，执行目标操作。
79.作为一种方式，在确定目标可操作信息后，可以将所述目标可操作信息对应的控件作为目标控件，并基于所述语音指令对应的控制目的以及所述目标控件的标识生成目标控件对应的控制指令。
80.可选的，在本实施例中，在三元组中控制对象能够使得电子设备更加准确的确定用户是想对当前用户界面中的哪个控件进行控制。则在本实施例中，可以将控制对象与描述信息进行匹配，从而更加准确的执行用户的控制意图。在将控制对象与可操作信息所包括的描述信息进行匹配的方式中，可以直接将与控制对象成功匹配的描述信息作为目标描述信息，进而可以将目标描述信息所对应的控件作为目标控件(可以将目标描述信息所属
的可操作信息作为目标可操作信息)。
81.例如，对用户的语音指令进行转换后得到的三元组包括{播放，陈情令，φ}，而所获取到的当前用户界面对应的可操作信息包括控件1以及控件1对应的描述信息包括陈情令，还包括控件2以及控件1对应的描述信息包括古董局中局。那么在将这种情况下获取的控制对象(陈情令)与控件1和控件2各自对应的描述信息进行分别匹配后，可以确定控件1对应的描述信息可以与控制对象成功匹配，则可以确定控件1为目标控件。
82.本实施例提供的一种语音控制方法，从而通过将语音指令与获取到语音指令时所显示的界面(当前用户界面)对应的可操作信息进行匹配的方式，使得对于用户针对所看到的界面而实时触发的语音指令能够较佳的被完成。并且，在本实施例中，会先将语音指令转换为对应的指令文本，然后会从指令文本中提取出控制目的、控制对象以及对象附属信息，进而在利用控制对象来与控件的描述信息进行匹配，从而提升了所确定的目标控件的准确性。
83.请参阅图7，本技术提供的一种语音控制方法，所述方法包括：
84.s410：获取语音指令。
85.s420：基于代码解析方式对所述当前用户界面进行识别以获取可操作信息，所述可操作信息至少包括基于所述代码解析方式所能识别出的控件的标识以及描述信息，所述当前用户界面为获取到所述语音指令时所显示的界面。
86.可选的，在本技术实施例中，可以基于google无障碍服务accessibility实现基于代码解析方式对所述当前用户界面进行识别。
87.s430：若所述可操作信息中有与所述控制信息成功匹配的可操作信息，则将可操作信息中与所述控制信息成功匹配的可操作信息作为目标描述信息，将目标描述信息对应的控件作为目标控件，并基于所述语音指令对应的控制目的以及所述目标控件的标识生成目标控件对应的控制指令。
88.s440：执行所述控制指令。
89.如图8所示，再对本实施例涉及的语音控制方法的流程进行介绍。
90.如图8所示，对于获取到的用于语音可以先进行语音识别以得到指令文本(即文本内容)，然后再基于自然语言理解对指定文本进行处理，以转换得到三元组。在对用户语音进行处理的过程中，也会同步的对当前用户界面进行处理。例如，可以对当前用户界面进行交互界面理解。其中，进行交互界面理解的方式可以包括有对界面的元素代码进行理解，或者也可以对当前用户界面对应的屏幕截图进行理解以得到界面元素列表。其中，在界面元素列表中则可以包括界面对应的可操作信息。在得到三元组和界面元素列表后，则可以将三元组与界面元素列表进行匹配，然后进行操作生成。可以理解为是，所生成的操作则可以为基于前述目标控件所对应确定的操作，然后再基于所生成的操作来生成控制指令。
91.本实施例提供的一种语音控制方法，从而通过将语音指令与获取到语音指令时所显示的界面(当前用户界面)对应的可操作信息进行匹配的方式，使得对于用户针对所看到的界面而实时触发的语音指令能够较佳的被完成。并且，在本实施例中，可以基于代码解析方式对所述当前用户界面进行识别，从而使得可以不用预先对当前用户界面中的控件进行标注和记录，而是可以实时、动态的对当前用户界面中的控件进行识别，提升了对当前用户界面进行识别的灵活性，同时也因为不用预先对当前用户界面中的控件进行标注和记录，
降低了对存储空间的占用程度，也降低了人工成本。
92.请参阅图9，本技术提供的一种语音控制方法，所述方法包括：
93.s510：获取语音指令。
94.s520：基于代码解析方式对所述当前用户界面进行识别以获取第一可操作信息，所述第一可操作信息至少包括基于所述代码解析方式所能识别出的控件的标识以及描述信息，所述当前用户界面为获取到所述语音指令时所显示的界面。
95.可选的，在第一操作信息中除了可以包括所能识别出的控件的标识以及描述信息外，还可以包括有所识别出的控件的类型和大小。
96.s530：检测第一可操作信息中是否有与所述控制信息成功匹配的可操作信息。
97.s531：若所述第一可操作信息中有与所述控制信息成功匹配的可操作信息，则将第一可操作信息中与所述控制信息成功匹配的可操作信息作为目标描述信息，将目标描述信息对应的控件作为目标控件，并基于所述语音指令对应的控制目的以及所述目标控件的标识生成目标控件对应的控制指令。
98.s540：若所述第一可操作信息中没有与所述控制信息成功匹配的可操作信息，基于图文识别方式对所述当前用户界面进行识别以及得到第二可操作信息，所述第二可操作信息至少包括基于所述图文识别方式所能识别出的控件的位置以及描述信息。
99.其中，图文识别方式可以包括ocr(optical character recognition，光学字符识别)方式。
100.s550：检测所述第二可操作信息中是否有与所述控制信息成功匹配的可操作信息。
101.s551：若所述第二可操作信息中有与所述控制信息成功匹配的可操作信息，将第二可操作信息中与所述控制信息成功匹配的可操作信息作为目标描述信息；将目标描述信息对应的控件作为目标控件，并基于模拟点击的方式以及所述指定文本的控制目的生成目标控件对应的控制指令。
102.s560：执行所述控制指令。
103.再者，作为一种方式，本实施例提供的方法还包括：
104.s552：若所述第二可操作信息中没有与所述控制信息成功匹配的可操作信息，且所述语音指令对应的控制目的为进行指定的播控操作，则基于控件识别的方式识别所述当前用户界面中所包括的播控类的控件。
105.s553：基于控制信息对应的控制目的从所述当前用户界面所包括的播控类的控件中获取目标控件，并基于所述语音指令对应的控制目的生成目标控件对应的控制指令。
106.作为一种方式，所述获取当前用户界面对应的可操作信息，所述当前用户界面为获取到所述语音指令时所显示的界面，包括：若所述语音指令对应的控制目的为进行指定的播控操作，则基于控件识别的方式识别当前用户界面中所包括的播控类的控件的可操作信息。
107.需要说明的是，对于一些应用程序或者界面中的控件可能无法通过代码解析的方式获取到所有的控件的信息，而用户所意图操作的控件则可能正好是未识别出的控件，进而就会造成电子设备无法顺利的执行用户的意图。在这种情况下，再进一步的通过图文识别方式进行控件的识别，可以有利于更大概率的获取到用户所意图控制的控件。再者，图文
识别方式是通过识别控件中所配置的文本来确定控件的位置和描述信息的，而对于播控类的一些控件(例如，播放、暂停、分享、收藏)等，本身是未对应配置有文本的，因此，对于这些类别的控件是无法通过图文识别方式识别出的。因此，再通过控件识别的方式进行播控类的图控件的识别，能够更大概率的获取到用户所意图控制的控件。
108.下面再通过图10对本实施例涉及的语音控制方法进行介绍。
109.如图10所示，电子设备可以开始进行语音激活检测。可以理解是，若电子设备一直实时的对用户发出的语音进行转换并与界面对应的可操作信息进行匹配可能会造成较大的资源浪费，并且也可能会造成无意义的操作。在这种情况下，用户可以通过预定的语音内容来触发电子设备开始执行本技术实施例中所涉及的语音控制方法。从而使得电子设备在接收到预定的语音内容后，确定用户是期望通过语音指令来触发电子设备执行对应的操作，那么电子设备则会将用户在发出预定的语音内容后再发出的内容作为语音指令，然后基于语音指令进行自动语音识别，以将语音指令转换为指令文本。
110.其中，对于指令文本则可以进行自然语音理解以得到三元组。然后会进行用户界面(当前用户界面)获取，然后将获取到的界面与三元组进行匹配，以得到控制指令，并执行该控制指令。其中匹配的具体内容可以包括本实施例中所涉及的三种方式所获取到的描述信息。
111.再者，若电子设备在获取到预定的语音内容后的指定时间长度内，未接收到用户发出的语音，则确定超时并会退出语音控制方法。
112.需要说明的是，在本技术实施例中，在可以通过多种方式来获取得到控件的描述信息的情况下，电子设备可以在计算资源较为充足的情况下，可以同时触发至少两种方式来获取控件的描述信息，并同时触发基于该至少两种方式所获取到的控件的描述信息分别确定目标控件。若通过其中一种方式获取到的控件的描述信息已经完成确定目标控件，则会停止同时触发的通过其他种方式获取到的控件的描述信息确定目标控件的过程。
113.本实施例提供的一种语音控制方法，从而通过将语音指令与获取到语音指令时所显示的界面(当前用户界面)对应的可操作信息进行匹配的方式，使得对于用户针对所看到的界面而实时触发的语音指令能够较佳的被完成。并且，在本实施例中，在若所述第一可操作信息中没有与所述控制信息成功匹配的可操作信息的情况下，还可以基于图文识别方式对所述当前用户界面进行识别以及得到第二可操作信息，然后再利用第二可操作信息来获取目标控件，从而使得将基于代码解析方式对所述当前用户界面进行识别以及基于图文识别方式对所述当前用户界面进行识别相结合，以更加准确的执行语音指令。再者，在若所述第二可操作信息中没有与所述控制信息成功匹配的可操作信息的情况下，还可以结合控件识别的方式进一步确定用户的语音指令的控制意图，进一步的提升执行语音指令的准确性。
114.请参阅图11，本技术提供的一种语音控制方法，所述方法包括：
115.s610：获取语音指令。
116.s620：获取当前用户界面对应的可操作信息，所述当前用户界面为获取到所述语音指令时所显示的界面，所述可操作信息为用于描述所述当前用户界面所对应操作的信息，所述可操作信息至少包括当前用户界面中的控件的描述信息。
117.s630：获取所述语音指令与当前用户界面中所包括的控件的描述信息的相似度。
118.s640：将对应的相似度满足相似条件的描述信息作为目标描述信息。
119.s650：响应于所述确定目标描述信息，执行目标操作。
120.需要说明的是，在本技术实施例中，可以先将语音指令转换为如前述实施例中所示的控制信息，然后再比对控制信息与描述信息之间的相似度。并且，因为控制信息的实施方式有多种形式，那么在确定本实施例中的相似度的过程中，对于不同的形式的控制信息则对应有不同的确定相似度的方式。
121.作为一种方式，若控制信息为将语音指令转换得到的文本内容，则可以通过判断控制信息与控件的描述信息所共同包括的相同字符的数量来确定相似度。对应的，若共同所包括的相同字符的数量越多，那么相似度越高。
122.作为另外一种方式，若控制信息为从基于语音指令转换得到的文本内容中提取出的三元组。对应的，获取相似度的方式可以包括计算三元组中的控制对象与控件描述信息的向量距离，将所计算得到的向量距离来作为对应的相似度。在这种方式中，可以先获取控制对象对应的文本向量以及描述信息对应的文本向量，然后再计算控制对象对应的文本向量与描述信息对应的文本向量之间的向量距离。其中，计算向量距离的方式可以采用欧拉距离的计算方式或者余弦距离的计算方式。再者，计算对象对应的文本向量以及描述信息对应的文本向量也可以采用相关技术的方式，在本实施例中不再细述。例如，可以采用训练好的深度神经网络模型来计算对应的文本向量。
123.本实施例提供的一种语音控制方法，从而通过将语音指令与获取到语音指令时所显示的界面(当前用户界面)对应的可操作信息进行匹配的方式，使得对于用户针对所看到的界面而实时触发的语音指令能够较佳的被完成。再者，在本实施例中，会利用相似度的方式来获取得到目标控件，进而有利于提升语音指令被成功执行的概率。
124.请参阅图12，本技术提供的一种语音控制装置700，所述装置700包括：
125.语音指令转换单元710，用于获取语音指令。
126.操作信息获取单元720，用于获取当前用户界面对应的可操作信息，所述当前用户界面为获取到所述语音指令时所显示的界面，所述可操作信息为用于描述所述当前用户界面所对应操作的信息。
127.目标信息获取单元730，用于将所述语音指令与所述当前用户界面的可操作信息进行匹配，以从当前用户界面的可操作信息中确定目标可操作信息。
128.操作执行单元740，用于响应于所述确定目标可操作信息，执行目标操作。
129.作为一种方式，用于对所述当前用户界面进行识别方式至少包括下列识别方式中的至少一项：基于代码解析方式对所述当前用户界面进行识别；基于图文识别方式对所述当前用户界面进行识别；以及基于控件分类模型对所述当前用户界面进行识别。可选的，所述控件分类模型的训练过程包括：获取用户界面；获取从所述用户界面中分类出的控件；通过所述分类出的控件对待训练的神经网络模型进行训练，以得到控件分类模型。
130.作为一种方式，操作信息获取单元720，具体用于基于代码解析方式对当前用户界面进行识别以获取所述当前用户界面的可操作信息。在这种方式中，目标信息获取单元730，具体用于若所述可操作信息中有与所述语音指令成功匹配的可操作信息，将可操作信息中与所述语音指令成功匹配的可操作信息作为目标可操作信息；若所述可操作信息中没有与所述语音指令成功匹配的可操作信息，基于图文识别方式对所述当前用户界面进行识
别以得到可操作信息，基于对当前用户界面进行图文识别方式识别所得到的可操作信息得到目标可操作信息。
131.可选的，目标信息获取单元730，还具体用于若对当前用户界面进行图文识别方式识别所得到的可操作信息中有与所述控制指令成功匹配的可操作信息，将与所述控制指令成功匹配的可操作信息作为目标描述信息。若对当前用户界面进行图文识别方式识别所得到的可操作信息中没有与所述控制指令成功匹配的可操作信息，基于控件分类模型对所述当前用户界面进行识别以得到可操作信息，基于通过所述控件分类模型所识别所得到的可操作信息得到目标可操作信息。
132.作为一种方式，对当前用户界面进行图文识别方式识别所得到的可操作信息包括所识别出的控件的位置以及描述信息。在这种方式中，操作执行单元740，具体用于响应于从通过图文识别方式识别所得到的可操作信息中确定目标可操作信息，将所述目标可操作信息所对应的控件作为目标控件；基于模拟点击的方式以及所述语音指令的控制目的生成目标控件对应的控制指令，执行所述控制指令。
133.作为一种方式，基于代码解析方式对当前用户界面进行识别所得到的可操作信息包括所识别出的控件的标识以及描述信息。在这种方式中，操作执行单元740，具体用于响应于从通过代码解析方式识别所得到的可操作信息中确定目标可操作信息，将所述目标可操作信息所对应的控件作为目标控件；基于所述语音指令对应的控制目的以及所述目标控件的标识生成控制指令。
134.作为一种方式，操作执行单元740，具体用于若目标可操作信息为对界面进行指定整体操作的描述信息，生成与所述指定整体操作的控制指令，执行所述控制指令。
135.作为一种方式，目标信息获取单元730，具体用于获取语音指令对应的指令文本，基于所述指令文本获取控制目的、控制对象以及对象附属信息；将所述控制对象与所述可操作信息进行匹配；将与所述控制对象成功匹配的可操作信息作为目标可操作信息。
136.作为一种方式，所述可操作信息包括从所述当前用户界面中所识别出的控件的位置以及描述信息。操作执行单元740，还具体用于若所述语音指令包括位置信息，将可操作信息中所包括的控件的位置与所述语音指令包括的位置信息进行匹配；将与所述位置信息成功匹配的位置的控件作为目标控件；响应于确定所述目标控件，执行目标操作。
137.作为一种方式，操作信息获取单元720，具体用于若所述控制指令对应的控制目的为进行指定的播控操作，则基于控件分类模型识别当前用户界面中所包括的播控类的控件，以得到当前用户界面的可操作信息。
138.作为一种方式，目标信息获取单元730，具体用于根据当前用户界面对应的任务场景对所述语音指令进行更新得到场景控制指令；将所述场景控制指令与所述当前用户界面的可操作信息进行匹配，以从当前用户界面的可操作信息中确定目标可操作信息。
139.作为一种方式，所述可操作信息至少包括当前用户界面中的控件的描述信息。目标信息获取单元730，具体用于获取所述语音指令与当前用户界面中所包括的控件的描述信息的相似度；将对应的相似度满足相似条件的描述信息作为目标描述信息。操作执行单元740，还具体用于响应于所述确定目标描述信息，执行目标操作。
140.本实施例提供的一种语音控制装置，通过获取语音指令以及获取当前用户界面对应的可操作信息后，将所述语音指令与所述当前用户界面对应的可操作信息进行匹配，以
从当前用户界面对应的可操作信息中确定目标可操作信息，并响应于所述确定目标可操作信息，执行目标操作。从而通过将语音指令与获取到语音指令时所显示的界面(当前用户界面)对应的可操作信息进行匹配的方式，使得对于用户针对所看到的界面而实时触发的语音指令能够较佳的被完成。
141.需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本技术所提供的几个实施例中，模块相互之间的耦合可以是电性。另外，在本技术各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。
142.下面将结合图13对本技术提供的一种电子设备进行说明。
143.请参阅图13，基于上述的语音控制方法、装置，本技术实施例还提供的一种可以执行前述语音控制方法的电子设备1000。电子设备1000包括相互耦合的一个或多个(图中仅示出一个)处理器102、存储器104、摄像头106以及音频采集装置108。其中，该存储器104中存储有可以执行前述实施例中内容的程序，而处理器102可以执行该存储器104中存储的程序。
144.其中，处理器102可以包括一个或者多个处理核。处理器102利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器104内的指令、程序、代码集或指令集，以及调用存储在存储器104内的数据，执行电子设备1000的各种功能和处理数据。可选地，处理器102可以采用数字信号处理(digital signal processing，dsp)、现场可编程门阵列(field－programmable gate array，fpga)、可编程逻辑阵列(programmable logic array，pla)中的至少一种硬件形式来实现。处理器102可集成中央处理器(central processing unit，cpu)、图像处理器(graphics processing unit，gpu)和调制解调器等中的一种或几种的组合。其中，cpu主要处理操作系统、用户界面和应用程序等；gpu用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器102中，单独通过一块通信芯片进行实现。作为一种方式，处理器102可以为神经网络芯片。例如，可以为嵌入式神经网络芯片(npu)。
145.存储器104可以包括随机存储器(random access memory，ram)，也可以包括只读存储器(read-only memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。
146.再者，电子设备1000除了前述所示的器件外，还可以包括网络模块110以及传感器模块112。
147.所述网络模块110用于实现电子设备1000与其他设备之间的信息交互，例如，传输设备控制指令、操纵请求指令以及状态信息获取指令等。而当电子设备200具体为不同的设备时，其对应的网络模块110可能会有不同。
148.传感器模块112可以包括至少一种传感器。具体地，传感器模块112可包括但并不限于：水平仪、光传感器、运动传感器、压力传感器、红外热传感器、距离传感器、加速度传感
器、以及其他传感器。
149.其中，压力传感器可以检测由按压在电子设备1000产生的压力的传感器。即，压力传感器检测由用户和电子设备之间的接触或按压产生的压力，例如由用户的耳朵与移动终端之间的接触或按压产生的压力。因此，压力传感器可以用来确定在用户与电子设备1000之间是否发生了接触或者按压，以及压力的大小。
150.其中，加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备1000姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。另外，电子设备1000还可配置陀螺仪、气压计、湿度计、温度计等其他传感器，在此不再赘述。
151.音频采集装置110，用于进行音频信号采集。可选的，音频采集装置110包括有多个音频采集器件，该音频采集器件可以为麦克风。
152.作为一种方式，电子设备1000的网络模块为射频模块，该射频模块用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。所述射频模块可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(sim)卡、存储器等等。例如，该射频模块可以通过发送或者接收的电磁波与外部设备进行交互。例如，射频模块可以向目标设备发送指令。
153.请参考图14，其示出了本技术实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
154.计算机可读存储介质800可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。
155.综上所述，本技术提供的一种语音控制方法、装置以及电子设备，通过获取语音指令以及获取当前用户界面对应的可操作信息后，将所述语音指令与所述当前用户界面对应的可操作信息进行匹配，以从当前用户界面对应的可操作信息中确定目标可操作信息，并响应于所述确定目标可操作信息，执行目标操作。从而通过将语音指令与获取到语音指令时所显示的界面(当前用户界面)对应的可操作信息进行匹配的方式，使得对于用户针对所看到的界面而实时触发的语音指令能够较佳的被完成。
156.最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曾理;张晓帆
技术所有人：杭州逗酷软件科技有限公司
我是此专利的发明人

上一篇：一种具有除尘效果的可调节式梳棉机的制作方法
上一篇：一种儿科用中药丸拓印装置的制作方法