语音指令执行方法、电子设备及介质与流程

文档序号:33146734发布日期:2023-02-03 21:48阅读:56来源:国知局
语音指令执行方法、电子设备及介质与流程

1.本技术涉及语音控制技术领域,特别涉及一种语音指令执行方法、电子设备及介质。


背景技术:

2.随着人工智能技术的发展,语音智能平台或语音助手因为能够在一定条件下识别用户的语音输入并生成相应的操作指令,为用户使用语音来操控手机、平板、车机等电子设备提供了极大的便利,而被广泛应用。
3.如图1(a)所示,电子设备手机上显示的是蓝牙设置界面,用户如果想要连接名称为“beats solo”的电子设备,则可以通过发出对应连接beats solo语音指令,来控制手机执行与名称为“beats solo”的蓝牙电子设备建立通信连接的操作。例如,对应的语音指令可以是“点击beats solo”或“连接beats solo”等。当手机执行“点击beats solo”的语音指令后蓝牙界面状态如图1(b)所示,为将当前电子设备与以“beats solo”命名的电子设备进行蓝牙配对连接的状态。
4.现有技术中手机执行用户的语音指令的方法一般为对当前界面进行解析获取当前界面上的内容,然后将语音指令与当前界面上的内容进行匹配,以获取与语音指令对应的控件,从而根据语音指令对该控件执行对应的操作,但是现有技术中对界面解析的一般不够全面或对解析后的内容缺乏相应的处理,导致手机在有些时候难以找到和语音指令对应的控件,从而无法执行或无法准确执行用户的语音指令。


技术实现要素:

5.为解决上述提及的因为现有技术中对界面解析的一般不够全面或对解析后的内容缺乏相应的处理,从而导致的电子设备在有些时候难以找到和语音指令对应的控件,进而无法执行或无法准确执行用户的语音指令的技术问题,本技术实施例第一方面提供一种语音指令执行方法,所述方法可以用于应用于电子设备,所述方法包括:
6.所述电子设备检测到用户的语音指令;所述语音指令包括操作和文本。
7.所述电子设备对所述当前显示界面进行解析,获取解析内容;
8.所述电子设备根据所述解析内容以及所述电子设备的各显示界面中各控件信息分别与文本信息及图标信息之间的对应关系,获取所述当前显示界面中各控件的匹配文本;
9.所述电子设备将所述语音指令中的文本与所述当前显示界面中各控件的匹配文本匹配,将与所述语音指令中的文本相匹配的匹配文本所对应的控件作为所述语音指令对应的目标控件;
10.所述电子设备根据所述语音指令中的操作对所述目标控件进行对应操作。
11.本技术实施例提供的语音指令执行方法中电子设备在获取当前界面的解析内容后,会对解析内容进行进一步的后续处理,其后续处理的方式为对当前界面的控件进行文
本匹配以获取每个控件的匹配文本,以使得电子设备在接收到用户的语音指令后,能够精确找到与用户的语音指令中的文本相匹配的匹配文本,进而根据寻找到的匹配文本获取对应的控件,并按照语音指令中的操作对该控件进行对应的操作。该方法能够有效提高语音指令执行的精确度。
12.可以理解,本技术实施例中,电子设备可以对用户的语音指令进行识别,以获取语音指令中包含的操作和文本。其中,对语音指令中的操作可以为具体的动作,例如,“点击”、“打开”等,语音指令中的文本可以语音指令中的操作对应的操作对象,例如,语音指令为“打开蓝牙”,则语音指令中的操作为“打开”,操作“打开”对应的操作对象(文本)为“蓝牙”。
13.在一些实施例中,电子设备对用户的语音指令识别的方式可以为对用户的语音指令进行解析,具体的,可以通过后文实施例中提及的提槽的方式对语音指令进行解析以获取语音指令中包含的操作和文本。
14.可以理解,本技术实施例中,电子设备的当前显示界面可以为电子设备接收用户的语音指令时当前显示的界面。
15.可以理解,本技术实施例中提及的当前显示界面的解析内容与本技术实施例中提及的当前显示界面的解析结果意思一致。
16.上述第一方面一种可能的实现中,所述当前显示界面的解析内容包括所述当前显示界面的文本信息、图标信息和控件信息;
17.所述文本信息包括文本和所述文本对应的位置信息;
18.所述图标信息包括图标的转化文本及所述图标对应的位置信息;
19.所述控件信息包括控件的类别和所述控件对应的位置信息。
20.可以理解,文本对应的位置信息可以为文本所在的位置或区域,图标对应的位置信息可以为图标所在的位置或区域,控件对应的位置信息可以为控件所在的位置或区域。
21.可以理解,在一些实施例中,上述提及的文本、图标和控件的位置或区域均可以以坐标的形式呈现,例如,以文本所在的位置或区域为例,若手机的显示界面为坐标系,文本对应的位置即为文本中心位置的具体坐标点,文本所在区域即为文本外围若干坐标点围成的区域,例如可以为长方形区域,文本设于该长方形区域内。
22.上述第一方面一种可能的实现中,所述各显示界面中各控件信息分别与文本信息及图标信息之间的对应关系,通过对所述电子设备的所有界面的控件信息与文本信息进行对应关系的标注获取。
23.本技术实施例中,电子设备的各显示界面可以通过人工截取电子设备的各种应用程序内的显示界面获取。
24.可以理解,上述提及的电子设备的各种应用程序的显示界面中的每个显示界面的数量可以截取一个,也可以截取不同时刻的多个。例如,大部分显示界面是会发生实时变化的,例如蓝牙界面,在不同位置的时候,周边可搜索到的设备是不同的,因此显示界面是不同的。因此,可以同过截取多个时刻的界面,分别进行控件信息和文本信息的对应关系标注,并进行分析总结,以更加精确的获取该界面的控件信息和文本信息的对应关系。
25.本技术实施例一种可实施的方案中,电子设备显示界面中各控件信息与文本信息及图标信息之间的对应关系在获取后可以存储于电子设备的语音识别模块等人工智能模块中。当电子设备获取到解析内容后,可以将解析内容发送至语音识别模块中,语音识别模
块根据已存储的标注数据直接对当前显示界面上的控件进行文本匹配,以获取当前显示界面中各控件的匹配文本。
26.在一些实施例中,该语音识别模块可以置于电子设备的处理器中,可以用于执行本技术实施例中提及的语音指令执行方法。
27.本技术实施例另一种可实施的方案中,在对所述电子设备的所有界面的控件信息与文本信息及图标信息进行对应关系的标注后,可以对所有标注好的数据进行训练以获取融合模型。从而更加精确的获取电子设备的每个界面的控件信息与文本信息及图标信息之间的对应关系。例如,对于上述会发生实时变化的显示界面,可以通过截取多个时刻的界面,分别进行控件信息和文本信息及图标信息的对应关系标注,并进行不断的机器学习和训练,可以更加精确的获取该界面的控件信息和文本信息的对应关系。
28.可以理解,融合模型中可以包括有训练后的电子设备所有界面的控件信息与文本信息及图标信息的对应关系。当向融合模型中输入当前显示界面的解析内容,通过融合模型匹配后,即可输出当前显示页面的控件与所有文本(包括原始文本及图标转化后的文本)的对应关系。
29.可以理解,电子设备的每个界面的控件信息与文本信息之间的对应关系可以包括控件与文本的对应关系、控件对应的位置与文本对应的位置之间的对应关系;控件信息与图标信息之间的对应关系可以包括控件与图标转化后的文本的对应关系,控件对应的位置与图标对应的位置之间的对应关系。
30.上述第一方面一种可能的实现中,所述电子设备根据所述解析内容以及电子设备的各显示界面中各控件与文本信息之间的对应关系,获取所述当前显示界面中各控件的匹配文本;包括:
31.电子设备根据所述解析内容,通过电子设备的各显示界面中各控件与文本信息之间的对应关系,获取所述与当前显示界面中各控件具有对应关系的文本和/或图标的转化文本;
32.将所述与当前显示界面中各控件具有对应关系的文本和/或图标的转化文本进行组合获取所述当前显示界面中各控件的匹配文本。
33.可以理解,本技术实施例中,一个文本可以对应匹配给一个控件,也可以对应匹配给多个控件,也可以不对应任何控件。例如,图9中所示的“beats solo”文本除了可以对应于“beats solo”控件,也可以对应于“设置”图标控件。而“已配对的设备”文本并没有任何可对应的控件。
34.上述第一方面一种可能的实现中,与所述当前显示界面中各控件具有对应关系的文本存在于所述当前显示界面和/或所述当前显示界面的上一级界面。
35.可以理解,在一些实施例中,与所述当前显示界面中各控件具有对应关系的文本可以存在于所述当前显示界面,例如,图9中“beats solo”控对应的文本为“beats solo”文本,“beats solo”文本存在于当前显示界面。
36.可以理解,在另一些实施例中,有些图标控件的一些对应文本可以不是当前界面中的文本。例如,可以为当前界面的上一级界面的主题文本。
37.例如,对于图8中蓝牙界面中的“返回”图标控件,当点击“返回”图标控件时,可以返回蓝牙界面的上一级界面设置界面。因此,在对“返回”图标进行标注的时候除了标注于
蓝牙界面中的“返回”图标转化后的文本具有对应关系,还与上一级界面设置界面的主题文本“设置”具有对应关系。
38.因此,若将蓝牙界面的解析结果即蓝牙界面的所有控件及其位置、文本及其位置以及图标转化后的文本及其位置输入融合模型后,融合模型输出的与“返回”图标控件具有对应关系的除了当前界面的“返回”图标转化后的文本,还有蓝牙界面的上一级界面的主题文本“设置”。
39.上述第一方面一种可能的实现中,所述电子设备将所述语音指令中的文本与所述当前显示界面中各控件的匹配文本匹配,将与所述语音指令中的文本相匹配的匹配文本所对应的控件作为所述语音指令对应的目标控件;包括:
40.所述电子设备将所述语音指令中的文本与所述当前显示界面中各控件的匹配文本进行匹配,获取所述语音指令中的文本与所述当前显示界面中各控件的匹配文本的匹配度;
41.根据所述语音指令中的文本与所述当前显示界面中的所有控件的匹配文本的匹配度确定与所述语音指令对应的文本相匹配的匹配文本;
42.将与所述语音指令中的文本相匹配的匹配文本所对应的控件作为所述语音指令对应的目标控件。
43.本技术实施例中,可以将语音指令中的文本与当前界面的所有控件的匹配文本的一致性分别进行判断,当语音指令中的文本与当前界面的某控件的对应文本一致性越高,说明语音指令中的文本与当前界面的某控件的对应文本匹配度越高,选取匹配度最高的控件作为语音指令的目标控件。
44.本技术实施例中,通过判断上述语音指令中的文本与当前界面的所有控件的对应文本的一致性可以精确寻找到当前界面中与用户语音指令中的文本对应的控件,从而能够精确执行用户的语音指令。
45.上述第一方面一种可能的实现中,还包括:若所述语音指令对应的文本与所述当前显示界面中的各控件的匹配文本的匹配度均低于第一设定值,则不存在目标控件。
46.可以理解,在一些实施例中,还可以设置第一设定值即匹配度阈值,当语音指令中的文本与当前界面的所有控件的对应文本的匹配度均低于匹配度阈值,则代表没有可以操作的控件,即不存在目标控件,那么便不执行任何操作。
47.上述第一方面一种可能的实现中,所述电子设备为手机。
48.本技术实施例第一方面提供的语音指令执行方法中,电子设备在获取当前界面的解析内容后,会对解析内容进行进一步的后续处理,其后续处理的方式为对当前界面的控件进行文本匹配以获取每个控件的匹配文本,以使得电子设备在接收到用户的语音指令后,能够精确找到与用户的语音指令中的文本相匹配的匹配文本,进而根据寻找到的匹配文本获取对应的控件,并按照语音指令中的操作对该控件进行对应的操作。该方法能够有效提高语音指令执行的精确度。
49.本技术实施例第二方面提供一种电子设备,包括:
50.存储器,用于存储由所述电子设备的一个或多个处理器执行的指令,以及
51.处理器,是所述电子设备的所述一个或多个处理器之一,用于执行所述语音指令执行。
52.本技术实施例第三方面提供一种计算机可读介质,所述计算机可读介质上存储有指令,该指令在机器上执行时使机器执行上述语音指令执行方法。
53.本技术实施例第四方面提供一种计算机程序产品,所述计算机程序产品包括指令,所述指令用于实现上述语音指令执行方法。
54.本技术实施例第五方面提供一种芯片装置,所述芯片装置包括:
55.通信接口,用于输入和/或输出信息;
56.处理器,用于执行计算机可执行程序,使得安装有所述芯片装置的设备执行上述语音指令执行方法。
附图说明
57.图1为本技术实施例一种语音指令执行方法的应用场景示意图;
58.图2为本技术实施例一种蓝牙界面的示意图;
59.图3为本技术实施例一种对解析结果进行后续处理的方法示意图;
60.图4为本技术实施例一种对解析结果进行后续处理的方法示意图;
61.图5为本技术实施例一种蓝牙界面的部分控件与文本的对应关系的示意图;
62.图6(a)为本技术实施例一种电子设备的结构示意图;
63.图6(b)为本技术实施例一种电子设备的软件框图;
64.图7为本技术实施例一种语音指令执行方法的流程示意图;
65.图8为本技术实施例一种蓝牙界面的解析结果示意图;
66.图9为本技术实施例一种蓝牙界面的部分控件与文本的对应关系的示意图;
67.图10为本技术实施例一种蓝牙界面的部分控件与文本的对应关系的示意图;
68.图11为本技术实施例点击“设置”图标控件后的显示界面示意图。
具体实施方式
69.本技术的实施例公开了一种语音指令执行方法、电子设备及介质。
70.如前,用户可以通过语音指令来实现对电子设备上显示的界面中各控件的控制,当用户通过语音指令控制电子设备上显示的界面时,电子设备对语音指令的执行的成功率主要依赖于语音指令执行方法中电子设备对屏幕界面的解析结果及对解析结果的后续处理。
71.可以理解,界面的解析结果具体可以包括界面中的文本信息、图标信息及控件信息等,其中,文本信息可以包括文本和文本对应的位置,图标信息可以包括图标、图标对应的文本以及图标对应的位置,控件信息可以包括控件类别和控件位置。例如,如图2所示,蓝牙界面包括的文本有“beats solo”文本201、“huawei”文本203、蓝牙文本211等;包括的控件有“beats solo”控件202、“huawei”控件204、“开关”图标控件208、“设置”图标控件210和“返回”图标控件206等;包括的图标有“返回”图标205,“开关”图标207、“设置”图标209和“手机”图标213等。
72.可以理解,本技术实施例中,控件为是用户001可与之交互以输入或操作数据的对象。其中,控件可以包括文本控件和图标控件。其中,文本控件可以为通过点击文本能够操控的控件,图2中所示的文本控件可以包括“beats solo”控件202、“huawei”控件204等;图
标控件可以指通过点击图标能够操控的控件。图1中所示的图标控件可以包括“开关”图标控件208、“设置”图标控件210和“返回”图标控件206等。
73.可以理解,图2中所示的蓝牙界面中虚线方框圈中的内容为文本,虚线椭圆框中的内容为图标,实线加粗方框圈中的内容为控件。
74.此外,可以理解,对解析结果的后续处理一般可以包括对解析结果中的控件进行文本匹配,以使得电子设备能够将用户的语音指令中的文本与控件的匹配文本进行一致性对比,从而找到与用户指令中的文本相对应的控件,并对该控件执行特定的操作。例如,对于上述的蓝牙界面,对解析结果的后续处理一般可以为对界面上的控件进行文本匹配等操作。
75.因此,若未对电子设备的当前显示界面进行准确全面的解析,或者对解析结果中控件的文本匹配不准确或缺乏,则电子设备难以将用户的语音指令中的文本与对应控件的匹配文本进行对比,从而难以找到与用户指令中的文本相对应的控件。造成电子设备无法执行或无法准确执行用户的语音指令。
76.例如,在一些实施例中,语音指令执行方法中电子设备在对当前界面进行解析后,对解析结果后续处理的方式为对当前界面的文本、图标以及控件进行编号。具体为对当前界面的文本、图标或控件进行数字编号。以使得用户能够通过发出点击具体数字编号的语音指令对电子设备的显示界面的控件进行操作。
77.具体的可以如图3所示,对电子设备的控件进行数字编号,例如将“返回”图标控件206编号为

,将“开关”图标控件编号208为

,将“beats solo”控件202编号为

,将“huawei”控件204编号为

等,此时,用户001若想让电子设备002执行点击“beats solo”的操作,则用户001可以找到“beats solo”文本201对应的数字编号

,发出指令可以为“点击3”的语音指令。此时,电子设备002可以执行点击数字编号

对应的“beats solo”控件202的操作。
78.采用上述对解析结果进行后续处理的方式,用户001需要发出点击具体数字的指令才能控制电子设备执行对应的操作,如此,用户001则需要花费时间将文本与数字进行一一对应才能发出点击具体数字的指令,过程较为繁琐,造成用户001体验较差。
79.为解决上述问题,本技术实施例提供另一种语音指令执行方法,该方法中电子设备对解析结果进行后续处理的方式为对当前界面的文本控件以及图标控件进行文本匹配,以使得用户能够通过发出点击具体文本的语音指令对电子设备的显示界面的控件进行操作。
80.具体文本匹配的方式为一方面对解析结果中的文本控件进行文本匹配,该文本控件对应的匹配文本为位于文本控件区域内的文本。
81.具体的,可以如图4所示,“beats solo”控件202为文本控件,则给文本控件“beats solo”控件202匹配对应的文本为位于“beats solo”控件202区域内的文本“beats solo”。“huawei”控件204为文本控件,则给文本控件“huawei”控件204匹配对应的文本为位于“huawei”控件204区域内的文本“huawei”。
82.另一方面对当前界面上的图标控件根据给一些常用图标设定规则找到图标控件的关联文本,将位于该图标控件区域内的图标的对应主体名称作为图标控件的初始文本,将图标控件的关联文本与该图标控件的初始文本相匹配,获取图标的复合文本。
83.例如,常用的“开关”图标控件208的设定规则为将“开关”图标控件208左侧的文本作为“开关”图标控件的关联文本。“开关”图标控件的初始文本为位于“开关”图标控件208区域内的“开关”图标207的对应主体名称“开关”。则“开关”图标207初始文本与关联文本匹配后获取的复合文本为“蓝牙开关”。
84.此时,若如果用户001发出“打开蓝牙开关”的指令,电子设备或会匹配到“开关”图标控件208,并执行打开蓝牙开关的操作。
85.图4所示的界面解析方式能够为对当前界面上的文本控件进行解析,使得用户001在大部分情况下对文本控件进行语音控制,但是对图标规则设定的方式只是对很少一部分图标进行了规则设定,因为图标的种类和位置的多样化,上述实施方案并不能对大部分图标控件进行统一的规则设定。因此,对于没有进行规则设定的图标控件,上述方案将无法获取图标控件的关联文本,只能获取图标控件的初始文本。
86.例如,图4中所示“设置”图标控件210没有对应的设定规则,因此,“设置”图标控件210不具有关联文本,只具有初始文本即位于“设置”图标控件210区域内的“设置”图标209的对应主体名称“设置”。因此,当用户001发出“点击beats solo的设置”的语音指令,电子设备无法确定用户001的语音指令的文本内容对应的是“设置”图标控件210对应的文本“设置”还是“beats solo”控件202对应的文本“beats solo”,因此,电子设备无法确定用户是想要点击“beats solo”控件202还是点击“设置”图标控件210,从而使得电子设备无法根据用户001指令进行对应的操作。
87.为解决上述问题,本技术实施例还提供了第三种语音指令执行方法,该语音指令执行方法中对界面解析结果的后续处理方法,具体为将解析出的结果与一个具有电子设备所有界面的文本与控件对应关系的融合模型进行匹配,找到当前显示界面上的所有控件与文本的对应关系,以使得能够对界面上的所有的控件进行准确的文本匹配。从而使得电子设备能够精确找到和用户001语音指令匹配的控件,并对该控件进行对应的操作。
88.例如,将对蓝牙界面进行解析获取的解析结果输入融合模型中,输出的蓝牙界面的控件与文本的对应关系的部分示例为如图5所示。从图5中箭头可以看出,与“设置”图标控件210的对应文本为“beats solo”文本201以及“设置”图标209转化后的文本;其中,“设置”图标209转化后的文本为“设置”。电子设备将与“设置”图标控件210具有对应关系的文本“beats solo”文本201以及“设置”文本进行组合,可以获取“设置”图标控件210的匹配文本为“beats solo设置”。
89.此时,用户001发出“点击beats solo的设置”的语音指令,电子设备002将可以用户001的语音指令的文本内容和“设置”图标控件210对应的匹配文本“beats solo设置”匹配,从而使得电子设备002根据用户001指令执行点击“设置”图标控件210的操作。
90.下面在详细介绍本技术实施例提供的另一种语音指令执行方法之前,首先对本技术实施例提供的电子设备进行介绍。
91.可以理解,本技术实施例提及的电子设备包括但不限于,膝上型计算机、台式计算机、平板计算机、智能手机、服务器、可穿戴设备、头戴式显示器、移动电子邮件设备、便携式游戏机、便携式音乐播放器、阅读器设备、其中嵌入或耦接有一个或多个处理器的电视机、或具有计算功能的其他电子设备002。
92.为了便于介绍,现在以电子设备为手机002为例进行说明。
93.如图6(a)所示,手机002可以包括处理器110、电源模块140、存储器180,移动通信模块130、无线通信模块120、传感器模块190、音频模块150、摄像头170、接口模块160、按键101以及显示屏102等。
94.可以理解的是,本发明实施例示意的结构并不构成对手机002的具体限定。在本技术另一些实施例中,手机002可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
95.处理器110可以包括一个或多个处理单元,例如,可以包括中央处理器cpu(central processing unit)、图像处理器gpu(graphics processing unit)、数字信号处理器dsp、神经网络处理器(neural-network processing unit,npu)、微处理器mcu(micro-programmed control unit)、ai(artificial intelligence,人工智能)处理器或可编程逻辑器件fpga(field programmable gate array)等的处理模块或处理电路。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。处理器110中可以设置存储单元,用于存储指令和数据。在一些实施例中,处理器110中的存储单元为高速缓冲存储器180。其中,处理其可以执行本技术实施例提供的语音指令执行方法。
96.npu为神经网络(neural-network,nn)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过npu可以实现手机002的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
97.电源模块140可以包括电源、电源管理部件等。电源可以为电池。电源管理部件用于管理电源的充电和电源向其他模块的供电。在一些实施例中,电源管理部件包括充电管理模块和电源管理模块。充电管理模块用于从充电器接收充电输入;电源管理模块用于连接电源,充电管理模块与处理器110。电源管理模块接收电源和/或充电管理模块的输入,为处理器110,显示屏102,摄像头170,及无线通信模块120等供电。
98.移动通信模块130可以包括但不限于天线、功率放大器、滤波器、lna(low noise amplify,低噪声放大器)等。移动通信模块130可以提供应用在手机002上的包括2g/3g/4g/5g等无线通信的解决方案。
99.无线通信模块120可以包括天线,并经由天线实现对电磁波的收发。无线通信模块120可以提供应用在手机002上的包括无线局域网(wireless localarea networks,wlan)(如无线保真(wireless fidelity,wi-fi)网络),蓝牙(bluetooth,bt),全球导航卫星系统(global navigation satellite system,gnss),调频(frequency modulation,fm),近距离无线通信技术(near field communication,nfc),红外技术(infrared,ir)等无线通信的解决方案。手机002可以通过无线通信技术与网络以及其他设备进行通信。
100.在一些实施例中,手机002的移动通信模块130和无线通信模块120也可以位于同一模块中。
101.显示屏102用于显示人机交互界面、图像、视频等。显示屏102包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,lcd),有机发光二极管(organic light-emitting diode,oled),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,amoled),柔性发光二极管(flex light-emitting diode,fled),miniled,microled,micro-oled,量子点发光二极管
(quantum dot light emitting diodes,qled)等。本技术实施例中,显示屏102可以用于显示手机002的各种应用程序界面。
102.传感器模块190可以包括接近光传感器、压力传感器,陀螺仪传感器,气压传感器,磁传感器,加速度传感器,距离传感器,指纹传感器,温度传感器,触摸传感器,环境光传感器,骨传导传感器等。
103.音频模块150用于将数字音频信息转换成模拟音频信号输出,或者将模拟音频输入转换为数字音频信号。音频模块150还可以用于对音频信号编码和解码。在一些实施例中,音频模块150可以设置于处理器110中,或将音频模块150的部分功能模块设置于处理器110中。在一些实施例中,音频模块150可以包括扬声器、听筒、麦克风以及耳机接口。本技术实施例中,音频模块150可以用于接收用户的语音指令。
104.摄像头170用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件把光信号转换成电信号,之后将电信号传递给isp(image signal processing,图像信号处理)转换成数字图像信号。手机002可以通过isp,摄像头170,视频编解码器,gpu(graphic processing unit,图形处理器),显示屏102以及应用处理器等实现拍摄功能。
105.接口模块160包括外部存储器接口、通用串行总线(universal serial bus,usb)接口及用户001标识模块(su“beats solo”criber identification module,sim)卡接口等。其中外部存储器接口可以用于连接外部存储卡,例如micro sd卡,实现扩展手机002的存储能力。外部存储卡通过外部存储器接口与处理器110通信,实现数据存储功能。通用串行总线接口用于手机002和其他电子设备002进行通信。用户001标识模块卡接口用于与安装至手机00210的sim卡进行通信,例如读取sim卡中存储的电话号码,或将电话号码写入sim卡中。
106.在一些实施例中,手机002还包括按键101、马达以及指示器等。其中,按键101可以包括音量键、开/关机键等。马达用于使手机002产生振动效果,例如在用户001的手机002被呼叫的时候产生振动,以提示用户001接听手机002来电。指示器可以包括激光指示器、射频指示器、led指示器等。
107.手机002的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本发明实施例以分层架构的android系统为例,示例性说明电子设备002的软件结构。
108.图6(b)是本发明实施例的手机002的软件结构框图。
109.分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将android系统分为四层,从上至下分别为应用程序层,应用程序框架层,系统库,以及内核层。应用程序层可以包括一系列应用程序包。
110.如图6(b)所示,应用程序包可以包括语音助手,蓝牙,设置等应用程序。
111.应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface,api)和编程框架。应用程序框架层包括一些预先定义的函数。其中,语音助手在接收到用户001的语音指令后,可以获取手机002的当前显示界面。
112.如图6(b)所示,应用程序框架层可以包括内容提供器,视图系统,资源管理器等。
113.视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用
于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
114.本技术实施例中,语音助手可以控制手机002通过其上安装的操作系统的标准接口,从视图系统中获取当前显示的界面对应的界面对象,例如界面上的文字及控件等,并获取该界面对象对应的视图结构。
115.内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。数据可以包括各应用程序的界面内容,视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。本技术实施例中,内容提供器可以被语音助手访问,用于获取内容提供器器中存储的各应用程序的即时界面内容。
116.资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
117.应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
118.系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(media libraries)等。
119.表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2d和3d图层的融合。
120.媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:mpeg4,h.264,mp3,aac,amr,jpg,png等。
121.内核层是硬件和软件之间的层,内核层至少包含显示驱动,摄像头驱动,音频驱动等。
122.其中,应用程序包中的语音助手可以是系统级应用。语音助手也可称为人机交互机器人、人机对话机器人或聊天机器人(chatbot)等。语音助手应用也可以称为智慧助手应用等。语音助手目前广泛应用于手机、平板电脑、智能音箱、智能电视等多类电子设备,为用户001提供了智能化的语音交互方式。语音助手是人机交互的核心之一。
123.下面结合上述手机002对本技术实施例第三种语音指令执行方法进行详细叙述。图7示出了一种语音指令执行方法的示意图,其中,图7所示的语音指令执行方法可以由手机002的语音助手应用应用程序通过控制手机002的处理器110执行。如图7所示,图7中所示的语音指令执行方法包括:
124.s701:接收用户001的语音指令;
125.本技术实施例中,当用户001可以说出语音指令,例如如图5所示,用户001发出“点击beats solo的设置”的语音指令。电子设备002可以接收该语音指令。
126.可以理解,上述语音指令可以用户001是在观察到电子设备002的当前界面之后发出的,意图通过上述语音指令实现对电子设备002当前界面上的某个控件进行设定操作。
127.在一些实施例中,用户001在说出语音指令前需要说出唤醒词,以唤醒电子设备002开始接收用户001的语音指令,例如,用户001说出“嗨,小艺”的唤醒词,则电子设备002的语音助手开启,可以接收用户001的语音指令。
128.在一些实施例中,电子设备002在接收用户001的语音指令的过程中,可以在当前
界面上显示提示信息,以提示用户001正在使用电子设备002的语音识别功能。其中,提示信息可以为文字“语音识别中”,也可以为文字“语音识别中”对应的图标等形式的信息。
129.s702:获取电子设备002的当前显示界面;
130.可以理解,本技术实施例中,电子设备002的当前显示界面可以为电子设备002接收用户001的语音指令时当前显示的界面,如图8所示,当前显示界面可以是蓝牙界面。
131.在一些实施例中,若当前电子设备002的系统为安卓系统,电子助手可以通过安卓标准接口获取电子设备002的当前显示界面。
132.s703:对当前界面进行解析,获取解析内容。其中,解析内容可以包括当前显示界面的文本信息、图标信息和控件信息。
133.文本信息可以包括文本和文本对应的位置信息;可以理解,文本对应的位置信息可以为文本所在的位置或区域。
134.图标信息可以包括图标的转化文本及图标对应的位置信息;可以理解,图标对应的位置信息可以为图标所在的位置或区域。可以理解,图标的转化文本可以为图标的对应的主体名称。例如,开关图标的对应主体名称为开关,设置图标的对应主体名称为设置等。
135.控件信息可以包括控件的类别和控件对应的位置信息。可以理解,控件对应的位置信息可以为控件所在的位置或区域。
136.在一些实施例中,上述提及的文本、图标和控件的位置或区域均可以以坐标的形式呈现,例如,以文本所在的位置或区域为例,以手机的显示界面为坐标系,文本对应的位置即为文本中心位置的具体坐标点,文本所在区域即为文本外围若干坐标点围成的区域,例如可以为长方形区域,文本设于该长方形区域内。
137.可以理解,本技术实施例中,对蓝牙界面进行解析的结果可以如图8中所示,获取的蓝牙界面包括的文本可以有“beats solo”文本201、“huawei”文本203、“蓝牙”文本211等;包括的控件可以有“beats solo”控件202、“huawei”控件204、“开关”图标控件208、“设置”图标控件210和“返回”图标控件206等;包括的图标可以有“返回”图标205,“开关”图标207、“设置”图标209和“手机”图标213等;
138.上述控件如前可以分为文本控件和图标控件。例如,图8中所示的文本控件可以包括“beats solo”控件202、“huawei”控件204等;图8中所示的图标控件可以包括“开关”图标控件208、“设置”图标控件210和“返回”图标控件206等。
139.可以理解,图8中所示的虚线方框圈中的内容为文本,虚线椭圆框中的内容为图标,实线加粗方框圈中的内容为控件。
140.本技术实施例中,电子设备002对当前界面进行解析获取解析内容的具体方式可以为:
141.对当前界面的每一个元素进行遍历,若某些元素为文本,则直接将文本以字符串形式提取出来以获取具体的文本,若某些元素是图标,则将图标以位图形式提取出来以获取图标对应的图像,并对图标对应的图像进行后续处理以获取图像对应的文本,即最终获取图标元素对应的文本。若某些元素是控件,则直接获取这些控件的类别。另外,分别获取当前显示界面中每个元素对应的位置位置信息。
142.其中,对当前界面的每一个元素进行遍历的方式为:获取当前界面的根视图,根据当前界面的根视图获取当前界面的最顶层的视图,从顶层的视图遍历当前界面中的每一个
子视图,即当前界面中的每一个元素。
143.在一些实施例中,将图标对应的图像转化为具体文本的方式可以为:
144.在获取到图标对应的图像后,对该图像进行预处理,例如裁剪或缩放处理,以满足图像处理算法的需求。然后通过分类模型对预处理后的图像进行分类,并根据分类获取图标信息对应的文本,并将该文本作为图标转化后的文本。
145.其中通过分类模型对预处理后的图像进行分类的方法可以为将预处理后的图像输入到分类模型,通过分类模型提取输入图像的特征并进行聚类,获取包含多个包含不同特征的特征集合,将特征集合输入到分类模型中训练好的分类器中,获取图像的最大概率分类,然后根据图像的最大概率分类得到该类图像对应的文本。
146.s704:根据解析内容以及电子设备的各显示界面中各控件信息与文本信息及图标信息之间的对应关系,获取当前显示界面中各控件的匹配文本。
147.可以理解,上述提及的电子设备的各显示界面中的每个显示界面的数量可以截取一个,也可以截取不同时刻的多个。例如,大部分显示界面是会发生实时变化的,例如蓝牙界面,在不同位置的时候,周边可搜索到的设备是不同的,因此显示界面是不同的。因此,可以同过截取多个时刻的界面,分别进行控件信息和文本信息的对应关系标注,并进行分析总结,以更加精确的获取该界面的控件信息和文本信息的对应关系。
148.可以理解,电子设备的每个界面的控件信息与文本信息之间的对应关系可以包括控件与文本的对应关系、控件对应的位置与文本对应的位置之间的对应关系;控件信息与图标信息之间的对应关系可以包括控件与图标转化后的文本的对应关系,控件对应的位置与图标对应的位置之间的对应关系。
149.其中,各显示界面中各控件信息与文本信息及图标信息之间的对应关系的获取方式有多种:在一些实施例中,可以通过获取电子设备的各显示界面,然后对各显示界面上各控件信息与文本信息及图标信息之间的对应关系进行标注以获取标注数据。并将标注数据存储于电子设备的语音识别模块等人工智能软件中。当电子设备获取到解析内容后,可以将解析内容发送至语音识别模块中,语音识别模块根据已存储的标注数据直接对当前显示界面上的控件进行文本匹配,以获取当前显示界面中各控件的匹配文本。
150.可以理解,该语音识别模块可以置于电子设备的处理器中,能够用于执行本技术实施例中图7所示的语音指令执行模块。
151.其中,电子设备的各显示界面可以通过人工截取电子设备的各种应用程序内的界面获取。
152.在另一些实施例中,电子设备的各显示界面中的各控件信息与文本信息及图标信息之间的对应关系可以通过融合模型获取。
153.例如,本技术实施例可以通过人工截取电子设备的各种应用程序内的界面,标注界面上有对应关系的图标信息、文本信息与控件信息。对上述所有标注好的数据进行训练以获取融合模型。从而更加精确的获取电子设备的每个界面的控件信息与文本信息及图标信息之间的对应关系。例如,对于上述会发生实时变化的显示界面,可以通过截取多个时刻的界面,分别进行控件信息和文本信息及图标信息的对应关系标注,并进行不断的机器学习和训练,可以更加精确的获取该界面的控件信息和文本信息的对应关系。
154.可以理解,融合模型中可以包括有电子设备所有界面的控件信息与文本信息及图
标信息之间的对应关系。当向融合模型中输入当前显示界面的解析内容,通过融合模型匹配后,即可输出当前显示页面的控件与所有文本(包括原始文本及图标转化后的文本)的对应关系。
155.进一步电子设备可以根据上述当前显示页面的控件与所有文本的对应关系获取每个控件的具有对应关系的文本,其中与一个控件具有对应关系的文本可以为一个,也可以为多个,然后可以将当前显示界面上的每个控件的对应文本进行组合,即可获取每个控件的匹配文本。
156.其中,上述提及的标注界面上有对应关系的文本与控件中,文本与控件具有对应关系可以指的是文本与控件具有一定的联系,以蓝牙界面的标注为例,如图8中所示,点击“beats solo”文本201可以操控“beats solo”控件202,则“beats solo”文本201与“beats solo”控件202具有对应关系。则在通过人工标注的时候,可以将蓝牙界面上的“beats solo”文本201与“beats solo”控件202标注为具有对应关系。
157.又例如,图8中所示的蓝牙界面上的“开关”图标控件208主要为控制蓝牙的打开和关闭,即蓝牙与开关图标控件具有对应关系,则在通过人工标注的时候,可以将蓝牙界面上的“蓝牙”文本211与“开关”图标控件208标注为具有对应关系。
158.再例如,图8中所示的蓝牙界面上的“设置”图标控件210主要为显示左侧的“beats solo”文本201对应的电子设备的详细信息,则在通过人工标注的时候,可以将“设置”图标控件210与“beats solo”文本201标注为具有对应关系。
159.可以理解,上述蓝牙界面的标注只是举例说明,训练融合模型需要对应用程序内的所有界面进行标注融合。使得在将某一界面上的解析内容,例如所有控件及其位置信息、文本及其位置信息以及图标转化的文本及图标对应的位置信息输入融合模型后,可以直接输出该界面上所有控件与文本或图标转化后的文本的对应关系,其中,界面上的文本可以对应一个控件,也可以对应多个控件,一个控件可以对应一个文本也可以对应多个文本。
160.例如,将图8所示的蓝牙界面的解析内容输入融合模型中,输出的蓝牙界面的控件与文本的对应关系的部分示例为如图9所示。
161.从图9中箭头可以看出,与“设置”图标控件210的具有对应关系的文本为“beats solo”文本201以及“设置”图标209转化后的文本;其中,“设置”图标209转化后的文本可以为“设置”。
162.在获取到每个控件的具有对应关系文本后,电子设备可以将与控件具有对应关系的文本进行组合获取控件匹配文本。
163.例如,以上述“设置”图标控件210为例,电子设备可以将与“设置”图标控件210具有对应关系的文本“beats solo”文本201以及“设置”文本进行组合,可以获取“设置”图标控件210的匹配文本为“beats solo设置”。
164.可以理解,本技术实施例中,将上述多个文本进行组合的方式可以为部分掐后顺序的任意组合,例如,“beats solo”文本201以及“设置”文本进行组合后获得的文本可以为“beats solo设置”,与可以为“设置beats solo”。
165.再例如,以“beats solo”控件202为例,从图9中箭头可以看出,与“beats solo”控件202的对应文本为“beats solo”文本201以及“手机”图标213转化后的文本;其中,“手机”图标213转化后的文本为“手机”。电子设备将具有对应关系的文本“beats solo”文本201以
及“手机”文本进行组合,可以获取“beats solo”控件202的匹配文本为“手机beats solo设置”。
166.本技术实施例中,可以将训练好的融合模型安装到语音助手中,当获取到当前界面的所有控件及其位置、文本及其位置以及图标转化后的文本及其位置后,将当前界面的所有控件及其位置、文本及其位置以及图标转化后的文本及其位置输入融合模型进行匹配。通过融合模型可以获取当前界面上的所有文本与控件的对应关系。根据文本与控件的对应关系可以对当前界面上的所有控件进行精确的文本匹配。
167.其中,在电子设备的显示界面中,有些图标控件的对应文本是固定的,则训练出的融合模型可以直接输出该图标控件的匹配文本,例如,蓝牙界面中与“开关”图标控件208的相对应的文本一直为“蓝牙”文本211和“开关”图标207转化后的文本“开关”,,则可以直接限定“开关”图标控件208的匹配文本为“蓝牙开关”。融合模型可以根据“开关”图标控件208的位置直接输出“开关”图标控件208的匹配文本“蓝牙开关”。可以不需要再输出“开关”图标控件208与界面中文本的对应关系、减少了电子设备需要重新将“开关”图标控件208的对应的所有文本进行组合的步骤,提高语音命令的执行效率。
168.在一些实施例中,有些图标控件的对应文本是不固定的,例如,“设置”图标控件210的对应文本可以随着设备名称的更改或设备的更改发生变化,例如,当以“beats solo”为命名的电子设备的名称更改时,或者电子设备更换时,则“设置”图标控件210的对应文本也随之更换。例如,以“beats solo”为命名的电子设备的名称更改为“bs”,则“设置”图标控件210的对应文本中的“beats solo”文本变更为“bs”文本。则融合模型可以直接训练出该图标控件的匹配文本,本技术实施例中融合模型可以通过区域限定图标控件的对应文本。
169.例如,如图10所示,融合模型中限定的是位于区域a301内的图标控件与位于区域b302内的文本以及位于区域a301内的图标转化后的文本相对应。
170.则当将蓝牙界面的解析结果即蓝牙界面的所有控件及其位置、文本及其位置以及图标转化后的文本及其位置输入融合模型后,得出“设置”图标控件210位于区域a301内,“beats solo”文本201位于区域b302内,“设置”图标209位于区域a301内,则融合模型输出与“设置”图标控件210具有对应关系的文本为“beats solo”文本201以及“设置”图标209转化后的文本。
171.可以理解,当用户发出点击“beats solo的设置”的时候,电子设备可以将用户001的语音指令的文本内容和“设置”图标控件209的匹配文本进行匹配,从而使得电子设备根据用户001指令进行点击“设置”图标控件210的操作。
172.可以理解,在一些实施例中,有些图标控件的一些对应文本可以不是当前界面中的文本。例如,可以为当前界面的上一级界面的主题文本。
173.例如,对于蓝牙界面中的“返回”图标控件206,当点击“返回”图标控件206时,可以返回蓝牙界面的上一级界面设置界面。因此,人工在对“返回”图标206进行标注的时候除了标注于蓝牙界面中的“返回”图标205转化后的文本具有对应关系,还与上一级界面设置界面的主题文本“设置”具有对应关系。
174.因此,将蓝牙界面的解析结果即蓝牙界面的所有控件及其位置、文本及其位置以及图标转化后的文本及其位置输入融合模型后,融合模型输出的与“返回”图标控件206具有对应关系的除了当前界面的“返回”图标205转化后的文本,还有蓝牙界面的上一级界面
的主题文本“设置”。即通过对融合模型输出的“返回”图标控件206的所有对应文本进行组合,可以得出“返回”图标控件206的匹配文本为“返回设置”。
175.从上述内容可以看出,其中,界面上的一个文本,可以对应匹配给一个控件,例如,如图9中所示,“蓝牙”文本211对应于“开关”图标控件208;界面上的一个文本,也可以对应匹配给多个控件。例如,“beats solo”文本201可以对应于“beats solo”控件202,也可以对应于“设置”图标控件210。界面上的一个文本,也可以不对应任何控件,例如“已配对的设备”文本212并没有任何可对应的控件。
176.本技术实施例提供的上述界面解析的方式通过首先获取具有电子设备002所有界面的文本与控件对应关系的融合模型,当接收到用户001的语音指令后,对电子设备002当前界面的所有文本、图标及控件进行解析,并将解析出的结果与融合模型进行匹配,以使得能够对界面上的所有的控件进行准确的文本匹配。从而使得电子设备002能够精确找到和用户001语音指令匹配的控件,提高语音执行的准确率。
177.s705:对用户001的语音指令进行解析,获取语音指令中的操作以及文本。
178.本技术实施例中,对用户001的语音指令进行解析的方式可以为对用户001的语音指令进行提槽,将用户001的语音指令转化为操作和文本。例如,可以根据自然语言处理(natural language processing,nlp)提槽模型,将用户001的语音指令转化为操作和文本。具体的,当用户001发出“点击beats solo的设置”的语音指令,根据nlp提槽模型提槽后的操作为“点击”,文本为“beats solo的设置”。
179.可以理解,本技术实施例中,该步骤可以位于s701之后,即当接收到用户的语音指令后,即对用户的语音指令进行解析。
180.s706:电子设备将语音指令中的文本与当前显示界面中各控件的匹配文本匹配,将与语音指令中的文本相识别结果匹配的匹配文本所对应的控件作为语音指令对应的目标控件,根据语音指令中的操作对目标控件进行相应的操作。
181.本技术实施例中,可以根据控件的类别确定控件的可以执行的操作。例如,控件的类别为文本控件和图标控件,则可以执行操作为点击操作,若控件的类别为选择控件,则可以执行操作为点击操作、滑动操作等。
182.本技术实施例中,可以对上述提槽后的语音指令的文本与当前界面的所有控件的匹配文本的一致性分别进行判断,当提槽后的语音指令的文本与当前界面的某控件的对应文本一致性越高,说明提槽后的语音指令的文本与当前界面的某控件的对应文本匹配度越高,选取匹配度最高的控件作为操作的目标控件。
183.在一些实施例中,还可以设置匹配度阈值,当提槽后的语音指令的文本与当前界面的某控件的对应文本的匹配度低于匹配度阈值,则代表没有可以操作的目标控件,那么便不执行任操作。
184.对上述提槽后的语音指令的文本与当前界面的所有控件的对应文本的一致性分别进行判断的方式可以为将上述提槽后的语音指令的文本与当前界面的所有控件的对应文本转化为句向量进行排序,其中,句向量距离越近则代表提槽后的语音指令的文本与该控件的对应文本的一致性越高。选择句向量距离最近的控件作为操作的控件,并进行可执行的操作。另外,如果所有句向量距离都大于设定句向量距离阈值,则代表没有可以操作的目标控件,那么便不执行任何操作。
185.本技术实施例中,通过判断上述提槽后的语音指令的文本与当前界面的所有控件的对应文本的一致性可以精确寻找到当前界面中与用户001语音指令提槽后的的文本对应的目标控件,从而能够精确执行用户001的语音指令。
186.s707:控制显示屏102显示进行操作后的界面。
187.本技术实施例中,当手机002的处理器根据用户001的语音指令对当前界面上的对应控件进行对应操作后,控制显示屏显示进行操作后的界面。
188.例如,如上,当用户001发出“点击beats solo的设置”的语音指令,手机002通过判断上述提槽后的语音指令的文本“beats solo的设置”与当前界面的所有控件的对应文本的一致性,可以精确寻找到当前界面中与用户001语音指令提槽后的文本“beats solo的设置”对应的控件为匹配文本为“beats solo的设置”的“设置”图标控件210,则手机001执行点击“设置”图标控件210的操作,其中,点击“设置”图标控件210后手机002的显示界面如图11所示,用户可以在该界面对以“beats solo”为蓝牙名称的电子设备进行重命名操作,另外可以开启或关闭与“beats solo”为蓝牙名称的电子设备进行互联网访问的功能。
189.本技术公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本技术的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
190.可将程序代码应用于输入指令,以执行本技术描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本技术的目的,处理系统包括具有诸如例如数字信号处理器(dsp)、微控制器、专用集成电路(asic)或微处理器之类的处理器的任何系统。
191.程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本技术中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
192.在一些情况下,所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读介质分发。因此,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机制,包括但不限于,软盘、光盘、光碟、只读存储器(cd-roms)、磁光盘、只读存储器(rom)、随机存取存储器(ram)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如,载波、红外信号数字信号等)的有形的机器可读存储器。因此,机器可读介质包括适合于以机器(例如,计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。
193.本技术实施例还提供了一种计算机程序或包括计算机程序的一种计算机程序产品,该计算机程序在某一计算机上执行时,将会使所述计算机实现上述语音指令执行方法。可实施的,计算机程序产品可以包括指令,所述指令用于实现上述语音指令执行方法。
194.本技术实施例还提供一种芯片装置,芯片装置可以包括:通信接口,用于输入和/或输出信息;处理器,用于执行计算机可执行程序,使得安装有所述芯片装置的设备执行上
述语音指令执行方法。其中芯片装置还可以包括互连单元,其被耦合至应用处理器;系统代理单元;集成存储器控制器单元;一组或一个或多个协处理器,其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器;静态随机存取存储器(sram)单元;直接存储器存取(dma)单元。在一个实施例中,协处理器包括专用处理器,诸如例如网络或通信处理器、压缩引擎、gpgpu、高吞吐量mic处理器、或嵌入式处理器等等。
195.在附图中,可以以特定布置和/或顺序示出一些结构或方法特征。然而,应该理解,可能不需要这样的特定布置和/或排序。而是,在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。
196.需要说明的是,本技术各设备实施例中提到的各单元/模块都是逻辑单元/模块,在物理上,一个逻辑单元/模块可以是一个物理单元/模块,也可以是一个物理单元/模块的一部分,还可以以多个物理单元/模块的组合实现,这些逻辑单元/模块本身的物理实现方式并不是最重要的,这些逻辑单元/模块所实现的功能的组合才是解决本技术所提出的技术问题的关键。此外,为了突出本技术的创新部分,本技术上述各设备实施例并没有将与解决本技术所提出的技术问题关系不太密切的单元/模块引入,这并不表明上述设备实施例并不存在其它的单元/模块。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1