通过语音助手调用应用开放能力的方法、装置和存储介质与流程

文档序号:29452972发布日期:2022-03-30 12:13阅读:302来源:国知局
通过语音助手调用应用开放能力的方法、装置和存储介质与流程

1.本公开总体上涉及无线通信和终端中的终端技术领域,更具体地涉及通过语音助手调用应用(app)开放能力的方法。


背景技术:

2.随着人工智能技术的不断进步,在各类智能终端应用中,语音助手是简化用户操控的一个重要智能应用,通过语音助手,用户可以一步直达地操控终端设备功能,打开已安装的app应用等。根据调研公司的数据,2019年就有77%的受访中国消费者使用智能语音助手,为全球最高(全球平均比例为50%)。
3.尽管现有的语音助手可以根据用户输入启动某个app,甚至可以专门适配某个app的具体功能,例如用户告知手机语音助手“请使用高德地图导航到天河公园东门”,手机语音助手可以调用高德地图进行导航,但该功能的实现需要语音助手与导航app的深度定制和适配,并不是一个通用的解决方案。
4.为了验证当前手机语音助手调用app能力不是一个通用的方法,可以使用手机语音助手“打开今日头条国际板块”进行验证,语音助手只能正确执行“打开今日头条”的命令,如果让其打开今日头条中某一个板块内容,或执行app中某一具体功能,则语音助手无法做到,因为该app对于语音助手来说是个黑盒子。


技术实现要素:

5.当前常见的手机或者智能音箱上运行的各种语音助手若想获得操作终端上应用的内部功能的能力,语音助手开发方与应用开发方必须紧密合作。例如,由app遵循语音助手提供的接口进行交互,那么app开发者就要承担适配不同语音助手的工作;或者由语音助手开发者遵循app提供的开放接口,那么语音助手开发者就得适配不同的app。
6.本公开提供了一种使得语音助手调用应用能力成为通用的、标准化的方法,能够减轻各方的适配工作量。
7.在下文中给出了关于本公开的简要概述,以便提供关于本公开的一些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
8.根据本公开的一个方面,提供一种通过语音助手调用安装于终端设备的应用的方法,包括:接收来自用户的语音指示,对语音指示进行解析,获得表示所述用户的语音指示表达的意图的意图信息;向开放能力注册模块发送查询信息,该查询信息包括意图信息;接收从所述开放能力注册模块返回的能力调用信息;以及根据从所述开放能力注册模块返回的能力调用信息和所述意图信息,调用应用的能力。
9.根据本公开的另一个方面,提供一种通过语音助手调用安装于终端设备的应用的装置,包括:存储器,其上存储有指令;以及处理器,被配置为执行存储在所述存储器上的指
令,以执行以根据本公开的上述方面所述的方法。
10.根据本公开的又一个方面,提供一种计算机可读存储介质,其包括计算机可执行指令,所述计算机可执行指令在由一个或多个处理器执行时,使得所述一个或多个处理器执行根据本公开的上述方面所述的方法。
附图说明
11.构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
12.参照附图,根据下面的详细描述,可以更清楚地理解本公开,其中:
13.图1是示出了根据本发明的一个实施例的通过语音助手调用安装于终端设备的应用的方法的流程图。
14.图2是示出了根据本发明的一个具体应用例的通过语音助手调用安装于终端设备的应用的方法的流程图。
15.图3示出了可以实现根据本公开的实施例的计算设备的示例性配置。
具体实施方式
16.参考附图进行以下详细描述,并且提供以下详细描述以帮助全面理解本公开的各种示例实施例。以下描述包括各种细节以帮助理解,但是这些细节仅被认为是示例,而不是为了限制本公开,本公开是由随附权利要求及其等同内容限定的。在以下描述中使用的词语和短语仅用于能够清楚一致地理解本公开。另外,为了清楚和简洁起见,可能省略了对公知的结构、功能和配置的描述。本领域普通技术人员将认识到,在不脱离本公开的精神和范围的情况下,可以对本文描述的示例进行各种改变和修改。
17.图1是示出了根据本发明的一个实施例的通过语音助手调用安装于终端设备的应用的方法的流程图。
18.如图1所示,首先,在步骤s01中,由语音助手接收来自用户的语音指示,对语音指示进行解析,获得表示所述用户的语音指示表达的意图的意图信息。对于语音助手没有特别的限制,例如,在一些实施例中,语音助手能够接收语音命令并对接收的语音命令进行识别,根据识别的语音命令,确定语音命令中是否存在唤醒信号,当确定语音命令中存在唤醒信号时,将携带语音助手设备相关信息的唤醒请求发送到云端服务器,对唤醒信号进行响应,诸如利用语音助手发出命令、提取信息、播放媒体和/或执行其他动作。在一些实施例中,语音助手对语音指示进行的解析既可以在终端设备本地进行,也可以经由网络在云端进行。在一些实施例中,终端设备可以是移动终端或智能音箱,但不限于此,只要能够运行语音助手即可。
19.接着,在步骤s03中,向开放能力注册模块发送查询信息,该查询信息包括意图信息。在一些实施例中,开放能力注册模块可以在终端设备运行。应用当被安装到终端设备时,在开放能力注册模块注册自身的开放能力。开放能力注册模块定期地或者在应用更新时更新应用的开放能力。在一些实施例中,开放能力注册模块在云端运行,以web应用的方式提供服务。应用在应用商店发布的时候同步发布自身的开放能力,运行在终端或云端的语音助手通过互联网查询已安装的应用开放能力进行调用。在一些实施例中,开放能力注
册模块可以是基于数据库或文件存储的形式。
20.接着,在步骤s05中,接收从所述开放能力注册模块返回的能力调用信息。在一些实施例中,能力调用信息包括应用名称、id、安全校验信息、应用的能力名称、意图识别关键词、能力调用方式、版本信息以及有效信息中任一个或其组合,但不限于此,能够包括与应用的调用能力相关的任意的信息。
21.接着,在步骤s07中,根据从所述开放能力注册模块返回的能力调用信息和所述意图信息,调用应用的能力。
22.根据本公开,应用在终端或云端注册并开放自己的能力后,语音助手可以获知应用的内部能力,从而二者协同,为用户提供更好的交互体验。
23.图2是示出了根据本发明的一个具体应用例的通过语音助手调用安装于终端设备的应用的方法的流程图。
24.如图2所示,用户首先输入语音指示“打开今日头条国际板块”,语音助手解析用户输入的语音指示的意图,解析结果包括:app名称为“今日头条”、内容(intent)为“打开”、输入(input)为“国际”、关键词(key-words)为“板块”。
25.接着,语音助手携带意图信息,向开放能力注册模块查询“今日头条”的应用注册的开放能力。
26.开放能力注册模块可以采用数据库、文件存储等形式,记录每一个安装在本机终端上的app的开放能力,所记录的开放能力包括但不限定于以下示例:
27.(1)app能力信息的公共部分:例如,启动名称或id;app安全校验信息等;
28.(2)app开放的多种能力列表,包括能力名称、意图识别关键词、能力调用方式等:
29.(3)其他辅助的信息,例如版本信息、有效期等。
30.例如,以下示出了一个开放能力注册信息的示例:
[0031][0032]
开放能力注册模块根据意图信息(例如内容(intent)为“打开”、输入(input)为“国际”、关键词(key-words)为“板块”等),对“今日头条”的能力进行匹配。在匹配成功的情况下,开放能力注册模块返回“今日头条”打开栏目的能力调用方法:“usage:

post/open-section/{input}
’”

[0033]
接着,语音助手携带认证信息,使用所获取的能力调用方法调用应用的能力,应用验证认证信息,执行输入的命令。
[0034]
根据本公开,应用在终端或云端注册并开放自己的能力后,语音助手可以获知应用的内部能力,从而二者协同,为用户提供更好的交互体验。
[0035]
图3示出了能够实现根据本公开的实施例的计算设备1200的示例性配置。
[0036]
计算设备1200是能够应用本公开的上述方面的硬件设备的实例。计算设备1200可以是被配置为执行处理和/或计算的任何机器。计算设备1200可以是但不限制于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数据助手(pda)、智能电话、车载计算机或以上组合。
[0037]
如图3所示,计算设备1200可以包括可以经由一个或多个接口与总线1202连接或通信的一个或多个元件。总线2102可以包括但不限于,工业标准架构(industry standard architecture,isa)总线、微通道架构(micro channel architecture,mca)总线、增强isa(eisa)总线、视频电子标准协会(vesa)局部总线、以及外设组件互连(pci)总线等。计算设备1200可以包括例如一个或多个处理器1204、一个或多个输入设备1206以及一个或多个输出设备1208。一个或多个处理器1204可以是任何种类的处理器,并且可以包括但不限于一
个或多个通用处理器或专用处理器(诸如专用处理芯片)。输入设备1206可以是能够向计算设备输入信息的任何类型的输入设备,并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或远程控制器。输出设备1208可以是能够呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。
[0038]
计算设备1200还可以包括或被连接至非暂态存储设备1214,该非暂态存储设备1214可以是任何非暂态的并且可以实现数据存储的存储设备,并且可以包括但不限于盘驱动器、光存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁性介质、压缩盘或任何其他光学介质、缓存存储器和/或任何其他存储芯片或模块、和/或计算机可以从其中读取数据、指令和/或代码的其他任何介质。计算设备1200还可以包括随机存取存储器(ram)1210和只读存储器(rom)1212。rom 1212可以以非易失性方式存储待执行的程序、实用程序或进程。ram 1210可提供易失性数据存储,并存储与计算设备1200的操作相关的指令。计算设备1200还可包括耦接至数据链路1218的网络/总线接口1216。网络/总线接口1216可以是能够启用与外部装置和/或网络通信的任何种类的设备或系统,并且可以包括但不限于调制解调器、网络卡、红外线通信设备、无线通信设备和/或芯片集(诸如蓝牙
tm
设备、802.11设备、wifi设备、wimax设备、蜂窝通信设施等)。
[0039]
本公开可以被实现为装置、系统、集成电路和非瞬时性计算机可读介质上的计算机程序的任何组合。可以将一个或多个处理器实现为执行本公开中描述的部分或全部功能的集成电路(ic)、专用集成电路(asic)或大规模集成电路(lsi)、系统lsi,超级lsi或超lsi组件。
[0040]
本公开包括软件、应用程序、计算机程序或算法的使用。可以将软件、应用程序、计算机程序或算法存储在非瞬时性计算机可读介质上,以使诸如一个或多个处理器的计算机执行上述步骤和附图中描述的步骤。例如,一个或多个存储器以可执行指令存储软件或算法,并且一个或多个处理器可以关联执行该软件或算法的一组指令,以根据本公开中描述的实施例提供各种功能。
[0041]
软件和计算机程序(也可以称为程序、软件应用程序、应用程序、组件或代码)包括用于可编程处理器的机器指令,并且可以以高级过程性语言、面向对象编程语言、功能性编程语言、逻辑编程语言或汇编语言或机器语言来实现。术语“计算机可读介质”是指用于向可编程数据处理器提供机器指令或数据的任何计算机程序产品、装置或设备,例如磁盘、光盘、固态存储设备、存储器和可编程逻辑设备(pld),包括将机器指令作为计算机可读信号来接收的计算机可读介质。
[0042]
举例来说,计算机可读介质可以包括动态随机存取存储器(dram)、随机存取存储器(ram)、只读存储器(rom)、电可擦只读存储器(eeprom)、紧凑盘只读存储器(cd-rom)或其他光盘存储设备、磁盘存储设备或其他磁性存储设备,或可以用于以指令或数据结构的形式携带或存储所需的计算机可读程序代码以及能够被通用或专用计算机或通用或专用处理器访问的任何其它介质。如本文中所使用的,磁盘或盘包括紧凑盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘和蓝光盘,其中磁盘通常以磁性方式复制数据,而盘则通过激光以光学方式复制数据。上述的组合也包括在计算机可读介质的范围内。
[0043]
提供本公开的主题作为用于执行本公开中描述的特征的装置、系统、方法和程序的示例。但是,除了上述特征之外,还可以预期其他特征或变型。可以预期的是,可以用可能
代替任何上述实现的技术的任何新出现的技术来完成本公开的部件和功能的实现。
[0044]
另外,以上描述提供了示例,而不限制权利要求中阐述的范围、适用性或配置。在不脱离本公开的精神和范围的情况下,可以对所讨论的元件的功能和布置进行改变。各种实施例可以适当地省略、替代或添加各种过程或部件。例如,关于某些实施例描述的特征可以在其他实施例中被结合。
[0045]
另外,在本公开的描述中,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性和顺序。
[0046]
类似地,虽然在附图中以特定次序描绘了操作,但是这不应该被理解为要求以所示的特定次序或者以顺序次序执行这样的操作,或者要求执行所有图示的操作以实现所希望的结果。在某些情况下,多任务处理和并行处理可以是有利的。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1