一种浏览器语音控制方法、装置、设备及存储介质与流程

文档序号:35345801发布日期:2023-09-07 19:30阅读:45来源:国知局
一种浏览器语音控制方法、装置、设备及存储介质与流程

本发明涉及语音识别,尤其涉及一种浏览器语音控制方法、装置、设备及存储介质。


背景技术:

1、随着互联网的发展和互联网应用的普及,浏览器逐渐成为人们浏览网页、网上冲浪必不可少的软件工具,浏览器是一类可以获取和显示网页服务器上的文件内容,并允许用户进行交互的软件,用户可以通过在浏览器地址栏输入url(uniform resourcelocator,统一资源定位符),或点击网页内的超链接等方式访问网页,获取网页内的信息内容。

2、目前主流的web可视化交互方式是采用鼠标、键盘、触屏等传统i/o输入设备进行人机交互式操作。而现有的语音交互方式是通过在操作系统上安装特定供应商的客户端进行语音采集、转换等操作。

3、现有技术采用传统i/o输入设备进行人机交互式的方式受限于外围输入输出设备,并且在某些特定的场合下不能提供易用的、人性化的交互体验。而通过安装特定客户端的方式通常和语音解析供应商进行深度绑定,导致通用性和交互性较差,不能在浏览器上进行细粒度的业务交互。


技术实现思路

1、本发明提供了一种浏览器语音控制方法、装置、设备及存储介质,以通过语音指令操作浏览器,实现人机操作交互。

2、根据本发明的一方面,提供了一种浏览器语音控制方法,该方法包括:

3、通过浏览器获取用户语音信息;

4、根据用户语音信息生成解析文本;

5、根据解析文本生成执行信息,根据执行信息进行浏览器语音控制,其中,执行信息包括目标操作指令和目标操作元素。

6、可选的,通过浏览器获取用户语音信息,包括:通过浏览器接收用户输入的语音交互开始指令和语音交互完成指令;根据语音交互开始指令和语音交互完成指令进行语音录制以生成用户语音信息,其中,用户语音信息包括语音交互开始指令和语音交互完成指令之间的语音信息。

7、可选的,根据用户语音信息生成解析文本,包括:通过浏览器将用户语音信息压缩成指定格式的压缩文本,并将压缩文本发送至服务器;通过服务器调用语言解析接口将压缩文本转换成解析文本。

8、可选的,根据解析文本生成执行信息,包括:获取预置分词词典,其中,分词词典中包括操作指令和操作元素;根据分词词典和解析文本确定状态位标志,其中,状态位标志用于表示解析文本的解析结果;当状态位标志为解析成功时,将分词词典和解析文本的相同内容作为与解析文本对应的目标操作指令和目标操作元素;将目标操作指令和目标操作元素作为执行信息。

9、可选的,根据分词词典和解析文本确定状态位标志,包括:判断分词词典和解析文本是否存在相同内容,若是,确定状态位标志为解析成功;否则,确定状态位标志为解析错误。

10、可选的,方法,还包括:当状态位标志为解析错误时,根据状态位标志生成提示信息;基于提示信息提示用户重新输入语音。

11、可选的,根据执行信息进行浏览器语音控制,包括:通过服务器将执行信息发送至浏览器;获取与目标操作指令对应的人机交互事件和与目标操作元素对应的界面元素;基于人机交互事件和界面元素调用预置脚本语言,以进行浏览器语音控制。

12、根据本发明的另一方面,提供了一种浏览器语音控制装置,该装置包括:

13、用户语音信息获取模块,用于通过浏览器获取用户语音信息;

14、解析文本生成模块,用于根据所述用户语音信息生成解析文本;

15、浏览器语音控制模块,用于根据所述解析文本生成执行信息,根据所述执行信息进行浏览器语音控制,其中,所述执行信息包括目标操作指令和目标操作元素。

16、根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:

17、至少一个处理器;以及

18、与所述至少一个处理器通信连接的存储器;其中,

19、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的一种浏览器语音控制方法。

20、根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的一种浏览器语音控制方法。

21、本发明实施例的技术方案,通过浏览器获取用户语音信息发送给服务器,通过服务器生成解析文本,并根据解析文本生成执行信息发送至浏览器,即可实现浏览器语音控制,不需要预先安装客户端工具或者插件,增强了通用性和交互性,安全性能高,进而能够实现在浏览器上进行业务交互,并且可兼容各类ai语音供应商产品,降低了用户的使用门槛,不需要输入设备也能进行浏览器控制,为用户提供了更加易用的及人性化的交互体验。

22、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种浏览器语音控制方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述通过浏览器获取用户语音信息,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述用户语音信息生成解析文本,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述解析文本生成执行信息,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述分词词典和所述解析文本确定状态位标志,包括:

6.根据权利要求5所述的方法,其特征在于,所述方法,还包括:

7.根据权利要求1所述的方法,其特征在于,所述根据所述执行信息进行浏览器语音控制,包括:

8.一种浏览器语音控制装置,其特征在于,包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的方法。


技术总结
本发明公开了一种浏览器语音控制方法、装置、设备及存储介质。包括:通过浏览器获取用户语音信息;根据用户语音信息生成解析文本;根据解析文本生成执行信息,根据执行信息进行浏览器语音控制,其中,执行信息包括目标操作指令和目标操作元素。通过浏览器获取用户语音信息发送给服务器,通过服务器生成解析文本,并根据解析文本生成执行信息发送至浏览器,即可实现浏览器语音控制,不需要预先安装客户端工具或者插件,增强了通用性和交互性,安全性能高,进而能够实现在浏览器上进行业务交互,并且可兼容各类AI语音供应商产品,降低了用户的使用门槛,不需要输入设备也能进行浏览器控制,为用户提供了更加易用的及人性化的交互体验。

技术研发人员:胡照东
受保护的技术使用者:北京思特奇信息技术股份有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1