能够内外网、多业务接入的智能语音交互设备及交互方法与流程

文档序号：35827276发布日期：2023-10-22 12:53阅读：107来源：国知局

本发明涉及一种智能语音交互终端设备，具体地说是一种能够内外网、多业务接入的智能语音交互设备及交互方法。

背景技术：

1、由于互联网、大数据、云计算、saas服务等技术的发展，云端语音识别能力得到大大提升，应用成本不断下降，实现了商业化普及。因此，语音识别问题得到了很好的解决。各类智能语音交互设备越来越多地出现在百姓的日常生活之中。除天猫精灵、小度音箱、小爱同学等各类大众化云端语音服务系统外，通过与可接入互联网的专门业务的服务器连接，还可以实现特定领域业务的语音交互（如智能家居、工业控制等特定领域）。但这类业务实现的前提就是必须要接入互联网。即，语音识别需要接入互联网的云端语音识别系统。只有利用云端语音识别系统，才能实现更准确的语音识别。而识别后的结果信息，也要与接入互联网的特定业务服务器进行交互，以实现特定业务语音交互的场景。

2、但在实际生产生活中，行政、环保、公安、财税、高端装备企业等涉及信息安全的特定领域，其业务服务器均是在专网（以下简称内网）部署，或是在私有云中部署，而不可能与互联网连接，也不允许与互联网间通过各种网闸类设备进行连接。这就导致若要实现内网业务的语音交互，就必须要搭建基于内网的私有语音识别服务系统，或是在本地终端上进行离线语音识别。如果是采用本地终端离线语音识别，则其语音识别的准确率远低于互联网的云端语音识别系统，并且，这种识别技术的门槛高，成本高，对硬件要求高。如果是在搭建的私有云服务器中部署语音识别系统，这不仅需要专业的语音识别领域公司进行搭建，而且与互联网的云端语音识别系统相比，其成本非常高昂而语音识别的准确率却较低，更不能像外网的云端识别系统那样进行实时的功能升级和识别能力的升级。

3、另外，在实际应用中，有时一个语音终端需要连接多种内网业务（如政府领导应用侧），连接公安的业务需要访问公安网，连接财政的业务需要访问财政网，连接教育的业务需要访问教育网。目前还没有一种设备和方法能够实现在一个语音交互终端上同时支持外网和各类内网业务的接入，也无法做到安全、高效的语音交互。

技术实现思路

1、本发明的目的就是提供一种能够内外网、多业务接入的智能语音交互设备及交互方法，以解决在内、外网隔离的情况下不能利用外网语音识别系统以及不能用一个终端实现（一种或多种）内网业务接入的问题。

2、本发明的目的是这样实现的：

3、一种能够内外网、多业务接入的智能语音交互设备，包括外网主机单元、至少一个内网主机单元以及用于连接外网主机单元与内网主机单元的单向传输通道。所述外网主机单元用于与互联网的云端语音识别系统和管理平台建立通信联系；所述内网主机单元用于与相对应的内网业务服务器系统建立通信联系。

4、所述外网主机单元包括外网系统模块、外网控制模块、外网通信模块、音频处理模块和麦克风；所述麦克风通过音频处理模块与外网控制模块相接，用于采集近场语音信息并发送给音频处理模块；音频处理模块用于对接收到的语音信息进行回音消除处理，外网控制模块将经回音消除处理后的语音信息通过外网通信模块发送给云端语音识别系统，并将由云端语音识别系统返回的识别结果以文本信息经单向传输通道发送到内网主机单元。

5、所述内网主机单元包括内网系统模块、内网控制模块、内网通信模块、语音合成模块以及扬声器；所述内网控制模块用于实时接收由外网控制模块发送的识别结果的文本信息，并将该文本信息通过内网通信模块发送给内网业务服务器系统进行处理，在内网业务服务器系统将处理结果以文本信息返回到内网控制模块时，由内网控制模块把处理结果的文本信息发送到语音合成模块进行语音合成，合成后的语音信息返回到内网控制模块，再由内网控制模块将合成后的语音信息发送到扬声器予以播放。

6、进一步地，所述单向传输通道是基于串口（ttl\rs232\rs485）通信的发送端与接收端之间的单向通信通道，其仅将发送端的发送针（txd针）与接收端的接收针（rxd针）相连，将发送端的接地针（grd针）与接收端的接地针（grd针）相连（其它针均不做连接以确保通信的单向性）；所述单向传输通道是用包括直连线、红外、光耦或扫码中的一种传输介质所构建的传输通道。

7、进一步地，所述智能语音交互设备的鉴权和初始化是通过访问管理平台，由管理平台进行设备鉴权和初始化。

8、本发明通过将外网主机单元与内网主机单元集成在一起，通过外网主机单元接入互联网的云端语音识别系统，将以语音方式发出的查询命令送入云端语音识别系统。云端语音识别系统对查询命令进行识别，外网主机单元将识别后的文本结果送入对应的内网主机单元，由内网主机单元通过接入相应的内网业务服务器系统进行业务查询。内网主机单元将内网业务服务器系统返回的结果通过扬声器进行实时播报。设置在外网主机单元与内网主机单元之间的单向信息传输通道将信息以单向方式传输，从而保证了内网中的数据信息不会传输到外网，由此确保了内网数据的安全。

9、本发明的目的还可这样实现：

10、一种能够内外网、多业务接入的智能语音交互方法，包括以下步骤：

11、s1、设置本发明智能语音交互设备；所述外网主机单元与互联网的云端语音识别系统和管理平台建立通信联系；所述内网主机单元与相对应的内网业务服务器系统建立通信联系。

12、s2、由外网主机单元中的麦克风采集近场语音信息并发送给音频处理模块，音频处理模块对接收到的语音信息进行回音消除处理，外网控制模块将经回音消除处理后的语音信息发送给云端语音识别系统，由云端语音识别系统对接收的语音信息进行识别，识别结果转换成文本信息，返回到外网控制模块。

13、s3、外网控制模块接收到由云端语音识别系统识别并返回的文本信息后，将所接收的识别结果的文本信息通过单向传输通道发送给内网主机单元的内网控制模块。

14、s4、内网主机单元中的内网控制模块实时接收由外网控制模块发送的识别结果的文本信息，并将该文本信息通过内网通信模块发送给内网业务服务器系统；内网业务服务器系统对该发送请求进行处理，并将处理结果以文本信息返回到内网控制模块；内网控制模块把所接收的处理结果的文本信息发送到语音合成模块，由语音合成模块进行语音合成；合成后的语音信息返回到内网控制模块，再由内网控制模块将合成后的语音信息发送到扬声器予以播放。

15、进一步地，所述智能语音交互设备通过访问管理平台，由管理平台进行设备鉴权和初始化。设备通过管理平台鉴权通过后，向所述外网主机单元返回需要连接内网业务服务器系统的配置信息包括：内网业务服务器的ip地址、端口、账号、密码以及当前业务使用外网主机单元的串口号（通过第几个com口与内网主机单元构建单向通信通道，如：com2）等。在上述信息返回到外网主机单元后，即完成设备的鉴权和初始化。

16、本发明是通过一个外网主机单元和一个或多个接入相应专网的内网主机单元通过连接安全通信方式所形成的设备和协同方法。即，通过多个主机单元组成的一个终端设备，支持接入一个外网和多个内网，内、外网间通过单向通信及协同，实现高质量、多业务支持的终端设备。本发明在内外网隔离的情况下，一是解决了利用外网语音识别的问题，二是解决了一个终端实现多种业务接入的问题。

17、具体说来，本发明就是构建了一种新型的智能语音交互模式，这种智能语音交互模式既可接入外网语音识别系统与多个内网业务服务器系统，又可通过简单配置即可实现相应业务，还可基于语音进行查询与播报。由此使得本发明形成一种既具有内外网络信息隔离功能、又可做到“外网语音识别、多内网业务处理”，能够以“语音交互”方式完成相关业务，是一个灵活接入各种内网业务的语音交互终端设备。此外，本发明还可以作为一种基于不同网络环境和技术的新型音频信息i/o设备使用。

18、本发明既能接入基于互联网的云端语音识别系统，又能接入基于内网（多种专网）的各类业务服务系统，在内、外网隔离的情况下，经过简单配置就可以实现相应业务的实时语音交互功能。

19、本发明一方面实现了在内外网安全隔离下接入一个或多个内网业务服务器系统，另一方面，可以低成本和便捷的方式使用互联网云端语音识别服务系统的资源。

20、本发明提出的“多个主机单元协同、内外网单向传输、高质量语音交互模式”，是一种低成本、高效率、高安全、优体验的语音信息识别、传输及交互模式。选择外网主机接入外网、内网主机接入内网的高安全隔离方式，避免了内外网间在网络层面上的物理连通，符合各自网络安全性要求。而在一个终端设备里加入多个主机单元，而且对内外网主机单元间进行单向串口连接，具有便捷性和高安全特性。其主要的目的就是提供一种通过多主机协同实现内外网、多业务接入的智能语音交互，以解决在内、外网安全隔离的情况下如何利用外网云端语音识别能力以及如何用一个终端实现多种内网业务接入的问题。

21、本发明中选择的单向串口通信的特点是传输距离短、适合小数据量传输以及物理连接上的单向性。而在本发明的业务场景中，内外网主机之间只是传输配置信息和来自用户的问题（语音转换为文本信息后的数据），一般在几十字以内，数据量很小，传输用时短，非常适合于使用这种通信技术。而且，在本发明的业务场景中，每次数据传输均有时间间隔（一个问题问完再问下一个问题），没有持续性大规模数据传输，故这种单向通信技术在安全基础上又保证了数据传输的高质量。另外，多个主机单元集成在一个终端设备中，主机单元间的距离很短（一般在几厘米，不会超过100厘米），甚至可以从电路层面固化在一个基板上，所以内外网主机单元间的传输距离很短。在单向通信方面，从物理电气层面只把外网端的串口发送针（txd）和内网的串口接收针（rxd）连通，两端接地针（grd）连通，确保了物理电气上的单向性，保证了网络安全和数据安全。

22、另外，单向通信因其固有的单向特性，使得发送端并不知晓接收端一方能否接收到数据、接收是否正确、处理是否有效等问题。而本发明恰将外网主机与内网主机设置在同一个终端设备中，对于任何的异常情况，均可通过内网设备连接的扬声器进行声音提示，这样的交互体验不因单向通信而受到任何影响。

23、综上，本发明技术方案兼顾了安全、数据量大小、传输效率、交互体验等要求，非常适合的本发明所针对的业务场景的使用需要。

24、本发明的特点是彻底摆脱了传统意义上网络间通信需要建立网络防火墙、网闸、数据离线隔离器等网络层面连通的安全方式，而是在终端设备上通过多主机单向通信，实时实现以语音数据流和文本数据流为主要信息载体的内外网数据单向传输以及隔离技术。其运行高效，使用便捷，系统均基于通用器件构成，可靠性高、制造成本低。在系统运行过程中，具备良好的用户体验。本发明的技术优势体现在以下八个方面：

25、(1)内外网主机分离，安全性高，避免了内外网间在网络层面的连通。

26、(2)单向通道技术方案适用性好。因为语音交互形成的文本数据量很小，使用单向通道方案恰能完全满足，而且避免了大数据量传输有可能带来的风险。通过单向传输通道不影响交互的实时性，即便在传输失败的情况下，也可以通过播报系统进行友好提示。

27、(3)使用简单。只需要在管理平台中加入设备信息，并设置好设备需要连接的内网业务对应的串口号、内网业务服务器系统信息，并将设备的内网通信模块加入相应的专网sim卡，就可实现相应业务的语音交互。

28、(4)支持内网业务多。可方便地接入任何支持文本（语音转换后的文本）业务查询交互的内网业务服务器系统。

29、(5)功能强大。充分利用了外网能力，支持多内网业务。

30、(6)集成性好。外网主机单元与内网主机单元可以分体实现，也可连体实现，也可以做成为一个便携式设备或专用的终端。

31、(7)扩展性强。本发明智能语音交互设备也可作为内网各类配置信息等数据量不大的数据更新之用。

32、(8)典型特征：多主机，内外网，多业务，单向通道，外网语音识别，内网业务查报。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：柴晓康梁红岩陈佳童韩鹏刘嘉伟隋唐李骏扬
技术所有人：石家庄同研信息技术有限公司
我是此专利的发明人

上一篇：一种集成电路的布局方法、系统、设备和存储介质
上一篇：一种管道清洁机器人的工作方法