一种支持语音识别及搜索和图像识别的系统的制作方法

文档序号：22343567发布日期：2020-09-25 18:15阅读：147来源：国知局

本发明涉及人机交互技术领域，具体是一种支持语音识别及搜索和图像识别的系统。

背景技术：

hmi（人工交互界面），在工业自动化领域，hmi实现对设备的监控、管理以及控制，设备管理人员通过hmi对设备的工作状态进行检测、问题分析、及检修，是工业自动化领域的关键要素。

根据国家工业物联网战略，工业设备要实现与大数据平台互联互通，实现智能化识别、定位、跟踪、监控和管理，目前hmi主要做为现场设备的监控和控制，不具备与互联网接入的能力，无法满足工业物联网的要求。hmi的软件通常是不可移植和兼容的，此外hmi软件开发方式一般较为简单的图形开发方法，现有的hmi软件开发技术无法开发更为复杂的软件功能，无法让更多高水平的软件人员参与程序开发，无法有效的发挥大数据平台提供的各种功能，如集成语音识别及搜索，图像分析等sdk，而这些功能可以帮助现场客户解决更为复杂的设备问题，如利用语音识别及搜索技术帮助操作人员快速的找到要查看的指定信息，无须进行复杂的触摸查找，在操作人员无法用文字描述设备问题时，通过语音的方式为客户匹配相关问题的处理方案，利用图像识别技术记录设备操作人员，实现人员的登录和操作管理。hmi的显示方式通常比较单一，显示分辨率较低，无法适应一些需要数据展示的场合，当设备的显示分辨率发生改变后，需要重新编写软件，增加了软件复杂度。

技术实现要素：

本发明的目的在于提供一种支持语音识别及搜索和图像识别的系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种支持语音识别及搜索和图像识别的系统，包括pcb板、以太网芯片、核心cpu、wifi及蓝牙模块、ddr模块、显示屏接口、相机接口、实时时钟、emmc、电源、poe、rs232接口、rs485接口、背光控制接口、lineout声音输出接口、麦克风输入接口、hdmi接口、功放接口、i2c接口、usb接口、通用gpio、触摸屏接口，所述以太网芯片、核心cpu、wifi及蓝牙模块、ddr模块、显示屏接口、相机接口、实时时钟、emmc、电源、poe、rs232接口、rs485接口、背光控制接口、lineout声音输出接口、麦克风输入接口、hdmi接口、功放接口、i2c接口、usb接口、通用gpio和触摸屏接口均安装在pcb板中，所述以太网芯片、核心cpu、rj45接口相互连接形成以太网通讯回路，所述wifi及蓝牙模块、核心cpu相互连接形成wifi蓝牙通讯回路，所述ddr模块、核心cpu相互连接形成内存回路，所述显示屏接口、核心cpu相互连接形成mipi屏显示输出回路，所述相机接口、核心cpu相互连接形成图像采集回路，所述实时时钟、核心cpu相互连接形成实时时钟开关机管理回路，所述emmc、核心cpu相互连接形成存储回路，所述rs232接口、核心cpu相互连接形成rs232串口通讯回路，所述rs485接口、核心cpu相互连接形成rs485串口通讯回路，所述lineout声音输出接口、核心cpu相互连接形成音频输出回路，所述hdmi接口、核心cpu相互连接形成hdmi输出回路，所述功放接口、核心cpu相互连接形成功放输出回路。

作为本发明的进一步技术方案：所述核心cpu包括arm四核a7、arm双核a5和人工智能芯片。

作为本发明的进一步技术方案：所述i2c接口、核心cpu相互连接形成hdmi输出回路，所述usb接口、核心cpu相互连接形成usb接口回路。

作为本发明的进一步技术方案：所述通用gpio、核心cpu相互连接形成hdmi输出回路。

作为本发明的进一步技术方案：所述触摸屏接口、核心cpu相互连接形成hdmi输出回路。

作为本发明的进一步技术方案：所述麦克风输入接口、核心cpu相互连接形成音频采集回路。

作为本发明的进一步技术方案：所述usb接口、核心cpu相互连接形成hdmi输出回路。

与现有技术相比，本发明的有益效果是：本发明的核心控制芯片选用为最新的四核armcortex-a73和双核armcortex-a53以及内置独立npu人工智能芯片，大幅度提高运算速度，独立的npu人工智能芯片能够提供5.0tops的算力，支持直接运行人工智能算法。提供更加多远的通讯方式，在传统的百兆网口，串口通讯的基础上，增加千兆网口、4g、wifi多种通讯接口，支持通过有线/无线方式直接接入到大数据平台，增加摄像头接口，最高支持1920x1080分辨率的摄像头，用以实现图像分析、人脸识别和远程交互功能，增加麦克风输入和喇叭输出，支持语音输入、语音分析及语音交互功能。显示方面增加hdmi、vga、mipi多种输出方式，相较于传统hmi，能够适配不同分辨率的显示屏，同时支持通过hdmi直接接入到电视，满足用户的大屏高清显示需求。

附图说明

图1是本发明的结构方框图。

图2是本发明的软件架构图。

图中：pcb板-1、以太网芯片-2、核心cpu-3、wifi及蓝牙模块-4、ddr模块-5、显示屏接口-6、相机接口-7、实时时钟-8、emmc-9、电源-10、poe-11、rs-23-2接口-12、rs485接口-13、背光控制接口-14、lineout声音输出接口-15、麦克风输入接口-16、hdmi接口-17、功放接口-18、i2c接口-19、usb接口-20、通用gpio-21，触摸屏接口-22。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，实施例1：一种支持语音识别及搜索和图像识别的系统，包括pcb板1、以太网芯片2、核心cpu3、wifi及蓝牙模块4、ddr模块5、显示屏接口6、相机接口7、实时时钟8、emmc9、电源10、poe11、rs232接口12、rs485接口13、背光控制接口14、lineout声音输出接口15、麦克风输入接口16、hdmi接口17、功放接口18、i2c接口19、usb接口20、通用gpio21、触摸屏接口22，所述以太网芯片2、核心cpu3、wifi及蓝牙模块4、ddr模块5、显示屏接口6、相机接口7、实时时钟8、emmc9、电源10、poe11、rs232接口12、rs485接口13、背光控制接口14、lineout声音输出接口15、麦克风输入接口16、hdmi接口17、功放接口18、i2c接口19、usb接口20、通用gpio21和触摸屏接口22均安装在pcb板1中，所述以太网芯片2、核心cpu3、rj45接口11相互连接形成以太网通讯回路，所述wifi及蓝牙模块4、核心cpu3相互连接形成wifi蓝牙通讯回路，所述ddr模块5、核心cpu3相互连接形成内存回路，所述显示屏接口6、核心cpu3相互连接形成mipi屏显示输出回路，所述相机接口7、核心cpu3相互连接形成图像采集回路，所述实时时钟8、核心cpu3相互连接形成实时时钟开关机管理回路，所述emmc9、核心cpu3相互连接形成存储回路，所述rs232接口12、核心cpu3相互连接形成rs232串口通讯回路，所述rs485接口13、核心cpu3相互连接形成rs485串口通讯回路，所述lineout声音输出接口15、核心cpu3相互连接形成音频输出回路，所述麦克风输入接口16、核心cpu3相互连接形成音频采集回路，所述hdmi接口17、核心cpu3相互连接形成hdmi输出回路，所述功放接口18、核心cpu3相互连接形成功放输出回路，所述usb接口20、核心cpu3相互连接形成hdmi输出回路，i2c接口19、核心cpu3相互连接形成hdmi输出回路，所述usb接口20、核心cpu3相互连接形成usb接口回路。通用gpio21、核心cpu3相互连接形成hdmi输出回路。触摸屏接口22、核心cpu3相互连接形成hdmi输出回路。

核心cpu3包括arm四核a73、arm双核a53和人工智能芯片。大幅度提高运算速度，独立的npu人工智能芯片能够提供5.0tops的算力，支持直接运行人工智能算法。提供更加多远的通讯方式，在传统的百兆网口，串口通讯的基础上，增加千兆网口、4g、wifi多种通讯接口，支持通过有线/无线方式直接接入到大数据平台，增加摄像头接口，最高支持1920x1080分辨率的摄像头，用以实现图像分析、人脸识别和远程交互功能，增加麦克风输入和喇叭输出，支持语音输入、语音分析及语音交互功能。显示方面增加hdmi、vga、mipi多种输出方式，相较于传统hmi，能够适配不同分辨率的显示屏，同时支持通过hdmi直接接入到电视，满足用户的大屏高清显示需求。

cpu内部采用更加通用的android操作系统，用通用平台来解决hmi软件不可移植的问题，一套软件可以支持在hmi、手机、平板上同时部署，支持c/java/c++等高级语言，用来实现更为复杂的算法及应用开发，目前能用c/java/c++的软件开发人员比较多，能够充分的参与的hmi的软件开发过程中来。

为了让hmi软件人员开发更为简便，在android系统层面上实现了modbustcp/rtu、松下mewtocol、三菱cclink等多种工业总线协议，支持用户自定义协议，用户在需要与设备进行通信时，可直接调用相关api函数，无需对对复杂的通讯协议进行编程。在android系统层面上实现了多种物联网通讯协议，hmi软件人员通过调用相关api实现与大数据平台进行数据传输，无需考虑传输细节，内部实现了线及离线语音识别及搜索apk，将语音与hmi软件人员分离，当用户进行语音输入时，首先通过语音分析apk进行语义解析，然后根据分析调用客户的相关功能，客户无需考虑复杂的语音处理细节。内部实现了在线及离线的图片分析apk，当用户进行图像分析时，首先通过图像分析apk进行图片分析，然后将处理结果提供给客户的apk，用户apk进行相关的功能操作。

如图2所示，本发明专利基于android平台的支持语音识别及搜索和图像识别的hmi软硬件系统其硬件系统，其软件系统在android系统的基础上开发处理一套拥有工业物联网、支持语音识别及搜索和图像识别的工业级操作系统，开发了核心语音识别及视觉识别的app，作为后台程序中在系统运行，监听来自客户的语音请求和图像分析请求，枢解析语音和图片数据，然后采用广播、回调方式分发给客户app，实现解耦。所述linux内核层、串口、摄像头及linux相关硬件驱动为linux内核以及根据硬件设计所编写的串口、摄像头及linux相关硬件驱动，提供数据收发、声卡显卡管理基础的工资，通过api及文件系统的方式由上层调用，所述android硬件抽象层为android系统的硬件抽象层，既可以实现硬件驱动，也可以实现更为复杂的应用开放，所述工业总线协议模块为在android系统的硬件抽象层基础上开发的工业总线协议模块，该模块主要管理所有设备通讯协议，实现与设备的通讯，实现了了modbustcp/rtu、松下mewtocol、三菱cclink等多种工业协议，它调用串口、摄像头及linux相关硬件驱动的api函数，并在此基础上实现了进一步封装，实现了工业协议的不同命令的函数、协议管理配置函数，提供给上层调用，在android系统的硬件抽象层实现的优点是采用c/c++编程方法，代码执行效率高，所述npu摄像头语音模块提供了人工智能算法处理、摄像头数据解码、语音解码等功能。所述android其它模块为android其它硬件抽象层模块，包括图像显示合成、gps等其它模块，所述android框架层是android系统的框架层，它调用android硬件抽象层相关接口，对软件功能进一步封装，提供android应用层调用。所述工业总线通讯管理者调用工业总线协议模块提供的api函数，并实现了工业协议的并发、多设备连接、数据统计及过滤、据缓存及数据库存储及上传大数据平台功能，用户以服务的形式向工业总线通讯管理者30申请服务，进行对应协议申请、配置、绑定及回调。所述物联网通讯协议管理者31集成了通用的物联网通用的传输协议，rest/http/mqtt协议，并且实现了协议的并发管理，通讯管理，数据压缩等功能，负责将用户的数据通过4g/以太网的/wifi的形式传输到大数据平台，以服务的形式由工业总线通讯管理者以及android应用层4调用，所述android应用层为android系统应用层，以app的形式运行与本系统之中，所述语音处理app为系统核心app,一直处于后台运行，它一直监听麦克风采集声音数据，当收到声音数据后，语音处理app会调用语音系统管理者进行相关声音数据解析及分析，得到相关结果，根据处理结果，语音处理app会决定用户当前的命令是系统及调用还是app功能级调用，并采取相关动作，采用广播的形式发送给系统其它app，所述图像处理app为系统核心处理app，它实现了扫码、人脸识别等功能，它实现从相机采集图片，并根据用户的分析内容，调用图像处理系统管理者的相关api进行图片预处理、分割并得出最终结果，并将结果传递给调用app，所述桌面管理app为针对工业环境开放的桌面管理app，管理所有的app的显示及调用，管理用户的登录、权限及相关操作记录，通过桌面管理app调用其它app，所述桌面管理app集中展示系统的状态概览、系统通知、错误提醒，方便用户及时了解系统信息，所述系统管理app为针对本系统开发的管理app,负责对系统进行设置，包括用户注册，权限管理，通讯协议ip地址设定、声音、显示方式、分辨率等功能，所述设备监控app为针对本系统开发的通讯监控及运行状态监控app，它负责监控系统的温度、cpu负载等运行状态、监控工业总线通讯管理者、物联网通讯协议管理者、语音系统管理者、图像处理系统管理者的数据传输量及运行状态，所述其它app为android系统自带的app程序，如视频播放、音频播放、android配置等apk,所述用户开发app为客户开发的监控app，在本系统平台下，用户可以采用标准的android开发方式实现apk的开发，可以直接调用系统提供的相关api函数，实现设备状态的监控及控制，通过配置语音处理app、图像处理app，使用户的apk具备语音处理和图像处理能力，如基于语音搜索实现设备状态的快速访问等功能。

附图中的文字标注以及英文标识，属于本领域技术人员的公知常识，且在上文中均作出了标注解释，其内容以上述标注为准。

实施例2，在实施例1的基础上，核心cpu3为arm四核a73和arm双核a53以及算力达5.0tops独立gpu的人工智能芯片，支持tensorflow、caffe等模型，采用android9.0操作系统，系统内部集成了modbustcp/rtu、松下mewtocol、三菱cclink等多种工业总线协议，集成了语音分析及语音交互sdk，图像识别sdk，hmigui程序采用标准android编程，作为一个apk存在于系统中，并具备手机/平板等跨平台能力，用户通过调用系统的工业总线协议实现与现场设备的互联，调用语音分析及语音交互sdk、图像识别sdk实现复杂的应用编程。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄宇;吴烁
技术所有人：深圳市昌卓科技有限公司
我是此专利的发明人

上一篇：一种基于联动传动技术的建筑施工土壤取样装置的制作方法
上一篇：锂离子二次电池的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。