一种物体识别及实时翻译的方法及装置与流程

文档序号：19189629发布日期：2019-11-20 01:56阅读：270来源：国知局

本发明涉及图像处理识别及自动翻译技术领域，更具体地，涉及一种物体识别及实时翻译的方法，以及一种物体识别及实时翻译的装置。

背景技术：

婴幼儿时期是孩子神经系统发育最快、语言开发最为关键的时期，是对孩子进行语言教育的好时机。目前，市场上已经普遍出现早教产品课程，然而目前的早教产品课程更多地偏向应试教育型，而非兴趣导向型，枯燥死板的应试教育类课程并不能真正提升学习者对英语学习的兴趣。

目前市面上有关于启蒙英语学习类软件或装置仅局限于对固定的平面式卡片进行识别，因此存在同质化严重、内容受限等问题。此外，现有的启蒙英语学习类软件或装置主要基于传统识字卡片和故事书，因此只能实现简单的认知体验，不能灵活结合实物进行学习。

技术实现要素：

本发明为克服上述现有技术所述的识别内容有限、不能灵活结合实物进行学习，提供一种物体识别及实时翻译的方法，以及提供一种应用上述方法的物体识别及实时翻译装置。

为解决上述技术问题，本发明的技术方案如下：

一种物体识别及实时翻译的方法，包括以下步骤：

s1：通过摄像头获取前方物体实时拍摄的图像；

s2：将所述图像输入卷积神经网络模型，提取所述图像的深度特征信息；

s3：将所提取的深度特征信息输入图像识别模型对物体的类别进行识别，并输出识别得到的物体类别；

s4：通过翻译算法将所述物体类别翻译为目标语言并将其进行输出。

本技术方案中，通过摄像头获取前方物体的图像并进行处理，其中所获取的图像中的待识别对象包括物体所在的地理环境以及物体在图像中的位置，所获取的图像输入卷积神经网络模型中进行深度特征信息提取后，输入经过训练的图像识别模型中根据所提取的深度特征信息对物体进行识别，最后对识别结果根据目标语言的语法规则对物体类别进行翻译，在翻译过程中，其翻译对象为单个单词或简单词组，再根据语法规则进行重新排序。

优选地，步骤s2中的卷积神经网络模型包括卷积层和池化层。

优选地，步骤s3中的具体步骤如下：

s3.1：将所述物体特征点对应的深度特征信息输入图像识别模型后进行部件卷积操作，得到所述物体的各部件的表观表述；

s3.2：对所述物体的各部件表观表述进行结构化操作，确定所述物体的各部件的最优位置；

s3.3：根据所述物体的各部件的最优位置，利用平均算法对随机场结构模型进行推理，获得推理得到的物体类别。

优选地，图像识别模型为通过基于数据流编程的符号数学系统框架框架进行训练得到的图像识别模型，其中基于数据流编程的符号数学系统框架为tensorflow框架。

优选地，步骤s3中，还包括以下步骤：

s3.4：根据所述深度特征信息从数据库中通过卷积神经网络(cnn)算法选取相似度最高的三种物体类别，并将所述物体类别的相似度与所述推理得到的物体类别的相似度进行对比，将相似度最高的物体类别作为最终识别的物体类别进行输出。

优选地，数据库为通过网络检索搜寻类别图片，并进行人工标记、人工筛选处理获得，以及通过历史采集并识别的历史数据获得。

本发明还提出一种物体识别及实时翻译装置，应用上述的物体识别及实时翻译的方法。

一种物体识别及实时翻译装置，包括中央处理器、图像采集单元、显示屏、摄像头、装置外壳，其中摄像头设置在装置外壳的一侧面，显示屏设置在装置外壳的另一侧面，中央处理器和图像采集单元集成设置在装置外壳内部；摄像头的输出端与图像采集单元的输入端电连接，图像采集单元的输出端与中央处理器的输入端电连接；中央处理器的第一输出端与摄像头的输入端电连接，中央处理器的第二输出端与显示屏的输入端电连接；中央处理器用于运行时执行上述方法。

本技术方案中，装置通过摄像头对当前物体进行图像采集，然后通过图像采集单元对所采集的图像进行处理，然后输入中央处理器中对所采集的图像进行物体种类识别及实时翻译，具体地，所采集的图像通过预设的卷积神经网络模型中进行深度特征信息提取，然后通过预设的图像识别模型进行深度特征信息识别，得到识别得到的物体类别，然后通过预设的翻译算法将识别结果翻译为目标语言后，输出到显示屏中进行显示。此外，摄像头所采集的图像可通过图像采集单元、中央处理器传送到显示屏中进行实时显示，当所采集的图像完成物体识别和实时翻译后，中央处理器将翻译结果传送到显示屏中与所采集的图像同步显示。

优选地，中央处理器中设置有基于unity3d引擎进行二次开发的增强现实技术(ar)算法程序，用于对所采集的图像进行深度特征信息识别及翻译。

优选地，装置还包括按键单元、感应单元和音频单元，其中按键单元设置在显示屏的一侧，且按键单元与中央处理器电连接；感应单元设置在显示屏的一侧，且感应单元与中央处理器电连接；音频单元包括麦克风和扬声器，音频单元设置在装置外壳上，且音频单元与中央处理器电连接。按键单元用于控制装置进行拍摄、物体识别、实时翻译，感应单元用于通过感应使用者的使用情况调节显示屏的显示情况，音频单元用于播放实时翻译结果。

优选地，感应单元包括距离传感器和光线传感器，其中距离传感器用于感应使用者与显示屏之间的距离，当距离低于预设的安全阈值时，中央处理器通过显示屏显示警告窗口；光线传感器用于感应周围环境的光线亮度，然后传送到中央处理器中进行判断处理，再向显示屏传送电信号控制显示屏的屏幕亮度实现根据周围环境亮度自动调节显示屏亮度。

与现有技术相比，本发明技术方案的有益效果是：

(1)通过卷积神经网络模型对图像进行深度特征信息提取，通过图像识别模型对物体的类别进行识别，然后通过翻译算法进行物体类别的翻译，实现对实时采集的物体图像进行实时识别和翻译，提高使用者的学习体验度；

(2)通过cnn神经网络算法从数据库中选取相似度最高的三种物体类别进行模糊预测，能够有效提高识别的准确度。

附图说明

图1为实施例1的物体识别及实时翻译的方法的流程图。

图2为实施例2的物体识别及实时翻译装置的结构示意图。

图3为实施例2的物体识别及实时翻译装置的正面示意图。

图4为实施例2的物体识别及实时翻译装置的背面示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，为本实施例的物体识别及实时翻译的方法的流程图。

本实施例提出一种物体识别及实时翻译的方法，包括以下步骤：

s1：通过摄像头获取前方物体实时拍摄的图像。

s2：将所述图像输入卷积神经网络模型，提取所述图像的深度特征信息。

本步骤中，卷积神经网络模型包括卷积层和池化层，用于提取输入图像的深度特征信息。

s3：将所提取的深度特征信息输入图像识别模型对物体的类别进行识别，并输出识别得到的物体类别。其具体步骤如下：

s3.1：将所述物体特征点对应的深度特征信息输入图像识别模型后进行部件卷积操作，得到所述物体的各部件的表观表述，其中，图像识别模型为通过tensorflow框架进行训练得到的图像识别模型；

s3.2：对所述物体的各部件表观表述进行结构化操作，确定所述物体的各部件的最优位置；

s3.3：根据所述物体的各部件的最优位置，利用平均算法对随机场结构模型进行推理，获得推理得到的物体类别；

s3.4：根据所述深度特征信息从数据库中通过cnn神经网络算法选取相似度最高的三种物体类别，并将所述物体类别的相似度与所述推理得到的物体类别的相似度进行对比，将相似度最高的物体类别作为最终识别的物体类别进行输出。

本步骤中的数据库为通过网络检索搜寻类别图片，并进行人工标记、人工筛选处理获得，以及通过历史采集并识别的历史数据获得。

s4：通过翻译算法将所述物体类别翻译为目标语言并将其进行输出。

在具体实施过程中，通过摄像头获取前方物体的图像并进行处理，其中所获取的图像中的待识别对象包括物体所在的地理环境以及物体在图像中的位置，所获取的图像输入卷积神经网络模型中进行深度特征信息提取后，输入经过训练的图像识别模型中根据所提取的深度特征信息对物体进行初步识别，同时从数据库中通过cnn神经网络算法选取相似度最高的三种物体类别实现模糊预测，然后将模糊预测的结果与初步识别结果所对应的相似度进行比较，将相似度最高的物体类别作为识别结果进行输出，最后对识别结果根据目标语言的语法规则对物体类别进行翻译，在翻译过程中，其翻译对象为单个单词或简单词组，再根据语法规则进行重新排序。

本实施例中，通过卷积神经网络模型对图像进行深度特征信息提取，通过图像识别模型对物体的类别进行识别，然后通过翻译算法进行物体类别的翻译，实现对实时采集的物体图像进行实时识别和翻译，能够大幅度提高使用者的学习体验，且物体识别及翻译的准确度更高。

实施例2

本实施例提出一种物体识别及实时翻译装置，应用上述实施例的物体识别及实时翻译的方法。如图2～4所示，为本实施例的物体识别及实时翻译装置的示意图。

本实施例的物体识别及实时翻译装置中，包括中央处理器1、图像采集单元2、显示屏3、摄像头4、装置外壳5、按键单元6、距离传感器7、光线传感器8、扬声器9，其中摄像头4设置在装置外壳5的一侧面，显示屏3设置在装置外壳5的另一侧面，中央处理器1和图像采集单元2集成设置在装置外壳5内部，按键单元6、距离传感器7、光线传感器8、扬声器9分别设置在装置外壳5上。具体地，摄像头4的输出端与图像采集单元2的输入端电连接，图像采集单元2的输出端与中央处理器1的输入端电连接；中央处理器1的第一输出端与摄像头4的输入端电连接，中央处理器1的第二输出端与显示屏3的输入端电连接；按键单元6、距离传感器7、光线传感器8、扬声器9、麦克风10分别与中央处理器1电连接。

本实施例中，中央处理器1用于运行时执行上述实施例的物体识别及实时翻译的方法；图像采集单元2用于对摄像头4所采集的图像帧进行预处理；显示屏3用于实时显示摄像头4所采集的图像以及物体识别及实时翻译的结果；按键单元6用于控制装置进行拍摄、物体识别、实时翻译；距离传感器7用于感应使用者与显示屏3之间的距离，当距离低于预设的安全阈值时，中央处理器1通过显示屏显示警告窗口；光线传感器8用于感应周围环境的光线亮度，然后传送到中央处理器1中进行判断处理，再通过向显示屏3传送电信号控制显示屏3的屏幕亮度，实现根据周围环境亮度自动调节显示屏亮度。

本实施例中，中央处理器1中设置有基于unity3d引擎进行二次开发的ar算法程序，用于对所采集的图像进行深度特征信息识别及翻译。

在具体实施过程中，装置通过摄像头4对当前物体进行图像采集，然后通过图像采集单元2对所采集的图像进行处理，然后输入中央处理器1中对所采集的图像进行物体种类识别及实时翻译，具体地，所采集的图像通过中央处理器1中预设的卷积神经网络模型中进行深度特征信息提取，然后通过预设的图像识别模型进行深度特征信息识别，得到识别得到的物体类别，然后通过预设的翻译算法将识别结果翻译为目标语言后，输出到显示屏3中进行显示，同时从中央处理器1中所存储的数据库中调取与识别结果对应的目标语言音频，通过向扬声器9进行播放。

摄像头4所采集的图像可通过图像采集单元2、中央处理器1传送到显示屏3中进行实时显示，当所采集的图像完成物体识别和实时翻译后，中央处理器1将翻译结果传送到显示屏3中与所采集的图像同步显示。

在使用过程中，中央处理器1通过距离传感器7获取使用者与显示屏3之间的距离并进行判断，当距离低于预设的安全阈值时，中央处理器1向显示屏3发送电信号，显示屏3弹出警告窗口，从而避免使用者与显示屏3距离过近影响视力；中央处理器1通过光线传感器8获取装置外周环境的亮度数值，然后根据所获取的环境亮度数值向显示屏3发送电信号使显示屏3的亮度根据环境亮度自动调节。

本实施例中的物体识别及实时翻译装置还可以结合纠错模块使用，所述纠错模块用于当使用者发现识别结果与实际物体名称不相符时，通过摄像头4将物体进行拍照上传到服务器中，同时发送相对应正确的中文名称进行反馈，工作人员可通过服务器采集反馈信息对数据库进行更新处理，从而实现纠错功能。

本实施例中的物体识别及实时翻译装置还可以结合作为音频单元的麦克风进行使用，所述麦克风设置在显示屏3的一侧，用于采集外接环境中的声音并传送到中央处理器1中处理，中央处理器1通过预设的声音处理模型对声音进行处理分析，并执行相应的指令。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：于兆勤;韦怡婷;王惠;卢汝铭;麦雪莹;刘浩诚
技术所有人：广东工业大学
我是此专利的发明人

上一篇：一种纸面石膏板及其制备方法与流程
上一篇：一种无机盐防水堵漏加固注浆料及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。