智能眼镜及其翻译方法与流程

文档序号：15385573发布日期：2018-09-08 00:31阅读：503来源：国知局

本发明涉及电子设备技术领域，尤其涉及一种智能眼镜及其翻译方法。

背景技术：

随着国际化程度的逐步提高，在人们的日常生活中会越来越多的机会接触到外国人，但是由于语言的沟通障碍，当国人与外国人需要沟通时，常常需要找专业的翻译，但是这样一方面耽误了沟通时间，另一方面还增加了沟通的麻烦程度。

随着电子设备的快速发展，自动的翻译设备越来越多，现有技术中的翻译设备一般只针对于一个人进行翻译，翻译设备能够将对方说的话自动翻译成语音或文字，使本人能够与对方进行沟通和交流，但是当与多人进行沟通交流时，本人就无法获取翻译设备的翻译内容是针对哪个人进行翻译的，这样还会出现沟通障碍的问题。

技术实现要素：

有鉴于此，本发明实施例提供一种智能眼镜及其翻译方法，主要目的是当眼镜使用者与多人进行沟通交流时，在说话人对应位置显示翻译内容，避免沟通障碍。

为达到上述目的，本发明主要提供如下技术方案：

一方面，本发明实施例提供了一种智能眼镜，该智能眼镜包括：

眼镜本体，眼镜本体上设有显示单元，显示单元用于在指定位置显示图像；

声音单元，设置在眼镜本体上，用于获取预设范围内的音频信息以及音频信息发生的方位信息；

处理单元，处理单元连接于声音单元、定位单元和显示单元，用于将音频信息翻译成可读信息，并根据方位信息将可读信息显示到对应位置。

可选的，声音单元包括多个声音采集模块，多个声音采集模块沿眼镜本体的宽度方向依次并排设置，多个声音采集模块采集音频信息的音量大小来确定音频信息发生的方位信息。

可选的，声音单元包括角度检测模块，角度检测模块用于检测眼镜本体的转动角度信息，并根据转动角度信息来确定音频信息相对于眼镜本体的方位信息。

可选的，角度检测模块包括螺旋仪和加速度传感器。

可选的，声音单元包括摄像模块，摄像模块用于获取预设范围内的图像信息并识别图像信息中的人脸信息，根据人脸信息在图像信息中的位置来确定所述音频信息发生的方位信息。

可选的，摄像模块还用于识别图形信息中的人眼虹膜信息，处理单元用于当人眼虹膜信息为预设虹膜信息时，将音频信息翻译成可读信息，并根据方位信息将可读信息显示到对应位置。

另一方面，本发明实施例还提供一种智能眼镜的翻译方法，该方法包括：

获取预设范围内的音频信息；

获取音频信息发生的方位信息；

将音频信息翻译成可读信息，并根据方位信息将可读信息显示到对应位置。

可选的，将音频信息翻译成可读信息，并根据方位信息将可读信息显示到对应位置，包括：

将音频信息翻译成可读信息，根据可读信息得到答案信息；

根据方位信息将可读信号和答案信息显示到对应位置。

可选的，获取音频信息发生的方位信息，包括：

获取预设范围内的图像信息；

识别图像信息中的人脸信息；

根据人脸信息在图像信息中的位置来确定音频信息发生的方位信息。

可选的，将音频信息翻译成可读信息，并根据方位信息将可读信息显示到对应位置，包括：

获取图像信息中的人眼虹膜信息；

判断人眼虹膜信息是否为预设虹膜信息，若是，则将音频信息翻译成可读信息，并根据方位信息将可读信息显示到对应位置。

本发明实施例提出的智能眼镜及其翻译方法，用于在眼镜使用者与多人进行沟通交流时，在说话人对应位置显示翻译内容，避免沟通障碍，在现有技术中，翻译设备一般只接收讲话人传递的声音，并将对方说的话自动翻译成语音或文字，使翻译设备使用者能够与讲话人进行沟通和交流，但是当翻译设备使用者与多人同时进行沟通交流时，翻译设备同时接收多个讲话人的声音并进行翻译，使翻译设备使用者无法确定翻译设备的翻译内容是针对哪个人进行翻译的，进而引起沟通障碍。与现有技术相比，本申请文件提供的智能眼镜中，获取音频信息发生的方位信息，并根据方位信息将翻译内容显示到对应位置，实现将翻译内容显示在讲话人对应位置，使眼镜使用者能够直观的确定翻译内容对应哪一位说话人，避免了多人交流时的沟通障碍。

附图说明

图1为本发明一种实施例提供的智能眼镜在第一视角的结构示意图；

图2为本发明一种实施例提供的智能眼镜在第二视角的结构示意图；

图3为本发明一种实施例提供的智能眼镜的显示内容示意图；

图4为本发明另一种实施例提供的智能眼镜的显示内容示意图；

图5为本发明实施例提供的智能眼镜中摄像模块的结构示意图；

图6为本发明一种实施例提供的智能眼镜的翻译方法的流程示意图；

图7为本发明另一种实施例提供的智能眼镜的翻译方法的流程示意图；

图8为本发明再一种实施例提供的智能眼镜的翻译方法的流程示意图；

图9为本发明又一种实施例提供的智能眼镜的翻译方法的流程示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的智能眼镜及其翻译方法其具体实施方式、结构、特征及其功效，详细说明如后。

如图1、图2所示，一方面，本发明实施例提供了一种智能眼镜，该智能眼镜包括：

眼镜本体1，眼镜本体1上设有显示单元2，显示单元2用于在指定位置显示图像；

声音单元(图中未标出)，设置在眼镜本体1上，用于获取预设范围内的音频信息以及音频信息发生的方位信息；

处理单元(图中未标出)，处理单元连接于声音单元、定位单元和显示单元2，用于将音频信息翻译成可读信息，并根据方位信息将可读信息显示到对应位置。

其中，眼镜本体1可以为任意形态的位于用户视野内的可穿戴设备，如眼镜本体1可以为普遍使用的眼镜架，或者，眼镜本体1可以为固定于用户一侧耳朵并覆盖一侧眼球视野的单边眼镜。显示单元2用于将虚拟影像显示到指定位置，具体的，显示单元可以为投影装置，投影装置向指定位置投影，例如，眼镜本体1上设置有镜片，投影装置设置于镜片中，眼镜使用者可以通过镜片看到外部实际场景，如多人会话时，眼镜使用者可以通过镜片看到真实的会话参与人，同时，投影装置将翻译结果等虚拟图像进行指定位置的投影。声音单元设置在眼镜本体1上的任意位置，例如设置在眼镜本体1前侧边缘，或设置在两侧镜腿上。声音单元用于接收预定范围内的声音，并根据声音确定声源位置，在多人会话场景，说话人说话时产生音频信息，声音单元接收说话人的音频信息，根据音频信息判断说话人的位置，进而将音频信息翻译为眼镜使用者预先设置的语言，并将翻译结果投影在说话人对应的位置上，例如，说话人是多个会话参与人中的最左侧一位，眼镜使用者始终目视所有会话参与人，则将翻译结果投影在左侧讲话人对应的位置。具体的，翻译结果可以投影在说话人头顶上方。智能眼镜进一步还包括深度学习模块，在声音单元接收说话人的音频信息后，深度学习模块对音频信息进行学习，智能生成答复文本，如可能为答复的一段话或可能为答复的单词，显示单元2在显示翻译结果的同时显示答复文本，如图3所示，音频信息为“howareyou？”，翻译结果为“你好吗？”，答复文本为“iamfine”，显示单元2为投影装置，投影装置将翻译结果和答复文本同时投影在讲话人上方，为眼镜使用者提供下一步交流内容的建议，极大的改善人们因为语言不同而导致的沟通障碍。

本发明实施例提出的智能眼镜，用于在眼镜使用者与多人进行沟通交流时，在说话人对应位置显示翻译内容，避免沟通障碍，在现有技术中，翻译设备一般只接收讲话人传递的声音，并将对方说的话自动翻译成语音或文字，使翻译设备使用者能够与讲话人进行沟通和交流，但是当翻译设备使用者与多人同时进行沟通交流时，翻译设备同时接收多个讲话人的声音并进行翻译，使翻译设备使用者无法确定翻译设备的翻译内容是针对哪个人进行翻译的，进而引起沟通障碍。与现有技术相比，本申请文件提供的智能眼镜中，获取音频信息发生的方位信息，并根据方位信息将翻译内容显示到对应位置，实现将翻译内容显示在说话人对应位置，使眼镜使用者能够直观的确定翻译内容对应哪一位说话人，避免了多人交流时的沟通障碍，并且采用显示文本的方式，可以避免语音播报产生的二次音频信号，由于不发出声音，可以营造一个更安静的交流环境，提升用户沟通效率。

声音单元具体包括多个声音采集模块3，多个声音采集模块3沿眼镜本体1的宽度方向依次并排设置，多个声音采集模块3采集音频信息的音量大小来确定音频信息发生的方位信息。由于声音传播时具有音量递减的特性，多个声音采集模块3沿眼镜本体1的宽度方向依次并排设置，使得每个声音采集模块3距离声源的远近不同，接收到的音频信息的音量大小也不相同，例如，靠近眼镜本体1左侧的人讲话，则眼镜本体1最左侧的声音采集模块3接收到的音频信息的音量最大，其他声音采集模块3接收到的音量向右依次递减，因此，根据声音采集模块3接收到的音量大小可以准确的确定音频信息发生的方位信息，进而在多人会话时准确判断哪一位参与人正在讲话。

如图4所示，进一步的，声音单元还包括角度检测模块，角度检测模块用于检测眼镜本体1的转动角度信息，并根据转动角度信息来确定音频信息相对于眼镜本体的方位信息。根据沟通习惯，对话双方都是眼神相互看着对方，而当多人会话时，一个会话参与者说完话，接下来另一位会话参与者说话，这样眼镜使用者必然会旋转头部与正在讲话的会话参与者进行眼神交流，此时，角度检测模块检测眼镜本体的转动角度信息，例如旋转角度为θ，并在当前说话的会话参与者对应位置显示翻译内容和答复文本，同时，针对上一位说话人的翻译内容和答复文本仍然保留，并显示在与当前翻译内容相差θ角度的位置，便于后续沟通，并给与一定通话内容提醒。如果旋转角度θ过大，上一位说话人的翻译内容和答复文本显示在视野范围最边缘处。

具体的，角度检测模块包括螺旋仪和加速度传感器，通过螺旋仪测量眼镜本体1偏转、倾斜时的转动角速度，通过加速度传感器测量眼镜本体1轴向的线性动作，结合测量结果重构出完整的3d动作，准确检测眼镜本体1的转动角度信息，使翻译内容和答复文本的显示位置精确。

如图5所示，进一步的，声音单元包括摄像模块4，摄像模块4用于获取预设范围内的图像信息并识别图像信息中的人脸信息，根据人脸信息在图像信息中的位置来确定音频信息发生的方位信息。摄像模块4可以设置于眼镜本体1的任意位置，如眼镜本体1为普通镜架，摄像模块4设置于镜架正前方。在多人会话的场景中，由摄像模块4采集的信息确定正在进行说话的会话参与人的位置，或者由声音采集模块3和摄像模块4采集的信息共同确定正在进行说话的会话参与人的位置，并在该人的方位上方显示翻译内容和答复文本；当另一位会话参与人说话时，眼镜使用者将头转向该人，依然通过摄像模块4采集的信息确定正在进行说话的会话参与人的位置，或者通过声音采集模块3和摄像模块4采集的信息共同确定说话人位置，在该人的位置上方显示翻译内容和答复文本，与此同时，摄像模块4通过人脸识别确定上一位说话人当前的位置，并在该位置上显示上一位说话人的翻译内容和答复文本，便于后续沟通，并给与一定通话内容提醒。通过声音定位和人脸识别定位共同确定说话人的位置，使翻译内容和答复文本与说话人位置对应关系更加准确，同时，利用人脸识别确定上一位说话人当前的位置，避免了使用角度判断时的误差，即使上一位说话人移动位置，也能够通过人脸识别进行准确定位，为用户与上一位说话人进一步沟通提供便利。

在多人会话的场景中，常会出现多个人同时说话或讨论的情况，而用户可能只需要对正在与用户对话的讲话人的讲话内容进行翻译和显示，因此，摄像模块还可以识别图形信息中的人眼虹膜信息，处理单元用于当人眼虹膜信息为预设虹膜信息时，将音频信息翻译成可读信息，并根据方位信息将可读信息显示到对应位置。当人眼注视一个地方时，人眼虹膜轮廓是一个圆形，当人眼注视的方向发生变化时，人眼虹膜轮廓变成一个椭圆，摄像模块检测会话参与者的虹膜信息，当会话参与者人眼虹膜信息变为圆形时，表明该会话参与者正在与眼镜使用者进行对话，将该会话参与者的音频信息翻译成可读信息，并根据方位信息将可读信息和答复文本显示到该会话参与者对应位置，进而避免了多人讨论时眼镜使用者前方显示内容过于繁多的情况，有针对性的进行翻译内容的显示保证了眼镜使用者的方便沟通。

如图6所示，另一方面，本发明实施例还提供一种智能眼镜的翻译方法，该方法包括：

s1，获取预设范围内的音频信息；

s2，获取音频信息发生的方位信息；

s3，将音频信息翻译成可读信息，并根据方位信息将可读信息显示到对应位置。

本发明实施例提出的智能眼镜的翻译方法，用于在眼镜使用者与多人进行沟通交流时，在说话人对应位置显示翻译内容，避免沟通障碍，在现有技术中，翻译设备一般只接收讲话人传递的声音，并将对方说的话自动翻译成语音或文字，使翻译设备使用者能够与讲话人进行沟通和交流，但是当翻译设备使用者与多人同时进行沟通交流时，翻译设备同时接收多个讲话人的声音并进行翻译，使翻译设备使用者无法确定翻译设备的翻译内容是针对哪个人进行翻译的，进而引起沟通障碍。与现有技术相比，本申请文件提供的智能眼镜中，获取音频信息发生的方位信息，并根据方位信息将翻译内容显示到对应位置，实现将翻译内容显示在说话人对应位置，使眼镜使用者能够直观的确定翻译内容对应哪一位说话人，避免了多人交流时的沟通障碍，并且采用显示文本的方式，可以避免语音播报产生的二次音频信号，由于不发出声音，可以营造一个更安静的交流环境，提升用户沟通效率。

如图7所示，上述将音频信息翻译成可读信息，并根据方位信息将可读信息显示到对应位置的步骤，具体包括：

s31，将音频信息翻译成可读信息，根据可读信息得到答案信息；

s32，根据方位信息将可读信号和答案信息显示到对应位置。

智能眼镜包括深度学习模块，在声音单元接收说话人的音频信息后，深度学习模块对音频信息进行学习，智能生成答案信息，如可能为答复的一段话或可能为答复的单词，显示单元2在显示翻译结果的同时显示答复文本，如图3所示，音频信息为“howareyou？”，翻译结果为“你好吗？”，答复文本为“iamfine”，显示单元2为投影装置，投影装置将翻译结果和答复文本同时投影在讲话人上方，为眼镜使用者提供下一步交流内容的建议，极大的改善人们因为语言不同而导致的沟通障碍。

如图8所示，上述获取音频信息发生的方位信息的步骤，具体包括：

s21，获取预设范围内的图像信息；

s22，识别图像信息中的人脸信息；

s23，根据人脸信息在图像信息中的位置来确定音频信息发生的方位信息。

通过人脸识别定位说话人的位置，使翻译内容和答复文本与说话人位置对应关系更加准确，同时，可以利用人脸识别确定上一位说话人当前的位置，并在该位置上显示上一位说话人的翻译内容和答复文本，即使上一位说话人移动位置，也能够通过人脸识别进行准确定位，便于后续沟通。

如图9所示，上述将音频信息翻译成可读信息，并根据方位信息将可读信息显示到对应位置的步骤，具体包括：

s33，获取图像信息中的人眼虹膜信息；

s34，判断人眼虹膜信息是否为预设虹膜信息，若是，则将音频信息翻译成可读信息，并根据方位信息将可读信息显示到对应位置。

当人眼注视一个地方时，人眼虹膜轮廓是一个圆形，当人眼注视的方向发生变化时，人眼虹膜轮廓变成一个椭圆，摄像模块检测会话参与者的虹膜信息，当会话参与者人眼虹膜信息变为圆形时，表明该会话参与者正在与眼镜使用者进行对话，将该会话参与者的音频信息翻译成可读信息，并根据方位信息将可读信息和答复文本显示到对应位置，进而避免了多人讨论时眼镜使用者前方显示内容过于繁多的情况，有针对性的进行翻译内容的显示保证了眼镜使用者的方便沟通。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邹祥祥
技术所有人：京东方科技集团股份有限公司
我是此专利的发明人

上一篇：连接器的制作方法
上一篇：一种用于ZG10Ni35Cr25Nb的焊接材料的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。