助盲语音辅助阅读设备及方法

文档序号：29140113发布日期：2022-03-05 02:33阅读：176来源：国知局

1.本发明涉及智能电子设备技术领域，具体地，涉及一种助盲语音辅助阅读设备及方法。

背景技术：

2.随着时代的飞速进步，各种设备都已实现智能化，这种进步为人类生活带来了极大的便利。盲人是一个特殊的群体，由于视觉的障碍导致盲人在日常的生活与出行中面临许多困难，若将这些智能化设备运用到盲人日常的生活中，将为盲人的生活带来极大的便利，使盲人生活质量大大提高。
3.近期看来，导盲设备的研究还处于萌芽阶段，盲人出行主要以智能导盲手杖、导盲眼镜等为辅助工具，或依赖于导盲犬的导引。其中导盲杖利用的超声波测距技术在使用过程中不够稳定，不易做推广；导盲眼镜只能探测腰部以上的障碍物，具有空间局限性；导盲犬训练复杂，成本较高。其次还有导盲车等设备，由于不易携带或受外界影响较大等原因，只能停留在概念模型上。以上因素都限制了盲人的环境感知能力、自主行动能力、与人沟通交互能力，使其难以实现基本生活自理和工作能力，并且会给他们的心理造成负面影响。
4.导盲辅助事业是一项崇高的事业，也是知识和技术含量较高的事业。利用科学技术的新发现和新进展，探索帮助盲人提升生活工作能力的新方法和新技术，研发高性能、低成本的导盲辅助器械产品，让盲人享受科技的福音。恢复和改善盲人的自身功能，使其最大限度地恢复生活和工作能力，提高生活质量，减轻家庭和社会的负担。智能助盲设备的巨大社会需求，推动着科技投入的增加和科学技术的发展。目前，利用超声波探测技术、神经科学与工程、神经信息解码及智能控制工程等学科的最新理论与技术，探讨视觉缺失后运动功能辅助和增强的技术和方法，进而研发先进的智能助盲辅助器械与系统，已成为国际神经科学、生物医学工程及计算机科学等领域的研究热点。
5.本发明针对现有技术瓶颈，将从机械优化设计出发，研究视觉信息感知、语音交互等多种关键技术，最终构建自然灵巧，安全可靠的可穿戴智能助盲系统。该项目的实施有助于推进相关产品的研发与应用，提高现有的助盲服务能力，提升盲人环境感知能力、自主行动能力、与人沟通交互能力，使其基本实现生活自理。同时，满足导盲助盲产业急需而目前缺少的和未来发展需要的重点领域的需求，是国家技术创新研究中极具前瞻性的战略选择。
6.专利文献cn110347978a公开了一种电子书辅助阅读的方法，在用户进行电子书阅读时，用户可以阅读经过屏蔽不健康的敏感词的经过界面优化的文本内容，并获得包含用户的师长、父母等亲人陪读用户预判用户的可能存在的疑难单词，进行编辑的知识点的标识，个性化注解的内容的注解方案，用户的标识注解方案可以推送到平台让所有用户共享，电子书全文本链接，用户点击字词本身，系统通过中英文的自动识别，分别给予的中文字词、成语的解释，以及英文单词的解释和读音等，让用户获得系统辅助阅读的有效帮助。该专利在结构和性能上仍然有待提高的空间。

技术实现要素：

7.针对现有技术中的缺陷，本发明的目的是提供一种助盲语音辅助阅读设备及方法。
8.根据本发明提供的一种助盲语音辅助阅读设备，包括：双目视觉相机1、相机固定组件2、相机信息传输连接装置3、蓝牙语音通讯装置4、上身背带处理核心5、上身背带固定组件6；所述双目视觉相机1通过相机固定组件2固定在人体头部；所述相机信息传输连接装置3用于连接双目视觉相机1与上身背带处理核心5完成信息传输；所述蓝牙语音通讯装置4利用蓝牙连接上身背带处理核心5完成盲人语音播报；所述上身背带处理核心5利用上身背带固定组件6完成紧固连接，防止脱落。
9.优选地，所述相机固定组件2采用柔性可伸缩绑带，以保证双目视觉相机1固定在盲人头部时不造成严重的压迫感。
10.优选地，所述双目视觉相机1进行新型结构设计，以3d打印方式打造眼镜框架，满足重量需求，使得盲人头部不过分疲劳。
11.所述双目视觉相机1包括：眼镜框架；
12.所述眼镜框架的重量小于设定阈值。
13.所述上身背带处理核心5与相机信息传输连接装置3建立可靠连接，保证信息传输流畅。
14.优选地，所述上身背带处理核心5包括：两个并行智能处理网络模块。
15.所述上身背带处理核心5的软件核心由两个并行的智能处理网络组成，不仅能够识别书本电子设备中的图像文字，还可以有效率的实现对现实生活3d立体图像的一些识别问题。
16.优选地，所有上身背带处理核心5检测如下任意一种或多种信息：
[0017]-文字信息；
[0018]-图片信息；
[0019]
所有上身背带处理核心5检测到的结果，如各种文字图片信息等会通过蓝牙传输设备报给盲人本身，达到反馈的作用。
[0020]
优选地，所述上身背带处理核心5通过上身背带固定组件6柔性紧固连接于盲人背部。
[0021]
上身背带固定组件6采用柔性设计，防止对盲人肌肉造成伤害。
[0022]
优选地，采用助盲语音辅助阅读设备，包括：
[0023]
步骤s1：采用助盲语音辅助阅读设备生成语音辅助阅读印刷品、手机电子文件、电脑电子文件、网络等电子文件；
[0024]
步骤s2：在距盲人头部1米范围内，对于小于1号字大小的中英文、符号等识别准确率≥95％，时间延迟＜1秒；使用轻量级ctpn进行文字检测，ctpn是近年来提出的一种文字检测算法。ctpn结合cnn与lstm深度网络，能有效的检测出复杂场景的横向分布的文字，是目前比较好的文字检测算法
[0025]
优选地，还包括：
[0026]
步骤s3：该技术要求设备可帮助盲人识别不少于50个熟人，人脸检测准确率≥99％，3米内表情识别准确率≥80％，并能将识别结果生成语音辅助盲人与人交流沟通；使
用轻量级retinaface和改进facenet进行人脸识别，将轻量级ret inaface 使用mobilenet0.25作为主干特征提取网络，在保证识别速度的同时提供极其优秀的检测性能，该网络在正常天气与光照条件下拍摄的人脸数据集中，检测率可达 99.5％以上。
[0027]
优选地，还包括：
[0028]
步骤s4：改进facenet使用efficientnet-b0作为主干特征提取网络， efficientnet-b0是谷歌在2019年提出的极其优秀的特征提取网络，具有极其优秀的特征提取能力。在进行改进facenet的训练过程中，我们结合了facenet与 softmax训练优势，极大的提高了改进facenet的训练性能。
[0029]
优选地，还包括：
[0030]
步骤s5：使用densenet实现文字识别，densenet是renset的改进版，
[0031]
所述步骤s5包括：
[0032]
步骤s5.1：建立前面所有层与后面层的密集连接，这种密集链接使得densenet 具有极强的特征重用功能，特别适合文字识别这种既需要浅层语义信息和深层语义信息的情况。
[0033]
步骤s5.2：我们使用synthetic chinese string dataset开源数据作为训练集，该数据集共约364万张图片，按照99:1划分成训练集和验证集，数据利用中文语料库新闻+文言文，通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成，我们在验证集上取得了98.3％的准确度。
[0034]
与现有技术相比，本发明具有如下的有益效果：
[0035]
1、本发明使用多种优秀的智能深度神经网络结构完成对多种类型目标的检测，积极主动改变原有网络结构，极大降低参数量，增快运算速度，使得整体可以满足高性能图像处理主控机的运算能力。
[0036]
2、本发明的头戴式设备采用新型结构设计，实际具体重量小于80g，采用柔性固定设备，在满足固定需求的情况下，方便活动，并使得盲人有更好的佩戴体验。
[0037]
3、本发明采用蓝牙语音通讯装置进行交互，上升背带处理核心检测到的结果通过蓝牙语音通讯装置进行播报。
附图说明
[0038]
通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：
[0039]
图1为本发明实施例中的穿戴整体结构示意图。
[0040]
图2为本发明实施例中的头部组件的示意图。
[0041]
图3为本发明实施例中的上身背带处理核心的软件结构框示意图。
[0042]
图4为本发明实施例中的改进facenet网络结构示意图。
[0043]
图5为本发明实施例中的ctpn示意图
[0044]
图中，1-双目视觉相机、2-相机固定组件、3-相机信息传输连接装置、4-蓝牙语音通讯装置、5-上身背带处理核心、6-上身背带固定组件
具体实施方式
[0045]
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。
[0046]
本发明涉及智能电子设备技术领域，具体地说是一种助盲语音辅助阅读设备。该设备的结构主要包括双目视觉相机、语音播报装置、上背带处理核心和基于轻量级ctpn进行文字检测和轻量级retinaface和改进facenet进行图像识别。设计通过添加头部固定装置将双目视觉相机固定在头部合适位置，便于穿戴与检测四周环境；上背带处理核心可以来接受双目视觉相机提供的视觉方面图片文字并处理。所有获得的信息可以通过蓝牙语音通讯装置进行播报。本发明能够很好的应用于盲人生活中的读书看报，文字阅读与图书阅读，极大程度提高盲人的生活便利性。
[0047]
如图1-5所示，一种助盲语音辅助阅读设备，包括双目视觉相机、相机固定组件、相机信息传输连接装置、蓝牙语音通讯装置、上身背带处理核心、上身背带固定组件、双目视觉相机通过相机固定组件固定在盲人头部，相机信息传输连接装置用于连接双目视觉相机与上身背带处理核心完成信息传输；蓝牙语音通讯装置通过利用蓝牙连接上身背带处理核心完成盲人语音播报；上身背带处理核心利用上身背带固定装置完成固定，防止脱落；
[0048]
优选地，相机固定组件应该用柔性可伸缩绑带设计，以保证双目视觉相机固定在盲人头部时不造成严重的压迫感。
[0049]
优选地，双目视觉相机进行新型结构设计，以3d打印方式打造眼镜框架，满足重量需求，使得盲人头部不过分疲劳。
[0050]
优选地，上身背带处理核心与相机信息传输连接装置建立可靠连接，保证信息传输流畅。
[0051]
优选地，所有上身背带处理核心检测到的结果，如现实世界3d图像，书本二维图像和文字都可以处理通过蓝牙传输给盲人本身。
[0052]
优选地，上身背带处理核心通过上身背带固定装置固定在盲人背部。上身背带固定装置采用柔性设计，防止对盲人肌肉造成伤害。
[0053]
优选地，文字定位于识别技术，该技术要求设备能生成语音辅助阅读印刷品和手机、电脑、网络等电子文件等。在距盲人头部1米范围内，对于小于1号字大小的中英文、符号等识别准确率≥95％，时间延迟＜1秒；我们使用轻量级ctpn进行文字检测，ctpn 是近年来提出的一种文字检测算法。ctpn结合cnn与lstm深度网络，能有效的检测出复杂场景的横向分布的文字，是目前比较好的文字检测算法。
[0054]
根据本发明提供的一种助盲语音辅助阅读设备，该技术要求设备可帮助盲人识别不少于50个熟人，人脸检测准确率≥99％，3米内表情识别准确率≥80％，并能将识别结果生成语音辅助盲人与人交流沟通；我们使用轻量级retinaface和改进facenet进行人脸识别。轻量级retinaface使用mobilenet0.25作为主干特征提取网络，在保证识别速度的同时提供极其优秀的检测性能，该网络在正常天气与光照条件下拍摄的人脸数据集中，检测率可达99.5％以上
[0055]
根据本发明提供的一种助盲语音辅助阅读设备，改进facenet使用efficientnet
‑ꢀ
b0作为主干特征提取网络，efficientnet-b0是谷歌在2019年提出的极其优秀的特征提取网络，具有极其优秀的特征提取能力。在进行改进facenet的训练过程中，我们结合了facenet与softmax训练优势，极大的提高了改进facenet的训练性能
[0056]
根据本发明提供的一种助盲语音辅助阅读设备，我们使用densenet来实现文字识别，densenet是renset的改进版，其具体做法是建立了前面所有层与后面层的密集连接，这种密集链接使得densenet具有极强的特征重用功能，特别适合文字识别这种既需要浅层语义信息和深层语义信息的情况。我们使用synthetic chinese stringdataset开源数据作为训练集，该数据集共约364万张图片，按照99:1划分成训练集和验证集，数据利用中文语料库(新闻+文言文)，通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成，我们在验证集上取得了98.3％的准确度。
[0057]
如图1，一种助盲语音辅助阅读设备，其特征在于：包括双目视觉相机1、相机固定组件2、相机信息传输连接装置3、蓝牙语音通讯装置4、上身背带处理核心5、上身背带固定组件6。双目视觉相机1通过相机固定组件2固定在盲人头部，相机信息传输连接装置3用于连接双目视觉相机1与上身背带处理核心5完成信息传输；蓝牙语音通讯装置4通过利用蓝牙连接上身背带处理核心5完成盲人语音播报；上身背带处理核心 5利用上身背带固定组件6完成固定，防止脱落。如图1、2，一种助盲语音辅助阅读设备，其特征在于：双目视觉相机1通过相机固定组件2固定在盲人头部，相机固定组件 2采用柔性组件防止对佩戴人造成损伤，相机信息传输连接装置3用于连接双目视觉相机1与上身背带处理核心5完成信息传输。
[0058]
如图1、4，一种助盲语音辅助阅读设备，其特征在于：上身背带处理核心5的软件核心由两个并行的智能处理网络组成，轻量级retinaface使用mobilenet0.25作为主干特征提取网络，在保证识别速度的同时提供极其优秀的检测性能，轻量级ctpn进行文字检测，ctpn是近年来提出的一种文字检测算法。ctpn结合cnn与lstm深度网络，能有效的检测出复杂场景的横向分布的文字，是目前比较好的文字检测算法，所有模块通过高性能图像处理主控机进行处理，保证处理效率。
[0059]
双目视觉相机的硬件主要由相机和投射器组成，结构光就是通过投射器投射到被测物体表面的主动结构信息，如激光条纹、格雷码、正弦条纹等；然后，通过相机拍摄被测表面即得结构光图像；最后，基于三角测量原理经过图像三维解析计算从而实现三维重建。
[0060]
双目视觉相机与基于双目立体视觉的深度相机相比，其三维重建能力与距离检测的鲁棒性大大增加。
[0061]
在摄像机透视投影模型中，空间任意一点p(x,y,z)的计算公式为：
[0062][0063][0064][0065]
其中：
[0066]
[0067]
本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
[0068]
以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本技术的实施例和实施例中的特征可以任意相互组合。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李智军;光启宏;李国欣
技术所有人：中国科学技术大学
我是此专利的发明人

上一篇：一种具有过滤效果的仲钨酸铵生产用调浆槽的制作方法
上一篇：颅神经显微血管减压术用涤纶棉包装装置的制作方法