一种基于rgb-ir相机的声音编码交互方法

文档序号：9922480阅读：424来源：国知局

一种基于rgb-ir相机的声音编码交互方法
【技术领域】
[0001] 本发明属于=维场景检测、双目视觉、视觉障碍人群辅助技术、声音编码技术、人机交互领域。本发明设及一种利用RGB-IR相机采集视频图像，转化为声音编码的交互方法。
【背景技术】
[0002] 视觉是人类最重要的感觉，人类有60%-80%的信息来自视觉。视觉在人类的所有感觉中占据支配地位，是思维的一种最基本的工具。损失正常视觉的视觉障碍人±，对于形状、色彩、运动的理解都很困难，因此他们的生活在起居、出行等方面都受到巨大的影响。
[0003] 对于缺损视觉感知的视觉障碍人群，简单的盲杖只能提供单一的辅助功能，探测距离有限，无法提供充分的辅助。导盲犬和仿生眼可为视觉缺损的人群提供帮助，但导盲犬的训练和养护费用普通家庭难W承担;仿生眼的植入需要进行手术，造价昂贵，且只能针对视网膜色素变性或老年性黄斑变性导致失明的人群。
[0004] 传统电子式的视障辅助工具主要包括超声波辅助技术、激光测距辅助、双目视觉辅助技术、主动光深度相机辅助技术。
[0005] 基于超声波和激光测距的辅助技术的测距范围有限，只能实现单点测距，探测的 =维信息有限，只具有报警功能，并且容易误判、漏判。
[0006] 基于传统双目视觉的辅助技术可W提供范围更大的=维信息，但也存在一些不足。传统双目视觉的S维信息获取的核屯、技术在于对两幅RGB图像进行图像匹配，局部匹配的方法只能获得纹理显著、特征明显处的深度，因此只能获取稀疏的=维信息，不充分的深度信息容易造成=维探测时的误检测和漏检测，使得后续辅助算法并不鲁棒和可靠;全局匹配的方法可W获得深度稠密但并不完全精确的=维图像，匹配算法复杂，计算量大，算法难W实时化，容易造成辅助时的延时。
[0007] 基于主动光深度相机的辅助技术可W实时的获取稠密、精确的深度图像，但在室外受日光影响不能正常工作，使得辅助技术只能局限于室内。并且主动光的深度相机存在最远距离，超过最远距离的路况无法探测。
[000引传统视觉障碍人±辅助技术的人机交互方式主要有语音提示、触觉震动的方法。语音提示通常播报障碍物的距离和方向，由于语音提示需要时间，会产生延时，造成事故。触觉震动通常W震动腰带或者震动背屯、为实现硬件，W震动来提示障碍物的方位，震动装置虽然可W免除延时的问题，但给视觉障碍人±带来负担，不同人的穿戴感受有差别。
[0009]最近RGB- IR的CCD/CM0S忍片和声音编码技术的发展，为视觉障碍人群的辅助技术提供了新思路。RGB-IR相机可同时获得一副RGB彩色图像和IR红外图像。采用两个RGB-IR相机，和一支红外激光笔，在双目立体视觉的基础上，可获取实时、可靠、全面的深度图像。结合RGB彩色信息、IR红外信息和深度S维信息，可W对整个视场的场景进行充分的识别和解析。视觉障碍人±可^利用红外激光笔，对感兴趣区域的深度加 W确认，增加了视觉障碍人 ±和视觉辅助装置的交互，提高了使用体验。利用声音编码技术的交互方式可为视觉障碍人±提供及时、快速、完整的场景信息，能够将充足的深度信息转化为声音编码传递给使用者，信息损失少，可W很好满足视觉障碍人±对辅助工具的要求。

【发明内容】

[0010] 本发明的目的在于针对现有技术的不足，提供了一种基于RGB-IR相机的声音编码交互方法。
[0011] 本发明的目的是通过W下技术方案实现的：一种基于RGB-IR相机的声音编码交互方法，所述方法在声音编码交互系统上实现，所述系统包括两个RGB-IR相机、深度获取模块、声音编码模块、声音输出模块;两个RGB-IR相机分别与深度获取模块相连，深度获取模块通过声音编码模块与声音输出模块相连;所述两个RGB-IR相机光轴方向平行，竖直高度一致，水平间距为B(如图1所示）；声音编码交互方法包括W下步骤：
[0012] (1)两个RGB- IR相机均采集RGB彩色视频流和IR红外视频流，获得两幅RGB彩色视频流和两幅IR红外视频流；
[0013] (2)深度获取模块获取两幅RGB彩色视频流和两幅IR红外视频流，对两幅RGB彩色视频流进行双目立体匹配，即可获取初始的稀疏深度图。对两幅IR红外视频流进行特征点匹配(特征点匹配为本领域公知常识），即可获取运些区域特征点的置信度高的精确深度图。
[0014] (3)利用精确深度图，配合IR红外视频流和RGB彩色视频流，在初始稀的疏深度图中进行扩展，可获取更为稠密、精确的深度图像。
[0015] (4)根据RGB-IR相机的内参数，将步骤3获得的深度图像进行S维转换，使之与 RGB- IR相机的S维坐标一致，获得S维点云；
[0016] (5)将步骤4获得的=维点云的立方区域进行分块，获得N个长方体区块，使得与 RGB-IR相机光轴垂直的面分成N个长方形区域。分块方式见图4。
[0017] (6)从点云分块结果最上一层开始，对每层中的各个长方体区块进行扫描。计算每个长方体区块的平均坐标反击式。根据运一层中各个长方体区块的平均坐标(^王^)，同时输出各个立体声模拟信号，其中，立体声模拟信号的声场水平距离通过J表示;立体声模拟信号的频率与^成线性关系；
[0018] (7)声音输出模块根据立体声模拟信号，依次输出每一层声音信号，完成交互。
[0019] 进一步地，所述步骤(2)中，对两幅RGB彩色视频流进行双目立体匹配，获取初始的稀疏深度图的方法如下：
[0020] a、构造一个窗口，类似于卷积核；
[0021] b、用窗口覆盖其中一幅RGB彩色视频流中的一个区域I，获得窗口覆盖区域内的所有像素点(u，v);
[0022] C、用窗口覆盖另一幅RGB彩色视频流中的一个区域II，筛选出窗口覆盖区域的像素点(u'，v'），使得该区域的SAD值最小;所述SAD值通过W下方式计算：
[0023] SAD(u，v) = Sum{|l(u，v)-II(u'，v'）|}，Sum表示该窗口块中的所有灰度绝对值差的累积。
[0024] d、计算各个对应点的视差d= |u'-u|，由深度计算公式，可得该点的深度为z = f X B/d，即该点到相机主平面的距离，其中f为焦距，B为两相机的水平间距。
[0025] e、对整幅图像进行一次循环遍历，计算每一像素点的视差值d和深度z，即可获知当前的初始深度图。
[0026] 进一步地，所述步骤（3)中，利用精确深度图，配合IR红外视频流和RGB彩色视频流，在初始稀的疏深度图中进行扩展，可获取更为稠密、精确的深度图像。具体为：
[0027] a、W最小的圆形框，框住两幅IR红外视频流的特征点区域；
[002引b、对圆形框的区域进行遍历，计算一个非特征点上下左右四个方向到最近的立个的特征点的距离，W运立个特征点的深度对该非特征点的深度进行力时对f值。插值的权值与它们之间的颜色与距离差别有关系。插值的权值为
[0029] 其中（X-X日)2+(y-y日)=?该非特征点到一个特征点的距离平方，对应的(r-r〇)2+(g-gO) 2+(b-b日)2为该非特征点与一个特征点的颜色分量的差别的平方，Od与Oc分别为距离项和颜色项的权值；
[0030] C、对超过捜索距离h的点，则跳出，不对该点进行深度修正；
[0031] d、对圆形框的区域遍历执行b、c两步后，对深度图像进行一次斑点滤波，完成当前场景区域的深度扩展，即获得更为稠密、精确的深度图像。
[0032] 进一步地，所述步骤4中的S维点云通过W下方法得到：
[003引首先对两个RGB -

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨恺伦;汪凯巍;胡伟健;吴阳阳;
技术所有人：浙江大学;
我是此专利的发明人

上一篇：一种光场图像的显著性检测方法
上一篇：一种基于点击式图像分割的无人机航拍图像电子勾绘方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。