一种基于rgb-ir相机的声音编码交互方法

文档序号:9922480阅读:391来源:国知局
一种基于rgb-ir相机的声音编码交互方法
【技术领域】
[0001] 本发明属于=维场景检测、双目视觉、视觉障碍人群辅助技术、声音编码技术、人 机交互领域。本发明设及一种利用RGB-IR相机采集视频图像,转化为声音编码的交互方法。
【背景技术】
[0002] 视觉是人类最重要的感觉,人类有60%-80%的信息来自视觉。视觉在人类的所有 感觉中占据支配地位,是思维的一种最基本的工具。损失正常视觉的视觉障碍人±,对于形 状、色彩、运动的理解都很困难,因此他们的生活在起居、出行等方面都受到巨大的影响。
[0003] 对于缺损视觉感知的视觉障碍人群,简单的盲杖只能提供单一的辅助功能,探测 距离有限,无法提供充分的辅助。导盲犬和仿生眼可为视觉缺损的人群提供帮助,但导盲犬 的训练和养护费用普通家庭难W承担;仿生眼的植入需要进行手术,造价昂贵,且只能针对 视网膜色素变性或老年性黄斑变性导致失明的人群。
[0004] 传统电子式的视障辅助工具主要包括超声波辅助技术、激光测距辅助、双目视觉 辅助技术、主动光深度相机辅助技术。
[0005] 基于超声波和激光测距的辅助技术的测距范围有限,只能实现单点测距,探测的 =维信息有限,只具有报警功能,并且容易误判、漏判。
[0006] 基于传统双目视觉的辅助技术可W提供范围更大的=维信息,但也存在一些不 足。传统双目视觉的S维信息获取的核屯、技术在于对两幅RGB图像进行图像匹配,局部匹配 的方法只能获得纹理显著、特征明显处的深度,因此只能获取稀疏的=维信息,不充分的深 度信息容易造成=维探测时的误检测和漏检测,使得后续辅助算法并不鲁棒和可靠;全局 匹配的方法可W获得深度稠密但并不完全精确的=维图像,匹配算法复杂,计算量大,算法 难W实时化,容易造成辅助时的延时。
[0007] 基于主动光深度相机的辅助技术可W实时的获取稠密、精确的深度图像,但在室 外受日光影响不能正常工作,使得辅助技术只能局限于室内。并且主动光的深度相机存在 最远距离,超过最远距离的路况无法探测。
[000引传统视觉障碍人±辅助技术的人机交互方式主要有语音提示、触觉震动的方法。 语音提示通常播报障碍物的距离和方向,由于语音提示需要时间,会产生延时,造成事故。 触觉震动通常W震动腰带或者震动背屯、为实现硬件,W震动来提示障碍物的方位,震动装 置虽然可W免除延时的问题,但给视觉障碍人±带来负担,不同人的穿戴感受有差别。
[0009]最近RGB- IR的CCD/CM0S忍片和声音编码技术的发展,为视觉障碍人群的辅助技术 提供了新思路。RGB-IR相机可同时获得一副RGB彩色图像和IR红外图像。采用两个RGB-IR相 机,和一支红外激光笔,在双目立体视觉的基础上,可获取实时、可靠、全面的深度图像。结 合RGB彩色信息、IR红外信息和深度S维信息,可W对整个视场的场景进行充分的识别和解 析。视觉障碍人±可^利用红外激光笔,对感兴趣区域的深度加 W确认,增加了视觉障碍人 ±和视觉辅助装置的交互,提高了使用体验。利用声音编码技术的交互方式可为视觉障碍 人±提供及时、快速、完整的场景信息,能够将充足的深度信息转化为声音编码传递给使用 者,信息损失少,可W很好满足视觉障碍人±对辅助工具的要求。

【发明内容】

[0010] 本发明的目的在于针对现有技术的不足,提供了一种基于RGB-IR相机的声音编码 交互方法。
[0011] 本发明的目的是通过W下技术方案实现的:一种基于RGB-IR相机的声音编码交互 方法,所述方法在声音编码交互系统上实现,所述系统包括两个RGB-IR相机、深度获取模 块、声音编码模块、声音输出模块;两个RGB-IR相机分别与深度获取模块相连,深度获取模 块通过声音编码模块与声音输出模块相连;所述两个RGB-IR相机光轴方向平行,竖直高度 一致,水平间距为B(如图1所示);声音编码交互方法包括W下步骤:
[0012] (1)两个RGB- IR相机均采集RGB彩色视频流和IR红外视频流,获得两幅RGB彩色视 频流和两幅IR红外视频流;
[0013] (2)深度获取模块获取两幅RGB彩色视频流和两幅IR红外视频流,对两幅RGB彩色 视频流进行双目立体匹配,即可获取初始的稀疏深度图。对两幅IR红外视频流进行特征点 匹配(特征点匹配为本领域公知常识),即可获取运些区域特征点的置信度高的精确深度 图。
[0014] (3)利用精确深度图,配合IR红外视频流和RGB彩色视频流,在初始稀的疏深度图 中进行扩展,可获取更为稠密、精确的深度图像。
[0015] (4)根据RGB-IR相机的内参数,将步骤3获得的深度图像进行S维转换,使之与 RGB- IR相机的S维坐标一致,获得S维点云;
[0016] (5)将步骤4获得的=维点云的立方区域进行分块,获得N个长方体区块,使得与 RGB-IR相机光轴垂直的面分成N个长方形区域。分块方式见图4。
[0017] (6)从点云分块结果最上一层开始,对每层中的各个长方体区块进行扫描。计算每 个长方体区块的平均坐标反击式。根据运一层中各个长方体区块的平均坐标(^王^),同时输 出各个立体声模拟信号,其中,立体声模拟信号的声场水平距离通过J表示;立体声模拟信 号的频率与^成线性关系;
[0018] (7)声音输出模块根据立体声模拟信号,依次输出每一层声音信号,完成交互。
[0019] 进一步地,所述步骤(2)中,对两幅RGB彩色视频流进行双目立体匹配,获取初始的 稀疏深度图的方法如下:
[0020] a、构造一个窗口,类似于卷积核;
[0021] b、用窗口覆盖其中一幅RGB彩色视频流中的一个区域I,获得窗口覆盖区域内的所 有像素点(u,v);
[0022] C、用窗口覆盖另一幅RGB彩色视频流中的一个区域II,筛选出窗口覆盖区域的像 素点(u',v'),使得该区域的SAD值最小;所述SAD值通过W下方式计算:
[0023] SAD(u,v) = Sum{|l(u,v)-II(u',v')|},Sum表示该窗口块中的所有灰度绝对值差 的累积。
[0024] d、计算各个对应点的视差d= |u'-u|,由深度计算公式,可得该点的深度为z = f X B/d,即该点到相机主平面的距离,其中f为焦距,B为两相机的水平间距。
[0025] e、对整幅图像进行一次循环遍历,计算每一像素点的视差值d和深度z,即可获知 当前的初始深度图。
[0026] 进一步地,所述步骤(3)中,利用精确深度图,配合IR红外视频流和RGB彩色视频 流,在初始稀的疏深度图中进行扩展,可获取更为稠密、精确的深度图像。具体为:
[0027] a、W最小的圆形框,框住两幅IR红外视频流的特征点区域;
[002引b、对圆形框的区域进行遍历,计算一个非特征点上下左右四个方向到最近的立个的特 征点的距离,W运立个特征点的深度对该非特征点的深度进行力时对f值。插值的权值与它们之间 的颜色与距离差别有关系。插值的权值为
[0029] 其中(X-X日)2+(y-y日)=?该非特征点到一个特征点的距离平方,对应的(r-r〇)2+(g-gO) 2+(b-b日)2为该非特征点与一个特征点的颜色分量的差别的平方,Od与Oc分别为距离项和 颜色项的权值;
[0030] C、对超过捜索距离h的点,则跳出,不对该点进行深度修正;
[0031] d、对圆形框的区域遍历执行b、c两步后,对深度图像进行一次斑点滤波,完成当前 场景区域的深度扩展,即获得更为稠密、精确的深度图像。
[0032] 进一步地,所述步骤4中的S维点云通过W下方法得到:
[003引首先对两个RGB -
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1