本发明涉及裸眼立体视频技术,特别涉及一种基于网络深度相机的裸眼立体视频会议系统。
背景技术:
裸眼立体视频技术作为一种新型的三维视频技术,其中的三维显示终端可以同时给观看者提供三个维度的视觉线索,其沉浸感非普通二维显示所能比拟。裸眼立体视频会议系统借助裸眼立体视频技术给参会者提供多维度的视觉感知,其市场潜力较大。传统的立体视频会议系统由采集端、传输系统和显示端三部分组成:采集端采用标定的双目立体相机,从左右两个角度采集会场信息,得到左右视差图像,同时对双目立体相机的采集实时同步;传输系统将得到的已同步的左右视差图像通过网络进行传输;显示端接收传输系统传来的左右视差图像,并对其进行立体编码,形成传统立体视频会议系统的显示视频。参会者通过佩戴偏振、快门或红蓝眼镜便可观看到采集端的会场场景。在传统的立体视频会议系统中,参会者需要佩戴辅助观看设备,且获取的信息仅有左右两幅视差图像的信息,参会者的观看自由度较低,获取的信息量有限。
技术实现要素:
本发明旨在实现一种高沉浸感、高自由度、大信息量、低传输带宽且采集装置简单的裸眼立体视频会议系统。
为了达到上述目的,本发明提出一种基于网络深度相机的裸眼立体视频会议系统,如附图1所示。该系统由采集/显示端I、视频传输系统和采集/显示端II三部分组成,其中采集/显示端I包括网络深度相机和裸眼立体显示器,视频传输系统包括数据发送/接收服务器I、因特网和数据发送/接收服务器II,采集/显示端II包括网络深度相机和裸眼立体显示器。该系统同时工作于A、B两种工作状态。
工作状态A:采集/显示端I的网络深度相机采集会场I场景,并将采集到的深度视频和彩色视频进行同步、压缩和编码,输入视频传输系统,数据发送/接收服务器I向特定的IP地址和特定的端口发送编码后的视频数据;在数据发送/接收服务器II的对应端口读取经过因特网传输的深度视频和彩色视频,并将其进行解码、解压和立体合成,进而生成裸眼立体视频,输入到采集/显示端II的裸眼立体显示器,以供会场II的观看者观看。
工作状态B:采集/显示端II的网络深度相机采集会场II场景,同时将得到的深度视频和彩色视频进行与工作状态A相同的处理,输入视频传输系统;在数据发送/接收服务器I的对应端口接收,生成供会场I的观看者观看的裸眼立体视频。
所述本发明的采集端,包括采集/显示端I和采集/显示端II的采集设备,利用深度相机获取会场三维场景的深度视频和彩色视频,同时对其进行同步。假设在时间为t的时刻,获取的对应深度视频帧为D(x, y),获取的对应彩色视频帧为V(x, y),其中,(x, y)为深度视频帧和彩色视频帧的像素坐标。本发明根据裸眼立体视频会议系统对视频帧率和视频质量要求,按照两种方式同步深度视频和彩色视频。若对视频帧率要求高,则将深度视频帧和彩色视频帧合成DV格式,简称DV帧,合成函数为:
(1)
其中,Dcol为深度视频帧的水平分辨率。若对视频质量要求高,则将深度视频帧和彩色视频帧合成RGBD格式,简称RGBD帧,合成函数为:
(2a)
(2b)
(2c)
(2d)
其中,V(x, y)为RGB三通道图像,D(x, y)为单通道图像,R、G、B、D分别为RGBD帧的四个独立通道。
所述本发明的视频传输系统,将得到的DV帧或RGBD帧通过压缩算法进行压缩,得到对应的压缩数据,同时将压缩数据利用因特网传输控制协议发送到具有特定IP地址的显示端,显示端在特定端口上接收压缩数据,本发明提出的视频传输系统的数据处理流程如附图3所示。根据裸眼立体视频会议系统数据量大的特点,本发明采用面向无连接的通讯协议(UDP);为了保证视频质量,本发明采用标志位与计数器相结合的方式,在视频传输系统的末端对接收数据进行甄别和剔除,以避免网络丢包对裸眼立体视频的影响。每帧压缩数据以字节为单位,每帧图像的压缩数据字节长度不固定,假设其长度为C,视频传输系统将每个发送包的大小设置为S,则每帧发送包的个数N为:
(3)
其中,floor为向下取整函数。最后一个发送包大小不足S,其大小Srem为:
(4)
其中,mod为取余函数。在本发明的视频传输系统中,对前N-1个发送包设置标志位为1,对第N个发送包设置标志位为2,同时对所有发送包设置当前发送帧的字节长度C。在本发明的视频传输系统中,根据显示端的IP地址和接收端口号,设置视频传输地址结构体,并由此确定裸眼立体视频数据在因特网上的传输去向。
所述本发明的显示端,包括采集/显示端I和采集/显示端II的显示设备,显示端在视频传输地址结构体中分离出接收端口号,并在该端口号获取经因特网发送过来的裸眼立体视频数据,该数据以数据包的形式接收。进而对接收到的数据包标志位进行判断,并更新接收的数据包计数器。当数据包标志位为2,且数据包计数器等于N + 1时,显示端对接收到的数据进行组包,构成压缩后的视频帧数据。由于接收到的数据经过了视频传输系统的压缩和编码,因此在显示端需要对其进行对应的解码和解压,进而得到完整的DV帧或RGBD帧。利用视差图像的方向性映射方法,根据显示端的裸眼立体显示器的显示参数,生成显示端所需要的视差图像序列,利用立体图像合成算法,生成亚像素精度的立体图像,用于裸眼立体视频会议系统显示端的显示。
本发明提出的一种基于网络深度相机的裸眼立体视频会议系统,该系统同时工作于A、B两种工作状态,在两种工作状态中,采集端、视频传输系统和显示端的硬件设备相同,但两种工作状态的数据传输方向相反。该系统利用采集端对会场进行实时采集,利用视频传输系统对采集得到的视频实时同步、压缩、编码和传输,在具有特定IP地址的显示端实时接收因特网传来的数据,并将其解码、解压和立体合成,进而生成裸眼立体视频,在裸眼立体显示器上显示,以供参会者观看。该系统是一种高沉浸感、高自由度、大信息量、低传输带宽且采集装置简单的裸眼立体视频会议系统。
附图说明
附图1为一种基于网络深度相机的裸眼立体视频会议系统框架图
附图2为本发明提出的系统工作状态A和工作状态B
附图3为本发明提出的视频传输系统数据处理流程图
附图4为一种基于网络深度相机的裸眼立体视频会议系统实施例
上述附图中的图示标号为:
1工作状态A,2工作状态B,3会场I观看者,4采集/显示端I,5裸眼立体显示器,6网络深度相机,7视频传输系统,8数据发送/接收服务器I,9因特网,10数据发送/接收服务器II,11采集/显示端II,12会场II观看者,13采集/显示端II的裸眼立体显示器,14采集/显示端II的网络深度相机,15 DV帧,16 RGBD帧,17接收IP地址和端口号,18压缩数据,19标志位,20发送帧的字节长度,21解压后的DV帧。
应该理解上述附图只是示意性的,并没有按比例绘制。
具体实施方式
下面详细说明本法明的一种基于网络深度相机的裸眼立体视频会议系统的一个典型实施例,对本发明进行进一步的具体描述。有必要在此指出的是,以下实施例只用于本发明做进一步的说明,不能理解为对本发明保护范围的限制,该领域技术熟练人员根据上述本发明内容对本发明做出一些非本质的改进和调整,仍属于本发明的保护范围。
本发明提出一种基于网络深度相机的裸眼立体视频会议系统。所述系统包括采集/显示端I、视频传输系统和采集/显示端II三部分组成,其中采集/显示端I包括网络深度相机和裸眼立体显示器,视频传输系统包括数据发送/接收服务器I、因特网和数据发送/接收服务器II,采集/显示端II包括网络深度相机和裸眼立体显示器。该系统同时工作于A、B两种工作状态,系统框架如附图1所示。
工作状态A:采集/显示端I利用网络Kinect相机作为采集端,对会场I三维场景进行实时采集,将采集到的深度视频和彩色视频进行同步、压缩和编码,输入视频传输系统,向IP地址为192.168.1.3的服务端的6000端口发送,在该实施例中,压缩算法采用JPEG(Joint Photographic Experts Group)压缩标准进行压缩;采集/显示端II的显示设备为自由立体显示器,在采集/显示端II的6000端口读取经过因特网传输的深度视频和彩色视频,并将其进行解码、解压和立体合成,进而生成裸眼立体视频,输入到自由立体显示器,以供会场II参会者观看。
工作状态B:采集/显示端II同样利用网络Kinect相机作为采集端,采集会场II场景,同时将得到的深度视频和彩色视频进行与工作状态A相同的处理,输入视频传输系统;在数据发送/接收服务器I的对应端口接收,并经解码、解压和立体合成,生成供会场I的观看者观看的裸眼立体视频。
本实施例中的采集端,包括采集/显示端I和采集/显示端II的采集设备,利用网络Kinect相机获取会场三维场景的深度视频和彩色视频,同时对其进行同步,假设在时间为t的时刻,获取的对应深度视频帧为D(x, y),获取的对应彩色视频帧为V(x, y),其中,(x, y)为深度视频帧和彩色视频帧的像素坐标。根据裸眼立体视频会议系统对视频帧率和视频质量要求,按照两种方式同步深度视频和彩色视频。若对视频帧率要求高,则将深度视频帧和彩色视频帧合成DV格式,简称DV帧,合成函数为:
(1)
其中,Dcol为深度视频帧的水平分辨率。若对视频质量要求高,则将深度视频帧和彩色视频帧合成RGBD格式,简称RGBD帧,合成函数为:
(2a)
(2b)
(2c)
(2d)
其中R、G、B、D分别为RGBD帧的四个独立通道。将得到的DV帧或RGBD帧通过JPEG压缩算法进行压缩,得到对应的压缩数据。将压缩数据输入视频传输系统,进行因特网传输。
所述本发明的视频传输系统,将得到的DV帧或RGBD帧通过压缩算法进行压缩,得到对应的压缩数据。同时将采集端采集的压缩数据利用UDP发送到IP地址为192.168.1.3的显示端,显示端在6000端口上接收压缩数据,本实施例的视频传输系统的数据处理流程如附图3所示。为了保证视频质量,该实施例中采用标志位与计数器相结合的方式,在视频传输系统的末端对接收数据进行甄别和剔除,以避免网络丢包对裸眼立体视频的影响。每帧压缩数据以字节为单位,每帧图像的压缩数据字节长度不固定,其长度为C = 336484字节,视频传输系统将每个发送包的大小设置为S = 1024字节,则每帧发送包的个数N为:
(3)
其中,floor为向下取整函数,N = 329。最后一个发送包大小不足S,其大小Srem为:
(4)
其中,mod为取余函数,Srem = 612字节。在本发明的视频传输系统中,对前328个发送包设置标志位为1,对第329个发送包设置标志位为2,同时对所有发送包设置当前发送帧的字节长度C = 336484字节。在本发明的视频传输系统中,根据显示端的IP地址和接收端口号,设置视频传输地址结构体,并由此确定裸眼立体视频数据在因特网上的传输去向。
所述本发明的显示端,包括采集/显示端I和采集/显示端II的显示设备,显示端在视频传输地址结构体中分离出接收端口号,并在该端口号获取经因特网发送过来的裸眼立体视频数据,该数据以数据包的形式接收。进而对接收到的数据包标志位进行判断,并更新接收的数据包计数器。当数据包标志位为2,且数据包计数器等于330时,显示端对接收到的数据进行组包,构成压缩后的视频帧数据。由于接收到的数据经过了视频传输系统的压缩和编码,因此在显示端需要对其进行对应的解码和解压,进而得到完整的DV帧或RGBD帧。利用视差图像的方向性映射方法,根据显示端的自由立体显示器的显示参数,生成显示端所需要的视差图序列,利用立体图像合成算法,生成亚像素精度的立体图像,用于裸眼立体视频会议系统显示端的显示,该实施例如附图4所示。
本实施例实现的一种基于网络深度相机的裸眼立体视频会议系统,该系统同时工作于A、B两种工作状态,利用采集端对会场进行实时采集,利用视频传输系统对采集得到的视频实时同步、压缩、编码和传输,在具有特定IP地址的显示端实时接收因特网传来的数据,并将其解码、解压和立体合成,进而生成裸眼立体视频,在裸眼立体显示器上显示,以供参会者观看。该系统是一种高沉浸感、高自由度、大信息量、低传输带宽且采集装置简单的裸眼立体视频会议系统。