一种实时全景直播系统及方法与流程

文档序号:14451000阅读:1162来源:国知局

本发明属于全景摄像和直播技术领域,具体涉及一种实时全景直播系统及方法。



背景技术:

随着网络技术的不断发展,视频直播越来越受大众的欢迎,涉及的领域包括游戏、体育、社交、财经投资、娱乐现场、股票金融、校园、旅游、音乐现场、婚庆、在线教育、创业路演、招聘、亲子、健身、电子商务、医疗以及各类直播服务提供等数十个领域。由互联网以及流媒体技术进行直播,从而能够实时、全面地传播视频。

目前,vr直播大都采用全景摄像机,全景摄像机的视野范围比普通摄像机大,通常认为水平视野达到360度,垂直视野达到及超过180度,可以满足一个场所的全景录像。全景相机需要在机内完成视频采集,视频处理,视频编码和推流等处理,在进行全景直播时,需要一台高性能的本地服务器,并推送到直播平台服务器进行直播;有的甚至需要在平台服务器端进行二次转码,才能在客户端实现3d或vr直播。

另外,观看全景直播时,由于全景图像是映射在一个球面上实现3d或vr显示,显示面积比传统的4:3或16:9的平面大得多,高清分辨率已无法提供足够的像素密度保证画面的清晰度。



技术实现要素:

现有技术中,全景直播系统接入设备多、系统架构复杂、直播流程复杂,存在视频直播分辨率较低、视角有限、实时性较差、直播不稳定等问题,为了解决这种问题,本发明提供一种实时全景直播系统,具体方案如下:

一种实时全景直播系统,该系统包括:

全景相机镜头模组,用于采集视频数据;

fpga芯片,与所述全景相机镜头模组相连,以接收全景相机镜头模组所采集的视频数据,并对所述视频数据进行图像拼接处理;

麦克风,用于采集音频数据;

视频处理芯片,分别与所述fpga芯片和麦克风相连,用于接收音频数据和图像拼接处理的视频数据并分别进行压缩编码,以封装成包含视频和音频的标准格式的多媒体流文件;以及

通讯模块;与所述视频处理芯片相连,用于将多媒体流文件推送出去实现直播。

其中,在上述系统中,所述全景相机镜头模组包括4个鱼眼摄像头,以及与每个鱼眼摄像头相对应的图像传感器;四个鱼眼摄像头间隔90度固定在同一水平面,且各鱼眼摄像头的相对位置固定不变。

其中,在上述系统中,所述系统还包括陀螺仪,所述陀螺仪用于采集全景相机镜头模组围绕预设轴向的旋转角速率,并发送给所述视频处理芯片以计算全景摄像机当前的空间姿态,并计算出全景直播图像。

其中,在上述系统中,所述系统还包括hdmi处理模块,所述hdmi处理模块用于实时地输出4k高清图像,所述hdmi处理模块还附带有音频输出。

其中,在上述系统中,所述通讯模块的网络连接为无线局域网和/或有线广域网;

当所述网络连接为无线局域网时,所述通讯模块与安装有相机app的用户终端通过无线局域网进行通讯连接,以使得终端用户通过相机app对全景摄像机进行调节设置;

当所述网络连接为有线广域网时,所述通讯模块通过网线连接路由器并接入广域网,并与广域网中的直播平台服务器建立通讯连接,以使得终端用户通过浏览器插件或直播app在客户端采用3d/vr方式进行全景直播观看。

本发明的实时全景直播系统,利用fpga芯片对原始视频数据进行处理,相对于嵌入式处理器,fpga芯片是并行运作的,单个时钟周期内能进行大量的操作,特别适用于视频图像处理,且fpag具有功耗低的特点,采用fpga芯片作为处理的核心将在功耗和成本都得到降低。

本发明的实时全景直播系统,解决了现有直播系统接入设备多,系统架构复杂、直播流程复杂、视频直播分辨率较低、实时性较差、直播不稳定等问题,其机身小巧,便于随身携带,具有超高清画质,适合企业、个人、现场新闻报道等各种场合。

本发明的实时全景直播系统,根据直播平台的协议自适应地设置直播图像分辨率、码率等参数,无需全景直播平台服务器进行二次转码,大大降低了直播过程中的延时,终端用户用其现有的浏览器插件或直播app直接可以在客户端用3d/vr方式进行全景直播观看,若佩戴vr眼镜,将获得具有震撼力的现场感、沉浸感的视听感受。

根据本发明的另一个方面,本发明还提供了一种实时全景直播方法,包括如下步骤:

步骤s1,直播初始化设置;

步骤s2,通过fpga芯片实时读取每路鱼眼摄像头所采集的视频数据,并对视频数据进行图像拼接;

步骤s3、实时对视频、音频进行编码,并将编码后的音视频进行封装以转换成多媒体流;

步骤s4、实时推送用于全景直播的多媒体流至cdn云端,以使用户终端通过连接cdn云端中的流媒体服务器以实现全景播放。

其中,在上述方法中,所述步骤s1中直播初始化设置具体包括:

通过网线连接全景摄像机与有线路由器,并通过路由器接入到广域网中,以建立直播所需的网络协议连接;

通过无线局域网连接相机app与全景摄像机,根据流媒体服务器协议,在相机app中设置全景相机内部的直播参数,所述直播参数包括直播全景视频的分辨率、码率,以及在相机app中输入cdn云端提供的唯一的直播id及流媒体服务器地址,建立全景摄像机与所述流媒体服务器的协议连接。

其中,在上述方法中,所述步骤s2中通过fpga芯片对视频数据进行图像拼接包括:

步骤s21,采用坐标映射表进行图像畸变矫正;

具体包括:步骤s211,对给定的实时全景直播系统,利用棋盘格标定方法计算出各个鱼眼摄像头的内参数和畸变系数,以及相邻鱼眼摄像头之间的空间关系参数;

步骤s212:利用鱼眼摄像头的内参数和畸变系数以及镜头之间的空间关系参数计算出原始图像与目标图像之间的坐标映射表,坐标映射表保存了各个鱼眼摄像头所采集的原始图像与经过图像拼接方法形成的目标图像中像素点坐标之间的一对多的对应关系,其中,目标图像为去畸变的图像;

步骤s213:根据所述的坐标映射表将各个鱼眼镜头拍摄到的原始图片映射到目标图像上,将所述目标图像中的像素点作为目标像素点,利用所述预设坐标映射表,确定所述目标像素点与所述待处理原始图像上的源像素点的对应关系;

其中,在原始图像中查找与目标像素点相对应的源像素点的计算方法如下:

dst(x,y)=src(lut_x(x,y),lut_y(x,y))

其中,dst(x,y)表示坐标为(x,y)的目标像素点,lut_x(x,y)表示目标像素点坐标(x,y)经过预设坐标映射表映射到源图像中x方向上的坐标值,lut_y(x,y)表示目标像素点坐标(x,y)经过预设坐标映射表映射到源图像中y方向上的坐标值,src(lut_x(x,y),lut_y(x,y))表示目标像素点坐标(x,y)经过预设坐标映射表映射到源图像中的位置;

所述计算出来的坐标映射表由于各个原始图像中相邻两张图片之间存在一定的重叠区域,对于重叠区域,预设坐标映射表为其保存两组对应关系;

判断目标像素点是否位于重叠区域,利用所述目标像素点确定出的所述源像素点的数目是否唯一;如果所述数目唯一,则判定所述目标像素点未位于所述重叠区域;否则判定所述目标像素点位于所述重叠区域;

步骤s22,矫正的图像进行线性加权融合;

具体包括:采用线性加权的方法对重叠区域的两个源像素点的像素值做α混合得到混合像素值,计算方法如下:

idst(x,y)=α×isrc1(x,y)+(1-α)×isrc2(x,y)

其中,idst(x,y)表示目标图像中坐标(x,y)处的像素值,isrc1(x,y)表示原始图像1中坐标(x,y)处的像素值,isrc2(x,y)表示原始图像2中坐标(x,y)处的像素值,α表示加权系数。

其中,在上述方法中,所述步骤s3中实时对视频、音频进行编码,并将编码后的音视频进行封装以转换成多媒体流具体包括:

全景摄像机获得视频数据进行全景图像拼接后,利用视频处理芯片对视频进行视频编码、对麦克风采集的音频进行音频编码,以及对音视频进行封装;

所述视频编码采用主流的视频编码格式对全景直播视频进行编码;

所述音频编码采用主流的音频编码格式对音频进行编码;

所述对音视频进行封装是将编码后的视频和音频按照mp4(mpeg-4)的标准格式转换成多媒体流。

其中,在上述方法中,所述步骤s4中实时推送用于全景直播的多媒体流至cdn云端,以使用户终端通过连接cdn云端中的流媒体服务器以实现全景播放具体包括:

推送流媒体是通过rtmp/rtsp等协议实时将封装的多媒体流推送至cdn云端

根据直播平台协议,通过相机app自适应地设置直播图像分辨率和码率,并且在相机app中输入cdn云端提供的唯一的直播id及流媒体服务器地址,用户终端向所述流媒体服务器发送连接请求,经过预设的并在互相认证后建立全景摄像机与所述流媒体服务器的协议连接。

本发明的实时全景直播方法,利用fpga芯片对原始视频数据进行处理,相对于嵌入式处理器,fpga芯片是并行运作的,单个时钟周期内能进行大量的操作,特别适用于视频图像处理,且fpag具有功耗低的特点,采用fpga芯片作为处理的核心将在功耗和成本都得到降低。

本发明的实时全景直播方法,解决了现有直播系统接入设备多、系统架构复杂、直播流程复杂、视频直播分辨率较低、视角有限、实时性较差、直播不稳定等问题,而且机身小巧,便于随身携带,超高清画质,适合企业、个人、现场新闻报道等各种场合。

本发明的实时全景直播方法,根据直播平台的协议自适应地设置直播图像分辨率、码率等参数,无需全景直播平台服务器进行二次转码,大大降低了直播过程中的延时,终端用户用其现有的浏览器插件或app直接可以在客户端用3d/vr方式进行全景直播观看,若佩戴vr眼镜,将获得具有震撼力的现场感、沉浸感的视听感受。

附图说明

图1是本发明实时全景直播系统提供的一实例的系统结构示框图;

图2是本发明实时全景直播方法提供的一实例的方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。

目前,vr直播大都采用全景摄像机,全景摄像机的视野范围比普通摄像机大,通常认为水平视野达到360度,垂直视野达到及超过180度,可以满足一个场所的全景录像。全景相机需要在机内完成视频采集,视频处理,视频编码和推流等处理,在进行全景直播时,需要一台高性能的本地服务器,并推送到直播平台服务器进行直播;有的甚至需要在平台服务器端进行二次转码,才能在客户端实现3d或vr直播。

另外,观看全景直播时,由于全景图像是映射在一个球面上实现3d或vr显示,显示面积比传统的4:3或16:9的平面大得多,高清分辨率已无法提供足够的像素密度保证画面的清晰度。

为了解决现有直播系统接入设备多、系统架构复杂、直播流程复杂、视频直播分辨率较低、视角有限、实时性较差、直播不稳定等问题,本发明提供一种实时全景直播系统及方法。

本发明提供的实时全景直播系统,如图1所示,具体包括:

全景相机镜头模组,用于采集视频数据;

fpga芯片,与所述全景相机镜头模组相连,以接收全景相机镜头模组所采集的视频数据,并对所述视频数据进行图像拼接处理;

麦克风,用于采集音频数据;

视频处理芯片,分别与所述fpga芯片和麦克风相连,用于接收音频数据和图像拼接处理的视频数据并分别进行压缩编码,以封装成包含视频和音频的标准格式的多媒体流文件;以及

通讯模块;与所述视频处理芯片相连,用于将多媒体流文件推送出去实现直播。

上述系统中,所述全景相机镜头模组包括4个鱼眼摄像头,以及与每个鱼眼摄像头相对应的图像传感器;四个鱼眼摄像头间隔90度固定在同一水平面,且各鱼眼摄像头的相对位置固定不变,因此,该系统所采集的图像质量较高,且不会出现旋转、不在同一水平面等图像拼接不起来的情况。

上述系统中,所述系统还包括陀螺仪,所述陀螺仪用于采集全景相机镜头模组围绕预设轴向的旋转角速率,并发送给所述视频处理芯片以计算全景摄像机当前的空间姿态,并计算出全景直播图像。

上述系统中,所述系统还包括hdmi处理模块,所述hdmi处理模块用于实时地输出4k高清图像,所述hdmi处理模块还附带有音频输出,具体实施中,hdmi处理模块输出的4k音视频数据可作为直播的原始输入视频流。

上述系统中,所述通讯模块的网络连接为无线局域网和/或有线广域网;

所述网络连接为无线局域网时,所述通讯模块与安装有相机app的用户终端通过无线局域网进行通讯连接,以使得终端用户通过相机app对全景摄像机进行调节设置,所示无线局域网为wifi无线网;

所述网络连接为有线广域网时,所述通讯模块通过网线连接路由器并接入广域网,并与广域网中的直播平台服务器建立通讯连接,以使得终端用户通过浏览器插件或直播app在客户端采用3d/vr方式进行全景直播观看。

本发明的实时全景直播系统,利用fpga芯片对原始视频数据进行处理,相对于嵌入式处理器,fpga芯片是并行运作的,单个时钟周期内能进行大量的操作,特别适用于视频图像处理,且fpag具有功耗低的特点,采用fpga芯片作为处理的核心将在功耗和成本都得到降低。

本发明的实时全景直播系统,解决了现有直播系统接入设备多,系统架构复杂、直播流程复杂、视频直播分辨率较低、实时性较差、直播不稳定等问题,其机身小巧,便于随身携带,具有超高清画质,适合企业、个人、现场新闻报道等各种场合。

本发明的实时全景直播系统,根据直播平台的协议自适应地设置直播图像分辨率(4k或者1080p)、码率(2m、4m、8m)等参数,无需全景直播平台服务器进行二次转码,大大降低了直播过程中的延时,终端用户用其现有的浏览器插件或直播app直接可以在客户端用3d/vr方式进行全景直播观看,若佩戴vr眼镜,将获得具有震撼力的现场感、沉浸感的视听感受。

本发明提供的实时全景直播方法,如图2所示,包括如下步骤:

步骤s1,直播初始化设置;

步骤s2,通过fpga芯片实时读取每路鱼眼摄像头所采集的视频数据,并对视频数据进行图像拼接;

步骤s3、实时对视频、音频进行编码,并将编码后的音视频进行封装以转换成多媒体流;

步骤s4、实时推送用于全景直播的多媒体流至cdn云端,以使用户终端通过连接cdn云端中的流媒体服务器以实现全景播放。

上述方法中,所述步骤s1中直播初始化设置具体包括:

通过网线连接全景摄像机与有线路由器,并通过路由器接入到广域网中,以建立直播所需的网络协议连接;

通过无线局域网连接相机app与全景摄像机,根据流媒体服务器协议,在相机app中设置全景相机内部的直播参数,所述直播参数包括直播全景视频的分辨率、码率,以及在相机app中输入cdn云端提供的唯一的直播id及流媒体服务器地址,建立全景摄像机与所述流媒体服务器的协议连接。

进一步地,通过相机app还可以设置全景摄像机的多拼接模式、图像isp处理、操作提示音等其他参数。

上述方法中,其中,在上述方法中,所述步骤s2中通过fpga芯片对视频数据进行图像拼接包括:

步骤s21,采用坐标映射表进行图像畸变矫正;

步骤s22,矫正的图像进行线性加权融合。

其中,在上述方法中,步骤s21具体包括:

步骤s211,对给定的实时全景直播系统,利用棋盘格标定方法计算出各个鱼眼摄像头的内参数和畸变系数,以及相邻鱼眼摄像头之间的空间关系参数;

步骤s212:利用鱼眼摄像头的内参数和畸变系数以及镜头之间的空间关系参数计算出原始图像与目标图像之间的坐标映射表,坐标映射表保存了各个鱼眼摄像头所采集的原始图像与经过图像拼接方法形成的目标图像中像素点坐标之间的一对多的对应关系,其中,目标图像为去畸变的图像;

步骤s213:根据所述的坐标映射表将各个鱼眼镜头拍摄到的原始图片映射到目标图像上,将所述目标图像中的像素点作为目标像素点,利用所述预设坐标映射表,确定所述目标像素点与所述待处理原始图像上的源像素点的对应关系;

其中,在原始图像中查找与目标像素点相对应的源像素点的计算方法如下:

dst(x,y)=src(lut_x(x,y),lut_y(x,y))

其中,dst(x,y)表示坐标为(x,y)的目标像素点,lut_x(x,y)表示目标像素点坐标(x,y)经过预设坐标映射表映射到源图像中x方向上的坐标值,lut_y(x,y)表示目标像素点坐标(x,y)经过预设坐标映射表映射到源图像中y方向上的坐标值,src(lut_x(x,y),lut_y(x,y))表示目标像素点坐标(x,y)经过预设坐标映射表映射到源图像中的位置;

所述计算出来的坐标映射表由于各个原始图像中相邻两张图片之间存在一定的重叠区域,对于重叠区域,预设坐标映射表为其保存两组对应关系;

判断目标像素点是否位于重叠区域,利用所述目标像素点确定出的所述源像素点的数目是否唯一;如果所述数目唯一,则判定所述目标像素点未位于所述重叠区域;否则判定所述目标像素点位于所述重叠区域。

其中,在上述方法中,步骤s22具体包括;

采用线性加权的方法对重叠区域的两个源像素点的像素值做α混合得到混合像素值,计算方法如下:

idst(x,y)=α×isrc1(x,y)+(1-α)×isrc2(x,y)

其中,idst(x,y)表示目标图像中坐标(x,y)处的像素值,isrc1(x,y)表示原始图像1中坐标(x,y)处的像素值,isrc2(x,y)表示原始图像2中坐标(x,y)处的像素值,α表示加权系数。

本发明中,采用线性加权的方法可以使得重叠部分左边图像“渐出”,而重叠部分右边图像“渐入”,这就实现了平缓的过度,使得图像拼接看起来自然。

线性加权的方法需要在图像融合前确定融合的区域,在本发明实施例中选取的融合宽度为128个像素,然后选出一条尽可能理想的融合线,在本发明实施例中,采用的是动态规划的方法计算融合线,当然,融合宽度还可以选取其它的像素点数。

上述方法中,所述步骤s3中实时对视频、音频进行编码,并将编码后的音视频进行封装以转换成多媒体流具体包括:

全景摄像机获得视频数据进行全景图像拼接后,利用视频处理芯片对视频进行视频编码、对麦克风采集的音频进行音频编码,以及对音视频进行封装;

所述视频编码采用主流的视频编码格式对全景直播视频进行编码;

所述音频编码采用主流的音频编码格式对音频进行编码;

所述对音视频进行封装是将编码后的视频和音频按照mp4(mpeg-4)的标准格式转换成多媒体流。

上述方法中,所述步骤s4中实时推送用于全景直播的多媒体流至cdn云端,以使用户终端通过连接cdn云端中的流媒体服务器以实现全景播放具体包括:

推送流媒体是通过rtmp/rtsp等协议实时将封装的多媒体流推送至cdn云端

根据直播平台协议,通过相机app自适应地设置直播图像分辨率(4k或者1080p)和码率(2m、4m、8m),并且在相机app中输入cdn云端提供的唯一的直播id及流媒体服务器地址,用户终端向所述流媒体服务器发送连接请求,经过预设的并在互相认证后建立全景摄像机与所述流媒体服务器的协议连接。

进一步,当需要停止直播时,在相机app中终止直播所需的协议连接即可,具体是指当需要停止直播时,向cdn云端的流媒体服务器发送停止请求,中断全景摄像机与流媒体服务器的协议连接。

本发明的实时全景直播方法,利用fpga芯片对原始视频数据进行处理,相对于嵌入式处理器,fpga芯片是并行运作的,单个时钟周期内能进行大量的操作,特别适用于视频图像处理,且fpag具有功耗低的特点,采用fpga芯片作为处理的核心将在功耗和成本都得到降低。

本发明的实时全景直播方法,解决了现有直播系统接入设备多、系统架构复杂、直播流程复杂、视频直播分辨率较低、视角有限、实时性较差、直播不稳定等问题,而且机身小巧,便于随身携带,超高清画质,适合企业、个人、现场新闻报道等各种场合。

本发明的实时全景直播方法,根据直播平台的协议自适应地设置直播图像分辨率、码率等参数,无需全景直播平台服务器进行二次转码,大大降低了直播过程中的延时,终端用户用其现有的浏览器插件或app直接可以在客户端用3d/vr方式进行全景直播观看,若佩戴vr眼镜,将获得具有震撼力的现场感、沉浸感的视听感受。

应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1