一种基于自由视点的体感交互导播系统及方法

文档序号：6429664阅读：370来源：国知局

专利名称：一种基于自由视点的体感交互导播系统及方法
技术领域：
本发明属于计算机视觉领域，特别是一种基于自由视点视频的体感交互导播系统及实现方法，更具体的是一种观众通过体感交互设备进行人机交互，实现网络自由视点视频的体感交互导播系统及实现方法。
背景技术：
视频/影视系统已成为当前信息化社会中最具影响力的大众传播媒体。传统视频 /影视系统中，观众只能被动地接受拍摄者或导播员的视角选择或镜头切换，且在视角或镜头切换时存在视点位置和视频画面的跳跃，导致观众缺乏观看时的临场感和现场感。随着近年来数字多媒体技术的快速发展，人们对于视频观看过程中的自主性及感官体验提出了更高的要求。在这种背景下，自由视点视频应运而生。自由视点视频通过多像机视频合成和虚拟视点插值等技术，可以提供场景任意角度和尺度的视频信息，使得观看过程中具有更好的自由度和三维沉浸感。现有的自由视点视频技术根据基本原理可分为两类。第一种是基于三维模型的方法，为得到场景中任意视点的图像，需将场景进行三维建模，然后根据选择的视点位置，通过三维重投影技术生成虚拟视点图像。该方法主要缺点在于难以实时获取精确的三维动态场景模型。第二种是基于二维图像插值方法，该方法是根据选择的视点位置，从已得到的离散视点图像中选取相邻视点图像，通过插值技术合成生成一幅虚拟视点图像。该方法特点在于无需考虑实际场景中的几何信息。随着我国“三网合一”的产业发展趋势和网络视频技术的突破性发展，交互式视频已逐渐成为全球新一代多媒体数字影视和数字娱乐技术的主流。鼠标、键盘、触摸屏等设备已成为目前网络视频直播/点播系统中必不可少的人机交互设备，然而这些传统交互设备存在距离受限、交互过程不直观、不灵活等局限性。近期提出体感控制技术(如微软Kinect 设备)为人机交互方式提供了创新性变革，非接触式且无需任何操作的交互方式已成为发展趋势。

发明内容
本发明针对传统视频/影视系统的不足和局限性，通过融合自由视点生成技术、网络流媒体传输技术和体感交互技术，实现一种体感交互导播系统及实现方法，使得观众可完全自主地选择观看的视点，具有更强的现场感和临场感的观看体验。为实现上述目的，本发明采取以下技术方案一种基于自由视点的体感交互导播方法，包括以下步骤
步骤(1)多路视频采集；所述的多路视频采集方法具体为
采用一个由5个CCD像机构成的多像机系统拍摄场景视频数据。5个像机从各自固定的视点方向同时拍摄，并将其视频数据分别上传至视频处理服务器；步骤(2)全景视频合成；所述的全景视频合成方法具体为
在视频处理服务器上，对5个像机在同一时刻采集到的视频帧，根据已事先离线标定的像机内外参数，使用图像拼接方法将其实时地合成全景视频帧，从而获得全景视频。所述的图像拼接方法为成熟技术；
步骤(3)采用H. 264图像编码标准将步骤(2)中合成的全景视频进行实时编码，并将编码完成后的H. 264码流通过局域网传输至RTSP流媒体服务器；
步骤(4) RTSP流媒体服务器对步骤(3)中传来的H. 264码流进行打包封装；同时以统一资源定位地址(URL)的形式发布视频链接，供客户端进行选择和点播；
步骤(5)客户端根据RTSP流媒体服务器发布的视频链接，向RTSP流媒体服务器请求视频服务，并建立一个新的视频服务流；
步骤(6)客户端从RTSP流媒体服务器上接收留流媒体数据，并进行RTSP解包和H. 264 解码，还原出全景视频；
步骤(7)通过步骤(9)、步骤(10)所述的交互方式进行虚拟视点定位，确定虚拟视点合成所需要的视频区域范围；
步骤(8)虚拟视点生成和显示；所述的虚拟视点生成和显示方法具体为
根据步骤(7)中得到的视频区域范围，将全景视频帧中相应区域通过坐标系映射至虚拟视点位置，并进行视点畸变校正和显示；所述的坐标系映射方法和视点畸变校正方法为成熟方法；
步骤(9)客户端通过体感传感器获取用户人体区域的深度和彩色图像序列；步骤(10)根据步骤(9)中深度和彩色图像序列提取人体骨架及其关键节点位置；所述的人体骨架和关键点提取方法为成熟方法；所述的步骤9和步骤10构成交互方式；
步骤(11)根据步骤(10)中所得到的人体骨架及其关键节点位置，分析识别用户手部关键节点的运动轨迹及动作；
步骤(12)根据步骤(11)中得到的用户手部动作与步骤(13)所述的预定义动作进行匹配，并进行相对应的导播操作，包括视频画面拉近/拉远，视点向左、向右的平滑移动等一系列交互式导播动作。步骤(13)系统预定义了一系列对应于不同导播操作的手部动作，其手部动作判断是根据手部关键节点坐标运动来确定。例如左手向左挥动表示视点向左平滑移动、左手向上挥动表示视频画面拉近、左手向下挥动表示视频画面拉远、右手向右挥动表示视点向右平滑移动。一种基于自由视点的体感交互导播系统，包括服务器端、视频传输网络和客户端三个部分；
所述服务器端根据视频数据处理顺序包括多像机系统、视频处理服务器、流媒体服务器。其中多像机系统与视频处理服务器通过高速的视频数据线连接，视频处理服务器和流媒体服务器之间通过基于TCP/IP协议的局域网相连；
所述视频传输网络是基于TCP/IP协议的局域网或广域网；
所述客户端包括自由视点播放终端和体感传感器。自由视点播放终端的操作系统需支持OpenGL，通过视频传输网络与流媒体服务器相连，其图形用户界面就是用户观看窗口。体感传感器用于获取用户手部姿态信息。体感传感器和自由视点播放终端间通过USB接口连接。所述服务器端包括视频处理服务器和流媒体服务器两个部分的软件。视频处理服务器软件包括多路视频数据采集模块、视频处理服务器端GUI用户界面、全景视频合成模块和H. 264标准视频编码模块以及总控模块。多路视频数据采集模块同步接收5个像机采集的视频数据，视频处理服务器端GUI用户界面为像机视频采集和全景视频合成的参数设置提供可视交互界面。全景视频合成模块将5个像机采集的视频数据，通过图像拼接算法实时地合成为全景视频。H. 264标准视频编码模块将全景视频进行H. 264标准的编码。总控模块包括实时监视各像机所采集的视频数据、实时监视全景视频合成结果、预览和模拟客户端虚拟视点生成结果、像机参数控制、视频录制控制等多项功能。流媒体服务器软件，主要是H. 264视频码流的RTSP封装打包、响应客户端视频请求服务、建立视频流等流媒体服务，以及网络视频资源文件的管理功能。包括对发布资源的增加、删除、修改的操作。所述客户端包括自由视点播放终端软件。自由视点播放终端软件包括视频接收解码模块、体感控制模块、自由视点生成模块和客户端GUI用户界面。视频接收解码模块完成视频流数据接收、RTSP解包和H. 264解码，并将解码后得到的全景视频传给自由视点生成模块。体感控制模块实现人体手部姿态识别，其处理过程如下通过分析从体感传感器中获取的深度和彩色图像序列，提取并分析人体骨架的关键节点坐标(如头、肩、手、膝盖等)，然后分析并识别用户手部关键节点坐标运动。自由视点生成模块根据体感控制模块中识别的用户手部运动，与预定义动作进行匹配，执行相应的导播操作，并计算待显示的虚拟视点位置，确定虚拟视点合成所需要的视频区域范围，然后将该视频区域通过坐标系映射至虚拟视点位置，并采用视点畸变校正生成无畸变的自由视点视频。客户端GUI用户界面为用户提供控制客户端软件的界面，也是自由视点视频最后显示的载体。本发明由于采用以上技术方案，具有以下优点1、本发明通过全景合成方法将同一时刻多个像机采集的一帧数据合成为一帧全景图像，可直接利用当前单视点二维视频的编码标准和传输技术，可节省软硬件投资和技术成本，并可应用于直播型实时编码和传输系统。2、本发明基于全景视频合成，通过体感交互导播可实现真正360°全场景的无缝漫游和自由切换。3、使用体感传感器实现交互式智能导播，用户对观看视点的选择具有完全自主性和独立性，自由视点技术保证了自主导播过程中视点切换的平滑性，增强了观看时的沉浸感和临场感。4、无需对场景进行三维建模，对服务器和客户端处理能力和性能的要求低。

图1是本发明中的系统结构图。图2是本发明摄像机镜头分布模式图。图3是本发明中的方法实现流程图。
具体实施例方式以下结合附图对本发明作进一步说明。中的方法实现流程图如图1所示，本发明一种基于自由视点的体感交互导播系统及方法由服务器端10、视频传输网络20、客户端30三个部分组成。其中服务器端包括多摄像机系统11、视频处理服务器12、流媒体服务器13三个组成部分。客户端包括自由视点播放终端31、体感传感器 32。视频传输网络是基于TCP/IP协议的局域网或广域网21。如图2所示，多摄像机系统11由5个位置固定的CXD像机组合而成。5个像机视角为水平方向分布，两个像机间的夹角72°，像机通过火线和视频处理服务器相连，实现多路视频的实时上传。如图3所示，本发明一种基于自由视点的体感交互导播系统及方法，其操作步骤如下
步骤(1)多路视频采集；所述的多路视频采集方法具体为
采用一个由5个CCD像机构成的多像机系统拍摄场景视频数据。5个像机从各自固定的视点方向同时拍摄，并将其视频数据分别上传至视频处理服务器；步骤(2)全景视频合成；所述的全景视频合成方法具体为
在视频处理服务器上，对5个像机在同一时刻采集到的视频帧，根据已事先离线标定的像机内外参数，使用图像拼接方法将其实时地合成全景视频帧，从而获得全景视频。所述的图像拼接方法为成熟技术；
步骤(3)采用H. 264图像编码标准将步骤(2)中合成的全景视频进行实时编码，并将编码完成后的H. 264码流通过局域网传输至RTSP流媒体服务器；
步骤(4) RTSP流媒体服务器对步骤(3)中传来的H. 264码流进行打包封装；同时以统一资源定位地址(URL)的形式发布视频链接，供客户端进行选择和点播；
步骤(5)客户端根据RTSP流媒体服务器发布的视频链接，向RTSP流媒体服务器请求视频服务，并建立一个新的视频服务流；
步骤(6)客户端从RTSP流媒体服务器上接收留流媒体数据，并进行RTSP解包和H. 264 解码，还原出全景视频；
步骤(7)通过步骤(9)、步骤(10)所述的交互方式进行虚拟视点定位，确定虚拟视点合成所需要的视频区域范围； (8)虚拟视点生成和显示；所述的虚拟视点生成和显示方法具体为
根据步骤(7)中得到的视频区域范围，将全景视频帧中相应区域通过坐标系映射至虚拟视点位置，并进行视点畸变校正和显示；所述的坐标系映射方法和视点畸变校正方法为成熟方法；
步骤(9)客户端通过体感传感器获取用户人体区域的深度和彩色图像序列；步骤(10)根据步骤(9)中深度和彩色图像序列提取人体骨架及其关键节点位置；所述的人体骨架和关键点提取方法为成熟方法；
步骤(11)根据步骤(10)中所得到的人体骨架及其关键节点位置，分析识别用户手部关键节点的运动轨迹及动作；
步骤(12)根据步骤(11)中得到的用户手部动作与步骤(13)所述的预定义动作进行匹配，并进行相对应的导播操作，包括视频画面拉近/拉远，视点向左、向右的平滑移动等一系列交互式导播动作。步骤(13)系统预定义了一系列对应于不同导播操作的手部动作，其手部动作判断是根据手部关键节点坐标运动来确定。例如左手向左挥动表示视点向左平滑移动、左手向上挥动表示视频画面拉近、左手向下挥动表示视频画面拉远、右手向右挥动表示视点向右平滑移动。
权利要求
1.一种基于自由视点的体感交互导播方法，其特征在于该方法包括如下步骤步骤(1)多路视频采集；所述的多路视频采集方法具体为采用一个由5个CCD像机构成的多像机系统拍摄场景视频数据；5个像机从各自固定的视点方向同时拍摄，并将其视频数据分别上传至视频处理服务器；步骤(2)全景视频合成；所述的全景视频合成方法具体为在视频处理服务器上，对5个像机在同一时刻采集到的视频帧，根据已事先离线标定的像机内外参数，使用图像拼接方法将其实时地合成全景视频帧，从而获得全景视频；步骤(3)采用H. 264图像编码标准将步骤(2)中合成的全景视频进行实时编码，并将编码完成后的H. 264码流通过局域网传输至RTSP流媒体服务器；步骤(4) RTSP流媒体服务器对步骤(3)中传来的H. 264码流进行打包封装；同时以统一资源定位地址(URL)的形式发布视频链接，供客户端进行选择和点播；步骤(5)客户端根据RTSP流媒体服务器发布的视频链接，向RTSP流媒体服务器请求视频服务，并建立一个新的视频服务流；步骤(6)客户端从RTSP流媒体服务器上接收留流媒体数据，并进行RTSP解包和H. 264 解码，还原出全景视频；步骤(7)通过步骤(9)、步骤(10)所述的交互方式进行虚拟视点定位，确定虚拟视点合成所需要的视频区域范围；步骤(8)虚拟视点生成和显示；所述的虚拟视点生成和显示方法具体为根据步骤(7)中得到的视频区域范围，将全景视频帧中相应区域通过坐标系映射至虚拟视点位置，并进行视点畸变校正和显示；步骤(9)客户端通过体感传感器获取用户人体区域的深度和彩色图像序列；步骤(10)根据步骤(9)中深度和彩色图像序列提取人体骨架及其关键节点位置；所述的步骤9和步骤10构成交互方式；步骤(11)根据步骤(10)中所得到的人体骨架及其关键节点位置，分析识别用户手部关键节点的运动轨迹及动作；步骤(12)根据步骤(11)中得到的用户手部动作与步骤(13)所述的预定义动作进行匹配，并进行相对应的导播操作，包括视频画面拉近/拉远，视点向左、向右的平滑移动；步骤(13)系统预定义了一系列对应于不同导播操作的手部动作，其手部动作判断是根据手部关键节点坐标运动来确定。
2.一种基于自由视点的体感交互导播系统，其特征在于包括服务器端、视频传输网络和客户端三个部分；所述服务器端根据视频数据处理顺序包括多像机系统、视频处理服务器、流媒体服务器；其中多像机系统与视频处理服务器通过高速的视频数据线连接，视频处理服务器和流媒体服务器之间通过基于TCP/IP协议的局域网相连；所述视频传输网络是基于TCP/IP协议的局域网或广域网；所述客户端包括自由视点播放终端和体感传感器；自由视点播放终端的操作系统需支持OpenGL，通过视频传输网络与流媒体服务器相连，其图形用户界面就是用户观看窗口；体感传感器用于获取用户手部姿态信息；体感传感器和自由视点播放终端间通过USB接口连接；所述服务器端包括视频处理服务器和流媒体服务器两个部分的软件；所述视频处理服务器软件包括多路视频数据采集模块、视频处理服务器端GUI用户界面、全景视频合成模块和H. 264标准视频编码模块以及总控模块；所述多路视频数据采集模块同步接收5个像机采集的视频数据；所述视频处理服务器端GUI用户界面为像机视频采集和全景视频合成的参数设置提供可视交互界面；所述全景视频合成模块将5个像机采集的视频数据，通过图像拼接算法实时地合成为全景视频；所述H. 264标准视频编码模块将全景视频进行H. 264标准的编码；所述总控模块包括实时监视各像机所采集的视频数据、实时监视全景视频合成结果、预览和模拟客户端虚拟视点生成结果、像机参数控制、视频录制控制多项功能；所述流媒体服务器软件主要包括H. 264视频码流的RTSP封装打包、响应客户端视频请求服务、建立视频流等流媒体服务，以及网络视频资源文件的管理功能；包括对发布资源的增加、删除、修改的操作；所述客户端包括自由视点播放终端软件；所述自由视点播放终端软件包括视频接收解码模块、体感控制模块、自由视点生成模块和客户端GUI用户界面；所述视频接收解码模块完成视频流数据接收、RTSP解包和H. 264解码，并将解码后得到的全景视频传给自由视点生成模块；所述体感控制模块实现人体手部姿态识别，其处理过程如下通过分析从体感传感器中获取的深度和彩色图像序列，提取并分析人体骨架的关键节点坐标，然后分析并识别用户手部关键节点坐标运动；所述自由视点生成模块根据体感控制模块中识别的用户手部运动，与预定义动作进行匹配，执行相应的导播操作，并计算待显示的虚拟视点位置，确定虚拟视点合成所需要的视频区域范围，然后将该视频区域通过坐标系映射至虚拟视点位置，并采用视点畸变校正生成无畸变的自由视点视频；所述客户端GUI用户界面为用户提供控制客户端软件的界面，也是自由视点视频最后显示的载体。
全文摘要
本发明涉及一种基于自由视点的体感交互导播系统及方法。本发明包括服务器端、视频传输网络和客户端；服务器端包括多像机系统、视频处理服务器、流媒体服务器，完成多路视频采集、全景视频合成、H.264编码和RTSP流媒体服务；视频传输网络是基于TCP/IP协议的局域网或广域网；客户端包括自由视点播放终端和体感传感器，完成视频流媒体接收和解码、基于体感控制器的手势识别、自由视点生成等功能模块。本发明通过将多路视频合成全景视频，不仅可直接利用当前已成熟的视频编码和流媒体传输技术，节省软硬件投资和技术成本，而且可实现真正360°全场景的无缝漫游和视点自由切换。
文档编号G06K9/00GK102307309SQ20111021493
公开日2012年1月4日申请日期2011年7月29日优先权日2011年7月29日
发明者周文晖, 戴国骏, 曹洋, 楼斌, 江进, 郑俊浩, 金鑫申请人:杭州电子科技大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周文晖;郑俊浩;江进;金鑫;曹洋;楼斌;戴国骏
技术所有人：杭州电子科技大学
我是此专利的发明人

上一篇：人脸辨识智能型自助服务系统的制作方法
上一篇：一种服务器容量估算的方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。