一种基于深度神经网络的会议视频重建方法和系统与流程

文档序号:25786932发布日期:2021-07-09 10:58阅读:99来源:国知局
一种基于深度神经网络的会议视频重建方法和系统与流程

1.本发明涉及视频重建及压缩技术领域,具体涉及一种基于深度神经网络的会议视频重建方法和系统。


背景技术:

2.应用高度压缩数字视频编解码标准(如h.264、hevc等)的视频编解码器已经优化和调整了几十年,这些视频编解码器应用到视频会议中,能够重建出质量较高的视频画面,并且在带宽足够的前提下,能够确保视频会议的实时性,给用户带来了极佳的视频会议体验。但当带宽极其有限时,例如遇到网络拥塞或者无线网络覆盖不佳时,这些视频编解码器在非常低的比特率下便无法提供让人满意的性能,由此产生的视频质量变得不可接受,大大降低了视频会议体验。


技术实现要素:

3.本发明以在超低比特率下仍然能够提供较佳的视频质量为目的,提供了一种基于深度神经网络的会议视频重建方法。
4.为达此目的,本发明采用以下技术方案:
5.提供一种基于深度神经网络的会议视频重建方法,所述方法的具体步骤包括:
6.1)识别会议视频帧中的感兴趣区域和非感兴趣区域,并为对所述感兴趣区域和所述非感兴趣区域分配相对应的传输比特率;
7.2)利用深度神经网络将所述感兴趣区域中的运动信息编码为关键点位移;
8.3)将关键点位移编码信息和非感兴趣区域的编码信息分别按照预分配的比特率传输给视频解码器;
9.4)所述视频解码器对关联当前帧的所述关键点位移编码信息进行解码,并以解码信息扭曲初始帧f0中的对应关键点得到当前帧的重建帧;
10.5)将各所述重建帧按时间轴融合,得到重建后的会议视频。
11.作为本发明的一种优选方案,所述步骤2)中,将所述感兴趣区域中的运动信息以熵编码方式编码为关键点位移。
12.作为本发明的一种优选方案,视频帧中的关键点通过预先训练的u

net神经网络预测而得。
13.作为本发明的一种优选方案,步骤4)中,生成所述重建帧的方法步骤具体包括:
14.4.1)对初始帧的编码信息进行解码,得到重建后的初始帧f0以及所述初始帧f0上的若干个关键点k0,并对当前帧的关键点位移编码信息进行解码;
15.4.2)以解码到的当前帧的关键点位移去扭曲所述初始帧f0上对应的每个所述关键点k0,得到当前帧的重建帧ft。
16.作为本发明的一种优选方案,作为视频帧重建参考帧的所述初始帧为会议视频的首帧图像或重建的当前重建帧ft的上一重建帧f
t
‑1。
17.作为本发明的一种优选方案,采用bpg格式编解码器对所述初始帧进行视频编解码。
18.本发明还提供了一种基于深度神经网络的会议视频重建系统,所述系统包括:
19.区域识别模块,用于自动识别会议视频帧中的感兴趣区域和非感兴趣区域;
20.比特率分配模块,用于为所述感兴趣区域和所述非感兴趣区域的内容传输分配对应的比特率;
21.编码模块,用于将所述感兴趣区域中的运动信息编码为关键点位移,并将所述非感兴趣区域中的视频内容编码为对应的编码信息;
22.视频传输模块,连接所述比特率分配模块和所述编码模块,用于将所述关键点位移编码信息和所述非感兴趣区域的编码信息分别按照预分配的比特率传输给视频解码模块;
23.所述解码模块,连接所述视频传输模块,用于对所述关键点位移编码信息进行解码;
24.视频重建模块,连接所述解码模块,用于以解码得到的关键点位移扭曲初始帧f0中的每个对应关键点,得到当前帧的重建帧,并按时间轴融合各所述重建帧,得到重建后的会议视频。
25.作为本发明的一种优选方案,所述编码模块中包括:
26.初始帧编码单元,用于对作为视频帧重建的参考帧的所述初始帧进行编码;
27.熵编码单元,用于将每一视频帧中的所述感兴趣区域中的运动信息以熵编码方式编码为关键点位移。
28.作为本发明的一种优选方案,所述解码模块中具体包括:
29.初始帧解码单元,用于对所述初始帧的编码信息进行解码,得到重建后的初始帧f0以及所述初始帧f0上的若干个关键点k0;
30.关键点解码单元,用于对当前帧的所述关键点位移编码信息进行解码;
31.所述视频重建模块中具体包括:
32.关键点扭曲单元,用于以解码到的当前帧的关键点位移去扭曲所述初始帧f0上对应的每个关键点k0,得到当前帧的重建帧ft;
33.重建帧融合单元,连接关键点扭曲单元,用于按时间轴融合各所述重建帧ft,得到重建后的会议视频。
34.作为本发明的一种优选方案,作为视频帧重建的参考帧的所述初始帧为会议视频的首帧图像或当前帧的重建帧ft的上一重建帧f
t
‑1。
35.本发明利用深度神经网络将视频帧中的感兴趣区域中的运动信息编码为关键点位移,并为视频帧中的感兴趣区域和非感兴趣区域分配对应的传输比特率,在带宽不足时,感兴趣区域和非感兴趣区域的编码信息分别按照预分配的比特率传输给视频解码器,视频解码器以当前帧的关键点位移解码信息去扭曲初始帧f0中的对应关键点得到当前帧的重建帧,确保了超低比特率下感兴趣区域的视频实时重建,进而提升了超低比特率下的视频会议体验。
附图说明
36.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
37.图1是本发明一实施例提供的会议视频重建方法的实现步骤图;
38.图2是生成重建帧的具体方法步骤图;
39.图3是会议视频重建方法实现的原理图;
40.图4是本发明一实施例提供的会议视频重建系统的结构示意图;
41.图5是会议视频重建系统中的编码模块的内部结构示意图;
42.图6是会议视频重建系统中的解码模块的内部结构示意图;
43.图7是会议视频重建系统中的视频重建模块的内部结构示意图。
具体实施方式
44.下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
45.其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
46.本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
47.在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
48.本发明实施例提供的基于深度神经网络的会议视频重建方法,如图1和图3所示,具体实现步骤包括:
49.步骤1)识别会议视频帧中的感兴趣区域和非感兴趣区域,并改变对感兴趣区域和非感兴趣区域传输的比特率分配;视频会议中,人脸通常为感兴趣区域,视频背景通常为非感兴趣区域。目前在视频聊天中,视频画面中无论是感兴趣区域还是非感兴趣区域都以同样的比特率在比特流中传输,但当出现网络拥塞或者无线网络信号覆盖不佳时,视频画面整体以超低比特率传输会出现视频动作迟滞、画面显示不流畅等现象,极大影响视频会议体验。而在视频会议中,视频画面的背景通常不需要被关注,参会者对人脸画面更感兴趣。所以为了在有限的带宽条件下,将视频画面中人们感兴趣的区域及时传输给其他参会者,
本发明实现会议视频重建的第一步为从会议视频中识别出感兴趣区域和非感兴趣区域,并为感兴趣区域和非感兴趣区域分配相应的传输比特率;
50.步骤2)利用深度神经网络将感兴趣区域中的运动信息编码为关键点位移;视频画面中的人脸为人们感兴趣的区域,而人脸上眼睛、嘴巴、脸部等关键点的运动姿态组合形成为人脸运动动作。为了便于对低比特率传输下的视频画面的重建,本发明引入了初始帧作为视频重建的参考帧,初始帧可以为会议视频的首帧画面,首先编码模块(优选采用bpg格式编解码器)对初始帧进行编码,然后提取初始帧的后续帧中的感兴趣区域中的运动信息,并将这些运动信息编码为关键点位移(为了确保关键点位移编码信息不丢失,优选将感兴趣区域中的运动信息以熵编码方式编码为关键点位移)并按照预分配的比特率传输给解码器,解码器对初始帧的编码信息以及后续帧的关键点位移编码信息进行解码,并以解码后的关键点位移去扭曲解码后的初始帧f0上的对应关键点,最终得到后续帧的重建帧;
51.步骤3)将关键点位移编码信息和非感兴趣区域的编码信息分别按照预分配的比特率传输给视频解码器;在带宽恢复正常后,人们还是希望能够获取包括实时背景在内的实时视频画面,所以,虽然非感兴趣区域并非视频会议中人们关注的重点,但本发明还是为非感兴趣区域分配了一定的传输比特率,在带宽足够时,通过限制感兴趣区域的传输比特率,使得非感兴趣区域和感兴趣区域同步显示给视频对象;而在带宽不足时,将为感兴趣区域分配更多的传输比特率,使得感兴趣区域优先传输给视频解码器进行视频重建,以确保低比特率条件下的视频画面质量;
52.步骤4)视频解码器对关联当前帧的关键点位移编码信息进行解码,并以解码到的关键点位移扭曲初始帧f0(初始帧经编解码后的重建帧)中的对应关键点,得到当前帧的重建帧;
53.步骤5)将各重建帧按时间轴进行融合,得到重建后的会议视频。由于当前帧的重建帧仅对初始帧f0中的对应关键点作了位移扭曲,而重建帧中的非感兴趣区域保持与初始帧f0中的非感兴趣区域一致,降低了视频画面的重建难度,同时确保了超低比特率条件下视频画面的重建质量。
54.上述技术方案中,感兴趣区域中的关键点优选通过预先训练的u

net神经网络预测而得。
55.步骤4)中,生成当前帧的重建帧的方法步骤如图2所示,具体包括:
56.步骤4.1)对初始帧的编码信息进行解码,得到重建后的初始帧f0以及初始帧f0上的若干个关键点k0,并对当前帧的关键点位移编码信息进行解码;
57.步骤4.2)以解码到的当前帧的关键点位移去扭曲初始帧f0上对应的每个关键点k0,得到当前帧的重建帧ft。
58.当初始帧选择会议视频的首帧视频画面时,随着后续帧远离初始帧,由于时间相关性的损失,视频帧重建质量可能会迅速下降,为了解决这个问题,更优选地,作为重建当前帧的参考帧的初始帧采用当前重建帧ft的上一重建帧f
t
‑1。
59.本发明实施例还提供了一种基于深度神经网络的会议视频重建系统,该系统如图4所示,包括:
60.区域识别模块,用于自动识别会议视频帧中的感兴趣区域和非感兴趣区域;
61.比特率分配模块,用于为感兴趣区域和非感兴趣区域的内容传输分配对应的比特
率;
62.编码模块,用于将感兴趣区域中的运动信息编码为关键点位移,并将非感兴趣区域中的视频内容编码为对应的编码信息;
63.视频传输模块,连接比特率分配模块和编码模块,用于将关键点位移编码信息和非感兴趣区域的编码信息分别按照预分配的比特率传输给视频解码模块;
64.解码模块,连接视频传输模块,用于对关键点位移编码信息进行解码;
65.视频重建模块,连接解码模块,用于以解码得到的关键点位移扭曲初始帧f0中的每个对应关键点,得到当前帧的重建帧,并按时间轴融合各重建帧,得到重建后的会议视频。
66.为实现本发明的编码功能,如图5所示,编码模块中具体包括:
67.初始帧编码单元,用于对作为视频帧重建的参考帧的初始帧(优选采用会议视频的首帧或者当前帧的重建帧的上一重建帧)进行编码;
68.熵编码单元,用于将每一视频帧中的感兴趣区域中的运动信息以熵编码方式编码为关键点位移。
69.为了实现本发明的解码功能,如图6所示,解码模块中具体包括:
70.初始帧解码单元,用于对初始帧的编码信息进行解码,得到重建后的初始帧f0(初始帧的重建帧)以及初始帧f0上的若干个关键点k0;
71.关键点解码单元,用于对当前帧的关键点位移编码信息进行解码。
72.为了实现本发明的视频重建功能,如图6说是,视频重建模块中具体包括:
73.关键点扭曲单元,用于以解码到的当前帧的关键点位移去扭曲初始帧f0上对应的每个关键点k0,得到当前帧的重建帧ft;
74.重建帧融合单元,连接关键点扭曲单元,用于按时间轴融合各重建帧ft,得到重建后的会议视频。
75.需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1