一种图像前景分割方法、装置及电子设备与流程

文档序号：29826286发布日期：2022-04-27 11:35阅读：90来源：国知局

1.本技术涉及图像技术领域，尤其涉及一种图像前景分割方法、装置及电子设备。

背景技术：

2.目前网络直播已经成为一种国民娱乐、生活和消费方式，直播市场也在逐渐的发展壮大，许多新兴的视频技术也被运用其中，背景分割技术就是其中之一。背景分割技术目前主流的实现方案有两种，一种是通过神经网络，由模型来判断背景区域，另一种是通过搭建绿幕场景，在通过算法将绿幕区域提取出来，之后根据主播们的需求，可以将背景区域替换成各种场景，来优化直播的效果。
3.通过神经网络来分割背景的方案现在主要用在会议场景，这样在开视频会议的时候可以选择性的将房间背景遮盖，但是这类方案主要是通过识别人体属性来进行前后景的分割，并不能适用于一些需要展示“物体”的场景，比如“直播带货”。在直播带货场景下，主播通常要给观众展示商品，对于神经网络没有训练过的“商品”，神经网络可能会将其认为成背景，最终导致呈现在观众眼前的直播画面中缺少关键的信息。
4.绿幕场景下就不会存在这个问题，但是绿幕场景需要主播事先搭建好有绿幕背景的直播间，这样大大的限制了直播的环境，在因为一些因素需要更换场地时，会极为不便，同时，如果需要给观众展示的商品采用的包装是绿色时，则同样会将商品本身作为背景给遮盖掉。

技术实现要素：

5.本技术实施例要解决的技术问题，在于提供一种图像前景分割方法、装置及电子设备，以解决现有背景分割技术容易受到环境限制且容易将部分内容遮盖的技术问题。
6.为实现上述目的，本技术实施例采用下述技术方案：第一方面，本技术实施例提供一种图像前景分割方法，所述方法包括：获取多帧rgbd图像，将每一帧所述rgbd图像分割后获得一第一彩色图像和一第一深度图像；基于预先设定的第一阈值、第二阈值将每一所述深度图像的像素值量化为背景像素或前景像素或未知像素中的任一种获得第二深度图像；将每一所述第一彩色图像和每一所述第二深度图像输入已训练的神经网络，获得多个连续的第一掩码图像，其中，所述第一掩码图像为像素值在0-1之间的单通道图像；对每一所述第一掩码图像进行后处理重新赋值得到多个第二掩码图像；根据每一所述第一彩色图像、对应的所述第二掩码图像以及背景图像获得多个合成图像帧。
7.第二方面，本技术实施例提供一种图像前景分割装置，所述装置包括：第一获取单元，用于获取多帧rgbd图像，将每一帧所述rgbd图像分割后获得一第一彩色图像和一第一深度图像；
第一量化单元，用于基于预先设定的第一阈值、第二阈值将每一所述深度图像的像素值量化为背景像素或前景像素或未知像素中的任一种获得第二深度图像；第一输入单元，用于将每一所述第一彩色图像和每一所述第二深度图像输入已训练的神经网络，获得多个连续的第一掩码图像，其中，所述第一掩码图像为像素值在0-1之间的单通道图像；第一赋值单元，用于对每一所述第一掩码图像进行后处理重新赋值得到多个第二掩码图像；第一合成单元，用于根据每一所述第一彩色图像、对应的所述第二掩码图像以及背景图像获得多个合成图像帧。
8.第三方面，本技术实施例提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、待码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如上述第一方面所述的图像前景分割方法。
9.第四方面，本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、待码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器执行以实现如上述第一方面所述的图像前景分割方法。
10.本技术实施例的有益效果是：本技术实施例提供一种图像前景分割方法、装置及电子设备，将rgbd图像转换为一张彩色图像和一张深度图像后，将深度图像转换成一张量化后输入神经网络中得到掩码图像，通过对掩码图像进行赋值处理后再进行图像合成，能够有效的去除的噪音以及归一化到一个合理的范围内，同时量化的处理能够使得模型更快的收敛。
附图说明
11.图1为本技术一个实施例提供的一种图像前景分割方法的流程示意图；图2为本技术一个实施例提供的一种图像前景分割装置的结构示意图；图3为本技术一个实施例提供的一种电子设备的结构示意图。
具体实施方式
12.下面通过具体实施例，并结合附图，对本技术的技术方案作进一步的具体描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
13.本技术提供一种图像前景分割方法、装置及电子设备，以解决现有背景分割技术容易受到环境限制且容易将部分内容遮盖的技术问题。
14.在进行具体说明前，对本技术实施例所提出的一些术语进行解释说明。
15.rgbd摄像机：指的是能够拍摄通常意义上的彩色图像和深度图像的相机，其拍摄的每一帧都是一张4通道的图片。
16.语义分割：对图像中的每一个像素进行分类，常用于图像理解相关场景，如：自动
驾驶。
17.神经网络：一种数学模型，有着类似人类神经的结构。
18.归一化：将一系列数值映射至一个预先设定的范围，能让模型训练的更加平滑。
19.以下结合附图，详细说明本技术中各实施例提供的技术方案。
20.请参阅附图1，其示出了本技术一个实施例提供的一种图像前景分割方法的流程示意图，所述方法包括：s101，获取多帧rgbd图像，将每一帧所述rgbd图像分割后获得一第一彩色图像和一第一深度图像；针对步骤s101，所述多帧rgbd图像通过rgbd摄像机拍摄获得。
21.在一个实施例中，将每一帧所述rgbd图像分割后获得一第一彩色图像和一第一深度图像包括：对每一帧所述rgbd图像中的rgb通道和d通道进行分割获得所述第一彩色图像和所述第一深度图像。
22.例如，使用带有深度拍摄功能（例如rgbd摄像机）的相机进行拍摄，从相机中获得数据流 s，s是由多帧图片组成，可以表示为，通过解码单元将数据流转换成单张图片。
23.将中的rgb通道和d通道分割开，得到两张图片：彩色原图和深度图片，可以理解，彩色原图是三通道的第一彩色图像，深度图片是单通道的深度图像。
24.s102，基于预先设定的第一阈值、第二阈值将每一所述深度图像的像素值量化为背景像素或前景像素或未知像素中的任一种获得第二深度图像；针对步骤s102，所述第一阈值通过预先设置获得，所述第二阈值由rgbd摄像机本身确定。
25.根据事先设置好的阈值，将深度图像的像素值重新量化为0，1，2，其中0代表背景像素，1代表前景像素，2代表未知像素，公式如下：(1)公式（1）中，和分别代表像素的行和列，主要是由深度相机本身决定的，一般来说市面常见的深度相机会有一个适用范围，比如0.2米至2米是某深度相机的适用范围，对于超出该范围的距离，体现在深度图上就是一个未知的像素值（通常是一个极大值）。
26.s103，将每一所述第一彩色图像和每一所述第二深度图像输入已训练的神经网络，获得多个连续的第一掩码图像，其中，所述第一掩码图像为像素值在0-1之间的单通道图像；s104，对每一所述第一掩码图像进行后处理重新赋值得到多个第二掩码图像；
由于相邻两帧之间的掩码可能会存在边缘变换不连续的情况，从视频输出上看，前景边缘会存在抖动的问题，因此需要进行后处理来平滑视频/图像的输出。
27.针对步骤s104，在一个实施例中，对每一所述第一掩码图像进行后处理重新赋值得到多个第二掩码图像包括：对每一所述第一掩码图像通过当前第一掩码图像和前两帧第一掩码图像进行重新赋值获得新赋值第一掩码图像；对每一所述新赋值掩码图进行归一化处理和羽化操作后得到所述第二掩码图像。
28.例如：获得多个连续的第一掩码图像；对于当前第一掩码图像重新赋值，使得：其中a为 0
ꢀ‑ꢀ
1之间的小数，a的值越大，前后帧越连贯，但是可能会产生掩码图像有拖拽的现象，需要根据具体设备的帧率来进行调整来获得最佳效果；将掩码图归一化至0-1之间：对掩码图进行羽化操作，使得边缘更加平滑。
29.s105，根据每一所述第一彩色图像、对应的所述第二掩码图像以及背景图像获得多个合成图像帧。
30.根据第一彩色图像、对应的的第二掩码图像以及用户指定的背景图，合成输出的图像帧，具体公式为：请参阅附图2，其示出了本技术一个实施例提供的一种图像前景分割装置，所述装置包括：第一获取单元，用于获取多帧rgbd图像，将每一帧所述rgbd图像分割后获得一第一彩色图像和一第一深度图像；第一量化单元，用于基于预先设定的第一阈值、第二阈值将每一所述深度图像的像素值量化为背景像素或前景像素或未知像素中的任一种获得第二深度图像；第一输入单元，用于将每一所述第一彩色图像和每一所述第二深度图像输入已训练的神经网络，获得多个连续的第一掩码图像，其中，所述第一掩码图像为像素值在0-1之间的单通道图像；第一赋值单元，用于对每一所述第一掩码图像进行后处理重新赋值得到多个第二掩码图像；第一合成单元，用于根据每一所述第一彩色图像、对应的所述第二掩码图像以及背景图请参阅附图3，其示出了本技术一个实施例提供的一种电子设备的结构示意图，可
以包括：至少一个网络接口302、存储器303和至少一个处理器301。电子设备中的各个组件通过总线系统304耦合在一起。可以理解，总线系统304用于实现这些组件之间的连接通信。总线系统304除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，但是为了清楚说明起见，在附图3中将各种总线都标为总线系统304。
31.在一些实施方式中，存储器303存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统3031和应用程序3032。
32.其中，操作系统3031，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种寄出业务以及处理基于硬件的任务。应用程序3032，包含各种应用程序，例如媒体播放器（media player）、浏览器（browser）等，用于实现各种应用业务。实现本技术实施例方法的程序可以包含在应用程序中。
33.在上述实施例中，电子设备还包括：存储在存储器303上的至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集可由处理器301执行实现本技术实施例中所述任一图像前景分割方法的步骤。
34.在一个实施例中，本技术还提供了一种计算机可读存储介质，计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器执行时实现本技术实施例中所述任一图像前景分割方法的步骤。
35.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的至少一条指令、至少一段程序、代码集或指令集可存储于一非易失性计算机可读取存储介质中，所述的至少一条指令、至少一段程序、代码集或指令集在执行时，可实现本技术实施例中所述任一地图绘制方法的步骤。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
36.上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，这些均属于本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李杨静
技术所有人：杭州合慕科技有限公司
我是此专利的发明人

上一篇：一种用于双回路液压系统的定位装置的制作方法
上一篇：一种玻璃防火幕墙安装结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。