使用姿势跟踪数据针对数字视频中的对象生成分割掩模的制作方法

文档序号：34542135发布日期：2023-06-27 17:37阅读：16来源：国知局

背景技术：

1、近年来，在用于数字视频编辑的硬件和软件平台中取得了显著进步。例如，许多传统系统实现各种技术以在整个数字视频中添加文本、照明、背景修改、动画或其他数字效果。为了说明，一些传统系统针对数字视频中描绘的对象(例如，人)创建一个或多个分割掩模。这种系统使用(多个)分割掩模在对象被呈现时更好地将数字效果集成到数字视频中。

2、然而，尽管有这些进步，传统视频分割系统仍存在若干技术缺陷，这些缺陷导致不灵活、不准确和低效的操作。例如，许多传统系统使用初始掩模或涂鸦输入严格执行基于深度学习的数字视频对象分割。尽管一些传统系统使用视频实例分割技术在没有用户提供引导的情况下执行分割，但采用这些方法的这种系统仍然无法灵活地考虑可以通知分割的某些数据集。

3、除了上述的灵活性问题之外，传统视频分割系统通常不能生成准确的分割掩模。为了说明，传统系统所采用的许多视频实例分割方法并未针对视频编辑应用进行优化。此外，通常使用平均精度度量对这些方法进行评估，这将检测和跟踪优先于分割质量。因此，采用这些方法的传统系统通常提供在视频编辑应用中使用的质量较差的分割掩模。当需要具有细粒度的高质量掩模时(诸如当编辑描绘人的数字视频时)，这个问题会更加严重。另外，许多传统系统无法准确检测数字视频中的对象，通常会导致误报，从而导致进一步的分割不准确。

4、此外，传统视频分割系统存在效率低下的问题。实际上，对于许多传统系统，准确性和效率成反比。因此，那些确实设法生成准确性足够的分割掩模的系统这样做的速度很慢，消耗了大量的计算资源(例如，处理能力和存储器)。

5、这些以及附加的难题和问题存在于传统视频分割系统中。

技术实现思路

1、本文描述的一个或多个实施例用一种系统、方法和非暂态计算机可读介质来提供益处和/或解决本领域中的一个或多个前述难题，该系统、方法和非暂态计算机可读介质灵活结合在数字视频中描绘的对象的姿势信息以用于准确掩模分割。特别地，在一个或多个实施例中，系统实现了全局跟踪姿势并局部分割针对数字视频中对象(例如，人)的细粒度掩模的流水线。为了说明，在一些实施例中，该系统采用跟踪模型以通过查看整个场景来全局跟踪对象的姿势。该系统还使用局部分割模型将姿势信息利用为强大的查询来进行分割。在一些情况下，系统在分割模型内结合一个轻量的多层感知器混合器层，以在整个感兴趣的区域中传播查询姿势。以这种方式，经由结合轻量、高效的分割模型，该系统灵活地结合姿势信息以进行高质量分割。

2、本公开的一个或多个实施例的附加特征和优点在随后的描述中被概述，并且部分地将从描述中变得明显，或者可以通过这种示例实施例的实践而被了解。

技术特征：

1.一种用于在用于编辑数字视频的数字媒体环境中从标识的对象联合生成分割掩模的计算机实现的方法，包括：

2.根据权利要求1所述的计算机实现的方法，其中确定与在所述数字视频的所述帧中描绘的所述数字对象对应的所述联合坐标集包括：使用全局姿势跟踪神经网络基于所述数字视频的所述帧来确定所述联合坐标集。

3.根据权利要求1所述的计算机实现的方法，其中使用所述联合热图生成与在所述数字视频的所述帧中描绘的所述数字对象对应的所述基于联合的分割掩模包括：使用局部分割神经网络基于所述联合热图和所述帧来生成所述基于联合的分割掩模。

4.根据权利要求3所述的计算机实现的方法，其中使用所述局部分割神经网络基于所述联合热图和所述帧来生成所述基于联合的分割掩模包括：

5.根据权利要求3所述的计算机实现的方法，还包括：

6.根据权利要求1所述的计算机实现的方法，

7.根据权利要求1所述的计算机实现的方法，其中使用所述联合坐标集来生成所述联合热图包括：在与所述联合坐标集相关联的每个联合点处以高斯分布为中心。

8.根据权利要求1所述的计算机实现的方法，还包括使用所述基于联合的分割掩模来修改所述数字视频的所述帧。

9.一种在其上存储指令的非暂态计算机可读介质，当所述指令由至少一个处理器执行时使计算设备：

10.根据权利要求9所述的非暂态计算机可读介质，其中所述指令在由所述至少一个处理器执行时使所述计算设备：

11.根据权利要求10所述的非暂态计算机可读介质，

12.根据权利要求9所述的非暂态计算机可读介质，还包括在由所述至少一个处理器执行时使所述计算设备执行以下操作的指令：使用所述姿势追踪神经网络来确定与所述数字对象相关联的边界框以及跟踪标识符，所述跟踪标识符区分所述数字对象与在所述数字视频的所述帧中描绘的其他数字对象。

13.根据权利要求9所述的非暂态计算机可读介质，其中当所述指令由所述至少一个处理器执行时使所述计算设备：通过使用所述姿势跟踪神经网络来确定与对应于所述数字视频的所述帧中描绘的人的预定的人类联合集相关联的所述联合坐标集，由此使用所述姿势跟踪神经网络来确定与在所述数字视频的所述帧中描绘的所述数字对象对应的所述联合坐标集。

14.根据权利要求9所述的非暂态计算机可读介质，其中所述指令在由所述至少一个处理器执行时使所述计算设备：

15.根据权利要求9所述的非暂态计算机可读介质，还包括在由所述至少一个处理器执行时使所述计算设备执行以下操作的指令：

16.根据权利要求9所述的非暂态计算机可读介质，还包括在由所述至少一个处理器执行时使所述计算设备执行以下操作的指令：

17.一种系统，包括：

18.根据权利要求17所述的系统，其中所述至少一个服务器设备被配置为使所述系统：通过使用所述姿势跟踪神经网络基于所述数字视频的所述帧和所述数字视频的描绘所述数字对象的前一帧来确定所述联合坐标集，由此使用所述姿势跟踪神经网络确定与在所述数字视频的所述帧中描绘的所述数字对象对应的所述联合坐标集。

19.根据权利要求17所述的系统，其中所述至少一个服务器设备还被配置为使所述系统：

20.根据权利要求17所述的系统，其中所述至少一个服务器设备还被配置为使所述系统：

技术总结
本公开涉及使用姿势跟踪数据针对数字视频中的对象生成分割掩模。本公开涉及针对在数字视频中描绘的数字对象生成基于联合的分割掩模的系统、方法和非暂态计算机可读介质。特别地，在一个或多个实施例中，所公开的系统使用具有姿势跟踪神经网络和分割神经网络的视频掩蔽模型来生成基于联合的分割掩模。为了说明，在一些实施例中，所公开的系统使用姿势跟踪神经网络跨数字视频的帧来标识数字对象的联合集。所公开的系统还使用分割神经网络来为使用标识联合针对描绘对象的视频帧生成基于联合的分割掩模。在一些情况下，分割神经网络包括多层感知器混合器层，以用于混合经由卷积层传播的视觉特征。

技术研发人员：吴昇旭,许美兰,李俊荣
受保护的技术使用者：奥多比公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴昇旭许美兰李俊荣
技术所有人：奥多比公司
我是此专利的发明人

上一篇：一种中药组合物及其制备和应用的制作方法
上一篇：具有液晶结构的防晒保湿修护薄膜组合物的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。