视频处理方法、装置、电子设备及存储介质与流程

文档序号：28209615发布日期：2021-12-28 20:03阅读：86来源：国知局

1.本公开涉及计算机技术领域，具体涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术：

2.随着短视频应用的广泛推广，越来越多的视频内容在互联网上传播，视频中包括大量与目标对象例如人相关的内容，而视频内容所对应的行业可以包括体育、传媒、演艺等。本公开发明人发现，一些视频内容过于专业化而导致普通观众不能完全理解其含义，并且目前专业化视频缺乏直观的视觉内容解说方案，多数解说方案为语音解说，并不直观；还有一些基于人工对视觉内容进行解说的方案，但是这种基于人工的解说方案在时间和人力成本上的消耗较大，不适合量产。因此，如何对视频进行处理形成直观地内容解说方案是本领域技术人员需要解决的技术问题之一。

技术实现要素：

3.本公开实施例提供一种视频处理方法、装置、电子设备及计算机可读存储介质。
4.第一方面，本公开实施例中提供了一种视频处理方法，包括：
5.获取视频；
6.识别所述视频中目标对象的动作数据；其中，所述动作数据包括所述目标对象的姿态数据；
7.基于所述动作数据生成可视化描述信息；其中，所述可视化描述信息用于图形化展示所述目标对象的动作；
8.输出所述可视化描述信息。
9.进一步地，识别所述视频中目标对象的动作数据，包括：
10.通过检测所述视频中所述目标对象的关键点的方式识别所述目标对象的姿态数据。
11.进一步地，基于所述动作数据生成可视化描述信息，包括：
12.针对所述视频中的视频帧，基于所述姿态数据生成所述目标对象对应的线条对象；其中，所述线条对象包括连接所述目标对象的关键点的线条。
13.进一步地，所述动作数据还包括所述目标对象的行为数据；识别所述视频中目标对象的动作数据，包括：
14.提取所述视频中的多模态特征；
15.基于所述多模态特征确定所述目标对象的行为数据。
16.进一步地，识别所述视频中目标对象的动作数据，还包括：
17.获取所述视频中的内容结构化信息；
18.所述基于所述多模态特征确定所述目标对象的行为数据，包括：
19.利用所述内容结构化信息以及所述多模态特征确定所述目标对象的行为数据。
20.进一步地，基于所述动作数据生成可视化描述信息，包括：
21.基于预先构建的知识图谱获取所述行为数据对应的词条以及词条内容；
22.基于所述词条内容生成所述目标对象的行为解释信息。
23.进一步地，输出所述可视化描述信息，包括：
24.以所述线条对象替代所述目标对象的方式在所述视频中显示所述线条对象。
25.进一步地，输出所述可视化描述信息，包括：
26.在所述视频中与线条对象对应显示所述行为解释信息；其中，所述线条对象基于所述目标对象的姿态数据获得。
27.第二方面，本发明实施例中提供了一种视频处理方法，其中，包括：
28.获取视频；
29.调用预设服务接口，以便由所述预设服务接口识别所述视频中目标对象的动作数据，基于所述动作数据生成可视化描述信息，以及在所述视频中合成所述可视化描述信息后形成输出视频；其中，所述动作数据包括所述目标对象的姿态数据，且所述可视化描述信息用于图形化展示所述目标对象的动作；
30.返回所述输出视频。
31.第三方面，本发明实施例中提供了一种视频解说方法，其中，包括：
32.检测视频的解说操作；
33.响应于所述解说操作，从服务器获取所述视频的解说视频；其中，所述解说视频中包括所述视频中至少一帧对应的可视化描述信息，所述可视化描述信息利用所述视频中目标对象的动作数据生成；
34.播放所述解说视频。
35.第四方面，本发明实施例中提供了一种视频解说系统，其中，包括终端设备和服务器；
36.所述终端设备用于检测用户在视频应用中对当前视频的解说请求操作，并向服务器请求获取所述当前视频对应的解说视频；
37.所述服务器在接收到所述终端设备的请求之后，识别所述当前视频中目标对象的动作数据，并基于所述动作数据生成可视化描述信息，以及在所述当前视频中合成所述可视化描述信息后形解说视频；
38.所述服务器将所述解说视频返回至所述终端设备；
39.所述终端设备在所述视频应用中播放所述解说视频。
40.第五方面，本发明实施例中提供了一种视频处理装置，其中，包括：
41.第一获取模块，被配置为获取视频；
42.识别模块，被配置为识别所述视频中目标对象的动作数据；其中，所述动作数据包括所述目标对象的姿态数据；
43.生成模块，被配置为基于所述动作数据生成可视化描述信息；其中，所述可视化描述信息用于图形化展示所述目标对象的动作；
44.输出模块，被配置为输出所述可视化描述信息。
45.第六方面，本发明实施例中提供了一种视频处理装置，其中，包括：
46.第二获取模块，被配置为获取视频；
47.调用模块，被配置为调用预设服务接口，以便由所述预设服务接口识别所述视频中目标对象的动作数据，基于所述动作数据生成可视化描述信息，以及在所述视频中合成所述可视化描述信息后形成输出视频；其中，所述动作数据包括所述目标对象的姿态数据，且所述可视化描述信息用于图形化展示所述目标对象的动作；
48.返回模块，被配置为返回所述输出视频。
49.第七方面，本发明实施例中提供了一种视频解说装置，其中，包括：
50.检测模块，被配置为检测视频的解说操作；
51.响应模块，被配置为响应于所述解说操作，从服务器获取所述视频的解说视频；其中，所述解说视频中包括所述视频中至少一帧对应的可视化描述信息，所述可视化描述信息利用所述视频中目标对象的动作数据生成；
52.播放模块，被配置为播放所述解说视频。
53.所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
54.在一个可能的设计中，上述装置的结构中包括存储器和处理器，所述存储器用于存储一条或多条支持上述装置执行上述对应方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述装置还可以包括通信接口，用于上述装置与其他设备或通信网络通信。
55.第八方面，本公开实施例提供了一种电子设备，包括存储器、处理器以及存储在存储器上的计算机程序，其中，所述处理器执行所述计算机程序以实现上述任一方面所述的方法。
56.第九方面，本公开实施例提供了一种计算机可读存储介质，用于存储上述任一装置所用的计算机指令，该计算机指令被处理器执行时用于实现上述任一方面所述方法的步骤。
57.第十方面，本公开实施例提供了一种计算机程序产品，其包含计算机指令，该计算机指令被处理器执行时用于实现上述任一方面所述方法的步骤。
58.本公开实施例提供的技术方案可以包括以下有益效果：
59.本公开实施例通过对视频进行处理，从视频中获取目标对象的姿态数据，进而生成并输出对应于姿态数据的可视化描述信息。上述方式通过图形化展示目标对象的动作的方式，使得观众能够直观地观看到视频中目标对象的动作，并且能够帮助观众更好地理解视频内容。
60.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
61.结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：
62.图1示出根据本公开一实施方式的视频处理方法的流程图；
63.图2示出根据本公开一实施方式针对包括人体对象的视频进行处理获得解说视频的流程示意图；
64.图3示出根据本公开一实施方式对舞蹈视频进行处理后得到的可视化描述信息的效果示意图；
65.图4示出根据本公开一实施方式在体育教学视频中的应用流程示意图；
66.图5示出根据本公开一实施方式的视频处理方法的流程图；
67.图6示出根据本公开一实施方式的视频解说方法的流程图；
68.图7示出根据本公开一实施方式的视频解说系统的框架结构图；
69.图8是适于用来实现根据本公开一实施方式的视频处理方法和/或视频解说方法的电子设备的结构示意图。
具体实施方式
70.下文中，将参考附图详细描述本公开的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。
71.在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
72.另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
73.下面通过具体实施例详细介绍本公开实施例的细节。
74.图1示出根据本公开一实施方式的视频处理方法的流程图。如图1所示，该视频处理方法包括以下步骤：
75.在步骤s101中，获取视频；
76.在步骤s102中，识别所述视频中目标对象的动作数据；其中，所述动作数据包括所述目标对象的姿态数据；
77.在步骤s103中，基于所述动作数据生成可视化描述信息；其中，所述可视化描述信息用于图形化展示所述目标对象的动作；
78.在步骤s104中，输出所述可视化描述信息。
79.本实施例中，视频可以是短视频或者长视频，该视频中的内容可以是较为专业化的内容，例如运动教学类视频、体育比赛类视频、表演类视频等。为了能够使得没有相应专业化知识的普通观众也能理解较为专业化的视频内容，可以通过本公开实施例提出的视频处理方法对视频进行处理，获得该视频对应的可视化描述信息，使得观众通过该可视化描述信息能够更加直观地理解视频内容。
80.目标对象可以是视频中出现的人或物，目标对象可以包括一个或多个。本公开实施例可以通过人工智能模型对视频进行自动识别的方式预测得到视频中的目标对象以及目标对象的动作数据。动作数据与视频中目标对象的动作相关。动作数据可以包括但不限于目标对象对应的姿态数据。
81.在一些实施例中，姿态数据可以包括但不限于目标对象上的关键点在视频中的位置、目标对象的轮廓在视频中的位置和/或目标对象作为一个整体在视频中所处的位置等。
82.在一些实施例中，可以针对视频中的每一图像帧获取图像帧中每个目标对象或预
定目标对象的姿态数据。在另一些实施例中，可以针对视频中的某些图像帧获取目标对象在该连续图像帧中的姿态数据，例如可以每间隔预定数量个图像帧的方式获取图像帧中每个目标对象或者预定目标对象的姿态数据。
83.可视化描述信息可以以图形化方式展示目标对象在视频中的动作。该可视化描述信息中至少体现了目标对象在视频中姿态数据。在一些实施例中，可以通过对视频进行处理，将目标对象以所提取出的姿态数据对应的可视化描述信息的形式展示在原视频中，目标对象的行为数据也可以通过所对应的可视化描述信息的形式对应展示在原视频中，使得观看者从视频中能够直观地观看到目标对象的姿态，进而容易地理解对目标对象的动作以及动作含义。
84.在另一些实施例中，也可以将可视化描述信息单独输出。比如，在播放视频的同时可以在画面不影响原视频观看效果的位置处单独展示可视化描述信息，使得观看者在能够观看到原视频效果的同时，能够通过可视化描述信息理解原视频中的内容。
85.本公开实施例通过对视频进行处理，从视频中获取目标对象的姿态数据，进而生成并输出对应于姿态数据的可视化描述信息。上述方式通过图形化展示目标对象的动作的方式，使得观众能够直观地观看到视频中目标对象的动作，并且能够帮助观众更好地理解视频内容。
86.在本实施例的一个可选实现方式中，步骤s102，即识别所述视频中目标对象的动作数据的步骤，进一步包括以下步骤：
87.通过检测所述视频中所述目标对象的关键点的方式识别所述目标对象的姿态数据。
88.该可选的实现方式中，可以通过视觉信息检测视频中的目标对象以及目标对象上的关键点。通过对视频中一个或多个图像帧中出现的目标对象进行关键点预测，获得目标对象上各关键点在图像帧中的位置，可以将各个关键点在图像帧中的位置信息确定为目标对象的姿态数据。关键点可以根据目标对象的种类不同而不同。例如，目标对象为人体时，关键点可以包括人体骨骼关键点，例如人体骨骼关键点可以包括眼部、耳部、鼻子、肩部、肘部、手腕、髋部、膝盖、脚踝等。目标对象为物体时，可以根据物体的特征预设一个或多个关键点，例如车辆关键点可以包括车窗、车头、车灯、轮胎等。
89.目标对象的姿态数据可以理解为目标对象在视频中的位置以及目标对象上各个关键点在视频中的位置等，通过这些位置可以确定目标对象的姿态。
90.在本实施例的一个可选实现方式中，步骤s103，即基于所述动作数据生成可视化描述信息的步骤，进一步包括以下步骤：
91.针对所述视频中的视频帧，基于所述姿态数据生成所述目标对象对应的线条对象；其中，所述线条对象包括连接所述目标对象的关键点的线条。
92.该可选的实现方式中，可以针对视频中的每一个图像帧或每间隔多个图像帧获得目标对象的姿态数据。针对所获得的姿态数据，可以通过图形化处理手段生成目标对象对应的线条对象，该线条对象可以包括连接目标对象中关键点的线条，和/或目标对象的轮廓线条等，该线条对象可以展示出目标对象的姿态。
93.在一些实施例中，姿态数据可以包括但不限于目标对象的各个关键点在图像帧中的位置，和/或目标对象的轮廓在图像帧中的位置等。一种简单的图形化处理方式可以是，
将目标对象的关键点按照目标对象的形象连接起来，形成目标对象对应的线条对象，该线条对象至少是可以让用户能够直观地识别出对象类别以及对象姿态的形象。当然可以理解的是，还可以为该线条对象赋予装饰，例如对于人体，可以为线条对象赋予服装、服饰、头发等，而对于车辆，可以为线条对象贴上外表面等。
94.在本实施例的一个可选实现方式中，步骤s102，即识别所述视频中目标对象的动作数据的步骤，进一步包括以下步骤：
95.提取所述视频中的多模态特征；
96.基于所述多模态特征确定所述目标对象的行为数据。
97.该可选的实现方式中，动作数据还可以包括行为数据，行为数据可以包括但不限于目标对象的行为类别和/或行为类别对应的相关描述信息。在一些实施例中，可以针对视频中的每一图像帧获取图像帧中每个目标对象或预定目标对象的行为数据和姿态数据。在另一些实施例中，可以针对视频中的某些图像帧获取目标对象在该连续图像帧中的行为数据和姿态数据，例如可以每间隔预定数量个图像帧的方式获取图像帧中每个目标对象或者预定目标对象的行为数据和姿态数据。
98.该可视化描述信息中还可以体现目标对象在视频中的行为。在一些实施例中，目标对象的行为数据也可以通过所对应的可视化描述信息的形式对应展示在原视频中，使得观看者从视频中能够直观地观看到目标对象的姿态以及行为，进而容易地理解对目标对象的动作以及动作含义。
99.本公开实施例通过对视频进行处理后，通过图形化展示目标对象的动作的方式，除了使得观众能够直观地观看到视频中目标对象的动作之外，并且还能够通过行为数据的可视化描述信息帮助观众更好地理解姿态的含义。
100.本实施例中，利用多模态特征分析技术从视频中提取出多模态特征。多模态特征分析为通过人工智能技术对视频中的视觉信息、文本信息、语音信息、音频信息等多种模态的信息来源进行特征抽取，并结合不同模态相互补充形成多模态联合特征表示，进而再通过该多模态联合特征表示对目标对象的行为数据进行预测。目标对象的行为数据可以包括但不限于目标对象的行为类别以及对目标对象的行为的解释内容。
101.需要说明的是，视频中的音频信息和语音信息不同，音频信息可以包括但不限于目标对象或者环境中产生的声音相关的音频数据，而语音信息则可以是通过人的发音器官发出的具有一定社会意义的声音，也即人通过说话产生的声音，并且能够被识别成文本信息的音频数据。在一些实施例中，音频信息可以包括语音信息，也可以不包括语音信息。
102.在多模态特征提取过程中，所提取出的不同模态的特征可以相互补充，从多个维度生成描述目标对象行为的多模态联合特征。在一些实施例中，多模态特征提取过程可以包括两种方式。第一种方式使用单模态特征抽取方式分别提取不同模态对应的特征，之后再将分别提出的多个模态对应的单模态特征进行融合后形成多模态联合特征。第二种方式为在特征抽取过程中，在不同模态的特征之间构建特征连接，在抽取过程中不断进行特征融合，使得中间特征也被融合在多模态联合特征表示中；也即第二种方式中，将针对不同模态所提取出的不同阶段的中间特征与最终特征融合后形成多模态联合特征。
103.基于所提取出的多模态联合特征可以预测视频中目标对象的行为数据。
104.在本实施例的一个可选实现方式中，步骤s102，即识别所述视频中目标对象的动
作数据的步骤，进一步包括以下步骤：
105.获取所述视频中的内容结构化信息；
106.所述基于所述多模态特征确定所述目标对象的行为数据的步骤，进一步包括以下步骤：
107.利用所述内容结构化信息以及所述多模态特征确定所述目标对象的行为数据。
108.该可选的实现方式中，还利用视频内容结构化技术将视频中的内容转化为结构化信息。视频内容结构化技术是一种将视频内容中的重要信息进行结构化提取的技术，利用视频内容结构化技术可以对视频中出现的实体例如人、物体相关的信息比如人或物体的行为、场景地点、语言等进行推理预测，按照语义关系，采用时空分割、特征提取、对象识别、深度学习等处理手段，组织成可供计算机和人理解的结构化内容。
109.在一些实施例中，视频内容结构化技术可以为行为数据的预测提供额外信息补充，视频内容结构化技术可以针对当前视频输出其行为类别、文本信息、场景信息等外部知识。该外部知识的引入可以使得行为数据的预测在一定程度上规避不合理的预测结果，例如当场景为室内时，该视频对应的行为类别不能是赛马行为类别。
110.在一些实施例中，可以通过训练模型获得视频中的内容结构化信息，该视频的内容结构化信息可以包括但不限于视频中语音分类结果、文字识别结果、场景识别结果、实体分类结果、图片分类结果等。可以理解的是，在一些实施例中，视频的内容结构化信息例如可以根据实际需要通过视觉信息、语音信息、语言信息、音频信息等单维度特征预测得到，根据预测得到的结果可以获得视频对应的内容结构化信息。
111.在根据视频中的视觉信息、音频信息、语音信息和文本信息等多模态信息提取出多模态特征后，可以基于多模态特征以及内容结构化信息预测视频中目标对象的行为数据。视频中的内容结构化信息可以用于调整多模态特征预测得到的行为数据。
112.在一些实施例中，可以预先建立匹配规则，根据匹配规则利用该内容结构化信息对多模态特征预测得到的行为数据进行调整。例如，视频中的内容结构化信息表明当前图像帧中为场景a，则多模态特征预测行为数据的过程中可以降低场景a之外才会存在的行为类别的权重。比如，视频中的内容结构化信息表明当前图像帧对应的场景为“雪山”，则多模态特征预测过程中可以降低“下象棋”这一行为类别的权重。
113.在本实施例的一个可选实现方式中，步骤s103，即基于所述动作数据生成可视化描述信息的步骤，进一步包括以下步骤：
114.基于预先构建的知识图谱获取所述行为数据对应的词条以及词条内容；
115.基于所述词条内容生成所述目标对象的行为解释信息。
116.该可选的实现方式中，针对所获得的行为数据，可以生成包括文字、语音、图形化等中的一种多种组合而成的行为解释信息，该行为解释信息可以用于描述目标对象在视频中的行为类别以及行为类别在相应专业中对应的相关内容等，该相关内容例如可以是从知识图谱中获得的词条内容。例如，对于行为类别可以采用文字形式在线条对象周边的位置处标注，还可以将行为类别对应的词条内容也用文字形式或语音形式等表示出来。
117.在一些实施例中，可以预先建立知识图谱，该知识图谱可以针对不同的行业包括行业相关的知识词条、词条内容、词条间的关系等。在获得视频对应的内容结构化信息之后，可以根据所述内容结构化信息在知识图谱中进行检索，获得该内容结构化信息相关的
知识词条、词条内容等。将获得的知识词条、词条内容等与视频的内容结构化信息关联存储，以便在生成行为数据对应的行为解释信息时体现上述知识词条以及词条内容等。
118.在本实施例的一个可选实现方式中，步骤s104，即输出所述可视化描述信息的步骤，进一步包括以下步骤：
119.以所述线条对象替代所述目标对象的方式在所述视频中显示所述线条对象。
120.该可选的实现方式中，利用姿态数据得到目标对象对应的线条对象之后，可以将视频中的目标对象替换成线条对象，也即通过对视频中的图像帧进行处理，将图像帧中的目标对象移除，进而替换为其对应的线条对象之后播放所述视频。需要说明的是，通过每间隔多个图像帧的方式获取目标对象的姿态数据和行为数据的情况下，可以利用当前图像帧得到的线条对象替换当前图像帧以及该当前图像帧之后的多个图像帧中的目标对象。
121.在本实施例的一个可选实现方式中，步骤s103，即基于所述动作数据生成可视化描述信息的步骤，进一步包括以下步骤：
122.在所述视频中与线条对象对应显示所述行为解释信息；其中，所述线条对象基于所述目标对象的姿态数据获得。
123.该可选的实现方式中，在原视频中输出线条对象的同时，还可以在线条对象的周边或者预定位置处与线条对象对应显示行为数据对应的行为解释信息。经过上述处理，展示给观众的是原视频场景中，利用线条对象直观地表示出目标对象的姿态数据以及行为数据，并且还展示有行为数据在知识图谱中的解释内容。
124.图2示出根据本公开一实施方式针对包括人体对象的视频进行处理获得解说视频的流程示意图。如图2所示，对输入视频进行视觉信息方面的处理，获得人体骨骼关键点数据。对输入视频进行视觉信息、文本信息、语音信息、音频信息等多模态特征分析技术的处理后，得到多模态特征。对输入视频进行视频结构化技术的分析处理之后，获得视频的内容结构化信息。通过视频的内容结构化信息以及多模态特征可以预测得到人体在各图像帧或间隔多个图像帧中的行为预测数据，通过对上述人体骨骼关键点数据以及行为预测数据进行可视化技术的处理，例如通过图形学处理得到人体骨骼各关键点对应的线条人形象，以及生成文字形式的行为预测数据的解释内容等，利用上述线条人形象以及解释内容对输入视频进行处理，使得输入视频上能够显示出上述线条人形象以及文字形式的解说内容。例如可以将输入视频中的原人体对象去除后，利用该线条人形象代替，并在该线条人形象的周边以文字形式显示行为预测数据对应的解释内容。
125.图3示出根据本公开一实施方式对舞蹈视频进行处理后得到的可视化描述信息的效果示意图。针对具有舞蹈内容的视频，可以通过处理后得到线条人形象，该线条人形象可以是基于人体骨骼关键点预测模型得到视频中舞蹈演员的骨骼关键点，并使用可视化技术，完成骨骼关键点的连接、美体、柔和等可视化处理，之后将该线条人对象映射至原视频中对应位置上，也即原视频中舞蹈演员所在的位置上。同时根据视频内容中的行为类别进行预测得到的解释内容，例如“双手扶腰”、“伸腿”；线条人对象同步显示在视频中，最终完成对舞蹈视频中行为的可视化解说。
126.图4示出根据本公开一实施方式在体育教学视频中的应用流程示意图。如图4所示，服务器401获取体育教练通过发布设备402上传的体育教学类视频。服务器401利用预先训练好的模型检测该视频中体育教练的人体骨骼关键点，利用该人体骨骼关键点生成体育
教练在每帧视频中的线条人形象，该线条人形象通过对所检测出的人体骨骼关键点按照人体构造进行连接等处理后得到。服务器401还利用预先训练好的模型获得该视频的内容结构化信息，并利用预先训练好的多模态特征提取模型从视频中提取多模态特征，基于多模态特征预测视频中体育教练的行为类别，并利用内容结构化信息对该行为类别进行调整，最终得到体育教练在每帧视频中的行为数据。基于该行为数据可以生成用于解说该行为数据的文字、图形或语音等形式的行为解释信息。服务器401还根据线条人形象以及行为解释信息对体育教学类视频进行处理，将每帧视频中的体育教练的原图像去除后，替换成对应的线条人形象，同时还在每帧视频中展示行为解释信息。服务器401将处理得到的解说视频输出至观看该视频的观看设备403上。
127.图5示出根据本公开一实施方式的视频处理方法的流程图。如图5所示，该视频处理方法包括以下步骤：
128.在步骤s501中，获取视频；
129.在步骤s502中，调用预设服务接口，以便由所述预设服务接口识别所述视频中目标对象的动作数据，基于所述动作数据生成可视化描述信息，以及在所述视频中合成所述可视化描述信息后形成输出视频；其中，所述动作数据包括所述目标对象的姿态数据，且所述可视化描述信息用于图形化展示所述目标对象的动作；
130.在步骤s503中，返回所述输出视频。
131.本实施例中，该视频处理方法可以在云端执行。预设服务接口可以预先部署在云端，该预设服务接口可以是saas(software
‑
as
‑
a
‑
service，软件即服务)接口，需求方可以预先获得该预设服务接口的使用权，在需要时可以通过调用该预设服务接口对视频进行处理，获得输出视频。
132.视频可以是短视频或者长视频，该视频中的内容可以是较为专业化的内容，例如运动教学类视频、体育比赛类视频、表演类视频等。为了能够使得没有相应专业化知识的普通观众也能理解较为专业化的视频内容，可以通过本公开实施例提出的视频处理方法对视频进行处理，获得该视频对应的可视化描述信息，使得观众通过该可视化描述信息能够更加直观地理解视频内容。
133.目标对象可以是视频中出现的人或物，目标对象可以包括一个或多个。本公开实施例可以通过人工智能模型对视频进行自动识别的方式预测得到视频中的目标对象以及目标对象的动作数据。动作数据与视频中目标对象的动作相关。动作数据可以包括但不限于目标对象对应姿态数据。
134.在一些实施例中，姿态数据可以包括但不限于目标对象上的关键点在视频中的位置、目标对象的轮廓在视频中的位置和/或目标对象作为一个整体在视频中所处的位置等。
135.在一些实施例中，可以针对视频中的每一图像帧获取图像帧中每个目标对象或预定目标对象的姿态数据。在另一些实施例中，可以针对视频中的某些图像帧获取目标对象在该连续图像帧中的姿态数据，例如可以每间隔预定数量个图像帧的方式获取图像帧中每个目标对象或者预定目标对象的姿态数据。
136.可视化描述信息可以以图形化方式展示目标对象在视频中的动作。该可视化描述信息中至少体现了目标对象在视频中姿态数据。在一些实施例中，可以通过对视频进行处理，将目标对象以所提取出的姿态数据对应的可视化描述信息的形式展示在原视频中，目
标对象的行为数据也可以通过所对应的可视化描述信息的形式对应展示在原视频中，使得观看者从视频中能够直观地观看到目标对象的姿态和行为，进而容易地理解对目标对象的动作以及动作含义。
137.在另一些实施例中，也可以将可视化描述信息单独输出。比如，在播放视频的同时可以在画面不影响原视频观看效果的位置处单独展示可视化描述信息，使得观看者在能够观看到原视频效果的同时，能够通过可视化描述信息理解原视频中的内容。
138.本公开实施例通过预先部署和服务接口，在需要的情况下通过调用该预设服务接口对视频进行处理，从视频中获取目标对象的姿态数据，进而生成并输出对应于姿态数据的可视化描述信息。上述方式通过图形化展示目标对象的动作的方式，使得观众能够直观地观看到视频中目标对象的动作，并且能够帮助观众更好地理解视频内容。
139.图6示出根据本公开一实施方式的视频解说方法的流程图。如图6所示，该视频解说方法包括以下步骤：
140.在步骤s601中，检测视频的解说操作；
141.在步骤s602中，响应于所述解说操作，从服务器获取所述视频的解说视频；其中，所述解说视频中包括所述视频中至少一帧对应的可视化描述信息，所述可视化描述信息利用所述视频中目标对象的动作数据生成；
142.在步骤s603中，播放所述解说视频。
143.本实施例中，该视频解说方法可以在用户的终端设备上执行。用户在观看内容较为专业，且难以理解的视频时，可以通过终端设备上的接口选项请求观看该视频的解说视频，终端设备在检测到用户请求观看当前视频的解说视频操作之后，可以向服务器发送请求，以获取当前视频的解说视频。该解说视频中可以包括当前视频中至少一个视频帧对应的可视化描述信息，该可视化描述信息基于当前视频中目标对象的动作数据生成。可视化描述信息的具体细节可以参见上述图1所示实施例及相关实施例中的描述，在此不再赘述。
144.需要说明的是，服务器可以针对一些视频，预先生成对应的解说视频，在接收到终端设备的请求之后，直接将预先生成的解说视频返回给终端设备。服务器也可以基于终端设备的请求，生成当前视频的解说视频，并将所生成的解说视频返回给终端设备。具体可以根据实际需求而设置，在此不做限制。
145.终端设备接收到服务器返回的解说视频之后，可以在终端设备上播放该解说视频，以便用户能够通过该解说视频理解当前视频的内容。
146.本公开实施例在用户难以理解视频内容的情况下，可以通过生成解说视频的方式，图形化展示目标对象的动作，使得用户能够更好地理解视频中的内容。
147.图7示出根据本公开一实施方式的视频解说系统的框架结构图。如图7所示，该视频解说系统包括：终端设备701和服务器702；
148.所述终端设备701用于检测用户在视频应用中对当前视频的解说请求操作，并向服务器702请求获取所述当前视频对应的解说视频；
149.所述服务器702在接收到所述终端设备701的请求之后，识别所述当前视频中目标对象的动作数据，并基于所述动作数据生成可视化描述信息，以及在所述当前视频中合成所述可视化描述信息后形解说视频；
150.所述服务器702将所述解说视频返回至所述终端设备701；
151.所述终端设备701在所述视频应用中播放所述解说视频。
152.本实施例中，终端设备701可以是用户设备，例如可佩戴设备、手机、ipad、电脑等能够观看视频的设备，该用户设备还可以是vi设备。终端设备701上可以安装视频应用，该视频应用可以是在线视频应用，用户可以通过该视频应用获取并观看各类视频。服务器702可以是该视频应用所对应的视频服务器，可以响应视频应用的请求，而返回相应的视频数据。
153.在本实施例中，用户通过视频应用观看视频的时候，还可以请求获取当前视频对应的解说视频。例如，用户在遇到动作类的视频，需要仔细观看分解类动作时可以请求获取对应的解说视频。该解说视频中可以包括图形化展示目标对象的动作的可视化描述信息，该可视化描述信息可以在将原视频中的原目标对象去除的情况下，被合成到原视频的背景中，使得用户能够直观地观看到目标对象的动作，并且该可视化描述信息还可以包括目标对象的行为解说信息，通过动作展示和行为解说可以让用户更好地理解原视频中的内容。
154.服务器702在接收到终端设备701的请求之后，可以根据该请求生成当前视频对应的解说视频。服务器702可以识别当前视频中每一帧或者每一组连续帧中目标对象的动作数据，该动作数据可以包括但不限于目标对象的姿态数据和/或行为数据。服务器702还根据所识别出的动作数据生成目标对象的可视化描述信息。该可视化描述信息可以被合成到当前视频中，例如可以将当前视频中对应帧中的目标对象去除之后，将可视化描述信息中目标对象的图形化数据展示在原目标对象位置处，还可以在图形化数据的周边用文字展示目标对象的行为数据。本公开实施例通过文字配合图形的方式解说当前视频中目标对象的动作，能够使得用户更好地理解目标对象的动作含义。
155.服务器702生成目标对象的可视化描述信息以及将可视化描述信息合成至原视频得到解说视频的具体细节可以参见上述图1所示实施例及相关实施例中的描述，在此不再赘述。
156.服务器702将解说视频返回给终端设备701，终端设备701可以在视频应用中播放该解说视频。
157.本公开实施例提供的上述视频解说系统可以应用在各种文娱平台中，能够针对动作类的视频生成解说视频之后提供给用户，能够容易地将内容较为专业、普通用户较难理解的视频推广给更多用户，能起到较好地普及视频中内容的作用。
158.下述为本公开装置实施例，可以用于执行本公开方法实施例。
159.根据本公开一实施方式的视频处理装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该视频处理装置包括：
160.第一获取模块，被配置为获取视频；
161.识别模块，被配置为识别所述视频中目标对象的动作数据；其中，所述动作数据包括所述目标对象的姿态数据；
162.生成模块，被配置为基于所述动作数据生成可视化描述信息；其中，所述可视化描述信息用于图形化展示所述目标对象的动作；
163.输出模块，被配置为输出所述可视化描述信息。
164.在本实施例的一个可选实现方式中，所述识别模块，包括：
165.识别子模块，被配置为通过检测所述视频中所述目标对象的关键点的方式识别所
述目标对象的姿态数据。
166.在本实施例的一个可选实现方式中，所述生成模块，包括：
167.第一生成子模块，被配置为针对所述视频中的视频帧，基于所述姿态数据生成所述目标对象对应的线条对象；其中，所述线条对象包括连接所述目标对象的关键点的线条。
168.在本实施例的一个可选实现方式中，所述动作数据还包括所述目标对象的行为数据；所述识别模块，包括：
169.提取子模块，被配置为提取所述视频中的多模态特征；
170.第一确定子模块，被配置为基于所述多模态特征确定所述目标对象的行为数据。
171.在本实施例的一个可选实现方式中，所述识别模块，包括：
172.第一获取子模块，被配置为获取所述视频中的内容结构化信息；
173.第二确定子模块，被配置为所述基于所述多模态特征确定所述目标对象的行为数据，包括：
174.第三确定子模块，被配置为利用所述内容结构化信息以及所述多模态特征确定所述目标对象的行为数据。
175.在本实施例的一个可选实现方式中，所述生成模块，还包括：
176.第二获取子模块，被配置为基于预先构建的知识图谱获取所述行为数据对应的词条以及词条内容；
177.第二生成子模块，被配置为基于所述词条内容生成所述目标对象的行为解释信息。
178.在本实施例的一个可选实现方式中，所述输出模块，包括：
179.第一显示子模块，被配置为以所述线条对象替代所述目标对象的方式在所述视频中显示所述线条对象。
180.在本实施例的一个可选实现方式中，所述输出模块，还包括：
181.第二显示子模块，被配置为在所述视频中与线条对象对应显示所述行为解释信息；其中，所述线条对象基于所述目标对象的姿态数据获得。
182.本实施例中的视频处理装置与图1所示实施例及相关实施例中的视频处理方法对应一致，具体细节可以参见上述对图1所示实施例及相关实施例中的描述，在此不再赘述。
183.根据本公开另一实施方式的视频处理装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该视频处理装置包括：
184.第二获取模块，被配置为获取视频；
185.调用模块，被配置为调用预设服务接口，以便由所述预设服务接口识别所述视频中目标对象的动作数据，基于所述动作数据生成可视化描述信息，以及在所述视频中合成所述可视化描述信息后形成输出视频；其中，所述动作数据包括所述目标对象的姿态数据，且所述可视化描述信息用于图形化展示所述目标对象的动作；
186.返回模块，被配置为返回所述输出视频。
187.本实施例中的视频处理装置与图5所示实施例及相关实施例中的视频处理方法对应一致，具体细节可以参见上述对图5所示实施例及相关实施例中的描述，在此不再赘述。
188.根据本公开一实施方式的视频解说装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该视频解说装置包括：
189.检测模块，被配置为检测视频的解说操作；
190.响应模块，被配置为响应于所述解说操作，从服务器获取所述视频的解说视频；其中，所述解说视频中包括所述视频中至少一帧对应的可视化描述信息，所述可视化描述信息利用所述视频中目标对象的动作数据生成；
191.播放模块，被配置为播放所述解说视频。
192.本实施例中的视频解说装置与图7所示实施例及相关实施例中的视频解说方法对应一致，具体细节可以参见上述对图7所示实施例及相关实施例中的描述，在此不再赘述。
193.图8是适于用来实现根据本公开实施方式的视频处理方法和/或视频解说方法的电子设备的结构示意图。
194.如图8所示，电子设备800包括处理单元801，其可实现为cpu、gpu、fpga、npu等处理单元。处理单元801可以根据存储在只读存储器(rom)802中的程序或者从存储部分808加载到随机访问存储器(ram)803中的程序而执行本公开上述任一方法的实施方式中的各种处理。在ram803中，还存储有电子设备800操作所需的各种程序和数据。处理单元801、rom802以及ram803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
195.以下部件连接至i/o接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至i/o接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。
196.特别地，根据本公开的实施方式，上文参考本公开实施方式中的任一方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行本公开实施方式中任一方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。
197.附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
198.描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
199.作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，
未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
200.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋建文;张士伟;唐铭谦
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。