本申请涉及视频处理,尤其涉及一种视频片段的生成方法、装置及相关产品。
背景技术:
1、展现视频核心内容的视频片段,有助于用户快速了解视频的核心内容,方便用户利用碎片化时间进行观看。例如,一个展现教学视频核心内容的视频片段,可以供用户快速了解或快速重温该教学视频中所教授的重点知识。
2、相关技术中,通常会采用人工手动剪辑或者通过智能剪辑工具从视频中剪辑出视频片段。然而,人工通过市面上的普通剪辑工具需要手动对视频进行裁剪和拼接,对人工的视频剪辑能力要求高且耗费时间,容易增加人工成本。通过智能剪辑工具可以从一个视频中随机剪辑出一些视频片段,但随机剪辑出的一些视频片段,可能无法体现视频的核心内容;通过智能剪辑工具也可以根据根据视频片段样例从一个视频中剪辑出与其类似的视频片段,但剪辑出的一些视频片段是同质的,也可能无法体现视频的核心内容,因此通过智能剪辑工具得到的视频片段质量较低,容易导致无法展现视频的核心内容,难以满足用户快速了解或快速回顾视频的核心内容的需求。
技术实现思路
1、本申请实施例提供了一种视频片段的生成方法、装置及相关产品,旨在在降低人工成本的同时,生成体现视频的核心内容的高质量视频片段,进而满足用户快速了解或快速回顾视频的核心内容的需求。
2、本申请第一方面提供了一种视频片段的生成方法,包括:
3、获取待处理视频对应的视频字幕文本;
4、基于所述视频字幕文本,通过文本生成模型生成所述视频字幕文本对应的目标字幕文本;所述目标字幕文本包括所述视频字幕文本中与所述待处理视频的主题相关的语句;所述文本生成模型是基于文本样本集合和所述文本样本集合中多个文本样本分别对应的核心文本训练得到的;每个文本样本的类型为文章样本或视频字幕文本样本;所述文章样本和所述视频字幕文本样本均为具有主题且语义逻辑完整的文本;所述核心文本包括对应的文本样本中与主题相关的语句;
5、基于所述待处理视频与所述视频字幕文本的对应关系,确定所述目标字幕文本在所述待处理视频中的时间信息;
6、基于所述目标字幕文本对应的所述时间信息,生成所述待处理视频对应的目标视频片段。
7、本申请第二方面提供了一种视频片段的生成装置,包括:
8、文本获取模块,用于获取待处理视频对应的视频字幕文本;
9、文本确定模块,用于基于所述视频字幕文本,通过文本生成模型生成所述视频字幕文本对应的目标字幕文本;所述目标字幕文本包括所述视频字幕文本中与所述待处理视频的主题相关的语句;所述文本生成模型是基于文本样本集合和所述文本样本集合中多个文本样本分别对应的核心文本训练得到的;每个文本样本的类型为文章样本或视频字幕文本样本;所述文章样本和所述视频字幕文本样本均为具有主题且语义逻辑完整的文本;所述核心文本包括对应的文本样本中与主题相关的语句;
10、时间信息确定模块,用于基于所述待处理视频与所述视频字幕文本的对应关系,确定所述字幕文本在所述待处理视频中的时间信息;
11、片段生成模块,用于基于所述字幕文本对应的所述时间信息,生成所述待处理视频对应的目标视频片段。
12、本申请第三方面提供了一种视频片段的生成设备,所述设备包括处理器以及存储器:
13、所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
14、所述处理器用于根据所述计算机程序中的指令执行第一方面提供的视频片段的生成方法的步骤。
15、本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被视频片段的生成设备执行时实现第一方面提供的视频片段的生成方法的步骤。
16、本申请第五方面提供了一种计算机程序产品,包括计算机程序,该计算机程序被视频片段的生成设备执行时实现第一方面提供的视频片段的生成方法的步骤。
17、从以上技术方案可以看出,本申请实施例具有以下优点:
18、本申请技术方案中先获取待处理视频对应的视频字幕文本;接着,通过文本生成模型从视频字幕文本中确定出目标字幕文本,其中,目标字幕文本中包括视频字幕文本中与待处理视频的主题相关的语句,文本生成模型是基于文本样本集合和文本样本集合中多个文本样本分别对应的核心文本训练得到的,每个文本样本的类型为文章样本或视频字幕文本样本,文章样本和视频字幕文本样本均为具有主题且语义逻辑完整的文本,核心文本包括对应的文本样本中与主题相关的语句;再基于待处理视频与视频字幕文本的对应关系,确定目标字幕文本在待处理视频中的时间信息;随后基于目标字幕文本对应的时间信息,生成待处理视频对应的目标视频片段。
19、本申请无需人工手动剪辑,而是可以自动生成待处理视频对应的目标视频片段,能够减少人工成本。视频的主题可表现其中心思想,是视频内容的主体和核心的体现,因此待处理视频的主题是用户快速了解视频所展示核心内容的关键。而视频字幕文本与待处理视频中的视频内容息息相关,本申请所确定的目标字幕文本包括视频字幕文本中与待处理视频的主题相关的语句,因此目标字幕文本能够体现待处理视频的核心内容,基于目标字幕文本生成的目标视频片段能够使得用户快速了解待处理视频的主题,满足用户快速了解或快速回顾视频核心内容的需求,进而提升用户的观看体验。
20、此外,目标字幕文本的语句是完整的,由此能够避免生成的目标视频片段中出现语句被截断的问题,进一步提升了目标视频片段的质量。
1.一种视频片段的生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述文本生成模型为通过以下步骤训练获得的:
3.根据权利要求2所述的方法,其特征在于,所述待训练模型为大语言模型;所述通过待训练模型生成所述文本样本集合中的文本样本对应的预测核心文本,具体包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述视频字幕文本,通过文本生成模型生成所述视频字幕文本对应的目标字幕文本,具体包括:
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述基于所述第一视频片段和所述第二视频片段,生成所述待处理视频对应的目标视频片段,具体包括:
7.根据权利要求5所述的方法,其特征在于,所述基于所述第一视频片段和所述第二视频片段,生成所述待处理视频对应的目标视频片段,具体包括:
8.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
9.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
10.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
11.一种视频片段的生成装置,其特征在于,包括:
12.一种视频片段的生成设备,其特征在于,所述设备包括处理器以及存储器:
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被视频片段的生成设备执行时实现权利要求1至10任一项所述的视频片段的生成方法的步骤。
14.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被视频片段的生成设备执行时实现权利要求1至10任一项所述的视频片段的生成方法的步骤。