视频生成方法及装置、宣传类型视频生成方法及装置与流程

文档序号：31748059发布日期：2022-10-11 17:43阅读：46来源：国知局

1.本技术涉及视频处理技术领域，具体而言，涉及一种视频生成方法及装置、宣传类型视频生成方法及装置。

背景技术：

2.相关技术中，在商品详情页的图文文档重建场景中多采用传统的目标检测方法和版面分析方法，但是，传统的目标检测方法需要通过大量数据标注以检测一精准物体(如猫，狗)，但针对本任务，商品详情页中的物体种类繁多，不同的商品都具有不同的特征，难以进行逐一标注并进行训练，会大量消耗人力且无法很好的覆盖所有可能情况；传统的排版分析方法主要用以类似论文或新闻报纸等结构化较好的图像内进行分析，该方法学习某种印刷体文字的特征和报刊文献的排版特征以进行排版分析，但该方法无法用以分析像商品详情页中较为复杂且不规律的排版情况，复杂的底色和大量不同样式的图片文字会让该方法无法准确学习特征。
3.分析可知，上述现有技术中主要存在以下尚待解决的问题，导致难以将商品详情页自动重建生成视频数据：1)商品详情页结构复杂，排版较为杂乱，难以识别出精准的图，文，表格等信息用以对目标位置进行定位；2)传统的版面分析方法无法解决在非规则数据中进行顺序重构及逻辑分析的问题。
4.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本技术实施例提供了一种视频生成方法及装置、宣传类型视频生成方法及装置，以至少解决现有技术中难以将商品详情页自动重建生成视频数据的技术问题。
6.根据本技术实施例的一个方面，提供了一种视频生成方法，包括：获取多个原始档案，每个上述原始档案包括至少一个素材；从上述多个原始档案中提取多个素材以及与上述多个素材对应的标注信息；基于上述标注信息建立与上述多个素材对应的展示结构；利用上述展示结构组合上述多个素材，生成目标视频。
7.根据本技术实施例的另一方面，还提供了一种宣传类型视频生成方法，包括：获取多个宣传类型原始档案，其中，上述多个宣传类型原始档案中每个原始档案包括：至少一个宣传类型素材；从上述多个宣传类型原始档案中提取多个宣传类型素材以及与上述多个宣传类型素材对应的标注信息；基于上述标注信息建立与上述多个宣传类型素材对应的展示结构；利用上述展示结构组合上述多个宣传类型素材，生成宣传类型视频。
8.根据本技术实施例的另一方面，还提供了一种非易失性存储介质，上述非易失性存储介质包括存储的程序，其中，在上述程序运行时控制上述非易失性存储介质所在设备执行上述的视频生成方法，以及上述的宣传类型视频生成方法。
9.根据本技术实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取多个原始档
案，每个上述原始档案包括至少一个素材；从上述多个原始档案中提取多个素材以及与上述多个素材对应的标注信息；基于上述标注信息建立与上述多个素材对应的展示结构；利用上述展示结构组合上述多个素材，生成目标视频。
10.在本技术实施例中，通过获取多个原始档案，每个上述原始档案包括至少一个素材；从上述多个原始档案中提取多个素材以及与上述多个素材对应的标注信息；基于上述标注信息建立与上述多个素材对应的展示结构；利用上述展示结构组合上述多个素材，生成目标视频。
11.本技术方案利用商品详情页的图文信息进行文档重建，生成短视频，首先，获取多个原始档案中每个原始档案，从上述多个原始档案中提取多个素材以及与上述多个素材对应的标注信息；并基于上述标注信息确定各个素材对应的展示顺序，之后利用图像处理的方法，基于上述展示顺序将多个素材进行组合生成短视频。
12.由此，本技术实施例达到了基于图文素材自动重建生成视频数据的目的，从而实现了更加饱满的立体展示商品，增强用户体验的技术效果，进而解决了现有技术中难以将商品详情页自动重建生成视频数据的技术问题。
附图说明
13.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
14.图1是根据本技术实施例的一种视频生成方法的流程图；
15.图2是根据本技术实施例的一种视频生成方法的流程图；
16.图3是根据本技术实施例的一种版面分析方法的流程图；
17.图4是根据本技术实施例的一种第二目标神经网络模型的流程图；
18.图5是根据本技术实施例的一种用于实现视频生成方法的计算机终端(或移动设备)的硬件结构框图；
19.图6是根据本技术实施例的一种宣传类型视频生成方法的流程图；
20.图7是根据本技术实施例的一种视频生成装置的结构示意图；
21.图8是根据本技术实施例的一种宣传类型视频生成装置的结构示意图；
22.图9是根据本技术实施例的另一种计算机终端的结构框图。
具体实施方式
23.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
24.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆
盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.首先，在对本技术实施例进行描述的过程中出现的部分名词或术语适用于如下解释：
26.图文重建：即图文文档重建，是指通过图文排版分析、图文元素关系识别、阅读顺序排列，将无结构的商品详情页图片进行结构化的重构，并按照顺序获取子元素顺序序列。
27.深度目标检测模型：利用深度学习技术，自动从图片中检测目标实体的模型。
28.感兴趣区域识别方式(region of interest，roi)：在图像处理中，从被处理的图像内以方框或圆等方式勾勒出来的需要处理的区域。
29.光学字符识别方式(optical character recognition，ocr)：通过检测暗，亮的模式确定文字形状并将形状翻译为计算机文字的过程。
30.版面分析：即排版分析，是指将图片内的多个子元素素材(图片、文字、表格)进行分析，并储存为图谱结构的过程。
31.多模态：是指利用多种技术和算法综合处理多种模态(如文本、语音、图像等)数据的能力。
32.实施例1
33.根据本技术实施例，提供了一种视频生成方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
34.本技术提供了如图1所示的一种视频生成方法。图1是根据本技术实施例的一种视频生成方法的流程图，如图1所示，上述视频生成方法包括如下方法步骤：
35.步骤s202，获取多个原始档案，每个上述原始档案包括至少一个素材；
36.步骤s204，从上述多个原始档案中提取多个素材以及与上述多个素材对应的标注信息；
37.步骤s206，基于上述标注信息建立与上述多个素材对应的展示结构；
38.步骤s208，利用上述展示结构组合上述多个素材，生成目标视频。
39.在本技术实施例中，通过获取多个原始档案，每个上述原始档案包括至少一个素材；从上述多个原始档案中提取多个素材以及与上述多个素材对应的标注信息；基于上述标注信息建立与上述多个素材对应的展示结构；利用上述展示结构组合上述多个素材，生成目标视频。
40.本技术方案利用商品详情页的图文信息进行文档重建，生成短视频，首先，获取多个原始档案中每个原始档案，从上述多个原始档案中提取多个素材以及与上述多个素材对应的标注信息；并基于上述标注信息确定各个素材对应的展示顺序，之后利用图像处理的方法，基于上述展示顺序将多个素材进行组合生成短视频。
41.由此，本技术实施例达到了基于图文素材自动重建生成视频数据的目的，从而实现了更加饱满的立体展示商品，增强用户体验的技术效果，进而解决了现有技术中难以将商品详情页自动重建生成视频数据的技术问题。
42.可选的，上述原始档案可以为展览品档案、宣传类型物品档案、商品档案等等，例如，包含有商品详情页图片的商品档案，上述多个素材可以为图片素材、图文素材和文本素材。
43.可选的，上述标注信息用于标注每个素材的素材类型，例如，可以采用标签的方式进行标注，基于上述标注信息可以建立与上述多个素材对应的展示结构；上述展示结果可以为有层级和顺序信息的图谱结构，即用于图文重建的顺序结构，进而可以利用上述展示结构组合上述多个素材，生成目标视频。
44.需要说明的是，本技术实施例所提供的一种视频生成方法可以但不限于应用于虚拟人直播场景，例如，虚拟主播直播过程中商品展示场景、虚拟主播直播带货场景；还可以延伸使用于电商直播场景。
45.作为一种可选的实施例，由于单一的图文素材往往较为单调，且不能有逻辑的展示出一段完整的信息，因此，在申请实施例所提供的应用场景中，将多张图片素材和文字素材进行合并，基于图文素材对应的标注信息建立对应的展示结构；按照图片素材和文字素材的展示结构生成的短视频进行顺序展示，利用短视频的方式，不仅可以更好的表现商品属性，还可以增强用户体验。通过本技术实施例，在虚拟主播直播带货过程中，可以通过实时切换展示相关商品图片，直观地展示商品属性、特色、优势等卖点信息，增强直播间的表现力，吸引买家观看和下单。
46.在本技术实施例中，仍需要说明的是，相对于商品详情页中的文字，由于商品详情页中的一些图片，只适合上下滚动展示，但是图片的内容丰富、富有设计感，因此可以作为图文素材来源进行加工重构并应用到虚拟主播场景中，可以对商品进行细粒度多角度更为饱满的立体展示。
47.通过本技术实施例，可以将商品详情页图片重建为一段短视频，首先将商品详情页图片重建为图谱结构，之后利用图谱结构中的逻辑关系将商品素材转化为短视频，在本技术实施例中，最主要的是商品详情页的版面分析和图文重建。
48.此外，还需要说明的是，重建得到的短视频在展示过程中还可以实时加入当前信息，例如，交易信息、评论信息、与主播交互信息等。
49.在本技术实施例中，如图2所示，版面分析部分主要利用粗标注和精标注两种方式构建目标检测训练样本，再通过三步训练方法进行模型训练，从而获取图片素材，图文素材和文本素材。图文重建部分对素材进行顺序分析和层次判定，得到如图2所示的主题title，单元text，结构structure(stru1，stru2，stru3)，图片picture即pic(pic1，pic2，pic3)。并结合排版分析进行图文文档重建，得到最终图谱结构。最后，按照图文重建部分的顺序结构生成短视频。
50.例如，以本技术实施例所提供的一种视频生成方法应用于虚拟主播直播带货过程的应用场景为例，对本技术上述实施例进行详细说明。在虚拟主播直播带货过程中，可以通过将多张图片素材和文字素材进行合并的方式，将带货商品的店铺与品牌元素进行视频拼接，基于图文素材对应的标注信息建立对应的展示结构；按照图片素材和文字素材的展示结构生成的短视频进行顺序展示，利用短视频展示带货商品的方式，通过实时切换展示相关商品图片，直观地展示商品属性、特色、优势等卖点信息，从而可以进一步增强虚拟主播的直播间表现能力，吸引买家观看和下单。在上述可选方案中，不仅可以更好的表现带货商
品的商品属性，还可以增强用户通过观看直播进行购物的体验。
51.除此之外，基于应用场景化和应用个性化的差异，本技术还可以提供一种视频生成方法应用于虚拟主播直播带货场景的可选实施例，对本技术上述实施例进行详细说明。例如，如果当前虚拟主播直播带货的应用场景为春节、腊八节等传统民族节日，则最终展示的“春节”直播带货场景的短视频可以展示有“春联”、“鞭炮”“贺岁”“辞旧迎新”“迎新送福”等一个或多个图片元素、文字元素或图文元素，或者最终展示的“腊八节”直播带货场景的短视频可以展示有“腊八粥”、“腊八节”等图片元素、文字元素或图文元素。再例如，如果当前虚拟主播直播带货的应用场景为情人节、圣诞节等新颖节日，则最终展示的“情人节”直播带货场景的短视频可以展示有“玫瑰花”、“情侣”“婚恋”等一个或多个图片元素、文字元素或图文元素，本技术实施例通过将宣传或者互动的节日元素作为图文素材来源进行加工重构并应用到虚拟主播场景中，可以对商品进行细粒度多角度更为饱满的立体展示。
52.在一种可选的实施例中，从上述多个原始档案中提取上述多个素材包括：
53.步骤s302，利用感兴趣区域识别方式对上述多个原始档案中的图片块进行检测，得到图片素材；
54.步骤s304，利用光学字符识别方式对上述多个原始档案中的文字块进行检测以及利用上述文字块的排版规则，得到文本素材；
55.步骤s306，基于上述排版规则对上述图片块和上述文字块进行合并处理，得到图文素材。
56.在本技术实施例中，可以采用不同的识别方式对详情页图片进行分析，提取详情页图片内不同类型的素材，例如，图片素材，图文素材和文本素材。
57.在本技术实施例中，可以利用opencv的感兴趣区域识别roi方式(canny算子)，对商品详情页内的图像区域进行检测，对于纯文字区域和纯色块区域进行剔除，获取图像素材；同时，利用光学字符识别ocr方式对商品详情页内的文字块进行检测并通过排版规则(例如，文字的行高，大小，不同文字块间距)进行合并，合并获得文字块区域，作为文本素材；最后，通过排版规则(如文字大小，相对距离，嵌套情况等)进行文字块和图片块的合并，得到图文素材。
58.在一种可选的实施例中，基于上述排版规则对上述图片块和上述文字块进行合并处理，得到上述图文素材包括：
59.步骤s402，当上述文字块位于上述图片块内部的第一预设区域且上述文字块在上述图片块内部的占比大于第一预设阈值时，将上述图片块和上述文字块合并为上述图文素材；
60.步骤s404，当上述文字块位于上述图片块外部的第二预设区域且上述文字块与上述图片块之间的距离小于第二预设阈值时，将上述图片块和上述文字块合并为上述图文素材。
61.在本技术实施例中，基于上述排版规则对上述图片块和上述文字块进行合并方式为：(1)若文字块在图片块内部四周且占比大于15％，即上述文字块与上述图片块之间的距离大于第二预设阈值，则将上述图片块和上述文字块合并为上述图文素材；(2)若文字块在图像内部占比小于15％，则忽略文字；(3)若文字块在图像内部占比大于70％，则忽略图像；(4)若文字块在图片块的四周且距离较近，即上述文字块与上述图片块之间的距离小于第
二预设阈值，则将上述图片块和上述文字块合并为上述图文素材。
62.在一种可选的实施例中，从上述多个原始档案中提取与上述多个素材对应的标注信息包括：
63.步骤s502，利用第一目标神经网络模型从上述多个原始档案中提取与上述多个素材对应的标注信息。
64.可选的，上述第一目标神经网络模型可以为单阶段检测ssd模型，可选的，上述ssd模型利用vgg16作为基础模型，在vgg16的基础上增加卷积层来获取更多的特征图用以进行目标检测。
65.在本技术实施例中，采用该ssd模型进行图像内元素的识别检测，可以保证目标检测的速度和精度，其主要思路是模型首先均匀地在图片的不同位置进行密集采样，采样时利用不同尺度和长宽比获取图像，然后利用cnn提取图像内特征直接进行分类与回归，ssd模型整个过程只需要一步，相较其他两阶段的目标检测方法速度快，适合线上环境运行。
66.在一种可选的实施例中，上述视频生成方法还包括：
67.步骤s602，构建训练数据集，其中，上述训练数据集包括：第一标注数据和第二标注数据，上述第一标注数据是通过机器学习方式得到的标注数据，上述第二标注数据是通过人工标注方式得到的标注数据；
68.步骤s604，采用上述训练数据集对初始神经网络模型进行训练，得到上述第一目标神经网络模型，其中，上述初始神经网络模型是采用初始数据集进行预训练得到的网络模型。
69.可选的，上述第一目标神经网络模型可以为深度目标检测模型，在本技术实施例中，如图3所示，先通过机器学习方式(例如，roi方式和ocr方式)对详情页图片中的多个素材进行粗标注获取多个素材的粗标注数据，再通过人工标注的方式，标注少量的精标注数据，用以对初始神经网络模型进行参数的精细调整，在标注过程中，同样标注图片素材，文字素材，图文素材三部分标签。
70.在一种可选的实施例中，采用上述训练数据集对上述初始神经网络模型进行训练，得到上述第一目标神经网络模型包括：
71.步骤s702，采用上述第一标注数据对上述初始神经网络模型进行第一微调训练，得到中间神经网络模型；
72.步骤s704，采用上述第二标注数据对上述中间神经网络模型进行第二微调训练，得到上述第一目标神经网络模型。
73.如图3所示，在对初始神经网络模型进行训练时，第一步，利用训练数据集pre-trained ssd中的粗标注数据进行第一微调训练，得到中间神经网络模型fine-trained ssd1，由于该训练数据集数据量大，数据标注较为准确，可以较好的用以模型的第一步训练，学习图像的点，线等基础特征；第二步，利用粗标注数据在第一阶段训练完的中间神经网络模型上进行第二微调训练，由于粗标注数据的数据量较大，但是内部含有大量带噪音数据，该数据首先对预训练模型进行第二微调训练，得到第一神经网络模型fine-trained ssd2，可以使得第一神经网络模型学习到图，文，结构等信息的基本特征，且大量的数据可以更好的校准模型的效果。通过本技术实施例，利用精细标注数据对中间神经网络模型进行第二微调训练，更精细化的学习图像特征，且减弱噪音对于模型的影响。
74.在一种可选的实施例中，基于上述标注信息建立与上述多个素材对应的展示结构包括：
75.步骤s802，基于上述标注信息和第二目标神经网络模型建立与上述多个素材对应的展示结构。
76.在本技术实施例中，在获取图片素材，文字素材和图文素材等多个素材之后，通过图文重建方法将所有的素材构建为有层级和顺序信息的图谱结构。
77.可选的，在上述实施步骤中，可以分为三步进行操作，第一步确定整张商品大图的标题属性(即标注信息)，统领所有素材信息；第二步进行素材的聚类，将所有素材进行粗粒度划分，语义关联的素材分到同一类内；第三步对第二步内得到的每一个子类进行顺序划分，确定每一个子素材的先后展示顺序，得到最终的图谱结构；第四步，将素材按照顺序拼接并加入转场特效获得最终的短视频。
78.作为一种可选的实施例，可以通过如下方法获取上述标题属性：一张商品大图需要一个标题对图内的所有子素材进行概括，一方面便于检索图内信息，一方面也可以对该部分素材进行定性分析。
79.在本技术实施例中，可选的，本技术方案可以通过如下实现步骤获取上述标题属性：
80.第一步，通过分类算法，确定子元素内的文本元素中是否存在标题属性。在该步骤中，选择卷积神经网络作为句子分类模型，相较其他的文本分类模型，卷积神经网络可以在保证准确率的情况下，尽可能的提升目标神经网络模型运行的速度；
81.第二步，在通过分类算法后，判断子元素内文字元素无可作为标题属性的句子后，需通过生成模型生成标题。在该步骤中，本技术方案采用transformer作为生成模型，将所有文本元素进行拼接后，进行摘要生成，得到最终所有子素材的标题属性。
82.在一种可选的实施例中，基于上述标注信息和上述第二目标神经网络模型建立与上述多个素材对应的展示结构包括：
83.步骤s902，基于上述标注信息和上述第二目标神经网络模型对上述多个素材进行聚类处理，得到多个素材子类；
84.步骤s904，对上述多个素材子类中每个素材子类进行顺序判定，得到上述展示结构。
85.可选的，如图4所示，上述第二目标神经网络模型为多模态聚类模型，可以采用上述第二目标神经网络模型和标注信息建立多个素材对应的展示结构，以及对多个素材进行编码处理，并对齐不同类型的多个素材的编码。
86.在一种可选的实施例中，上述第二目标神经网络模型是通过对重构损失、聚类损失以及分类损失进行联合训练后得到的聚类模型，上述重构损失是对上述多个素材进行编码构建隐层特征所计算得到的损失，上述聚类损失是利用上述隐层特征进行素材聚类所计算得到的损失，上述分类损失是对上述多个素材进行编码并对不同类型素材的编码进行对齐所计算得到的损失。
87.在获取所有子素材的标注信息后，将剩余的子素材进行聚类，将同一主题或内容下的子素材归为一类(例如，化妆品使用顺序图等归为一类)。可选的，本技术实施例中采用多模态聚类模型进行素材聚类，可以采用如下方式训练得到第二目标神经网络模型：
88.第一步，多模态聚类模型利用自编码器的方式进行隐层特征的构建，并计算重构损失；第二步，多模态聚类模型利用隐层特征进行聚类并计算聚类损失；第三步，因为多模态数据在进行编码时可能存在多模态之间的差异，因此需进行多模态之间的对齐，为完成该功能，多模态聚类模型构建判别器并利用隐层特征进行二分类任务(判定该特征为图像特征还是文本特征)，编码器需要通过编码使得隐层特征不易被正确区分，而判别器则不断学习如何更好的进行区分，两者构成对抗学习关系，计算得到对抗损失，提升模态对齐的准确率。最终通过对重构损失、聚类损失以及分类损失进行联合训练后得到的上述第二目标神经网络模型。
89.在本技术实施例中，在将所有子素材进行聚类处理后，需对每一个子类内的所有元素进行顺序判定，判定其可以在视频中的展示顺序，从而构建完整的图谱结构。为完成该功能，作为一种可选的实施例，可以采用利用排版规则的方式进行判定，按照商品图设计特性，同一组素材内顺序按照其在原图内的坐标信息进行顺序判定，更为靠近左上的素材应该顺序更加靠前。
90.在一种可选的实施例中，利用上述展示结构组合上述多个素材，生成目标视频包括：
91.步骤s1002，基于上述展示结构确定上述多个素材的展示顺序；
92.步骤s1004，按照上述展示顺序对上述多个素材进行视频编辑处理，并在上述多个素材中的相邻素材之间加入转场特效，生成上述目标视频。
93.在本技术实施例中，在获取多个素材并对多个素材进行顺序判定后，通过将多个素材进行顺序排布并在多个素材的相邻素材之间加入转场特效，即可获得最终的短视频文件。
94.在上述运行环境下，本技术提供了如图6所示的一种宣传类型视频生成方法。图6是根据本技术实施例的一种宣传类型视频生成方法的流程图，如图6所示，上述宣传类型视频生成方法包括如下方法步骤：
95.步骤s1102，获取多个宣传类型原始档案，其中，上述多个宣传类型原始档案中每个原始档案包括：至少一个宣传类型素材；
96.步骤s1104，从上述多个宣传类型原始档案中提取多个宣传类型素材以及与上述多个宣传类型素材对应的标注信息；
97.步骤s1106，基于上述标注信息建立与上述多个宣传类型素材对应的展示结构；
98.步骤s1108，利用上述展示结构组合上述多个宣传类型素材，生成宣传类型视频。
99.在本技术实施例中，通过获取多个宣传类型原始档案，其中，上述多个宣传类型原始档案中每个原始档案包括：至少一个宣传类型素材；从上述多个宣传类型原始档案中提取多个宣传类型素材以及与上述多个宣传类型素材对应的标注信息；基于上述标注信息建立与上述多个宣传类型素材对应的展示结构；利用上述展示结构组合上述多个宣传类型素材，生成宣传类型视频。
100.本技术方案利用商品详情页的图文信息进行文档重建，生成短视频，首先，获取多个宣传类型原始档案中每个宣传类型原始档案，从上述多个宣传类型原始档案中提取多个素材以及与上述多个素材对应的标注信息；并基于上述标注信息确定各个素材对应的展示顺序，之后利用图像处理的方法，基于上述展示顺序将多个素材进行组合生成短视频。
101.由此，本技术实施例达到了基于图文素材自动重建生成视频数据的目的，从而实现了更加饱满的立体展示商品，增强用户体验的技术效果，进而解决了现有技术中难以将商品详情页自动重建生成视频数据的技术问题。
102.可选的，上述宣传类型原始档案可以为宣传材料，例如，包含特定物品(例如，商品)的宣传材料，上述多个素材可以为图片素材、图文素材和文本素材，上述宣传类型视频可以为宣传视频，例如，包含特定物品的宣传视频(例如，开场视频、合成贴合潮流视频、地域属性、评论互动)等等。
103.可选的，上述标注信息用于标注每个素材的素材类型，例如，可以采用标签的方式进行标注，基于上述标注信息可以建立与上述多个素材对应的展示结构；上述展示结果可以为有层级和顺序信息的图谱结构，即用于图文重建的顺序结构，进而可以利用上述展示结构组合上述多个素材，生成目标视频。
104.需要说明的是，本技术实施例所提供的一种视频生成方法可以但不限于应用于虚拟人直播场景，例如，虚拟主播直播过程中商品展示场景、虚拟主播直播带货场景；还可以延伸使用于电商直播场景。
105.作为一种可选的实施例，由于单一的图文素材往往较为单调，且不能有逻辑的展示出一段完整的信息，因此，在申请实施例所提供的应用场景中，将多张图片素材和文字素材进行合并，基于图文素材对应的标注信息建立对应的展示结构；按照图片素材和文字素材的展示结构生成的短视频进行顺序展示，利用短视频的方式，不仅可以更好的表现商品属性，还可以增强用户体验。通过本技术实施例，在虚拟主播直播带货过程中，可以通过实时切换展示相关商品图片，直观地展示商品属性、特色、优势等卖点信息，增强直播间的表现力，吸引买家观看和下单。
106.在本技术实施例中，仍需要说明的是，相对于商品详情页中的文字，由于商品详情页中的一些图片，只适合上下滚动展示，但是图片的内容丰富、富有设计感，因此可以作为图文素材来源进行加工重构并应用到虚拟主播场景中，可以对商品进行细粒度多角度更为饱满的立体展示。
107.本技术实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图5示出了一种用于实现视频生成方法的计算机终端(或移动设备)的硬件结构框图，如图5所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，
……
，102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为bus总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图5所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图5中所示更多或者更少的组件，或者具有与图5所示不同的配置。
108.应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本技术实施例中所涉及到的，
该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
109.存储器104可用于存储应用软件的软件程序以及模块，如本技术实施例中的视频生成方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频生成方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
110.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(network interface controller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
111.显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
112.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
113.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个非易失性存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例上述的方法。
114.实施例2
115.根据本技术实施例，还提供了一种用于实施上述视频生成方法的装置实施例，图7是根据本技术实施例的一种视频生成装置的结构示意图，如图7所示，该装置包括：获取模块700、提取模块702、建立模块704和生成模块706，其中：
116.获取模块700，用于获取多个原始档案，每个上述原始档案包括至少一个素材；提取模块702，用于从上述多个原始档案中提取多个素材以及与上述多个素材对应的标注信息；建立模块704，用于基于上述标注信息建立与上述多个素材对应的展示结构；生成模块706，用于利用上述展示结构组合上述多个素材，生成目标视频。
117.此处需要说明的是，上述获取模块700、提取模块702、建立模块704和生成模块706对应于实施例1中的步骤s202至步骤s208，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
118.根据本技术实施例，还提供了一种用于实施上述宣传类型视频生成方法的装置实
施例，图8是根据本技术实施例的一种宣传类型视频生成装置的结构示意图，如图8所示，该装置包括：获取单元800、提取单元802、建立单元804和生成单元806，其中：
119.获取单元802，用于获取多个宣传类型原始档案，其中，上述多个宣传类型原始档案中每个原始档案包括：至少一个宣传类型素材；提取单元804，从上述多个宣传类型原始档案中提取多个宣传类型素材以及与上述多个宣传类型素材对应的标注信息；建立单元806，用于基于上述标注信息建立与上述多个宣传类型素材对应的展示结构；生成单元808，利用上述展示结构组合上述多个宣传类型素材，生成宣传类型视频。
120.此处需要说明的是，上述获取单元800、提取单元802、建立单元804和生成单元806对应于实施例1中的步骤s1102至步骤s1108，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
121.需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。
122.实施例3
123.根据本技术实施例，还提供了一种电子设备的实施例，该电子设备可以是计算设备群中的任意一个计算设备。该电子设备包括：处理器和存储器，其中：
124.处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取多个原始档案，每个上述原始档案包括至少一个素材；从上述多个原始档案中提取多个素材以及与上述多个素材对应的标注信息；基于上述标注信息建立与上述多个素材对应的展示结构；利用上述展示结构组合上述多个素材，生成目标视频。
125.在本技术实施例中，通过获取多个原始档案，每个上述原始档案包括至少一个素材；从上述多个原始档案中提取多个素材以及与上述多个素材对应的标注信息；基于上述标注信息建立与上述多个素材对应的展示结构；利用上述展示结构组合上述多个素材，生成目标视频。
126.本技术方案利用商品详情页的图文信息进行文档重建，生成短视频，首先，获取多个原始档案中每个原始档案，从上述多个原始档案中提取多个素材以及与上述多个素材对应的标注信息；并基于上述标注信息确定各个素材对应的展示顺序，之后利用图像处理的方法，基于上述展示顺序将多个素材进行组合生成短视频。
127.由此，本技术实施例达到了基于图文素材自动重建生成视频数据的目的，从而实现了更加饱满的立体展示商品，增强用户体验的技术效果，进而解决了现有技术中难以将商品详情页自动重建生成视频数据的技术问题。
128.需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。
129.实施例4
130.根据本技术的实施例，还提供了一种计算机终端的实施例，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。
131.可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
132.在本实施例中，上述计算机终端可以执行应用程序的视频生成方法中以下步骤的程序代码：获取多个原始档案，每个上述原始档案包括至少一个素材；从上述多个原始档案中提取多个素材以及与上述多个素材对应的标注信息；基于上述标注信息建立与上述多个素材对应的展示结构；利用上述展示结构组合上述多个素材，生成目标视频。
133.可选地，图9是根据本技术实施例的另一种计算机终端的结构框图，如图9所示，该计算机终端可以包括：一个或多个(图中仅示出一个)处理器902、存储器904、以及外设接口906。
134.其中，存储器可用于存储软件程序以及模块，如本技术实施例中的视频生成方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频生成方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
135.处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取多个原始档案，每个上述原始档案包括至少一个素材；从上述多个原始档案中提取多个素材以及与上述多个素材对应的标注信息；基于上述标注信息建立与上述多个素材对应的展示结构；利用上述展示结构组合上述多个素材，生成目标视频。
136.可选的，上述处理器还可以执行如下步骤的程序代码：利用感兴趣区域识别方式对上述多个原始档案中的图片块进行检测，得到图片素材；利用光学字符识别方式对上述多个原始档案中的文字块进行检测以及利用上述文字块的排版规则，得到文本素材；基于上述排版规则对上述图片块和上述文字块进行合并处理，得到图文素材。
137.可选的，上述处理器还可以执行如下步骤的程序代码：当上述文字块位于上述图片块内部的第一预设区域且上述文字块在上述图片块内部的占比大于第一预设阈值时，将上述图片块和上述文字块合并为上述图文素材；当上述文字块位于上述图片块外部的第二预设区域且上述文字块与上述图片块之间的距离小于第二预设阈值时，将上述图片块和上述文字块合并为上述图文素材。
138.可选的，上述处理器还可以执行如下步骤的程序代码：利用第一目标神经网络模型从上述多个原始档案中提取与上述多个素材对应的标注信息。
139.可选的，上述处理器还可以执行如下步骤的程序代码：构建训练数据集，其中，上述训练数据集包括：第一标注数据和第二标注数据，上述第一标注数据是通过机器学习方式得到的标注数据，上述第二标注数据是通过人工标注方式得到的标注数据；采用上述训练数据集对初始神经网络模型进行训练，得到上述第一目标神经网络模型，其中，上述初始神经网络模型是采用初始数据集进行预训练得到的网络模型。
140.可选的，上述处理器还可以执行如下步骤的程序代码：采用上述第一标注数据对上述初始神经网络模型进行第一微调训练，得到中间神经网络模型；采用上述第二标注数据对上述中间神经网络模型进行第二微调训练，得到上述第一目标神经网络模型。
141.可选的，上述处理器还可以执行如下步骤的程序代码：基于上述标注信息和第二目标神经网络模型建立与上述多个素材对应的展示结构。
142.可选的，上述处理器还可以执行如下步骤的程序代码：基于上述标注信息和上述第二目标神经网络模型对上述多个素材进行聚类处理，得到多个素材子类；对上述多个素材子类中每个素材子类进行顺序判定，得到上述展示结构。
143.可选的，上述处理器还可以执行如下步骤的程序代码：基于上述展示结构确定上述多个素材的展示顺序；按照上述展示顺序对上述多个素材进行视频编辑处理，并在上述多个素材中的相邻素材之间加入转场特效，生成上述目标视频。
144.可选的，上述处理器还可以执行如下步骤的程序代码：获取多个宣传类型原始档案，其中，上述多个宣传类型原始档案中每个原始档案包括：至少一个宣传类型素材；从上述多个宣传类型原始档案中提取多个宣传类型素材以及与上述多个宣传类型素材对应的标注信息；基于上述标注信息建立与上述多个宣传类型素材对应的展示结构；利用上述展示结构组合上述多个宣传类型素材，生成宣传类型视频。
145.采用本技术实施例，提供了一种视频生成的方案。通过获取多个原始档案，每个上述原始档案包括至少一个素材；从上述多个原始档案中提取多个素材以及与上述多个素材对应的标注信息；基于上述标注信息建立与上述多个素材对应的展示结构；利用上述展示结构组合上述多个素材，生成目标视频。
146.本技术方案利用商品详情页的图文信息进行文档重建，生成短视频，首先，获取多个原始档案中每个原始档案，从上述多个原始档案中提取多个素材以及与上述多个素材对应的标注信息；并基于上述标注信息确定各个素材对应的展示顺序，之后利用图像处理的方法，基于上述展示顺序将多个素材进行组合生成短视频。
147.由此，本技术实施例达到了基于图文素材自动重建生成视频数据的目的，从而实现了更加饱满的立体展示商品，增强用户体验的技术效果，进而解决了现有技术中难以将商品详情页自动重建生成视频数据的技术问题。
148.本领域普通技术人员可以理解，图9所示的结构仅为示意，计算机终端也可以是智能手机(如android手机、ios手机等)、平板电脑、掌声电脑以及移动互联网设备(mobile internet devices，mid)、pad等终端设备。图9其并不对上述电子装置的结构造成限定。例如，计算机终端还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。
149.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读非易失性存储介质中，非易失性存储介质可以包括：闪存盘、只读存储器(read-only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
150.实施例5
151.根据本技术的实施例，还提供了一种非易失性存储介质的实施例。可选地，在本实施例中，上述非易失性存储介质包括存储的程序，其中，在上述程序运行时控制上述非易失性存储介质所在设备执行上述的视频生成方法，以及上述的宣传类型视频生成方法。
152.可选地，在本实施例中，上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。
153.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：获取多个原始档案，每个上述原始档案包括至少一个素材；从上述多个原始档案中
提取多个素材以及与上述多个素材对应的标注信息；基于上述标注信息建立与上述多个素材对应的展示结构；利用上述展示结构组合上述多个素材，生成目标视频。
154.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：利用感兴趣区域识别方式对上述多个原始档案中的图片块进行检测，得到图片素材；利用光学字符识别方式对上述多个原始档案中的文字块进行检测以及利用上述文字块的排版规则，得到文本素材；基于上述排版规则对上述图片块和上述文字块进行合并处理，得到图文素材。
155.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：当上述文字块位于上述图片块内部的第一预设区域且上述文字块在上述图片块内部的占比大于第一预设阈值时，将上述图片块和上述文字块合并为上述图文素材；当上述文字块位于上述图片块外部的第二预设区域且上述文字块与上述图片块之间的距离小于第二预设阈值时，将上述图片块和上述文字块合并为上述图文素材。
156.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：利用第一目标神经网络模型从上述多个原始档案中提取与上述多个素材对应的标注信息。
157.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：构建训练数据集，其中，上述训练数据集包括：第一标注数据和第二标注数据，上述第一标注数据是通过机器学习方式得到的标注数据，上述第二标注数据是通过人工标注方式得到的标注数据；采用上述训练数据集对初始神经网络模型进行训练，得到上述第一目标神经网络模型，其中，上述初始神经网络模型是采用初始数据集进行预训练得到的网络模型。
158.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：采用上述第一标注数据对上述初始神经网络模型进行第一微调训练，得到中间神经网络模型；采用上述第二标注数据对上述中间神经网络模型进行第二微调训练，得到上述第一目标神经网络模型。
159.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：基于上述标注信息和第二目标神经网络模型建立与上述多个素材对应的展示结构。
160.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：基于上述标注信息和上述第二目标神经网络模型对上述多个素材进行聚类处理，得到多个素材子类；对上述多个素材子类中每个素材子类进行顺序判定，得到上述展示结构。
161.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：基于上述展示结构确定上述多个素材的展示顺序；按照上述展示顺序对上述多个素材进行视频编辑处理，并在上述多个素材中的相邻素材之间加入转场特效，生成上述目标视频。
162.可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：获取多个宣传类型原始档案，其中，上述多个宣传类型原始档案中每个原始档案包括：至少一个宣传类型素材；从上述多个宣传类型原始档案中提取多个宣传类型素材以及
与上述多个宣传类型素材对应的标注信息；基于上述标注信息建立与上述多个宣传类型素材对应的展示结构；利用上述展示结构组合上述多个宣传类型素材，生成宣传类型视频。
163.上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
164.在本技术的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
165.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
166.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
167.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
168.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取非易失性存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个非易失性存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的非易失性存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
169.以上所述仅是本技术的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本技术的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘喜凯高星
技术所有人：阿里巴巴新加坡控股有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。