视频特征提取模型的训练方法和装置与流程

文档序号：30418570发布日期：2022-06-15 12:19阅读：267来源：国知局

1.本技术涉及计算机技术领域，特别涉及一种视频特征提取模型的训练方法和装置。

背景技术：

2.对于一些具有视频发布功能或视频播放功能的应用程序来说，为了方便后续的管理，通常会使用视频特征提取模型对每个视频进行特征提取，从而得到每个视频对应的视频特征信息。
3.当前，视频特征提取模型的训练方法是采用视频的标签作为监督信息的方法，具体的，在将样本视频的模态信息输入视频特征提取模型中从而得到输出的样本视频对应的视频特征信息后，再将样本视频的视频特征信息输入标签确定模型中，从而得到每种标签对应的概率，每个标签的概率用于指示该样本视频匹配该标签的概率，然后基于该样本视频对应的实际标签和标签确定模型输出的每种标签的概率，来对视频特征提取模型和标签确定模型进行训练。
4.由于标签是较为细粒度的衡量标准，因此，为视频匹配的实际标签也是较为细粒度的标签，有可能两个视频在某一程度上较为相似，但是并没有为它们匹配相同的实际标签，且由于在上述训练过程中也并未应用标签之间的语义关联信息，这也就导致了两个视频的视频特征信息之间的相似度可能会很小，即视频特征信息可能会较为不准确。例如，视频a的实际标签为“格斗游戏”和“单机游戏”，视频b的标签为“格斗”和“拳击”，但由于视频a和视频b的实际标签不同，进行特征提取后得到的两个视频特征信息之间的相似度会较小，从而导致了视频特征提取模型的不准确。

技术实现要素：

5.本技术实施例提供了一种视频特征提取模型的训练方法，能够解决现有技术中训练完成的视频特征提取模型的输出结果不准确的问题。
6.第一方面，提供了一种视频特征提取模型的训练方法，所述方法包括：
7.获取样本视频的模态信息和所述样本视频对应的样本标签；
8.基于所述样本视频对应的样本标签和训练完成的标签特征提取模型，确定所述样本视频对应的标签特征信息；
9.基于所述样本视频的模态信息和待训练的视频特征提取模型，确定所述样本视频对应的视频特征信息；
10.基于所述样本视频对应的标签特征信息和视频特征信息，对所述待训练的视频特征提取模型进行训练。
11.在一种可能的实现方式中，所述模态信息包括图像数据、标题文本数据、音频数据和字幕数据中的至少一个。
12.在一种可能的实现方式中，所述基于所述样本视频对应的样本标签和训练完成的
标签特征提取模型，确定所述样本视频对应的标签特征信息，包括：
13.将每个样本标签分别输入所述训练完成的标签特征提取模型，得到所述每个样本标签对应的特征信息；
14.基于所述每个样本标签对应的特征信息和标签融合模型，确定所述样本视频对应的标签特征信息。
15.在一种可能的实现方式中，所述模态信息包括图像数据和标题文本数据，所述视频特征提取模型包括图像特征提取子模型、标题特征提取子模型和模态融合子模型；
16.所述基于所述样本视频的模态信息和待训练的视频特征提取模型，确定所述样本视频对应的视频特征信息，包括：
17.基于所述样本视频的图像数据和待训练的图像特征提取子模型，确定所述样本视频对应的图像特征信息；
18.基于所述样本视频对应的标题文本数据和待训练的标题特征提取子模型，确定所述样本视频对应的标题特征信息；
19.基于待训练的模态融合子模型、以及所述样本视频对应的图像特征信息和标题特征信息，确定所述样本视频对应的视频特征信息。
20.在一种可能的实现方式中，所述样本视频的图像数据包括多个图像帧数据，所述图像特征提取子模型包括图像帧特征提取模块和图像融合模块；
21.所述基于所述样本视频的图像数据和待训练的图像特征提取子模型，确定所述样本视频对应的图像特征信息，包括：
22.将每个图像帧数据分别输入待训练的图像帧特征提取模块，得到所述每个图像帧数据对应的图像帧特征信息；
23.将所述每个图像帧数据对应的图像帧特征信息输入待训练的图像融合模块，得到所述样本视频对应的图像特征信息。
24.在一种可能的实现方式中，所述基于所述样本视频对应的标签特征信息和视频特征信息，对所述待训练的视频特征提取模型进行训练，包括：
25.获取其他样本视频对应的样本标签；
26.基于所述其他样本视频对应的样本标签和所述训练完成的标签特征提取模型，确定所述其他样本视频对应的标签特征信息；
27.基于所述其他样本视频对应的标签特征信息、以及所述样本视频对应的标签特征信息和视频特征信息，对所述待训练的视频特征提取模型进行训练。
28.在一种可能的实现方式中，所述基于所述其他样本视频对应的标签特征信息、以及所述样本视频对应的标签特征信息和视频特征信息，对所述待训练的视频特征提取模型进行训练，包括：
29.将所述样本视频对应的标签特征信息作为所述样本视频对应的视频特征信息的正样本，将所述其他样本视频对应的标签特征信息作为所述样本视频对应的视频特征信息的负样本，基于三元组损失函数、所述其他样本视频对应的标签特征信息、以及所述样本视频对应的标签特征信息和视频特征信息，计算损失值；
30.基于所述损失值，对所述待训练的视频特征提取模型进行训练。
31.第二方面，提供一种视频特征提取模型的训练装置，所述装置包括：
32.获取模块，用于获取样本视频的模态信息和所述样本视频对应的样本标签；
33.第一确定模块，用于基于所述样本视频对应的样本标签和训练完成的标签特征提取模型，确定所述样本视频对应的标签特征信息；
34.第二确定模块，用于基于所述样本视频的模态信息和待训练的视频特征提取模型，确定所述样本视频对应的视频特征信息；
35.训练模块，用于基于所述样本视频对应的标签特征信息和视频特征信息，对所述待训练的视频特征提取模型进行训练。
36.在一种可能的实现方式中，所述模态信息包括图像数据、标题文本数据、音频数据和字幕数据中的至少一个。
37.在一种可能的实现方式中，所述第一确定模块，用于：
38.将每个样本标签分别输入所述训练完成的标签特征提取模型，得到所述每个样本标签对应的特征信息；
39.基于所述每个样本标签对应的特征信息和标签融合模型，确定所述样本视频对应的标签特征信息。
40.在一种可能的实现方式中，所述模态信息包括图像数据和标题文本数据，所述视频特征提取模型包括图像特征提取子模型、标题特征提取子模型和模态融合子模型；
41.所述第二确定模块，用于：
42.基于所述样本视频的图像数据和待训练的图像特征提取子模型，确定所述样本视频对应的图像特征信息；
43.基于所述样本视频对应的标题文本数据和待训练的标题特征提取子模型，确定所述样本视频对应的标题特征信息；
44.基于待训练的模态融合子模型、以及所述样本视频对应的图像特征信息和标题特征信息，确定所述样本视频对应的视频特征信息。
45.在一种可能的实现方式中，所述样本视频的图像数据包括多个图像帧数据，所述图像特征提取子模型包括图像帧特征提取模块和图像融合模块；
46.所述第二确定模块，用于：
47.将每个图像帧数据分别输入待训练的图像帧特征提取模块，得到所述每个图像帧数据对应的图像帧特征信息；
48.将所述每个图像帧数据对应的图像帧特征信息输入待训练的图像融合模块，得到所述样本视频对应的图像特征信息。
49.在一种可能的实现方式中，所述训练模块，用于：
50.获取其他样本视频对应的样本标签；
51.基于所述其他样本视频对应的样本标签和所述训练完成的标签特征提取模型，确定所述其他样本视频对应的标签特征信息；
52.基于所述其他样本视频对应的标签特征信息、以及所述样本视频对应的标签特征信息和视频特征信息，对所述待训练的视频特征提取模型进行训练。
53.在一种可能的实现方式中，所述训练模块，用于：
54.将所述样本视频对应的标签特征信息作为所述样本视频对应的视频特征信息的正样本，将所述其他样本视频对应的标签特征信息作为所述样本视频对应的视频特征信息
的负样本，基于三元组损失函数、所述其他样本视频对应的标签特征信息、以及所述样本视频对应的标签特征信息和视频特征信息，计算损失值；
55.基于所述损失值，对所述待训练的视频特征提取模型进行训练。
56.第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，存储器中存储有至少一条指令，指令由处理器加载并执行以实现视频特征提取模型的训练方法所执行的操作。
57.第四方面，提供了一种计算机可读存储介质，存储介质中存储有至少一条指令，指令由处理器加载并执行以实现视频特征提取模型的训练方法所执行的操作。
58.第五方面，提供了一种计算机程序产品，所述计算机程序产品中包括至少一条指令，所述至少一条指令由处理器加载并执行以实现视频特征提取模型的训练方法所执行的操作。
59.本技术实施例提供的技术方案带来的有益效果是：本技术实施例中提到的方案，可以基于样本视频对应的样本标签和训练完成的标签特征提取模型，确定出样本视频对应的标签特征信息，基于样本视频的模态信息和待训练的视频特征提取模型，确定出样本视频对应的视频特征信息，然后基于样本视频对应的标签特征信息和视频特征信息对待训练的视频特征提取模型进行训练，采用本技术，由于标签特征信息可以表征样本标签的语义信息，不同的标签特征信息之间具有了语义关联度，这样，在使用样本视频的标签特征信息作为监督信息对待训练的视频特征提取模型进行训练后得到的视频特征提取模型，可以预测出更为准确的视频特征信息。
附图说明
60.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
61.图1是本技术实施例提供的一种视频特征提取模型的训练方法的流程图；
62.图2是本技术实施例提供的一种样本标签之间的关联关系的示意图；
63.图3是本技术实施例提供的一种确定视频特征信息的方法流程图；
64.图4是本技术实施例提供的一种确定视频特征信息的方法流程图；
65.图5是本技术实施例提供的一种视频特征提取模型的训练方法的流程图；
66.图6是本技术实施例提供的一种度量学习前后的示意图；
67.图7是本技术实施例提供的一种原始视频和重复视频的示意图；
68.图8是本技术实施例提供的一种粗排的方法流程图；
69.图9是本技术实施例提供的一种视频特征提取模型的训练装置的结构示意图；
70.图10是本技术实施例提供的一种服务器的结构框图。
具体实施方式
71.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
72.本技术实施例提供了一种视频特征提取模型的训练方法，服务器可以是单个服务器或者也可以是多个服务器组成的服务器集群。
73.服务器可以包括处理器、存储器、通信部件等，处理器分别与存储器、通信部件连接。
74.处理器可以是cpu(central processing unit，中央处理器)。处理器可以用于读取指令和对数据进行处理，例如，获取样本视频的模态信息和样本视频对应的样本标签、确定样本视频对应的标签特征信息、确定样本视频对应的视频特征信息、基于样本视频对应的标签特征信息和视频特征信息对待训练的视频特征提取模型进行训练，等等。
75.存储器可以包括rom(read-only memory，只读存储器)、ram(random access memory，随机存取存储器)、cd-rom(compact disc read-only memory，光盘只读存储器)、磁盘、光数据存储设备等。存储器可以用于数据存储，例如，对获取到的样本视频的模态信息的数据存储、对获取到的样本视频对应的样本标签的数据存储、对在确定样本视频对应的标签特征信息的过程中产生的中间数据的数据存储、对确定出的样本视频对应的标签特征信息的数据存储、对在确定样本视频对应的视频特征信息的过程中产生的中间数据的数据存储、对确定出的样本视频对应的视频特征信息的数据存储、对待训练的视频特征提取模型进行训练的过程中产生的中间数据的数据存储，等等。
76.通信部件可以是有线网络连接器、wifi(wireless fidelity，无线保真)模块、蓝牙模块、蜂巢网通信模块等。通信部件可以用于接收和发送信号。
77.本技术实施例中的标签特征提取模型和视频特征提取模型均属于ml(machine learning，机器学习)领域，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不但改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学系等技术。
78.服务器可以是具有视频发布功能或视频播放功能的应用程序的后台服务器，后台服务器可以对待训练的视频特征提取模型进行训练，从而得到训练完成的视频特征提取模型，当检测到该应用程序中有新视频发布时，可以对该视频进行特征提取，得到视频对应的视频特征信息并进行对应存储。在后续对视频进行管理时，可以应用每个视频对应的视频特征信息，例如，进行视频推荐等活动时，可以基于每个视频对应的视频特征信息进行对视频进行筛选。
79.图1是本技术实施例提供的一种视频特征提取模型的训练方法的流程图。
80.参见图1，该实施例包括：
81.101、获取样本视频的模态信息和样本视频对应的样本标签。
82.对于样本视频的模态信息的说明：模态信息可以包括图像数据、标题文本数据、音频数据和字幕数据中的至少一个。本技术实施例中的样本视频的模态信息可以是任意一种模态信息，也可以是多种模态信息的组合，例如，样本视频的模态信息可以包括样本视频的图像数据和标题文本数据，或者，包括样本视频的图像数据和音频数据，或者，包括样本视频的标题文本数据和音频数据，等等，可以理解的是，样本视频的模态信息还可以包括其他
未被列举的模态信息，本技术实施例对于样本视频的模态信息包括的具体内容不作限定。
83.对于样本视频对应的样本标签的说明：当检测到应用程序中有新视频发布时，会基于预设的算法或者机器学习模型，为该视频匹配一个或多个标签，并将该标签与视频进行对应存储。样本视频对应的样本标签可以是该样本视频对应的所有匹配的标签，也可以是在对所有的标签进行筛选后得到的一部分标签。
84.对标签进行筛选从而得到样本视频对应的样本标签的方法可以是：工作人员可以预先设定占比阈值。获取每个标签对应的视频数目占比，将对应的视频数目占比小于占比阈值的标签剔除，将对应的视频数目占比大于或等于占比阈值的标签作为样本视频对应的样本标签，其中，标签对应的视频数目占比为在曝光的所有视频中该标签对应的视频数目与所有曝光视频数目的比值。这样，可以将出现频次较低的标签剔除，这些标签往往比较小众化，不具有泛化性。
85.在实施中，工作人员可以先设置样本集合，该样本集合中包括多个样本视频的模态信息和对应的样本标签。在对待训练的视频特征提取模型进行训练时，可以每次从样本集合中随机选取不同的样本视频的模态信息和对应的样本标签，来分别对视频特征提取模型进行训练。
86.102、基于样本视频对应的样本标签和训练完成的标签特征提取模型，确定样本视频对应的标签特征信息。
87.在实施中，在获取到样本视频对应的一个或多个样本标签后，可以基于样本视频对应的样本标签和训练完成的标签特征提取模型，确定出一个聚合了所有的样本标签的语义信息的标签特征信息。
88.可选的，确定样本视频对应的标签特征信息的方法可以如下：
89.将每个样本标签分别输入训练完成的标签特征提取模型，得到每个样本标签对应的特征信息。基于每个样本标签对应的特征信息和标签融合模型，确定样本视频对应的标签特征信息。
90.在实施中，标签特征提取模型分别对每个样本标签进行特征提取，从而得到每个样本标签对应的特征信息。在将这多个样本标签对应的特征信息输入标签融合模型中后，可以对多个样本标签对应的特征信息进行融合，从而得到一个融合后的特征信息，即为该样本视频对应的标签特征信息。例如，样本视频a对应的样本标签为“格斗游戏”、“pk”、“拳击”，可以将这三个样本标签分别输入标签特征提取模型中，从而得到“格斗游戏”对应的特征信息、“pk”对应的特征信息和“拳击”对应的特征信息，然后可以将这三个特征信息输入标签融合模型中进行融合，从而得到样本视频a对应的标签特征信息。
91.可选的，若获取到的样本视频对应的多个样本标签是以文本句子的格式来存储的，而不是分别将每个样本标签作为单独的词语来存储的时候，可以先对样本视频对应的样本标签进行分词处理，从而得到分词后的一个或多个词语，然后再使用标签特征提取模型对每个词语分别进行特征提取，从而得到每个词语对应的特征信息。再通过标签融合模型对这一个或多个词语对应的特征信息进行融合处理，从而得到该样本视频对应的标签特征信息。
92.其中，标签特征提取模型可以是word2vec(word to vector，字对向量)模型，当然，也可以是其他合理性的特征提取模型，本技术实施例对此不作限定。
93.在步骤102之前，可以先对标签特征提取模型进行训练，从而得到训练完成的标签特征提取模型，例如，可以对word2vec模型进行无监督的训练，从而得到训练完成的word2vec模型。
94.标签融合模型对于多个样本标签对应的特征信息的融合方式可以有多种，例如，每个样本标签对应的特征信息的维度可以相同，在将这多个样本标签对应的特征信息输入标签融合模型中后，标签融合模型可以对这多个特征信息进行对位相加处理，即将每个维度的数值相加，从而得到一个新的特征信息，即为标签特征信息。当然，融合方式还可以有多种，本技术实施例对此不作限定。
95.通过上述处理，可以将样本视频对应的样本标签所带有的语义信息转换为特征信息，即可以得到具有样本标签的语义信息的标签特征信息，从而对不同样本视频对应的标签特征信息建立了关联关系。例如，对于图2(a)中所示，在得到标签特征信息后，可以使得样本标签“queen”与“king”之间、“women”与“man”之间存在语义信息的关联，对于图2(b)中所示，在得到标签特征信息后，可以使得样本标签“big”与“biggest”之间、“small”与“smallest”之间存在语法信息之间的关联。
96.103、基于样本视频的模态信息和待训练的视频特征提取模型，确定样本视频对应的视频特征信息。
97.在实施中，在获取了样本视频的模态信息后，可以将其输入待训练的视频特征提取模型，从而得到该视频特征提取模型输出的样本视频对应的视频特征信息。
98.104、基于样本视频对应的标签特征信息和视频特征信息，对待训练的视频特征提取模型进行训练。
99.在实施中，采用样本视频对应的标签特征信息作为监督信息，来对待训练的视频特征提取模型进行训练。
100.将样本标签转化为标签特征信息，使标签特征信息具有样本标签的语义信息，这样，不同样本视频对应的标签特征信息之间的距离，即可作为不同样本视频对应的样本标签之间的度量，来衡量不同样本视频对应的样本标签之间的语义关联强度，两个标签特征信息之间的距离越近，说明两个样本视频对应的样本标签之间的语义关联强度越强。在待训练的视频特征提取模型以标签特征信息作为监督信号完成训练后，即可将样本标签之间的语义关系加入到模型中，使得视频特征提取模型既可以学习到标签特征信息具有的样本视频本身的视觉信息、文本信息或音频信息，还可以学习到标签特征信息具有的样本标签之间的语义信息，从而提高了视频特征提取模型的准确性。
101.使用样本集合中的样本视频对待训练的视频特征提取模型进行多次训练，直到达到预设结束条件，才停止训练，预设结束条件可以有多种，以下为其中的三种：
102.第一种，使用不同的样本视频对待训练的视频特征提取模型进行训练的次数达到训练次数阈值。在实施中，工作人员可以预先设置训练次数阈值，当训练次数达到训练次数阈值时，可以停止训练，将最后一次训练后得到的视频特征提取模型，确定为训练完成的视频特征提取模型。训练次数阈值可以是任意合理性的数值，例如，可以是200，也可以是300等等，本技术实施例对此不作限定。
103.第二种，连续的预设数目次训练得到的损失值均小于预设损失值阈值。预设数目和预设损失值阈值均可以是任意合理性的数值，例如，预设数目可以是3或者5，等等，预设
损失值阈值可以是0.05等等，本技术实施例对此不作限定。
104.第三种，训练的次数达到训练次数阈值，且连续的预设数目次训练得到的损失值均小于预设损失值阈值。
105.预设结束条件可以是上述三种中的任意一种，也可以是其他的结束条件，本技术实施例对此不作限定。
106.在上述步骤101之前，工作人员需要先设置好样本集合，该样本集合中包括多个样本视频的模态信息和对应的样本标签。
107.工作人员可以对应用程序中的视频进行筛选，从而得到样本集合中的样本视频，具体的视频筛选方法可以有多种，以下列举出其中的几种：
108.第一种，可以通过视频的曝光时间来对视频进行筛选，可以选择曝光时间与当前时间的时间差值小于预设时长的视频来作为样本视频。例如，可以获取该应用程序中近三个月中线上曝光的视频作为样本视频。
109.第二种，可以通过视频的内容质量来对视频进行筛选，即：可以将视频分为不同的类型，例如可以将视频分为搞笑视频、吃播视频、影视视频和垃圾视频等。然后可以将类型为垃圾视频的视频剔除，可以从除了垃圾视频之外的其他视频中获取样本视频。
110.第三种，可以通过视频的清晰度来对视频进行筛选。
111.例如，工作人员可以预先设置分辨率阈值，然后在筛选时可以将视频的分辨率小于分辨率阈值的视频剔除，可以从分辨率大于或等于分辨率阈值的多个视频中获取样本视频。
112.再例如，可以检测视频中是否存在水印，可以将存在水印的视频剔除，从不存在水印的多个视频中获取样本视频。
113.第四种，可以通过类型占比来对视频进行筛选，使得样本集合包括的多个样本视频对应的每个类型的视频数目占比，与应用程序中曝光的多个视频对应的每个类型的视频数目占比相同，使得样本集合中的数据与线上真实数据保持一致。
114.例如，应用程序所有曝光的视频分为三个类型，即搞笑视频、吃播视频和影视视频，其对应的视频数目占比分别为20％、50％和30％，则在设置样本集合时，在样本集合包括的多个样本视频中，搞笑视频、吃播视频和影视视频对应的视频数目占比同样分别为20％、50％和30％。
115.上述的筛选方法仅为列举，在本技术实施例中，获取样本集合的方法可以是通过上述四种筛选方法对应用程序中的视频进行筛选后的得到的，也可以是通过上述任意筛选方法组合对视频进行筛选后得到的，也可以是通过其他筛选方法对视频进行筛选后得到的，本技术实施例对此不作限定。
116.在上述步骤103中，针对不同的模态信息，可以设置不同的视频特征提取模型。如图3和图4所示，以下以模态信息包括图像数据和标题文本数据为例，对视频特征提取模型的处理流程进行较为详细的介绍：
117.模态信息包括图像数据和标题文本数据，对应的，视频特征提取模型可以包括图像特征提取子模型、标题特征提取子模型和模态融合子模型。其处理流程可以包括：
118.1031、基于样本视频的图像数据和待训练的图像特征提取子模型，确定样本视频对应的图像特征信息。
119.在实施中，将样本视频的图像数据输入待训练的图像特征提取子模型，从而得到该图像特征提取子模型输出的特征信息，即为样本视频对应的图像特征信息。
120.可选的，样本视频的图像数据可以是对样本视频进行了全局、稀疏采样之后得到的多个图像帧数据，对应的，图像特征提取子模型可以包括图像帧特征提取模块和图像融合模块。
121.图像特征提取子模型对应的处理流程可以是：将每个图像帧数据分别输入待训练的图像帧特征提取模块，得到每个图像帧数据对应的图像帧特征信息。将每个图像帧数据对应的图像帧特征信息输入待训练的图像融合模块，得到样本视频对应的图像特征信息。
122.其中，图像帧特征提取模块可以是imagenet backbone(使用网络图像数据集训练的基干网络)模型，例如，可以是inceptionresnetv2(inception residual neural network v2，借助残差网络进一步提升图像分类水准)模型、resnet(residual neural network，残差网络)模型、efficientnet(efficient network，高效网络)模型等模型。图像融合模块可以是nextvlad(next vector of locally aggregated descriptors，下一个局部特征聚合描述符)模型。当然，图像帧特征提取模块和图像融合模块也可以是其他合理性的机器学习模型，本技术实施例对此不作限定。
123.可选的，图像特征提取子模型还可以包括特征增强模块。在处理过程中，可以将图像融合模块输出的特征信息输入到特征增强模块，从而得到特征增强模块输出的特征信息，该特征信息即为样本视频对应的图像特征信息。
124.其中，该特征增强模块可以是senet(squeeze-and-excitation network，压缩和激励网络)模型，当然，也可以是其他模型，本技术实施例对此不作限定。
125.1032、基于样本视频对应的标题文本数据和待训练的标题特征提取子模型，确定样本视频对应的标题特征信息。
126.在实施中，将样本视频对应的标题文本数据输入待训练的标题特征提取子模型，标题特征提取子模型对样本视频对应的标题文本数据进行特征提取，从而得到特征提取后的特征信息，即为该样本视频对应的标题特征信息。
127.其中，标题特征提取子模型可以是bert(bidirectional encoder representations from transformers，基于转换器的双向编码表征)模型，当然，也可以是其他文本特征提取模型，本技术实施例对此不作限定。
128.1033、基于待训练的模态融合子模型、以及样本视频对应的图像特征信息和标题特征信息，确定样本视频对应的视频特征信息。
129.在实施中，在得到样本视频对应的图像特征信息和标题特征信息后，可以将样本视频对应的图像特征信息和标题特征信息输入待训练的模态融合子模型，从而得到将图像特征信息和标题特征信息进行融合处理后的特征信息，即为样本视频对应的视频特征信息。
130.其中，模态融合子模型可以是gmu(gate multimodal unit，多通道门单元)模型，或者是senet模型，当然，也可以是其他融合模型，本技术实施例对此不作限定。或者，融合的方式可以是直接将样本视频对应的图像特征信息和标题特征信息首尾拼接，从而得到一个拼接后的特征信息，即为样本视频对应的视频特征信息。
131.在上述步骤104中，为提高视频特征提取模型的准确性，还可以使用三元组对待训
练的视频特征提取模型进行训练，如图5所示，对应的处理可以如下：
132.1041、获取其他样本视频对应的样本标签。
133.在实施中，可以随机获取样本集合中的其他样本视频，可选的，还可以随机获取样本集合中与样本视频的标签不同的其他样本视频。然后获取其他样本视频对应的样本标签。
134.1042、基于其他样本视频对应的样本标签和训练完成的标签特征提取模型，确定其他样本视频对应的标签特征信息。
135.在实施中，方法与上述步骤102中的处理方法一致，基于标签特征提取模型对其他样本视频对应的样本标签进行特征提取，从而得到具有样本标签的语义信息的特征信息，来作为其他样本视频对应的标签特征信息。
136.1043、基于其他样本视频对应的标签特征信息、以及样本视频对应的标签特征信息和视频特征信息，对待训练的视频特征提取模型进行训练。
137.在实施中，可以使用三元组损失函数来计算损失值，对应的处理可以如下：
138.将样本视频对应的标签特征信息作为样本视频对应的视频特征信息的正样本，将其他样本视频对应的标签特征信息作为样本视频对应的视频特征信息的负样本，将其他样本视频对应的标签特征信息、以及样本视频对应的标签特征信息和视频特征信息，输入三元组损失函数，计算损失值。基于损失值，对待训练的视频特征提取模型进行训练。
139.在本技术实施例中，可以使用度量学习的方法对待训练的视频特征提取模型进行训练，使得最终得到的视频特征信息距离正样本越来越近，且距离负样本越来越远，如图6所示，从而得到将样本标签的语音信息结合到视频特征信息中的目的，从而提高视频特征提取模型的准确性。
140.在使用标签特征信息作为监督信息对待训练的视频特征提取模型进行训练后，还可以使用其他信息作为监督信息对视频特征提取模型进行再一次的训练。
141.可选的，除了标签之外，账号也可以作为一个监督信息，通常，同一账号下发布的视频要比不同账号下发布的视频更加相似，因此，可以将账号作为监督信息对视频特征提取模型进行再一次的训练，对应的处理可以如下：
142.将使用标签特征信息作为监督信息对待训练的视频特征提取模型进行训练之后得到的模型称为标签训练后的视频特征提取模型。再获取样本集合，该样本集合中包括多个样本，每个样本包括样本视频对应的参考视频特征信息、正样本视频对应的参考视频特征信息和负样本视频对应的参考视频特征信息，其中，参考视频特征信息为将样本视频的模态信息输入标签训练后的视频特征提取模型后输出的特征信息，正样本视频与样本视频为同一账号发布的视频，负样本视频与样本视频为不同账号发布的视频。
143.将正样本视频对应的视频特征信息作为样本视频对应的视频特征信息的正样本，将负样本视频对应的视频特征信息作为样本视频对应的视频特征信息的负样本，将正样本视频对应的视频特征信息、负样本视频对应的视频特征信息和样本视频对应的视频特征信息，输入三元组损失函数，计算损失值。基于损失值，对标签训练后的视频特征提取模型进行训练，从而得到完成训练的视频特征提取模型。
144.在得到训练完成的视频特征提取模型后，可以设置测试集合对训练完成的视频特征提取模型进行评估。在本技术实施例中，使用了测试集合分别任务1和任务2进行评估，其
中，任务1为直接采用样本标签作为监督信息得到的训练完成的视频特征提取模型，任务2为本技术实施例中的采用标签特征信息作为监督信息得到的训练完成的视频特征提取模型。其评估结果如下表所示：
[0145][0146]
通过上表可以看出，无论对于上述哪一种评估指标，任务2中的视频特征提取模型都比任务1中的视频特征提取模型的效果好，可见，本技术实施例中的采用标签特征信息作为监督信息的训练方法可以得到更优的效果。
[0147]
在得到训练完成的视频特征提取模型后，可以通过该训练完成的视频特征提取模型对应用程序中每个视频进行特征提取，即将视频的模态信息输入训练完成的视频特征提取模型中，从而得到每个视频对应的视频特征信息。
[0148]
该视频特征信息可以应用于该应用程序的不同场景中，以下以其中的两种场景为例进行说明：
[0149]
场景1
[0150]
如图7所示，可以利用向量索引工具(如：faiss)来检索原始视频的重复视频，即计算分别其他视频对应的视频特征信息与原始视频对应的视频特征信息之间的相似度，将相似度大于或等于预设相似度阈值的视频确定为该原始视频的重复视频。然后可以确定每个重复视频的账号是否是该原始视频的账号的关联账号(即同一用户注册的多个账号)，剔除掉关联账号发布的重复视频，然后对剩余的重复视频进行压制，减少其流量，从而提高该应用程序的使用体验。
[0151]
场景2
[0152]
在针对目标账户进行推荐时可以对多个视频进行粗排，粗排可以减少召回的视频数目，减轻后续的精排的压力，同时不损失线上的效果。粗排可以使用时长模型来确定每个视频与目标账号感兴趣的视频之间的相似度。
[0153]
如图8所示，对应的处理可以是：时长模型可以采用双塔结构，分为用户侧子模型和物品侧子模型。首先，可以先获取参考视频和待推荐视频，该参考视频可以是目标账户点击或者收藏的视频。然后，可以获取参考视频对应的视频特征信息、目标账户的属性信息和历史行为信息、待推荐视频对应的视频特征信息和待推荐视频的属性信息。其中，目标账户的属性信息可以包括目标账户的账户id和用户偏好等信息，目标账户的历史行为信息可以包括目标账户最近时间点击或收藏的视频或者视频对应的标签等信息，待推荐视频的属性信息可以包括该待推荐视频对应的点击统计数据、收藏统计数据、视频类型等信息。
[0154]
用户侧子模型可以包括第一全连接层，物品侧子模型可以包括第二全连接层。可以将目标账户的属性信息和历史行为信息输入第一全连接层中从而得到输出的用户侧特征信息，将待推荐视频的属性信息输入第二全连接层中从而得到输出的物品侧特征信息。
[0155]
然后，可以将用户侧特征信息与参考视频对应的视频特征信息进行拼接从而得到拼接后的第一特征信息，将物品侧特征信息与待推荐视频对应的视频特征信息进行拼接从
而得到拼接后的第二特征信息。可以计算第一特征信息与第二特征信息之间的相似度。
[0156]
通过上述方式可以得到多个待推荐视频与参考视频之间的相似度，可以根据该相似度由高到低的顺序对多个待推荐视频进行排序，从而完成粗排。
[0157]
可选的，用户侧子模型和物品侧子模型还可以包括上层网络(例如，上层网络可以是全连接层等网络)，即用户侧子模型还包括第一上层网络，物品侧子模型还可以包括第二上层网络。在得到第一特征信息和第二特征信息后，可以再将第一特征信息输入第一上层网络从而得到输出的参考特征信息，将第二特征信息输入第二上层网络从而得到输出的待推荐特征信息。然后计算参考特征信息与待推荐特征信息之间的相似度。通过上述方式分别计算多个待推荐视频与参考视频之前的相似度，然后根据相似度由高到低的顺序对多个待推荐视频进行排序，从而完成粗排。
[0158]
上述所有可选技术方案，可以采用任意结合形成本技术的可选实施例，在此不再一一赘述。
[0159]
本技术实施例中提到的方案，可以基于样本视频对应的样本标签和训练完成的标签特征提取模型，确定出样本视频对应的标签特征信息，基于样本视频的模态信息和待训练的视频特征提取模型，确定出样本视频对应的视频特征信息，然后基于样本视频对应的标签特征信息和视频特征信息对待训练的视频特征提取模型进行训练，采用本技术，由于标签特征信息可以表征样本标签的语义信息，不同的标签特征信息之间具有了语义关联度，这样，在使用样本视频的标签特征信息作为监督信息对待训练的视频特征提取模型进行训练后得到的视频特征提取模型，可以预测出更为准确的视频特征信息。
[0160]
本技术实施例提供了一种视频特征提取模型的训练装置，该装置可以是上述实施例中的计算机设备，如图9所示，所述装置包括：
[0161]
获取模块910，用于获取样本视频的模态信息和所述样本视频对应的样本标签；
[0162]
第一确定模块920，用于基于所述样本视频对应的样本标签和训练完成的标签特征提取模型，确定所述样本视频对应的标签特征信息；
[0163]
第二确定模块930，用于基于所述样本视频的模态信息和待训练的视频特征提取模型，确定所述样本视频对应的视频特征信息；
[0164]
训练模块940，用于基于所述样本视频对应的标签特征信息和视频特征信息，对所述待训练的视频特征提取模型进行训练。
[0165]
在一种可能的实现方式中，所述模态信息包括图像数据、标题文本数据、音频数据和字幕数据中的至少一个。
[0166]
在一种可能的实现方式中，所述第一确定模块920，用于：
[0167]
将每个样本标签分别输入所述训练完成的标签特征提取模型，得到所述每个样本标签对应的特征信息；
[0168]
基于所述每个样本标签对应的特征信息和标签融合模型，确定所述样本视频对应的标签特征信息。
[0169]
在一种可能的实现方式中，所述模态信息包括图像数据和标题文本数据，所述视频特征提取模型包括图像特征提取子模型、标题特征提取子模型和模态融合子模型；
[0170]
所述第二确定模块930，用于：
[0171]
基于所述样本视频的图像数据和待训练的图像特征提取子模型，确定所述样本视
only memory，只读存储器)、ram(random access memory，随机存取存储器)、cd-rom、磁带、软盘和光数据存储设备等。
[0188]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
[0189]
需要说明的是，本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号(包括但不限于用户终端与其他设备之间传输的信号等)，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本技术中涉及到的模态信息都是在充分授权的情况下获取的。
[0190]
以上所述仅为本技术的可选实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗永盛
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种加速度补偿抗振动晶体振荡器及其补偿方法与流程
上一篇：一种花生种子培育装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。