预训练模型以及体感画风识别模型的训练方法及装置与流程

文档序号:33098939发布日期:2023-02-01 00:22阅读:71来源:国知局
预训练模型以及体感画风识别模型的训练方法及装置与流程

1.本技术涉及人工智能技术领域,特别是涉及一种预训练模型以及体感画风识别模型的训练方法及装置。


背景技术:

2.随着互联网快速发展的时代,随着内容生产的门槛降低,各种内容的发布量以指数级的速度增长。无论是图文类型还是视频类型的内容,不同用户对各内容的体感和画风上也是千差万别的,而体感和画风是指用户对各内容的直观感受,具体内容可以是用户看到的标题(title),或者是内容封面图,或者是发布内容的作者账号等。因此,需要进行体感画风维度上的分类,以用于对内容的风格和调性进行描述,体感画风具体是内容的整体风格的体现,同样风格和调性的内容可以具有一定的共性,例如,正能量以及轻松娱乐等,那么同样风格和调性的内容可以引起一类用户的共鸣。
3.目前,对信息流进行体感画风维度上的分类通常采用的是无监督或者弱监督的方法,由于无监督或者弱监督的方法需要收集大量的数据样本,以及对样本数据进行聚类分析,且由于体感画风的主观性较强,因此所得到的分类结果准确度较低。因此,如何保证对体感画风进行识别的准确度是亟需解决的问题。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够保证对体感画风进行识别的准确度的预训练模型以及体感画风识别模型的训练方法及装置。
5.第一方面,本技术提供了一种预训练模型的训练方法。所述方法包括:
6.获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;
7.获取各样本数据对中的内容图样本对应的内容分类标签;
8.对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征;
9.基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,目标预训练模型用于训练获得体感画风识别模型,体感画风识别模型识别数据信息的体感画风类别。
10.在其中一个实施例中,数据描述信息包括:对内容图样本进行处理后的处理后内容图样本,以及内容图样本对应的文本信息;
11.对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,包括:
12.分别对各内容图样本以及处理后内容图样本进行图像特征提取,获得各内容图样本的第一图像特征和第二图像特征;
13.分别对各内容图样本对应的内容分类标签和文本信息进行文本特征提取,获得各
内容图样本的第一文本特征和第二文本特征;
14.图像特征包括第一图像特征和第二图像特征,文本特征包括第一文本特征和第二文本特征。
15.在其中一个实施例中,分别对各内容图样本对应的内容分类标签和文本信息进行文本特征提取,获得各内容图样本的第一文本特征和第二文本特征,包括:
16.对各内容图样本对应的内容分类标签进行文本特征提取,得到各第一文本特征;
17.对各内容图样本对应的文本信息进行文本划分,得到各内容图样本对应的文本序列;
18.对各文本序列进行掩码处理,掩码处理后的文本序列中的部分文本标记被替换为掩码标记,并基于各掩码处理后的文本序列生成各第二文本特征。
19.在其中一个实施例中,内容图样本对应的文本序列包括多个文本标记;
20.对各文本序列进行掩码处理,包括:
21.计算各文本序列中各文本标记的贡献度,贡献度为文本标记对内容分类标签预测的贡献度;
22.通过各文本序列中各文本标记的贡献度,确定各文本序列中的关键文本标记,并将各文本序列中的关键文本标记确定为文本序列中被替换的文本标记。
23.在其中一个实施例中,基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,包括:
24.基于各内容图样本的样本特征,构建各内容图样本对应的多模态特征;
25.基于各内容图样本的多模态特征,对初始预训练模型进行训练,得到目标预训练模型。
26.在其中一个实施例中,基于各内容图样本的多模态特征,对初始预训练模型进行训练,得到目标预训练模型,包括:
27.基于各内容图样本的融合特征和样本特征中的至少一种,以及多模态特征,对初始预训练模型进行训练,得到目标预训练模型;
28.其中,融合特征包括第一融合特征和第二融合特征,第一融合特征为基于内容图样本的第一图像特征以及第二文本特征构建的特征;第二融合特征为基于内容图样本的第二图像特征以及第二文本特征构建的特征。
29.在其中一个实施例中,基于各内容图样本的融合特征和样本特征中的至少一种,以及多模态特征,对初始预训练模型进行训练,得到目标预训练模型,包括:
30.在训练过程中:
31.基于各多模态特征,获得各内容图样本对应的预测内容分类标签,并通过各预测内容分类标签与各内容分类标签,计算得到的各内容图样本对应的交叉熵损失信息;
32.基于各内容图样本的融合特征和样本特征中的至少一种,计算确定各内容图样本对应的相似度损失信息;
33.基于各交叉熵损失信息以及各相似度损失信息,更新初始预训练模型的模型参数。
34.在其中一个实施例中,基于各内容图样本的融合特征和样本特征中的至少一种,计算确定各内容图样本对应的相似度损失信息,包括:
35.计算各内容图样本的第一图像特征以及第二图像特征之间的第一相似度;
36.计算各内容图样本的第二文本特征中的各文本子特征之间的第二相似度;
37.计算各内容图样本的第一融合特征以及第二融合特征之间的第三相似度;
38.基于各第一相似度、各第二相似度以及各第二相似度,得到各内容图样本对应的相似度损失信息。
39.在其中一个实施例中,基于各内容图样本的融合特征和样本特征中的至少一种,以及多模态特征,对初始预训练模型进行训练,得到目标预训练模型,还包括:
40.在训练过程中,基于各内容图样本的第一图像特征以及第二文本特征进行图文匹配程度评估,得到各内容图样本对应的图文匹配程度;
41.基于各交叉熵损失信息以及各相似度损失信息,更新初始预训练模型的模型参数,包括:
42.基于各交叉熵损失信息、各相似度损失信息以及各图文匹配程度,更新初始预训练模型的模型参数。
43.第二方面,本技术提供了一种体感画风识别模型的训练方法。所述方法包括:
44.获取各体感画风训练样本,以及各体感画风训练样本对应的体感画风标签;
45.基于各体感画风训练样本,对初始体感画风识别模型进行训练,获得训练后的体感画风识别模型,体感画风识别模型识别数据信息的体感画风类别;
46.其中,初始体感画风识别模型的获得方式包括:
47.获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;
48.获取各样本数据对中的内容图样本对应的内容分类标签;
49.对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征;
50.基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,并将目标预训练模型作为初始体感画风识别模型。
51.第三方面,本技术提供了一种体感画风的识别方法。所述方法包括:
52.获取待识别数据信息;
53.基于待识别数据信息,通过体感画风识别模型获取待识别数据信息对应的预测体感画风标签,预测体感画风标签用于描述待识别数据信息的体感画风类别;
54.其中,体感画风识别模型的获得方式包括:
55.获取各体感画风训练样本,以及各体感画风训练样本对应的体感画风标签;
56.基于各体感画风训练样本,对初始体感画风识别模型进行训练,获得训练后的体感画风识别模型;
57.其中,初始体感画风识别模型的获得方式包括:
58.获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;
59.获取各样本数据对中的内容图样本对应的内容分类标签;
60.对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征;
61.基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,并将目标预训练模型作为初始体感画风识别模型。
62.第四方面,本技术还提供了一种预训练模型的训练装置。所述装置包括:
63.获取模块,用于获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;并获取各样本数据对中的内容图样本对应的内容分类标签;
64.处理模块,用于对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征;
65.第一训练模块,用于基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,目标预训练模型用于训练获得体感画风识别模型,体感画风识别模型识别数据信息的体感画风类别。
66.第五方面,本技术还提供了一种体感画风识别模型的训练装置。所述装置包括:
67.获取模块,用于获取待识别数据信息;
68.第二训练模块,用于基于各体感画风训练样本,对初始体感画风识别模型进行训练,获得训练后的体感画风识别模型;
69.其中,初始体感画风识别模型的获得方式包括:
70.获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;
71.获取各样本数据对中的内容图样本对应的内容分类标签;
72.对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征;
73.基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,并将目标预训练模型作为初始体感画风识别模型。
74.第六方面,本技术还提供了一种体感画风的识别装置。所述装置包括:
75.获取模块,用于获取待识别数据信息;
76.识别模块,用于基于待识别数据信息,通过体感画风识别模型获取待识别数据信息对应的预测体感画风标签,预测体感画风标签用于描述待识别数据信息的体感画风类别;
77.其中,体感画风识别模型的获得方式包括:
78.获取各体感画风训练样本,以及各体感画风训练样本对应的体感画风标签;
79.基于各体感画风训练样本,对初始体感画风识别模型进行训练,获得训练后的体感画风识别模型;
80.其中,初始体感画风识别模型的获得方式包括:
81.获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;
82.获取各样本数据对中的内容图样本对应的内容分类标签;
83.对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征;
84.基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,并将目标预训练模型作为初始体感画风识别模型。
85.第七方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
86.获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;
87.获取各样本数据对中的内容图样本对应的内容分类标签;
88.对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征;
89.基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,目标预训练模型用于训练获得体感画风识别模型,体感画风识别模型识别数据信息的体感画风类别。
90.第八方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
91.获取各体感画风训练样本,以及各体感画风训练样本对应的体感画风标签;
92.基于各体感画风训练样本,对初始体感画风识别模型进行训练,获得训练后的体感画风识别模型,体感画风识别模型识别数据信息的体感画风类别;
93.其中,初始体感画风识别模型的获得方式包括:
94.获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;
95.获取各样本数据对中的内容图样本对应的内容分类标签;
96.对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征;
97.基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,并将目标预训练模型作为初始体感画风识别模型
98.第九方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
99.获取待识别数据信息;
100.基于待识别数据信息,通过体感画风识别模型获取待识别数据信息对应的预测体感画风标签,预测体感画风标签用于描述待识别数据信息的体感画风类别;
101.其中,体感画风识别模型的获得方式包括:
102.获取各体感画风训练样本,以及各体感画风训练样本对应的体感画风标签;
103.基于各体感画风训练样本,对初始体感画风识别模型进行训练,获得训练后的体感画风识别模型;
104.其中,初始体感画风识别模型的获得方式包括:
105.获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;
106.获取各样本数据对中的内容图样本对应的内容分类标签;
107.对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征;
108.基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模
型,并将目标预训练模型作为初始体感画风识别模型
109.第十方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
110.获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;
111.获取各样本数据对中的内容图样本对应的内容分类标签;
112.对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征;
113.基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,目标预训练模型用于训练获得体感画风识别模型,体感画风识别模型识别数据信息的体感画风类别。
114.第十一方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
115.获取各体感画风训练样本,以及各体感画风训练样本对应的体感画风标签;
116.基于各体感画风训练样本,对初始体感画风识别模型进行训练,获得训练后的体感画风识别模型,体感画风识别模型识别数据信息的体感画风类别;
117.其中,初始体感画风识别模型的获得方式包括:
118.获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;
119.获取各样本数据对中的内容图样本对应的内容分类标签;
120.对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征;
121.基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,并将目标预训练模型作为初始体感画风识别模型
122.第十二方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
123.获取待识别数据信息;
124.基于待识别数据信息,通过体感画风识别模型获取待识别数据信息对应的预测体感画风标签,预测体感画风标签用于描述待识别数据信息的体感画风类别;
125.其中,体感画风识别模型的获得方式包括:
126.获取各体感画风训练样本,以及各体感画风训练样本对应的体感画风标签;
127.基于各体感画风训练样本,对初始体感画风识别模型进行训练,获得训练后的体感画风识别模型;
128.其中,初始体感画风识别模型的获得方式包括:
129.获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;
130.获取各样本数据对中的内容图样本对应的内容分类标签;
131.对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征;
132.基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,并将目标预训练模型作为初始体感画风识别模型
133.第十三方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
134.获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;
135.获取各样本数据对中的内容图样本对应的内容分类标签;
136.对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征;
137.基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,目标预训练模型用于训练获得体感画风识别模型,体感画风识别模型识别数据信息的体感画风类别。
138.第十四方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
139.获取各体感画风训练样本,以及各体感画风训练样本对应的体感画风标签;
140.基于各体感画风训练样本,对初始体感画风识别模型进行训练,获得训练后的体感画风识别模型,体感画风识别模型识别数据信息的体感画风类别;
141.其中,初始体感画风识别模型的获得方式包括:
142.获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;
143.获取各样本数据对中的内容图样本对应的内容分类标签;
144.对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征;
145.基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,并将目标预训练模型作为初始体感画风识别模型
146.第十五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
147.获取待识别数据信息;
148.基于待识别数据信息,通过体感画风识别模型获取待识别数据信息对应的预测体感画风标签,预测体感画风标签用于描述待识别数据信息的体感画风类别;
149.其中,体感画风识别模型的获得方式包括:
150.获取各体感画风训练样本,以及各体感画风训练样本对应的体感画风标签;
151.基于各体感画风训练样本,对初始体感画风识别模型进行训练,获得训练后的体感画风识别模型;
152.其中,初始体感画风识别模型的获得方式包括:
153.获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;
154.获取各样本数据对中的内容图样本对应的内容分类标签;
155.对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内
容图样本的样本特征,样本特征包括图像特征和文本特征;
156.基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,并将目标预训练模型作为初始体感画风识别模型
157.上述预训练模型以及体感画风识别模型的训练方法及装置、计算机设备、存储介质和计算机程序产品,通过获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息,再获取各样本数据对中的内容图样本对应的内容分类标签,并对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征,从而基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,目标预训练模型用于训练获得体感画风识别模型,体感画风识别模型识别数据信息的体感画风类别。由于样本数据对包括内容图样本以及与内容图样本对应的数据描述信息,因此各内容图样本的样本特征能够从多个维度对内容图样本的所包括的特征信息进行描述,由此所获取的目标预训练模型能够学习到更多内容图样本的所包括的特征信息,从而可以使训练得到的目标预训练模型提高了准确性。基于此,使用目标预训练模型进一步训练得到体感画风识别模型,即进一步地提高了体感画风识别模型的准确性,进而提高对识别数据信息的体感画风类别的准确性。
附图说明
158.图1为一个实施例中预训练模型的训练方法的应用环境图;
159.图2为一个实施例中体感画风识别系统的框架示意图;
160.图3为一个实施例中预训练模型的训练方法的流程示意图;
161.图4为一个实施例中获得各内容图样本的样本特征的流程示意图;
162.图5为一个实施例中对内容图样本进行数据增强处理的示意图;
163.图6为一个实施例中获取第一图像特征和第二图像特征的示意图;
164.图7为一个实施例中获取第一文本特征和第二文本特征的示意图;
165.图8为一个实施例中获得各第一文本特征和各第二文本特征的流程示意图;
166.图9为一个实施例中获取各第二文本特征的示意图;
167.图10为一个实施例中对各文本序列进行掩码处理的流程示意图;
168.图11为一个实施例中确定关键文本标记的流程示意图;
169.图12为一个实施例中预训练模型的训练方法的部分流程示意图;
170.图13为一个实施例中获取多模态特征的示意图;
171.图14为另一个实施例中预训练模型的训练方法的部分流程示意图;
172.图15为一个实施例中构建第一融合特征和第二融合特征的示意图;
173.图16为又一个实施例中预训练模型的训练方法的部分流程示意图;
174.图17为一个实施例中确定相似度损失信息的流程示意图;
175.图18为再一个实施例中预训练模型的训练方法的部分流程示意图;
176.图19为一个实施例中在前述训练过程中特征处理的方法的流程示意图;
177.图20为一个实施例中体感画风识别模型的训练的流程示意图;
178.图21为一个实施例中获取各体感画风训练样本对应的体感画风标签的流程示意图;
179.图22为一个实施例中体感画风标签以及对应描述的示意图;
180.图23为一个实施例中体感画风的识别方法的流程示意图;
181.图24为一个实施例中体感画风的识别方法的整体流程示意图;
182.图25为一个实施例中预训练模型的训练装置的结构示意图;
183.图26为一个实施例中体感画风识别模型的训练装置的结构示意图;
184.图27为一个实施例中体感画风的识别装置的结构示意图;
185.图28为一个实施例中计算机设备的内部结构图。
具体实施方式
186.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
187.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
188.计算机视觉技术(computer vision,cv)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
189.自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
190.以及机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学
习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
191.本技术实施例提供的方案涉及人工智能的图像处理、文本处理以及机器学习等技术,具体通过如下实施例进行说明:
192.本技术实施例提供的预训练模型的训练方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。
193.具体地,以应用于服务器104作为示例进行说明,那么服务器104可以从数据存储系统中获取样本数据对,以及各样本数据对中的内容图样本对应的内容分类标签,然后服务器104对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征,基于此,服务器104基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,目标预训练模型用于训练获得体感画风识别模型,体感画风识别模型识别数据信息的体感画风类别。
194.其次,以应用于具有高算力的终端102作为示例进行说明,那么终端102可以通过与服务器104之间的通信获取样本数据对,以及各样本数据对中的内容图样本对应的内容分类标签,然后终端102对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征,基于此,终端102基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,目标预训练模型用于训练获得体感画风识别模型,体感画风识别模型识别数据信息的体感画风类别。
195.其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备、飞行器等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
196.具体地,本技术实施例提供的预训练模型的训练方法,可以应用于如图2所示的体感画风识别系统中。下面将描述基于预训练模型的训练方法、体感画风识别模型的训练方法以及体感画风的识别方法,各个服务模块的主要功能:
197.一、内容生产端201
198.专业生产内容(professional generated content,pgc)、用户原创内容(user generated content,ugc)以及多频道网络的产品形态mcn(multi-channel network,mcn)通过移动端或者后端应用程序接口(application program interface,api)系统,提供图文或者视频内容,这些都是内容生产端201的主要内容来源。其次,内容生产端201通过和上下行内容接口服务器203的通讯,上传图文内容,图文内容来源通常是一个轻量级发布端和编辑内容入口,视频内容发布通常是一个拍摄摄影端。
199.二、内容消费端202
200.内容消费端202和上下行内容接口服务器203通讯,推过推荐获取访问内容的索引信息,然后和内容存储服务器204通讯,获取对应的内容包括推荐得到内容,专题订阅的内容,内容存储服务器204存储的是内容实体,比如:视频源文件以及图片源文件等。而内容的元信息比如标题,作者,封面图,分类以及标签(tag)信息等信息被存储在内容数据库205
中。其次,内容消费端202还能够同时将上传和下载过程当中用户播放的行为数据,卡顿,加载时间以及播放点击等信息上报给后端用于统计分析。并且内容消费端202通过浏览内容数据,外部渠道来源的各种数据也是通过内容消费端202经过上下行内容接口服务器203进入系统。
201.三、上下行内容接口服务器203
202.上下行内容接口服务器203用于和内容生产端201直接通讯,从前端提交的内容,通常是内容的标题,发布者,摘要,封面图以及发布时间等信息,并且把前述内容存入内容数据库205。其次,上下行内容接口服务器203还能够将图文内容的元信息,比如:文件大小,封面图链接,标题,发布时间,作者等信息写入内容数据库205。进一步地,上下行内容接口服务器203用于将内容生产端201提交的内容同步给调度中心服务器206,以进行后续的内容处理和流转。
203.四、内容存储服务器204
204.内容存储服务器204用于存储内容的元信息之外的内容实体信息,比如视频源文件和图文内容的图片源文件,终端在消费视频内容的时候是从内容存储服务器204直接访问源文件的。其次,在抽取样本对应的标签时,提供视频源文件包括源文件中间的抽帧内容,通过样本抽帧作为样本的候选集合。
205.五、内容数据库205
206.所有内容生产端201发布内容的元信息都保存于内容数据库205当中,重点是内容本身的元信息比如文件大小,封面图链接,码率,文件格式,标题,发布时间,作者,视频文件大小,视频格式,是否原创的标记或者首发还包括人工审核过程中对内容的分类,此时人工审核过程中对内容的分类包括一级,二级以及三级的各级别分类和标签信息,例如:一篇讲解a手机的文章,一级分类是科技,二级分类是智能手机,三级分类是国内手机,标签信息是a。其次,人工审核系统207进行人工审核流程时,会读取内容数据库205当中的信息,同时人工审核系统207所获取到得人工审核的结果和状态也会回传进入内容数据库205。
207.进一步地,调度中心服务器对内容处理主要包括机器处理和人工审核处理,这里机器处理核心各种质量判断比如低质过滤,内容标签比如分类,标签信息,在排重服务器208进行内容排重,并具体将内容排重的结果写入内容数据库205,完全重复一样的内容不会下发给人工审核系统207,避免人工进行重复的二次处理。由此,后续建模识别需要内容标题,封面图,标签等信息的时候会从内容数据库205读取内容的元信息。
208.六、调度中心服务器206
209.调度中心服务器206负责内容流转的整个调度过程,通过上下行内容接口服务器203获取入库的内容,然后从内容数据库205中获取内容的元信息。其次,还可以调度人工审核系统207和机器处理系统,控制调度的顺序和优先级。还可以通过内容出口分发服务(通常是推荐引擎,或者,搜索引擎,或者,运营)直接的展示页面提供给内容消费端202,也就是内容消费端202获得的内容索引信息即内容消费访问的入口地址。进一步地,通过和内容体感画风识别服务209通讯,在信息流内容流转过程当中,对数据信息的体感画风类别进行识别与标记。
210.七、人工审核系统207
211.人工审核系统207是人工服务能力的载体,主要用于审核敏感数据信息等机器无
法确定判断的数据信息,且人工审核系统207还可以特殊类型的视频的分类标签标注进行二次确认,确保标记的效果和质量。
212.八、体感画风识别服务209以及体感画风识别模型210
213.通过本技术所提供的体感画风识别模型的训练方法,以所得到目标预训练模型为基础,从体感画风训练样本数据库211中获取各体感画风训练样本,以及各体感画风训练样本对应的体感画风标签,通过训练得到体感画风识别模型210。基于体感画风识别模型210进行体感画风识别服务209。
214.九、目标预训练模型212以及多模态预训练样本数据库213
215.通过本技术所提供的预训练模型的训练方法,从多模态预训练样本数据库213获取各样本数据对,以及各样本数据对中的内容图样本对应的内容分类标签,通过训练得到目标预训练模型212。
216.十、爬取与数据预处理系统214
217.爬取与数据预处理系统214通过信息流内容从互联网上爬取对应的内容图样本来补充对应领域的相关预训练数据。
218.十一、视频抽帧和图文内容解析服务215
219.视频抽帧和图文内容解析服务215用于从视频源文件当中获取必要的视频文件帧,作为后续构造视频封面图来提供原始数据源。或者,在图文内容当中有多张图片时,视频抽帧和图文内容解析服务215解析图文内容,以提取多张可能作为封面图的图片,这些图片作为图文封面图及原始作者上传本身的封面图一起作为输入。
220.基于此,在一个实施例中,如图3所示,提供了一种预训练模型的训练方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
221.步骤302,获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息。
222.其中,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息,内容图样本可以为封面图样本或缩略图样本等,且数据描述信息具体包括对内容图样本进行处理后的处理后内容图样本,以及内容图样本对应的文本信息,内容图样本对应的文本信息具体包括:内容图样本的标题(title)以及内容图样本的发布者名称(puin_name)等。
223.具体地,服务器首先获取视频文件样本集合,视频文件样本集合可以为从数据库下载的多个视频文件样本,也可以为通过终端上传的多个视频文件样本,此处不做限定。由此,服务器具体调用视频抽帧和图文内容解析服务从各视频文件样本中获取视频文件帧,将所获取的多个视频文件帧作为构造内容图样本提供原始数据源。
224.进一步地,服务器基于所获取的多个视频文件帧构建内容图样本,对各个内容图样本进行数据增强处理,得到各个处理后的内容图样本。其次,调用图文内容解析服务对各个内容图样本进行文本信息提取,得到各个内容图样本对应的文本信息,通过各个内容图样本对应的处理后的内容图样本以及文本信息,能够构成各个内容图样本对应的数据描述信息,由此得到包括内容图样本以及与内容图样本对应的数据描述信息的各样本数据对。
225.步骤304,获取各样本数据对中的内容图样本对应的内容分类标签。
226.其中,内容分类标签用于描述内容图样本中所包括内容信息的类别,且各内容图样本对应的内容分类标签可以为一个或多个。例如,内容图样本为有动物在草坪上,那么内容分类标签可以为猫、狗以及草地等。
227.步骤306,对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征。
228.其中,图像特征包括内容图样本对应的图像特征,以及内容图样本对的数据描述信息中所包括的图像对应的图像特征。同理,文本特征包括内容分类标签对应的文本特征,以及内容图样本对的数据描述信息中所包括的文本对应的文本特征。
229.步骤308,基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,目标预训练模型用于训练获得体感画风识别模型,体感画风识别模型识别数据信息的体感画风类别。
230.其中,体感画风类别用于描述数据信息的风格和调性对应类别,前述数据信息可以为文本、图片、视频或音乐。具体地,风格和调性是数据信息的整体风格的体现,同样风格和调性的数据信息具有一定的共性,由此可以引起一类用户的共鸣,比如:养眼、治愈、中老年、校园以及潮酷等等。因此,风格和调性就是给用户形成的一种整体感受,可以为听觉感受,例如,舒缓以及欢快等,也可以为视觉感觉,例如,愉悦以及悲伤等。
231.基于此,将各内容图样本的样本特征作为初始预训练模型的输入,初始预训练模型输出各内容图样本的预测内容分类标签,基于各预测内容分类标签以及各内容分类标签对初始预训练模型进行训练,得到目标预训练模型。此时所得到的目标预训练模型即为图2中目标预训练模型212,该目标预训练模型用于训练获得体感画风识别模型,体感画风识别模型具体用于识别数据信息的体感画风类别。
232.上述预训练模型的训练方法中,由于样本数据对包括内容图样本以及与内容图样本对应的数据描述信息,因此各内容图样本的样本特征能够从多个维度对内容图样本的所包括的特征信息进行描述,由此所获取的目标预训练模型能够学习到更多内容图样本的所包括的特征信息,从而可以使训练得到的目标预训练模型提高了准确性。基于此,使用目标预训练模型进一步训练得到体感画风识别模型,即进一步地提高了体感画风识别模型的准确性,进而提高对识别数据信息的体感画风类别的准确性。
233.在一个实施例中,如图4所示,数据描述信息包括:对内容图样本进行处理后的处理后内容图样本,以及内容图样本对应的文本信息;
234.步骤306,对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,具体包括:
235.步骤402,分别对各内容图样本以及处理后内容图样本进行图像特征提取,获得各内容图样本的第一图像特征和第二图像特征。
236.其中,数据描述信息包括对内容图样本进行处理后的处理后内容图样本。具体地,对内容图样本进行处理具体为对内容图样本进行数据增强处理,例如,旋转、裁剪、高斯噪声、遮盖、颜色变换以及滤镜等。为便于理解,如图5所示,对内容图样本502进行颜色变化处理后,得到处理后内容图样本504。其次,对内容图样本506进行裁剪处理后,得到处理后内容图样本508。应理解,前述示例仅用于理解数据增强处理,而非对本技术的限定。
237.基于此,服务器对各内容图样本进行图像特征提取,得到各内容图样本对应的第
一图像特征。同理,服务器对各数据描述信息中所包括的处理后内容图样本进行图像特征提取,得到各处理后内容图样本对应的第二图像特征。
238.具体地,进行图像特征提取具体可以采用视觉转换(vision transformer,vit)模型进行处理,如图6所示,通过视觉转换模型分别对内容图样本602以及处理后内容图样本604进行图像特征提取,可以得到内容图样本602所对应的第一图像特征606,以及处理后内容图样本604所对应的第二图像特征608。
239.步骤404,分别对各内容图样本对应的内容分类标签和文本信息进行文本特征提取,获得各内容图样本的第一文本特征和第二文本特征。
240.其中,数据描述信息包括内容图样本对应的文本信息。基于此,服务器对各内容图样本对应的内容分类标签进行文本特征提取,得到各内容图样本对应的内容分类标签对应的第一文本特征。同理,服务器对各数据描述信息中所包括的文本信息进行文本特征提取,得到各文本信息对应的第二文本特征。
241.可以理解的是,数据描述信息中的文本信息可以具体包括:内容图样本的标题以及内容图样本的发布者名称等描述内容图样本的文本内容的文本信息,此处不对文本信息进行穷举。因此,各文本信息对应的第二文本特征可以具体包括内容图样本的标题对应的文本子特征,以内容图样本的发布者名称对应的文本子特征等各描述内容图样本的文本内容的文本信息对应的文本子特征,此处不对文本子特征进行穷举。
242.具体地,进行文本特征提取具体可以采用转换器的双向编码器(bidirectional encoderrepresentation from transformers,bert)模型进行处理,以数据描述信息中的文本信息具体包括内容图样本的标题以及内容图样本的发布者名称作为示例进行说明,基于此,如图7所示,通过转换器的双向编码器模型分别对内容分类标签702以及文本信息704进行文本特征提取,可以得到内容分类标签702所对应的第一文本特征706,以及文本信息704所对应的第二文本特征708,且由于数据描述信息中的文本信息具体包括内容图样本的标题以及内容图样本的发布者名称,因此,第二文本特征708具体包括内容图样本的标题对应的文本子特征7082,以及内容图样本的发布者名称对应的文本子特征7084。
243.步骤406,图像特征包括第一图像特征和第二图像特征,文本特征包括第一文本特征和第二文本特征。
244.具体地,由于步骤402进行图像特征提取后可以得到第一图像特征和第二图像特征,即各内容图样本的样本特征中的图像特征具体包括第一图像特征和第二图像特征。同理,由于步骤402进行文本特征提取后可以得到第一文本特征和第二文本特征,即各内容图样本的样本特征中的文本特征具体包括第一文本特征和第二文本特征。
245.本实施例中,通过对各内容图样本以及处理后内容图样本进行图像特征提取,在多个问题提取图像特征,以提升所获取图像特征所包括的图像特征信息的丰富度,其次,对各内容图样本对应的内容分类标签和文本信息进行文本特征提取,在多个问题提取文本特征,提升所获取文本特征所包括的文本特征信息的丰富度,从而使得后续模型训练能够学习到更多维度的特征信息,进一步地提高训练所得到的目标预训练模型的准确性。
246.在一个实施例中,如图8所示,步骤404,分别对各内容图样本对应的内容分类标签和文本信息进行文本特征提取,获得各内容图样本的第一文本特征和第二文本特征,包括:
247.步骤802,对各内容图样本对应的内容分类标签进行文本特征提取,得到各第一文
本特征。
248.其中,第一文本特征为与内容分类标签对应的文本特征。
249.步骤804,对各内容图样本对应的文本信息进行文本划分,得到各内容图样本对应的文本序列。
250.其中,各内容图样本对应的文本序列中包括多个文本标记(token)。具体地,对内容图样本对应的文本信息进行文本划分后即可得到多个文本标记,基于文本标记组成内容图样本对应的文本序列。
251.例如,内容图样本对应的文本信息为“拖行女童数十米!女童惨哭”,那么对前述文本信息进行划分后可以得到多个文本标记:[拖]、[行]、[女]、[童]、[数]、[十]、[米]、[!]、[女]、[童]、[惨]、[哭],“[]”以及其中内容所表示的就是文本标记,由此可以得到所对应的文本序列:[拖][行][女][童][数][十][米][!][女][童][惨][哭]。其次,内容图样本对应的文本信息为“你知道两只猫是如何吵架的吗?”,那么对前述文本信息进行划分后可以得到多个文本标记:[你]、[知]、[道]、[两]、[只]、[猫]、[是]、[如]、[何]、[吵]、[架]、[的]、[吗]、[?],由此可以得到所对应的文本序列:[你][知][道][两][只][猫][是][如][何][吵][架][的][吗][?]。应理解,前述示例仅用于理解本方案中所描述的文本序列,不应理解为本方案限定。
[0252]
步骤806,对各文本序列进行掩码处理,掩码处理后的文本序列中的部分文本标记被替换为掩码标记,并基于各掩码处理后的文本序列生成各第二文本特征。
[0253]
其中,掩码处理为对文本序列中的部分文本标记进行掩码(mask),也就是将部分文本标记替换为掩码标记,本实施例采用的是0的随机空白填充,即掩码标记具体为[mask],且不包括其他信息。例如,文本序列为[拖行][女童][数][十][米][!][女童][惨哭],那么进行掩码处理后的文本序列可以为[拖行][女童][数][十][米][!][女童][mask],或者,[mask][女童][数][mask][米][!][女童][惨哭]。
[0254]
具体地,对各文本序列均进行掩码处理,从而将文本序列中的部分文本标记被替换为掩码标记,以得到掩码处理后的文本序列,再基于各掩码处理后的文本序列生成各第二文本特征。为便于理解,以文本信息为“你知道两只猫是如何吵架的吗?”作为示例进行说明,如图9所示,先对文本信息902进行文本划分得到各内容图样本对应的文本序列,再对各文本序列进行掩码处理得到掩码处理后的文本序列904,该掩码处理后的文本序列904可以为:[你][知][道][两][只][mask][是][如][何][mask][mask][的][吗][?]。从而通过转换器的双向编码器模型对掩码处理后的文本序列904进行文本特征提取,以输出第二文本特征906。
[0255]
本实施例中,通过包含掩码标记的文本序列,使得文本特征能够关注掩码标记对应的上下文信息,即文本特征能够包括更多文本信息之间的关联性,进一步地丰富所得到的文本特征。
[0256]
在识别数据信息的体感画风的过程中,由于每种类型的体感画风的成因不同,因此每个体感画风标签都有独特的侧重点,例如,负能量标签主要由一些负能量关键词触发,情绪夸张标签主要由一些情感词甚至标点符号触发(如感叹号等)等等,为保证所得到的体感画风识别模型能更为准确的识别数据信息的体感画风类型,在预训练模型的训练过程中需要考虑对这些关键触发的文字或标点符号做特殊处理,以得到其关键成分。
[0257]
基于此,在一个实施例中,如图10所示,内容图样本对应的文本序列包括多个文本标记;
[0258]
步骤806,对各文本序列进行掩码处理,包括:
[0259]
步骤1002,计算各文本序列中各文本标记的贡献度,贡献度为文本标记对内容分类标签预测的贡献度。
[0260]
其中,贡献度为文本标记对内容分类标签预测的贡献度,即贡献度具体为衡量每个文本标记对文本序列在内容分类标签为准确地内容分类标签概率的贡献度。
[0261]
具体地,服务器计算各文本序列中各文本标记的贡献度,且具体基于如下公式(1)进行计算:
[0262]
s(wi)=p(y
t
|s)-p(y
t
|s

i-1
wi);
ꢀꢀ
(1)
[0263]
其中,s(wi)表示文本标记对内容分类标签预测的贡献度,y
t
表示文本序列,wi表示文本序列中第i个文本标记,p(y
t
|s)为文本序列对内容分类标签预测的贡献度,s

i-1
表示由w1、w2至w
i-1
组成的文本序列。
[0264]
步骤1004,通过各文本序列中各文本标记的贡献度,确定各文本序列中的关键文本标记,并将各文本序列中的关键文本标记确定为文本序列中被替换的文本标记。
[0265]
其中,关键文本标记可以包括一个文本标记或多个文本标记,且关键文本标记为在文本序列中贡献度较高的文本标记。基于此,服务器可以对各文本序列中各文本标记的贡献度,由从高到低排序,并且确定在文本序列中贡献度较高的文本标记为各文本序列中的关键文本标记,或者,通过关键文本标记模型确定各文本序列中的关键文本标记,此处不做限定。由此,服务器再将各文本序列中的关键文本标记确定为文本序列中被替换的文本标记,即进行掩码替换的文本标记为关键文本标记。
[0266]
例如,文本序列包括文本标记1、文本标记2、文本标记3以及文本标记4,对文本标记1、文本标记2、文本标记3以及文本标记4分别对应的贡献度进行从高到低排序,具体为:文本标记1的贡献度、文本标记4的贡献度、文本标记2的贡献度以及文本标记3的贡献度,那么可以确定文本标记1的贡献度最高,即基于需求可将文本标记1作为关键文本标记,那么在进行掩码处理时,将文本标记1替换为掩码标记[mask]。
[0267]
以文本序列为[摩][托][车][拖][行][女][童][数][十][米][!][女][童][惨][哭]作示例进行说明,若通过bert的随机掩码策略,可以得到的掩码后的文本序列为:[摩][托][车][拖][行][女][童][数][mask][米][!][女][童][惨][哭]。而基于本实施例所提供的确定关键文本标记的方法,可以得到的掩码后的文本序列为:[摩][托][车][拖][行][女][童][数][十][米][!][女][童][惨][mask]。
[0268]
为便于理解,下面将示例通过关键文本标记模型确定关键文本标记,如图11所示,先获取数据量较少的文本序列样本1102,然后通过前述公式(1)得到文本序列样本1102对应的关键文本标记1104,然后从文本序列数据库1106中获取数据量较大的文本序列样本,并且将数据量较大的文本序列样本以及文本序列样本对应的关键文本标记1104作为关键文本标记模型1108的输入,即可通过关键文本标记模型1108输出各文本序列样本的关键文本标记1110。
[0269]
本实施例中,通过计算各文本序列中各文本标记的贡献度,从而从文本序列中确定最能够影响内容分类标签预测结果的关键文本标记,以使得在掩码处理时将关键文本标
记替换,从而使得文本特征能够关注关键文本标记对应的上下文信息,由此所得到的文本信息之间的关联性更能影响内容分类标签预测结果,进一步地提升文本信息的准确度。其次,通过替代bert的随机掩码策略,还能够是使得预训练模型在训练过程中学习到更多对体感画风类别更有用的信息,从而提升后续训练获得体感画风识别模型的准确度。
[0270]
在一个实施例中,如图12所示,步骤308,基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,包括:
[0271]
步骤1202,基于各内容图样本的样本特征,构建各内容图样本对应的多模态特征。
[0272]
其中,多模态特征为对图像特征和文本特征进行多模态特征交互得到的特征,多模态特征交互是指使得内容图样本的图像特征和文本特征进行交互。具体地,服务器对各内容图样本的样本特征中第一图像特征、第二图像特征、第一文本特征以及第二文本特征进行跨注意力(cross-attention)特征提取,以构建各内容图样本对应的多模态特征。
[0273]
为便于理解,如图13所示,通过前述实施例描述的类似方法,通过视觉转换(vit)模型得到内容图样本对应的第一图像特征1302,以及处理后内容图样本对应的第二图像特征1304,并通过转换器的双向编码器(bert)模型得到内容分类标签对应的第一文本特征1306,以及文本信息对应的第二文本特征1308,然后对各内容图样本的第一图像特征1302、第二图像特征1304、第一文本特征1306以及第二文本特征1308进行跨注意力特征提取,以得到多模态特征1310。
[0274]
步骤1204,基于各内容图样本的多模态特征,对初始预训练模型进行训练,得到目标预训练模型。
[0275]
具体地,服务器基于步骤1204所得到的各内容图样本的多模态特征,对初始预训练模型进行训练,得到目标预训练模型。
[0276]
本实施例中,通过对各内容图样本的样本特征中不同维度的图像特征以及文本特征进行跨注意力特征提取,所得到的多模态特征在描述多维度的特征的基础上,还融合了各维度特征,从而能够描述各图像特征以及文本特征之间相关性,进一步地使训练得到的目标预训练模型提高了准确性。
[0277]
在一个实施例中,如图14所示,步骤1204,基于各内容图样本的多模态特征,对初始预训练模型进行训练,得到目标预训练模型,包括:
[0278]
步骤1402,基于各内容图样本的融合特征和样本特征中的至少一种,以及多模态特征,对初始预训练模型进行训练,得到目标预训练模型。
[0279]
其中,融合特征包括第一融合特征和第二融合特征,第一融合特征为基于内容图样本的第一图像特征以及第二文本特征构建的特征;第二融合特征为基于内容图样本的第二图像特征以及第二文本特征构建的特征。应理解,第一融合特征为基于内容图样本的第一图像特征以及第二文本特征中的至少一个文本子特征构建的特征,第二融合特征为基于内容图样本的第二图像特征以及第二文本特征中的至少一个文本子特征构建的特征。
[0280]
为便于理解,以第二文本特征包括内容图样本的标题对应的文本子特征,以内容图样本的发布者名称对应的文本子特征为例进行说明,如图15所示,基于第一图像特征1502与图样本的标题对应的文本子特征1504构建第一融合特征1506,以及基于第二图像特征1508与内容图样本的发布者名称对应的文本子特征1510构建第二融合特征1512。应理解,在实际应用中,还可以为基于第一图像特征与内容图样本的发布者名称对应的文本子
特征构建的特征构建第一融合特征,以及基于第二图像特征与内容图样本的标题对应的文本子特征构建第二融合特征等其他方式,此处不对融合特征的具体融合对象和方式进行限定。
[0281]
具体地,服务器通过实际应用的需求,可以基于各内容图样本的融合特征和样本特征中的至少一种,以及多模态特征,对初始预训练模型进行训练,得到目标预训练模型。即,服务器可以基于各内容图样本的融合特征以及多模态特征对初始预训练模型进行训练,得到目标预训练模型。或,基于样本特征以及多模态特征对初始预训练模型进行训练,得到目标预训练模型。或,基于各内容图样本的融合特征和样本特征对初始预训练模型进行训练,得到目标预训练模型。
[0282]
本实施例中,在对初始预训练模型进行训练的过程,基于考虑融合特征的基础上,进一步地引入融合特征和样本特征中的至少一种,使得预训练模型在训练过程中学习到更多特征信息,进一步地提升后续训练获得体感画风识别模型的准确度。
[0283]
下面将详细描述如何基于各内容图样本的融合特征和样本特征对初始预训练模型进行训练,得到目标预训练模型的详细实施方式,应理解,仅考虑融合特征或样本特征的实施方式与后续步骤类似,因此不再详细描述。
[0284]
基于此,在一个实施例中,如图16所示,步骤1402,基于各内容图样本的融合特征和样本特征中的至少一种,以及多模态特征,对初始预训练模型进行训练,得到目标预训练模型的训练过程中,具体可以包括如下处理过程:
[0285]
步骤1602,基于各多模态特征,获得各内容图样本对应的预测内容分类标签,并通过各预测内容分类标签与各内容分类标签,计算得到的各内容图样本对应的交叉熵损失信息。
[0286]
其中,交叉熵损失信息用于描述预测内容分类标签与内容分类标签之间的误差,且具体通过交叉熵损失函数,计算预测内容分类标签与内容分类标签之间的交叉熵误差。
[0287]
具体地,在训练过程中,初始预训练模型基于各多模态特征能够获得各内容图样本对应的预测内容分类标签,该预测内容分类标签用于描述内容图样本中所包括内容信息的预测类别,且各内容图样本对应的预测内容分类标签可以为一个或多个从,此处不做限定。基于此,服务器使用交叉熵损失函数来计算各内容图样本对应的预测内容分类标签与内容分类标签之间的交叉熵误差,从而将交叉熵误差作为内容图样本对应的交叉熵损失信息。比如,可以使用cross-entropy loss作为交叉熵损失函数来计算交叉熵误差。
[0288]
步骤1604,基于各内容图样本的融合特征和样本特征中的至少一种,计算确定各内容图样本对应的相似度损失信息。
[0289]
其中,相似度损失信息用于描述多个特征之间的相似程度。具体地,服务器通过相似度算法计算融合特征中第一融合特征以及第二融合特征之间的相似度,以及计算样本特征中各维度样本特征之间的相似度,从而得到各内容图样本对应的相似度损失信息。前述相似度算法可以是欧式距离相似度算法、余弦相似度算法等,此处不做限定。
[0290]
步骤1606,基于各交叉熵损失信息以及各相似度损失信息,更新初始预训练模型的模型参数。
[0291]
具体地,服务器通过前述步骤计算得到的各交叉熵损失信息以及各相似度损失信息,对初始预训练模型的模型参数进行更新。由此,经过多次迭代更新后,初始预训练模型
的损失函数达到收敛时,基于最后一次更新的初始预训练模型的模型参数生成目标预训练模型。
[0292]
本实施例中,通过交叉熵损失信息描述预测内容分类标签与内容分类标签之间的误差,并通过相似度损失信息描述多个特征之间的相似程度,以提升预训练模型的损失信息的准确性以及丰富度。因此在对模型参数进行更新时考虑到预测标签与真实标签之间的误差,以及特征之间的相似程度,使得模型训练的过程更为可靠,即所得到的目标预训练模型更为准确。
[0293]
在一个实施例中,如图17所示,步骤1604,基于各内容图样本的融合特征和样本特征中的至少一种,计算确定各内容图样本对应的相似度损失信息,包括:
[0294]
步骤1702,计算各内容图样本的第一图像特征以及第二图像特征之间的第一相似度。
[0295]
其中,第一相似度用于描述图像特征之间的相似度。具体地,服务器通过相似度算法计算第一图像特征以及第二图像特征之间的相似度,从而得到各内容图样本的第一相似度。前述相似度算法可以是欧式距离相似度算法、余弦相似度算法等,此处不做限定。
[0296]
步骤1704,计算各内容图样本的第二文本特征中的各文本子特征之间的第二相似度。
[0297]
其中,第二相似度用于描述各文本子特征之间的相似度。具体地,服务器通过相似度算法计算第二文本特征中的各文本子特征之间的相似度,从而得到各内容图样本的第二相似度。例如,以第二文本特征包括内容图样本的标题对应的文本子特征,以内容图样本的发布者名称对应的文本子特征为例进行说明,那么第二相似度用于描述内容图样本的标题对应的文本子特征,与内容图样本的发布者名称对应的文本子特征质之间的相似度。
[0298]
步骤1706,计算各内容图样本的第一融合特征以及第二融合特征之间的第三相似度。
[0299]
其中,第三相似度用于描述各融合特征之间的相似度。具体地,服务器通过相似度算法计算第一融合特征以及第二融合特征之间的相似度,从而得到各内容图样本的第三相似度。前述相似度算法可以是欧式距离相似度算法、余弦相似度算法等,此处不做限定。
[0300]
应理解,步骤1702、步骤1704以及步骤1706之间无时序限定。
[0301]
步骤1708,基于各第一相似度、各第二相似度以及各第二相似度,得到各内容图样本对应的相似度损失信息。
[0302]
其中,相似度损失信息具体用于描述:图像特征之间的相似度、各文本子特征之间的相似度、以及各融合特征之间的相似度。具体地,服务器基于前述步骤所得到的各内容图样本对应的第一相似度、各第二相似度以及各第二相似度,得到各内容图样本对应的相似度损失信息。
[0303]
本实施例中,具体通过计算图像特征之间的相似度、各文本子特征之间的相似度、以及各融合特征之间的相似度,以得到的相似度损失信息,提升相似度损失信息的准确度以及丰富度,即进一步地提升了预训练模型的损失信息的准确性以及丰富度。
[0304]
在一个实施例中,如图18所示,步骤1402,基于各内容图样本的融合特征和样本特征中的至少一种,以及多模态特征,对初始预训练模型进行训练,得到目标预训练模型的训练过程中,具体可以包括如下处理过程:
[0305]
步骤1802,基于各内容图样本的第一图像特征以及第二文本特征进行图文匹配程度评估,得到各内容图样本对应的图文匹配程度。
[0306]
其中,图文匹配程度用于描述第一图像特征与第二文本特征之间的匹配程度,即能够根据图文匹配程度描述内容图样本的第二文本特征是否能够准确描述内容图样本的第一图像特征。
[0307]
具体地,在训练过程中,服务器通过初始预训练模型对各内容图样本的第一图像特征进行自注意力特征提取,得到各内容图样本的图像自注意力特征,并通过初始预训练模型对各内容图样本的第二文本特征进行自注意力特征提取,得到各内容图样本的文本自注意力特征。其中,图像自注意力特征是指训练时通过自注意力提取到的图像特征。文本自注意力特征是指训练时通过自注意力提取到的文本特征。基于此,服务器通过初始预训练模型对各图像自注意力特征和各文本自注意力特征进行匹配程度评估,从而得到各内容图样本对应的图文匹配程度。
[0308]
应理解,在实际应用中,当内容图样本对应的图文匹配程度较高时,在训练过程中可以加强图像特征与文本特征的交互,当内容图样本对应的图文匹配程度较弱时,则在训练过程中可以减少图像特征与文本特征的交互。
[0309]
由于对初始预训练模型进行训练得到目标预训练模型的训练过程中,需要对初始预训练模型的模型参数进行更新,因此,通过步骤1802得到各内容图样本对应的图文匹配程度之后,在步骤906,基于各交叉熵损失信息以及各相似度损失信息,更新初始预训练模型的模型参数的过程中,具体可以包括如下处理过程:
[0310]
步骤1804,基于各交叉熵损失信息、各相似度损失信息以及各图文匹配程度,更新初始预训练模型的模型参数。
[0311]
具体地,服务器通过前述步骤计算得到的各交叉熵损失信息、各相似度损失信息以及各图文匹配程度,对初始预训练模型的模型参数进行更新。由此,经过多次迭代更新后,初始预训练模型的损失函数达到收敛时,基于最后一次更新的初始预训练模型的模型参数生成目标预训练模型。
[0312]
本实施例中,通过图文匹配程度描述第一图像特征与第二文本特征之间的匹配程度,即能够根据图文匹配程度描述内容图样本的第二文本特征是否能够准确描述内容图样本的第一图像特征,因此在对模型参数进行更新时,基于考虑预测内容分类标签与内容分类标签之间的误差,以及多个特征之间的相似程度的基础上,还能够进一步的考虑图像特征与文本特征之间的匹配程度,使得模型训练的过程更为可靠,即所得到的目标预训练模型更为准确。
[0313]
为了对前述训练过程中特征处理的方法进行更为详细的描述,如图19所示,首先,分别对各内容图样本1901以及处理后内容图样本1902进行图像特征提取,获得各内容图样本的第一图像特征1903和第二图像特征1904。同理,分别对各内容图样本对应的内容分类标签1905和文本信息1906进行文本特征提取,获得各内容图样本的第一文本特征1907和包括第一文本子特征1908以及第二文本子特征1909的第二文本特征。
[0314]
基于此,基于第一图像特征1903、第二图像特征1904、第一文本特征1907和包括第一文本子特征1908以及第二文本子特征1909的第二文本特征,构建各内容图样本对应的多模态特征1910。进一步地,基于内容图样本的第一图像特征1903以及第二文本特征中的第
二文本子特征1909构建第一融合特征1912,基于内容图样本的第二图像特征1904以及第二文本特征中的第一文本子特征1908构建第二融合特征1912。然后再通过前述实施例所描述的模型训练方法得到目标预训练模型。
[0315]
进一步地,在训练得到目标预训练模型之后,将基于目标预训练模型训练获得体感画风识别模型,下面将详细描述体感画风识别模型的训练的方法。在一个实施例中,如图20所示,提供了一种体感画风识别模型的训练方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
[0316]
步骤2002,获取各体感画风训练样本,以及各体感画风训练样本对应的体感画风标签。
[0317]
其中,体感画风标签用于描述体感画风训练样本的体感画风类别,体感画风类别用于描述数据信息的风格和调性对应类别,前述数据信息可以为文本、图片、视频或音乐。具体地,风格和调性是数据信息的整体风格的体现,同样风格和调性的数据信息具有一定的共性,可以引起一类用户的共鸣,比如:养眼、治愈、中老年、校园以及潮酷等等。因此,风格和调性就是给用户形成的一种整体感受,可以为听觉感受,例如,舒缓以及欢快等,也可以为视觉感觉,例如,愉悦以及悲伤等。
[0318]
具体地,服务器获取各体感画风训练样本以及各体感画风训练样本对应的体感画风标签,前述体感画风标签是基于人工标注得到的。
[0319]
可以理解的是,体感画风训练样本对应的体感画风标签在人工标注时,由于对数据信息的风格和调性对应类别进行评判的主观性较强,例如,数据信息的风格和调性可能由内容性质导致(如严肃以及低调性等),也可能由受众群体(如年轻群体、中年群体),或对于文字形式的数据信息,还可能由写作手法导致,因此体感画风标签需要考虑具体内容类别、意图、情感等多种标签的分类目标取并集判断得到最后的结果。
[0320]
基于此,为了在实际应用中改善和提升体感画风标签的准确度,基于初次人工总结标注得到各体感画风训练样本对应的初始体感画风标签后,由于体感画风标签的判断具有很强的主观性,可能导致初始体感画风标签不完善且不准确。因此,需要再次通过不同的标注人员对初始体感画风标签进行判断。如图21所示,标注人员2102对初始体感画风标签进行判断,得到初始体感画风标签的第一判断结果2104,以及标注人员2106对初始体感画风标签进行判断,得到初始体感画风标签的第二判断结果2108。若第一判断结果2104以及第二判断结果2108一致,则将体感画风训练样本对应的初始体感画风标签为体感画风训练样本对应的体感画风标签。反之,若第一判断结果2104以及第二判断结果2108不一致,则对体感画风训练样本对应的初始体感画风标签进行调整,再对调整后的初始体感画风标签进行类似判断步骤,直至判断结果一致。
[0321]
进一步地,本实施例中提供了常用的体感画风标签以及各体感画风标签对应的描述,如图22所示,体感画风标签包括情绪夸张、乡村风、严肃正经、高调性、低调些、轻松娱乐、深度专业、社会正能量、浅显易懂以及治愈等。其中,体感画风标签包括严肃正经时,能够描述数据信息为词严肃的新闻报道等,且常为国际以及社会民生等。其次,体感画风标签包括社会正能量时,能够描述数据信息为见义勇为、价值观正、让人看了能够振奋人心的正能量新闻等。此处不对图22的具体内容进行完全穷举介绍,且在实际应用中,体感画风标签
以及各体感画风标签对应的具体描述不仅限于前述示例。
[0322]
步骤2004,基于各体感画风训练样本,对初始体感画风识别模型进行训练,获得训练后的体感画风识别模型,体感画风识别模型识别数据信息的体感画风类别。
[0323]
其中,初始体感画风识别模型为通过前述实施例得到的目标预训练模型,具体训练方式此处不再赘述。
[0324]
具体地,服务器基于各体感画风训练样本,通过初始体感画风识别模型得到各体感画风训练样本的预测体感画风标签,具体基于各体感画风训练样本的预测体感画风标签以及体感画风标签,更新初始体感画风识别模型的模型参数,由此,经过多次迭代更新后,初始体感画风识别模型的损失函数达到收敛时,基于最后一次更新的初始体感画风识别模型的模型参数生成体感画风识别模型。前述体感画风识别模型用于对数据信息的体感画风类别进行识别。
[0325]
上述体感画风识别模型的训练方法中,由于初始体感画风识别模型是目标预训练模型,而目标预训练模型在训练过程中能够学习到更多内容图样本的所包括的特征信息,使训练得到的目标预训练模型提高了准确性,因此提高了体感画风识别模型的准确性。
[0326]
进一步地,在训练得到体感画风识别模型之后,基于图2可知,通过体感画风识别服务调用训练得到体感画风识别模型,以识别的数据信息的体感画风类别。在一个实施例中,如图23所示,提供了一种体感画风的识别方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
[0327]
步骤2302,获取待识别数据信息。
[0328]
在具体应用中,服务器可以从终端获取体感画风识别信息,并从体感画风识别信息中获取需要进行体感画风类别识别的待识别数据信息。或者,从数据库中获取待识别数据信息。此处不做具体限定。
[0329]
步骤2304,基于待识别数据信息,通过体感画风识别模型获取待识别数据信息对应的预测体感画风标签,预测体感画风标签用于描述待识别数据信息的体感画风类别。
[0330]
其中,体感画风识别模型为通过前述实施例得到的体感画风识别模型,具体训练方式此处不再赘述。
[0331]
具体地,服务器将待识别数据信息作为训练得到的体感画风识别模型的输入,体感画风识别模型可以输出待识别数据信息对应的预测体感画风标签,该预测体感画风标签用于描述待识别数据信息的体感画风类别。体感画风类别的具体定义以及示例在前述实施例中已详细描述,此处不再赘述。
[0332]
上述体感画风的识别方法中,需要通过体感画风识别模型获取待识别数据信息对应的预测体感画风标签,而体感画风识别模型具体基于目标预训练模型训练得到,目标预训练模型在训练过程中能够学习到更多内容图样本的所包括的特征信息,使训练得到的目标预训练模型提高了准确性,因此提高了体感画风识别模型的准确性,进而提高对识别数据信息的体感画风类别的准确性。
[0333]
下面将详细描述预训练模型、体感画风识别模型的训练方法以及体感画风的识别方法对应的详细实施例,如图24所示,包括:
[0334]
步骤2402,获取各样本数据对以及各样本数据对中的内容图样本对应的内容分类
标签。
[0335]
其中,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息。其次,内容分类标签用于描述内容图样本中所包括内容信息的类别,且各内容图样本对应的内容分类标签可以为一个或多个。应理解,样本数据对以及容分类标签的具体示例与前述实施例类似,此处不再赘述。
[0336]
步骤2404,分别对各内容图样本以及处理后内容图样本进行图像特征提取,获得各内容图样本的第一图像特征和第二图像特征。
[0337]
其中,数据描述信息包括对内容图样本进行处理后的处理后内容图样本,且对内容图样本进行处理具体为对内容图样本进行数据增强处理。服务器如何得到图像特征的方式与前述实施例类似,此处不再赘述。
[0338]
步骤2406,对各内容图样本对应的内容分类标签进行文本特征提取,得到各第一文本特征。
[0339]
其中,数据描述信息包括内容图样本对应的文本信息。服务器对各内容图样本对应的内容分类标签进行文本特征提取,得到各内容图样本对应的内容分类标签对应的第一文本特征。
[0340]
步骤2408,对各内容图样本对应的文本信息进行文本划分,得到各内容图样本对应的文本序列。
[0341]
其中,各内容图样本对应的文本序列中包括多个文本标记(token)。具体地,对内容图样本对应的文本信息进行文本划分后即可得到多个文本标记,基于文本标记组成内容图样本对应的文本序列。服务器如何得到各内容图样本对应的文本序列的方式与前述实施例类似,此处不再赘述。
[0342]
步骤2410,对各文本序列进行掩码处理,掩码处理后的文本序列中的部分文本标记被替换为掩码标记,并基于各掩码处理后的文本序列生成各第二文本特征。
[0343]
其中,掩码处理为对文本序列中的部分文本标记进行掩码(mask),也就是将部分文本标记替换为掩码标记。服务器如何生成各第二文本特征的方式与前述实施例类似,此处不再赘述。
[0344]
步骤2412,基于各内容图样本的样本特征,构建各内容图样本对应的多模态特征。
[0345]
其中,各内容图样本的样本特征包括第一图像特征、第二图像特征、第一文本特征以及第二文本特征。服务器如何得到多模态特征的方式与前述实施例类似,此处不再赘述。
[0346]
步骤2414,基于各内容图样本的融合特征和样本特征中的至少一种,以及多模态特征,对初始预训练模型进行训练,得到目标预训练模型。
[0347]
服务器可以基于各内容图样本的融合特征以及多模态特征对初始预训练模型进行训练,得到目标预训练模型。或,基于样本特征以及多模态特征对初始预训练模型进行训练,得到目标预训练模型。或,基于各内容图样本的融合特征和样本特征对初始预训练模型进行训练,得到目标预训练模型。服务器如何对初始预训练模型进行训练,得到目标预训练模型的方式与前述实施例类似,此处不再赘述。
[0348]
步骤2416,获取各体感画风训练样本,以及各体感画风训练样本对应的体感画风标签。
[0349]
其中,体感画风标签用于描述体感画风训练样本的体感画风类别,体感画风类别
用于描述数据信息的风格和调性对应类别,前述数据信息可以为文本、图片、视频或音乐。服务器获取各体感画风训练样本,以及各体感画风训练样本对应的体感画风标签的方式与步骤2002类似,此处不再赘述。
[0350]
步骤2418,基于各体感画风训练样本,对初始体感画风识别模型进行训练,获得训练后的体感画风识别模型。
[0351]
其中,体感画风识别模型识别数据信息的体感画风类别,初始体感画风识别模型为通过前述训练得到的目标预训练模型。服务器训练得到体感画风识别模型的方式与步骤2004类似,此处不再赘述。
[0352]
步骤2420,获取待识别数据信息。
[0353]
服务器通过与步骤2302类似的方式获取待识别数据信息,此处不再赘述。
[0354]
步骤2422,基于待识别数据信息,通过体感画风识别模型获取待识别数据信息对应的预测体感画风标签,预测体感画风标签用于描述待识别数据信息的体感画风类别。
[0355]
其中,体感画风识别模型为通过前述训练方法得到的。服务器通过与步骤2304类似的方式获取待识别数据信息对应的预测体感画风标签,此处不再赘述。
[0356]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0357]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的预训练模型的训练方法的预训练模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个预训练模型的训练装置实施例中的具体限定可以参见上文中对于预训练模型的训练方法的限定,在此不再赘述。
[0358]
在一个实施例中,如图25所示,提供了一种预训练模型的训练装置,包括:获取模块2502、处理模块2504和第一训练模块2506,其中:
[0359]
获取模块2502,用于获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;并获取各样本数据对中的内容图样本对应的内容分类标签;
[0360]
处理模块2504,用于对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征;
[0361]
第一训练模块2506,用于基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,目标预训练模型用于训练获得体感画风识别模型,体感画风识别模型识别数据信息的体感画风类别。
[0362]
在一个实施例中,数据描述信息包括:对内容图样本进行处理后的处理后内容图样本,以及内容图样本对应的文本信息;
[0363]
处理模块2504,具体用于分别对各内容图样本以及处理后内容图样本进行图像特征提取,获得各内容图样本的第一图像特征和第二图像特征;并分别对各内容图样本对应的内容分类标签和文本信息进行文本特征提取,获得各内容图样本的第一文本特征和第二
文本特征;并图像特征包括第一图像特征和第二图像特征,文本特征包括第一文本特征和第二文本特征。
[0364]
在一个实施例中,处理模块2504,具体用于对各内容图样本对应的内容分类标签进行文本特征提取,得到各第一文本特征;并对各内容图样本对应的文本信息进行文本划分,得到各内容图样本对应的文本序列;并对各文本序列进行掩码处理,掩码处理后的文本序列中的部分文本标记被替换为掩码标记,并基于各掩码处理后的文本序列生成各第二文本特征。
[0365]
在一个实施例中,内容图样本对应的文本序列包括多个文本标记;
[0366]
处理模块2504,具体用于计算各文本序列中各文本标记的贡献度,贡献度为文本标记对内容分类标签预测的贡献度;并通过各文本序列中各文本标记的贡献度,确定各文本序列中的关键文本标记,并将各文本序列中的关键文本标记确定为文本序列中被替换的文本标记。
[0367]
在一个实施例中,第一训练模块2506,具体用于基于各内容图样本的样本特征,构建各内容图样本对应的多模态特征;并基于各内容图样本的多模态特征,对初始预训练模型进行训练,得到目标预训练模型。
[0368]
在一个实施例中,第一训练模块2506,具体用于基于各内容图样本的融合特征和样本特征中的至少一种,以及多模态特征,对初始预训练模型进行训练,得到目标预训练模型;其中,融合特征包括第一融合特征和第二融合特征,第一融合特征为基于内容图样本的第一图像特征以及第二文本特征构建的特征;第二融合特征为基于内容图样本的第二图像特征以及第二文本特征构建的特征。
[0369]
在一个实施例中,第一训练模块2506,具体用于在训练过程中:基于各多模态特征,获得各内容图样本对应的预测内容分类标签,并通过各预测内容分类标签与各内容分类标签,计算得到的各内容图样本对应的交叉熵损失信息;并基于各内容图样本的融合特征和样本特征中的至少一种,计算确定各内容图样本对应的相似度损失信息;并基于各交叉熵损失信息以及各相似度损失信息,更新初始预训练模型的模型参数。
[0370]
在一个实施例中,处理模块2504,具体用于计算各内容图样本的第一图像特征以及第二图像特征之间的第一相似度;并计算各内容图样本的第二文本特征中的各文本子特征之间的第二相似度;并计算各内容图样本的第一融合特征以及第二融合特征之间的第三相似度;并基于各第一相似度、各第二相似度以及各第二相似度,得到各内容图样本对应的相似度损失信息。
[0371]
在一个实施例中,第一训练模块2506,具体用于在训练过程中,基于各内容图样本的第一图像特征以及第二文本特征进行图文匹配程度评估,得到各内容图样本对应的图文匹配程度;并基于各交叉熵损失信息、各相似度损失信息以及各图文匹配程度,更新初始预训练模型的模型参数。
[0372]
在一个实施例中,如图26所示,提供了一种体感画风识别模型的训练装置,包括:获取模块2602和第二训练模块2604,其中:
[0373]
获取模块2602,用于获取待识别数据信息;
[0374]
第二训练模块2604,用于基于各体感画风训练样本,对初始体感画风识别模型进行训练,获得训练后的体感画风识别模型;
[0375]
其中,初始体感画风识别模型的获得方式包括:
[0376]
获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;
[0377]
获取各样本数据对中的内容图样本对应的内容分类标签;
[0378]
对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征;
[0379]
基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,并将目标预训练模型作为初始体感画风识别模型。
[0380]
一个实施例中,第二训练模块2604包括:
[0381]
初始体感画风识别模型获得模块,用于获得初始体感画风识别模型,其用以将;
[0382]
体感画风模型训练模块,用于对基于各体感画风训练样本,对初始体感画风识别模型获得模块获得的初始体感画风识别模型进行训练,获得训练后的体感画风识别模型。
[0383]
其中,初始体感画风识别模型获得模块,可以是将上述预训练模型的训练装置获得的目标预训练模型作为初始体感画风识别模型,也可以直接上述预训练模型的训练装置,即将上述预训练模型的训练装置作为该初始体感画风识别模型获得模块。
[0384]
在一个实施例中,如图27所示,提供了一种体感画风的识别装置,包括:获取模块2702和识别模块2704,其中:
[0385]
获取模块2702,用于获取待识别数据信息;
[0386]
识别模块2704,用于基于待识别数据信息,通过体感画风识别模型获取待识别数据信息对应的预测体感画风标签,预测体感画风标签用于描述待识别数据信息的体感画风类别;
[0387]
其中,体感画风识别模型的获得方式包括:
[0388]
获取各体感画风训练样本,以及各体感画风训练样本对应的体感画风标签;
[0389]
基于各体感画风训练样本,对初始体感画风识别模型进行训练,获得训练后的体感画风识别模型;
[0390]
其中,初始体感画风识别模型的获得方式包括:
[0391]
获取各样本数据对,样本数据对包括内容图样本以及与内容图样本对应的数据描述信息;
[0392]
获取各样本数据对中的内容图样本对应的内容分类标签;
[0393]
对各样本数据对以及各内容图样本对应的内容分类标签进行特征提取,获得各内容图样本的样本特征,样本特征包括图像特征和文本特征;
[0394]
基于各内容图样本的样本特征,对初始预训练模型进行训练,得到目标预训练模型,并将目标预训练模型作为初始体感画风识别模型。
[0395]
一个实施例中,体感画风的识别装置,还可以包括上述体感画风识别模型的训练装置,以训练获得体感画风识别模型。
[0396]
上述预训练模型的训练装置、体感画风识别模型的训练装置以及体感画风的识别装置中的各模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各模块对应的操作。
[0397]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图28所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据对、体感画风训练样本以及待识别数据信息等所需数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种预训练模型的训练方法。
[0398]
本领域技术人员可以理解,图28中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0399]
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0400]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0401]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0402]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0403]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0404]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例
中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0405]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1