本技术涉及人工智能,尤其涉及一种神经网络的训练方法以及相关装置。
背景技术:
1、随着互联网的发展,各种图文信息的发布量以指数级速度增长,这些图文信息的来源渠道和质量层次不齐。因此,在图文信息分发至用户前,对具体的内容进行人工审核和标记,将存在质量问题的图片过滤处理。
2、目前采用的方法是通过机器学习辅助算法对内容进行识别,通常神经网络模型的迭代过程如下:需求确定、数据采集、模型训练、模型测试与上线。由于图文信息的种类非常广泛,因此,模型训练时为了保证模型的训练精度,需要使用种类分布广泛的训练数据。
3、对这些训练数据的标签信息,目前需要人工标记。大量的训练数据导致模型的训练成本较高,进而导致模型的训练效率较低。
技术实现思路
1、本技术实施例提供了一种神经网络的训练方法以及相关装置。预训练数据包括多张图片以及多张图片的标签信息,由于该图片的标签信息为该图片来源天然具有的属性信息,具有容易获取的特点。因此,可以容易获取大量的预训练数据。基于该预训练数据,对预训练模型进行训练得到图片神经网络,可以有效提升神经网络模型的训练效率和训练精度。该预训练模型采用自监督训练,可以有效提升训练效率和训练精度。
2、有鉴于此,本技术一方面提供一种神经网络的训练方法,其特征在于,包括:
3、获取预训练数据,预训练数据包括多张图片和多张图片对应的标签信息,多张图片包括以下一项或多项:
4、视频文件中的抽帧图,其中,抽帧图对应的标签信息为视频文件的标签信息,
5、或者,图文信息的图片,其中,图文信息的图片对应的标签信息为图文信息的标题或者摘要信息,
6、或者,基于目标标签信息搜索得到的公共图片,其中,将目标标签信息作为公共图片对应的标签信息;
7、根据预训练数据对预训练模型进行自监督训练,得到图片神经网络,其中,图片神经网络用于获取图片的嵌入embedding特征。
8、本技术另一方面提供一种神经网络训练装置,包括:
9、收发模块,用于获取预训练数据,预训练数据包括多张图片和多张图片对应的标签信息,多张图片包括以下一项或多项:
10、视频文件中的抽帧图,其中,抽帧图对应的标签信息为视频文件的标签信息,
11、或者,图文信息的图片,其中,图文信息的图片对应的标签信息为图文信息的标题或者摘要信息,
12、或者,基于目标标签信息搜索得到的公共图片,其中,将目标标签信息作为公共图片对应的标签信息;
13、处理模块,用于根据预训练数据对预训练模型进行自监督训练,得到图片神经网络,其中,图片神经网络用于获取图片的嵌入embedding特征。
14、在本技术实施例的另一方面的另一种实现方式中,神经网络训练装置,还包括:
15、处理模块,还用于根据预训练数据,采用对比学习方式对预训练模型进行自监督训练,得到图片神经网络,其中,预训练数据中多张图片对应的标识信息作为训练中的监督信号。
16、在本技术实施例的另一方面的另一种实现方式中,视频文件中的抽帧图包括:同一视频文件中临近的多个视频帧对应的抽帧图,和/或,不同视频文件中视频帧对应的抽帧图;
17、图文信息的图片包括:图文信息的封面图片,图文信息的正文图片,和/或,图文信息的摘要图片。
18、在本技术实施例的另一方面的另一种实现方式中,神经网络训练装置,还包括:
19、收发模块,还用于获取多个视频文件;
20、处理模块,还用于对多个视频文件进行去重处理,得到去重后的多个视频文件;
21、处理模块,还用于从去重后的多个视频文件中提取视频文件中的抽帧图。
22、在本技术实施例的另一方面的另一种实现方式中,神经网络训练装置,还包括:
23、处理模块,还用于对预训练模型进行知识蒸馏处理,得到图片神经网络。
24、在本技术实施例的另一方面的另一种实现方式中,神经网络训练装置,还包括:
25、收发模块,还用于获取业务样本,业务样本包括一张或多张图片,和图片对应的标识信息;
26、处理模块,还用于使用业务样本对预训练模型进行微调处理,得到微调后的预训练模型。
27、在本技术实施例的另一方面的另一种实现方式中,神经网络训练装置,还包括:
28、收发模块,还用于获取第一标签信息集合,第一标签信息集合包括以下一项或多项:一个或多个视频文件的标签信息,或者,一个或多个图文信息的标签信息;
29、处理模块,还用于对第一标签信息集合进行去重处理,得到目标标签信息;
30、处理模块,还用于基于目标标签信息通过搜索引擎获取多张待筛选公共图片;
31、处理模块,还用于剔除多张待筛选公共图片中分辨率低于第一阈值的图片,得到公共图片。
32、本技术另一方面提供一种计算机设备,包括:存储器、处理器以及总线系统;
33、其中,存储器用于存储程序;
34、处理器用于执行存储器中的程序,处理器用于根据程序代码中的指令执行上述各方面的方法;
35、总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
36、本技术的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
37、本技术的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。
38、从以上技术方案可以看出,本技术实施例具有以下优点:
39、首先,获取预训练数据,预训练数据包括多张图片和多张图片对应的标签信息,多张图片包括以下一项或多项:视频文件中的抽帧图,其中,抽帧图对应的标签信息为视频文件的标签信息,或者,图文信息的图片,其中,图文信息的图片对应的标签信息为图文信息的标题或者摘要信息,或者,基于目标标签信息搜索得到的公共图片,其中,将目标标签信息作为公共图片对应的标签信息;然后,根据预训练数据对预训练模型进行自监督训练,得到图片神经网络,其中,预训练模型的主干网络包括swin transformer网络,图片神经网络用于获取图片的嵌入embedding特征。
40、本技术中,预训练数据包括多张图片以及多张图片的标签信息,由于该图片的标签信息为该图片来源天然具有的属性信息,具有容易获取的特点。因此,可以容易获取大量的预训练数据。基于该预训练数据,对预训练模型进行训练得到图片神经网络,可以有效提升神经网络模型的训练效率和训练精度。该预训练模型采用自监督训练,可以有效提升训练效率和训练精度。该预训练模型的主干网络包括swin transformer网络,在节省训练时间的同时,可以保证较高的训练精度。