本发明涉及互联网,尤其涉及不良信息检测方法、装置、设备及存储介质。
背景技术:
1、随着国家对于信息安全工作的愈发重视,以及公司核心机密的安全性能的逐步提升,由于需要保护的数据越来越多,使得信息安全工作量急剧增加,而影响工作安全的大多数为不良信息的嵌入,造成整个网络环境处于危险状态,因此,准确地检测出网络中的不良信息就显得尤为重要,目前的相关技术是通过爬虫网络抓取图片或视频信息,提取图片或视频特征,通过机器学习的方式进行分类识别,从而可以检测出不良信息,但是上述相关技术只能检测出单一的不良信息,且检测出不良信息的准确性较低。
2、上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本发明的主要目的在于提供一种不良信息检测方法、装置、设备及存储介质,旨在解决现有技术无法全面、准确地检测出网络的不良信息的技术问题。
2、为实现上述目的,本发明提供了一种不良信息检测方法,所述不良信息检测方法包括以下步骤:
3、对待检测信息进行检测,得到待检测网站灰名单;
4、根据所述待检测网站灰名单爬取出对应的资源图片;
5、通过目标transformer网络模型对所述资源图片进行分类,得到资源图片分类结果;
6、根据所述资源图片分类结果确定不良图片的定位地址和来源标识地址。
7、可选地,所述对待检测信息进行检测,得到待检测网站灰名单,包括:
8、根据定位地址对待检测信息进行去重;
9、根据目标范围标识地址对去重后的待检测信息进行过滤;
10、根据所述定位地址和域名黑白名单对过滤后的待检测不良信息中的白名单数据和黑名单数据进行过滤,得到待检测网站灰名单。
11、可选地,所述通过目标transformer网络模型对所述资源图片进行分类,得到资源图片分类结果之前,还包括:
12、通过目标资源数据库下载鉴黄图像样本,以及通过目标网站采集非黄图像样本;
13、根据所述鉴黄图像样本和所述非黄图像样本构建目标样本数据集;
14、按照预设图像切割策略对所述目标样本数据集中的图像进行切割,得到目标数量的图像块;
15、通过不同通道的transformer编码器对所述图像块进行特征提取,得到对应的编码特征,所述编码特征包括第一编码特征和第二编码特征;
16、通过目标交叉注意力模块对所述第一编码特征和所述第二编码特征进行融合,得到目标编码特征向量;
17、根据所述目标编码特征向量生成目标transformer网络模型。
18、可选地,所述根据所述目标编码特征向量生成目标transformer网络模型之后,还包括:
19、按照预设比例对所述目标样本数据集进行划分,得到样本测试数据集;通过所述样本测试数据集对所述目标transformer网络模型进行测试,得到正确分类鉴黄样本实例数、正确分类非黄样本实例数、错误分类鉴黄样本实例数以及错误分类非黄样本实例数;
20、根据所述正确分类鉴黄样本实例数、正确分类非黄样本实例数、错误分类鉴黄样本实例数以及错误分类非黄样本实例数计算出所述目标transformer 网络模型的分类正确率;
21、在所述分类正确率大于预设准确率阈值时,继续执行通过目标transformer 网络模型对所述资源图片进行分类的步骤。
22、可选地,所述通过不同通道的transformer编码器对所述图像块进行特征提取,得到对应的编码特征,包括:
23、根据所述图像块构建对应的输入图像矩阵;
24、将所述输入图像矩阵拉平为快慢通道输入矩阵;
25、根据所述快慢通道输入矩阵获取自注意头索引和上一编码器输出特征;
26、对所述query可学习映射矩阵、自注意头索引以及上一编码器输出特征进行计算,得到query向量;
27、对所述key可学习映射矩阵、自注意头索引以及上一编码器输出特征进行计算,得到key向量;
28、对所述value可学习映射矩阵、自注意头索引以及上一编码器输出特征进行计算,得到value向量;
29、通过自注意力机制构建所述query向量和key向量之间的自注意力系数矩阵;
30、将所述自注意力系数矩阵和所述value向量进行加权求和,得到当前编码器特征;
31、在不同通道的transformer编码器的数量大于预设数量阈值时,根据当前编码器特征重复上述步骤,直至所述transformer编码器均参与计算,得到对应的编码特征。
32、可选地,所述通过目标交叉注意力模块对所述第一编码特征和所述第二编码特征进行融合,得到目标编码特征向量,包括:
33、按照目标尺度通道将所述第一编码特征划分为第一大尺度编码特征和第一小尺度编码特征;
34、按照目标尺度通道将所述第二编码特征划分为第二大尺度编码特征和第二小尺度编码特征;
35、提取所述第一小尺度编码特征的维度;
36、根据所述维度对所述第一大尺度编码特征进行线性映射;
37、将线性映射后的第一大尺度编码特征与所述第一小尺度编码特征进行连接,得到当前编码特征矩阵;
38、根据所述当前编码特征矩阵计算出q向量、k向量以及v向量;
39、通过自注意力机制构建所述q向量和k向量之间的自注意力权重矩阵;
40、将所述自注意力权重矩阵和所述v向量进行残差计算,得到多尺度编码特征图;
41、对所述多尺度编码特征图的通道维数进行还原;
42、将还原后的多尺度编码特征图与所述第二大尺度编码特征进行连接,得到目标编码特征向量。
43、可选地,所述根据所述资源图片分类结果确定不良图片的定位地址和来源标识地址之后,还包括:
44、将所述不良图片的定位地址和上传地址发送至目标信息管理部门,以使所述目标信息管理部门的信息校验设备通过所述定位地址对不良图片进行下载,在校验所述不良图片属于目标类别图片时,将所述定位地址设置为禁止访问状态,同时,根据所述来源标识地址确定所述不良图片的来源,根据所述来源确定目标用户,并对所述目标用户进行警告。
45、此外,为实现上述目的,本发明还提出一种不良信息检测装置,所述不良信息检测装置包括:
46、检测模块,用于对待检测信息进行检测,得到待检测网站灰名单;
47、爬取模块,用于根据所述待检测网站灰名单爬取出对应的资源图片;
48、分类模块,用于通过目标transformer网络模型对所述资源图片进行分类,得到资源图片分类结果;
49、确定模块,用于根据所述资源图片分类结果确定不良图片的定位地址和来源标识地址。
50、此外,为实现上述目的,本发明还提出一种不良信息检测设备,所述不良信息检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的不良信息检测程序,所述不良信息检测程序配置为实现如上文所述的不良信息检测方法。
51、此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有不良信息检测程序,所述不良信息检测程序被处理器执行时实现如上文所述的不良信息检测方法。
52、本发明提出的不良信息检测方法,通过对待检测信息进行检测,得到待检测网站灰名单;根据所述待检测网站灰名单爬取出对应的资源图片;通过目标transformer网络模型对所述资源图片进行分类,得到资源图片分类结果;根据所述资源图片分类结果确定不良图片的定位地址和来源标识地址;通过上述方式,对待检测信息进行检测,然后爬取出待检测网站灰名单对应的资源图片,再通过目标transformer网络模型对资源图片进行分类,最后确定不良图片的定位地址和来源标识地址,从而全面、准确地检测出网络的不良信息,进而及时清除不良信息,净化网络。