本发明涉及人工智能领域,尤其涉及一种垃圾信息检测方法、装置、电子设备及存储介质。
背景技术:
1、随着移动互联网业务的迅速发展,以及通信技术的快速普及,使得人们生活中的信息量日趋巨大,信息的传播与获取也更加便捷。与此同时,垃圾信息的肆意传播也干扰了人们的正常生活。因此,需要提出一种垃圾信息检测方法进行检测及过滤,以促进移动互联网的绿色、健康发展。
2、现有技术中,通常使用关键字匹配或者朴素贝叶斯分类方法对垃圾信息进行检测,这种检测方法虽然识别率较高,但考虑的仅是单个字或词对检测结果的影响,不涉及句子之间和上下文意思的理解,因此对一些故意逃避使用特定关键字的信息,拦截效果不是很好,存在漏识别问题,故需要提出一种准确度更高的垃圾信息检测方法。
技术实现思路
1、本发明提供一种垃圾信息检测方法、装置、电子设备及存储介质,其主要目的在于提高垃圾信息检测的准确度。
2、为实现上述目的,本发明提供的一种垃圾信息检测方法,包括:
3、获取信息样本集,按照预设划分比例将所述信息样本集拆分为信息测试集及信息验证集,将所述信息测试集输入至初始信息检测模型中,得到编码句向量集;
4、获取所述编码句向量集对应的线性变换公式,对所述线性变换公式中的协方差矩阵进行矩阵分解,得到分解矩阵,根据所述分解矩阵和预设超参数对所述线性变换公式进行公式优化,得到白化公式,并基于所述白化公式对所述编码句向量集进行白化操作,得到白化句向量集;
5、利用对比学习算法对所述白化句向量集中的任意两个白化句向量进行对比学习,得到对比样本结果,根据所述对比样本结果中的正样本对构建对应的损失函数,并利用所述损失函数训练更新所述初始信息检测模型,得到标准信息检测模型;
6、将所述信息验证集输入至所述标准信息检测模型中,得到垃圾信息检测结果。
7、可选地,所述对所述线性变换公式中的协方差矩阵进行矩阵分解,得到分解矩阵,包括:
8、获取所述协方差矩阵对应的转换矩阵,建立所述转换矩阵和预设单位矩阵之间的矩阵等式;
9、在所述矩阵等式的左边乘上第一预设数,在所述矩阵等式的右边乘上第二预设数,得到标准矩阵;
10、对所述标准矩阵进行奇异值分解,得到分解矩阵。
11、可选地,所述根据所述分解矩阵和预设超参数对所述线性变换公式进行公式优化,得到白化公式,包括:
12、将所述分解矩阵替换所述线性变换公式中的协方差矩阵,得到初始优化公式;
13、将所述预设超参数引入至所述初始优化公式中,得到白化公式。
14、可选地,所述利用对比学习算法对所述白化句向量集中的任意两个白化句向量进行对比学习,得到对比样本结果,包括:
15、定义正样本标签及对应的负样本标签,识别所述白化句向量集中的白化句向量对应的类型,根据类型将所述白化句向量分配至所述正样本标签下,得到多个正样本;
16、对多个所述正样本中的任意两个正样本进行组合,得到多个正样本对;
17、将所述白化句向量集中除去所述正样本对的白化句向量分配至所述负样本标签中,得到多个负样本,并将多个所述负样本组合为负样本对;
18、将多个所述正样本对和多个所述负样本对进行汇总,得到对比样本结果。
19、可选地,所述根据所述对比样本结果中的正样本对构建对应的损失函数,包括:
20、所述损失函数为:
21、
22、
23、
24、其中,totαlloss为损失函数值,innceloss为单个损失函数值,和为所述正样本对中的正样本,τ为温度参数,exp为指数函数,为所述正样本对的余弦相似度,n1为所述负样本的数量,a为预设固定参数,m为正样本的数量。
25、可选地,所述利用所述损失函数训练更新所述初始信息检测模型,得到标准信息检测模型,包括:
26、比较所述损失函数对应的损失函数值与预设参考阈值的大小;
27、当所述损失函数值小于或者等于所述预设参考阈值时,将所述初始信息检测模型输出为标准信息检测模型;
28、当所述损失函数值大于所述预设参考阈值时,调整所述初始信息检测模型的模型参数,并对所述白化公式中的超参数进行调整,得到更新白化公式;
29、利用所述更新白化公式对所述编码句向量集进行白化处理,并根据白化处理后的数据执行对比学习及输入至调整模型参数后的初始信息检测模型中,直至计算得到的新的损失函数值小于或者等于所述预设参考阈值时,将调整模型参数后的初始信息检测模型输出为标准信息检测模型。
30、可选地,所述将所述信息测试集输入至初始信息检测模型中,得到编码句向量集,包括:
31、根据预设标记符号对所述信息测试集进行标记处理,得到标记信息集;
32、对所述标记信息集进行向量化处理,得到嵌入向量集;
33、利用所述初始检测模型中的编码层对所述嵌入向量集进行编码处理,得到编码句向量集。
34、为了解决上述问题,本发明还提供一种垃圾信息检测装置,所述装置包括:
35、样本编码模块,用于获取信息样本集,按照预设划分比例将所述信息样本集拆分为信息测试集及信息验证集,将所述信息测试集输入至初始信息检测模型中,得到编码句向量集;
36、白化操作模块,用于获取所述编码句向量集对应的线性变换公式,对所述线性变换公式中的协方差矩阵进行矩阵分解,得到分解矩阵,根据所述分解矩阵和预设超参数对所述线性变换公式进行公式优化,得到白化公式,并基于所述白化公式对所述编码句向量集进行白化操作,得到白化句向量集;
37、模型训练模块,用于利用对比学习算法对所述白化句向量集中的任意两个白化句向量进行对比学习,得到对比样本结果,根据所述对比样本结果中的正样本对构建对应的损失函数,并利用所述损失函数训练更新所述初始信息检测模型,得到标准信息检测模型;
38、信息检测模块,用于将所述信息验证集输入至所述标准信息检测模型中,得到垃圾信息检测结果。
39、为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
40、至少一个处理器;以及,
41、与所述至少一个处理器通信连接的存储器;其中,
42、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的垃圾信息检测方法。
43、为了解决上述问题,本发明还提供一种存储介质,所述存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的垃圾信息检测方法。
44、本发明实施例中,通过白化操作使得获取的信息样本集各向同性,并利用对比学习算法增大正负样本之间的差距,基于上述操作更新初始检测模型的参数,使得训练优化后的标准信息检测模型具有较强的垃圾信息检测能力。将信息验证集输入至所述标准信息检测模型中,得到垃圾信息检测结果。所述垃圾信息检测结果更加准确。因此本发明提出的垃圾信息检测方法、装置、电子设备及存储介质,可以解决提高垃圾信息检测的准确度低的问题。