本技术涉及计算机,尤其涉及一种数据处理方法、装置以及存储介质。
背景技术:
1、随着智能手机的发展,越来越多的电子游戏能够安装到手机上,让人们随时随地的消遣娱乐,同时已经成为了一个较大的手游产业。而手游产业的蓬勃发展,随之而来也会催生出一系列的问题出来,例如外挂问题。
2、一般,可以基于已知的外挂样本进行进程或函数角度的外挂检测,但是,由于已知的外挂样本的数量有限,在海量数据样本的场景中,可能出现外挂样本无法检测的情况,影响数据处理过程中异常检测的准确性。
技术实现思路
1、有鉴于此,本技术提供一种数据处理方法,可以有效提高数据处理过程中异常检测的准确性。
2、本技术第一方面提供一种数据处理方法,可以应用于终端设备中包含数据处理功能的系统或程序中,具体包括:
3、获取目标对象中配置的文件结构信息;
4、对所述文件结构信息进行文件内容的提取,以得到文件结构内容;
5、基于预设维度对所述文件结构内容进行特征提取,以得到对象特征,所述预设维度基于所述文件结构信息和所述目标对象进行设定;
6、确定所述对象特征配置的画像标签,以基于所述画像标签对预设样本集合进行聚类得到目标聚类簇,所述目标聚类簇中包含所述目标对象和多个可疑异常样本;
7、基于所述目标聚类簇中的可疑异常样本对预设分类模型进行监督训练,以得到目标分类模型,所述预设分类模型中的注意力层用于对所述可疑异常样本对应的文件结构特征和画像特征进行融合得到注意力权重矩阵,所述注意力权重矩阵用于对所述预设分类模型进行参数调整;
8、基于所述目标分类模型进行数据中异常样本的检测。
9、可选的,在本技术一些可能的实现方式中,所述对所述文件结构信息进行文件内容的提取,以得到文件结构内容,包括:
10、获取所述文件结构信息对应的属性信息;
11、对所述属性信息中的属性参数进行提取,以得到各个所述属性信息对应的校验值;
12、将所述校验值映射到目标范围,以得到映射值;
13、基于所述映射值进行分桶操作,以得到所述属性信息对应的特征值,所述特征值用于指示所述文件结构内容。
14、可选的,在本技术一些可能的实现方式中,所述确定所述对象特征配置的画像标签,以基于所述画像标签对预设样本集合进行聚类得到目标聚类簇,包括:
15、确定所述对象特征配置的所述画像标签;
16、对所述预设样本集合中的样本基于所述画像标签进行标记,以得到核心点、边界点和噪声点;
17、将所述噪声点进行删除;
18、基于领域阈值为所述核心点配置边;
19、根据所述核心点配置的边进行连通,以得到核心簇;
20、基于所述边界点与所述核心点之间的距离关系将所述边界点关联到所述核心簇中,以得到包含所述目标对象的所述目标聚类簇。
21、可选的,在本技术一些可能的实现方式中,所述对所述预设样本集合中的样本基于所述画像标签进行标记,以得到核心点、边界点和噪声点,包括:
22、将所述目标对象作为预设异常样本和所述预设样本集合中的样本整合为样本数据点;
23、根据所述画像标签对所述样本数据点进行分布,以得到分布信息;
24、对所述分布信息中指示半径范围中的数据点数大于点数阈值的样本数据点标记为所述核心点;
25、对所述分布信息中指示半径范围中的数据点数小于或等于所述点数阈值的样本数据点标记为所述边界点;
26、将所述样本数据点中未标记的点作为所述噪声点。
27、可选的,在本技术一些可能的实现方式中,所述基于所述可疑异常样本对预设分类模型进行监督训练,以得到目标分类模型,包括:
28、获取所述可疑异常样本对应的文件结构内容和画像标签;
29、对所述可疑异常样本对应的文件结构内容进行编码,以得到结构编码;
30、对所述结构编码进行表征,以得到结构表征;
31、对所述可疑异常样本对应的画像标签进行表征,以得到标签表征;
32、将所述结构表征和所述标签表征输入所述预设分类模型中的注意力层,以基于点乘注意力机制对所述结构表征和所述标签表征进行处理得到所述注意力权重矩阵;
33、将所述注意力权重矩阵输入所述预设分类模型中的卷积层,以得到卷积信息;
34、将所述卷积特征输入所述预设分类模型中的池化层,以得到池化信息;
35、将所述池化信息输入所述预设分类模型中的全连接层,以得到输出信息;
36、基于所述输出信息对应的损失信息对所述预设分类模型进行监督训练,以得到所述目标分类模型。
37、可选的,在本技术一些可能的实现方式中,所述将所述结构表征和所述标签表征输入所述预设分类模型中的注意力层,以基于点乘注意力机制对所述结构表征和所述标签表征进行处理得到所述注意力权重矩阵,包括:
38、将所述结构表征和所述标签表征输入所述预设分类模型中的注意力层;
39、确定所述结构表征对应的文本长度,以及所述标签表征对应的特征长度;
40、根据所述文本长度和所述特征长度对所述结构表征和所述标签表征进行隔离,以得到隔离表征序列;
41、基于点乘注意力机制对所述隔离表征序列进行处理,以得到所述注意力权重矩阵。
42、可选的,在本技术一些可能的实现方式中,所述基于所述目标分类模型进行数据中异常样本的检测,包括:
43、基于所述目标分类模型对候选样本集进行检测,以得到目标异常样本;
44、响应于待检测样本的输入,基于所述待检测样本与所述目标异常样本的相似度进行异常样本的检测。
45、本技术第二方面提供一种数据处理装置,包括:获取单元,用于获取目标对象中配置的文件结构信息;
46、提取单元,用于对所述文件结构信息进行文件内容的提取,以得到文件结构内容;
47、所述提取单元,还用于基于预设维度对所述文件结构内容进行特征提取,以得到对象特征,所述预设维度基于所述文件结构信息和所述目标对象进行设定;
48、处理单元,用于确定所述对象特征配置的画像标签,以基于所述画像标签对预设样本集合进行聚类得到目标聚类簇,所述目标聚类簇中包含所述目标对象和多个可疑异常样本;
49、所述处理单元,还用于基于所述目标聚类簇中的可疑异常样本对预设分类模型进行监督训练,以得到目标分类模型,所述预设分类模型中的注意力层用于对所述可疑异常样本对应的文件结构特征和画像特征进行融合得到注意力权重矩阵,所述注意力权重矩阵用于对所述预设分类模型进行参数调整;
50、所述处理单元,还用于基于所述目标分类模型进行数据中异常样本的检测。
51、可选的,在本技术一些可能的实现方式中,所述提取单元,具体用于获取所述文件结构信息对应的属性信息;
52、所述提取单元,具体用于对所述属性信息中的属性参数进行提取,以得到各个所述属性信息对应的校验值;
53、所述提取单元,具体用于将所述校验值映射到目标范围,以得到映射值;
54、所述提取单元,具体用于基于所述映射值进行分桶操作,以得到所述属性信息对应的特征值,所述特征值用于指示所述文件结构内容。
55、可选的,在本技术一些可能的实现方式中,所述处理单元,具体用于确定所述对象特征配置的所述画像标签;
56、所述处理单元,具体用于对所述预设样本集合中的样本基于所述画像标签进行标记,以得到核心点、边界点和噪声点;
57、所述处理单元,具体用于将所述噪声点进行删除;
58、所述处理单元,具体用于基于领域阈值为所述核心点配置边;
59、所述处理单元,具体用于根据所述核心点配置的边进行连通,以得到核心簇;
60、所述处理单元,具体用于基于所述边界点与所述核心点之间的距离关系将所述边界点关联到所述核心簇中,以得到包含所述目标对象的所述目标聚类簇。
61、可选的,在本技术一些可能的实现方式中,所述处理单元,具体用于将所述目标对象作为预设异常样本和所述预设样本集合中的样本整合为样本数据点;
62、所述处理单元,具体用于根据所述画像标签对所述样本数据点进行分布,以得到分布信息;
63、所述处理单元,具体用于对所述分布信息中指示半径范围中的数据点数大于点数阈值的样本数据点标记为所述核心点;
64、所述处理单元,具体用于对所述分布信息中指示半径范围中的数据点数小于或等于所述点数阈值的样本数据点标记为所述边界点;
65、所述处理单元,具体用于将所述样本数据点中未标记的点作为所述噪声点。
66、可选的,在本技术一些可能的实现方式中,所述处理单元,具体用于获取所述可疑异常样本对应的文件结构内容和画像标签;
67、所述处理单元,具体用于对所述可疑异常样本对应的文件结构内容进行编码,以得到结构编码;
68、所述处理单元,具体用于对所述结构编码进行表征,以得到结构表征;
69、所述处理单元,具体用于对所述可疑异常样本对应的画像标签进行表征,以得到标签表征;
70、所述处理单元,具体用于将所述结构表征和所述标签表征输入所述预设分类模型中的注意力层,以基于点乘注意力机制对所述结构表征和所述标签表征进行处理得到所述注意力权重矩阵;
71、所述处理单元,具体用于将所述注意力权重矩阵输入所述预设分类模型中的卷积层,以得到卷积信息;
72、所述处理单元,具体用于将所述卷积特征输入所述预设分类模型中的池化层,以得到池化信息;
73、所述处理单元,具体用于将所述池化信息输入所述预设分类模型中的全连接层,以得到输出信息;
74、所述处理单元,具体用于基于所述输出信息对应的损失信息对所述预设分类模型进行监督训练,以得到所述目标分类模型。
75、可选的,在本技术一些可能的实现方式中,所述处理单元,具体用于将所述结构表征和所述标签表征输入所述预设分类模型中的注意力层;
76、所述处理单元,具体用于确定所述结构表征对应的文本长度,以及所述标签表征对应的特征长度;
77、所述处理单元,具体用于根据所述文本长度和所述特征长度对所述结构表征和所述标签表征进行隔离,以得到隔离表征序列;
78、所述处理单元,具体用于基于点乘注意力机制对所述隔离表征序列进行处理,以得到所述注意力权重矩阵。
79、可选的,在本技术一些可能的实现方式中,所述处理单元,具体用于基于所述目标分类模型对候选样本集进行检测,以得到目标异常样本;
80、所述处理单元,具体用于响应于待检测样本的输入,基于所述待检测样本与所述目标异常样本的相似度进行异常样本的检测。
81、本技术第三方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的数据处理方法。
82、本技术第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的数据处理方法。
83、根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的数据处理方法。
84、从以上技术方案可以看出,本技术实施例具有以下优点:
85、通过获取目标对象中配置的文件结构信息;然后对文件结构信息进行文件内容的提取,以得到文件结构内容;并基于预设维度对文件结构内容进行特征提取,以得到对象特征,该预设维度基于文件结构信息和目标对象进行设定;进一步的确定对象特征配置的画像标签,以基于画像标签对预设样本集合进行聚类得到目标聚类簇,该目标聚类簇中包含目标对象和多个可疑异常样本;从而基于目标聚类簇中的可疑异常样本对预设分类模型进行监督训练,以得到目标分类模型,该预设分类模型中的注意力层用于对可疑异常样本对应的文件结构特征和画像特征进行融合得到注意力权重矩阵,且注意力权重矩阵用于对预设分类模型进行参数调整;进而基于目标分类模型进行数据中异常样本的检测。从而实现基于潜在异常样本的检测过程,由于从样本的结构信息角度进行可疑异常样本的聚类,扩展了可疑异常样本可能的结构形变,且通过可疑异常样本的样本结构以及画像维度进行分类模型的训练,使得分类模型可以得到更多的可疑异常样本以进行外挂检测,提高了数据处理过程中异常样本检测的准确性。