本技术涉及金融数据处理,尤其涉及一种异常数据评估方法、装置、设备及其存储介质。
背景技术:
1、在大数据时代,异常数据的评估与检测,能够提前发现风险进行规避,保证后续业务处理的安全性和业务系统稳定性。
2、对于业务系统是否存在潜在风险,传统的评估分析决策系统主要依赖于专家的主观判断,难以做到科学、客观。而且,由于数据来源多、数据结构复杂、隐私保护、数据非平衡等问题,导致了一定程度上的分析难度,对传统的评估分析决策方法带来了极大的挑战,目前,在异常数据评估检测上,还存在数据保护不够安全、评估不够全面和科学化的问题。
技术实现思路
1、本技术实施例的目的在于提出一种异常数据评估方法、装置、设备及其存储介质,以解决现有技术在异常数据评估检测上,还存在数据保护不够安全、评估不够全面和科学化的问题。
2、为了解决上述技术问题,本技术实施例提供一种异常数据评估方法,采用了如下所述的技术方案:
3、一种异常数据评估方法,包括下述步骤:
4、从多数据源采集目标评估数据;
5、对所述目标评估数据进行加密和扰动处理,得到待整合数据;
6、采用安全加法方式对所有待整合数据进行初步整合,生成初步整合的评估数据;
7、对所述初步整合的评估数据进行清洗和预处理,以及根据预设的分类维度对清洗和预处理后的所述评估数据进行分类处理,获得分类数据;
8、将所述分类数据输入到预训练完成的异常检测模型,获得所述异常检测模型的输出结果;
9、根据所述输出结果和预设估值算法,计算所述目标评估数据的异常值。
10、进一步的,所述多数据源包括收支交易数据源、税务管理数据源、司法公告数据源、市场监管数据源、征信查询数据源,所述对所述目标评估数据进行加密和扰动处理,得到待整合数据的步骤,具体包括:
11、识别所述目标评估数据的来源;
12、根据所述目标评估数据的来源不同,分别选择不同加密技术进行加密处理;
13、采用预设的扰动函数对加密处理后的目标评估数据进行数据扰动,得到扰动后的数据作为所述待整合数据,其中,所述预设的扰动函数服从拉普拉斯分布。
14、进一步的,所述目标评估数据包括企业基本信息数据、企业监管数据和企业交易数据,所述采用安全加法方式对所有待整合数据进行初步整合,生成初步整合的评估数据的步骤,具体包括:
15、识别当前待整合数据的类别;
16、若当前待整合数据为企业基本信息数据,则采用聚类方式,将从多数据源采集的所有企业基本信息数据整合到预设的第一数据集合中,其中,所述企业基本信息数据包括企业地址信息、企业商事主体及高管人员基本信息和企业注册资本信息;
17、若当前待整合数据为企业监管数据,则采用聚类方式,将从多数据源采集的所有企业监管数据整合到预设的第二数据集合中,其中,所述企业监管数据包括企业申报的经营范围、企业年报填报情况、评估手续办理情况;
18、若当前待整合数据为企业交易数据,则按照交易时间先后顺序对从多数据源采集的所有企业交易数据进行时间序列化整合,并根据交易主体对从多数据源采集的所有企业交易数据进行聚类整合,其中,所述企业交易数据包括企业在提供经营服务期间产生的交易数据。
19、进一步的,所述根据预设的分类维度对清洗和预处理后的所述评估数据进行分类处理,获得分类数据的步骤,具体包括:
20、按照预设第一分类策略对清洗和预处理后的所述评估数据进行分类,获得第一分类数据,其中,所述第一分类策略包括依据数据是否为企业交易数据进行分类;
21、基于第二分类策略对所述第一分类数据进行再次分类,获得第二分类数据作为所述目标分类数据,其中,所述第二分类策略包括依据数据是否存在时间序列性进行分类。
22、进一步的,所述预训练完成的异常检测模型包括第一检测组件和第二检测组件,所述将所述分类数据输入到预训练完成的异常检测模型,获得所述异常检测模型的输出结果的步骤,具体包括:
23、根据预设的分类标识,识别当前分类数据是否具备时间序列性;
24、若当前分类数据不具备时间序列性,则通过所述第一检测组件,确定出当前分类数据中的异常数据;
25、若当前分类数据具备时间序列性,则通过所述第二检测组件,确定出当前分类数据中的异常数据。
26、进一步的,所述通过所述第一检测组件,确定出当前分类数据中的异常数据的步骤,具体包括:
27、对当前分类数据中所有数据进行数学赋值化处理,其中,所述数学赋值化处理包括对相同或相似度达到预设阈值的数据赋予统一的数学值,对于相似度未达到预设阈值的数据赋予区别于所述数学值的其他数值;
28、获取数学赋值化处理后,当前分类数据中所有数据分别对应的数学值;
29、z=x-μ
30、采用预设的算法公式:σ,计算当前分类数据中所有数据对应的z分数值,其中,x表示当前分类数据中目标数据对应的数学值,μ表示当前分类数据中所有数据对应的数学值的平均值,σ表示当前分类数据中所有数据对应的数学值的标准差;
31、通过对比方式,判断当前数据对应的z分数值是否大于预设的异常阈值;
32、若当前数据对应的z分数值大于预设的异常阈值,则当前数据为异常数据。
33、进一步的,所述通过所述第二检测组件,确定出当前分类数据中的异常数据的步骤,具体包括:
34、采用频域特征提取算法对当前分类数据中数据分别进行特征提取;
35、对提取到的特征,按照时间序列性进行整理,得到当前分类数据中所有数据分别对应的特征向量;
36、对当前分类数据中所有数据分别对应的特征向量,采用欧式距离算法进行两两对比,获得特征距离;
37、结合所述特征距离以及预设的基于密度的聚类算法,筛选出未被聚类的数据,其中,所述预设的基于密度的聚类算法包括dbscan算法;
38、标记所述未被聚类的数据为当前分类数据中的异常数据。
39、进一步的,所述根据所述输出结果和预设估值算法,计算所述目标评估数据的异常值的步骤,具体包括:
40、通过所述输出结果,统计所有异常数据的数据条目量;
41、采用预设的估值算法,计算所有异常数据的数据条目量在所述初步整合的评估数据中的条目占比,其中,所述估值算法包括概率算法;
42、将所述占比作为所述异常值,或者,识别所述占比所对应的预先划分的异常等级,将所述异常等级作为所述异常值。
43、为了解决上述技术问题,本技术实施例还提供一种异常数据评估装置,采用了如下所述的技术方案:
44、一种异常数据评估装置,包括:
45、目标数据采集模块,用于从多数据源采集目标评估数据;
46、加密和扰动处理模块,用于对所述目标评估数据进行加密和扰动处理,得到待整合数据;
47、数据初步整合模块,用于采用安全加法方式对所有待整合数据进行初步整合,生成初步整合的评估数据;
48、数据分类处理模块,用于对所述初步整合的评估数据进行清洗和预处理,以及根据预设的分类维度对清洗和预处理后的所述评估数据进行分类处理,获得分类数据;
49、异常检测模块,用于将所述分类数据输入到预训练完成的异常检测模型,获得所述异常检测模型的输出结果;
50、异常值计算模块,用于根据所述输出结果和预设估值算法,计算所述目标评估数据的异常值。
51、为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
52、一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述所述的异常数据评估方法的步骤。
53、为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
54、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上述所述的异常数据评估方法的步骤。
55、与现有技术相比,本技术实施例主要有以下有益效果:
56、本技术实施例所述异常数据评估方法,通过从多数据源采集目标评估数据;对经营数据进行加密和扰动处理,得到待整合数据;对所有待整合数据进行初步整合,生成初步整合的评估数据;对初步整合的评估数据进行清洗和预处理,以及根据预设的分类维度对清洗和预处理后的企业经营数据进行分类处理,获得分类数据;将分类数据输入到异常检测模型,获得输出结果;根据输出结果和预设估值算法,计算所述目标评估数据的异常值。通过对多数据源提供的目标评估数据加密和扰动处理,并采用异常检测模型识别异常任务数据,保证了能够在数据安全的情况下,结合多数据来源全面性的进行异常检测,更加全面化和科学化。