本发明涉及商业数据分析,具体涉及一种合同异常数据风险智能分析方法。
背景技术:
1、电子合同是商业活动中的核心文件,合同异常可能导致合同履约困难、财务损失、法律纠纷等风险。通过对合同异常数据进行风险分析,可以及早识别合同中潜在的异常情况,采取相应的预防措施,降低风险发生概率,确保合同能够按照约定执行,维护合同各方的权益。
2、现有技术通常采用局部异常因子算法对电子合同进行风险分析,在进行异常点检测时,数据点的每个维度的数据对异常值的判断尺度相同;由于电子合同中包含多个属性数据的信息,且不同属性数据的数值变化情况存在差异,则固定判断尺度不容易识别部分属性数据之间的差异情况,导致合同中部分属性数据的异常情况被漏判或误判,降低异常合同筛选的准确性。
技术实现思路
1、为了解决相关技术中无法准确识别部分属性数据之间的差异情况,导致合同中部分属性数据的异常情况被漏判或误判,进而导致异常合同筛选的准确性不足的技术问题,本发明的目的在于提供一种合同异常数据风险智能分析方法,所采用的技术方案具体如下:
2、本发明提出了一种合同异常数据风险智能分析方法,该方法包括:
3、获取每份电子合同的合同数据点,所述合同数据点包含不同维度的属性数据;
4、根据合同数据点的每个维度与其他维度的属性数据的数据值的离散程度之间的差异,以及每个维度的属性数据的数据值的标准分数,获取合同数据点的每个维度的属性数据的变化显著度;
5、结合所有合同数据点的每个维度与其他维度的属性数据的数据值的聚集程度,以及所述变化显著度之间的差异,将合同数据点所有维度的属性数据划分为至少两个类别的属性数据;
6、根据每个类别的属性数据的数量与所述变化显著度,获取每个类别的属性数据的贡献评价值;
7、获取每个合同数据点在每个类别的属性数据下的局部数据点;利用所述贡献评价值对每个合同数据点在每个类别的属性数据下的局部数据点的离群程度进行调整,获取每个合同数据点的最终lof值;
8、基于所述最终lof值筛选异常电子合同。
9、进一步地,所述合同数据点的每个维度的属性数据的变化显著度的计算公式如下:
10、;式中,为合同数据点的第k个维度的属性数据的变化显著度;为合同数据点的第k个维度的属性数据的数据值的极差;为合同数据点除第k个维度外的所有维度的属性数据的数据值的极差中的最小值;为合同数据点除第k个维度外的所有维度的属性数据的数据值的极差中的最大值;n为合同数据点的数量;为第i个合同数据点的第k个维度的属性数据的标准分数。
11、进一步地,所述将合同数据点所有维度的属性数据划分为至少两个类别的属性数据的方法,包括:
12、将合同数据点所有维度的属性数据的所述变化显著度顺序排列得到变化度序列;
13、由变化度序列中第一元素与第二个元素对应的属性数据组成第一个初始的相似集合,将变化度序列中第三个元素对应的属性数据作为待更新的属性数据,获取待更新的属性数据与第一个相似集合内的属性数据之间的相似度;判断所述相似度是否大于或者等于预设相似阈值,若是,将待更新的属性数据添加到第一个相似集合内,对第一个相似集合进行更新;
14、确定下一个待更新的属性数据,获取待更新的属性数据与更新后第一个相似集合内的属性数据之间的相似度;判断所述相似度是否大于或者等于预设相似阈值,若是,将待更新的属性数据添加到第一个相似集合内,对第一个相似集合进行更新;若否,将更新后第一个相似集合内的属性数据作为同一类别的属性数据;
15、若否,将第一个相似集合内的属性数据作为同一类别的属性数据;由变化度序列中第三个与第四个元素对应的属性数据组成第二个初始的相似集合,确定新的待更新的属性数据,获取新的待更新的属性数据与第二个相似集合内的属性数据之间的相似度;判断所述相似度是否大于或者等于预设相似阈值,若是,将新的待更新的属性数据添加到第二个相似集合内,对第二个相似集合进行更新;若否,将第二个相似集合内的属性数据作为同一类别的属性数据;
16、以此进行更新迭代,将变化度序列中元素对应的属性数据划分为不同类别的属性数据。
17、进一步地,所述相似度的获取方法为:
18、选取合同数据点的任意两个维度的属性数据作为分析属性数据,以第一个分析属性数据为横轴,第二个分析属性数据为纵轴建立直角坐标系;
19、在所述直角坐标系中获取每个合同数据点对应的坐标点,所述坐标点的横坐标等于每个合同数据点的第一个分析属性数据的数据值,纵坐标等于每个合同数据点的第二个分析属性数据的数据值;
20、将所述直角坐标系中所有坐标点之间的平均距离作为合同数据点的两个分析属性数据之间的特征距离值;
21、结合待更新的属性数据与其相似集合内的属性数据之间的所述变化显著度之间的差异,以及所述特征距离值,获取待更新的属性数据与其相似集合内的属性数据之间的相似度。
22、进一步地,所述待更新的属性数据与其相似集合内的属性数据之间的相似度的计算公式如下:
23、;式中,为待更新的属性数据与其对应相似集合内的属性数据之间的相似度;m为待更新的属性数据对应的相似集合内的属性数据的数量;为待更新的属性数据与其对应相似集合内第j个属性数据之间的所述特征距离值;为待更新的属性数据对应的相似集合内最大的两个所述变化显著度对应的属性数据之间的所述特征距离值;w为待更新的属性数据的变化显著度;为待更新的属性数据对应的相似集合内第j个属性数据的变化显著度;为绝对值函数;sinc为辛格函数。
24、进一步地,所述获取每个类别的属性数据的贡献评价值的方法,包括:
25、将合同数据点的同一类别的属性数据的所述变化显著度的均值作为合同数据点的每个类别的属性数据的均变化度;
26、根据每个类别的属性数据的数量与所述均变化度,获取合同数据点的每个类别的属性数据的贡献评价值;每个类别的属性数据的数量与所述均变化度均与所述贡献评价值为正相关的关系。
27、进一步地,所述获取每个合同数据点的最终lof值的方法,包括:
28、对于每个合同数据点,结合利用局部异常因子算法获取的合同数据点在每个类别的属性数据下的局部数据点的可达距离,以及所述贡献评价值,获取合同数据点在每个类别的属性数据下的局部数据点的改进可达距离;所述可达距离与所述贡献评价值均与所述改进可达距离为正相关的关系;
29、基于所述改进可达距离,利用局部异常因子算法获取合同数据点在每个类别的属性数据下的局部数据点的lof值;
30、将合同数据点在所有类别的属性数据下的局部数据点的lof值的均值,作为合同数据点的最终lof值。
31、进一步地,所述基于所述最终lof值筛选异常电子合同的方法,包括:
32、将大于或者等于预设异常阈值的所述最终lof值对应的合同数据点对应的电子合同作为异常电子合同。
33、进一步地,所述局部数据点包含每个类别的属性数据。
34、进一步地,所述预设异常阈值为1.7。
35、本发明具有如下有益效果:
36、本发明实施例中,电子合同的不同属性数据的相关程度不同,根据合同数据点的属性数据的数据值的离散程度之间的差异,标准分数呈现属性数据的数据值分布情况,结合分析获取呈现数据分布变化特征的变化显著度;并结合不同属性数据的数据值的聚集程度,将数据分布较为相似的属性数据划分为一个类别,每个类别的属性数据的数值分布相较于合同数据点所处的样本空间,同一类别的属性数据对应的数据点的聚集性较高,能够尽量排除离群检测时受到离群点的影响;每个类别的属性数据的数量与变化显著度呈现对每个类别的属性数据对合同数据点的离群程度判断影响程度,基于获取的贡献评价值自适应对合同数据点的属性数据对离群程度的判断尺度进行调整,使调整后的离群程度更加符合数据点的实际分布情况,增加最终lof值对电子合同异常程度反映的准确率,降低合同中部分属性数据的异常情况被漏判或误判的概率,提高异常合同筛选的准确性。