本发明属于数据处理,具体地涉及一种基于分布式调度的数据批处理方法及系统。
背景技术:
1、在金融行业中,数据批处理对于确保交易的准确性、用户信息的安全性以及整体业务操作的高效性至关重要。随着金融机构所处理的数据量不断增长,如何有效地管理和处理这些数据成为了行业面临的一个重要挑战。目前,金融行业的数据处理主要采用以下几种方法:
2、人工处理模式:在这种模式下,数据首先通过excel等工具进行采集和汇总。接着,使用excel内置的功能对数据进行加工、筛选和转换,以生成所需的数据报表。尽管这种方法提供了较高的数据安全性,并且适用于小规模或敏感数据的手动审查,但其过程耗时费力,效率低下,难以适应大规模数据处理的需求。
3、批处理模式:作为一种传统的数据处理方式,批处理模式将数据划分为固定大小的批次逐一处理。此方法实现起来相对简单,适合于对实时性要求不高的场景。然而,它在处理速度上存在局限性,尤其在面对海量数据时,批处理模式可能无法提供足够快的响应时间,从而影响到数据分析的时效性和决策支持能力。
4、流处理模式:与前两种模式不同,流处理模式专注于实时数据处理,能够即时处理连续不断的输入数据流。这种方式不仅提高了数据处理速度,还能够在第一时间提供分析结果,极大地增强了决策的及时性和精准度。不过,流处理模式的部署和维护成本较高,需要专业的技术团队来设计、开发和支持,同时其复杂性也带来了更高的实施难度。
5、综上所述,随着金融行业对数据处理效率和实时性的需求日益增加,选择合适的数据处理方法变得尤为重要。每种方法都有其独特的优势和适用场景,金融机构应根据自身的具体需求和技术条件,合理选择最合适的解决方案。
技术实现思路
1、为了解决上述技术问题,本发明提供了一种基于分布式调度的数据批处理方法及系统,用于解决现有技术中的技术问题。
2、第一方面,该发明提供以下技术方案,一种基于分布式调度的数据批处理方法,所述方法包括:
3、获取多源异构数据,并对所述多源异构数据进行预处理,形成标准化数据集;
4、基于预定的第一阈值,利用筛选流程对所述数据集进行初步异常检测,标记出潜在异常数据;
5、对排除所述潜在异常数据的剩余数据集,采用异常检测算法计算所述剩余数据集中每个数据点的异常分数;
6、根据预设的第二阈值,筛选出异常分数超过所述第二阈值的数据点,标记为高异常数据;
7、合并所述潜在异常数据和所述高异常数据,生成异常数据;
8、将排除所述异常数据的所述数据集拆分为多个数据块,基于分布式任务调度策略将多个所述数据块分配给对应的处理节点进行并行处理;
9、汇总各所述处理节点的处理结果,并生成数据报表反馈至用户端或业务系统。
10、相比现有技术,本申请的有益效果为:通过结合筛选流程与异常检测算法的混合,可以更加全面地检测异常数据,不仅能有效提高数据清洗的准确性,还能显著减少因数据异常导致的分析偏差;通过基于分布式任务调度策略将多个所述数据块分配给对应的处理节点进行并行处理的步骤,不仅提高了数据处理的速度和效率,还增强了系统的灵活性、可靠性和可扩展性,更好地满足了大规模数据处理的需求。
11、进一步的,所述多源异构数据包括业务系统数据库及日志文件。
12、进一步的,所述对所述多源异构数据进行预处理,形成标准化数据集的步骤包括:
13、利用均值填充或插值方法对所述多源异构数据的缺失值进行补全;
14、使用标准化缩放或最小最大值缩放对补全缺失值所述多源异构数据进行归一化处理;
15、过滤归一化处理后的所述多源异构数据中的明显异常数据,形成标准化数据集。
16、进一步的,所述筛选流程包括:
17、按照升序排列所述数据集,取排序后所述数据集中的第一位置的数据点为第一判断值;
18、取排序后所述数据集中的第二位置的数据点为第二判断值,基于所述第一判断值和所述第二判断值计算得到趋势值;
19、基于所述第一判断值、所述第二判断值及所述趋势值计算得到上阈值和下阈值;
20、利用比较公式基于所述上阈值和所述下阈值筛选出所述数据集中的潜在异常数据。
21、进一步的,所述比较公式包括:
22、
23、
24、其中,表示为第一判断值,表示为第二判断值,表示为潜在异常数据,表示为设系数。
25、进一步的,所述异常检测算法包括:
26、对所述剩余数据集进行随机子采样,构建多棵隔离树;
27、计算所述剩余数据集中每个数据点在各所述隔离树中的路径长度,并计算其平均路径长度;
28、利用计算公式基于所述平均路径长度计算,得到异常分数。
29、进一步的,所述计算公式包括:
30、
31、其中,表示数据点的异常分数,表示路径长度项的权重系数,表示数据点在所有隔离树中的平均路径长度,表示动态归一化因子,表示分布密度项的权重系数,表示斜率调节因子,表示数据点的局部密度,表示数据集的平均密度;
32、
33、表示动态归一化因子,表示混合系数,表示调和数,表示数据集的数量,表示所有数据点路径长度的标准差。
34、第二方面,该发明提供以下技术方案,一种基于分布式调度的数据批处理系统,所述系统包括:
35、处理模块,用于获取多源异构数据,并对所述多源异构数据进行预处理,形成标准化数据集;
36、检测模块,用于基于预定的第一阈值,利用筛选流程对所述数据集进行初步异常检测,标记出潜在异常数据;
37、计算模块,用于对排除所述潜在异常数据的剩余数据集,采用异常检测算法计算所述剩余数据集中每个数据点的异常分数;
38、筛选模块,用于根据预设的第二阈值,筛选出异常分数超过所述第二阈值的数据点,标记为高异常数据;
39、合并模块,用于合并所述潜在异常数据和所述高异常数据,生成异常数据;
40、并行模块,用于将排除所述异常数据的所述数据集拆分为多个数据块,基于分布式任务调度策略将多个所述数据块分配给对应的处理节点进行并行处理;
41、反馈模块,用于汇总各所述处理节点的处理结果,并生成数据报表反馈至用户端或业务系统。
42、第三方面,该发明提供以下技术方案,一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的基于分布式调度的数据批处理方法。
43、第四方面,该发明提供以下技术方案,一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的基于分布式调度的数据批处理方法。
1.一种基于分布式调度的数据批处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于分布式调度的数据批处理方法,其特征在于,所述多源异构数据包括业务系统数据库及日志文件。
3.根据权利要求1所述的基于分布式调度的数据批处理方法,其特征在于,所述对所述多源异构数据进行预处理,形成标准化数据集的步骤包括:
4.根据权利要求1所述的基于分布式调度的数据批处理方法,其特征在于,所述筛选流程包括:
5.根据权利要求4所述的基于分布式调度的数据批处理方法,其特征在于,所述比较公式包括:
6.根据权利要求1所述的基于分布式调度的数据批处理方法,其特征在于,所述异常检测算法包括:
7.根据权利要求6所述的基于分布式调度的数据批处理方法,其特征在于,所述计算公式包括:
8.一种基于分布式调度的数据批处理系统,其特征在于,所述系统包括:
9.一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于分布式调度的数据批处理方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于分布式调度的数据批处理方法。