一种清洗公共数据的创建方法、公共数据清洗方法及系统、电子设备、存储介质与流程

文档序号:31878723发布日期:2022-10-21 22:35阅读:99来源:国知局
一种清洗公共数据的创建方法、公共数据清洗方法及系统、电子设备、存储介质与流程

1.本发明涉及数据清洗领域,具体涉及一种清洗公共数据的创建方法、公共数据清洗方法及系统、电子设备、存储介质。


背景技术:

2.现有技术中,一般通过公共数据管理系统作为公司投资数据流转的入口,用于对证券、行情、公司行为等市场公开数据进行双源清洗,形成主数据,然后推送到交易、核算、估值、风控等各个业务系统。随着投资机构内部管理趋向精细化,外部监管趋向信息化,可投资品种趋向复杂化,对手机构趋向多样化,数量化应用趋向广泛化,为应对各种变化,管理模式在不断改进与完善,信息技术架构的复杂性日益增强,对投资各环节数据和企业全景数据的一致性、完整性、准确性、及时性、可用性提出了更高的要求。
3.面对日益激增的金融市场数据和市场行为,产生了大量数据必须进行数据运营和数据工程实现才能使用,针对需要频繁的集中处理的海量历史数据,现有技术中的清洗方法通常指定多个数据源作为候选数据源,根据不同下游系统的不同需求,批量的产生比对价格,发送给如前台交易系统的接收系统。即目前的数据清洗及管理方法包括:开发人员采用界面组件的方式,构造数据的清洗规则,设计执行流程;基于流程,对数据进行自动化验证;业务人员对数据进行评估和追踪,核对后形成主数据;主数据发布;而该方法虽然针对需要在指定时间节点集中处理的海量历史数据提供了比较好的支持,但是在如下方面存在局限性:一是整个开发过程以图形化界面配置实现,规则和流程的复用性差,当新增某一投资品种数据时,仍需要熟练开发人员一周以上时间完成,难以满足公司快速变化的数据需求。二是缺少开箱即用的规则工具。三是数据的访问权限管理功能较弱,不利于数据复核和抽查。四是数据历史不易查询和分析。五是不支持实时处理,主数据也不能向接收系统推送。


技术实现要素:

4.鉴于现有技术中存在的技术缺陷和技术弊端,本发明实施例提供克服上述问题或者至少部分地解决上述问题的一种清洗公共数据的创建方法、公共数据清洗方法及系统、电子设备、存储介质。
5.作为本发明实施例的一个方面,提供了一种清洗公共数据的创建方法,所述公共数据清洗方法包括,
6.读取数据库连接及数据库表名生成清洗方案,所述清洗方案包括清洗字段、清洗表名;
7.获取数据库中的元数据,将所述元数据与所述清洗字段和/或清洗表名相匹配;设定匹配的清洗字段对应的清洗规则;
8.计算清洗字段对应数据的数据分布情况,根据数据分布情况确定容错阈值及清洗
规则的排列。
9.进一步地,所述创建方法包括:
10.提供人工纠正及确认清洗规则的窗口。
11.作为本发明实施例的又一方面,提供了一种公共数据的清洗方法,所述清洗方法包括:
12.获取预清洗数据;
13.通过所述预清洗数据对应的清洗规则检测不同数据类型对应的检测项,生成差异数据;
14.创建显示生成差异数据及验证差异数据的图形用户界面;
15.采集用户操作,生成审计记录。
16.进一步地,所述“获取预清洗数据”步骤包括:
17.读取实时数据库连接,通过第三方数据库获取预清洗数据;或者
18.根据制定的日历表批量获取预清洗数据。
19.进一步地,所述公共数据清洗方法包括:
20.分别设置用户操作或复核的角色权限;
21.划分清洗子任务,根据角色权限分配清洗子任务。
22.进一步地,所述公共数据清洗方法包括:
23.支持按字段或行在图形用户界面上处理差异数据;
24.保存处理差异数据的历史版本和/或快照;
25.综合历史差异数据和/或数据分析,推荐差异数据的容错阈值及清洗规则的排列。
26.作为本发明实施例的再一方面,提供了一种清洗公共数据的创建系统,所述创建系统包括:
27.生成模块,用于读取数据库连接及数据库表名生成清洗方案,所述清洗方案包括清洗字段、清洗表名;
28.匹配模块,用于获取数据库中的元数据,将所述元数据与所述清洗字段和/ 或清洗表名相匹配;设定匹配的清洗字段对应的清洗规则;
29.确定模块,用于计算清洗字段对应数据的数据分布情况,根据数据分布情况确定容错阈值及清洗规则的排列。
30.作为本发明实施例的再一方面,提供了一种公共数据清洗系统,所述清洗系统包括:
31.数据获取模块,用于获取预清洗数据;
32.差异生成模块,用于通过所述预清洗数据对应的清洗规则检测不同数据类型对应的检测项,生成差异数据;
33.创建提供模块,用于创建显示生成差异数据及验证差异数据的图形用户界面;
34.处理记录模块,用于采集用户操作,生成审计记录。
35.作为本发明实施例的另一方面,提供了一种电子设备,其特征在于,所述电子设备包括:存储器、处理器,通信总线以及存储在所述存储器上的一种清洗公共数据的创建程序和/或公共数据清洗程序,
36.所述通信总线用于实现处理器与存储器间的通信连接;
37.所述处理器用于执行所述一种清洗公共数据的创建程序和/或一种公共数据清洗程序,以实现上述实施例中所述的一种清洗公共数据的创建方法的步骤和/或实现上述实施例中所述的一种公共数据清洗方法的步骤。
38.作为本发明实施例的另一方面,提供了一种存储介质,所述存储介质上存储有一种公共数据清洗程序,所述一种公共数据清洗程序被处理器执行时实现如上述一种公共数据清洗方法的步骤。
39.本发明实施例至少实现了如下技术效果:
40.本发明实施例根据数据库连接和表名开始生成清洗方案;通过表和字段的数据库元数据/数据分布情况,自动配对需要清洗的字段和表名,对成功配对的清洗字段,选择预置的清洗规则;利用数据分布情况生成错误的容忍度及适宜的工作流程;提供图形用户界面以显示处理和管理清洗差异过程。本发明实施例能够灵活的配置数据管理的工作流程,有丰富的数据处理与计算规则;流程执行状态可以直观全面展现给用户的能力,并支持可视化的数据异常的发现、定位及处理能力;另外还可以保留已处理数据差异的历史版本和快照;支持将来可能产生的数据变化以及个性化数据需求。
41.本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所记载的结构来实现和获得。
42.下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
43.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
44.图1为本发明一实施例一种清洗公共数据的创建方法的流程图;
45.图2为本发明一实施例一种公共数据清洗方法的流程图;
46.图3为本发明一实施例一种清洗公共数据的创建系统的示意图;
47.图4为本发明一实施例一种公共数据清洗系统的示意图。
具体实施方式
48.为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
49.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
50.本发明实施例提供了一种快速通过数据库元数据创建数据清洗方案的方法及基于上述清洗方案的处理数据清洗操作流程的方法。
51.本实施例提供一种清洗公共数据的创建方法,如图1所示,所述清洗公共数据的创建方法包括,
52.s11读取数据库连接及数据库表名生成清洗方案,所述清洗方案包括清洗字段、清
洗表名;
53.s12获取数据库中的元数据,将所述元数据与所述清洗字段和/或清洗表名相匹配;设定匹配的清洗字段对应的清洗规则;
54.s13计算清洗字段对应数据的数据分布情况,根据数据分布情况确定容错阈值及清洗规则的排列。
55.本实施例为快速通过数据库元数据创建数据清洗方案的方法,跟据数据库连接和表名开始生成清洗方案;通过表和字段的数据库元数据/数据分布情况,自动配对需要清洗的字段和表名;通过表和字段的数据库元数据/数据分布情况,对成功配对的清洗字段,选择预置的清洗规则;根据数据分布情况,生成错误的容忍度,可支持自定义;根据数据分布情况,生成适宜的工作流程;其中,清洗字段和清洗规则都是根据数据库的元数据自动生成的,数据库的元数据就是描述数据库特征的一种数据,这些数据存储在数据库的系统表里,可以读取这些元数据,结合本方法的分析,自动生成清洗的方案,当然也可以人工再调整;数据分布情况包括平均值、中位数等等,例如:今天的股票收盘价如果比昨天、比前一个月波动超过10%,则认为这个数是有问题的,如果只有1%,那就是合理的;这个波动范围为容错阈值,对不同含义的数据是不一样的,可以通过分析数据的整体分布情况来生成;清洗规则的排列为适宜的工程流程,例如清洗规则包括检查缺失值、检查格式、检查逻辑错误、检查关联性等等,不同的数据需要哪些流程是不同的,这个都需要调整。
56.优选地,提供人工纠正及确认清洗规则的窗口;可以用户进行清洗规则和流程的统一纠正和确认,可以人工介入判断。
57.上述实施例描述怎么生成对某个数据进行清洗的整个流程,下述实施例进一步描述数据在所述的清洗流程中实际处理的过程。
58.本实施例提供了一种公共数据的清洗方法,如图2所示,所述清洗方法包括:
59.s21获取预清洗数据;
60.s22通过所述预清洗数据对应的清洗规则检测不同数据类型对应的检测项,生成差异数据;
61.s23创建显示生成差异数据及验证差异数据的图形用户界面;
62.s24采集用户操作,生成审计记录。
63.在实施例中,s21可以通过实时连接获取最新数据,或者根据制定的日历表获取批量的自动更新;其中最新数据来自外部提供的数据源,清洗前的数据,开始数据的清洗的过程;s22中根据上述实施例中的清洗规则,对每一种类型的检测项进行检测,产生差异;清洗规则包括检查缺失值、检查格式、检查逻辑错误、检查关联性等等,检测项为针对清洗规则的检测;s23中提供图形用户界面以显示处理和管理清洗差异过程;自动清洗后产生的需要、用户来进行确认、处理、修改的,用户称之为“差异数据”;s23中还提供实时的浏览第三方任意价格,验证错误信息的界面,通过综合的维护界面来维护差异数据;其中第三方指外部提供的数据,来自系统和用户之外的第三方,如数据商、交易所、网络等等;即提供一个用于“验证错误信息”的界面,进行差异数据维护;s24中,可以手工操作修改后详尽的审计记录/历史版本和快照,允许把错误指定给其他用户;其中,差异数据包括重复数据、不一致数据、无效数据等等,这些数据经过自动清洗的过程后,在系统里会有一些界面,让用户再进一步人工清洗,审计记录包括由谁处理的、什么时候、对数据做了什么修改等。
64.在一个实施例,所述s21包括:
65.读取实时数据库连接,通过第三方数据库获取预清洗数据;或者
66.根据制定的日历表批量获取预清洗数据。
67.在实施例中,日历表为数据库中存储,为一个专门的日历设置功能。
68.在一个实施例,所述公共数据清洗方法包括:
69.分别设置用户操作或复核的角色权限;
70.划分清洗子任务,根据角色权限分配清洗子任务。
71.在本实施例中,清洗过程可以由多个用户完成,并分配给不同用户完成,每个用户负责清洗不同类型的错误,还可以分配给其他用户处理。
72.在一个实施例,所述公共数据清洗方法包括:
73.支持按字段或行在图形用户界面上处理差异数据;
74.保存处理差异数据的历史版本和/或快照;
75.综合历史差异数据和/或数据分析,推荐差异数据的容错阈值及清洗规则的排列。
76.在本实施例中,支持在界面上按字段及按行两种形式的每一种类型的清洗差异项;根据历史处理情况和数据分析,推荐差异的判断标准,并默认选择可信高的结果;区分操作和复核角色,可以指定其他用户进行复核;复核用于评估数据质量。
77.上述实施例通过数据库元数据和清洗规则建立数据清洗方法及系统,包括通过元数据抽取,并根据元数据自动配对清洗字段,以及通过配置可以用户添加定义的元数据来生成清洗字段相关程度、匹配预定义的清洗规则、流程。
78.在数据清洗的过程中能够通过数据清洗可视化管理端对上述过程进行统一管理调度,包括提供实时的浏览任意价格验证错误信息的界面,提供综合的维护界面来维护数据信息,例如价格数据,允许把错误指定给其他用户,维护过程分操作和复核角色,手工操作修改后详尽的审计记录;另外上述实施例能够支持实时数据服务,以及按固定时间的批量处理;对来自两个或更多数据源的数据创建规则进行自动核对,核对针对证券、行情、公司行为、持仓、交易、会计等,在维护显示核对错误,核对错误的容忍度可自定义。
79.基于同一发明构思,本发明实施例还提供了一种清洗公共数据的创建系统、一种公共数据清洗系统、电子设备及存储介质,其所解决问题的原理与前述实施例的一种清洗公共数据的创建方法或一种公共数据清洗方法相似,因此该一种清洗公共数据的创建系统、一种公共数据清洗系统、电子设备及存储介质的实施可以参见前述实施例的方法的实施,重复之处不再赘述。
80.在一个实施例中,如图3所示,提供了一种清洗公共数据的创建系统,所述创建系统包括:
81.生成模块11,用于读取数据库连接及数据库表名生成清洗方案,所述清洗方案包括清洗字段、清洗表名;
82.匹配模块12,用于获取数据库中的元数据,将所述元数据与所述清洗字段和/或清洗表名相匹配;设定匹配的清洗字段对应的清洗规则;
83.确定模块13,用于计算清洗字段对应数据的数据分布情况,根据数据分布情况确定容错阈值及清洗规则的排列。
84.在一个实施例中,如图4所示,提供了一种公共数据清洗系统,所述清洗系统包括:
85.数据获取模块21,用于获取预清洗数据;
86.差异生成模块22,用于通过所述预清洗数据对应的清洗规则检测不同数据类型对应的检测项,生成差异数据;
87.创建提供模块23,用于创建显示生成差异数据及验证差异数据的图形用户界面;
88.处理记录模块24,用于采集用户操作,生成审计记录。
89.本实施例的清洗系统可以用于处理金融市场的价格行情等数据。
90.在一个实施例中,提供一种电子设备,所述电子设备包括:存储器、处理器,通信总线以及存储在所述存储器上的一种清洗公共数据的创建程序,
91.所述通信总线用于实现处理器与存储器间的通信连接;
92.所述处理器用于执行所述一种清洗公共数据的创建程序,以实现上述实施例中所述的一种清洗公共数据的创建方法的步骤。
93.在一个实施例中,提供一种电子设备,所述电子设备包括:存储器、处理器,通信总线以及存储在所述存储器上的一种公共数据清洗程序,
94.所述通信总线用于实现处理器与存储器间的通信连接;
95.所述处理器用于执行所述一种公共数据清洗程序,以实现上述实施例中所述的一种公共数据清洗方法的步骤。
96.在一个实施例中,提供一种存储介质,所述存储介质上存储有一种公共数据清洗程序,所述一种公共数据清洗程序被处理器执行时实现如上述一种公共数据清洗方法的步骤。
97.本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
98.本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
99.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
100.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
101.显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1