本发明涉及计算机,尤其涉及一种可视化数据平台和系统。
背景技术:
1、数据清洗可将带错误的或不精确的数据转换为满足质量要求的数据,是提高数据质量的有效方法。现有的数据清洗方法主要是手动清洗,以缺失值处理为例:
2、第一种是通过登录到后台数据库或者修改表格数据将缺失值直接删除;
3、第二种是均值填补法,将数据分成多个组,分别计算每个组的均值,把这些均值放入到缺失的数值里面,再导入数据库;
4、第三种是热卡填补法,在数据库中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充,更新数据库或者表格数据。
5、其他类型数据处理如异常值处理、去重处理等等如上述类似。
6、现有的数据清洗平台是按上述手动清洗的方法将需要清洗和处理的数据文件处理好之后再导入或者更新到平台,然后在平台上进行数据加工操作形成其他业务维度需要的数据,并没有把数据清洗、数据加工和数据导出整合在一个平台中使用,存在自动化程度低和人工干预点多等问题。
技术实现思路
1、为了至少克服现有技术中的上述不足,本发明提供了一种可视化数据平台和系统。
2、一方面,本发明提供一种可视化数据平台,包括:
3、数据库配置模块,用于根据jdbc协议配置数据库信息和管理数据库,所述数据库包括源数据库和目的数据库;
4、元数据读取模块,用于从所述源数据库读取所述元数据,并将所述元数据存储到元数据库,所述元数据包括库名、表名和字段信息;
5、业务数据导入模块,用于根据数仓名称和所述元数据获取所述业务数据,并将所述业务数据导入数仓;
6、数据清洗模块,用于清洗数据并将清洗结果更新到所述数仓;
7、报表导出模块,用于将所述报表导出到所述目的数据库。
8、可选的,所述数据库信息包括url和名称。
9、可选的,所述管理数据库包括增加、删除、修改和查询所述数据库。
10、可选的,所述根据数仓名称和所述元数据获取所述业务数据,并将所述业务数据导入数仓包括:
11、配置所述数仓名称,从所述元数据中选择库名和表名,根据所述数仓名称和所述库名和表名生成导入配置文件,基于所述导入配置文件执行datax导入任务,从所述源数据库获取所述业务数据,并将所述业务数据导入所述数仓。
12、可选的,所述清洗数据并将清洗结果更新到所述数仓包括:
13、在待清洗数据的字段信息中选择字段,根据所述字段生成shell脚本,执行所述shell脚本清洗数据,并将所述清洗结果更新到所述数仓。
14、可选的,所述在所述待清洗数据的字段信息中选择字段包括:
15、在所述待清洗数据的字段信息中勾选和/或拖曳所述字段。
16、可选的,所述清洗数据并将清洗结果更新到所述数仓还包括:
17、基于所述待清洗数据输入sql命令,根据所述sql命令生成shell脚本,执行所述shell脚本清洗数据,并将所述清洗结果更新到所述数仓。
18、可选的,所述将所述报表导出到所述目的数据库包括:
19、在所述数仓中选择所述报表,根据所述报表和所述目的数据库信息生成导出配置文件,基于所述导出配置文件执行datax导出任务,将所述报表导出到所述目的数据库。
20、可选的,还包括表格文件导入模块,所述表格文件导入模块用于配置所述数仓名称,上传所述表格文件,从所述表格文件中获取所述元数据和所述业务数据,将所述元数据储存到所述元数据库,并将所述业务数据导入所述数仓。
21、另一方面,本发明提供一种可视化数据系统,包括上述任一可视化数据平台,还包括数据库和数仓,其中:
22、所述数据库与所述可视化数据平台连接,所述数据库包括源数据库、元数据库和目的数据库;
23、所述数仓与所述可视化数据平台连接,所述数仓使用分布式存储系统集群存储数据。
24、相较于现有的数据清洗方法和平台,本发明的有益效果如下:
25、实现多种数据库的自动对接;
26、能够清晰显示待清洗数据的来源和存储位置,实现数据库管理;
27、能够可视化地通过在线编写命令、勾选或拖拽的方式实现数据清洗,降低了数据清洗的难度,提高了清洗效果的直观性;
28、在大量数据接入且有多集群多热备服务节点的情况下,可以减少操作人员重复登录大量服务器,简化清洗操作;
29、实现数据导入、数据清洗、数据加工和数据导出的全流程自动化可视化整合。
1.一种可视化数据平台,其特征在于,包括:
2.根据权利要求1所述平台,其特征在于,所述数据库信息包括url和名称。
3.根据权利要求1所述平台,其特征在于,所述管理数据库包括增加、删除、修改和查询所述数据库。
4.根据权利要求1所述平台,其特征在于,所述根据数仓名称和所述元数据获取所述业务数据,并将所述业务数据导入数仓包括:
5.根据权利要求1所述平台,其特征在于,所述清洗数据并将清洗结果更新到所述数仓包括:
6.根据权利要求5所述平台,其特征在于,所述在所述待清洗数据的字段信息中选择字段包括:
7.根据权利要求1所述平台,其特征在于,所述清洗数据并将清洗结果更新到所述数仓还包括:
8.根据权利要求1所述平台,其特征在于,所述将所述报表导出到所述目的数据库包括:
9.根据权利要求1所述平台,其特征在于,还包括表格文件导入模块,所述表格文件导入模块用于配置所述数仓名称,上传所述表格文件,从所述表格文件中获取所述元数据和所述业务数据,将所述元数据储存到所述元数据库,并将所述业务数据导入所述数仓。
10.一种可视化数据系统,其特征在于,包括权利要求1-9任一所述的可视化数据平台,还包括数据库和数仓,其中: