一种报表分析图自动生成及展示方法及系统与流程

文档序号:25052733发布日期:2021-05-14 13:28阅读:120来源:国知局
一种报表分析图自动生成及展示方法及系统与流程

1.本发明涉及大数据技术领域,更具体地说,涉及到一种报表分析图自动生成及展示方法及系统。


背景技术:

2.现有的数据可视化平台只是单纯的数据展示,没有起到数据分析的效果,从而导致数据库资源利用率低,同时也导致业务人员不能判断数据的价值。
3.本

技术实现要素:

4.为了克服现有技术的不足,本发明提供一种报表分析图自动生成及展示方法用来如何解决现有技术无法对数据进行自动分析以及无法对异常数据提供风控及警告提示的问题。
5.本发明解决其技术问题所采用的技术方案是:提供一种报表分析图自动生成及展示方法,其特征在于,包括以下步骤:
6.步骤一:从数据库提取数据;
7.步骤二:将提取的数据进行清洗;
8.步骤三:经过清洗之后的数据为异常数据时,提供风控警告,并将异常原因展示给用户;
9.步骤四:经过清洗之后的数据为正常数据时,经过数据特征识别得到垃圾数据与核心数据;
10.步骤五:分析核心数据并将分析结果进行展示。
11.具体地,所述从数据库提取数据,所述步骤包括:
12.通过sql语句从pandas库已封装的函数read_sql连接数据库中提取数据。
13.具体地,所述通过sql语句从pandas库已封装的函数read_sql连接数据库中提取数据,所述步骤包括:
14.通过sql语句从python中pandas库已封装的函数read_sql连接数据库中选择提取的数据。
15.具体地,所述将提取的数据进行清洗,所述步骤包括:
16.从pandas库已封装的函数read_sql连接数据库中提取的数据进行清洗。
17.具体地,从pandas库已封装的函数read_sql连接数据库中提取的数据进行清洗,所述步骤包括:
18.对多个维度的数据进行整理、合并;
19.去除垃圾信息,优化排列核心信息。
20.具体地,所述经过清洗之后的数据为异常数据时,提供风控警告,并将异常原因展示给用户,所述步骤包括:
21.经过清洗之后的数据存在历史上没有出现过的字段、没有数据的字段以及缺少数据的字段;
22.通过自定义设置异常指标区分异常程度,并对突变的数据进行识别,提供风控警告,并将异常原因展示给用户。
23.具体地,所述经过清洗之后的数据为正常数据时,经过数据特征识别得到垃圾数据与核心数据,所述步骤包括:
24.经过清洗之后的数据为正常数据时,利用决策树算法生成随机森林,得出数据各个字段的重要等级;
25.去除等级较低的垃圾数据,保留核心数据。
26.具体地,分析核心数据,所述步骤包括:
27.把等级较高的字段进行单个维度的拓展;
28.将数据变化的关键区间趋势反馈至用户,并提示数据变化的关键区间趋势的重要程度。
29.具体地,分析核心数据并将分析结果进行展示,所述步骤包括:
30.将现有数据与历史数据进行对比,分析各维度的差异,得出数据演化的趋势,并反馈给用户;
31.或者
32.通过对关键数据进行识别,将关联性较高的字段组识别出来,并反馈给用户;
33.或者
34.将历史数据的所有关键字段输入决策树算法,生成随机森林,训练成一个预测模型;
35.利用预测模型预测当前的数据,并将预测的结果及概率展示出来。
36.具体地,其特征在于,分析核心数据并将分析结果进行展示,所述步骤包括:
37.利用python中的matplotlib画出统计图并进行展示,展示的方式包括柱状图、折线图、饼状图以及组合图。
38.一种报表分析图自动生成及展示系统,所述步骤包括:
39.数据提取单元,用于从数据库提取数据;
40.数据清洗单元,用于将提取的数据进行清洗;
41.数据第一判断单元,用于经过清洗之后的数据为异常数据时,提供风控警告,并将异常原因展示给用户;
42.数据第二判断单元,用于经过清洗之后的数据为正常数据时,经过数据特征识别得到垃圾数据与核心数据;
43.数据分析展示单元,用于分析核心数据并将分析结果进行展示。
44.本发明的有益效果是:通过步骤一:从数据库提取数据;步骤二:将提取的数据进行清洗;步骤三:经过清洗之后的数据为异常数据时,提供风控警告,并将异常原因展示给用户;步骤四:经过清洗之后的数据为正常数据时,经过数据特征识别得到垃圾数据与核心数据;步骤五:分析核心数据并将分析结果进行展示,从而实现了数据可视化并且使得对数据进行自动分析以及对异常数据提供风控及警告提示。
附图说明
45.图1是一种报表分析图自动生成及展示方法的流程示意图。
46.图2是一种报表分析图自动生成及展示系统的功能模块图。
47.图3是一种报表分析图自动生成及展示方法的另一流程示意图。
具体实施方式
48.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
49.以下结合具体实施例对本发明的具体实现进行详细描述:
50.实施例一:
51.图1示出了本发明实施例一提供的一种报表分析图自动生成及展示方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
52.在步骤s101中,从数据库提取数据;
53.具体地,所述从数据库提取数据,所述步骤包括:
54.通过sql语句从pandas库已封装的函数read_sql连接数据库中提取数据。
55.具体地,所述通过sql语句从pandas库已封装的函数read_sql连接数据库中提取数据,所述步骤包括:
56.通过sql语句从python中pandas库已封装的函数read_sql连接数据库中选择提取的数据。
57.在步骤s102中,将提取的数据进行清洗;
58.具体地,所述将提取的数据进行清洗,所述步骤包括:
59.从pandas库已封装的函数read_sql连接数据库中提取的数据进行清洗。
60.具体地,从pandas库已封装的函数read_sql连接数据库中提取的数据进行清洗,所述步骤包括:
61.对多个维度的数据进行整理、合并;
62.去除垃圾信息,优化排列核心信息。
63.在步骤s103中,经过清洗之后的数据为异常数据时,提供风控警告,并将异常原因展示给用户;
64.具体地,所述经过清洗之后的数据为异常数据时,提供风控警告,并将异常原因展示给用户,所述步骤包括:
65.经过清洗之后的数据存在历史上没有出现过的字段、没有数据的字段以及缺少数据的字段;
66.通过自定义设置异常指标区分异常程度,并对突变的数据进行识别,提供风控警告,并将异常原因展示给用户。
67.在步骤s104中,经过清洗之后的数据为正常数据时,经过数据特征识别得到垃圾数据与核心数据;
68.具体地,所述经过清洗之后的数据为正常数据时,经过数据特征识别得到垃圾数据与核心数据,所述步骤包括:
69.经过清洗之后的数据为正常数据时,利用决策树算法生成随机森林,得出数据各个字段的重要等级;
70.去除等级较低的垃圾数据,保留核心数据。
71.具体地,分析核心数据,所述步骤包括:
72.把等级较高的字段进行单个维度的拓展;
73.将数据变化的关键区间趋势反馈至用户,并提示数据变化的关键区间趋势的重要程度。
74.在步骤s105中,分析核心数据并将分析结果进行展示。
75.具体地,分析核心数据并将分析结果进行展示,所述步骤包括:
76.将现有数据与历史数据进行对比,分析各维度的差异,得出数据演化的趋势,并反馈给用户;
77.或者
78.通过对关键数据进行识别,将关联性较高的字段组识别出来,并反馈给用户;
79.或者
80.将历史数据的所有关键字段输入决策树算法,生成随机森林,训练成一个预测模型;
81.利用预测模型预测当前的数据,并将预测的结果及概率展示出来。
82.具体地,分析核心数据并将分析结果进行展示,所述步骤包括:
83.利用python中的matplotlib画出统计图并进行展示,展示的方式包括柱状图、折线图、饼状图以及组合图。
84.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如rom/ram、磁盘、光盘等。
85.实施例二:
86.图2示出了本发明实施例二提供的一种报表分析图自动生成及展示系统的结构,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
87.数据提取单元201,用于从数据库提取数据;
88.数据清洗单元202,用于将提取的数据进行清洗;
89.数据第一判断单元203,用于经过清洗之后的数据为异常数据时,提供风控警告,并将异常原因展示给用户;
90.数据第二判断单元204,用于经过清洗之后的数据为正常数据时,经过数据特征识别得到垃圾数据与核心数据;
91.数据分析展示单元205,用于分析核心数据并将分析结果进行展示。
92.本发明实施例中,通过步骤一:从数据库提取数据;步骤二:将提取的数据进行清洗;步骤三:经过清洗之后的数据为异常数据时,提供风控警告,并将异常原因展示给用户;步骤四:经过清洗之后的数据为正常数据时,经过数据特征识别得到垃圾数据与核心数据;步骤五:分析核心数据并将分析结果进行展示,从而实现了数据可视化并且使得对数据进行自动分析以及对异常数据提供风控及警告提示。各单元的具体实施方式可参考实施例一的描述,在此不再赘述。
93.实施例三:
94.图3示出了本发明实施例三提供的一种报表分析图自动生成及展示方法的另一流
程示意图,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
95.详细实施方式如下:
96.数据提取:通过python中的pandas库已封装的函数read_sql连接数据库,然后用sql语句选择要提取的数据,这样数据将以dataframe类型的格式来进行以下操作。
97.数据清洗:对多个维度的数据进行整理、合并,去除垃圾信息,优化排列核心信息。整理的方法是通过历史数据和用户的设置提取有效字段,然后利用pandas库中的merge函数拼接数据。
98.异常数据:对历史上没有出现过的字段、没有数据的字段或缺少数据的字段定义为异常数据,通过自定义设置异常指标来区分异常程度,同时也会对比历史数据,对突变的数据进行识别,提供风控警告,并将异常原因展示给用户。
99.数据特征识别:利用决策树算法生成随机森林,该算法可以对各个字段进行打分,得分高的字段即为关键字段,这样就可以得出数据各个字段的重要等级,去除等级较低的垃圾数据,保留等级较高的数据,即核心数据。
100.分析核心数据:对数据进行特征识别后,把等级较高的字段进行单个维度的拓展,把数据变化的关键区间的变化趋势反馈给用户,提示其重要程度。
101.对比历史数据:把现有数据和历史数据进行对比,分析各维度的差异,得出数据演化的趋势。
102.关键数据识别:通过排列组合对特征进行融合,融合的方法是将该组合的字段单独输入决策树模型,得出该组合与预测结果的概率分布,如果关联性高,那该组合的字段之间的关联性就高。从而得出各维度之间的关联性,把关联性较高的字段组识筛选出来,然后反馈给用户。
103.分析结果展示:利用python中的matplotlib画出统计图并进行展示,展示的方式有柱状图、折线图、饼状图、组合图,并对每一张展示的图片进行解释,解释的内容有各个字段的重要等级以及和该字段关联性较高的其他字段。
104.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
105.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实施例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。
106.专业技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉技术领域的人员在本发明揭露的技术范围内,可轻易想到变化或者替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1