基于工作流的数据分析处理方法及系统与流程

文档序号:16067295发布日期:2018-11-24 12:47阅读:241来源:国知局

本发明涉及数据处理技术领域,尤其涉及一种基于工作流的数据分析处理方法及系统。

背景技术

近年来,大数据处理与分析已经成为全球性问题,随着经济社会信息化和自动化水平不断提高,在政府管理、公共服务、科学研究、商业应用等许多领域面临大数据问题,需要有各种针对性和经济有效的解决方案。大数据平台为行业大数据提供处理能力,集数据接入、数据处理、数据存储、查询检索、分析挖掘、应用接口等功能为一体。

现有的数据分析处理系统虽然提供数据分析处理功能,但其无法直观、高效地展示更多的工作流信息,对用户来说操作流程复杂、使用便利性较低。



技术实现要素:

为了解决上述技术问题,本发明提供一种基于工作流的数据分析处理方法,旨在增强现有数据分析处理系统的可视化展示功能。

为了达到上述目的,本发明提出一种基于工作流的数据分析处理方法,包括以下步骤:

监测作用于工作流用户界面的操作信息;

基于检测到的作用于所述用户界面的预设操作,在所述用户界面显示与所述预设操作对应的可视化信息。

进一步地,所述工作流包括至少一个工作流模块,所述基于检测到的作用于所述用户界面的预设操作,在所述用户界面显示与所述预设操作对应的可视化信息的步骤,包括:

基于检测到的作用于所述工作流模块的预设操作,在所述用户界面以图表显示与所述预设操作对应的可视化信息。

进一步地,在所述基于检测到的作用于所述工作流模块的预设操作,在所述用户界面以图表显示与所述预设操作对应的可视化信息的步骤之前,包括:

基于检测到的作用于用户界面的运行工作流的操作,在所述用户界面显示完成运行的工作流模块。

进一步地,所述工作流模块包括分析模块,所述分析模块包括用于对数据进行处理的代码,所述在所述用户界面以图表显示与所述预设操作对应的可视化信息的步骤,包括:

基于检测到的作用于所述分析模块的查看输出信息的操作,在所述用户界面以第一预设图表展示所述输出信息。

进一步地,在所述用户界面以第一预设图表展示所述输出信息的步骤之后,还包括:

基于检测到的作用于所述第一预设图表的保存、编辑或生成分析报告的操作,在所述用户界面显示响应所述操作的可视化信息。

进一步地,所述工作流模块还包括数据模块,所述数据模块包括数据和/或数据的资源配置;

所述在所述用户界面以图表显示与所述预设操作对应的可视化信息的步骤,包括:

基于检测到的作用于所述数据模块的查看数据信息的操作,在所述用户界面以第二预设图表展示所述数据模块包含的数据信息。

进一步地,在所述用户界面以第二预设图表展示所述数据模块包含的数据的步骤之后,包括:

基于检测到的作用于所述第二预设图表的分析、保存或导出的操作,在所述用户界面显示响应所述操作的可视化信息。

进一步地,上述数据分析处理方法还包括以下步骤:

基于已保存的工作流输出文件创建或编辑工作流。

进一步地,在所述基于已保存的工作流输出文件创建或编辑工作流的步骤之前,还包括:

保存工作流运行过程中的输出文件。

进一步地,所述保存工作流运行过程中的输出文件的步骤,包括:

基于接收到的针对工作流运行过程中的输出文件的保存指令,将所述输出文件处理成工作流复用模块进行保存。

进一步地,所述基于接收到的针对工作流运行过程中的输出文件的保存指令,将所述输出文件处理成工作流复用模块进行保存的步骤,包括:

当检测到针对工作流进行输出文件的保存操作时,生成保存指令;

基于所述保存指令,在运行所述工作流的用户界面展示该工作流的全部输出文件;

基于检测到的针对所述全部输出文件的选择操作,将选定的输出文件处理成工作流复用模块进行保存。

进一步地,在保存工作流运行过程中的输出文件的步骤之后,还包括:

将处理成工作流复用模块的输出文件显示于用户界面的预设区域。

进一步地,所述基于已保存的工作流输出文件创建或编辑工作流的步骤,包括:

基于检测到的作用于所述用户界面的拖拽操作,将预设区域的工作流复用模块拖拽至目标区域创建或编辑工作流。

进一步地,所述基于已保存的工作流输出文件创建或编辑工作流的步骤,包括:

基于检测到的信息输入操作,调用与输入信息对应的输出文件和/或工作流复用模块创建或编辑工作流。

本发明提出一种基于工作流的数据分析处理方法,该数据分析处理方法包括以下步骤:

基于已保存的工作流输出文件创建或编辑工作流。

进一步地,在所述基于已保存的工作流输出文件创建或编辑工作流的步骤之前,还包括:

保存工作流运行过程中的输出文件。

进一步地,所述保存工作流运行过程中的输出文件的步骤,包括:

基于接收到的针对工作流运行过程中的输出文件的保存指令,将所述输出文件处理成工作流复用模块进行保存。

进一步地,所述基于接收到的针对工作流运行过程中的输出文件的保存指令,将所述输出文件处理成工作流复用模块进行保存的步骤,包括:

当检测到针对工作流进行输出文件的保存操作时,生成保存指令;

基于所述保存指令,在运行所述工作流的用户界面展示该工作流的全部输出文件;

基于检测到的针对所述全部输出文件的选择操作,将选定的输出文件处理成工作流复用模块进行保存。

进一步地,在保存工作流运行过程中的输出文件的步骤之后,还包括:

将处理成工作流复用模块的输出文件显示于用户界面的预设区域。

进一步地,所述基于已保存的工作流输出文件创建或编辑工作流的步骤,包括:

基于检测到的作用于所述用户界面的拖拽操作,将预设区域的工作流复用模块拖拽至目标区域创建或编辑工作流。

进一步地,所述基于已保存的工作流输出文件创建或编辑工作流的步骤,包括:基于检测到的信息输入操作,调用与输入信息对应的输出文件和/或工作流复用模块创建或编辑工作流。

本发明的另一目的在于提出一种基于工作流的数据分析处理系统,该数据分析处理系统包括:

接口模块,用于监测作用于工作流用户界面的操作信息;

显示模块,用于基于检测到的作用于所述用户界面的预设操作,在所述用户界面显示与所述预设操作对应的可视化信息。

进一步地,所述工作流包括至少一个工作流模块,所述显示模块还用于基于检测到的作用于所述工作流模块的预设操作,在所述用户界面以图表显示与所述预设操作对应的可视化信息。

进一步地,所述显示模块还用于基于检测到的作用于用户界面的运行工作流的操作,在所述用户界面显示完成运行的工作流模块。

进一步地,所述工作流模块包括分析模块,所述分析模块包括用于对数据进行处理的代码;

所述显示模块还用于基于检测到的作用于所述分析模块的查看输出信息的操作,在所述用户界面以第一图表展示所述输出信息。

进一步地,所述显示模块还用于基于检测到的作用于所述第一预设图表的保存、编辑或生成分析报告的操作,在所述用户界面显示响应所述操作的可视化信息。

进一步地,所述工作流模块还包括数据模块,所述数据模块包括数据和/或数据的资源配置;

所述显示模块还用于基于检测到的作用于所述数据模块的查看数据信息的操作,在所述用户界面以第二预设图表展示所述数据模块包含的数据信息。

进一步地,所述显示模块还用于基于检测到的作用于所述第二预设图表的分析、保存或导出的操作,在所述用户界面显示响应所述操作的可视化信息。

进一步地,上述数据分析处理系统还包括:

分析处理模块,用于基于已保存的工作流输出文件创建或编辑工作流。

进一步地,所述数据分析处理系统还包括:

保存模块,用于保存工作流运行过程中的输出文件。

进一步地,所述保存模块还用于基于接收到的针对工作流运行过程中的输出文件的保存指令,将所述输出文件处理成工作流复用模块进行保存。

进一步地,所述保存模块包括:

指令生成单元,用于在检测到针对工作流进行输出文件的保存操作时,生成保存指令;

展示单元,基于所述保存指令,在运行所述工作流的用户界面展示该工作流的全部输出文件;

保存单元,基于检测到的针对所述全部输出文件的选择操作,将选定的输出文件处理成工作流复用模块进行保存。

进一步地,所述显示模块还用于将处理成工作流复用模块的输出文件显示于用户界面的预设区域。

进一步地,所述分析处理模块还用于基于检测到的作用于所述用户界面的拖拽操作,将预设区域的工作流复用模块拖拽至目标区域创建或编辑工作流。

进一步地,所述分析处理模块还用于基于检测到的信息输入操作,调用与输入信息对应的输出文件和/或工作流复用模块创建或编辑工作流。

本发明提出一种基于工作流的数据分析处理系统,该数据分析处理系统包括:

分析处理模块,用于基于已保存的工作流输出文件创建或编辑工作流。

进一步地,所述数据分析处理系统还包括:

保存模块,用于保存工作流运行过程中的输出文件。

进一步地,所述保存模块还用于基于接收到的针对工作流运行过程中的输出文件的保存指令,将所述输出文件处理成工作流复用模块进行保存。

进一步地,所述保存模块包括:

指令生成单元,用于在检测到针对工作流进行输出文件的保存操作时,生成保存指令;

展示单元,基于所述保存指令,在运行所述工作流的用户界面展示该工作流的全部输出文件;

保存单元,基于检测到的针对所述全部输出文件的选择操作,将选定的输出文件处理成工作流复用模块进行保存。

进一步地,所述数据分析处理系统还包括:

显示模块,用于将处理成工作流复用模块的输出文件显示于用户界面的预设区域。

进一步地,所述分析处理模块还用于基于检测到的作用于所述用户界面的拖拽操作,将预设区域的工作流复用模块拖拽至目标区域创建或编辑工作流。

进一步地,所述分析处理模块还用于基于检测到的信息输入操作,调用与输入信息对应的输出文件/工作流复用模块创建或编辑工作流。

本发明的上述技术方案的有益效果如下:

本发明实施例中,通过监测用户作用于用户界面的操作信息,在所述用户界面显示与用户操作对应的可视化信息,可以基于用户操作随时进行直观、高效、动态的可视化展示,增强了数据分析处理系统的可视化展示功能,降低了用户使用门槛,提高了数据分析处理系统的使用便利性。

附图说明

图1为本发明基于工作流的数据分析处理方法第一实施例的流程示意图;

图2为本发明的用户界面第一实施例的示意图;

图3为本发明基于工作流的数据分析处理方法第二实施例的流程示意图;

图4为本发明中工作流的第一实施例的示意图;

图5为本发明中工作流的第二实施例的示意图;

图6为本发明基于工作流的数据分析处理方法第三实施例的流程示意图;

图7为本发明中第一预设图表一实施例的示意图;

图8为本发明基于工作流的数据分析处理方法第四实施例的流程示意图;

图9为本发明中数据表单data.csv的示意图;

图10为图9中no1列可视化信息窗口一实施例的示意图;

图11为图9中no1列可视化信息窗口另一实施例的示意图;

图12为图10中0.52区域的数据透视表;

图13为本发明中用户界面第二实施例的示意图;

图14为本发明基于工作流的数据分析处理方法第五实施例的流程示意图;

图15为本发明基于工作流的数据分析处理方法第六实施例的流程示意图;

图16为本发明基于工作流的数据分析处理方法第七实施例的流程示意图;

图17为本发明基于工作流的数据分析处理方法第八实施例的流程示意图;

图18为本发明基于工作流的数据分析处理系统第一实施例的结构示意图;

图19为本发明基于工作流的数据分析处理系统第二实施例的结构示意图;

图20为本发明基于工作流的数据分析处理系统第三实施例的结构示意图。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本申请将运行成功的工作流模块的输出文件处理成工作流复用模块进行保存,工作流复用模块与原有的工作流模块的功能和作用相同。

本发明提出一种基于工作流的数据分析处理方法。

参照图1,图1为本发明的基于工作流的数据分析处理方法第一实施例的流程示意图。

在该实施例中,所述数据分析处理方法包括以下步骤:

s10:监测作用于工作流用户界面的操作信息;

本发明实施例基于用户作用于工作流用户界面的操作信息,向用户展示数据分析处理系统在创建工作流、运行工作流过程中或工作流运行完成后输出的信息,在方便用户使用所述数据分析处理系统的同时,增加了用户与数据分析处理系统之间的动态交互。所述工作流用户界面可以是供用户创建和/或运行工作流的操作界面,也可以是供用户进行数据分析处理的操作界面。所述工作流一般为供用户进行数据分析处理的数据分析工作流,所述用户界面一般为数据分析处理系统通过接口模块外接的显示屏或触控屏的可视化界面。所述用户界面可以根据用户或系统开发人员进行自定义设置,如图2所示,在图2所示的用户界面中设置了用于展示工作流的工作流区域、用于展示工作流模块的工作流模块区域、及用于展示数据分析处理系统相关功能的菜单区域。所述工作流区域可以同时显示一个以上的工作流,在运行时可以同时运行该一个以上的工作流,也可以根据设定依次运行,当然也可以根据用户选择指定运行。如当用户在所述工作流区域创建x和y两个工作流,点击菜单区域的【运行】图标时,系统默认同时运行x工作流和y工作流;当然,也可以根据用户设定优先运行x工作流,待x工作流运行完或运行失败后再运行y工作流;进一步的,还可以根据用户选择指定运行x工作流或y工作流。

所述工作流区域展示工作流的可视化信息,例如,所述工作流区域可以同时显示一个以上的工作流,每一所述工作流包括至少一个工作流模块,所述工作流区域可以显示工作流模块。所述工作流模块包括分析模块,进一步的还可以包括数据模块;所述数据模块包括数据,在其他实施例中,所述数据模块还可以包括数据的资源配置,如数据的索引、指针、地址等;所述分析模块中包括编写好的算法逻辑代码,以用于对数据进行处理。

所述数据分析处理系统基于接口模块实现对作用于用户界面的用户操作进行实时检测,也即监测用户作用于所述用户界面的操作信息。具体的,当用户在所述用户界面进行点击、缩放、拖拽、编辑等操作时,接口模块会接收到所述操作指向的请求。

s20:基于检测到的作用于所述用户界面的预设操作,在所述用户界面显示与所述预设操作对应的可视化信息。

在使用数据分析处理系统运行数据分析工作流进行数据分析处理时,允许对工作流的整个运行过程(包括工作流的运行开始、中间和运行结束三个阶段)产生的算法的分析结果、数据内容等随时进行可视化展示,以帮助用户快速定位以及寻找对应规律。如,基于用户自定义或系统开发人员定义的用户界面的操作规则,数据分析处理系统会对符合操作规则的预设操作,在所述用户界面显示对应的可视化信息。进一步地,数据分析处理系统可以对接收到的用户操作信息进行筛选和验证,以过滤掉作用于所述用户界面的误操作信息。如针对在数据分析处理系统的功能区域进行创建或运行工作流的操作,在所述用户界面的工作流区域显示对应的工作流模块(包括未运行完成和运行完成的工作流模块)或执行运行任务的工作流;或者针对在工作流区域对工作流模块进行的查看操作,在所述用户界面显示所述工作流模块包含的数据信息或所述工作流在运行过程中输出的信息,如对于工作流中的数据模块和已经运行成功的部分分析模块,可以点击查看输出结果。所述工作流的运行过程包括工作流运行的开始、中间及结束三个阶段。

当用户在用户界面上执行预设操作时,底层的反向代理服务器nginx组件会接收到该预设操作指向的用户请求,在反向代理服务器nginx接收到该用户请求后,反向代理服务器nginx解析所述用户请求并将所述用户请求转发至pipes组件,pipes将所述用户请求转发给heron组件,heron对所述用户请求进行一次包装后向falcon组件发送请求(即,heron告诉falcon用户要请求某资源),falcon告诉mesos组件、向mesos申请资源、创建容器;当mesos中存在用户请求申请的资源时,将用户请求对应的资源按原路返回给用户界面,并通过compass组件的可视化模块datavisualization实现反馈信息的可视化,也即实现在所述用户界面显示与所述预设操作对应的可视化信息。

本实施例的基于工作流的数据分析处理方法,通过监测用户作用于用户界面的操作信息,在检测到用户做出预设操作时,在所述用户界面显示与预设操作对应的可视化信息,实现了在使用数据分析工作流进行数据分析处理的过程中,基于用户操作随时对数据分析工作流输出的算法分析结果、数据内容等进行直观、高效及动态的可视化展示,增强了数据分析处理系统的可视化展示功能,优化了用户操作,降低了用户使用门槛,提高了数据分析处理的便利性。

进一步地,参照图3,所述工作流包括至少一个工作流模块,基于本发明的基于工作流的数据分析处理方法第二实施例,步骤s20,包括:

s21:基于检测到的作用于所述工作流模块的预设操作,在所述用户界面以图表显示与所述预设操作对应的可视化信息。

本发明实施例中的工作流包括至少一个工作流模块,相邻两工作流模块之间具有连接关系。具有连接关系的两工作流模块中,一个工作流模块的输出作为另一个工作流模块的输入。该输出可以是数据、也可以是算法模型,所述数据可以是原始数据、处理后的数据、可视化的数据中的至少之一。在本实施例中,具有连接关系的两工作流模块通过连线连接,在其他实施例中,也可以采用其他方式表示两工作流模块之间具有连接关系。当采用连线表示工作流模块之间具有连接关系时,多个工作流模块的连接关系可以类似于树形拓扑结构。所述工作流模块包括分析模块,通常情况下,一个工作流包括一个以上的分析模块。

请参考图4,图4为本发明中工作流的第一实施例的示意图,从图4中可以看出,该实施例中的工作流包括10个分析模块,分析模块下方的圆圈表示分析模块的输出,分析模块的输出为数据信息或算法模型信息,如用于表征准确率的混淆矩阵、用于表征算法模型的决策树、用于展示变量重要性的可视化模型等,两分析模块之间的连线表示两分析模块具有连接关系,箭头表示信息的流向,箭头前端连接的分析模块表示输出的分析模块,末端连接的分析模块表示输入的分析模块。

在本发明的一些实施例中,工作流中的分析模块可以自己产生数据或数据模型并进行处理,在本发明的另外一些实施例中,所述工作流模块还可以包括数据模块,所述数据模块中包括数据。所述数据模块与所述分析模块相连,所述数据模块的输出作为与其相连的分析模块的输入。如图5所示,图5为本发明中工作流的第二实施例的示意图。数据模块下方的圆圈表示数据模块输出的数据或数据模型。

在基于反向代理服务器nginx检测到用户在所述用户界面的工作流区域对所述工作流模块进行查看等操作时,如对工作流区域中的数据模块进行数据信息的查看操作,或者对工作流区域中已完成运行的分析模块进行输出信息的查看操作时,向代理服务器nginx对所述查看请求进行解析后将其转发至pipes组件,pipes将所述查看请求发送给heron,由heron告诉falcon当前用户的资源请求,再由falcon告诉mesos申请对应的资源,如数据模块中包含的数据信息、或者参与运行的分析模块的输出信息;之后按照返回路径:falcon→heron→pipes→nginx→用户界面,由compass组件将所述数据模块包含的数据信息以图表的形式显示于所述用户界面,或者由compass组件将所述分析模块输出的数据或模型信息以图表的形式显示于所述用户界面。

进一步地,参照图6,基于本发明的数据分析处理方法的第三实施例,步骤s21之前,还包括:

s30:基于检测到的作用于用户界面的运行工作流的操作,在所述用户界面显示完成运行的工作流模块。

本发明实施例中,进一步参照图2,在图2所示的用户界面中,位于工作流显示区域上方的菜单区域内设有一控制工作流运行的【运行】图标,当用户点击该图标时,系统默认执行运行工作流的任务,同时将该任务添加至【任务列表】中。进一步地,当所述工作流区域包括一个以上的工作流,如包括两个工作流时,当检测到用户点击【运行】图标时,系统默认执行该两个工作流,具体可以是同时执行或者依次执行该两个工作流;当然,在其他实施例中,也可以是在检测到用户点击【运行】图标时,在当前界面弹出供用户选择执行的工作流的窗口,并在获得用户的选择操作后执行用户选定的工作流。当然,在前文介绍用户界面时已经明确:用户界面可以自定义。因而所述【运行】图标不一定设置在工作流区域的右上方,或者不一定设有该【运行】图标,可以设置其他操作触发工作流的运行,如在所述工作流区域进行双击后触发工作流运行。在检测到作用于用户界面的运行工作流的操作后,在所述用户界面上显示工作流的实时运行状态,直至所述工作流运行成功或运行失败,也即用户可以在所述用户界面看到工作流中的每一工作流模块及其运行状态。

进一步地,参照图6,所述工作流模块包括分析模块,所述分析模块包括用于对数据进行处理的代码,步骤s21,包括:

s211:基于检测到的作用于所述分析模块的查看输出信息的操作,在所述用户界面以第一预设图表展示所述输出信息;

在本实施例中,在用户界面的工作流运行结束后,可以对工作流运行过程中(包括工作流运行的开始、中间及结束三个阶段)的输出信息进行查看。由于分析模块中包含用于对数据进行处理的代码,且分析模块主要用于对上游关联模块输出的数据或自身数据进行处理,因而运行成功的分析模块的输出信息可以是数据、算法模型,也可以仅仅是表征目标指标的图片或报告,基于此,用户可以对运行成功的分析模块的输出信息进行查看。在其他实施例中,用户也可以直接对未运行的分析模块进行预览查看,还可以对运行失败的分析模块的日志信息进行查看。同样地,当用户在所述用户界面针对某一分析模块做出该分析模块的输出信息的查看操作时,数据分析处理系统的接口模块会接收到该查看操作对应的请求,在检测到用户针对所述分析模块进行查看输出信息的操作请求后,将在所述用户界面展示所述输出信息,如以第一预设图表的形式展示所述输出信息。所述第一预设图表根据用户选择的分析模块实现输出,可以是箱线图(boxplot)、概率分布图、散点图、饼图、环形图、折线图、三维图(如曲面图、立体柱形图)、四维图及相关图形的组合等,具体根据所选分析模块封装的分析方法和/或用户选择决定,所述分析方法包括:t检验、f检验、非参数检验、联合分布、聚类分析、主成分分析等,其中,所述t检验、f检验及非参数检验适用于对二维数据(也即两组数据)进行分析,所述联合分布、聚类分析及主成分分析适用于对三维数据(也即三组数据)进行分析,提供了更丰富的功能。

s212:基于检测到的作用于所述第一预设图表的保存、编辑或生成分析报告的操作,在所述用户界面显示响应所述操作的可视化信息。

在以第一预设图表的形式展示出工作流的某一分析模块的输出信息后,基于不同类型的图表用户可以选择对该图表进行进一步的保存、编辑、或生成分析报告的操作,相应地,所述用户界面会显示响应所述操作的可视化信息。

本实施例的数据分析处理系统提供的数据分析方法基于检测到的用户操作,在工作流用户界面显示响应用户操作的可视化信息,对用户来说,减少了在多层级界面进行操作的复杂性,优化了用户操作,可以基于用户作用于当前界面的交互动作实现对所述可视化信息的动态展示、线上和/或线下的保存和导出,降低了用户使用门槛,而且可以展示更多的信息,使数据分析处理系统更智能、更便利、更高效。

例如,基于客户属性、交易行为信息等对客户进行聚类,从而实现基于聚类结果针对不同类别客户进行差异化营销的业务场景中:通过定义数据集(所述数据集可以是基于客户属性、交易行为信息等客户信息的数据)k-means-demo,从本地上传、下载数据文件如csv文件、hdfs文件、hive文件等;选取相关变量;设置k-means聚类算法模型参数,如聚类数和最大迭代次数等;输出如图7所示的聚类中心可视化,也即应用数据分析工作流对众多客户信息进行归纳总结从而实现对客户群体进行分类的聚类中心雷达图。在该图示中,雷达图的每个角代表一个指标,如年龄、性别、教育程度、职业、月均余额、柜面笔均金额、柜面交易金额、柜面交易次数、atm笔均金额、atm交易金额、atm交易次数、网银笔均金额、网银交易次数、网银交易金额。在此次聚类中,包含簇1、簇2和簇3三个类别,对应不同的折线,在检测到鼠标悬浮于某一折线或点击某一折线等操作时,在雷达图所在的界面显示该折线代表的簇信息,如对应该类别的每个指标的聚类中心的具体数值,从而实现雷达图的动态交互。进一步地,所述雷达图还可以实现进一步的动态交互,如当检测到针对雷达图中的某一角(指标)进行的增删操作时,在所述用户界面显示删除某一指标或增加某一指标后重新进行聚类分析的雷达图。进一步地,当检测到针对雷达图进行生成分析报告的操作,如点击雷达图上的【生成报告】图标时,生成差异分析报告,所述差异分析报告用于显示不同类别之间的指标差异,如最大差异指标,还可以具体介绍雷达图中对点值的定义(如越靠近每个角的顶点,点值越大),簇之间的数据比对,通过数据比对进行客户画像和/或多维度描述,以帮助用户(例如业务人员)对类别进行定义,以便有针对性地进行业务推荐。

如,图示中的簇1相对于其他类,其atm相关交易次数和交易金额比较高、网银交易次数及交易金额较少,可以推测该类用户偏好使用atm进行交易或需要较多现金,进而推断该类用户可能是依赖现金交易的实体商户,可以针对性地对该类用户进行资金归集业务推荐。又如图示中的簇3相对于其他类,其网银交易次数和交易金额比较高、柜面交易次数和交易金额比较高、atm交易次数及交易金额较少,可以推测该类用户偏好用网银进行交易,进而推断该类用户可能是中小企业主。综上,业务人员可以基于对客户信息的聚类分析,找到没有被发现的类别,获取客户数据特征,或者有针对性地对每一类客户进行金融产品营销。

当然,在其他实施例中,也可能对应生成其他类型的分析报告。

进一步地,当检测到作用于所述第一预设图表的保存操作或预设时长内未检测到操作信息时,保存所述第一预设图表,进一步地可以将所述第一预设图表处理成工作流复用模块进行保存。

在本实施例中,用户还可以选择对分析模块输出的第一预设图表进行保存,当检测到用户做出预设保存操作时,基于用户的保存操作对所述第一预设图表进行手动保存;当预设时长内未检测到用户的操作信息时,对所述第一预设图表进行自动保存。为了便于后续对该分析模块的输出信息进行使用,在对所述第一预设图表进行保存时,可以基于该第一预设图表表征的信息类型进行选择性保存,如当所述第一预设图表表征数据文件时,可以直接将所述数据文件保存为数据模块;而当所述第一预设图表表征算法模型文件,如pmml文件时,进一步对所述算法模型文件进行封装,处理成分析模块进行保存。

进一步地,在所述用户界面运行工作流的方法,包括:

基于检测到的作用于所述工作流模块的第一预设操作,从第一指定工作流模块开始运行工作流;或,

基于检测到的作用于所述工作流模块的第二预设操作,控制工作流运行至第二指定工作流模块;或,

基于检测到的作用于所述工作流模块的第三预设操作,运行工作流中的第三指定工作流模块。

在本实施例中,可控制工作流从指定工作流模块开始运行、控制工作流运行至指定工作流模块或运行工作流中的指定模块等。在工作流运行一次后,用户可以基于该运行过的工作流选择性地再次运行该工作流,以对工作流中的各个工作流模块进行调试。

在控制工作流从指定工作流模块开始运行,也即当检测到用于触发从第一指定工作流模块开始运行的第一预设操作时,如检测到用户选定第一指定工作流模块且该工作流被触发运行,判断该工作流中与第一指定工作流模块关联的上游模块是否全部运行成功,其中数据模块当作运行成功,当第一指定工作流模块关联的上游模块全部运行成功时,继承之前工作流运行过程中的输出信息,从第一指定工作流模块开始运行,默认运行到最下游工作流模块,在所述用户界面显示从第一指定工作流模块开始运行的可视化信息。若第一指定工作流模块关联的上游模块未全部运行成功,则弹出重新配置的提示。

在控制工作流运行至指定工作流模块,也即当检测到用于触发运行至第二指定工作流模块的第二预设操作时,如检测到用户选定第二指定工作流模块且该工作流被触发运行,判断该工作流中与第二指定工作流关联的上游模块是否包含数据信息或输出数据信息,当所述上游模块包含数据信息或输出数据信息时,继承之前的输出信息,控制该工作流运行至第二指定工作流模块,默认从最上游工作流模块开始运行,在所述用户界面显示运行至第二指定工作流模块的可视化信息,若其中第二指定工作流模块关联的上游模块未全部运行成功,则运行至上游运行失败的工作流模块。当第二指定工作流模块关联的上游模块不包含数据信息且未输出数据信息时,弹出重新配置的提示。

在控制工作流运行指定工作流模块,也即当检测到用于触发第三指定工作流模块的第三预设操作时,如检测到用户选定第三指定工作流模块且该工作流被触发运行,判断该工作流中与第三指定工作流模块关联的上游模块是否全部运行成功,当所述上游模块全部运行成功时,继承之前的输出信息,在所述用户界面显示运行第三指定工作流模块的可视化信息。若第三指定工作流模块关联的上游模块未全部运行成功,则弹出重新配置的提示。

此外,数据分析处理系统也支持向用户展示工作流运行的可视化,如正在运行的工作流模块上下的连接线显示为绿色的虚线,而已经运行完成的工作流模块会有一个运行完成的标识;也可以基于用户操作直接向用户展示已经运行完成的工作流模块的运行结果,不必再到任务列表进行运行结果的查看,优化了操作流程;还可以基于用户操作向用户展示历史运行任务和历史运行结果。

对于工作流中的数据模块和已经运行成功的部分分析模块,可以点击查看输出结果,以及对工作流进行调试,从而使得工作流的调试运行更加直观。

进一步地,参照图8,所述工作流模块包括数据模块,所述数据模块包括数据,基于本发明的数据分析处理方法的第四实施例,步骤s21,包括:

s213:基于检测到的作用于所述数据模块的查看数据信息的操作,在所述用户界面以第二预设图表展示所述数据模块包含的数据信息。

所述数据模块包括数据,且数据模块一般由用户上传的数据文件形成,如csv文件、hdfs文件、hive文件等。在对所述数据模块的数据信息进行查看时,查看的可能是保留原格式的数据文件。当然,也可以对上述数据信息做进一步分析后以分析图表的形式进行展示,如在检测到用户的查看数据信息的操作时,在用户界面以第二预设图表展示数据模块包含的数据信息。

s214:基于检测到的作用于所述第二预设图表的分析、保存或导出的操作,在所述用户界面显示响应所述操作的可视化信息。

基于上文所述,数据分析处理系统可以在检测到用户的数据信息查看请求时,在用户界面以第二预设图表展示数据模块包含的数据信息。除此之外,数据分析处理系统还支持对第二预设图表进行进一步的分析、保存或导出的操作,并基于用户选择的分析、保存分析结果、导出分析结果等操作,在用户界面对应显示更多分析方法、分析结果、保存提示、导出提示等可视化信息。在其他实施例中也可以对运行成功的分析模块输出的数据信息进行可视化展示。

具体的,参照图9,图9为概率预测工作流中dataprocess分析模块输出的数据表单data.csv的示意图。在该数据表单中,概要显示每列数据的空值情况,如黑色代表存在空值,白色代表该列数据有效(在其他实施例中也可以用其他颜色进行标记,如绿色代表有效、灰色代表存在空值)。根据输出可大致了解每一列数据的健康程度,并向用户提供每一列数据的特征情况,如点击字段名为no1的列,将显示【分析】按钮,当检测到用户点击该【分析】按钮时,在当前页面弹出no1列具体的可视化信息窗口,如图10和图11所示。

如图10所示,选择按类别查看:该窗口展示了no1列中所有数值重复状况。窗口左侧的“概要”中展示了no1列的有效值和空值统计情况、用“唯一值”展示no1列中唯一出现的数值,即仅出现一次的数值(可能有多个数值都仅出现过一次,把所有的唯一值累计进行占比统计);右侧“列表”根据数值类别占比从上至下依次显示,还包括展示类别的具体内容、计数数量、占比(%)以及累积占比(cum.%),并以柱状图的形态显示占比大小。

如图11,选择按数值查看:窗口左侧除了图10所示的信息外,还展示了no1列的统计信息,如该列中的min(最小值)、max(最大值)、mean(平均值)、median(该列居于中间的数值,如果该列集合中包含偶数个数字,将返回位于中间的两个数的平均值)、stddev(该列的标准偏差)、mode(该列众数)、distinct(非重复结果的数目)、iqr(该列的四分差,是描述统计学中的一种方法,以确定第三四分位数和第一四分位数的区别)、sum(该列总和)、quantile分位数(中位数(即二分位数)、四分位数、百分位数等)。窗口右侧利用分箱数对该列数据进行了统计分析:根据分箱数(有多少个箱子),显示柱子数量,并通过下方线形图(按柱状图趋势描绘)可拖动查看某一个柱子或全部柱子范围,每个柱子代表该“箱的宽度”范围内的数值的数量,鼠标悬浮在某柱子处显示其具体数值范围和其内数值数量(分箱法是指通过考察“邻居”(周围的值)来平滑存储数据的值,用“箱的深度”表示不同的箱里有相同个数的数据,用“箱的宽度”来表示每一箱值的取值区间,由于分箱方法考虑相邻的值,因此是一种局部平滑方法。分箱的主要目的是去噪,将连续数据离散化,增加粒度),直观查看数据整体分布情况,帮助用户快速定位并查找规律。用户可自定义或调整分箱数(从而自动调整“箱的宽度”)等。

在其他实施例中,用户还可以基于需求选择箱线图(boxplot)、概率分布图、散点图等对统计信息进行展示。

进一步的,本实施例的数据分析处理系统还支持对工作流输出信息的展示图表进行深度分析,如点击可视化信息窗口的相应区域可进行数据下钻,具体如点击附图10中0.52区域生成数据透视表,筛选该列为0.52的行对应的记录,如图12所示。

又如,点击可视化信息窗口中的空值、唯一值等区域,也可以对数据进行定位,例如定位到空值的具体位置;进一步的,还可以对空值进行相应操作,例如点选填充按键,进行缺失值填充。即点击生成的可视化图表中相应区域,可进行定位、生成数据透视表等。

此外,本实施例的数据分析处理系统还支持用户对工作流的输出信息进行导出和采用更多分析方法分析的操作,例如用户可以点击图9所示的【更多分析方法】按钮,当检测到作用于【更多分析方法】的点击操作时,在当前界面会弹出分析方法选择窗口,如图13所示,基于该窗口,用户可以选择多列数据、选择具体分析方法、选择图表形式,例如箱线图(boxplot)、概率分布图、散点图、饼图、环形图、折线图、三维图(例如曲面图、立体柱形图等)、四维图及相关图形的组合等,生成可视化图表。其中,当选择对两列数据进行可视化分析时,可选择的具体分析方法包括t检验、f检验、非参数检验等;当选择对三列数据进行可视化分析时,可选择的具体分析方法包括联合分布、聚类分析、主成分分析等。

例如,可以选择四列数据进行两两对比,选择分析方法-非参数检验,生成堆叠图(堆积柱状图)和列表,用于统计检验,检测两列数据是否来自于同一个整体。

进一步的,本实施例中的图表是实时更新或定时更新的。

进一步地,上述数据分析处理方法的第三实施例和第四实施例可以进行适应性结合,如可以是对数据模块的数据信息进行查看,也可以是对分析模块输出的数据信息进行查看;而对工作流输出信息的查看,可以是对分析模块输出信息的查看,也可以是对数据模块输出信息的查看。

参照图14,图14为本发明的数据分析处理方法的第五实施例的流程示意图。在该实施例中,所述数据分析处理方法包括以下步骤:

s40:保存工作流运行过程中的输出文件;

本发明实施例的工作流包括至少一个工作流模块,所述工作流模块包括分析模块,进一步地还可以包括数据模块。在工作流运行过程中,所述分析模块用于对其上游的数据模块中的数据进行处理,或者对其上游的分析模块输出的数据进行处理,或者对自身数据进行处理,输出相应的数据信息和/或算法模型信息。由于在复杂场景中可能需要不同的目标数据和目标模型来创建或编辑工作流,而不同的目标数据和目标模型又需要创建并运行不同的工作流才能得到,因而会增加数据分析处理系统的处理压力、影响数据分析处理系统的响应速度,同时增加用户的工作量,而保存当前工作流的输出供用户创建或编辑工作流,能够方便用户创建或编辑工作流,提高数据分析处理系统的处理速度。所述工作流的运行过程包括工作流运行的开始、中间及结束三个阶段。

本发明实施例的数据分析处理系统支持在工作流运行过程中保存各个工作流模块的输出文件,如图2所示,在对工作流区域的工作流模块的输出文件进行保存时,会在当前页面弹出保存窗口,根据检测到的用户操作将输出文件根据类型存放至【成果管理】中(可以保存所有分析模块的输出结果,也可以选择性保存),同时将保存后的内容处理成工作流复用模块放入成果列表(未图示)中,也可显示于用户界面的工作流模块区域,如以标签1或标签2的形式显示为数据模块或分析模块。所述成果列表显示的内容包括来源任务、创建人、修改时间、调用次数、类型、状态等,在用户将选定的数据模块或封装成分析模块的模型文件添加至所述成果列表后,或用户调用成果列表的工作流模块时,所述成果列表会自动对上述内容进行更新。

在其他实施例中,所述用户界面的菜单区域还设有项目管理选项,以将数据应用、数据模块、分析模块、任务列表、成果管理等封装成一个大的管理空间,进行分开管理,使当前管理空间内的工作流模块与其他管理空间内的工作流模块有效隔离,无法被应用至其他空间进行工作流的创建或编辑,以方便对工作流的输出文件进行管理。当然,在当前管理空间设置为共享时,该空间内的工作流模块可以被应用至与该空间存在共享协议的空间进行工作流的创建或编辑。

s50:基于已保存的工作流输出文件创建或编辑工作流。

由上述可知,数据分析处理系统支持对工作流运行过程中(工作流运行的开始、中间和结束)的输出文件进行保存,以提高工作流在复杂场景中的使用便利性和灵活性。用户可以基于已保存的工作流输出文件创建或编辑工作流,具体的,用户可以使用a工作流的输出文件创建b工作流,或者使用a工作流的输出文件对a工作流进行进一步的编辑调整。

进一步地,参照图15,基于本发明的数据分析处理方法的第六实施例,步骤s40具体包括:

s41:基于接收到的针对工作流运行过程中的输出文件的保存指令,将所述输出文件处理成工作流复用模块进行保存。

具体的,该保存工作流运行过程中的输出文件的任务可以基于检测到的作用于用户界面的保存操作执行,如当检测到作用于所述用户界面的保存操作时,生成对应的保存指令,然后基于该保存指令将所述输出文件进一步处理成工作流复用模块进行保存。由于工作流的输出文件可能是数据文件也可能是模型文件,且模型文件不能直接使用在工作流中,需要对其进行封装,因而将输出文件处理成工作流复用模块进行保存,可以方便其直接应用于后续工作流的创建和编辑,方便对工作流输出文件进行使用。在其他实施例中,也可以在用户查看完成运行的分析模块的输出文件后自动保存该查看的输出文件,例如在被查看的输出文件以图表的形式显示于所述用户界面预设时长内未检测到任何操作信息,则可以默认对该输出文件进行保存。在其他实施例中,数据分析处理系统也可以默认保存工作流各个版本的所有输出结果,工作流每运行一次为一个版本。

例如:a工作流为用户数据筛选及预测工作流,b工作流为用户预测工作流,a工作流的输出文件包括数据、模型等,b工作流的构建需要数据和算法模型。a工作流包括数据预处理、特征选择、模型选择、模型优化、模型输出等工作流模块;例如,a工作流数据预处理客户的年龄从0-120平均分成10段,0-12/13-24/25-36等,并进行标识1-10;a工作流特征选择,源特征100个,特征选择后用到10个,则a工作流保存下来10个特征。a工作流中上述工作流模块均可以输出相应的文件,如预处理后的数据文件、经过特征选择后的数据文件、选择的模型文件、优化后的模型文件等,发布到生产环境上。由于b工作流也是一种预测工作流,在创建b工作流时,可以使用a工作流的输出文件,即使用a工作流中预处理后的数据文件、经过特征选择后的数据文件、选择的模型文件、优化后的模型文件等。当然,在创建b工作流时,用户可以使用a工作流的全部输出文件,也可以仅使用a工作流的部分输出文件。

具体地,b工作流可以使用a工作流中已经选好的模型、优化好的模型等,例如使用a工作流对客户年龄的处理方法,使用a工作流选择出的特征。b工作流可以包含a工作流所有的过程,即b工作流调用a工作流数据预处理、特征选择、模型选择、模型优化的方法进行预测;b工作流也可以只调用a工作流中优化好的模型进行预测。

此外,a工作流可以仅运行部分模块(如运行部分模块后暂停,或部分模块运行失败),模块运行成功有输出文件的,即可对输出文件进行保存,可以保存到成果管理并展示于成果列表中,如展示于工作流模块区域,以通过拖拽等方式供用户创建或编辑b工作流。

本实施例的数据分析处理方法可以将已保存的工作流输出文件应用于工作流的创建和编辑,可以降低复杂场景下工作流的创建和编辑难度,优化操作流程、提高工作流在复杂场景中的使用便利性和灵活性。

进一步地,参照图16,基于本发明的数据分析处理方法的第七实施例,步骤s41,包括:

s411:当检测到针对工作流进行输出文件的保存操作时,生成保存指令;

s412:基于所述保存指令,在运行所述工作流的用户界面展示该工作流的全部输出文件;

s413:基于检测到的针对所述全部输出文件的选择操作,将选定的输出文件处理成工作流复用模块进行保存。

在本实施例中,工作流运行过程中会产生输出文件,通常情况下可以根据系统默认/用户的自定义设置保存工作流运行过程中的全部输出文件,或者根据用户的选择操作保存用户所需的输出文件。例如,当用户选择保存工作流中的输出文件时,系统会检测到用户针对工作流进行的输出文件的保存操作,进而生成保存指令,基于该保存指令,系统会在所述用户界面显示该工作流在运行过程中的全部输出文件供用户进行选择,如直接在当前界面弹出一包含全部输出文件的窗口,然后基于检测到的用户的选择操作将用户选定的输出文件处理成工作流复用模块进行保存,如将用户选择的数据文件直接保存为数据模块,和/或将用户选择的模型文件封装成分析模块后进行保存。

进一步地,参照图17,基于本发明的数据分析处理方法的第八实施例,步骤s40之后,还包括:

s60:将处理成工作流复用模块的输出文件显示于用户界面的预设区域。

通常情况下,工作流运行过程中的输出文件均保存于底层数据库或存储器中,用户在创建或编辑工作流时需要通过所需输出文件的存储路径进行调用,增加了使用难度。为了降低使用已保存工作流输出文件创建或编辑工作流的难度,方便工作流输出文件在创建或编辑工作流任务中的应用,本实施例将处理成工作流复用模块的输出文件显示于用户界面的预设区域,如所述成果列表可以设置于工作流模块区域。

进一步地,参照图14、15、16或17,步骤s50,包括:

基于检测到的作用于所述用户界面的拖拽操作,将预设区域的工作流复用模块拖拽至目标区域创建或编辑工作流;和/或,

基于检测到的信息输入操作,调用与输入信息对应的输出文件/工作流复用模块创建或编辑工作流。

本发明实施例中,用户可以基于用户界面创建工作流,操作便利,也可以根据用户需求对工作流中的工作流模块进行编辑,例如,增加工作流模块、复制工作流模块或删除工作流模块,提高了数据分析处理系统的使用灵活性,提高了用户使用的便利性。

如图2所示,所述用户界面包括工作流模块显示区域和工作流显示区域,所述创建或编辑工作流的用户操作包括用户从所述工作流模块显示区域将工作流复用模块拖拽至所述工作流显示区域内的拖拽操作。例如,当用户需要创建工作流时,可以直接使用保存至工作流模块显示区域且处理成工作流复用模块的数据文件或模型文件拖拽至工作流显示区域内,操作方式简单,提高用户体验。

具体的,工作流模块显示区域还可以分为数据模块显示区域和分析模块显示区域,数据模块显示区域内显示已保存的数据模块或创建的数据模块,分析模块显示区域内显示已保存的分析模块或创建的分析模块。

当然,在本发明的其他一些实施例中,所述创建和/或编辑工作流的用户操作也可以包括用户在所述用户界面输入可编程式的工作流语言(dsl,domainspecificlanguage)指令的操作。在该实施例中,用户界面需要显示可编程式的工作流语言指令输入区域,在该输入区域内,用户通过输入可编程式的工作流语言指令,调用已保存的工作流复用模块创建和/或编辑工作流。

当然,本发明实施例中的数据分析处理系统也可以同时支持拖拽操作和输入可编程式的工作流语言指令的操作,以为用户提供操作的多样性。

当数据分析处理系统支持输入可编程式的工作流语言指令的操作时,所述数据分析处理系统可以包括:编程操作平台模块,以执行用户在所述用户界面输入的可编程式的工作流语言(dsl)指令。本发明实施例中,用户通过简单的dsl就可以创建和/或编辑工作流,从而提供更简单的方式让用户使用数据分析处理系统。dsl能够提供简单的编程接口,以操作整个数据分析处理系统的大多数功能,语言定义简单高效,且可移植性强(平台之间可以共享),提供可监控、可视化的过程。具体的,需要定义dsl语法、实现dsl、运行dsl;dsl是中间过程,还需要解释层,解释到具体的功能。通过dsl,用户通过简单的编程语言(例如,一行或几行代码)就可以实现数据分析处理系统的主要功能(分析相关功能):创建或编辑工作流、运行工作流、可视化等。

此外,在其他实施例中,用户也可以基于数据分析处理系统的规则和标准,设置在工作流运行过程中自动筛选符合标准的输出文件进行保存,并在使用时由数据分析处理系统基于用户设定自动选定匹配的输出文件进行创建或编辑工作流。

进一步地,本发明基于工作流的数据分析处理方法中保存工作流输出文件、基于保存的工作流输出文件创建或编辑工作流的功能,也可以基于用户的可视化操作实现,也即本发明基于工作流的数据分析处理方法的第五、第六、第七及第八实施例表述的内容可与第一、第二、第三及第四实施例表述的内容进行适应性结合,具体如下:

所述基于工作流的数据分析处理方法包括以下步骤:

监测作用于工作流用户界面的操作信息;

基于检测到的作用于所述用户界面的预设操作,在所述用户界面显示与所述预设操作对应的可视化信息;

基于已保存的工作流输出文件创建或编辑工作流。

其中,所述预设操作可以在基于已保存的工作流输出文件创建或编辑好工作流之后,作用于所述创建或编辑的工作流;也可以基于作用于用户界面的拖拽或输入操作调用已保存的工作流输出文件创建或编辑工作流。

进一步地,所述工作流包括至少一个工作流模块,所述基于检测到的作用于所述用户界面的预设操作,在所述用户界面显示与所述预设操作对应的可视化信息的步骤,包括:

基于检测到的作用于所述工作流模块的预设操作,在所述用户界面以图表显示与所述预设操作对应的可视化信息。

进一步地,所述数据分析处理方法还包括:

基于检测到的作用于用户界面的运行工作流的操作,在所述用户界面显示完成运行的工作流模块。

进一步地,所述数据分析处理方法还包括:

保存工作流运行过程中的输出文件。

其中,在监测作用于用户界面的操作信息,以在用户界面显示与用户操作对应的可视化信息的前提下,该保存工作流运行过程中的输出文件主要基于用户的保存操作进行,也即在系统检测到用户作用于所述用户界面的保存操作时,由数据分析处理系统中的保存模块对工作流运行过程中的输出文件进行处理和保存。

进一步地,所述保存工作流运行过程中的输出文件的步骤,包括:

基于接收到的针对工作流运行过程中的输出文件的保存指令,将所述输出文件处理成工作流复用模块进行保存。

进一步地,所述基于接收到的针对工作流运行过程中的输出文件的保存指令,将所述输出文件处理成工作流复用模块进行保存的步骤,包括:

当检测到针对工作流进行输出文件的保存操作时,生成保存指令;

基于所述保存指令,在运行所述工作流的用户界面展示该工作流的全部输出文件;

基于检测到的针对所述全部输出文件的选择操作,将选定的输出文件处理成工作流复用模块进行保存。

进一步地,所述数据分析处理方法还包括:

将处理成工作流复用模块的输出文件显示于用户界面的预设区域。

进一步地,所述基于已保存的工作流输出文件创建或编辑工作流的步骤,包括:

基于检测到的作用于所述用户界面的拖拽操作,将预设区域的工作流复用模块拖拽至目标区域创建或编辑工作流;和/或,

基于检测到的选择操作,使用选定的输出文件/工作流复用模块创建或编辑工作流。

进一步地,所述工作流模块包括分析模块,所述分析模块包括用于对数据进行处理的代码,所述在所述用户界面以图表显示与所述预设操作对应的可视化信息的步骤,包括:

基于检测到的作用于所述分析模块的查看输出信息的操作,在所述用户界面以第一预设图表展示所述输出信息。

进一步地,在所述用户界面以第一预设图表展示所述输出信息的步骤之后,还包括:

基于检测到的作用于所述第一预设图表的保存、编辑或生成分析报告的操作,在所述用户界面显示响应所述操作的可视化信息。

进一步地,所述工作流模块还包括数据模块,所述数据模块包括数据,所述在所述用户界面以图表显示与所述预设操作对应的可视化信息的步骤,包括:

基于检测到的作用于所述数据模块的查看数据信息的操作,在所述用户界面以第二预设图表展示所述数据模块包含的数据信息。

进一步地,在所述用户界面以第二预设图表展示所述数据模块包含的数据信息的步骤之后,包括:

基于检测到的作用于所述第二预设图表的分析、保存或导出的操作,在所述用户界面显示响应所述操作的可视化信息。

在基于已保存的工作流输出文件创建或编辑工作流之后,例如用户将保存并显示于工作流模块区域的工作流复用模块拖拽或调用至工作流区域后,可以基于需要使创建或编辑好的工作流从第一指定工作流模块开始运行、运行至第二指定工作流模块或仅运行第三指定工作流模块,以在保证数据分析处理系统低门槛的同时提高其处理速度。

本发明进一步提出一种基于工作流的数据分析处理系统。

参照图18,图18是本发明的基于工作流的数据分析处理系统第一实施例的结构示意图。

在该实施例中,所述数据分析处理系统100包括:

接口模块110,用于监测作用于工作流用户界面的操作信息;

显示模块130,用于基于检测到的作用于所述用户界面的预设操作,在所述用户界面显示与所述预设操作对应的可视化信息。

本发明实施例的数据分析处理系统100包括接口模块110和显示模块130。所述接口模块110包括代理模块111、服务接口会话模块113,所述显示模块130包括用户界面展示单元131。所述代理模块111包括反向代理服务器nginx,所述服务接口会话模块113包括pipes(业务处理服务)组件,所述用户界面展示单元131包括compass(前端应用服务)组件。

具体的,所述pipes可作为下文提到的heron、controller、falcon组件的网关,进一步的还可以作为postgresql(db)组件的对外接口,pipes有对外的api(applicationprogramminginterface,应用程序编程接口)接口。pipes不但要管理ui端页面网络通信协议websocket的session,还要为服务端的服务(heron)提供统一的restapi(representationalstatetransferapi,restapi)访问入口,并重写请求头(requestheader)以便于请求跟踪(requesttracking)。即pipes是websocket的session管理(sessionmanagement)和服务路由(servicerouting)。

所述compass由静态文件组成。

下面举例对代理模块111、服务接口会话模块113和用户界面展示单元131的一工作流程进行说明,例如,用户在浏览器输入数据分析处理系统的网址→反向代理服务器nginx接收到网址请求→反向代理服务器nginx利用compass解析网址→接收异步请求(例如ajax)→请求到达pipes。

所述异步,是指不需要等待上一个进程结束就可以开始下一个进程。异步的含义是计算机多线程的异步处理。与同步处理相对,异步处理不用阻塞当前线程,而是允许后续操作,直至其它线程处理完成,并回调通知此线程。

进一步地,所述用户界面展示单元131用于提供任务进程中的信息可视化。例如,可以在compass中增加可视化模块datavisualization,datavisualization为全局可视化组件,为整个数据分析处理系统能够提供信息可视化支持,数据分析处理系统内任意地方的信息都可以发布为一个可视化信息源。例如,可以实现运行之后的可视化、交互探索的可视化、数据查询、数据分析、模型训练或者模型调优的可视化等。

进一步地,所述用户界面可以根据用户或运维人员进行自定义设置。例如,通过用户界面对菜单、按钮、以及logo等元素进行自定义定制。上述功能集中在页面层(即表现层),涉及compass组件与pipes组件。

当用户在数据分析处理系统100的用户界面进行点击、缩放、拖拽、编辑等操作时,反向代理服务器nginx会接收到所述操作指向的请求,由反向代理服务器nginx解析所述操作指向的请求,再将所述请求转发至pipes组件,pipes组件再将所述请求转发给heron,heron对所述用户请求进行一次包装后向falcon发送请求(即,heron告诉falcon用户要请求某资源),falcon告诉mesos、向mesos申请资源、创建容器;当mesos中存在用户请求申请的资源时,将用户请求对应的资源按原路返回给用户界面,并通过用户界面展示单元131中的compass的可视化模块datavisualization实现反馈信息的可视化,也即实现在所述用户界面显示与所述预设操作对应的可视化信息。如在用户点击运行工作流的图标时,做出运行所述工作流的响应。

基于用户自定义或系统开发人员定义的用户界面的操作规则,数据分析处理系统会对符合操作规则的预设操作,在所述用户界面显示对应的可视化信息。进一步地,数据分析处理系统可以对接收到的用户操作信息进行筛选和验证,以过滤掉作用于所述用户界面的误操作信息。如针对在数据分析处理系统的功能区域进行创建或运行工作流的操作,在所述用户界面的工作流区域显示对应的工作流模块或执行运行任务的工作流;或者针对在工作流显示区域对工作流模块进行的查看操作,在所述用户界面显示所述工作流模块包含的数据信息或所述工作流在运行过程中输出的信息,如对于工作流中的数据模块和已经运行成功的部分分析模块,可以点击查看输出结果。所述工作流的运行过程包括工作流运行的开始、中间及结束三个阶段。

进一步地,所述工作流包括至少一个工作流模块,所述显示模块130还用于基于检测到的作用于所述工作流模块的预设操作,在所述用户界面以图表显示与所述预设操作对应的可视化信息。

进一步地,所述显示模块130还用于基于检测到的作用于用户界面的运行工作流的操作,在所述用户界面显示完成运行的工作流模块。

进一步地,所述工作流模块包括分析模块,所述分析模块包括用于对数据进行处理的代码;

所述显示模块130还用于基于检测到的作用于所述分析模块的查看输出信息的操作,在所述用户界面以第一图表展示所述输出信息。

进一步地,所述显示模块130还用于基于检测到的作用于所述第一预设图表的保存、编辑或生成分析报告的操作,在所述用户界面显示响应所述操作的可视化信息。

进一步地,所述工作流模块还包括数据模块,所述数据模块包括数据和/或数据的资源配置;

所述显示模块还用于基于检测到的作用于所述数据模块的查看数据信息的操作,在所述用户界面以第二预设图表展示所述数据模块包含的数据信息。

进一步地,所述显示模块还用于基于检测到的作用于所述第二预设图表的分析、保存或导出的操作,在所述用户界面显示响应所述操作的可视化信息。

参照图19,图19是本发明的基于工作流的数据分析处理系统第二实施例的结构示意图。

在该实施例中,所述数据分析处理系统100包括:

保存模块150,用于保存工作流运行过程中的输出文件;

分析处理模块170,用于基于已保存的工作流输出文件创建或编辑工作流。

在本实施例中,工作流包括至少一个工作流模块,所述工作流模块包括分析模块,进一步地还可以包括数据模块。在工作流运行过程中,所述分析模块用于对其上游的数据模块中的数据进行处理,或者对其上游的分析模块输出的数据进行处理,或者对自身数据进行处理,输出相应的数据信息和/或算法模型信息。由于在复杂场景中可能需要不同的目标数据和目标模型来创建或编辑工作流,而不同的目标数据和目标模型又需要创建并运行不同的工作流才能得到,因而会增加数据分析处理系统的处理压力、影响数据分析处理系统的响应速度,同时增加用户的工作量,而保存当前工作流的输出供用户创建或编辑工作流,能够方便用户创建或编辑工作流,提高数据分析处理系统的处理速度。所述工作流的运行过程包括工作流运行的开始、中间及结束三个阶段。

本发明实施例的数据分析处理系统支持在工作流运行过程中保存各个工作流模块的输出文件,如图2所示,在对工作流显示区域的工作流模块的输出文件进行保存时,会在当前页面弹出保存窗口,根据检测到的用户操作将输出文件根据类型存放至成果库,如图2所示的成果管理中(可以保存所有分析模块的输出结果,也可以选择性保存),同时将保存后的内容处理成工作流复用模块放入成果列表中,也可显示于用户界面的工作流模块区域。所述成果列表显示的内容包括来源任务、创建人、修改时间、调用次数、类型、状态等,在用户将选定的数据模块或封装成分析模块的模型文件添加至所述成果列表后,或用户调用成果列表的工作流模块时,所述成果列表会自动对上述内容进行更新。

在其他实施例中,所述用户界面的菜单区域还设有项目管理选项,以将数据应用、数据模块、分析模块、任务列表、成果管理等封装成一个大的管理空间,进行分开管理,使当前管理空间内的工作流模块与其他管理空间内的工作流模块有效隔离,无法被应用至其他空间进行工作流的创建或编辑,以方便对工作流的输出文件进行管理。当然,在当前管理空间设置为共享时,该空间内的工作流模块可以被应用至与该空间存在共享协议的空间进行工作流的创建或编辑。

本发明实施例的保存模块150可以包括nfs(networkfilesystem,网络文件系统)或分布式文件系统。nfs网络文件系统可以实现多机器文件存储/共享,位于挂载的硬盘,涉及上述数据存储接口volume。分布式文件系统可以动态地无限扩展空间,以应对日益增长的空间需求,从而支持数据量较大的情况。例如用ceph,当存储空间不足时可以通过添加algorithmdevice进行空间扩展动态扩容,后者采用swift(openstackswift)。

数据分析处理系统支持对工作流运行过程中的输出文件进行保存,以提高工作流在复杂场景中的使用便利性和灵活性。用户可以基于分析处理模块170使用已保存的工作流输出文件创建或编辑工作流,具体的,用户可以使用a工作流的输出文件创建b工作流,或者使用a工作流的输出文件对a工作流进行进一步的编辑调整。

所述分析处理模块170包括用于构建工作流的容器模块、及用于管理所述容器模块的容器管理模块。所述管理所述容器模块包括以下至少之一:管理容器模块的生命周期、工作流调度、对容器管理器或者容器服务器进行抽象处理、容器管理以及接收和处理生成分析模块的请求。

所述容器模块包括debugcontainer(调试容器)组件和/或algorithmcontainer(算法容器)组件。debugcontainer是调试分析模块,即运行一个分析模块和/或创建分析模块,即将一个分析模块生成容器以使该分析模块可以工作(如已有容器则仅运行)。algorithmcontainer将多个工作流模块(分析模块和/或数据模块)构建工作流。debugcontainer和algorithmcontainer均与工作流相关。

所述容器管理模块可以包括heron、controller、falcon、mesos、specserver、dockerregistry组件中的至少之一。

heron是debugcontainer的管理模块,管理debugcontainer的生命周期(启动、停止等)。例如设置时间阈值t1,超过t1即停止,用于让资源运转更高效,提高资源使用率。controller是工作流调度器。

进一步的,所述容器管理模块还可以包括falcon,falcon是资源管理框架的抽象服务,falcon对不同类型容器管理器或者是容器服务器进行抽象处理;所有的docker都用mesos管理,在mesos的上一层增加了一层服务即falcon,falcon能够隔离mesos和服务如heron、controller,使得这些服务不用关心具体用的是mesos还是k8s或其他的同类工具。

mesos用于容器管理,由server和多个agent构成,agent运行docker;specserver在分析模块发布后,接收和处理生成分析模块的请求;specserver向dockerregistry里写docker的镜像(image),向postgresql(db)里写上述image的信息(info);dockerregistry是为agent提供镜像服务的且dockerregistry是基于全局的;specserver向dockerregistry里写docker的镜像(image),agent读上述镜像。

pipes中的代码管理模块与所述容器模块和所述容器管理模块进行配合,管理创建的分析模块的代码。pipes中的代码管理模块是基于版本控制的代码文件管理系统,可以进行文件编辑,所述文件是包含代码或者配置的文件。例如,pipes为页面编写功能提供接口;pipes用到的服务可以包括以下至少之一:1)nfs或者分布式文件系统存取文件、2)heron管理的调试分析模块、3)写数据库用到postgresql(db)、4)需要rabbitmq队列来做异步的通知。包括pipes在内的各个模块之间是互相调用的。

上述不同模块之间的耦合通过queue队列来进行,例如rabbitmq;

上述pipes、heron、falcon、mesos、dockerregistry具有对内的api接口,即与所述数据分析处理系统内的其他模块之间的接口。

上述模块中,运行相关的模块algorithmcontainer、controller、falcon、mesos、dockerregistry是比较基础的模块;进一步的,还可以提供自定义分析模块相关的,例如,debugcontainer、heron、specserver、pipes,使得用户可以自定义模块。

在进行创建或编辑工作流时,可以由nginx解析接收到的用户作用于所述工作流模块区域的工作流复用模块的拖拽或输入操作请求,并向pipes发送创建或编辑工作流的请求,pipes将所述请求转发给heron,由heron对所述请求进行一次包装后向falcon告知用户请求的资源,再由mesos判断该资源请求进而申请资源、创建容器,并返回创建或编辑工作流的响应信息,如,将拖拽或输入的工作流复用模块显示于工作流区域的目标位置。

进一步地,所述保存模块150还用于基于接收到的针对工作流运行过程中的输出文件的保存指令,将所述输出文件处理成工作流复用模块进行保存。

进一步地,所述保存模块150包括:

指令生成单元151,用于在检测到针对工作流进行输出文件的保存操作时,生成保存指令;

展示单元153,基于所述保存指令,在运行所述工作流的用户界面展示该工作流的全部输出文件;

保存单元155,基于检测到的针对所述全部输出文件的选择操作,将选定的输出文件处理成工作流复用模块进行保存。

进一步地,所述数据分析处理系统100还包括:

显示模块130,用于将处理成工作流复用模块的输出文件显示于用户界面的预设区域。

进一步地,所述分析处理模块170还用于基于检测到的作用于所述用户界面的拖拽操作,将预设区域的工作流复用模块拖拽至目标区域创建或编辑工作流。

进一步地,所述分析处理模块170还用于基于检测到的信息输入操作,调用与输入信息对应的输出文件和/或工作流复用模块创建或编辑工作流。

参照图20,图20是本发明的基于工作流的数据分析处理系统第三实施例的结构示意图。

在该实施例中,所述数据分析处理系统100包括:

接口模块110,用于监测作用于工作流用户界面的操作信息;

显示模块130,用于基于检测到的作用于所述用户界面的预设操作,在所述用户界面显示与所述预设操作对应的可视化信息;

分析处理模块170,用于基于已保存的工作流输出文件创建或编辑工作流。

其中,所述预设操作可以在基于已保存的工作流输出文件创建或编辑好工作流之后,作用于所述创建或编辑的工作流;也可以基于作用于用户界面的拖拽或输入操作调用已保存的工作流输出文件创建或编辑工作流。

进一步地,所述工作流包括至少一个工作流模块,所述显示模块130还用于基于检测到的作用于所述工作流模块的预设操作,在所述用户界面以图表显示与所述预设操作对应的可视化信息。

进一步地,所述显示模块130还用于基于检测到的作用于用户界面的运行工作流的操作,在所述用户界面显示完成运行的工作流模块。

进一步地,所述数据分析处理系统100还包括:

保存模块150,用于保存工作流运行过程中的输出文件。

进一步地,所述保存模块150还用于基于接收到的针对工作流运行过程中的输出文件的保存指令,将所述输出文件处理成工作流复用模块进行保存。

进一步地,所述保存模块150包括:

指令生成单元151,用于在检测到针对工作流进行输出文件的保存操作时,生成保存指令;

展示单元153,基于所述保存指令,在运行所述工作流的用户界面展示该工作流的全部输出文件;

保存单元155,基于检测到的针对所述全部输出文件的选择操作,将选定的输出文件处理成工作流复用模块进行保存。

进一步地,所述显示模块130还用于将处理成工作流复用模块的输出文件显示于用户界面的预设区域。

进一步地,所述分析处理模块170还用于基于检测到的作用于所述用户界面的拖拽操作,将预设区域的工作流复用模块拖拽至目标区域创建或编辑工作流。

进一步地,所述分析处理模块170还用于基于检测到的信息输入操作,调用与输入信息对应的输出文件/工作流复用模块创建或编辑工作流。

进一步地,所述工作流模块包括分析模块,所述分析模块包括用于对数据进行处理的代码,所述显示模块130还用于基于检测到的作用于所述分析模块的查看输出信息的操作,在所述用户界面以第一图表展示所述输出信息。

进一步地,所述显示模块130还用于基于检测到的作用于所述第一预设图表的保存、编辑或生成分析报告的操作,在所述用户界面显示响应所述操作的可视化信息。

进一步地,所述工作流模块还包括数据模块,所述数据模块包括数据和/或数据的资源配置,所述显示模块130还用于基于检测到的作用于所述数据模块的查看数据信息的操作,在所述用户界面以第二预设图表展示所述数据模块包含的数据信息。

进一步地,所述显示模块130还用于基于检测到的作用于所述第二预设图表的分析、保存或导出的操作,在所述用户界面显示响应所述操作的可视化信息。

进一步地,所述显示模块130还用于基于检测到的作用于所述工作流模块的第一预设操作,从第一指定工作流模块开始运行工作流;

所述显示模块130包括:

第一判断单元132,用于在检测到用于触发从第一指定工作流模块开始运行的第一预设操作时,判断工作流中与所述第一指定工作流模块关联的上游模块是否全部运行成功;

显示单元133,用于在所述上游模块全部运行成功时,在所述用户界面显示从第一指定工作流模块开始运行工作流的可视化信息。

进一步地,所述显示模块130还用于基于检测到的作用于所述工作流的第二预设操作,控制工作流运行至第二指定工作流模块;

所述显示模块包括:

第二判断单元135,用于在检测到用于触发运行至第二指定工作流模块的第二预设操作时,判断工作流中与所述第二指定工作流模块关联的上游模块中是否包含数据信息;

显示单元133,用于在所述上游模块包含数据信息时,在所述用户界面显示工作流从包含该数据信息的上游模块运行至第二指定工作流模块的可视化信息。

进一步地,所述显示模块130还用于基于检测到的作用于所述工作流模块的第三预设操作,运行工作流中的第三指定工作流模块;

所述显示模块130包括:

第三判断单元137,用于在检测到用于触发第三指定工作流模块的第三预设操作时,判断工作流中与所述第三指定工作流模块关联的上游模块是否全部运行成功;

显示单元133,用于在所述上游模块全部运行成功时,在所述用户界面显示运行工作流中的第三指定工作流模块的可视化信息。

本发明还提出一种基于工作流的数据分析处理装置,该数据分析处理装置包括存储器、处理器及存储在所述存储器并可在所述处理器上运行的数据分析处理程序,所述数据分析处理程序被所述处理器执行时实现上述的数据分析处理方法。

本发明还提出一种存储介质,该存储介质存储有数据分析处理程序,所述数据分析处理程序被处理器执行时实现如上所述的数据分析处理方法。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1