一种数据分析处理系统及自动建模方法与流程

文档序号:28487888发布日期:2022-01-15 01:46阅读:89来源:国知局
一种数据分析处理系统及自动建模方法与流程
一种数据分析处理系统及自动建模方法
1.本发明申请为申请日为2018年6月19日,申请号为2018106324996,发 明名称为“一种数据分析处理系统及自动建模方法”的发明申请的分案申请。
技术领域
2.本发明涉及数据处理技术领域,尤其涉及一种数据分析处理系统及自动建 模方法。


背景技术:

3.当前的数据分析处理系统进行业务模型训练的主要方式为:从数据库中将 用于训练业务模型的数据导出到本地,由建模师利用第三方建模工具,根据业 务需求选择模型策略,训练业务模型,在训练业务模型的过程中不断地人工调 试,得到优化的模型参数,从而得到训练出的业务模型。
4.上述业务模型训练方式存在很大弊端:业务模型训练的过程复杂,自动化 程度低,不适用于非专业的用户使用。


技术实现要素:

5.有鉴于此,本发明提供一种数据分析处理系统及自动建模方法,以解决现 有的数据分析处理系统训练模型过程复杂,自动化程度低的问题。
6.为解决上述技术问题,本发明提供一种数据分析处理系统的自动建模方法, 包括:
7.显示用户界面,所述用户界面用于供用户设置用于创建业务模型的场景和 数据;
8.获取用户在所述用户界面上设置的场景和/或数据,并根据获取的所述场 景和/或数据,从多个模型策略中选择一模型策略,根据选择的模型策略创建 业务模型,所述模型策略至少包括以下信息:算法和所述算法的参数调优方法。
9.优选地,所述模型策略还包括以下信息中的至少之一:所述算法的评估方 法、所述算法的参数设置方法、所述数据的拆分方法、所述数据的处理方法和 所述数据的特征选择方法。
10.优选地,所述用户界面还用于供用户设置用于创建业务模型的目标特征。
11.优选地,所述显示用户界面的步骤包括:
12.在所述用户界面上显示场景表单供用户选择;
13.当检测到用户选择所述场景表单中的一场景的操作时,在所述用户界面上 显示选择的场景;
14.或者
15.在所述用户界面上显示场景输入区域;
16.当检测到用户在所述输入区域输入场景的操作时,获取用户输入的所述场 景;
17.将场景表单中与用户输入的场景匹配的场景显示在所述用户界面上。
18.优选地,所述场景包括以下至少之一:对应聚类算法的场景、对应分类算 法的场景、对应回归算法的场景、对应异常检测的场景和对应语言处理的场景。
19.优选地,当所述场景为对应聚类算法的场景时,所述选择的模型策略的信 息包括:算法和所述算法的参数调优方法,所述算法包括以下至少之一:层次 聚类、贝叶斯高斯混合、kd树、受限波尔兹曼机,所述算法的参数调优方法 基于超参数优化进行,所述超参数优化的方法包括以下至少之一:随机参数搜 索方法、网格参数搜索方法、轮廓系数方法;
20.当所述场景为对应分类算法的场景时,所述选择的模型策略的信息包括: 算法和所述算法的参数调优方法,所述算法包括以下至少之一:逻辑回归、随 机森林、bagging、adaboost、神经网络、堆栈模型,所述算法的参数调优方 法基于超参数优化进行,所述超参数优化的方法包括以下至少之一:随机参数 搜索方法、网格参数搜索方法、曲线下面积auc分数方法;
21.当所述场景为对应回归算法的场景时,所述选择的模型策略的信息包括: 算法和所述算法的参数调优方法,所述算法包括以下至少之一:逻辑回归、随 机森林、支持向量回归、神经网络,所述算法的参数调优方法基于超参数优化 进行,所述超参数优化的方法包括以下至少之一:随机参数搜索方法、网格参 数搜索方法、r2值方法;
22.当所述场景为对应异常检测的场景时,所述选择的模型策略的信息包括: 算法和所述算法的参数调优方法,所述算法包括以下至少之一:神经网络、支 持向量机、稳健回归、最近邻、孤立森林;所述算法的参数调优方法基于超参 数优化进行,所述超参数优化的方法包括以下至少之一:随机参数搜索方法、 网格参数搜索方法、f1分数方法;
23.当所述场景为对应语言处理的场景时,所述选择的模型策略的信息包括: 算法和所述算法的参数调优方法,所述算法包括以下至少之一:潜在语义索引、 隐含狄利克雷分布、条件随机场;所述算法的参数调优方法包括:根据词频分 析的结果给出默认参数,使用默认参数。
24.优选地,所述根据选择的模型策略创建业务模型的步骤之后,还包括:
25.显示创建完成的业务模型的建模设计信息,所述建模设计信息至少包括: 选择的模型策略的信息。
26.优选地,所述显示创建完成的业务模型的建模设计信息的步骤之后,还包 括:
27.当检测到用户调整所述建模设计信息的操作时,更新所述建模设计信息;
28.当检测到用户执行用于运行所述创建完成的业务模型的操作时,根据更新 的所述建模设计信息,运行所述创建完成的业务模型。
29.优选地,所述根据选择的模型策略创建业务模型的步骤之后,还包括:
30.当检测到用户执行用于运行创建完成的业务模型的操作时,采用选择的模 型策略,运行所述创建完成的业务模型。
31.优选地,所述运行所述创建完成的业务模型的步骤之后,还包括:
32.显示运行完成的业务模型的建模成果,所述建模成果包括以下至少之一: 所述运行完成的业务模型的名称、所述运行完成的业务模型的得分和所述运行 完成的业务模型的输出结果。
33.优选地,所述建模成果还包括:所述运行完成的业务模型的模型策略的信 息、所述运行完成的业务模型的创建时间、所述运行完成的业务模型的训练信 息、所述运行完成
的业务模型对应的工作流、所述运行完成的业务模型的状态 和所述数据的特征的重要性排序信息。
34.优选地,所述建模成果包括:所述选择的模型策略对应的n个运行完成 的业务模型中得分最高的前m个业务模型的信息,或者,所述选择的模型策 略对应的全部n个运行完成的业务模型的信息,m为大于或等于1的正整数, n为大于或等于m的正整数。
35.优选地,所述运行所述创建完成的业务模型的步骤之后,还包括:
36.显示运行完成的业务模型的建模设计信息,所述建模设计信息至少包括: 选择的模型策略的信息;
37.当检测到用户调整所述建模设计信息的操作时,更新所述建模设计信息;
38.当检测到用户执行用于重新运行所述运行完成的业务模型的操作时,根据 更新的所述建模设计信息,重新运行所述运行完成的业务模型。
39.优选地,所述建模设计信息还包括:场景和/或目标特征。
40.优选地,所述根据选择的模型策略创建业务模型的步骤之后,还包括:
41.创建与创建完成的业务模型对应的第一工作流,所述第一工作流包括多个 工作流模块。
42.优选地,所述创建与创建完成的业务模型对应的第一工作流的步骤之后, 还包括:
43.当检测到运行创建完成的业务模型的操作,或者,检测到用户调整建模设 计信息的操作时,更新所述第一工作流。
44.优选地,所述创建与创建完成的业务模型对应的第一工作流的步骤之后, 还包括:
45.当检测到用户新建与所述第一工作流内容相同的第二工作流的操作时,生 成所述第二工作流,所述第二工作流可编辑。
46.优选地,所述显示用户界面的步骤之后,还包括:
47.当检测到用户查看设置的数据的操作时,显示与所述数据对应的可视化信 息。
48.优选地,所述运行所述创建完成的业务模型的步骤之后,还包括:
49.当检测到用户发布运行完成的业务模型的操作时,发布所述运行完成的业 务模型。
50.优选地,所述运行所述创建完成的业务模型的步骤之后,还包括:
51.当检测到用户再评估运行完成的业务模型或发布的业务模型的操作时,对 所述运行完成的业务模型或发布的业务模型进行再评估。
52.本发明还提供一种数据分析处理系统,包括:
53.显示模块,用于显示用户界面,所述用户界面用于供用户设置用于创建业 务模型的场景和数据;
54.处理模块,用于获取用户在所述用户界面上设置的场景和/或数据;根据 获取的所述场景和/或数据,从多个模型策略中选择一模型策略,根据选择的 模型策略创建业务模型,所述模型策略至少包括以下信息:算法和所述算法的 参数调优方法。
55.优选地,所述模型策略还包括以下信息中的至少之一:所述算法的评估方 法、所述算法的参数设置方法、所述数据的拆分方法、所述数据的处理方法和 所述数据的特征选
择方法。
56.优选地,所述用户界面还用于供用户设置用于创建业务模型的目标特征。
57.优选地,所述显示模块,用于在所述用户界面上显示场景表单供用户选择; 当检测到用户选择所述场景表单中的一场景的操作时,在所述用户界面上显示 选择的场景;
58.或者
59.所述显示模块,用于在所述用户界面上显示场景输入区域;当检测到用户 在所述输入区域输入场景的操作时,获取用户输入的所述场景;将场景表单中 与用户输入的场景匹配的场景显示在所述用户界面上。
60.优选地,所述场景包括以下至少之一:对应聚类算法的场景、对应分类算 法的场景、对应回归算法的场景、对应异常检测的场景和对应语言处理的场景。
61.优选地,当所述场景为对应聚类算法的场景时,所述选择的模型策略的信 息包括:算法和所述算法的参数调优方法,所述算法包括以下至少之一:层次 聚类、贝叶斯高斯混合、kd树、受限波尔兹曼机,所述算法的参数调优方法 基于超参数优化进行,所述超参数优化的方法包括以下至少之一:随机参数搜 索方法、网格参数搜索方法、轮廓系数方法;
62.当所述场景为对应分类算法的场景时,所述选择的模型策略的信息包括: 算法和所述算法的参数调优方法,所述算法包括以下至少之一:逻辑回归、随 机森林、bagging、adaboost、神经网络、堆栈模型,所述算法的参数调优方 法基于超参数优化进行,所述超参数优化的方法包括以下至少之一:随机参数 搜索方法、网格参数搜索方法、曲线下面积auc分数方法;
63.当所述场景为对应回归算法的场景时,所述选择的模型策略的信息包括: 算法和所述算法的参数调优方法,所述算法包括以下至少之一:逻辑回归、随 机森林、支持向量回归、神经网络,所述算法的参数调优方法基于超参数优化 进行,所述超参数优化的方法包括以下至少之一:随机参数搜索方法、网格参 数搜索方法、r2值方法;
64.当所述场景为对应异常检测的场景时,所述选择的模型策略的信息包括: 算法和所述算法的参数调优方法,所述算法包括以下至少之一:神经网络、支 持向量机、稳健回归、最近邻、孤立森林;所述算法的参数调优方法基于超参 数优化进行,所述超参数优化的方法包括以下至少之一:随机参数搜索方法、 网格参数搜索方法、f1分数方法;
65.当所述场景为对应语言处理的场景时,所述选择的模型策略的信息包括: 算法和所述算法的参数调优方法,所述算法包括以下至少之一:潜在语义索引、 隐含狄利克雷分布、条件随机场;所述算法的参数调优方法包括:根据词频分 析的结果给出默认参数,使用默认参数。
66.优选地,所述显示模块,还用于显示创建完成的业务模型的建模设计信息, 所述建模设计信息至少包括:选择的模型策略的信息。
67.优选地,所述数据分析处理系统还包括:
68.第一调整模块,用于当检测到用户调整所述建模设计信息的操作时,更新 所述建模设计信息;
69.第一运行模块,用于当检测到用户执行用于运行所述创建完成的业务模型 的操作时,根据更新的所述建模设计信息,运行所述创建完成的业务模型。
70.优选地,所述数据分析处理系统还包括:
71.第二运行模块,用于当检测到用户执行运行创建完成的业务模型的操作时, 采用选择的模型策略,运行所述创建完成的业务模型。
72.优选地,所述显示模块,还用于显示运行完成的业务模型的建模成果,所 述建模成果包括以下至少之一:所述运行完成的业务模型的名称、所述运行完 成的业务模型的得分和所述运行完成的业务模型的输出结果。
73.优选地,所述建模成果还包括:所述运行完成的业务模型的模型策略的信 息、所述运行完成的业务模型的创建时间、所述运行完成的业务模型的训练信 息、所述运行完成的业务模型对应的工作流、所述运行完成的业务模型的状态 和所述数据的特征的重要性排序信息。
74.优选地,所述建模成果包括:所述选择的模型策略对应的n个运行完成 的业务模型中得分最高的前m个业务模型的信息,或者,所述选择的模型策 略对应的全部n个运行完成的业务模型的信息,m为大于或等于1的正整数, n大于或等于m的正整数。
75.优选地,所述显示模块,还用于显示运行完成的业务模型的建模设计信息, 所述建模设计信息至少包括:选择的模型策略的信息;
76.第二调整模块,用于当检测到用户调整所述建模设计信息的操作时,更新 所述建模设计信息;
77.第三运行模块,用于当检测到用户执行用于重新运行所述运行完成的业务 模型的操作时,根据更新的所述建模设计信息,重新运行所述运行完成的业务 模型。
78.优选地,所述建模设计信息还包括:场景和/或目标特征。
79.优选地,所述数据分析处理系统还包括:
80.创建模块,用于创建与创建完成的业务模型对应的第一工作流,所述第一 工作流包括多个工作流模块。
81.优选地,所述数据分析处理系统还包括:
82.更新模块,用于当检测到运行创建完成的业务模型的操作,或者,检测到 用户调整建模设计信息的操作时,更新所述第一工作流。
83.优选地,所述数据分析处理系统还包括:
84.复制模块,用于当检测到用户新建与所述第一工作流内容相同的第二工作 流的操作时,生成所述第二工作流,所述第二工作流可编辑。
85.优选地,所述数据分析处理系统还包括:
86.可视化模块,用于当检测到用户查看设置的数据的操作时,显示与所述数 据对应的可视化信息。
87.优选地,所述数据分析处理系统还包括:
88.发布模块,用于当检测到用户发布运行完成的业务模型的操作时,发布所 述运行完成的业务模型。
89.优选地,所述数据分析处理系统还包括:
90.再评估模块,用于当检测到用户再评估运行完成的业务模型或发布的业务 模型的操作时,对所述运行完成的业务模型或发布的业务模型进行再评估。
91.本发明还提供一种数据分析处理系统,包括处理器、存储器及存储在所述 存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理 器执行时实现上
述自动建模方法的步骤。
92.本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储 计算机程序,所述计算机程序被处理器执行时实现上述自动建模方法的步骤。
93.本发明的上述技术方案的有益效果如下:
94.本发明实施例中,数据分析处理系统能够根据用户设置的场景和/或数据, 自动选择模型策略,不需要用户选择模型策略,提高了数据分析处理系统的自 动化程度,提高了用户体验。
附图说明
95.图1为本发明实施例一的数据分析处理系统的自动建模方法的流程示意 图;
96.图2为本发明实施例的自动建模的用户界面的示意图;
97.图3为本发明实施例的用于查看模型策略的信息的用户界面的示意图;
98.图4为本发明实施例的建模成果列表的用户界面的示意图;
99.图5为本发明实施例的建模成果图表的用户界面的示意图;
100.图6和图7为本发明实施例的用于查看数据的用户界面的示意图;
101.图8为本发明实施例的模型仓库的用户界面的示意图;
102.图9为本发明实施例的在线模型性能以及资源使用的用户界面的示意图;
103.图10为本发明一实施例的数据分析处理系统的结构示意图;
104.图11为本发明另一实施例的数据分析处理系统的结构示意图。
具体实施方式
105.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明 实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所 描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的 本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发 明保护的范围。
106.请参考图1,图1为本发明实施例一的数据分析处理系统的自动建模方法 的流程示意图,所述自动建模方法包括:
107.步骤11:显示用户界面,所述用户界面用于供用户设置用于创建业务模 型的场景和数据;
108.请参考图2,图2为本发明实施例的数据分析处理系统的用于自动建模的 用户界面的示意图,在自动建模的用户界面上,包括“选择场景”的输入框和
ꢀ“
选择数据模块”(即数据)的输入框,用户可以在“选择场景”的输入框中 设置用于创建业务模型的场景,可以在“选择数据模块”(数据模块即用于存 储数据的模块)的输入框中,设置用于创建业务模型的数据。本发明实施例中, 优选地,显示在用户界面上的数据模块均为用户拥有选择权限的数据模块,在 显示数据模块的同时,用户界面上还可以显示数据模块的描述。
109.步骤12:获取用户在所述用户界面上设置的场景和/或数据,并根据获取 的所述场景和/或数据,从多个模型策略中选择一模型策略,根据选择的模型 策略创建业务模型,所述模型策略至少包括以下信息:算法和所述算法的参数 调优方法。
110.所谓模型策略,至少包括业务模型的算法和算法的参数调优方法,可以基 于模型
策略的信息对业务模型的算法进行训练。在本发明的一些优选实施例中, 所述模型策略还可以包括以下信息中的至少之一:算法的评估方法、算法的参 数设置方法、所述数据的拆分方法、所述数据的处理方法和所述数据的特征选 择方法。
111.可以理解的是,本发明实施例中,数据分析处理系统中需要预先存储多个 模型策略。
112.本发明实施例中,数据分析处理系统能够根据用户设置的场景和/或数据, 自动选择模型策略,不需要用户选择模型策略,提高了数据分析处理系统的自 动化程度,提高了用户体验。
113.本发明实施例中,业务模型的算法的类型可以包括以下至少之一:聚类算 法、分类算法、回归算法、异常检测和语言处理算法。对应的,所述场景可以 包括以下至少之一:对应聚类算法的场景、对应分类算法的场景、对应回归算 法的场景、对应异常检测的场景和对应语言处理的场景。
114.举例来说,对应聚类算法的场景例如可以包括:信用卡客户群(即分析信 用卡的客户有哪些类别)和网络群域(即分析网络告警日志与设备之间的关系, 基于设备对网络告警日志进行聚类)等。对应分类算法的场景例如可以包括: 客户流失预测和金融产品推荐预测等。对应回归算法的场景例如可以包括:保 险理赔额度预测和现金备付等。对应异常检测的场景例如可以包括:欺诈和异 常交易等。对应语言处理的场景例如可以包括:潜在语义分析和词频分析等。
115.本发明实施例中,用户设置的场景首先可以包括大类型,即,在用户界面 上选择是聚类算法、分类算法等,用户设置的场景也可以包括小类型,例如, 包含业务目标的场景,例如,在用户界面上选择是信用卡客户群、客户流失预 测等。当然,在本发明的其他一些实施例中,用户界面上也可以只有大类型, 或者只有小类型,本发明不做限定。
116.本发明实施例中,优选地,所述场景是指用于创建业务模型的业务场景, 场景与业务模型的算法的类型相关。
117.本发明实施例中,在选择模型策略时,可以对用户设置的场景进行分析, 得到对应的模型策略,当然,也可以对用户设置的数据的类型进行分析,得到 对应的模型策略,或者,同时分析场景和数据,得到对应的模型策略。
118.本发明实施例中,优选地,数据分析处理系统中可以存储场景和/或数据 与模型策略的对应关系,从而根据该对应关系,选择模型策略。当然,在本发 明的其他一些实施例中,也可以是存储场景和/或数据与模型策略的信息的对 应关系,数据分析处理系统可以根据场景和/或数据与模型策略的信息的对应 关系,确定模型策略。
119.本发明实施例中,场景与数据可以是互相影响的,优选地,根据不同的数 据能选择的场景不同,根据不同的场景能选择的数据不同,数据不同包括数据 的类型、数据的颗粒度、能选择的目标列等不同。
120.在本发明的一些实施例中,所述显示用户界面的步骤可以包括:
121.步骤111:在所述用户界面上显示场景表单供用户选择。
122.步骤112:当检测到用户选择所述场景表单中的一场景的操作时,在所述 用户界面上显示选择的场景;
123.在本发明的其他一些实施例中,所述显示用户界面的步骤还可以包括:
124.步骤111’:在所述用户界面上显示场景输入区域;所述场景输入区域可 以是文本输入框,也可以是语音输入按键;
125.步骤112’:当检测到用户在所述输入区域输入场景的操作时,获取用户 输入的所述场景;
126.步骤113’:将场景表单中与用户输入的场景匹配的场景显示在所述用户 界面上。
127.具体的,数据分析处理系统可以对输入区域内输入的场景进行语义理解, 自动识别场景,并从场景表单中确定与识别的场景匹配的场景。
128.可以了解的是,数据分析处理系统中需要存储所述场景表单,所述场景表 单中具有至少一个(通常多于一个,例如为80个)场景。
129.请参考图2,本发明实施例中,除了设置场景和数据之外,用户还可以选 择设置目标特征(即图2中的目标列),并根据目标特征确定模型策略。例如 客户流失预测中的目标列为是否流失标签列。本发明实施例中,目标列可以选 择一列。当然,也可以是多列。
130.即,所述用户界面还用于供用户设置用于创建业务模型的目标特征。
131.优选地,所述获取用户在所述用户界面上设置的场景和/或数据,并根据 获取的所述场景和/或数据,从多个模型策略中选择一模型策略的步骤包括: 获取用户在所述用户界面上设置的场景、数据和/或目标特征,并根据获取的 所述场景、数据和/或目标特征,从多个模型策略中选择一模型策略。
132.也就是说,目标特征的作用可以用来选择模型策略,另外,目标特征还可 以在训练业务模型的过程中使用,例如,算法评估时使用。
133.另外,请参考图2,在自动建模的用户界面上,用户还可以设置业务模型 的名称(即图2中的自动建模名称),同时,用户还可以设置业务模型的描述 和业务模型的标签等。
134.下面举例对场景、数据、目标特征与模型策略的对应关系进行说明。
135.①
对应聚类算法的场景:信用卡客户群(信用卡的客户有哪些类别)、网 络群域(网络告警日志与设备之间的关系,基于设备对网络告警日志进行聚类) 等。
136.场景-信用卡客户群、数据-信用卡客户信息(例如某银行固定周期(例如 1年)内信用卡客户信息)。
137.模型策略1:数据处理:数据清洗和/或数据标准化;特征工程:通过主成 分分析进行特征选择;算法(基于聚类空间的空间特征进行选择),算法包括 以下至少之一:层次聚类、贝叶斯高斯混合、kdtree(k-d树)和受限波尔 兹曼机;算法的参数调优方法基于超参数优化进行,所述超参数优化的方法包 括以下至少之一:随机参数搜索方法、网格参数搜索方法和轮廓系数方法(例 如聚成几类),具体的,基于随机参数搜索方法和/或网格参数搜索方法选择超 参数,例如,基于随机参数搜索方法和/或网格参数搜索方法从参数列表中选 择一组最优超参数,其中采用轮廓系数作为超参数的评价指标;评估:基于 silhouette(轮廓)系数、homogeneity(同质性)、completeness(完整性)和/或 v-measure进行算法评估。每一个算法都做相同的评估,每一个算法结果都保 留,结合信用卡业务进行进一步分析。
138.②
对应分类算法的场景:客户流失预测、金融产品推荐预测等。
139.场景-客户流失预测、数据-客户信息(例如某银行固定周期(例如1年) 内客户信息)、目标列-流失/非流失。
140.模型策略2:数据处理:数据清洗和/或数据标准化;特征工程:通过卡方 检验、皮尔森相关系数法、极端树特征选择法和/或递归特征消除法等进行特 征选择;算法包括以下至少之一(基于不同算法的特性,每一种特性下都选择 一些算法):逻辑回归、随机森林、bagging、adaboost、神经网络和堆栈模型; 算法的参数调优方法基于超参数优化进行,所述超参数优化的方法包括以下至 少之一:随机参数搜索方法、网格参数搜索方法和曲线下面积(area under thecurve,auc)分数方法,具体的,基于随机参数搜索方法和/或网格参数搜索 方法选择超参数,例如,基于随机参数搜索方法和/或网格参数搜索方法从参 数列表中选择一组最优超参数,其中采用auc分数作为超参数的评价指标; 评估:基于auc分数、准确率、精确率、召回率、f1分数和/或对数损失进 行算法评估。每一个算法都做相同的评估,选出最优算法,输出各客户流失预 测概率值。
141.③
对应回归算法的场景:保险理赔额度预测、现金备付等。
142.场景-保险理赔额度预测、数据-某保险公司客户信息(例如某银行固定周 期(例如1年)内客户信息)、目标列-理赔额度。
143.模型策略3:数据处理:数据清洗和/或数据标准化;特征工程:通过卡方 检验、皮尔森相关系数法、极端树特征选择法和/或递归特征消除法等进行特 征选择;算法包括以下至少之一(基于不同算法的特性,每一种特性下都选择 一些算法):逻辑回归、随机森林、支持向量回归(support vector regression, svr)和神经网络;算法的参数调优方法基于超参数优化进行,所述超参数优 化的方法包括以下至少之一:随机参数搜索方法、网格参数搜索方法和r2值 方法,具体的,基于随机参数搜索方法和/或网格参数搜索方法选择超参数, 例如,基于随机参数搜索方法和/或网格参数搜索方法从参数列表中选择一组 最优超参数,其中采用r2值作为超参数的评价指标;评估:基于解释方差评 分、平均绝对偏差、均方误差、r2值、中位数绝对误差和/或均方对数误差进 行算法评估。每一个算法都做相同的评估,选出最优算法,输出保险理赔额度 预测值。
144.④
对应异常检测场景,更具体的,例如欺诈、异常交易等。
145.场景-异常检测、数据-某行业交易信息(例如某行业固定周期内交易信息)、 可以给出目标列-异常/非异常。
146.模型策略4:数据处理:数据清洗和/或数据标准化;特征工程:特征不平 衡性处理(一般采用所有特征,并进行特征不平衡性处理);算法包括以下至 少之一(针对异常检测选择一些算法):神经网络、支持向量机、稳健回归、 最近邻和isolation forest(孤立森林);所述算法的参数调优方法基于超参数优 化进行,所述超参数优化的方法包括以下至少之一:随机参数搜索方法、网格 参数搜索方法和f1分数方法,具体的,基于随机参数搜索和/或网格参数搜索 方法选择超参数,例如,基于随机参数搜索方法和/或网格参数搜索方法从参 数列表中选择一组最优超参数,其中采用f1分数作为超参数的评价指标;评 估:基于auc分数、准确率、精确率、召回率、f1分数和/或对数损失进行 算法评估。每一个算法都做相同的评估,选出最优算法,输出交易的异常预测 概率值。
147.⑤
对应语言处理场景,更具体的,例如潜在语义分析、词频分析等。
148.场景-潜在语义分析、数据-相应文本信息(例如,摘要信息、日志信息、 搜索词)。
149.模型策略5:数据处理:分词处理和/或词频分析;算法包括以下至少之一 (针对语言处理选择一些算法):潜在语义索引、隐含狄利克雷分布和条件随 机场;算法的参数调优
方法包括:根据词频分析的结果给出默认参数,使用默 认参数;进一步进行聚类:算法:采用局部线性嵌入、谱嵌入、多维尺度分析、 局部空间排列中的至少之一进行降维(基于流型空间的空间特征进行选择), 然后使用k-means聚类。结合具体业务进行进一步分析。
150.本发明实施例中,优选地,所述根据选择的模型策略创建业务模型的步骤 之后,还可以包括:显示创建完成的业务模型的建模设计信息,所述建模设计 信息至少包括:选择的模型策略的信息。从而使得用户可以查看选择的模型策 略的信息。所述建模设计信息还可以包括:目标特征和\或场景。
151.本发明实施例中,优选地,所述显示创建完成的业务模型的建模设计信息 的步骤之后,还可以包括:
152.当检测到用户调整所述建模设计信息的操作时,更新所述建模设计信息;
153.当检测到用户执行用于运行所述创建完成的业务模型的操作时,根据更新 的所述建模设计信息,运行创建完成的业务模型。
154.也就是说,用户可以自定义建模设计信息的内容,从而提高了用户体验。
155.所谓运行创建完成的业务模型,至少包括:对创建完成的业务模型的算法 进行训练,当然,还可以包括:对数据进行拆分,对数据进行数据处理,和/ 或,对数据的特征进行选择等。
156.本发明实施例中,优选地,所述根据选择的模型策略创建业务模型的步骤 之后,还可以包括:当检测到用户执行用于运行创建完成的业务模型的操作时, 采用选择的模型策略,运行创建完成的业务模型。
157.请参考图2,在图2所示的用户界面上,用户设置完用于创建业务模型的 场景和数据等之后,用户可以点击“新建”按键,显示创建完成的业务模型的 建模设计信息。例如,可以查看模型策略中的数据处理方法、算法、算法的参 数和/或评估方法等。或者,点击“训练”按键时,采用选择的模型策略,创 建业务模型,并运行业务模型。也就是说,用户只要点击“训练”按键,数据 分析处理系统就能够根据自动选择的模型策略创建业务模型,并运行创建完成 的业务模型,不需要用户选择模型策略,简化了训练过程,提高了数据分析处 理系统的自动化程度,提高了用户体验。
158.本发明实施例中,用户点击“新建”后,显示的用户界面可以如图3所示, 该用户界面下显示的创建完成的业务模型的建模设计信息包括:基本信息、特 征、建模和评估,其中基本信息包括目标和训练/测试集,目标包括:场景和 目标列,训练/测试集是通过对数据进行拆分和/或抽样等方法形成,建模包括 算法和参数。
159.本发明实施例中,所述运行创建完成的业务模型的步骤之后,还包括:显 示运行完成的业务模型的建模设计信息。也就是说,运行完业务模型之后,还 可以查看运行完成的业务模型的建模设计信息。
160.本发明实施例中,所述显示运行完成的业务模型的建模设计信息的步骤之 后,还可以包括:当检测到用户调整所述建模设计信息的操作时,更新所述建 模设计信息;当检测到用户执行用于重新运行所述运行完成的业务模型的操作 时,根据更新的所述建模设计信息,重新运行所述运行完成的业务模型。
161.所述建模设计信息包括:所述运行完成的业务模型的模型策略的信息,还 可以包括场景和/或目标特征。也就是说,本发明实施例中,可以在业务模型 训练完成之后,查看
或调整述建模设计信息,例如调整业务模型的模型策略、 目标特征和/或场景等,除了数据之外,其他信息皆可调整,并重新运行调整 后的业务模型。
162.本发明实施例中,所述运行所述创建完成的业务模型的步骤之后,还包括: 显示运行完成的业务模型的建模成果,所述建模成果可以包括以下至少之一: 运行完成的业务模型的名称、运行完成的业务模型的得分、运行完成的业务模 型的输出结果等信息,所述输出结果例如可以是客户是否流失预测的预测结果。 业务模型的名称例如可以是算法名称+时间戳。
163.在本发明的一些优选实施例中,所述建模成果还可以包括:所述运行完成 的业务模型的模型策略的信息、所述运行完成的业务模型的创建时间、所述运 行完成的业务模型的训练信息(如训练时长)、所述运行完成的业务模型对应 的工作流(也称为任务,下面内容中会对工作流进行说明)、所述运行完成的 业务模型的状态(例如成功、失败等)和所述数据的特征的重要性排序信息。
164.本发明实施例中,一个模型策略中,可以包括多个算法,从而运行创建完 成的业务模型之后,可以得到多个业务模型的信息。因此,所述建模成果可以 包括:所述选择的模型策略对应的n个运行完成的业务模型中得分最高的前 m个业务模型的信息,或者,所述选择的模型策略对应的全部n个运行完成 的业务模型的建模成果,m为大于或等于1的正整数,n为大于或等于m的 正整数。也就是说,一个模型策略可以包括多个业务模型,运行完成后,可以 显示部分或全部业务模型的信息。
165.本发明实施例中,可以通过建模成果图表或者建模成果列表显示运行完成 的业务模型的建模成果,其中,建模成果图表可以看到一次自动建模的各不同 训练的不同业务模型结果比较,方便看每次训练里面较优的业务模型。建模成 果列表可以看到一次自动建模的所有业务模型结果比较,包括不同训练对应的 各业务模型,可以全部进行排序,方便看所有的训练里面较优的业务模型。
166.请参考图4,图4为本发明一实施例中的运行完成的业务模型的建模成果 列表的用户界面的示意图,该建模成果列表的用户界面显示全部模型列表,默 认按时间倒序显示。
167.显示字段名如下:
168.·
复选框:仅发布成功状态,可被勾选;勾选后底部【模型评估】按钮变为 可用;
169.·
模型名称:显示具体名称(自动建模以模型名称+时间戳命名,工作流以 来源分析模块的输出名称来命名;)以及来源(以来源分析模块来命名);显 示放入仓库的状态(笑脸),支持排序,状态为成功的,点击名称可进入该【模 型成果详情】页;
170.·
归属:显示该模型所属的任务名称。点击在新窗口进入【任务详情】页, 支持排序;
171.·
创建人:显示创建人信息,支持排序;
172.·
创建时间:日期+时间,支持排序;
173.·
状态:成功,失败,加载中,
‑‑
(代表没有找到评估方法);
174.·
训练时间:显示训练时长*h*m*s,如果不需要大单位时,则不显示如59s; ·
评分指标:可通过表格配置,默认最多同时显示6项;
175.操作:
176.·
查看结果(眼睛)点击进入【模型成果详情页】,成功状态才显示【查看 结果】按钮;
177.查看日志(书签),点击弹出【日志详情】弹窗,全部状态显示【查看日 志】按钮。
178.请参考图5,图5本发明实施例的运行完成的业务模型的建模成果图表的 用户界面的示意图。
179.该用户界面右侧内容
‑‑
任务模型展示区包括:
180.该用户界面显示左侧选中任务的全部模型列表。
181.任务可视化展示区:显示该任务下全部模型可视化信息,包含模型算法参 数、特征重要性、训练信息等。可以线(曲线、折线等)图形态展示全部模型 训练内容,鼠标悬浮节点,可展示更多信息。
182.模型展示区:展示该模型颜色标识,模型名称,状态标识,入库状态,冠 军标识,具体评分,开始时间,操作项,可视化图表;鼠标悬浮表格区域时, 切换为选中状态,并与左侧任务模型列表选中状态一一对应;
183.·
颜色标识:模型名称前面的颜色标识与右侧【任务模型可视化评分】中的 线形图保持一致,最多分配13种不同的颜色(支持算法的上限)。
184.·
模型名称:显示其具体名称,悬浮完整显示;发布成功后点击模型名称, 在当前页面进入该【模型详情】页;当模型失败时,模型名称变为红色,不 可被点击;当模型加载中时,选中后不可被点击,当模型没有评估模块时,模 型名称变为红色,选中后不可被点击。
185.·
标识状态:加载中,发布成功(不显示图标),失败(不显示图标,名称 变红),没有找到评估方法(不显示图标,名称变红,仅限工作流中的评估对 比)。
186.·
入库标识:模型被更新至仓库中,则显示更新到仓库的标识(图中笑脸)。 ·
冠军标识:该任务中,评分较好的的模型前面显示冠军标识(图中奖杯)。 (受评分筛选栏影响,根据评分筛选的内容不同,分值也会变化)。
187.·
具体评分:显示分值情况最多三位小数点(受评分筛选栏影响,根据评 分筛选的内容不同,分值也会变化)。
188.·
开始时间:显示任务开始时间,日期+时间。
189.操作项:
190.查看结果(眼睛)点击进入【模型成果详情页】,成功状态才显示【查看 结果】按钮。
191.查看日志(书签),点击弹出【日志详情】弹窗,全部状态显示【查看日 志】按钮。
192.该用户界面左侧内容
‑‑
任务模型列表包括:
193.1、显示全部自动建模(工作流)训练所产生的任务列表,下拉加载;
194.2、任务列表默认以时间倒序进行上下排序;
195.3、点击具体【任务名称】名称,在新窗口打开该【任务详情】页;
196.4、任务可以被删除,删除弹出二次确认提示,删除成功后,清空该任务 中所产生的全部模型内容,同时一并删除任务列表中的关联的任务(同理删除 任务,也一并删除关联自动建模内容)不影响模型仓库中的内容;
197.5、一个任务可能包含多个模型,显示其颜色标识,模型名称,状态标识, 入库状态,冠军标识,具体评分;
198.·
颜色标识:模型名称前面的颜色标识与右侧【任务模型可视化评分】中的 线形
图保持一致,最多分配13种不同的颜色(支持算法的上限);
199.模型名称:自动建模以模型名称+时间戳命名,工作流以分析模块的输出 名称来命名;显示其具体名称,悬浮完整显示;点击模型名称所在行,该行为 选中状态,右侧内容切换为当前任务展示区,并滑动到该模型展示位置,当前 行选中状态且发布成功后,模型名称可被点击,点击后在当前页面进入该【模 型详情】页;当模型失败时,模型名称变为红色,选中后不可被点击;当模型 加载中时,选中后不可被点击;当模型没有评估模块时,模型名称变为红色, 选中后不可被点击;
200.标识状态:加载中,发布成功(不显示图标),失败(不显示图标,名称 变红),没有结果(不显示图标,名称变红);
201.·
入库标识:模型被更新至仓库中,则显示更新到仓库的标识(例如图中笑 脸);
202.·
冠军标识:该任务中,评分较好的的模型前面显示冠军标识(例如图中奖 杯)(受评分筛选栏影响,根据评分筛选的内容不同,分值也会变化);
203.·
具体评分:显示分值情况最多三位小数点(受评分筛选栏影响,根据评分 筛选的内容不同,分值也会变化)。
204.模型评估置于列表底部,选中某项或多项,方可使用,点击按钮在当前页 面弹出【模型评估】提示窗(仅发布成功状态的复选框可被勾选)。
205.上述建模成果图表与建模成果列表对应的实质内容(模型结果比较)是一 样的。图表可以更好的表现同一训练(例如任务001或任务002)生成模型的 优劣情况,列表可以更好的表现出不同训练(所有训练)生成模型的优劣情况。
206.所述训练一般是迭代运行算法模型即不止一次运行算法模型(所述超参数 可包含迭代次数)。
207.本发明实施例中,还可以提供历史建模成果的用户界面,从而方便用户查 看历史建模成果。
208.本发明实施例中,所述自动建模方法还可以包括:创建与创建完成的业务 模型对应的第一工作流,所述第一工作流包括多个工作流模块,工作流模块之 间可以具有连接关系,具有连接关系的两工作流模块中,一个工作流模块的输 出作为另一个工作流模块的输入。举例来说,所述工作流模块可以包括一数据 模块,该数据模块对应用户设置的数据,所述工作流模块还可以包括一分析模 块,对应模型策略中的算法。该第一工作流不可编辑和修改,只能查看。也就 是说,在自动建模时,数据分析处理系统的底层同时创建一个任务(即第一工 作流),同时可以自动生成任务的名称,例如模型名称+时间戳,第一工作流的 用户功能权限与自动建模的用户功能权限保持一致。
209.本发明实施例中,所述创建与所述创建完成的业务模型对应的第一工作流 的步骤之后,还包括:当检测到运行创建完成的业务模型的操作,或者,检测 到用户调整建模设计信息的操作时,更新所述第一工作流。
210.也就是说,上述实施例中,创建自动建模的同时,会自动创建一个第一工 作流,每次模型的运行都在该第一工作流进行,并且每次进行模型运行时会相 应升级第一工作流的版本;自动建模运行时,也就是工作流运行时。当检测到 用户调整建模设计信息的操作时,更新所述建模设计信息,根据更新的所述建 模设计信息,更新所述第一工作流。
211.本发明实施例中,所述创建与所述创建完成的业务模型对应的工作流的步 骤之
后,还包括:当检测到用户新建与所述第一工作流内容相同的第二工作流 的操作时,生成所述第二工作流。该新建的第二工作流可以进行查看、修改、 编辑等操作,从而可对自动建模的模型进一步的修改及进行复杂场景的设计。
212.本发明实施例中,可以通过生成数据应用的用户界面新建工作流即新建与 所述第一工作流内容相同的第二工作流,具体的包括以下步骤:
213.1、生成一个新的数据应用(即工作流);在建模成果界面(建模成果图表 和建模成果列表)包含【生成数据应用】按键,可通过建模成果展示部分复制 当前的工作流。
214.2、设置数据应用名称;
215.3、描述,默认显示原自动建模内容;
216.4、标签,默认显示原自动建模内容。
217.本发明实施例中,请参考图6和图7,所述显示用户界面的步骤包括:当 检测到用户查看设置的数据的操作时,显示与所述数据对应的可视化信息。也 就是说,当用户设置完数据之后,还可以对设置的数据信息预览,所述可视化 信息例如可以是表格或图表等,从而方便用户筛选数据。本发明实施例中,数 据内容分为数值(整型,浮点型)型,和其它非数值型的值,可以将数值型、 非数值型分别进行展示。
218.上述实施例中提到,在模型训练之前,或者训练之后,均可以显示模型策 略的信息,供用户查看或修改,下面对显示模型策略的信息的用户界面进行说 明。
219.(一)训练集和测试集的用户界面
220.本发明实施例中,在进行模型训练时,需要训练集和测试集,默认采用 的获得训练集和测试集方法为:拆分当前数据,获得训练集和测试集的方法还 可以是:拆分另一个数据、从数据中提取训练和测试数据、从两个数据中提取 训练和测试数据、从其他数据中提取训练和测试数据。
221.本发明实施例中,得到训练业务模型的训练集和测试集的方法可以包括 抽样和拆分,抽样方法可以包括:1)不抽样,使用所有数据;2)原始记录; 3)随机选取x%行;4)随机选取n行;5)类平衡n行;6)类平衡x% 行等。拆分方法可以包括:1)随机拆分;2)启动k-折交叉验证;3)numberof folds(启用)/训练数据的比例(不启用);4)随机种子。
222.(二)设置及选择特征工程的用户界面,包括数据处理及特征选择
223.(1)数据处理
224.1:基于类别的数据处理,包括:类别处理,缺失值。可选择的类别处理 方法包括:哑编码向量;可选择的缺失值处理方法包括按数值处理、填充、删 除行等。
225.2:基于数值的数据处理,包括:数值处理,缺失值。可选择的数值处理 方法包括:标准数值特征(keep as a regular numerical feature)、基于给定值的 二值化、分箱等;可选择的缺失值处理方法包括填充、删除行等。
226.3:基于文本的数据处理,可选择的处理方法包括:分词处理、词频分析
227.(2)特征选择包括:
228.可选的特征选择方法包括:互信息、卡方检验、f检验、皮尔森相关系数 法、递归特征消除法、特征模型消除法等;进一步的,还可以包括特征正交化、 特征的主成分分析、矩阵分解等。基于用户选择的方法,系统自动进行特征选 择。
229.后续可再基于自动建模后的模型计算出的特征重要性,再次进行特征选择。
230.具体的,用户也可以直接自定义选择特征:
231.1:根据不同的列的数据类型,不同的变量类型(即特征)进行区别展示 特征(例如分为类别和数值);
232.2:支持以数据(按照数据报表显示字段名的前后顺序),名称(按照字段 名名称a-z 0-9),类型(先类别,再数字),角色(先目标列,再开启列,后关 闭列)进行列表顺序排序;开启的列指:被选择的特征;关闭的列指:没有被 选择的特征。
233.3:数据列支持多选、一键全选、一键清除多选;
234.4:支持搜索;
235.5:离开页面再次进去,保留上次操作痕迹;
236.6:目标列与普通列有明显区分;
237.(三)设置及选择算法及参数的用户界面
238.(1)算法
239.1:所有算法可显示算法简介;
240.2:第一次操作算法,有默认值的显示默认值,非第一次,保留上次操作 记录,开启关闭按钮不影响此操作;
241.3:算法对应的按钮为关闭时,不可对算法的任意参数进行调整,有明显 的显示区分;
242.算法包括:(1)聚类:k-means、近邻传播、均值偏移、谱聚类、层次 聚类、密度噪声、平衡迭代层次聚类等;(2)分类:随机森林、梯度渐进树、 xgboost、决策树、临近算法(knn)、额外随机数、神经网络、逻辑回归、 支持向量机、随机梯度下降等;(3)回归:随机森林、梯度渐进树、岭回归、 套索回归、xgboost、决策树、临近算法(knn)、额外随机数、神经网络、 套索路径、逻辑回归、支持向量机、随机梯度下降等。
243.(2)参数的用户界面
244.超参数设置:
245.1:搜索超参数
246.1)随机网格搜速
247.·
是否打乱原有顺序
248.2)最大迭代次数,
249.3)最大搜索时间,只能为正整数和浮点型
250.4)并发数,只能为正整数和-1
251.其中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到 的参数数据。通常情况下,需要对超参数进行优化,选择一组最优超参数,以 提高学习的性能和效果。
252.进一步的,系统提供超参数的自动调优,可选择的调优方法包括:(1)聚 类:轮廓系数、silhouette系数、homogeneity(同质性)、completeness(完整性)、 v-measure等;(2)分类:auc分数、准确率、精确率、召回率、f1分数、 对数损失等;(3)回归:r2值、解释差异分值、均值误差、均方误差、均方 根误差、均方根对数误差、绝对均值误差等。一般只能选一个。
253.注:默认超参数为:"randomized":true;"njobs":1;"mode":"k-fold"; "
nfolds":5。
254.超参数用户界面中包含交叉验证用户界面设置
255.1:交叉验证
256.1)传统方式拆分训练集/验证集默认支持输入拆分比例
257.只能为正整数和浮点型,默认为0.8
258.2)k-fold默认支持折叠数量,只能为正整数,默认值为0
259.具体的,可以是先将数据拆分成训练集和测试集(参见训练集和测试集 的用户界面设置);交叉验证部分再把训练集拆分成训练集和验证集。其中, 验证集用于交叉验证,测试集用于后续的评估。
260.注:通常并不会把所有的数据都拿来训练,而是分出一部分来(即验证集, 这一部分不参加训练)对训练集生成的参数进行测试,相对客观的判断这些参 数对训练集之外的数据的符合程度。这种思想就称为交叉验证(crossvalidation)。
261.(四)设置及选择评估方法的用户界面
262.评估方法的用户界面
263.1:根据不同类别的算法有不同的模型评估方法,单选,或以其中一种为 评分的核心标准,同时也会显示其他与之相关的评估指标
264.评估方法包括:解释方差评分、平均绝对偏差、均方误差、r2评分、中 位数绝对误差、均方对数误差、f1值、准确率、精确率、召回率、auc分数、 对数损失、成本矩阵、累计提升度、fbeta评分、轮廓系数、homogeneity(同 质性)、completeness(完整性)、v-measure等。其中,对应聚类算法的评估方法 包括:轮廓系数、homogeneity(同质性)、completeness(完整性)、v-measure; 对应多分类算法的评估方法包括:f1值、准确率、精确率、召回率、auc分 数、对数损失、fbeta评分;对应二分类算法的评估方法包括:f1值、准确率、 精确率、召回率、auc分数、对数损失、成本矩阵、累计提升度、fbeta评分; 对应回归算法的评估方法包括:解释方差评分、平均绝对偏差、均方误差、 r2值、中位数绝对误差、均方对数误差。
265.注:默认评估方法分别是:二分类:auc分数,多分类:准确率,回归: r2值
266.调整上述任何一个环节后,都可以进行保存,及点击“训练”,然后查看 结果,并进行保存。用户可以保存自定义的模型策略,用于下次使用或提供给 其他用户使用。
267.本发明实施例中,当训练完成模型之后,还可以发布模型,模型达到一定 的标准才能发布到仓库,进行上线等,即满足一定评分指标(评估标准)的内 容才能发布到仓库,进行上线操作。上述模型指自动建模的模型或生成数据应 用新建的模型。只有发布到模型仓库中的模型,才能进行模型的上线,对比与 迭代。
268.发布到仓库的用户界面可以包括:
269.1、点击【发布到仓库】按钮,在当前页面弹出【发布到模型仓库】弹窗;
270.2、弹窗包含以下内容:名称、描述、标签;
271.·
满足条件:选择下拉框:备选全部模型支持的评估方法;选择条件下拉框: 大于等于,小于等于;输入框:大于等于0的数字型,例如用auc分数,则 选择条件下拉框:大于等于,小于等于,设置值。
272.·
自动更新:开启或不开启:开启后,将满足条件的模型且还未成功放入仓 库的模型,更新到模型仓库中;自动更新时间间隔默认为24小时;
273.提交,点击按钮,弹出更新进度提示框,可查看所有符合条件模型更新进 度;
274.提交后,【发布到仓库】按钮样式,变更为【已发布到仓库】以及配置。 模型仓库请参见附图8,点击“在线模型监控”可查看在线模型性能以及资源 使用情况。在线模型性能以及资源使用查看参见图9。
275.请参考图8,可以显示全部已在线的模型列表,默认按上线时间倒序排列。 列表显示如下字段:在线模型名称,当前容器、cpu、mem、gpu使用实时 情况,一定时间范围内(可配置具体时长,几小时或几天内)平均/最小/最大 响应时长,调用次数以及成功率。
276.点击在线模型名称或操作中的“模型详情”按钮,可进入模型成果详情页, 可浏览到该模型具体信息。点击调用次数,进入具体调用详情页面。
277.调用详情页面中,可以显示一定范围内,调用次数详情。通过国内地图可 视化的方式,显示全国各省份的调用情况(不同颜色代表不同程度的调用次数), 鼠标悬浮具体省份,显示详情包含具体省份名称,排名,调用次数以及占比明 细;也可通过详情列表,查看每次调用明细,包含调用时间,响应时长,调用 类型,调用方式,访问状态,省份以及来源。
278.发布的模型成果列表及详情还可以包括以下内容:
279.1、已发布到模型仓库的需要通过审核机制,才能够进行模型上线操作;
280.2、支持从本地导入(可批量)模型,并展示所有的建模成果列表;
281.3、支持批量对模型进行再评估,并可查看评估结果;
282.4、支持模型迭代上线,部署成功的模型可将顶替已上线的模型(每个模 型里面只能有一个在线的模型,默认最多三个部署成功的模型在等待上线,所 以对于部署和上限的模型,都需顶替掉现有名额),成为在线模型;
283.5、模型进行上线时会检测模型是否进行了特征值配置,资源配置以及调 试方式配置,如果没有则进入资源配置模式,进行相关的配置,如果有则跳过;
284.6、点击模型成果列表可以查看模型的基本信息(名称,算法类型,训练 时间,训练时长列行,配置新,包括归属的数据应用分析模块);
285.7、展示模型的api接口信息及apikey,可以进行rest,消息队列,文件 系统nfs三种调试模式进行调试接口,但是只有上线了的模型才能够进行接 口调用;
286.8、可查看特征值配置,资源值配置和调试方式配置信息;
287.9、特征变量的重要性展示及模型评估指标的各个参数信息展示;
288.10、关于性能的roc曲线,混淆矩阵的模型评估结果更直观的图表展示 信息;
289.11、模型的算法参数信息,训练数据信息以及训练详细信息的展示。
290.发布的模型成果列表不同于建模的成果列表,发布的模型成果列表包含性 能(模型上线之后的情况,调用是否成功、资源情况等)。
291.本发明实施例中,还可以提供模型再评估的用户界面,该用户界面下,能 执行:
292.1、选择评估标注:备选项,全部评估标准;
293.2、选择数据,显示拥有权限(可读取)的所有数据模块名称以及描述, 按字母a-z,0-9顺序上下排序;点击【预览】,在当前页面弹出【数据预览】 页面;支持用名称以及描述关键字进行筛选;
294.3、点击【提交】,对已选的评估方法和数据,进行再评估,弹出评估成果 列表。
295.自动建模生成的模型、发布的模型均可以进行模型再评估。模型再评估, 使用新
的数据进行评估,如果评估结果不满足当前业务需求,则重新进行建模 设计、模型训练等。
296.请参考图10,本发明实施例还提供一种数据分析处理系统,包括:
297.显示模块1101,用于显示用户界面,所述用户界面用于供用户设置用于 创建业务模型的场景和数据;
298.处理模块1102,用于获取用户在所述用户界面上设置的场景和/或数据; 根据获取的所述场景和/或数据,从多个模型策略中选择一模型策略,根据选 择的模型策略创建业务模型,所述模型策略至少包括以下信息:算法和所述算 法的参数调优方法。
299.优选地,所述模型策略还包括以下信息中的至少之一:所述算法的评估方 法、所述算法的参数设置方法、所述数据的拆分方法、所述数据的处理方法和 所述数据的特征选择方法。
300.优选地,所述用户界面还用于供用户设置用于创建业务模型的目标特征。
301.优选地,所述显示模块1101,用于在所述用户界面上显示场景表单供用 户选择;当检测到用户选择所述场景表单中的一场景的操作时,在所述用户界 面上显示选择的场景;
302.或者
303.所述显示模块1101,用于在所述用户界面上显示场景输入区域;当检测 到用户在所述输入区域输入场景的操作时,获取用户输入的所述场景;将场景 表单中与用户输入的场景匹配的场景显示在所述用户界面上。
304.优选地,所述场景包括以下至少之一:对应聚类算法的场景、对应分类算 法的场景、对应回归算法的场景、对应异常检测的场景和对应语言处理的场景。
305.优选地,当所述场景为对应聚类算法的场景时,所述选择的模型策略的信 息包括:算法和所述算法的参数调优方法,所述算法包括以下至少之一:层次 聚类、贝叶斯高斯混合、kd树、受限波尔兹曼机,所述算法的参数调优方法 基于超参数优化进行,所述超参数优化的方法包括以下至少之一:随机参数搜 索方法、网格参数搜索方法、轮廓系数方法;
306.当所述场景为对应分类算法的场景时,所述选择的模型策略的信息包括: 算法和所述算法的参数调优方法,所述算法包括以下至少之一:逻辑回归、随 机森林、bagging、adaboost、神经网络、堆栈模型,所述算法的参数调优方 法基于超参数优化进行,所述超参数优化的方法包括以下至少之一:随机参数 搜索方法、网格参数搜索方法、曲线下面积auc分数方法;
307.当所述场景为对应回归算法的场景时,所述选择的模型策略的信息包括: 算法和所述算法的参数调优方法,所述算法包括以下至少之一:逻辑回归、随 机森林、支持向量回归、神经网络,所述算法的参数调优方法基于超参数优化 进行,所述超参数优化的方法包括以下至少之一:随机参数搜索方法、网格参 数搜索方法、r2值方法;
308.当所述场景为对应异常检测的场景时,所述选择的模型策略的信息包括: 算法和所述算法的参数调优方法,所述算法包括以下至少之一:神经网络、支 持向量机、稳健回归、最近邻、孤立森林;所述算法的参数调优方法基于超参 数优化进行,所述超参数优化的方法包括以下至少之一:随机参数搜索方法、 网格参数搜索方法、f1分数方法;
309.当所述场景为对应语言处理的场景时,所述选择的模型策略的信息包括: 算法和所述算法的参数调优方法,所述算法包括以下至少之一:潜在语义索引、 隐含狄利克雷分
布、条件随机场;所述算法的参数调优方法包括:根据词频分 析的结果给出默认参数,使用默认参数。
310.优选地,所述显示模块,还用于显示创建完成的业务模型的建模设计信息, 所述建模设计信息至少包括:选择的模型策略的信息。
311.优选地,所述数据分析处理系统还包括:
312.第一调整模块,用于当检测到用户调整所述建模设计信息的操作时,更新 所述建模设计信息;
313.第一运行模块,用于当检测到用户执行用于运行所述创建完成的业务模型 的操作时,根据更新的所述建模设计信息,运行所述创建完成的业务模型。
314.优选地,所述数据分析处理系统还包括:
315.第二运行模块,用于当检测到用户执行运行创建完成的业务模型的操作时, 采用选择的模型策略,运行所述创建完成的业务模型。
316.优选地,
317.所述显示模块,还用于显示运行完成的业务模型的建模成果,所述建模成 果包括以下至少之一:所述运行完成的业务模型的名称、所述运行完成的业务 模型的得分和所述运行完成的业务模型的输出结果。
318.优选地,所述建模成果还包括:所述运行完成的业务模型的模型策略的信 息、所述运行完成的业务模型的创建时间、所述运行完成的业务模型的训练信 息、所述运行完成的业务模型对应的工作流、所述运行完成的业务模型的状态 和所述数据的特征的重要性排序信息。
319.优选地,所述建模成果包括:所述选择的模型策略对应的n个运行完成 的业务模型中得分最高的前m个业务模型的信息,或者,所述选择的模型策 略对应的全部n个运行完成的业务模型的信息,m为大于或等于1的正整数, n为大于或等于m的正整数。
320.优选地,所述显示模块,还用于显示运行完成的业务模型的建模设计信息, 所述建模设计信息至少包括:选择的模型策略的信息。
321.优选地,所述数据分析处理系统还包括:
322.第二调整模块,用于当检测到用户调整所述建模设计信息的操作时,更新 所述建模设计信息;
323.第三运行模块,用于当检测到用户执行用于重新运行所述运行完成的业务 模型的操作时,根据更新的所述建模设计信息,重新运行所述运行完成的业务 模型。
324.优选地,所述建模设计信息还包括:场景和/或目标特征。
325.优选地,所述数据分析处理系统还包括:
326.创建模块,用于创建与创建完成的业务模型对应的第一工作流,所述第一 工作流包括多个工作流模块。
327.优选地,所述数据分析处理系统还包括:
328.更新模块,用于当检测到运行创建完成的业务模型的操作,或者,检测到 用户调整建模设计信息的操作时,更新所述第一工作流。
329.优选地,所述数据分析处理系统还包括:
330.复制模块,用于当检测到用户新建与所述第一工作流内容相同的第二工作 流的
操作时,生成所述第二工作流,所述第二工作流可编辑。
331.优选地,所述数据分析处理系统还包括:
332.可视化模块,用于当检测到用户查看设置的数据的操作时,显示与所述数 据对应的可视化信息。
333.优选地,所述数据分析处理系统还包括:
334.发布模块,用于当检测到用户发布所述运行完成的业务模型的操作时,发 布所述运行完成的业务模型。
335.优选地,所述数据分析处理系统还包括:
336.再评估模块,用于当检测到用户再评估所述运行完成的业务模型或发布的 业务模型的操作时,对所述运行完成的业务模型或发布的业务模型进行再评估。
337.请参考图11,图11为本发明又一实施例的数据分析处理系统的结构示意 图,该数据分析处理系统120包括:处理器1201和存储器1202。在本发明实 施例中,数据分析处理系统120还包括:存储在存储器1202上并可在处理器 1201上运行的计算机程序,计算机程序被处理器1201执行时实现如下步骤:
338.显示用户界面,所述用户界面用于供用户设置用于创建业务模型的场景和 数据;
339.获取用户在所述用户界面上设置的场景和/或数据,并根据获取的所述场 景和/或数据,从多个模型策略中选择一模型策略,根据选择的模型策略创建 业务模型,所述模型策略至少包括以下信息:算法和所述算法的参数调优方法。
340.处理器1201负责管理总线架构和通常的处理,存储器112可以存储处理 器1201在执行操作时所使用的数据。
341.优选的,所述模型策略还包括以下信息中的至少之一:所述算法的评估方 法、所述算法的参数设置方法、所述数据的拆分方法、所述数据的处理方法和 所述数据的特征选择方法。
342.优选的,所述用户界面还用于供用户设置用于创建业务模型的目标特征。
343.优选的,计算机程序被处理器1201执行时还可实现如下步骤:在所述用 户界面上显示场景表单供用户选择;
344.当检测到用户选择所述场景表单中的一场景的操作时,在所述用户界面上 显示选择的场景;
345.或者
346.在所述用户界面上显示场景输入区域;
347.当检测到用户在所述输入区域输入场景的操作时,获取用户输入的所述场 景;
348.将场景表单中与用户输入的场景匹配的场景显示在所述用户界面上。
349.优选的,所述场景包括以下至少之一:对应聚类算法的场景、对应分类算 法的场景、对应回归算法的场景、对应异常检测的场景和对应语言处理的场景。
350.优选的,当所述场景为对应聚类算法的场景时,所述选择的模型策略的信 息包括:算法和所述算法的参数调优方法,所述算法包括以下至少之一:层次 聚类、贝叶斯高斯混合、kd树、受限波尔兹曼机,所述算法的参数调优方法 基于超参数优化进行,所述超参数优化的方法包括以下至少之一:随机参数搜 索方法、网格参数搜索方法、轮廓系数方法;
351.当所述场景为对应分类算法的场景时,所述选择的模型策略的信息包括: 算法和
所述算法的参数调优方法,所述算法包括以下至少之一:逻辑回归、随 机森林、bagging、adaboost、神经网络、堆栈模型,所述算法的参数调优方 法基于超参数优化进行,所述超参数优化的方法包括以下至少之一:随机参数 搜索方法、网格参数搜索方法、曲线下面积auc分数方法;
352.当所述场景为对应回归算法的场景时,所述选择的模型策略的信息包括: 算法和所述算法的参数调优方法,所述算法包括以下至少之一:逻辑回归、随 机森林、支持向量回归、神经网络,所述算法的参数调优方法基于超参数优化 进行,所述超参数优化的方法包括以下至少之一:随机参数搜索方法、网格参 数搜索方法、r2值方法;
353.当所述场景为对应异常检测的场景时,所述选择的模型策略的信息包括: 算法和所述算法的参数调优方法,所述算法包括以下至少之一:神经网络、支 持向量机、稳健回归、最近邻、孤立森林;所述算法的参数调优方法基于超参 数优化进行,所述超参数优化的方法包括以下至少之一:随机参数搜索方法、 网格参数搜索方法、f1分数方法;
354.当所述场景为对应语言处理的场景时,所述选择的模型策略的信息包括: 算法和所述算法的参数调优方法,所述算法包括以下至少之一:潜在语义索引、 隐含狄利克雷分布、条件随机场;所述算法的参数调优方法包括:根据词频分 析的结果给出默认参数,使用默认参数。
355.优选的,计算机程序被处理器1201执行时还可实现如下步骤:所述从多 个模型策略中选择一模型策略的步骤之后,还包括:
356.显示创建完成的业务模型的建模设计信息,所述建模设计信息至少包括: 选择的模型策略的信息。
357.优选的,计算机程序被处理器1201执行时还可实现如下步骤:所述显示 创建完成的业务模型的建模设计信息的步骤之后,还包括:
358.当检测到用户调整所述建模设计信息的操作时,更新所述建模设计信息;
359.当检测到用户执行用于运行所述创建完成的业务模型的操作时,根据更新 的所述建模设计信息,运行所述创建完成的创建业务模型。
360.优选的,计算机程序被处理器1201执行时还可实现如下步骤:所述从多 个模型策略中选择一模型策略的步骤之后,还包括:
361.当检测到用户执行用于运行创建完成的业务模型的操作时,采用选择的模 型策略,运行所述创建完成的业务模型。
362.优选的,计算机程序被处理器1201执行时还可实现如下步骤:所述运行 所述创建完成的业务模型的步骤之后,还包括:
363.显示运行完成的业务模型的建模成果,所述建模成果包括以下至少之一: 所述运行完成的业务模型的名称、所述运行完成的业务模型的得分和所述运行 完成的业务模型的输出结果。
364.优选的,所述建模成果还包括:所述运行完成的业务模型的模型策略的信 息、所述运行完成的业务模型的创建时间、所述运行完成的业务模型的训练信 息、所述运行完成的业务模型对应的工作流、所述运行完成的业务模型的状态 和所述数据的特征的重要性排序信息。
365.优选的,所述建模成果包括:所述选择的模型策略对应的n个运行完成 的业务模
型中得分最高的前m个业务模型的信息,或者,所述选择的模型策 略对应的全部n个运行完成的业务模型的信息,m为大于或等于1的正整数, n为大于或等于m的正整数。
366.优选的,计算机程序被处理器1201执行时还可实现如下步骤:所述运行 所述创建完成的业务模型的步骤之后,还包括:
367.显示运行完成的业务模型的建模设计信息,所述建模设计信息至少包括: 选择的模型策略的信息;
368.当检测到用户调整所述建模设计信息的操作时,更新所述建模设计信息;
369.当检测到用户执行用于重新运行所述运行完成的业务模型的操作时,根据 更新的所述建模设计信息,重新运行所述运行完成的业务模型。
370.优选的,所述建模设计信息还包括:场景和/或目标特征。
371.优选的,计算机程序被处理器1201执行时还可实现如下步骤:创建与创 建完成的业务模型对应的第一工作流,所述第一工作流包括多个工作流模块。
372.优选的,计算机程序被处理器1201执行时还可实现如下步骤:所述创建 与创建完成的业务模型对应的第一工作流的步骤之后,还包括:
373.当检测到运行创建完成的业务模型的操作,或者,检测到用户调整所述运 行完成的业务模型的信息的操作时,更新所述第一工作流。
374.优选的,计算机程序被处理器1201执行时还可实现如下步骤:所述创建 与创建完成的业务模型对应的第一工作流的步骤之后,还包括:
375.当检测到用户新建与所述第一工作流内容相同的第二工作流的操作时,生 成与所述第二工作流,所述第二工作流可编辑。
376.优选的,计算机程序被处理器1201执行时还可实现如下步骤:所述显示 用户界面的步骤之后,还包括:
377.当检测到用户查看设置的数据的操作时,显示与所述数据对应的可视化信 息。
378.优选的,计算机程序被处理器1201执行时还可实现如下步骤:所述运行 所述创建完成的业务模型的步骤之后,还包括:
379.当检测到用户发布运行完成的业务模型的操作时,发布所述运行完成的业 务模型。
380.优选的,计算机程序被处理器1201执行时还可实现如下步骤:所述运行 所述创建完成的业务模型的步骤之后,还包括:
381.当检测到用户再评估所述运行完成的业务模型或发布的业务模型的操作 时,对所述运行完成的业务模型或发布的业务模型进行再评估。
382.本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质 上存储计算机程序,所述计算机程序被处理器执行时实现上述自动建模方法实 施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其 中,所述的计算机可读存储介质,如只读存储器(read-only memory,简称 rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光 盘等。
383.以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技 术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰, 这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1