本发明涉及大数据分析领域,尤其涉及一种数据处理方法及系统。
背景技术:
1、随着人工智能和大数据的快速发展,越来越多的行业使用机器学习训练的模型进行数据分析与预测,例如,在营销领域使用增益模型来分析和预测营销效果。而现有的增益模型建模的理论相对分散,针对具体场景需要建模人员有较强的专业性,在建模流程中的特征筛选、算法选择、效果评估与调优等环节需要建模人员进行大量重复性工作,从而导致增益建模流程门槛高,且效率低。
技术实现思路
1、本明实施例提供了一种数据处理方法及系统,解决现有增益建模流程门槛高,且效率低的问题。
2、为解决上述技术问题,本发明提供了一种数据处理方法,所述方法包括:
3、响应于用户界面的配置操作,获取配置的数据集以及干预列;
4、对所述数据集以及干预列进行特征分析,得到数据特征信息和干预信息;
5、基于所述数据特征信息和所述干预信息构建搜索空间;
6、根据搜索策略在所述搜索空间进行搜索,生成增益模型。
7、可选的,上述方法中,所述数据特征信息包括质量信息和特征分布信息,所述干预信息包括干预列类型,所述基于所述数据特征信息和所述干预信息构建搜索空间的步骤包括:
8、根据所述质量信息和/或特征分布信息,和/或干预列类型,确定模型阶段子空间;
9、基于确定出的所述模型阶段子空间,构建搜索空间。
10、可选的,上述方法中,所述模型阶段子空间包括数据预处理子空间、数据偏置处理子空间、特征工程子空间、模型算法子空间,以及模型评估子空间中的一个或多个;
11、所述根据所述质量信息和/或特征分布信息,和/或干预列类型,确定模型阶段子空间的步骤包括:
12、根据所述质量信息和/或所述特征分布信息确定数据预处理子空间;和/或,
13、根据所述干预列类型确定数据偏置处理子空间;和/或,
14、根据所述质量信息和/或所述特征分布信息确定特征工程子空间;和/或,
15、根据所述特征分布信息和/或所述干预列类型,确定模型算法子空间及模型评估子空间。
16、可选的,上述方法中,所述根据搜索策略在所述搜索空间进行搜索,生成增益模型的步骤包括:
17、根据配置的训练迭代次数和/或构建的搜索空间维度,获取搜索策略;
18、根据所述搜索策略在所述搜索空间进行搜索,生成增益模型;
19、其中,所述搜索策略包括单一搜索策略和融合搜索策略,所述融合搜索策略包括两种或两种以上搜索算法。
20、可选的,上述方法中,所述根据配置的训练迭代次数和/或构建的搜索空间维度,获取搜索策略的步骤包括:
21、在配置的训练迭代次数小于第一阈值,则确定搜索策略为单一搜索策略;和/或,
22、在配置的训练迭代次数大于等于第一阈值,则确定搜索策略为融合搜索策略;和/或,
23、在构建的搜索空间维度超过第二阈值,则确定搜索策略为融合搜索策略;和/或,
24、在配置的训练迭代次数大于等于第一阈值且构建的搜索空间维度超过第二阈值,则确定搜索策略为融合搜索策略。
25、可选的,上述方法中,若所述搜索策略为融合搜索策略,所述根据所述搜索策略在所述搜索空间进行搜索,生成增益模型的步骤之前,所述方法还包括:
26、根据所述训练迭代次数和/或所述搜索空间维度确定所述融合搜索策略的切换参数;其中,所述切换参数包括初初始种群数n,切换策略阈值k和搜索算法切换方式,n、k均为正整数。
27、可选的,上述方法中,所述搜索算法包括以下任一项:
28、随机抽取、网格搜索、进化搜索、蒙特卡罗、贝叶斯优化和元学习。
29、可选的,上述方法中,所述根据所述搜索策略在所述搜索空间进行搜索,生成增益模型的步骤包括:
30、使用初始搜索算法在所述搜索空间中进行搜索,得到n组不同的训练参数组合;
31、使用当前搜索算法在所述n组训练参数组合基础上进行搜索,得到候选训练参数组合,形成候选训练参数组合对应的候选模型训练实例;
32、基于所述数据集对所述候选训练参数组合对应的候选模型训练实例进行模型训练以及评分;若出现连续k次生成的所述候选模型训练实例的评分的增长变化满足预设条件,基于所述搜索算法切换方式将所述当前搜索算法切换至目标搜索算法,继续进行搜索,直到达到终止条件时,终止搜索过程,得到目标搜索结果;
33、基于所述目标搜索结果,生成增益模型。
34、可选的,上述方法中,所述根据搜索策略在所述搜索空间进行搜索,生成增益模型的步骤包括:
35、基于搜索策略在所述搜索空间进行搜索,生成模型训练实例;
36、根据所述数据集和所述模型训练实例进行模型训练,生成增益模型。
37、可选的,上述方法中,若所述模型训练实例包括两个或两个以上,所述基于所述数据集和所述模型训练实例进行模型训练,生成增益模型的步骤包括:
38、确定所述模型训练实例的并行度;
39、基于所述模型训练实例的并行度、所述数据集和多个所述模型训练实例进行并行模型训练,生成多个增益模型。
40、可选的,上述方法还包括:
41、使用所述增益模型对所述数据集进行预测,得到干预值对应的增益值;
42、基于评估指标对所述数据集的目标列、干预列的实际值与预测得到所述增益值进行评估,得到增益评估结果。
43、可选的,上述方法还包括:
44、根据评估指标排序显示多个历史模型训练信息。
45、可选的,上述方法还包括以下至少一项:
46、若干预列类型为多值干预列类型,基于用户的第一选择操作切换不同干预列值对所述历史模型训练信息进行排序显示;
47、基于用户对多个历史模型训练信息的第二选择操作,显示目标历史模型详细训练信息,所述目标历史模型详细训练信息包括模型评分、评分曲线图、模型的流程以及每个阶段的参数组合。
48、本发明还提供了一种数据处理系统,所述系统包括:
49、获取模块,用于响应于用户界面的配置操作,获取配置的数据集以及干预列;
50、特征分析模块,用于对所述数据集以及干预列进行特征分析,得到数据特征信息和干预信息;
51、构建模块,用于基于所述数据特征信息和所述干预信息构建搜索空间;
52、搜索模块,用于根据搜索策略在所述搜索空间进行搜索,生成增益模型。
53、可选的,上述系统中,所述数据特征信息包括质量信息和特征分布信息,所述干预信息包括干预列类型,所述构建模块包括:
54、确定子模块,用于根据所述质量信息和/或特征分布信息,和/或干预列类型,确定模型阶段子空间;
55、构建子模块,用于基于确定出的所述模型阶段子空间,构建搜索空间。
56、可选的,上述系统中,所述模型阶段子空间包括数据预处理子空间、数据偏置处理子空间、特征工程子空间、模型算法子空间,以及模型评估子空间中的一个或多个;
57、所述确定子模块具体用于:
58、根据所述质量信息和/或所述特征分布信息确定数据预处理子空间;和/或,
59、根据所述干预列类型确定数据偏置处理子空间;和/或,
60、根据所述质量信息和/或所述特征分布信息确定特征工程子空间;和/或,
61、根据所述特征分布信息和/或所述干预列类型,确定模型算法子空间及模型评估子空间。
62、可选的,上述系统中,所述搜索模块包括:
63、获取子模块,用于根据配置的训练迭代次数和/或构建的搜索空间维度,获取搜索策略;
64、第一生成子模块,用于根据所述搜索策略在所述搜索空间进行搜索,生成增益模型;
65、其中,所述搜索策略包括单一搜索策略和融合搜索策略,所述融合搜索策略包括两种或两种以上搜索算法。
66、可选的,上述系统中,所述获取子模块具体用于:
67、在配置的训练迭代次数小于第一阈值,则确定搜索策略为单一搜索策略;和/或,
68、在配置的训练迭代次数大于等于第一阈值,则确定搜索策略为融合搜索策略;和/或,
69、在构建的搜索空间维度超过第二阈值,则确定搜索策略为融合搜索策略;和/或,
70、在配置的训练迭代次数大于等于第一阈值且构建的搜索空间维度超过第二阈值,则确定搜索策略为融合搜索策略。
71、可选的,上述系统中,若所述搜索策略为融合搜索策略,所述系统还包括:
72、确定模块,用于根据所述训练迭代次数和/或所述搜索空间维度确定所述融合搜索策略的切换参数;其中,所述切换参数包括初始种群数n和切换策略阈值k,n、k均为正整数。
73、可选的,上述系统中,所述搜索算法包括以下任一项:
74、随机抽取、网格搜索、进化搜索、蒙特卡罗、贝叶斯优化和元学习。
75、可选的,上述系统中,所述第一生成子模块具体用于:
76、使用初始搜索算法在所述搜索空间中进行搜索,得到n组不同的训练参数组合;
77、使用当前搜索算法在所述n组训练参数组合基础上进行搜索,得到候选训练参数组合,形成候选训练参数组合对应的候选模型训练实例;基于所述数据集对所述候选训练参数组合对应的候选模型训练实例进行模型训练以及评分;若出现连续k次生成的所述候选模型训练实例的评分的增长变化满足预设条件,基于所述搜索算法切换方式将所述当前搜索算法切换至目标搜索算法,继续进行搜索,直到达到终止条件时,终止搜索过程,得到目标搜索结果;
78、基于所述目标搜索结果,生成增益模型。
79、可选的,上述系统中,所述搜索模块还包括:
80、第二生成子模块,用于基于搜索策略在所述搜索空间进行搜索,生成模型训练实例;
81、模型训练子模块,用于根据所述数据集和所述模型训练实例进行模型训练,生成增益模型。
82、可选的,上述系统中,若所述模型训练实例包括两个或两个以上,所述模型训练子模块具体用于:
83、确定所述模型训练实例的并行度;
84、基于所述模型训练实例的并行度、所述数据集和多个所述模型训练实例进行并行模型训练,生成多个增益模型。
85、可选的,上述系统还包括:
86、预测模块,用于使用所述增益模型对所述数据集进行预测,得到干预值对应的增益值;
87、评估模块,用于基于评估指标对所述数据集的目标列、干预列的实际值与预测得到所述增益值进行评估,得到增益评估结果。
88、可选的,上述系统还包括:
89、第一显示模块,用于根据评估指标排序显示多个历史模型训练信息。
90、可选的,上述系统还包括:
91、排序模块,用于若干预列类型为多值干预列类型,基于用户的第一选择操作切换不同干预列值对所述历史模型训练信息进行排序显示;
92、第二显示模块,用于基于用户对多个历史模型训练信息的第二选择操作,显示目标历史模型详细训练信息,所述目标历史模型详细训练信息包括模型评分、评分曲线图、模型的流程以及每个阶段的参数组合。
93、本发明实施例还提供了一种数据处理系统,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的数据处理方法的步骤。
94、本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述的数据处理方法的步骤。
95、本发明实施例基于数据特征信息和干预信息自动构建搜索空间;根据搜索策略在自动构建的搜索空间进行搜索,生成增益模型,从而实现了自动构建增益模型,提高了增益模型的建模效率,降低了增益建模的门槛。