本公开涉及计算机,具体而言,涉及一种模型训练方法、装置、电子设备和存储介质。
背景技术:
1、随着计算机技术和互联网技术的发展,越来越多的通过互联网向用户推送内容,例如向用户推送广告或者向用户发放优惠券等。由于不同用户对不同类型的推送内容的感兴趣程度不同,因此,为了提升推送内容的收益最大化,相关技术中通过增益模型筛选出针对目标推送内容的敏感用户,然后对该敏感用户推送该目标内容。
2、然而,该方式虽然能够提升推送内容的收益,但由于每个增益模型只能适配一个应用场景,导致不同的应用场景需要分别对不同的增益模型进行训练,如此,不仅导致增益模型的通用性较差,还提升了训练成本。
技术实现思路
1、本公开实施例至少提供一种模型训练方法、装置、电子设备及存储介质,可以使得模型适配不同的场景实验数据,进而可以在提升模型训练的通用性的同时降低训练成本。
2、本公开实施例提供了一种模型训练方法,包括:
3、获取针对目标策略的目标实验数据,所述目标实验数据为基于所述目标策略对第一用户群进行a/b实验得到的实验数据;
4、从多个预设的特征处理模板中确定与所述目标策略匹配的目标特征处理模板,并基于所述目标特征处理模板对所述目标实验数据进行特征处理,得到训练数据集;
5、获取待训练的初始增益模型,并基于针对所述初始增益模型的多组不同的超参数以及所述训练数据集分别对所述初始增益模型进行训练,得到多个训练好的第一增益模型,其中,每个训练好的第一增益模型基于对应的一组超参数以及所述训练数据集对所述初始增益模型进行训练得到;
6、将多个所述第一增益模型中训练结果符合预设要求的第一增益模型作为目标增益模型;所述目标增益模型用于对第二用户群进行预测筛选,以得到应用所述目标策略的目标用户群,所述第二用户群的用户数量大于所述第一用户群的用户数量。
7、在一种可能的实施方式中,所述多个特征处理模板基于不同类型的策略优化目标构建生成,所述从多个预设的特征处理模板中确定与所述目标策略匹配的目标特征处理模板,包括:
8、确定与所述目标策略对应的策略优化目标,并基于所述策略优化目标,从所述多个预设的特征处理模板中确定与所述策略优化目标匹配的目标特征处理模板。
9、在一种可能的实施方式中,所述基于针对所述初始增益模型的多组不同的超参数以及所述训练数据集分别对所述初始增益模型进行训练,得到多个训练好的第一增益模型,包括:
10、基于预设的超参数搜索算法搜索针对所述初始增益模型的多组超参数组;
11、针对每组超参数,基于所述超参数以及所述训练数据集对所述初始增益模型进行训练,得到与所述超参数对应的第一增益模型。
12、在一种可能的实施方式中,所述将多个所述第一增益模型中训练结果符合预设要求的第一增益模型作为目标增益模型,包括:
13、基于多个所述第一增益模型的训练结果,从所述多个第一增益模型中确定训练结果符合所述预设要求的第二增益模型,并将所述第二增益模型的训练结果发送至目标用户;
14、响应于所述目标用户针对所述第二增益模型的确认操作,将所述第二增益模型作为所述目标增益模型。
15、在一种可能的实施方式中,所述方法还包括:
16、响应于所述目标用户针对所述第二增益模型的否定操作,基于所述目标用户的手动超参数调整结果以及所述训练数据集对所述初始增益模型进行训练,得到训练好的目标增益模型。
17、在一种可能的实施方式中,所述目标策略包括上下滑动角度放大策略、画质提升策略或者资源推荐策略。
18、本公开实施例提供了一种策略应用方法,包括:
19、获取针对目标策略的筛选条件以及目标增益模型,所述目标增益模型为根据上述任一可能的实施方式所述的模型训练方法训练得到;
20、基于所述目标增益模型以及所述筛选条件,从第二用户群中确定目标用户群,并基于所述目标策略对所述目标用户群进行策略应用。
21、在一种可能的实施方式中,所述基于所述目标增益模型以及所述筛选条件,从第二用户群中确定目标用户群,包括:
22、获取第二用户群的用户特征数据,并将所述用户特征数据以及所述目标策略的策略数据输入所述目标增益模型,得到人群预测结果;
23、基于所述筛选条件以及所述人群预测结果,从所述第二用户群中确定所述目标用户群。
24、在一种可能的实施方式中,所述目标策略为上下滑动角度放大策略,所述筛选条件为视频播放的正向收益大于第一预设阈值,直播的负向收益小于第二预设阈值,且内容搜索的负向收益小于第三预设阈值。
25、本公开实施例提供了一种模型训练装置,包括:
26、数据获取模块,用于获取针对目标策略的目标实验数据,所述目标实验数据为基于所述目标策略对第一用户群进行a/b实验得到的实验数据;
27、数据处理模块,用于从多个预设的特征处理模板中确定与所述目标策略匹配的目标特征处理模板,并基于所述目标特征处理模板对所述目标实验数据进行特征处理,得到训练数据集;
28、模型训练模块,用于获取待训练的初始增益模型,并基于针对所述初始增益模型的多组不同的超参数以及所述训练数据集分别对所述初始增益模型进行训练,得到多个训练好的第一增益模型,其中,每个训练好的第一增益模型基于对应的一组超参数以及所述训练数据集对所述初始增益模型进行训练得到;
29、模型筛选模块,用于将多个所述第一增益模型中训练结果符合预设要求的第一增益模型作为目标增益模型;所述目标增益模型用于对第二用户群进行预测筛选,以得到应用所述目标策略的目标用户群,所述第二用户群的用户数量大于所述第一用户群的用户数量。
30、在一种可能的实施方式中,所述数据处理模块具体用于:
31、确定与所述目标策略对应的策略优化目标,并基于所述策略优化目标,从所述多个预设的特征处理模板中确定与所述策略优化目标匹配的目标特征处理模板。
32、在一种可能的实施方式中,所述模型训练模块具体用于:
33、基于预设的超参数搜索算法搜索针对所述初始增益模型的多组超参数组;
34、针对每组超参数,基于所述超参数以及所述训练数据集对所述初始增益模型进行训练,得到与所述超参数对应的第一增益模型。
35、在一种可能的实施方式中,所述模型筛选模块具体用于:
36、基于多个所述第一增益模型的训练结果,从所述多个第一增益模型中确定训练结果符合所述预设要求的第二增益模型,并将所述第二增益模型的训练结果发送至目标用户;
37、响应于所述目标用户针对所述第二增益模型的确认操作,将所述第二增益模型作为所述目标增益模型。
38、在一种可能的实施方式中,所述模型训练模块还用于:
39、响应于所述目标用户针对所述第二增益模型的否定操作,基于所述目标用户的手动超参数调整结果以及所述训练数据集对所述初始增益模型进行训练,得到训练好的目标增益模型。
40、在一种可能的实施方式中,所述目标策略包括上下滑动角度放大策略、画质提升策略或者资源推荐策略。
41、本公开实施例提供了一种策略应用装置,包括:
42、模型获取模块,用于获取针对目标策略的筛选条件以及目标增益模型,所述目标增益模型为根据上述任一可能的实施方式中所述的模型训练方法训练得到;
43、用户筛选模块,用于基于所述目标增益模型以及所述筛选条件,从第二用户群中确定目标用户群,并基于所述目标策略对所述目标用户群进行策略应用。
44、在一种可能的实施方式中,所述用户筛选模块具体用于:
45、获取第二用户群的用户特征数据,并将所述用户特征数据以及所述目标策略的策略数据输入所述目标增益模型,得到人群预测结果;
46、基于所述筛选条件以及所述人群预测结果,从所述第二用户群中确定所述目标用户群。
47、在一种可能的实施方式中,所述目标策略为上下滑动角度放大策略,所述筛选条件为视频播放的正向收益大于第一预设阈值,直播的负向收益小于第二预设阈值,且内容搜索的负向收益小于第三预设阈值。
48、本公开实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述任一可能的实施方式中所述的模型训练方法,或者上述任一可能的实施方式中所述的策略应用方法。
49、本公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一可能的实施方式中所述的模型训练方法,或者上述任一可能的实施方式中所述的策略应用方法。
50、本公开实施例所提供的模型训练方法、策略应用方法、模型训练装置、策略应用装置、电子设备及计算机可读存储介质,由于预先设置有多个特征处理模板,进而可以对不同场景下的实验数据进行处理,到的对应的训练数据集,使得基于不同场景下的训练数据集训练好的第一增益模型能够同时适用于不同的场景的人群预测,如此,不仅可以提升模型训练过程的通用性,还降低模型训练的成本。
51、此外,本公开实施例中,在模型训练的过程中采用多组超参数分别对初始模型进行训练,得到多个训练好的第一增益模型,并将训练结果符合预设要求的第一增益模型作为目标增益模型,如此,可以提升模型训练的效果。
52、为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。