一种业务执行方法、装置、存储介质及电子设备与流程

文档序号:36801352发布日期:2024-01-23 12:27阅读:17来源:国知局
一种业务执行方法、装置、存储介质及电子设备与流程

本说明书涉及计算机,尤其涉及一种业务执行方法、装置、存储介质及电子设备。


背景技术:

1、在执行部分业务的场景中,执行者需要付出一定的资源以达成目标。而在这一类业务的执行中,最需要考虑的问题是如何在有限的资源下取得最大的收益。通常,这一类问题被称为受约束的优化问题。

2、例如,在平台进行多媒体投放的场景下,商家可通过一定的出价在平台中向用户投放多媒体信息以获取相应的收益。对于平台来说,在商家用于投放多媒体的总出价金额已经确定的情况下,如何利用有限的出价额度为商家争取到最大的收益便是一个受约束的优化问题。

3、目前,这类算法通常采用引入拉格朗日乘子的方式来将原始问题转化为对偶问题进行求解。然而,由于现有的算法对资源消耗的估计非常敏感,不准确的资源估计会导致拉格朗日乘子出错,微小的误差也可能会使策略优化出现极大的偏差。

4、因此,如何在受约束的优化问题中更加高效、稳定地对策略进行优化以达到最好的业务执行效果是一个亟待解决的问题。


技术实现思路

1、本说明书提供一种业务执行方法、装置、存储介质及电子设备,以至少部分地解决现有技术存在的上述问题。

2、本说明书采用下述技术方案:

3、本说明书提供了一种业务执行方法,包括:

4、获取目标业务的当前状态;

5、根据所述当前状态与预先确定的业务执行策略,确定在所述当前状态下执行所述目标业务的目标动作,所述目标动作用于表征执行所述目标业务时所需的资源,其中,所述业务执行策略是以上置信值不大于约束值,且预估收益最大为优化目标,对待优化策略进行优化得到的,所述上置信值是根据所述预估资源的均值和方差得到的,所述预估资源和所述预估收益是根据目标业务的各状态与所述各状态对应的动作得到的,所述各状态对应的动作是根据所述各状态和所述待优化策略得到的,所述各状态包含在所述目标业务的状态空间中;

6、采用所述目标动作执行所述目标业务。

7、可选地,所述目标业务为多媒体投放业务,所述状态至少包括用户画像、商家画像,所述动作用于表征所述商家在向所述用户投放多媒体信息时的出价。

8、可选地,根据所述各状态与所述各状态对应的动作确定预估资源与预估收益,具体包括:

9、将所述各状态与所述各状态对应的动作输入预先训练的分析模型,得到所述分析模型输出的预估资源和预估收益。

10、可选地,所述分析模型至少存在两个以上,各分析模型的结构和/或参数不同;

11、确定所述预估资源的均值和方差,具体包括:

12、针对每个分析模型,将所述各状态与所述各状态对应的动作输入该分析模型,得到该分析模型输出的独立预估资源;

13、将各独立预估资源的平均确定为所述预估资源的均值,将所述各独立预估资源的方差确定为所述预估资源的方差。

14、可选地,预先训练分析模型,具体包括:

15、获取样本状态和所述样本状态对应的样本动作,并获取所述样本状态的标注资源和标注收益;

16、将所述样本状态与所述样本状态对应的动作输入待训练的分析模型,得到所述分析模型输出的待优化资源与待优化收益;

17、以所述待优化资源和所述标注资源之间的差异最小,且所述待优化收益与所述标注收益之间的差异最小为优化目标,对所述分析模型进行训练。

18、可选地,以所述上置信值不大于所述约束值,且所述预估收益最大为优化目标,对所述待优化策略进行优化,具体包括:

19、将所述上置信值与所述约束值之间的差确定为对偶差;

20、初始化拉格朗日乘子,并采用所述拉格朗日乘子调整所述对偶差,得到对偶资源;

21、以所述预估收益与所述对偶资源之间的差值最大为优化目标,对所述待优化策略与所述拉格朗日乘子进行优化。

22、可选地,在对所述待优化策略与所述拉格朗日乘子进行优化之前,所述方法还包括:

23、根据所述对偶差确定主导项,所述主导项与所述对偶差的平方呈正相关;

24、以所述预估收益与所述对偶资源之间的差值最大为优化目标,对所述待优化策略与所述拉格朗日乘子进行优化,具体包括:

25、以所述预估收益与所述对偶资源和所述主导项的和之间的差值最大为优化目标,对所述待优化策略与所述拉格朗日乘子进行优化。

26、本说明书提供的一种业务执行装置,所述装置包括:

27、获取模块,用于获取目标业务的当前状态;

28、确定模块,用于根据所述当前状态与预先确定的业务执行策略,确定在所述当前状态下执行所述目标业务的目标动作,所述目标动作用于表征执行所述目标业务时所需的资源,其中,所述业务执行策略是以上置信值不大于约束值,且预估收益最大为优化目标,对待优化策略进行优化得到的,所述上置信值是根据所述预估资源的均值和方差得到的,所述预估资源和所述预估收益是根据目标业务的各状态与所述各状态对应的动作得到的,所述各状态对应的动作是根据所述各状态和所述待优化策略得到的,所述各状态包含在所述目标业务的状态空间中;

29、执行模块,用于采用所述目标动作执行所述目标业务。

30、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述业务执行方法。

31、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述业务执行方法。

32、本说明书采用的上述至少一个技术方案能够达到以下有益效果:

33、在本说明书提供的业务执行方法中,获取目标业务的当前状态;根据所述当前状态与预先确定的业务执行策略,确定在所述当前状态下执行所述目标业务的目标动作,所述目标动作用于表征执行所述目标业务时所需的资源,其中,所述业务执行策略是以上置信值不大于约束值,且预估收益最大为优化目标,对待优化策略进行优化得到的,所述上置信值是根据所述预估资源的均值和方差得到的,所述预估资源和所述预估收益是根据目标业务的各状态与所述各状态对应的动作得到的,所述各状态对应的动作是根据所述各状态和所述待优化策略得到的,所述各状态包含在所述目标业务的状态空间中;采用所述目标动作执行所述目标业务。

34、在采用本说明书提供的业务执行方法执行存在受约束的优化问题的目标业务时,可根据当前状态和预先确定的业务执行策略确定出的目标动作来执行目标业务。其中,业务执行策略可在引入拉格朗日乘子将原始问题转化为对偶问题的解法下,结合本方法提出的保守策略优化和局部策略凸化来更新优化得到。采用本方法可通过保守策略优化来解决对偶问题中的预测消耗资源低估的问题,随后可结合局部策略凸化,通过增广拉格朗日的方法修改原始目标,以凸化局部最优策略的邻域区域,从而逐渐减少这一区域内的资源估计的不确定性,最终提高算法的整体效果,得到更优的业务执行策略。



技术特征:

1.一种业务执行方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述目标业务为多媒体投放业务,所述状态至少包括用户画像、商家画像,所述动作用于表征所述商家在向所述用户投放多媒体信息时的出价。

3.如权利要求1所述的方法,其特征在于,根据所述各状态与所述各状态对应的动作确定预估资源与预估收益,具体包括:

4.如权利要求3所述的方法,其特征在于,所述分析模型至少存在两个以上,各分析模型的结构和/或参数不同;

5.如权利要求3所述的方法,其特征在于,预先训练分析模型,具体包括:

6.如权利要求1所述的方法,其特征在于,以所述上置信值不大于所述约束值,且所述预估收益最大为优化目标,对所述待优化策略进行优化,具体包括:

7.如权利要求6所述的方法,其特征在于,在对所述待优化策略与所述拉格朗日乘子进行优化之前,所述方法还包括:

8.一种业务执行装置,其特征在于,包括:

9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。

10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。


技术总结
本说明书公开了一种业务执行方法、装置、存储介质及电子设备。在本说明书提供的业务执行方法中,获取目标业务的当前状态;根据当前状态与预先确定的业务执行策略,确定在当前状态下执行目标业务的目标动作,目标动作用于表征执行目标业务时所需的资源,其中,业务执行策略是以上置信值不大于约束值,且预估收益最大为优化目标,对待优化策略进行优化得到的,上置信值是根据预估资源的均值和方差得到的,预估资源和预估收益是根据目标业务的各状态与各状态对应的动作得到的,各状态对应的动作是根据各状态和所待优化策略得到的,各状态包含在目标业务的状态空间中;采用目标动作执行目标业务。

技术研发人员:唐波,於光中,毛尚勤,谢乾龙,王兴星
受保护的技术使用者:北京三快网络科技有限公司
技术研发日:
技术公布日:2024/1/22
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1