一种基于强化学习的最优利润率探索方法和系统与流程

文档序号:37499348发布日期:2024-04-01 14:07阅读:11来源:国知局
一种基于强化学习的最优利润率探索方法和系统与流程

本发明涉及互联网广告投放,特别是一种基于强化学习的最优利润率探索方法和系统。


背景技术:

1、目前,在互联网广告投放技术领域,需要在广告投放系统中对利润率进行设置,以期获得更高的利润额。

2、但是,目前利润率的设置通常只是通过人工凭借经验设置,存在过于主观,不够精准的问题。而如何找到使利润额最大化的最优利润率设置,更是本领域中尚无法解决的技术问题。

3、综上,针对上述相关技术中存在的技术问题,目前尚未提出有效的解决方案。

4、因鉴于此,特提出本发明。


技术实现思路

1、本发明的目的在于克服上述技术不足,提供一种基于强化学习的最优利润率探索方法和系统,以找到使利润额最大化的最优利润率设置。

2、为达到上述技术目的,本发明采取了以下技术方案:

3、根据本发明的一个方面,提供了一种基于强化学习的最优利润率探索方法,包括全局最优利润率探索,和/或,分出价的最优利润率探索;其中,

4、所述全局最优利润率探索包括:

5、基于强化学习的汤普森采样算法,在初始化确定的探索范围内,根据利润率数组长度,基于beta分布生成利润率数组,确定探索方向;

6、从引擎端分出预设比例的流量进行探索,剩余的流量采用默认利润率;

7、根据预设的时间周期探索得到的最优利润率,更新代码位的配置。

8、可选的,所述在初始化确定的探索范围内,根据利润率数组长度,基于beta分布生成利润率数组,确定探索方向,具体包括:

9、对每个利润率初始化一个beta分布的范围;

10、更新beta分布;

11、更新利润率数组,包括通过beta采样得到每个利润率的打分,取打分前n名的利润率,以更新利润率数组,其中,n为大于等于1的正整数;

12、更新利润率探索数据表。

13、可选的,所述分出价的最优利润率探索,包括:极高出价的利润率向上探索,以及,次高出价的利润率向下探索,其中,所述极高出价的利润率向上探索,包括:

14、对比当前竞得率和预设的竞得率下限;

15、若当前竞得率大于或等于竞得率下限,进一步判断当前利润率是否等于最优利润率,若是,则确认此时有概率提升利润率,将探索方向确认为使当前利润率增加一预设的利润率值;若否,则进一步计算当前利润率与最优利润率的差值大小,若所述差值等于预设的阈值,则确认当前仍在探索最大利润,将探索方向确认为使当前利润率增加一预设的利润率值;若所述差值小于预设的阈值,则说明在向下搜索中找到最优状态,将探索方向确认为维持当前利润率。

16、可选的,若当前竞得率小于竞得率下限,则所述方法还包括:

17、进一步比较当前利润率和需求方代码位利润率;

18、若当前利润率大于需求方代码位利润率,则将探索方向确认为使当前利润率降低预设的利润率值;

19、若当前利润率小于等于需求方代码位利润率,则将探索方向确认为维持利润率。

20、可选的,所述次高出价的利润率向下探索,包括:

21、按出价统计填充最高的m个出价,以及预设的利润率下的投放指标;

22、计算在当前时间节点,当前利润率比预设利润率多赚取的金额;

23、预估在当天剩余的小时内,按照当前利润率,每种出价可获得多少利润额,再估计可使多少出价的利润率置0,以提升竞得率。

24、可选的,所述预估在当天剩余的小时内,按照当前利润率,每种出价可获得多少利润额,再估计可使多少出价的利润率置0,以提升竞得率,具体包括:

25、根据当天的剩余小时,计算出每种出价能获得的利润额,并按照出价从大到小排序;

26、依次遍历每种出价,若额外利润额大于或等于当前出价的预估利润额,则将该出价的利润率置为0,再更新额外利润额;

27、若遍历到某个出价下,额外利润额小于当前出价的预估利润额,则将当前出价的新利润率设置为新利润率,所述新利润率等于:预估利润额减去额外利润额的第一利润额差值,然后用预估需求方消耗的利润额减去所述第一利润额差值,第二利润额差值,最后用预估需求方消耗的利润额除以所述第二利润额差值,即得到所述新利润率。

28、根据本发明的另一个方面,提供了一种基于强化学习的最优利润率探索系统,包括:全局最优利润率探索单元,和/或,分出价的最优利润率探索单元;其中,

29、所述全局最优利润率探索单元包括:

30、探索方向确定单元,用于基于强化学习的汤普森采样算法,在初始化确定的探索范围内,根据利润率数组长度,基于beta分布生成利润率数组,确定探索方向;

31、探索单元,用于从引擎端分出预设比例的流量进行探索,剩余的流量采用默认利润率;

32、更新单元,用于根据预设的时间周期探索得到的最优利润率,更新代码位的配置。

33、可选的,所述分出价的最优利润率探索单元,包括:极高出价的利润率向上探索单元,以及,次高出价的利润率向下探索单元,其中,所述极高出价的利润率向上探索单元,包括:

34、对比单元,用于对比当前竞得率和预设的竞得率下限;

35、探索方向判断单元,用于:若当前竞得率大于或等于竞得率下限,进一步判断当前利润率是否等于最优利润率,若是,则确认此时有概率提升利润率,将探索方向确认为使当前利润率增加一预设的利润率值;若否,则进一步计算当前利润率与最优利润率的差值大小,若所述差值等于预设的阈值,则确认当前仍在探索最大利润,将探索方向确认为使当前利润率增加一预设的利润率值;若所述差值小于预设的阈值,则说明在向下搜索中找到最优状态,将探索方向确认为维持当前利润率。

36、根据本发明的另一个方面,还提供了一种电子设备,包括:处理器和存储器;

37、所述存储器上存储有可被所述处理器执行的计算机可读程序;

38、所述处理器执行所述计算机可读程序时实现如上述的方法中的步骤。

39、根据本发明的另一个方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述的方法中的步骤。

40、本发明提供的一种基于强化学习的最优利润率探索方法和系统,包括全局最优利润率探索,和/或,分出价的最优利润率探索;其中,全局最优利润率探索基于强化学习的汤普森采样算法,在初始化确定的探索范围内,根据利润率数组长度,基于beta分布生成利润率数组,确定探索方向,探索得到的最优利润率,分出价的最优利润率探索根据极高出价和次高出价分别向上或向下探索得到最优利润率,从而找到使利润额最大化的最优利润率设置。



技术特征:

1.一种基于强化学习的最优利润率探索方法,其特征在于,包括全局最优利润率探索,和/或,分出价的最优利润率探索;其中,

2.根据权利要求1所述的最优利润率探索方法,其特征在于,所述在初始化确定的探索范围内,根据利润率数组长度,基于beta分布生成利润率数组,确定探索方向,具体包括:

3.根据权利要求1所述的最优利润率探索方法,其特征在于,所述分出价的最优利润率探索,包括:极高出价的利润率向上探索,以及,次高出价的利润率向下探索,其中,所述极高出价的利润率向上探索,包括:

4.根据权利要求3所述的最优利润率探索方法,其特征在于,若当前竞得率小于竞得率下限,则所述方法还包括:

5.根据权利要求3所述的最优利润率探索方法,其特征在于,所述次高出价的利润率向下探索,包括:

6.根据权利要求5所述的最优利润率探索方法,其特征在于,所述预估在当天剩余的小时内,按照当前利润率,每种出价可获得多少利润额,再估计可使多少出价的利润率置0,以提升竞得率,具体包括:

7.一种基于强化学习的最优利润率探索系统,其特征在于,包括:全局最优利润率探索单元,和/或,分出价的最优利润率探索单元;其中,

8.根据权利要求7所述的系统,其特征在于,所述分出价的最优利润率探索单元,包括:极高出价的利润率向上探索单元,以及,次高出价的利润率向下探索单元,其中,所述极高出价的利润率向上探索单元,包括:

9.一种电子设备,其特征在于,包括:处理器和存储器;

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-7任意一项所述的方法中的步骤。


技术总结
本发明公开了一种基于强化学习的最优利润率探索方法和系统,其中,该方法包括全局最优利润率探索,和/或,分出价的最优利润率探索;其中,所述全局最优利润率探索包括:基于强化学习的汤普森采样算法,在初始化确定的探索范围内,根据利润率数组长度,基于beta分布生成利润率数组,确定探索方向;从引擎端分出预设比例的流量进行探索,剩余的流量采用默认利润率;根据预设的时间周期探索得到的最优利润率,更新代码位的配置,以找到使利润额最大化的最优利润率设置。

技术研发人员:吴超,徐寅
受保护的技术使用者:上海旺脉信息科技集团有限公司
技术研发日:
技术公布日:2024/3/31
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1