一种基于平衡探索与利用的蒙特卡洛树搜索方法与流程

文档序号:18738825发布日期:2019-09-21 01:32阅读:来源:国知局

技术特征:

1.一种基于平衡探索与利用的蒙特卡洛树搜索方法,其特征在于,包括以下步骤:

S01:选择阶段:从搜索树的根结点开始,根据节点的uct值向下寻找未扩展完全的节点;

S02:扩展阶段:从就绪队列中随机选择一个任务,选择可以执行的处理器,以此作为扩展节点;

S03:模拟阶段:从扩展节点开始,随机从就绪队列中选择任务,贪心地选择处理器,直到就绪队列中任务为空为止;

S04:回传阶段:根据模拟阶段获得的makespan值,回传更新从根节点到新的扩展节点之间的所有节点;

S05:重复上述步骤S01-S04,直到满足迭代次数限制或时间限制,最终返回一个最小的makespan值。

2.根据权利要求1所述的一种基于平衡探索与利用的蒙特卡洛树搜索方法,其特征在于,所述步骤S01还包括:若树节点已经扩展完全,则根据UCT公式计算出最大的UCT值作为搜索路径中新的节点。

3.根据权利要求2所述的一种基于平衡探索与利用的蒙特卡洛树搜索方法,其特征在于,所述UCT值的计算按如下公式计算求出,

其中,c是一个常量参数,主要用于再平衡探索和利用间的权重;Q(v')表示当前任务节点的累积回报;N(v')表示当前任务节点的访问次数;N(v)表示当前任务节点的父亲节点的访问次数;V(s)表示当前节点在t次模拟时访问了s次的方差再加上其中Xt表示t次模拟时的平均Q(v')值,表示总的平均Q(v')值。

4.根据权利要求3所述的一种基于平衡探索与利用的蒙特卡洛树搜索方法,其特征在于,所述步骤S02还包括:扩展节点时需对该节点进行初始化,设置Q(v')=0,N(v')=0。

5.根据权利要求3或4所述的一种基于平衡探索与利用的蒙特卡洛树搜索方法,其特征在于,所述步骤S04包括:更新任务节点访问次数以及任务节点累计回报值。

6.根据权利要求5所述的一种基于平衡探索与利用的蒙特卡洛树搜索方法,其特征在于,所述任务节点访问次数N(v')的更新方式为N(v')=N(v')+1,任务节点累计回报Q(v')的更新方式为:Q(v')=Q(v')+makespan。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1