基于深度强化学习网络构建多样化搜索策略的模型的方法

文档序号:28619460发布日期:2022-01-22 13:15阅读:334来源:国知局
基于深度强化学习网络构建多样化搜索策略的模型的方法

1.本公开涉及深度强化学习领域和图像处理技术领域,尤其涉及一种基于深度强化学习网络构建多样化搜索策略的模型的方法。


背景技术:

2.随着人工智能技术的发展,在面对复杂场景进行决策时,提出了深度强化学习的方法。深度学习(dl,deep learning)是机器学习中一种对数据进行表征学习的方法。强化学习(rl,reinforcement learning)是通过对未知环境一边探索一边建立环境模型以及学习得到一个最优策略。深度强化学习(drl,deep reinforcementlearning)是将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的信息进行控制,是一种更接近人类思维方式的人工智能方法。
3.深度强化学习已经成为一种流行的训练智能体执行复杂任务的方法。深度强化学习通过最大化奖励信号来训练智能体。目前深度强化学习取得的成功大多是在奖励信号被精心设计且足够稠密的场景。然而,在许多环境中,奖励信号对智能体来说是非常稀疏的。在奖励稠密的场景中,智能体可以通过采取随机的行动轻松地找到奖励。但是,在奖励稀疏的场景下,希望通过随机探索获得奖励是很困难的。而如果没有奖励信号,深度强化学习算法将无法更新其策略。在奖励稀疏的场景中,智能体必须具备探索的能力。因此,深度强化学习中的探索问题具有极其重要的研究和应用价值。
4.然而,传统深度强化学习的探索方法很难在输入为高维数据的场景(例如以图像和高维向量为状态的环境)下处理误导性奖励的问题,这些误导性奖励会阻止智能体获得长期来看更高的回报,这最终使得智能体陷入到局部解中。


技术实现要素:

5.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种基于深度强化学习网络构建多样化搜索策略的模型的方法。
6.第一方面,本公开的实施例提供了一种基于深度强化学习网络构建模型的方法。上述方法包括:获取初始化状态下的多个智能体对图像仿真环境进行搜索的搜索数据,上述图像仿真环境中具有:局部最优对应的第一目标位置和全局最优对应的第二目标位置;根据上述搜索数据中的位置状态信息和初始化的虚拟奖励模型,为上述多个智能体生成对应的虚拟奖励和针对上述虚拟奖励的权重,其中,当上述搜索数据指示上述多个智能体中的一个处于上述第一目标位置时,上述虚拟奖励的权重为负值;根据上述虚拟奖励和针对上述虚拟奖励的权重,更新上述搜索数据中的奖励信息,并对应更新上述智能体的搜索策略模型和更新上述虚拟奖励模型;以及根据更新后的搜索数据和虚拟奖励模型,对更新后的搜索策略模型继续进行训练,直至达到训练结束条件,训练完成的搜索策略模型作为能够定位至上述第二目标位置的图像搜索模型。
7.根据本公开的实施例,上述虚拟奖励模型包括:虚拟奖励生成器和判别器;其中,
上述虚拟奖励生成器用于激励上述智能体对历史访问次数相对较少的图像位置状态进行访问;上述判别器用于确定上述多个智能体对特定图像位置状态访问的概率。
8.根据本公开的实施例,上述搜索数据为针对各个智能体的依时序分布的数据组序列,上述数据组序列中每一时刻的数据组包含:当前状态,针对当前状态的当前搜索动作,针对当前状态实施当前搜索动作后得到的下一时刻状态,本次奖励信息。其中,上述根据上述搜索数据中的状态信息和初始化的虚拟奖励模型,为上述多个智能体生成对应的虚拟奖励和针对上述虚拟奖励的权重,包括:针对每一时刻的数据组,执行以下步骤:将上述下一时刻状态输入至上述虚拟奖励生成器中,输出得到上述下一时刻状态对应的虚拟奖励;将上述下一时刻状态输入至上述判别器中,输出得到上述下一时刻状态由各个智能体进行访问的概率;以及根据上述下一时刻状态由当前智能体进行访问的概率和平均访问概率,生成针对上述虚拟奖励的权重。
9.根据本公开的实施例,上述智能体的总个数为n,上述下一时刻状态由当前智能体进行访问的概率表示为,其中,z表示当前智能体的编号,z的取值为1,2,3,
……
,n;表示下一时刻状态;上述平均访问概率为1/n;其中,上述虚拟奖励的权重满足以下表达式:。
10.根据本公开的实施例,上述根据上述虚拟奖励和针对上述虚拟奖励的权重,更新上述搜索数据中的奖励信息,包括:将上述虚拟奖励和和针对上述虚拟奖励的权重对应进行加权计算,得到虚拟奖励信息;以及对上述搜索数据中的上述本次奖励信息与虚拟奖励信息进行加和计算,得到更新后的奖励信息。
11.根据本公开的实施例,上述对应更新上述智能体的搜索策略模型,包括:将针对各个智能体的包含更新后的奖励信息的搜索数据作为当前智能体的搜索策略模型的输入,基于深度强化学习网络中的actor-critic算法对上述搜索策略模型的参数进行更新;其中,上述搜索策略模型包括策略网络和值网络,上述策略网络的输入为当前状态,上述策略网络的输出为针对当前状态的当前搜索动作;上述值网络用于根据当前状态预测出能够完成搜索任务的概率;对上述搜索策略模型的参数进行更新包括:对上述策略网络和上述值网络的参数均进行更新。
12.根据本公开的实施例,上述判别器包括神经网络模型,上述虚拟奖励生成器包括:参数随机初始化且参数固定的目标网络和参数可训练的预测网络;其中,更新上述虚拟奖励模型,包括:将更新后的搜索数据中的状态信息作为上述判别器的输入,基于第一损失函数来更新上述判别器的参数;将更新后的搜索数据中的状态信息作为上述虚拟奖励生成器的输
入,基于第二损失函数来更新上述虚拟奖励生成器的参数;其中,上述第一损失函数表示为,满足以下表达式:,其中,m表示训练数据的总个数,判别器的神经网络模型以状态s为输入,输出该状态s属于第z个智能体的概率,z的取值为1,2,3,
……
,n,n表示智能体的总个数;其中,上述第二损失函数表示为,满足以下表达式:。
13.根据本公开的实施例,上述获取初始化状态下的多个智能体对图像仿真环境进行搜索的搜索数据,包括:针对初始化状态下的多个智能体中的每个智能体,将图像仿真环境给出的当前状态s
t
作为当前智能体的输入,当前智能体输出与上述当前状态s
t
对应的搜索动作a
t
;图像仿真环境根据上述当前状态s
t
以及对应的搜索动作a
t
,输出下一时刻状态s
t+1
、当前智能体获得的本次奖励信息r
t
和终止标识符d
t
;基于时序进行迭代,得到针对各个智能体的依时序分布的数据组序列,上述数据组序列为六元组形式:(s
t
,a
t
,r
t
,d
t
,s
t+1
,z),其中z表示智能体的编号,z的取值为1,2,3,
……
,n,n表示智能体的总个数。
14.第二方面,本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如上所述的基于深度强化学习网络构建多样化搜索策略的模型的方法。
15.第三方面,本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的基于深度强化学习网络构建多样化搜索策略的模型的方法。
16.本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:通过根据搜索数据中的位置状态信息和初始化的虚拟奖励模型,为多个智能体生成对应的虚拟奖励和针对上述虚拟奖励的权重,其中,当上述搜索数据指示上述多个智能体中的一个位于局部最优对应的第一目标位置时,上述虚拟奖励的权重为负值;基于虚拟奖励的权重的设置,能够使得不同智能体访问不同的状态,一旦某个智能体陷入了误导性奖励(获得误导性奖励的方式就是访问产生误导性奖励的状态,例如访问图像仿真环境中的第一目标位置对应的状态),那么当其他智能体再次访问导向这个误导性奖励的一系列状态时,由于权重是负值,所以其余这些智能体获得的虚拟奖励的信号是负的,也就会迫使这些智能体不再访问导向这个误导性奖励的这一系列状态,从而保证不同的智能体访问不
同的状态集合,使得更新后的搜索策略模型经过训练后能够找到全局最优对应的第二目标位置,有效解决了现有技术中对高维数据(例如为3d图像、实际场景数据等)进行搜索时陷入误导性奖励导致的无法搜索到全局最优的技术问题,能够降低智能体由于误导性奖励陷入局部解的概率。
附图说明
17.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
18.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1示意性地示出了根据本公开实施例的基于深度强化学习网络构建多样化搜索策略的模型的方法的流程图;图2示意性地示出了根据本公开实施例的图像仿真环境的示意图,其中(a)为3d图像仿真环境的立体示意图,(b)为该3d图像仿真环境的俯视图;图3示意性地示出了根据本公开实施例的步骤s110的详细实施过程示意图;图4示意性地示出了根据本公开实施例的判别器的结构示意图;图5示意性地示出了根据本公开实施例的步骤s120和步骤s130中更新奖励信息的实施过程示意图;图6a示意性地示出了根据现有技术进行目标搜索的结果;图6b示意性地示出了根据本公开实施例提供的方法构建得到的图像搜索模型进行目标搜索的结果;以及图7示意性地示出了本公开实施例提供的电子设备的结构框图。
具体实施方式
20.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
21.本公开的第一个示例性实施例提供了一种基于深度强化学习网络构建模型的方法。
22.图1示意性地示出了根据本公开实施例的基于深度强化学习网络构建多样化搜索策略的模型的方法的流程图。
23.参照图1所示,本公开实施例提供的基于深度强化学习网络构建多样化搜索策略的模型的方法,包括以下步骤:s110、s120、s130和s140。
24.在步骤s110,获取初始化状态下的多个智能体对图像仿真环境进行搜索的搜索数据,上述图像仿真环境中具有:局部最优对应的第一目标位置和全局最优对应的第二目标位置。
25.图2示意性地示出了根据本公开实施例的图像仿真环境的示意图,其中(a)为3d图
像仿真环境的立体示意图,(b)为该3d图像仿真环境的俯视图。
26.参照图2中(a)和(b)所示,上述图像仿真环境例如为3d图像仿真环境,该3d图像仿真环境可以是对虚拟环境进行仿真的环境,例如为对游戏界面中的环境(例如为立体迷宫)进行仿真的环境,或者为用于模拟真实环境(例如具有不同重要程度的物品在火灾下的救援场景)的仿真环境。智能体所在的装置或者智能体本身可以通过传感器感知周围环境(真实环境或者虚拟界面中的环境),并利用感知数据来仿真得到上述图像仿真环境。
27.在该3d图像仿真环境中,以包括两种目标作为示例,各个目标的具体个数不做限制。在图2的(b)中以五角星来示意目标,其中一种目标为局部最优对应的第一目标goal1,该第一目标goal1位于3d图像仿真环境中的第一目标位置;另一种目标为全局最优对应的第二目标goal2,该第二目标goal2位于3d图像仿真环境中的第二目标位置。上述第一目标的第一目标位置和上述第二目标的第二目标位置可以是静止不变(随着时间)的,也可以是随着时间动态变化的。
28.智能体在初始化状态下,该智能体的搜索策略模型中的参数为初始化值。本公开的实施例中,智能体是指能通过传感器感知环境和通过执行器作用于环境的一个程序或者一个实体,例如可以是应用程序:以状态为输入,以动作为输出;也可以是安装有上述应用程序的一个电子设备,例如具有传感器(用于探测环境)的智能机器人(例如为搜救机器人)或者其他智能设备。
29.通过智能体与图像仿真环境进行交互,即智能体在图像仿真环境中,将智能体所处的当前状态输入至初始化后的搜索策略模型中,输出得到该智能体所要执行的搜索动作,图像仿真环境根据智能体所处的当前状态(例如为当前位置)和搜索动作,得到智能体位于图像仿真环境中的下一时刻状态以及本次奖励信息。如此基于时序进行迭代,得到多个智能体各自的搜索数据,该搜索数据至少包括位置状态信息(可以对应于当前状态、下一时刻状态的描述)和奖励信息。
30.在步骤s120,根据上述搜索数据中的位置状态信息和初始化的虚拟奖励模型,为上述多个智能体生成对应的虚拟奖励和针对上述虚拟奖励的权重,其中,当上述搜索数据指示上述多个智能体中的一个处于上述第一目标位置时,上述虚拟奖励的权重为负值。
31.初始化的虚拟奖励模型(例如为神经网络模型)的参数为初始化值。当上述搜索数据指示上述智能体靠近上述第一目标位置时,上述虚拟奖励的权重为负值;基于虚拟奖励的权重的设置,能够使得不同智能体访问不同的状态。一旦某个智能体陷入了误导性奖励(获得误导性奖励的方式就是访问产生误导性奖励的状态,例如某个智能体访问图像仿真环境中的第一目标位置对应的状态),那么当其他智能体再次访问导向这个误导性奖励的一系列状态时,由于权重是负值,所以其余这些智能体获得的虚拟奖励的信号是负的,也就会迫使这些智能体不再访问导向这个误导性奖励的这一系列状态,从而保证不同的智能体访问不同的状态集合。
32.在步骤s130,根据上述虚拟奖励和针对上述虚拟奖励的权重,更新上述搜索数据中的奖励信息,并对应更新上述智能体的搜索策略模型和更新上述虚拟奖励模型。
33.通过根据虚拟奖励和针对上述虚拟奖励的权重来对搜索数据中的奖励信息进行更新,并对应更新智能体的搜索策略模型和更新上述虚拟奖励模型,实现了通过权重的正负来对搜索方向(搜索策略的一个具体体现)的动态调整,以使得多个智能体不会局限于局
部解。上述虚拟奖励及其权重整体用于在奖励信息(本次奖励信息)的基础上给出搜索方向的导向,当权重为负值时,虚拟奖励对搜索数据中的奖励信息起到负向调节作用,如此会使得智能体采用与之前采用的移动策略(例如为靠近第一目标位置的移动方式)相反的策略(比如为远离第一目标位置并且逐步靠近第二目标位置)。
34.在步骤s140,根据更新后的搜索数据和虚拟奖励模型,对更新后的搜索策略模型继续进行训练,直至达到训练结束条件,训练完成的搜索策略模型作为能够定位至上述第二目标位置的图像搜索模型。
35.上述训练结束条件包括:数据量达到预设数量,或者训练时长达到设定值等。
36.基于上述步骤s110~s140,通过根据搜索数据中的位置状态信息和初始化的虚拟奖励模型,为多个智能体生成对应的虚拟奖励和针对上述虚拟奖励的权重,其中,当上述搜索数据指示上述多个智能体中的一个位于局部最优对应的第一目标位置时,上述虚拟奖励的权重为负值;这样一来,基于虚拟奖励的权重的设置,能够使得不同智能体访问不同的状态,一旦某个智能体陷入了误导性奖励,那么当其他智能体再次访问导向这个误导性奖励的一系列状态时,由于权重是负值,所以其余这些智能体获得的虚拟奖励的信号是负的,也就会迫使这些智能体不再访问导向这个误导性奖励的这一系列状态,从而保证不同的智能体访问不同的状态集合,使得更新后的搜索策略模型经过训练后能够找到全局最优对应的第二目标位置,有效解决了现有技术中对高维数据(例如为3d图像)进行搜索时陷入误导性奖励导致的无法搜索到全局最优的技术问题,能够降低智能体由于误导性奖励陷入局部解的概率。
37.下面来对上述各个步骤的具体实施过程进行详细介绍。
38.图3示意性地示出了根据本公开实施例的步骤s110的详细实施过程示意图。
39.以多个智能体的总个数为n(n≥2且n为整数)进行示例,在图3中示例当前智能体分配了m(m≥2且m为整数)个图像仿真环境,在图3中仅以其中一个智能体与m个图像仿真环境(cz1,cz2,
……
,czm)中的czm的交互过程作为示例。
40.例如,参照图3所示,上述搜索数据为针对各个智能体的依时序分布的数据组序列,上述数据组序列中每一时刻的数据组包含:当前状态s
t
,针对当前状态的当前搜索动作a
t
,针对当前状态实施当前搜索动作后得到的下一时刻状态s
t+1
,本次奖励信息r
t
。针对各个智能体的搜索数据中携带有智能体的编号标识和终止标识符。
41.根据本公开的实施例,参照图3所示,上述步骤s110中,获取初始化状态下的多个智能体对图像仿真环境进行搜索的搜索数据,包括:针对初始化状态下的多个智能体中的每个智能体,将图像仿真环境给出的当前状态s
t
(对应于智能体在图像仿真环境中所处的位置)作为当前智能体的输入,当前智能体输出与上述当前状态s
t
对应的搜索动作a
t
;图像仿真环境根据上述当前状态s
t
以及对应的搜索动作a
t
,输出下一时刻状态s
t+1
、当前智能体获得的本次奖励信息r
t
和终止标识符d
t
;基于时序进行迭代,得到针对各个智能体的依时序分布的数据组序列,上述数据组序列为六元组形式:(s
t
,a
t
,r
t
,d
t
,s
t+1
,z),其中z表示智能体的编号,z的取值为1,2,3,
……
,n,n表示智能体的总个数。
42.其中,初始时刻t的取值为0,例如图2中(b)所示例的s0状态。
43.下面结合图4和图5来描述步骤s120的详细实施过程。
44.图4示意性地示出了根据本公开实施例的判别器的结构示意图;图5示意性地示出
了根据本公开实施例的步骤s120和步骤s130中更新奖励信息的实施过程示意图。
45.根据本公开的实施例,上述虚拟奖励模型包括:虚拟奖励生成器和判别器。其中,上述虚拟奖励生成器用于激励上述智能体对历史访问次数相对较少的图像位置状态进行访问。上述判别器用于确定上述多个智能体对特定图像位置状态访问的概率。
46.判别器的作用包括:以某个状态作为输入,输出该状态由各个智能体进行访问的概率,第z个智能体的输出概率与历史访问数据(状态数据)中,该第z个智能体访问该状态的次数成正比。虚拟奖励生成器的作用包括:以某个状态作为输入,输出虚拟奖励。虚拟奖励与历史访问数据(状态数据)中所有智能体访问该状态的次数成反比。
47.结合图4和图5所示,根据本公开的实施例,上述判别器包括神经网络模型410,上述虚拟奖励生成器包括两个神经网络模型,分别为参数随机初始化且参数固定的目标网络510和参数可训练的预测网络520。
48.在上述步骤s120中,根据上述搜索数据中的状态信息和初始化的虚拟奖励模型,为上述多个智能体生成对应的虚拟奖励和针对上述虚拟奖励的权重,包括:针对每一时刻的数据组,执行以下子步骤:s121、s122和s123。
49.在子步骤s121,将上述下一时刻状态输入至上述虚拟奖励生成器中,输出得到上述下一时刻状态对应的虚拟奖励。
50.例如,参照图5所示,将下一时刻状态s
t+1
输入至参数经过初始化的虚拟奖励生成器中,经过初始化状态下的目标网络510和预测网络520进行处理后,输出得到虚拟奖励,在图5中以be来示意虚拟奖励。
51.在子步骤s122,将上述下一时刻状态输入至上述判别器中,输出得到上述下一时刻状态由各个智能体进行访问的概率。
52.例如,参照图4和图5所示,将下一时刻状态s
t+1
输入至判别器中的神经网络模型410中,经过神经网络模型410处理后输出得到下一时刻状态由当前智能体进行访问的概率。
53.在子步骤s123,根据上述下一时刻状态由当前智能体进行访问的概率和平均访问概率,生成针对上述虚拟奖励的权重,由于该权重有助于增加搜索策略的多元性,因此在图5中将权重描述为多样性因子/多样化因子(diversity factor)。
54.根据本公开的实施例,上述智能体的总个数为n,上述下一时刻状态由当前智能体进行访问的概率表示为,其中,z表示当前智能体的编号,z的取值为1,2,3,
……
,n;表示下一时刻状态;上述平均访问概率为1/n。
55.其中,上述虚拟奖励的权重满足以下表达式:(1)。
56.根据本公开的实施例,上述步骤s130中,根据上述虚拟奖励和针对上述虚拟奖励的权重,更新上述搜索数据中的奖励信息,包括以下子步骤:s131和s132。
57.在子步骤s131,将上述虚拟奖励和和针对上述虚拟奖励的权重对应进行加权计算,得到虚拟奖励信息。
58.参照图5所示,以b
de
来示意虚拟奖励信息。
59.在子步骤s132,对上述搜索数据中的上述本次奖励信息与虚拟奖励信息进行加和计算,得到更新后的奖励信息。
60.参照图5所示,以r
de
来示意更新后的奖励信息。
61.根据本公开的实施例,上述步骤s130中,对应更新上述智能体的搜索策略模型,包括:将针对各个智能体的包含更新后的奖励信息的搜索数据作为当前智能体的搜索策略模型的输入,基于深度强化学习网络中的actor-critic算法对上述搜索策略模型的参数进行更新。
62.其中,上述搜索策略模型包括策略网络和值网络,上述策略网络的输入为当前状态,上述策略网络的输出为针对当前状态的当前搜索动作;上述值网络用于根据当前状态预测出能够完成搜索任务的概率。对上述搜索策略模型的参数进行更新包括:对上述策略网络和上述值网络的参数均进行更新。
63.在一实施例中,对于策略网络,采用策略梯度进行更新,上述策略梯度满足以下表达式:(2),其中,表示第z个智能体的策略梯度,m表示训练数据的总个数,π表示策略网络,θ表示网络参数,z表示当前智能体的编号,z的取值为1,2,3,
……
,n,表示当前时刻t对应的当前状态的值估计,表示下一时刻t+1对应的下一时刻状态的值估计,表示本次奖励信息,表示当前状态选择搜索动作的概率。
64.上述值网络的损失函数满足以下表达式:(3)。
65.根据本公开的实施例,上述判别器包括神经网络模型,上述虚拟奖励生成器包括:参数随机初始化且参数固定的目标网络和参数可训练的预测网络。
66.其中,上述步骤s130中,更新上述虚拟奖励模型,包括:将更新后的搜索数据中的状态信息作为上述判别器的输入,基于第一损失函数来更新上述判别器的参数;将更新后的搜索数据中的状态信息作为上述虚拟奖励生成器的输入,基于第二损失函数来更新上述虚拟奖励生成器的参数。
67.其中,上述第一损失函数表示为,满足以下表达式:
(4),其中,m表示训练数据的总个数,判别器的神经网络模型以状态s为输入,输出该状态s属于第z个智能体的概率,z的取值为1,2,3,
……
,n,n表示智能体的总个数;其中,上述第二损失函数表示为,满足以下表达式:(5)。
68.下面结合一具体实例来描述本公开的基于深度强化学习网络构建模型的方法的实施过程。
69.该方法包括以下步骤:步骤a,初始化智能体、图像仿真环境、判别器以及虚拟奖励生成器。
70.具体地,初始化5(n的一种示例)个智能体的策略网络和值网络的参数。初始化5
×
32(n
×
m的一种示例)个图像仿真环境。初始化判别器中神经网络模型的参数。初始化由目标网络和预测网络构成的虚拟奖励生成器的参数。初始化数据收集列表。需要注意的是每个图像仿真环境初始化后将返回初始状态数据(图像数据),即第0步。
71.步骤b,智能体与环境交互,收集搜索数据。
72.具体地,步骤b可以采用以下子步骤来实现:子步骤b-1,并行使用5
×
32个图像仿真环境,为每个智能体分配32个图像仿真环境(后续可以简称为环境)。
73.子步骤b-2,对于上述并行环境中的其中一个环境,将当前环境的状态数据送入对应的智能体的搜索策略网络,得到当前状态对应的动作输出(输出搜索动作)。
74.子步骤b-3,对于所有环境,执行子步骤b-2。
75.子步骤b-4,各个环境接收对应的智能体的动作进行一步前向仿真,并将下一步的状态数据、本次奖励信息以及终止标识符返回。
76.子步骤b-5,上述子步骤b-2到b-4过程重复128(时序长度)次,可以得到160个具有128时序轨迹长度的六元组形式的搜索数据(s
t
,a
t
,r
t
,d
t
,s
t+1
,z),该搜索数据作为训练数据,t的取值为0~127(包括端点值),共有128组训练数据。
77.值得注意的是,期间,当某个时刻环境仿真结束,则重置环境(重新初始化)继续进行仿真。
78.子步骤b-6,将上述搜索数据存入数据收集列表。
79.步骤c,生成虚拟奖励信号。
80.具体的,步骤c可以采用以下子步骤来实现:子步骤c-1,从数据收集列表中拉取训练数据。
81.子步骤c-2,对于上述训练数据中的一个搜索数据(s
t
,a
t
,r
t
,d
t
,s
t+1
,z)(t的取值
是确定的),将其中的下一时刻状态s
t+1
送入虚拟奖励生成器,得到虚拟奖励b
t

82.步骤d,生成虚拟奖励权重。
83.具体的,步骤d可以采用以下子步骤来实现:子步骤d-1,从数据收集列表中拉取训练数据。
84.子步骤d-2,对于上述训练数据中的一个搜索数据(s
t
,a
t
,r
t
,d
t
,s
t+1
,z)(t的取值是确定的),将其中的下一时刻状态s
t+1
送入判别器,得到其是智能体z生成的概率,再根据上述公式(1)来计算虚拟奖励的权重α
t

85.子步骤d-3,更新奖励信号:r
t
(更新后)=r
t
(更新前)+α
t
×bt

86.子步骤d-4,将上述子步骤c-1、c-2,d-1、d-2、d-3针对数据收集列表中的所有数据实施,即针对各个数据,执行160
×
128次,直到对数据收集列表中的所有搜索数据(或者描述为训练数据)都进行了更新。
87.其中,由于当上述搜索数据指示上述多个智能体中的一个处于上述第一目标位置时,上述虚拟奖励的权重为负值,比如5个智能体中的智能体2的访问轨迹是s0,s1,s2,s3,s*,s*表示误导性状态,当智能体2访问这一状态s*后,对应虚拟奖励的权重为负值,那么其他智能体1、3、4和5如果在后续访问这些状态时都会得到负奖励,这就迫使这些智能体1、3、4和5通过调整搜索策略,避免访问导向状态s*的一系列状态。
88.步骤e,更新模型参数。
89.具体的,步骤e可以采用以下子步骤来实现:子步骤e-1,从数据收集列表中拉取训练数据。
90.子步骤e-2,使用数据收集列表中的所有数据,根据数据中的智能体编号z更新对应智能体的策略网络和值网络的参数;通过交叉熵损失更新判别器的参数;更新包含一个参数随机初始化且参数固定的目标网络和一个参数可训练的预测网络的虚拟奖励生成器的参数,具体更新方法可以参照前述实施例的描述,这里不再赘述。
91.步骤f,清空数据收集列表,保存模型参数。
92.具体的,步骤f可以采用以下子步骤来实现:子步骤f-1,清空数据收集列表中的数据。
93.子步骤f-2,重复前述步骤b~e的过程预设次数(例如为103次),完成一个版本参数的更新,并保存所有智能体的策略网络和值网络的参数;保存判别器的参数;保存虚拟奖励生成器中的目标网络和预测网络的参数。
94.步骤g,持续训练智能体,直到迭代完成。
95.具体地,重复步骤b~e,直到收集的总数据量超过预设数据量的要求(例如为2
×
108)。
96.上述构建搜索模型的方法与已有的深度强化学习的搜索方法相比,能够解决现有方法很难在输入为高维数据(图像)的场景下处理误导性奖励的问题,降低了智能体由于误导性奖励陷入局部解的概率。
97.下面结合实际实际结果来对比说明本公开实施例提供的方法相较于现有的深度强化学习的探索方法的优势。
98.参照图2所示,3d图像仿真环境为一游戏场景,游戏的任务是让智能体找到目标,一旦找到目标游戏就结束。上述3d图像仿真环境中的第一目标goal1对应于小额奖励,例如
为奖励值为1分,第二目标goal2对应于大额奖励,例如为奖励值为10分,该第一目标goal1的第一目标位置距离智能体的初始位置(初始状态s0)较近,第二目标goal2的第二目标位置距离智能体的初始位置较远。
99.图6a示意性地示出了根据现有技术进行目标搜索的结果,参照图6a所示,采用现有的深度强化学习方法对3d图像仿真环境中的目标进行搜索,结果是通过环境感知和学习,最终定位至局部最优解对应的第一目标goal1,由此可知,现有技术中会陷入误导性奖励中。
100.图6b示意性地示出了根据本公开实施例提供的方法构建得到的图像搜索模型进行目标搜索的结果,参照图6b所示,采用本公开实施例提供的方法对上述3d图像仿真环境中的目标进行搜索,最终能够实现2个探索路径,其内在对应于两个搜索策略网络,当某一个智能体学习到图6b中采用空白箭头示意的接近第一目标的搜索策略之后,会使得虚拟奖励的权重为负值,从而导致其他智能体如果再学习到接近第一目标goal1的搜索策略的话就会被惩罚(对应于虚拟奖励信息为负值),也就迫使其他智能体变化搜索策略,采用远离上述第一目标的搜索策略,能够进一步探索环境并学习到填充箭头示意的接近第二目标goal2的搜索策略。
101.本公开上述实施例提供的各个技术方案可以全部或部分步骤以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本公开的实施例实施例的电子设备中的一些或者全部部件的一些或者全部功能。本公开的实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。实现本公开的实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
102.本公开的第二个示例性实施例提供了一种电子设备。
103.图7示意性示出了本公开实施例提供的电子设备的结构框图。
104.参照图7所示,本公开实施例提供的电子设备700包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701、通信接口702和存储器703通过通信总线704完成相互间的通信;存储器703,用于存放计算机程序;处理器701,用于执行存储器上所存放的程序时,实现如上所述的基于深度强化学习网络构建多样化搜索策略的模型的方法。
105.本公开的第三个示例性实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的基于深度强化学习网络构建多样化搜索策略的模型的方法。
106.该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
107.根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可
以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
108.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
109.以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1