基于专家经验的强化学习方法

文档序号:32652902发布日期:2022-12-23 19:44阅读:52来源:国知局
基于专家经验的强化学习方法

1.本发明涉及强化学习方法技术领域,特别涉及一种基于专家经验的强化学习方法。


背景技术:

2.现有技术中的强化学习算法,大多基于值函数的方法或基于策略梯度的方法。这两类方法都需要智能体与环境进行大量的数据交互,利用海量的实时经验数据对算法模型进行训练,才能得到较好的行动策略,然而,现有技术中的强化学习方法对于采样成本较高的任务难以取得较好的结果,存在算法收敛困难、训练速度降低、算法鲁棒性差的缺陷。


技术实现要素:

3.根据本发明实施例,提供了一种基于专家经验的强化学习方法,包含如下步骤:在外部的智能体中创建专家数据缓冲器、优先级数据缓冲器、目标网络、预测网络、策略网络、learner模块与若干个worker模块;对外部的任务环境进行数据采集,获得若干组第一经验数据与若干组第二经验数据;处理若干组第一经验数据与若干组第二经验数据,获得若干组高优先级数据与若干组替换数据;将若干组高优先级数据与若干组替换数据输入至learner模块中,获得若干组训练经验数据;智能体通过获取若干组训练经验数据来对策略网络的当前策略进行更新。进一步,对外部的任务环境进行数据采集,获得若干组第一经验数据与若干组第二经验数据,包含如下子步骤;通过人工采集的方式对任务环境中的高价值经验数据进行采集,获得若干组第一经验数据;若干个worker模块获取并使用策略网络的当前策略与任务环境进行交互,获得若干组第二经验数据。进一步,worker模块每个时隙采集一组第二经验数据,直至完成一整幕经验数据的收集,获得若干组第二经验数据。进一步,处理若干组第一经验数据与若干组第二经验数据,获得若干组高优先级数据与若干组替换数据,包含如下子步骤:将若干组第一经验数据存储于专家数据缓冲器;将若干组第二经验数据存储于优先级数据缓冲器,并将当前策略同步至learner模块;利用哈希算法处理若干组第一经验数据,获得与若干组第一经验数据一一对应的若干个第一哈希值;
使用目标网络与预测网络对若干组第二经验数据进行内部奖励评估,获得若干个内部奖励值;利用若干个内部激励值与若干组第二经验数据的若干个外部奖励值对若干组第二经验数据的状态价值函数估计,获得若干个内部状态价值函数与若干个外部状态价值函数;根据若干个内部状态价值函数与若干个外部状态价值函数计算获得若干组第二经验数据的总状态价值函数;优先级数据缓冲器对若干组第二经验数据进行筛选,将若干组第二经验数据中总状态价值函数较高、出现次数较少的第二经验数据赋予较高的优先级,获得若干组高优先级数据;利用哈希算法对其余的第二经验数据进行计算,获得若干个第二哈希值;将若干个第二哈希值与若干个第一哈希值进行对比,在其余的第二经验数据中筛选出若干组与第一哈希值近似的第二经验数据,获得若干组替换数据。进一步,总状态价值函数的计算公式如下:其中,参数v的含义为总状态价值函数,参数的含义为内部状态价值函数,参数的含义为外部状态价值函数。进一步,智能体通过获取若干组训练经验数据来对策略网络的当前策略进行更新,包含如下子步骤:使用v-trace方法通过重要性采样的方式,将总状态价值函数改写为可供learner模块学习的近似状态价值函数;智能体使用目标网络与预测网络的预测均方误差作为损失函数优化预测网络的参数;智能体使用总状态价值函数作为损失函数,通过策略梯度的方法更新策略网络的当前策略。根据本发明实施例的基于专家经验的强化学习方法,通过引入专家经验数据,并利用哈希算法将每个经验数据映射为一个唯一的哈希值。在训练过程中专家数据可以很好对价值函数较低的经验数据进行引导改进,使得策略网络快速且稳定的收敛,并且相比于传统的强化学习算法,本实施例通过引入内部奖励值,成功引导智能体对环境进行高效探索,避免了由于探索效能不够,而导致价值函数估计不准确,进而收敛到局部最优策略的问题,同时我们应用v-trace方法在内部状态价值函数和外部状态价值函数上,成功解决了行动策略与目标策略不同而造成优化结果出现较大偏差的问题,具有单位时隙吞吐率高、学习速度快的特点,解决了现有技术中存在的算法收敛困难、训练速度降低、算法鲁棒性差的缺陷。要理解的是,前面的一般描述和下面的详细描述两者都是示例性的,并且意图在于提供要求保护的技术的进一步说明。
附图说明
4.图1为根据本发明实施例基于专家经验的强化学习方法的步骤流程图;图2为图1中步骤s2的子步骤的流程图;图3为图1中步骤s3的子步骤的流程图;图4为图1中步骤s5的子步骤的流程图。
具体实施方式
5.以下将结合附图,详细描述本发明的优选实施例,对本发明做进一步阐述。首先,将结合图1~4描述根据本发明实施例的基于专家经验的强化学习方法,用于指引智能体学习有效的行动策略,其应用场景广阔。如图1所示,本发明实施例的基于专家经验的强化学习方法,包含如下步骤:在s1中,如图1所示,在外部的智能体中创建专家数据缓冲器、优先级数据缓冲器、目标网络、预测网络、策略网络、learner模块与若干个worker模块。在s2中,如图1所示,对外部的任务环境进行数据采集,获得若干组第一经验数据与若干组第二经验数据。进一步,对外部的任务环境进行数据采集,获得若干组第一经验数据与若干组第二经验数据,包含如下子步骤;在s21中,如图2所示,通过人工采集的方式对任务环境中的高价值经验数据进行采集,获得若干组第一经验数据。在s22中,如图2所示,若干个worker模块获取并使用策略网络的当前策略与任务环境进行交互,获得若干组第二经验数据。进一步,worker模块每个时隙采集一组第二经验数据,直至完成一整幕经验数据的收集,即获得若干组第二经验数据。在s3中,如图1所示,处理若干组第一经验数据与若干组第二经验数据,获得若干组高优先级数据与若干组替换数据。进一步,处理若干组第一经验数据与若干组第二经验数据,获得若干组高优先级数据与若干组替换数据,包含如下子步骤:在s31中,如图3所示,将若干组第一经验数据按照经验数据元组格式储于专家数据缓冲器,其中,st参数的含义为:动作初始观测到的状态,at参数的含义为:依照当前策略μ做出的动作,参数的含义为:智能体在当前环境执行当前动作的总的奖励值,st+1参数的含义为:环境转移到的下一个状态, done参数的含义为:是否触发终止条件导致任务终止。在s32中,如图3所示,将若干组第二经验数据按照五元组数据格式存储于优先级数据缓冲器,并将当前策略同步至learner模块,开始新一轮的交互,其中,st参数的含义为:动作初始观测到的状态,at参数的含义为:依照当前策略μ做出的动作,参数的含义为:得到的外部奖励值,st+1参数的含义为:
环境转移到的下一个状态, done参数的含义为:是否触发终止条件导致任务终止。在s33中,如图3所示,利用哈希算法处理若干组第一经验数据,获得与若干组第一经验数据一一对应的若干个第一哈希值。在s34中,如图3所示,使用目标网络与预测网络对若干组第二经验数据进行内部奖励评估,获得若干个内部奖励值。在s35中,如图3所示,利用若干个内部激励值与若干组第二经验数据的若干个外部奖励值对若干组第二经验数据的状态价值函数估计,获得若干个内部状态价值函数与若干个外部状态价值函数。在s36中,如图3所示,根据若干个内部状态价值函数与若干个外部状态价值函数计算获得若干组第二经验数据的总状态价值函数v。在s37中,如图3所示,优先级数据缓冲器对若干组第二经验数据进行筛选,将若干组第二经验数据中总状态价值函数v较高、出现次数较少的第二经验数据赋予较高的优先级,获得若干组高优先级数据。在s38中,如图3所示,利用哈希算法对其余的第二经验数据进行计算,获得若干个第二哈希值。在s39中,如图3所示,将若干个第二哈希值与若干个第一哈希值进行对比,在其余的第二经验数据中筛选出若干组与第一哈希值近似的第二经验数据,获得若干组替换数据。进一步,总状态价值函数v的计算公式如下:其中,参数v的含义为总状态价值函数,参数的含义为内部状态价值函数,参数的含义为外部状态价值函数。在s4中,如图1所示,将若干组高优先级数据与若干组替换数据输入至learner模块中,获得若干组训练经验数据。在s5中,如图1所示,智能体通过获取若干组训练经验数据来对策略网络的当前策略进行更新。进一步,智能体通过获取若干组训练经验数据来对策略网络的当前策略进行更新,包含如下子步骤:在s51中,如图4所示,使用v-trace方法通过重要性采样的方式,将总状态价值函数改写为可供learner模块学习的近似状态价值函数,解决了worker模块的行动策略与learner模块的待更新策略不一致的问题。
在s52中,如图4所示,智能体使用目标网络与预测网络的预测均方误差作为损失函数优化预测网络的参数。在s53中,如图4所示,智能体使用总状态价值函数作为损失函数,通过策略梯度的方法更新策略网络的当前策略。本实施例包含若干个worker模块和1个learner模块,worker模块用做与环境交互收集数据用,learner模块用于训练网络,更新策略用。算法中worker与learner是完全解耦的。首先可以通过人工控制的方式,在任务环境中收集一部分高质量的经验数据即若干组第一经验数据,并存储到专家数据缓冲器。利用哈希算法,针对专家数据中的每一组第一经验数据计算,得到与若干组第一经验数据一一对应的若干个第一哈希值。worker模块在每个时隙中,首先会根据当前从任务环境中感知得到的状态st,利用策略网络的当前策略μ,根据μ(at|st)得到智能体在状态st下的动作at。智能体在任务环境中执行动作at,环境根据智能体做出的动作,对状态进行迭代,得到新的状态st+1,并判断此时任务是否触发终止条件,如果触发终止条件则令标志符done为true,并终止任务,反之令标志符done为false,并继续执行任务。任务环境通过预置的奖励函数得到智能体在时隙t得到的外部奖励值。将上述五元组数据作为一个时隙的第二经验数据进行存储。如此往复一直进行迭代,直到触发终止条件,或达到最大迭代次数为止。worker模块将这一幕收集的所有第二经验数据储存至优先级数据缓冲器中,随后无需等待learner模块更新策略,直接同步learner模块最近一次更新得到的策略,并使用该策略进行接下来的交互与数据收集。本实施例的算法架构包含三个神经网络,分别是策略网络、目标网络、预测网络。策略网络是用来根据智能体收到的状态信息决定下一步动作的网络,每一轮都会进行更新并得到新的策略,而该策略也会在后续同步给worker模块。目标网络是一个随机初始化后就固定下来的网络,用来设置预测任务。而预测网络则需要智能体利用大量经验数据进行训练,以此提高智能体对已知状态在嵌入空间中映射值的预测精准度。目标网络和预测网络,都需要将观测到的状态值转换到一个嵌入空间向量中,目标网络可以写为:f:o

,而预测网络可以写为:。其中目标网络的权值等参数,在实验开始初始化后就固定下来了,而预测网络需要通过梯度下降的方法,最小化自身预测值与目标网络预测值的期望均方误差来进行训练,即最小化。其中是预测网络中的权值等参数,会在训练过程中更新。这种方法通过比较嵌入空间向量的均方误差,量化了智能体对于当前状态的熟悉程度。预测网络将采集到的状态值对应的嵌入向量作为样本数据,将目标网络对该嵌入向量的预测结果作为标注值,把判断状态熟悉程度的问题,转化成了一个监督学习问题。神经网络在初次遇到某状态s时,由于缺少训练,与目标网络预测值的期望均方误差会很大,因而产生的高内部奖励会引导智能体加大对于该状态的探索。在多次遇到相同或相似状态后,神经网络很好的拟合了目标网络的预测结果,此时预测值的期望均方误差会很小,内部奖励也会同步变小,因而变相的鼓励智能体去探索其他有着较高内部
奖励的环境状态。所以优先级数据缓冲器会对每个经验数据计算对应的内部奖励值。之后分别利用外部奖励值和内部奖励值计算状态s的状态价值函数内部状态价值函数和外部状态价值函数,内部状态价值函数用来度量状态s在内部奖励中的平均收益,外部状态价值函数用来度量状态s在环境奖励中的平均收益。总的状态价值函数可以写为v=。优先级数据缓冲器会利用算法将第二经验数据中总状态价值函数最大的以及较少出现的第二经验数据设置为高优先级数据,而对于总状态价值函数小的第二经验数据,则会计算得到它的哈希值,并和专家数据缓冲器中的第一经验数据的哈希进行对比,选取最接近的第一经验数据作为替换数据来替换掉对应的第二经验数据。将高优先级数据和替换数据打包输入到learner模块。对于learner的训练。由于worker模块采样数据所使用的策略和learner模块当前待更新的策略可能不是同一个策略,存在时间上的差异。这就会造成策略更新存在偏差,为了解决这个问题,采用v-trace方法对总状态价值函数v进行偏差校正,得到可供learner模块学习的合适的价值函数估计值。最后,智能体使用目标网络与预测网络的预测均方误差作为损失函数,优化预测网络的参数。使用价值函数估计值作为损失函数,通过策略梯度的方法更新策略网络得到新的策略。后续结束一幕交互任务的worker模块,会从learner模块中直接同步新学习到的策略,并开始新的交互。以上,参照图1~4描述了根据本发明实施例的基于专家经验的强化学习方法,通过引入专家经验数据,并利用哈希算法将每个经验数据映射为一个唯一的哈希值。在训练过程中专家数据可以很好对价值函数较低的经验数据进行引导改进,使得策略网络快速且稳定的收敛,并且相比于传统的强化学习算法,本实施例通过引入内部奖励值,成功引导智能体对环境进行高效探索,避免了由于探索效能不够,而导致价值函数估计不准确,进而收敛到局部最优策略的问题,同时我们应用v-trace方法在内部状态价值函数和外部状态价值函数上,成功解决了行动策略与目标策略不同而造成优化结果出现较大偏差的问题,具有单位时隙吞吐率高、学习速度快的特点,解决了现有技术中存在的算法收敛困难、训练速度降低、算法鲁棒性差的缺陷。需要说明的是,在本说明书中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包含
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1