一种细粒度专家行为模仿学习方法、装置、介质及终端

文档序号:33171076发布日期:2023-02-04 02:34阅读:29来源:国知局
一种细粒度专家行为模仿学习方法、装置、介质及终端

1.本发明涉及模仿学习领域,尤其涉及一种细粒度专家行为模仿学习方法、装置、介质及终端。


背景技术:

2.现有模仿学习多采用行为克隆方法和逆强化学习方法,其中,采用行为克隆方法可学习专家状态到专家动作的映射关系,但行为克隆方法具有在非完备信息三维视频游戏环境下,直接从高维空间中学习映射十分困难和会遇到分布漂移及复合误差的问题;而逆强化学习方法因涉及两个强化学习过程,通常具有训练难度高、效率低、不稳定的问题,除此之外上述两种方法往往需要大量的专家数据才能取得相对比较好的结果,而收集大量高质量的专家数据往往存在一定困难。


技术实现要素:

3.鉴于上述现有技术的不足,本技术的目的在于提供一种细粒度专家行为模仿学习方法、装置、介质及终端,旨在解决传统模仿学习方法从高维状态、动作空间直接模仿时学习十分困难,最终得到的策略与专家策略偏差较大的问题。
4.为解决上述技术问题,本技术实施例第一方面提供了一种细粒度专家行为模仿学习方法,所述方法包括:
5.获取智能体的当前环境状态信息,将所述当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据所述预测信息控制所述智能体执行相应动作,采集任务完成情况信息和当前所述动作的状态信息;
6.根据所述动作的状态信息计算单次奖励值,根据所述任务完成情况信息计算任务奖励值;
7.根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将所述任务奖励值和每局若干所述单次奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型,并将所述训练后的预测网络模型输出的策略返回。
8.作为进一步改进技术方案,所述预设预测网络模型为基于深度强化学习方法构建的操作预测网络模型。
9.作为进一步改进技术方案,所述获取智能体的当前环境状态信息之前还包括预先获取专家决策数据。
10.作为进一步改进技术方案,所述获取智能体的当前环境状态信息,将所述当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据所述预测信息控制所述智能体执行相应动作,采集任务完成情况信息和当前所述动作的状态信息包括:
11.获取智能体的当前环境状态信息,将所述当前环境状态信息输入所述操作预测网络模型中,以得到所述预测信息,其中,所述当前环境状态信息包括坐标信息、角度信息和
姿态信息,所述预测信息为动作概率分布;
12.基于所述动作概率分布采样选取一个动作操作信息,根据所述动作操作信息执行相应动作,其中,每个所述动作操作信息对应一个概率;
13.采集任务完成情况信息和当前所述动作的状态信息。
14.作为进一步改进技术方案,所述根据所述动作的状态信息计算单次奖励值,根据所述任务完成情况信息计算任务奖励值,包括:
15.将所述动作的状态信息与所述专家决策数据进行对照,得到差异信息,根据所述差异信息计算单次模仿奖励值,其中,所述动作的状态信息与所述专家决策数据进行对照为将所述动作的状态信息中的动作关键帧与所述专家决策数据中的专家关键帧进行对照;
16.根据所述任务完成情况信息计算任务奖励值。
17.作为进一步改进技术方案,所述根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将所述任务奖励值和每局若干所述单次奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型,并将所述训练后的预测网络模型输出的策略返回包括:
18.将所述智能体初始化至随机采样状态;
19.采用课程学习的方式并根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将若干所述单次模仿奖励值与所述任务奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型;
20.将所述训练后的预测网络模型输出的策略返回。
21.作为进一步改进技术方案,采用课程学习的方式并根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将若干所述单次模仿奖励值与所述任务奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型包括:
22.选择预设时间段的所述专家决策数据对所述预设预测网络模型进行模仿学习训练,将预设时间段内所有单次模仿奖励值相加,得到单段模仿奖励值;
23.对是否再次进行训练进行判断,若所述单段模仿奖励值小于单段奖励阈值或触发提前终止条件时未通过单段训练,则重复对所述预设预测网络模型进行模仿学习训练,若所述单段模仿奖励值大于单段奖励阈值时通过单段训练,则在所述预设时间段的基础上增加新的时间段,得到累积时间段;
24.选择所述累积时间段的所述专家决策数据重复对所述预设预测网络模型进行模仿学习训练并重复对是否再次进行训练进行判断的过程,直至累积时间段等于一局时间段且所述任务奖励值与所述一局时间段内所有所述单次模仿奖励值相加值大于一局奖励阈值时完成对所述预设预测网络模型的训练,得到训练后的预测网络模型。
25.本技术实施例第二方面提供了一种细粒度专家行为模仿学习装置,包括:
26.信息采集模块,用于获取智能体的当前环境状态信息,将所述当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据所述预测信息控制所述智能体执行相应动作,采集任务完成情况信息和当前所述动作的状态信息;
27.奖励值计算模块,用于根据所述动作的状态信息计算单次奖励值,根据所述任务完成情况信息计算任务奖励值;
28.模型训练模块,用于根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将所述任务奖励值和每局若干所述单次奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型,并将所述训练后的预测网络模型输出的策略返回。
29.本技术实施例第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的细粒度专家行为模仿学习方法中的步骤。
30.本技术实施例第四方面提供了一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
31.所述通信总线实现处理器和存储器之间的连接通信;
32.所述处理器执行所述计算机可读程序时实现如上任一所述的细粒度专家行为模仿学习方法中的步骤。
33.有益效果:相较于现有技术本发明的细粒度专家行为模仿学习方法包括,获取智能体的当前环境状态信息,将所述当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据所述预测信息控制所述智能体执行相应动作,采集任务完成情况信息和当前所述动作的状态信息;根据所述动作的状态信息计算单次奖励值,根据所述任务完成情况信息计算任务奖励值;根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将所述任务奖励值和每局若干所述单次奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型,并将所述训练后的预测网络模型输出的策略返回,本发明采用上述方法降低了训练难度、提高了训练效率和训练稳定度,无需采集大量专家数据即可在非完备信息的高维状态、动作空间中学习到接近专家行为模式的策略。
附图说明
34.图1是本发明的细粒度专家行为模仿学习方法的流程图。
35.图2是本发明提供的终端设备的结构原理图。
36.图3是本发明提供的装置结构框图。
37.图4是本发明提高的细粒度专家行为模仿学习算法图。
38.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
39.为了便于理解本技术,下面将参照相关附图对本技术进行更全面的描述。附图中给出了本技术的较佳实施方式。但是,本技术可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本技术的公开内容理解的更加透彻全面。
40.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中在本技术的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本技术。
41.发明人经过研究发现,现有技术存在以下问题:
42.(1)通过模仿学习训练游戏智能体学习策略,通常使用行为克隆、基于逆向强化学习的模仿学习两类方法,其中,行为克隆算法是一种监督学习的方法,其将环境给予的状态作为特征,将智能体可以执行的动作作为标记,尝试最小化智能体策略和专家策略的动作差异,把模仿学习任务归约到常见的回归或者分类任务;基于逆强化学习的模仿学习把模仿学习的过程分为逆向强化学习和强化学习两个子过程,并反复迭代,逆强化学习用于推导符合专家决策数据的奖励函数,而强化学习基于该奖励函数来学习策略,生成对抗模仿学习从基于逆强化学习的模仿学习发展而来,其特点是用生成对抗网络框架求解模仿学习问题,并且可以拓展到实际应用中。
43.行为克隆方法学习专家状态到专家动作的映射关系,但是在非完备信息三维视频游戏环境下,直接从高维空间中学习映射十分困难,会遇到分布漂移及复合误差问题,而逆强化学习方法因涉及两个强化学习过程,通常具有训练难度高、效率低、不稳定的问题。除此之外上述两种方法往往需要大量的专家数据才能取得相对比较好的结果,而收集大量高质量的专家数据往往存在一定困难。
44.为了解决上述问题,下面结合附图,详细说明本技术的各种非限制性实施方式。
45.如图1所示,本技术实施例提供的一种细粒度专家行为模仿学习方法,包括以下步骤:
46.s1,获取智能体的当前环境状态信息,将所述当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据所述预测信息控制所述智能体执行相应动作,采集任务完成情况信息和当前所述动作的状态信息;
47.其中,所述预设预测网络模型为基于深度强化学习方法构建的操作预测网络模型。
48.具体的,操作预测网络模型的中间层的网络的参数需要使用深度强化学习训练的对应策略,例如,操作预测网络模型中编码器输入为当前游戏状态信息,包括各智能体的位置、移动方向等信息,其输入维度可设置为96,输出维度可设置为256维,译码器的输入维度可设置为256维,在通信信息处理模块的注意力机制参数中,查询向量维度可设置为64维,注意力头的数量可设置为4,操作预测网络模型的优化器可使用adam优化器,学习率可设置为0.001,高斯噪声方差可设置为0.1,折扣因子可设置为0.9,同时还可使用多进程的方法,将环境分配到32个进程中,加快整个操作预测网络模型的训练速度,本实施例通过使用智能体在应用模拟环境中作出决策来收集数据,根据收集的状态和动作来优化智能体的策略。
49.其中,所述获取智能体的当前环境状态信息之前还包括预先获取专家决策数据。
50.具体的,人类专家正常游玩游戏,从获得的状态信息中进行决策并采取动作,产生的状态-动作对信息即为专家决策数据,本方案需要至少一条完整的专家决策数据用于模仿,一局游戏中每个时刻的状态与该时刻对应的动作集合为一条完整的专家数据,专家决策数据一定程度上体现了人类游玩游戏时的策略,将在之后的学习过程中指导智能体进行学习,根据游戏环境的差异,获得的状态信息可能有所不同,但其中的坐标信息、角度信息为最基本的要求,至少有这两种信息才能进行进一步的学习。
51.其中,所述获取智能体的当前环境状态信息,将所述当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据所述预测信息控制所述智能体执行相应动作,采
集任务完成情况信息和当前所述动作的状态信息包括以下步骤:
52.s101,获取智能体的当前环境状态信息,将所述当前环境状态信息输入所述操作预测网络模型中,以得到所述预测信息,其中,所述当前环境状态信息包括坐标信息、角度信息和姿态信息,所述预测信息为动作概率分布;
53.s102,基于所述动作概率分布采样选取一个动作操作信息,根据所述动作操作信息执行相应动作,其中,每个所述动作操作信息对应一个概率;
54.s103,采集任务完成情况信息和当前所述动作的状态信息。
55.具体的,首先要获取当前时刻智能体在环境内的当前环境状态信息,该环境可以是游戏环境,当前环境状态信息包括智能体在环境内的坐标信息、角度信息和姿态信息,当前环境状态信息的采集种类要与获取到的专家决策数据相对应,如专家决策数据中只有坐标信息和角度信息两项,则当前环境状态信息只需要包含坐标信息和角度信息两项即可;
56.然后将当前环境状态信息输入到预设预测网络模型中,预设预测网络模型输出预测信息,所述预测信息为动作概率分布,动作概率分布为当前状态下的智能体可能执行动作的概率分布,智能体根据概率分布采样选取一个动作操作信息,选取该动作操作信息对应一个概率,然后通过选取的动作操作信息控制所述智能体在环境内执行相应动作,对智能体执行的相应动作进行采集并更新智能体的当前环境状态信息,同时采集任务完成情况信息,所述任务完成情况信息包括与具体任务相关的各种信息,如是否完成某种任务等,该任务可以预先设置。
57.s2,根据所述动作的状态信息计算单次奖励值,根据所述任务完成情况信息计算任务奖励值;
58.具体的,模仿奖励函数主要考虑行为模仿奖励和任务奖励,通过计算单次奖励值,鼓励智能体模仿专家的动作和轨迹,通过计算任务奖励值鼓励智能体完成设定的任务,两部分的奖励各有一个权重,相加之后为总的奖励值。
59.其中,所述根据所述动作的状态信息计算单次奖励值,根据所述任务完成情况信息计算任务奖励值,包括以下步骤:
60.s201,将所述动作的状态信息与所述专家决策数据进行对照,得到差异信息,根据所述差异信息计算单次模仿奖励值,其中,所述动作的状态信息与所述专家决策数据进行对照为将所述动作的状态信息中的动作关键帧与所述专家决策数据中的专家关键帧进行对照;
61.s202,根据所述任务完成情况信息计算任务奖励值。
62.具体的,行为模仿的奖励分为多个部分,包括专家位置、速度、角度及专家采取的各类动作等,主要鼓励智能体移动到专家所处的位置,做出和专家相似的动作,然后将各个部分的奖励通过相乘的方式组成最终的单次奖励值,该单次奖励值引导智能体采取与专家相同的动作模式,任务奖励往往需要根据具体任务场景具体设定,该任务奖励用于引导智能体完成设定的任务;
63.本实施例采用关键帧对齐方式计算单次模仿奖励值,选取一些专家做出关键动作的时刻作为关键帧,使智能体在这些时刻与专家动作尽可能接近,鼓励智能体在关键帧处采取与专家一致的动作,采用关键帧对齐方式相对于逐帧对齐保留了策略的多样性,使得智能体的行为不会与专家完全一致,对以后进一步的应用有所帮助。
64.游戏为例,在游戏场景中设计位置奖励r
l
、速度奖励rv、角度奖励rr、姿态奖励r
p
,从多个方面激励智能体接近专家轨迹的目标位置并采取与专家类似的动作,从而产生与专家相似的行为模式,具体函数形式为:
[0065][0066]rv
=exp(wv*|v
agent-v
expert
|)
[0067]rr
=exp(wr*|r
agent-r
expert
|)
[0068][0069]
其中w
l
、wv、wr、w
p
分别代表各奖励的权重,表示智能体和专家第i个位置信息,三维环境下i=1,2,3分别表示坐标轴的x,y,z三个维度的位置信息,v
agent
、v
expert
、r
agent
、r
expert
表示智能体和专家的速度信息、角度信息,表示智能体和专家的姿态信息,包括站立、下蹲、奔跑、侧身等。行为模仿奖励函数为:
[0070]rref
=r
l
*rv*rr*r
p
[0071]
任务模仿奖励函数为:
[0072][0073]
其中wa表示权重,表示智能体做出的第i种任务相关的动作是否与专家一致。
[0074]
结合行为模仿奖励与任务模仿奖励总奖励函数为:
[0075]
r=w
ref
*r
ref
+w
task
*r
task
[0076]
其中w
ref
、w
tasj
分别为行为模仿奖励项和任务相关奖励项的权重。
[0077]
s3,根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将所述任务奖励值和每局若干所述单次奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型,并将所述训练后的预测网络模型输出的策略返回。
[0078]
具体的,根据单次奖励值训练预设预测网络模型,每次训练均更新预设预测网络模型的参数,具体的,在每个回合中,依据上述设计的模仿奖励函数,通过状态信息与对应的专家状态信息计算,即可得到相应的单次奖励值,在每个时刻,将决策信息存入模型的记忆池,用于之后的训练,即可学习到接近专家的策略,决策信息包括智能体在某一时刻从环境获得状态、智能体根据概率分布采样选取一个动作操作信息、选取该动作操作信息的概率以及单次奖励值。
[0079]
其中,所述根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将所述任务奖励值和每局若干所述单次奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型,并将所述训练后的预测网络模型输出的策略返回包括以下步骤:
[0080]
s301,将所述智能体初始化至随机采样状态;
[0081]
s302,采用课程学习的方式并根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将若干所述单次模仿奖励值与所述任务奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型;
[0082]
s303,将所述训练后的预测网络模型输出的策略返回。
[0083]
其中,采用课程学习的方式并根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将若干所述单次模仿奖励值与所述任务奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型包括以下步骤:
[0084]
s3021,选择预设时间段的所述专家决策数据对所述预设预测网络模型进行模仿学习训练,将预设时间段内所有单次模仿奖励值相加,得到单段模仿奖励值;
[0085]
s3022,对是否再次进行训练进行判断,若所述单段模仿奖励值小于单段奖励阈值或触发提前终止条件时未通过单段训练,则重复对所述预设预测网络模型进行模仿学习训练,若所述单段模仿奖励值大于单段奖励阈值时通过单段训练,则在所述预设时间段的基础上增加新的时间段,得到累积时间段;
[0086]
s3023,选择所述累积时间段的所述专家决策数据重复对所述预设预测网络模型进行模仿学习训练并重复对是否再次进行训练进行判断的过程,直至累积时间段等于一局时间段且所述任务奖励值与所述一局时间段内所有所述单次模仿奖励值相加值大于一局奖励阈值时完成对所述预设预测网络模型的训练,得到训练后的预测网络模型。
[0087]
具体的,一次训练中,需要智能体与环境进行许多个回合的交互,并依据交互得到的数据进行训练,每个回合开始时,智能体会获得一个初始状态,包括所在的坐标、面朝的方向等,智能体将从此状态继续后续的交互,若每个回合智能体的初始状态都相同,则可能很难学习到后续的轨迹,因此,需要将所述智能体初始化至随机采样状态,智能体初始化至从专家数据中随机采样的状态指,每个回合开始时,从专家决策数据中选取一个状态,使智能体的初始状态为该状态,此状态应在需要模仿轨迹的起始状态附近;
[0088]
本实施例在训练过程中采用了课程学习的方式,缓解学习长序列专家数据时学习过程不稳定的问题,课程学习主要思想是由简单到困难来学习课程,这样容易使模型找到更好的局部最优,同时加快训练的速度,在课程学习中,课程由先前知识预先确定,并在此之后保持固定,课程学习的方式主要采用继承方式进行课程设置,通过继承短序列智能体的能力并在其基础上继续提高,再通过设置从简到难的课程任务,从模仿专家产生的轨迹提高到模仿专家采取的动作,具体来说,首先选择预设时间段的所述专家决策数据对所述预设预测网络模型进行模仿学习训练,将预设时间段内所有单次模仿奖励值相加,得到单段模仿奖励值,例如:采用10秒的专家决策轨迹片段对预设预测网络模型进行模仿学习训练,则一回合的训练为10秒,将一回合内所有单次模仿奖励值相加,得到单段模仿奖励值;
[0089]
进一步的,对是否再次进行训练进行判断,若单段模仿奖励值小于单段奖励阈值或触发提前终止条件时则表明未通过单段训练,未通过单段训练需要重复对所述预设预测网络模型进行模仿学习训练;若所述单段模仿奖励值大于单段奖励阈值时则表明通过单段训练,通过单段训练后需要在预设时间段的基础上增加新的时间段,得到累积时间段,简单的来说,在一次训练中,若模型经过若干回合的训练,能将专家轨迹模仿得比较好,则进行
下一次训练,否则重新训练;
[0090]
进一步的,选择累积时间段的专家决策数据重复对预设预测网络模型进行模仿学习训练并重复对是否再次进行训练进行判断的过程,直至累积时间段等于一局时间段且任务奖励值与一局时间段内所有单次模仿奖励值相加值大于一局奖励阈值时完成对所述预设预测网络模型的训练,得到训练后的预测网络模型,例如:专家进行一局完整的游戏用时100秒,则需要采集100秒的专家决策轨迹,因此一局游戏中专家决策轨迹总片段的时间为100秒,则智能体训练时进行一局完整的游戏同样需要用时100秒,也就是一局时间段等于100秒,训练时可将100秒的专家决策轨迹总片段分成10组10秒的专家决策轨迹片段,下次训练时,在原先10秒的专家决策轨迹片段的基础上增加新的10秒专家决策轨迹片段,使现有累积时间段为20秒,同时这次训练将在上一次训练好的模型的基础上继续训练;
[0091]
进一步的,重复上述步骤,经过多次训练后,模型能够模仿专家轨迹的长度不断增加,累积时间段不断累积,直到累积时间段等于一局时间段且所述任务奖励值与所述一局时间段内所有所述单次模仿奖励值相加值大于一局奖励阈值时完成对所述预设预测网络模型的训练,结束课程学习,其中,一局时间段内所有所述单次模仿奖励值相加值为,每次智能体完整的完成一局游戏后,将一局时间段内所有所述单次模仿奖励值相加得到的值,智能体完整的完成一局游戏用时等于所模仿专家完整完成一局游戏的用时;
[0092]
进一步的,通过设置触发提前终止条件,可缓解无效探索的问题,缩短训练时间,如果训练时智能体在某个状态下被困住,不再可能成功学习到目标动作,那么需要将此次对局提前终止,以避免继续模拟浪费资源,触发提前终止条件为一回合的训练中智能体无法或很难按轨迹继续前进,无法或很难按轨迹继续前进可通过状态信息中的坐标信息判断,分两种情况:1.若智能体在某个地点停留或小范围来回移动2.智能体路线偏离轨迹过多,则可认为被困住,此时可将该回合直接结束。
[0093]
基于上述细粒度专家行为模仿学习方法,本实施例提供了一种细粒度专家行为模仿学习装置,包括:
[0094]
信息采集模块1,用于获取智能体的当前环境状态信息,将所述当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据所述预测信息控制所述智能体执行相应动作,采集任务完成情况信息和当前所述动作的状态信息;
[0095]
奖励值计算模块2,用于根据所述动作的状态信息计算单次奖励值,根据所述任务完成情况信息计算任务奖励值;
[0096]
模型训练模块3,用于根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将所述任务奖励值和每局若干所述单次奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型,并将所述训练后的预测网络模型输出的策略返回。
[0097]
此外值得说明,本实施例提供的基于细粒度专家行为模仿学习装置的工作过程与上述细粒度专家行为模仿学习方法的工作过程相同,具体可以参照细粒度专家行为模仿学习方法的工作过程,这里就不再赘述。
[0098]
基于上述细粒度专家行为模仿学习方法,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的细粒度专家行为模仿学习方法中的步
骤。
[0099]
如图2所示,基于上述细粒度专家行为模仿学习方法,本技术还提供了一种终端设备,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(communications interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
[0100]
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
[0101]
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
[0102]
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
[0103]
相较于现有技术本发明的细粒度专家行为模仿学习方法包括,获取智能体的当前环境状态信息,将所述当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据所述预测信息控制所述智能体执行相应动作,采集任务完成情况信息和当前所述动作的状态信息;根据所述动作的状态信息计算单次奖励值,根据所述任务完成情况信息计算任务奖励值;根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将所述任务奖励值和每局若干所述单次奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型,并将所述训练后的预测网络模型输出的策略返回,本发明采用上述方法降低了训练难度、提高了训练效率和训练稳定度,无需采集大量专家数据即可在非完备信息的高维状态、动作空间中学习到接近专家行为模式的策略。
[0104]
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
[0105]
当然,本发明上述实施例的描述较为细致,但不能因此而理解为对本发明的保护范围的限制,本发明还可有其它多种实施方式,基于本实施方式,本领域的普通技术人员在没有做出任何创造性劳动的前提下所获得其他实施方式,都属于本发明所保护的范围,本发明的保护范围以所附权利要求书为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1