基于情绪感染和深度强化学习的人群对抗仿真方法与流程

文档序号:21785458发布日期:2020-08-07 20:29阅读:来源:国知局

技术特征:

1.一种基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于,包括以下步骤:

步骤1)、提取所有agent的人数信息;

步骤2)、随机给每个agent赋予id信息、初始位置、初始情绪值、初始奖励值和初始动作;

步骤3)、通过初始动作计算获得初始平均生理影响;

步骤4)、将人数信息、id信息、初始位置、初始情绪值、初始奖励值、初始动作和初始平均生理影响输入到神经网络中,获得t时刻agent的动作;

步骤5)、通过t时刻agent的动作计算获得t时刻agent平均生理影响;

步骤6)、通过t时刻agent的动作获得t时刻agent的位置和t时刻agent获得的奖励值;

步骤7)、根据初始情绪值计算获得t时刻agent的情绪值;

步骤8)、将人数信息、id信息、t时刻agent的位置、t时刻agent的情绪值、t时刻agent的动作、t时刻agent平均生理影响和t时刻agent获得的奖励值输入到神经网络中获得t+1时刻agent的动作;

步骤9)、重复进行步骤5)、步骤6)、步骤7)、步骤8)获得t+2时刻的动作,依次进行迭代训练若干次。

2.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述的所有agent包括有正方agent、反方agent和受害方agent。

3.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:将所述的所有agent分为若干个agent组,agent组中包括有中心个体agenti和中心个体agenti感知范围内的其他agentj。

4.根据权利要求2所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述步骤2)中赋予正方agent的初始情绪值为正数,反方agent的初始情绪值为负数,受害者agent的初始情绪值为零。

5.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述t时刻agent的动作包括有移动动作和攻击动作。

6.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述t时刻agent的情绪值包括有agent受外部环境刺激而产生的感染情绪和agent根据初始动作所产生的行为情绪。

7.根据权利要求3所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:使用one-hot编码表示中心个体agenti感知范围内的t时刻其他agentj的动作。

8.根据权利要求7所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述步骤3)中根据平均场理论将agent组中其他agentj对中心个体agenti的影响转化为一个整体的影响,计算获得t时刻agenti平均生理影响。

9.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述的神经网络为dqn神经网络。

10.根据权利要求9所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述的dqn神经网络采用梯度下降法反向更新dqn神经网络参数。


技术总结
本发明涉及人群仿真和强化学习以及统计学领域,尤其涉及一种基于情绪感染和深度强化学习的人群对抗仿真方法;包括步骤:提取所有agent的人数信息;随机给每个agent赋予ID信息、初始位置、初始情绪值、初始奖励值和初始动作;通过初始动作计算获得初始平均生理影响;将人数信息、ID信息、初始位置、初始情绪值、初始奖励值、初始动作和初始平均生理影响输入到神经网络中,获得t时刻agent的动作;依次进行迭代训练若干次;从而当暴乱事件突发时,应用本发明能够快速的为正方提供策略指导,尽快制服反方避免场面失控,并获得较高的收益,从而维护社会的安全;同时该仿真模型对真实的对战演练也具有很大的参考和学习价值。

技术研发人员:吕培;徐博雅;徐明亮;李超超;王鑫玉;卫慧
受保护的技术使用者:郑州大学
技术研发日:2020.04.18
技术公布日:2020.08.07
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1