1.一种基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于,包括以下步骤:
步骤1)、提取所有agent的人数信息;
步骤2)、随机给每个agent赋予id信息、初始位置、初始情绪值、初始奖励值和初始动作;
步骤3)、通过初始动作计算获得初始平均生理影响;
步骤4)、将人数信息、id信息、初始位置、初始情绪值、初始奖励值、初始动作和初始平均生理影响输入到神经网络中,获得t时刻agent的动作;
步骤5)、通过t时刻agent的动作计算获得t时刻agent平均生理影响;
步骤6)、通过t时刻agent的动作获得t时刻agent的位置和t时刻agent获得的奖励值;
步骤7)、根据初始情绪值计算获得t时刻agent的情绪值;
步骤8)、将人数信息、id信息、t时刻agent的位置、t时刻agent的情绪值、t时刻agent的动作、t时刻agent平均生理影响和t时刻agent获得的奖励值输入到神经网络中获得t+1时刻agent的动作;
步骤9)、重复进行步骤5)、步骤6)、步骤7)、步骤8)获得t+2时刻的动作,依次进行迭代训练若干次。
2.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述的所有agent包括有正方agent、反方agent和受害方agent。
3.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:将所述的所有agent分为若干个agent组,agent组中包括有中心个体agenti和中心个体agenti感知范围内的其他agentj。
4.根据权利要求2所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述步骤2)中赋予正方agent的初始情绪值为正数,反方agent的初始情绪值为负数,受害者agent的初始情绪值为零。
5.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述t时刻agent的动作包括有移动动作和攻击动作。
6.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述t时刻agent的情绪值包括有agent受外部环境刺激而产生的感染情绪和agent根据初始动作所产生的行为情绪。
7.根据权利要求3所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:使用one-hot编码表示中心个体agenti感知范围内的t时刻其他agentj的动作。
8.根据权利要求7所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述步骤3)中根据平均场理论将agent组中其他agentj对中心个体agenti的影响转化为一个整体的影响,计算获得t时刻agenti平均生理影响。
9.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述的神经网络为dqn神经网络。
10.根据权利要求9所述的基于情绪感染和深度强化学习的人群对抗仿真方法,其特征在于:所述的dqn神经网络采用梯度下降法反向更新dqn神经网络参数。