基于情绪感染和深度强化学习的人群对抗仿真方法与流程

文档序号：21785458发布日期：2020-08-07 20:29阅读：来源：国知局

技术特征：

1.一种基于情绪感染和深度强化学习的人群对抗仿真方法，其特征在于，包括以下步骤：

步骤1)、提取所有agent的人数信息；

步骤2)、随机给每个agent赋予id信息、初始位置、初始情绪值、初始奖励值和初始动作；

步骤3)、通过初始动作计算获得初始平均生理影响；

步骤4)、将人数信息、id信息、初始位置、初始情绪值、初始奖励值、初始动作和初始平均生理影响输入到神经网络中，获得t时刻agent的动作；

步骤5)、通过t时刻agent的动作计算获得t时刻agent平均生理影响；

步骤6)、通过t时刻agent的动作获得t时刻agent的位置和t时刻agent获得的奖励值；

步骤7)、根据初始情绪值计算获得t时刻agent的情绪值；

步骤8)、将人数信息、id信息、t时刻agent的位置、t时刻agent的情绪值、t时刻agent的动作、t时刻agent平均生理影响和t时刻agent获得的奖励值输入到神经网络中获得t+1时刻agent的动作；

步骤9)、重复进行步骤5)、步骤6)、步骤7)、步骤8)获得t+2时刻的动作，依次进行迭代训练若干次。

2.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法，其特征在于：所述的所有agent包括有正方agent、反方agent和受害方agent。

3.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法，其特征在于：将所述的所有agent分为若干个agent组，agent组中包括有中心个体agenti和中心个体agenti感知范围内的其他agentj。

4.根据权利要求2所述的基于情绪感染和深度强化学习的人群对抗仿真方法，其特征在于：所述步骤2)中赋予正方agent的初始情绪值为正数，反方agent的初始情绪值为负数，受害者agent的初始情绪值为零。

5.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法，其特征在于：所述t时刻agent的动作包括有移动动作和攻击动作。

6.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法，其特征在于：所述t时刻agent的情绪值包括有agent受外部环境刺激而产生的感染情绪和agent根据初始动作所产生的行为情绪。

7.根据权利要求3所述的基于情绪感染和深度强化学习的人群对抗仿真方法，其特征在于：使用one-hot编码表示中心个体agenti感知范围内的t时刻其他agentj的动作。

8.根据权利要求7所述的基于情绪感染和深度强化学习的人群对抗仿真方法，其特征在于：所述步骤3)中根据平均场理论将agent组中其他agentj对中心个体agenti的影响转化为一个整体的影响，计算获得t时刻agenti平均生理影响。

9.根据权利要求1所述的基于情绪感染和深度强化学习的人群对抗仿真方法，其特征在于：所述的神经网络为dqn神经网络。

10.根据权利要求9所述的基于情绪感染和深度强化学习的人群对抗仿真方法，其特征在于：所述的dqn神经网络采用梯度下降法反向更新dqn神经网络参数。

技术总结
本发明涉及人群仿真和强化学习以及统计学领域，尤其涉及一种基于情绪感染和深度强化学习的人群对抗仿真方法；包括步骤：提取所有agent的人数信息；随机给每个agent赋予ID信息、初始位置、初始情绪值、初始奖励值和初始动作；通过初始动作计算获得初始平均生理影响；将人数信息、ID信息、初始位置、初始情绪值、初始奖励值、初始动作和初始平均生理影响输入到神经网络中，获得t时刻agent的动作；依次进行迭代训练若干次；从而当暴乱事件突发时，应用本发明能够快速的为正方提供策略指导，尽快制服反方避免场面失控，并获得较高的收益，从而维护社会的安全；同时该仿真模型对真实的对战演练也具有很大的参考和学习价值。

技术研发人员：吕培;徐博雅;徐明亮;李超超;王鑫玉;卫慧
受保护的技术使用者：郑州大学
技术研发日：2020.04.18
技术公布日：2020.08.07

完整全部详细技术资料下载

当前第2页1 2