基于VR的模拟军事决策效能监测预警系统的制作方法

文档序号:21968997发布日期:2020-08-25 18:57阅读:328来源:国知局
基于VR的模拟军事决策效能监测预警系统的制作方法

本发明涉及vr技术领域,具体涉及一种基于vr的模拟军事决策效能监测预警系统。



背景技术:

军事决策效能(militarydecisionperformance,mdp)是军事作业能力的核心成分,是指军事人员进行作战态势分析、设计行动方案并最终选择合理行动的过程,是部队战斗力生成的关键要素。构建模拟任务条件下的军事决策效能监测预警系统,有助于遴选作战人员、评估决策效果以及制定训练策略,从而为获取决策优势提供可能。

现有的模拟军事决策任务条件下的军事决策效能监测预警系统包括:成人决策能力的主观自评量表,用以测量和评估中青年决策者的决策能力。

然而,本申请人的发明人发现,现有的模拟军事决策任务条件下的军事决策效能监测预警系统适用于静态的决策问题,不能精确描述个体行动导致环境状态变化并进而影响随后行动的连续决策过程,但军事决策任务大部分都为连续的决策任务,导致现有的军事决策效能监测预警系统适应性差。



技术实现要素:

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种基于vr的模拟军事决策效能监测预警系统,解决了现有的军事决策效能监测预警系统适应性差的技术问题。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:

本发明提供一种基于vr的模拟军事决策效能监测预警系统,所述系统包括模拟决策系统、评估系统、监测预警系统和可穿戴设备,所述可穿戴设备与所述模拟决策系统、评估系统以及监测预警系统之间可实现连通和交互;所述可穿戴设备包括用于给接受监测的军事人员呈现虚拟现实情境的模拟护航决策任务的vr设备;

通过所述模拟决策系统编制基于虚拟现实情境的模拟护航决策任务,并将所述模拟护航决策任务通过vr设备呈现给接收监测的军事人员,可穿戴设备获取军事人员基于模拟护航决策任务做出的反馈信息,并将反馈信息输送给所述评估系统;

所述评估系统根据军事决策效能评估指标体系和所述反馈信息获取军事人员决策效能的评估指标的数值;

所述监测预警系统根据所述评估指标的数值获取军事人员决策过程中的决策效能,当决策未达到最优效能或低于可接受的最低效能时提供预警信号。

优选的,所述评估指标包括:决策的灵活性、决策的准确性和决策的认知状态。

优选的,所述决策的灵活性的评估方法包括:

用基于模型强化学习和无模型强化学习的权重评估决策的灵活性。

优选的,所述决策的准确性的评估方法包括:

用军事人员实际决策与最优决策之间的差异实时评估决策的准确性。

优选的,所述决策的认知状态的评估方法包括:

用军事人员在执行模拟护航决策任务时反应时的变异性实时评估决策的认知状态。

优选的,所述反馈信息包括行为指标和生理指标。

优选的,所述监测预警系统为基于生物反馈原理的军事决策效能监测预警系统,包括:

基于所述行为指标的决策效能评估系统;

基于所述生理指标的决策效能评估系统;

基于所述效能评估系统的行为指标和生理指标的认知状态计算的军事决策效能的监测预警系统。

优选的,所述生理指标包括:眼动指标和脑电eeg指标。

优选的,所述可穿戴设备还包括:

用于采集脑电eeg指标的头带和采集眼动指标的眼动仪。

(三)有益效果

本发明提供了一种基于vr的模拟军事决策效能监测预警系统。与现有技术相比,具备以下有益效果:

本发明的一种基于vr的模拟军事决策效能监测预警系统,系统包括模拟决策系统、评估系统、监测预警系统和可穿戴设备,可穿戴设备与模拟决策系统、评估系统以及监测预警系统之间可实现连通和交互;可穿戴设备包括用于给接受监测的军事人员呈现虚拟现实情境的模拟护航决策任务的vr设备;通过模拟决策系统编制基于虚拟现实情境的模拟护航决策任务,并将模拟护航决策任务通过vr设备呈现给接收监测的军事人员,可穿戴设备获取军事人员基于模拟护航决策任务做出的反馈信息,并将反馈信息输送给评估系统;评估系统根据军事决策效能评估指标体系和反馈信息获取军事人员决策效能的评估指标的数值;监测预警系统根据评估指标的数值获取军事人员决策过程中的决策效能,当决策未达到最优效能或低于可接受的最低效能时提供预警信号。本发明开发了基于虚拟现实情境的模拟护航决策任务,为军事决策效能提供了适应性强、可靠、有效的监测系统,同时本发明通过个体决策过程中的反馈信息,根据军事决策效能评估指标体系动态监测军事人员决策时的评估指标的数值,在需要干预训练时实时提供反馈信号给军事人员,以提高军事决策效能,进一步保障了系统的适应性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的框图;

图2为本发明实施例中模拟护航决策任务流程图;

图3为本发明实施例中部分可观察马尔可夫决策过程示意图;

图4为本发明实施例中决策认知状态的监测阈值示意图;

图5为本发明实施例中基于评估指标的认知状态监测系统中是否需要干预训练的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本申请实施例通过提供一种基于vr的模拟军事决策效能监测预警系统,解决了现有的军事决策效能监测预警系统适应性差的问题,实现为军事决策效能提供了适应性强、可靠、有效的监测预警系统

本申请实施例中的技术方案为解决上述技术问题,总体思路如下:

本发明实施例开发了基于虚拟现实情境的模拟护航决策任务,为军事决策效能提供了适应性强、可靠、有效的监测系统,同时本发明通过个体决策过程中的反馈信息,根据军事决策效能评估指标体系动态监测军事人员决策时的评估指标的数值,在需要干预训练时实时提供反馈信号给军事人员,以提高军事决策效能,进一步保障了系统的适应性。

为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供了一种基于vr的模拟军事决策效能监测预警系统,系统包括模拟决策系统、评估系统、监测预警系统和可穿戴设备,可穿戴设备与模拟决策系统、评估系统以及监测预警系统之间可实现连通和交互;可穿戴设备包括用于给接受监测的军事人员呈现虚拟现实情境的模拟护航决策任务的vr设备;

通过模拟决策系统编制基于虚拟现实情境的模拟护航决策任务,并将模拟护航决策任务通过vr设备呈现给接收监测的军事人员,可穿戴设备获取军事人员基于模拟护航决策任务做出的反馈信息,并将反馈信息输送给评估系统;

评估系统根据军事决策效能评估指标体系和反馈信息获取军事人员决策效能的评估指标的数值;

监测预警系统根据评估指标的数值获取军事人员决策过程中的决策效能,当决策未达到最优效能或低于可接受的最低效能时提供预警信号。

本发明实施例开发了基于虚拟现实情境的模拟护航决策任务,为军事决策效能提供了适应性强、可靠、有效的监测系统,同时本发明通过个体决策过程中的反馈信息,根据军事决策效能评估指标体系动态监测军事人员决策时的评估指标的数值,在需要干预训练时实时提供反馈信号给军事人员,以提高军事决策效能,进一步保障了系统的适应性。

下面对本发明实施例进行更加详细的描述:

在本发明实施例中,可穿戴设备为型号为htcviveproeye的虚拟现实可穿戴头盔(vr设备)呈现虚拟军事决策任务场景(基于.netc#开发语言和平台,以及unity3d游戏引擎),采用两个无线控制器对行为信息数据进行实时记录和传入。在运行windows10操作系统的计算机呈现预设场景。模拟决策系统、评估系统和监测预警系统运行在windows10操作系统的计算机上,与可穿戴设备可实现信息交互。

模拟护航决策任务分为两个阶段。阶段一:被试在一对刺激当中选择其一,这个刺激(sa1)70%的情形下会引向第二对刺激(sb1和sb2)。阶段二:30%的情形下会引向第三对刺激(sc1和sc2),而阶段一选择另外一个刺激(sa2),30%的情形下会引向第二对刺激(sb1和sb2),70%的情形下会引向第三对刺激(sc1和sc2)。通过个体的按键选择使得阶段一的刺激向第二阶段的刺激变化的可能性,称为转换概率。其中转换概率较大的情况称为常见转换,转换概率较小的情况称为稀有转换。模拟护航决策任务包括201次试验,3个部分,每个部分持续时间502.5s,在第67和134次试验后各休息20s。

在具体实施过程中,接受监测的军事人员通过可穿戴设备(型号为htcviveproeye的虚拟现实可穿戴头盔)接收到以下指导语:“在下面的作战决策任务当中,你(假定是陆路护航车队指挥官)将会通过按键在两条路当中选择任一路径,这条路会带您进入一个分岔路口,这时候你需要再次按键选择任一路径,结果可能是安全通过并通过火力攻击造成敌军伤亡一定人数,也可能遭遇敌军伏击从而使我军伤亡一定人数。请注意,你选择的路径和伤亡人数存在一定关系,你需要通过决策来尽量避免我军伤亡,并造成敌军更多伤亡。双方伤亡人数会记录在屏幕下方。下面请先进入演练部分,之后进入正式任务。”模拟护航决策任务流程如图2所示。

接受监测的军事人员根据任务的指导语,作出反馈,可穿戴设备将反馈信息传入到评估系统中,在具体实施过程中,可穿戴设备通过两个无线控制器将反馈信息中的行为信息数据进行实时记录和并传入评估系统,可穿戴设备还包括eeg头带、内置式眼动仪等用于采集生理指标的设备,通过这两个设备采集到反馈信息中的生理指标,并将生理指标实时传入到评估系统中。

评估系统中包括军事决策效能评估指标体系,监测预警系统为军事决策效能监测预警系统。在具体实施过程中,军事决策效能评估指标体系为基于pomdp(partiallyobservablemarkovdecisionprocess部分可观察马尔可夫决策过程)的军事决策效能评估指标体系,监测预警系统为基于生物反馈原理的军事决策效能监测预警系统。

下面对基于pomdp的军事决策效能评估指标体系进行详细说明:

将军事人员的一系列连续决策看作状态有限的马尔科夫链,基于对环境状态的观察、行动和环境状态转移矩阵迭代修改系统状态空间上的概率分布,利用强化学习算法对两阶段马尔科夫决策任务行为数据进行建模。其决策流程是:(1)首先启动决策任务(在本发明实施例中,决策任务为模拟护航决策任务)并对感知到的军事环境状态价值进行初步估计后,决策者(在本发明实施例中,决策者为接受监测的军事人员)修改其信念向量(定义为对军事环境状态的信念),(2)然后进一步寻找信息或采取行动完成任务的迭代过程,(3)当这一过程达到某种程度的信念认为任务已经完成时,决策者通过宣布任务“成功”或“失败”来终止行动并完成决策过程。其过程如图3所示。

马尔可夫决策过程是由一个五元组构成的决策过程,包括<s,a,p,r,γ>。

s为有限的状态集合;a为有限的动作集合;p为状态转移矩阵,r是奖赏函数;γ为折扣因子,γ∈[0,1]。其中策略π指的是给定状态下的动作概率分布,即:π(a|s)=p(at=a|st=a)。

给定策略π,状态s,采取动作a的动作价值函数:

qπ(s)=eπ(gt|st=s,at=a)

状态s下采取动作a的最优动作价值函数:

对于马尔可夫决策过程而言总存在一个确定的最优策略,通过最大化最优动作价值函数就能找到最优策略。

在本发明实施例中,军事决策效能评估指标体系包括三类军事决策效能的评估指标:(1)用基于模型强化学习和基于无模型强化学习的权重评估决策的灵活性,其中基于模型的决策权重越大,个体越能够形成对环境的认知地图并据此采取行动,决策的灵活性越强。(2)用军事人员实际决策与最优决策之间的差异实时评估决策的准确性。(3)用军事人员在执行模拟护航决策任务时反应时的变异性实时评估决策的认知状态。

其中:

(1)用基于模型强化学习和基于无模型强化学习的权重评估决策的灵活性。具体包括:

①模型无关的行动价值。对于试次t,用s1,t来表示第一阶段状态(即sa),用s2,t来标识第二阶段状态,第一阶段和第二阶段行动分别用a1,t和a2,t来表示,第二阶段和第二阶段奖赏分别r1,t和r2,t来表示。在每个阶段,个体通过状态-行动价值函数q(s,a)将行动和预期价值联系起来。其中模型无关行动价值和奖赏估计误差之间的关系如下:

qmf(s1,t,a1,t)=qmf(s1,t,a1,t)+α1λδ2,t

其中:α代表学习速率(learningrate),α1、α2为第一、二阶段的学习速率,代表行动结果的新信息用于学习的程度。资格迹参数λ代表利用第二阶段的状态估计值和最后奖赏结果来更新第一阶段的模型无关行动价值的相对权重(0≤λ≤1)。如果λ=1,代表只有最后奖赏结果用于更新第一阶段模型无关行动价值;如果λ=0,代表只有第二阶段的状态估计值用于更新第一阶段模型无关行动价值。该决策任务只有两个阶段,不考虑下一试次的状态对于第一阶段模型无关行动价值的影响。

δi,t代表奖赏估计误差,即状态-行动价值的实际值和预期值之间的差值:

δi,t=ri,t+qmf(si+1,t,ai+1,t)-qmf(si,t,ai,t)

对于第一阶段的状态-行动价值来说,ri,t=0,δi,t决定于第二阶段状态-行动价值qmf(s2,t,a2,t)。对于第二阶段的状态-行动价值来说,qmf(s3,t,a3,t)=0。因为此时该试次已经没有进一步的状态-行动价值,只有即时的奖赏r2,t。

②基于模型的行动价值。通过学习状态转移函数(将状态-动作对映射到随后状态的概率分布)和每个状态的即时奖励值,然后通过对这些值的迭代期望计算累积状态-动作值。也就是说,第一阶段首先决定哪个行动对应第二阶段的哪个状态(告诉决策者这里遵循概率结构),然后,学习第二阶段每个动作的即时奖励值(第一阶段的即时奖励总是为零)。假定每次试验中根据对转移概率和即时奖励的估计重新计算,利用贝尔曼方程定义基于模型的行动价值为:

③行动规则。在第一和第二阶段,行动概率可以看作是净状态-行动价值qnet,逆温度参数β1、β2,坚持参数p和指示函数rep(a)的softmax函数,即:

β1、β2代表第一、二阶段行动选择的确定性。rep(a)与p代表行动选择的重复性,也就是不顾选项的实际价值如何,按键选择与上一个试次相同的倾向性。其中rep(a)=1和p>0代表行动选择同上一个试次,rep(a)=1和p<0代表行动选择不同于上一个试次。

④策略权重。根据基于模型的行动价值qmb和模型无关的行动价值qmf,以及采用基于模型或模型无关行动价值做出决策的策略权重ω(范围0~1之间,ω=0代表仅采用模型无关的强化学习,ω=1代表仅采用基于模型的强化学习),可以将第一阶段的状态-行动价值可以定义为:

qnet(sa,aj)=ωqmb(sa,aj)+(1-ω)qtd(sa,aj)

ω可以根据上述公式计算得到。

(2)用军事人员实际决策与最优决策之间的差异实时评估决策的准确性,具体包括:

决策准确度取决于在任一时间点上决策者的实际决策偏离最优决策的程度。用r代表实际决策结果和n次试验中每次都执行最优决策所产生的结果之间的差异,其中最优决策代表对友军没有伤害,对敌军造成较大伤害。

具体来说,给定k≥2条路径(i=1,…k)和与每条路径相关联的未知结果(ri,1,ri,2…,ri,n),对于每次试验(t=1,…n),个体选择一条路径i并导致相关结果(rit,t),将定义为试验t中路径i可能的最佳结果。那么第n次试验后的军事人员实际决策与最优决策之间的差异可以定义为:

在每次试验中,受试者都会得到即时反馈的信息,包含奖励(敌军伤亡)、惩罚(友军伤亡)和最终战果(相对伤亡人数)。在第n次试验当中敌军伤亡数量的范围是50~100,友军伤亡数量的范围是0~-1250。累计相对伤亡人数,被定义为前一次行军之后的累计相对伤亡人数加上前一次行军过程中敌军伤亡人数减去友军伤亡人数,初始值设定为2000点。主要结果变量是200次试验(行军)结束时的累计相对伤亡人数,受试者选择路线之初,并不知道最终将于何时结束。

(3)用军事人员在执行模拟护航决策任务时反应时的变异性实时评估决策的认知状态,具体包括:

决策的认知状态是决策者对军事环境从态势感知到正确决策的中间过程。态势感知,指的是决策者不完全了解环境态势和任务要求,因此积极寻求和回应环境中的信息,称为“探索(exploration)”;正确决策,指的是决策者完全了解环境态势和任务要求,并据此采取行动,称为“开发(exploitation)”。将决策问题模拟为多臂赌博机问题(multi-armedbanditproblem,mabp),最终目的是最大化所有时刻的回报值总和。在选择不同路径(即mabp中的摇臂)时既要利用现有最大回报值的路径,又要尽可能去探索其他拥有更高回报值的路径,尽可能达到探索和利用的平衡。探索和开发认知状态可以操作性定义为反应时的变异性,其中反应时间的高变异性代表探索状态,而反应时间的低变异性表示开发状态。

从移动的数据窗口重复估计反应时的变化。具体来说,让xi表示在时间i的反应时,i=2,3,…,200。那么对于大小为w+1的数据窗口,从时间i=w+2开始,依次计算反应时的变异性如下:

其中

对反应时的变异性进行监测,当越大,提示决策者的认知状态越倾向于探索,当越小,提示决策者的认知状态越倾向于开发。当小于某个阈值h时,提示该决策者的认知状态从探索转向开发,此时对该决策者发送视觉反馈信号。

阈值h实际上是一个区间[h1,h2],其中h2>h1。对处于探索状态的人,当si2<h1(在时间i)时切换到开发状态;而对处于开发状态的人,当si2>h2(在时间i时)时切换到探索模式。按照受试者基线反应时间(即当产生0或50个友军损伤时)加减所有反应时标准差的两倍确定阈值,其中①探索状态,定义为反应时高于基线反应时两个标准差(sd),②开发状态,定义为低于基线反应时两个标准差(sd),如图3所示。

下面对基于生物反馈原理的军事决策效能监测预警系统进行详细说明:

基于生物反馈原理的军事决策效能监测预警系统包括:(1)基于所述行为指标的决策效能评估系统、(2)基于所述生理指标的决策效能评估系统和(3)基于所述效能评估系统的行为指标和生理指标的认知状态计算的军事决策效能的监测预警系统。

其中:

(1)基于行为指标的决策效能评估系统,具体包括:

认知状态和决策结果的一致性,提示从非最优决策到最优决策的效能动态变化过程。决策的初始状态是从黄色单元开始,代表探索模式,且决策准确性低,决策效能未达到最优。理想情况下,在任务过程中的某个时刻,受训者过渡到绿色单元,此时认知状态转变到开发模式,且决策准确度最高,提示决策效能达到最优。

正常情况下认知状态和决策结果存在一致性,当出现不一致,可能的原因是困倦、分心、高认知负荷、低认知参与等生理状态造成的,可以结合神经生理指标进行实时监测和预警。当受训者的认知状态与决策结果不一致时,提示应进行干预训练(橙色和红色单元),如图5所示。

(2)基于所述生理指标的决策效能评估系统,具体包括:

通过vr模拟护航决策任务,收集脑电、眼动等生理指标数据,获取用户决策过程中的认知状态,找到最优决策时的认知状态变化。

脑电指标。在决策任务期间使用eeg头带同步记录脑电图。通过头带位于前额的af3、af4、af7、af8、fp1和fp2等6个干电极来收集电信号,每秒报告512次原始信号,并通过蓝牙报告几种衍生测量信号。在接收到eeg数据且传感器的信号质量评估低于50的情况下,才允许接受监测的军事人员执行决策任务(以0-100为尺度,越低越好)。跨时间的信号标准偏差高于中位数标准偏差(响应的0.3%)的5倍的eeg响应被认为是有噪声的,不再进行进一步分析。使用fieldtrip工具箱多锥方法,对eeg信号5个频段(表1)的4周期长hanning窗口进行时频分析。从奖赏结果前500毫秒到结果后1500毫秒记录的脑电信号,作为对奖赏结果的脑电响应。

表1脑波频段和相关的大脑状态

眼动指标。采用内置式眼动仪采集被试眼动数据,主要包括瞳孔直径、扫视频率等信息,该设备的采样频率为30hz。逐个试次分析眼动指标:①固定次数和平均固定持续时间代表决策者对信息的重视程度。我们预测决策的灵活性越强,决策者越倾向于关注任务结构视觉信息,并将其用于更新对环境的认知模型。②瞳孔扩张程度是指任务处理(即决策任务)和休息时间(即间隔时间/基线)之间的差异,代表唤醒和认知负荷。

(3)基于所述效能评估系统的行为指标和生理指标的认知状态计算的军事决策效能的监测预警系统,具体包括:

(1)监测模块。通过评估系统实时地将行为指标和生理指标转化成心理信号,提取其关键特征,从而实时监测军事决策效能。(2)预警模块。分析基线条件和最优决策时生理数据关键特征之间的差异,当决策未达到最优效能或低于可接受的最低效能时提供预警信号,从而使军事人员及时更新环境信息,调整决策行动;而在达到最优决策时提供积极反馈,从而使军事人员调整认知资源的投入程度,维持最优决策。

综上所述,与现有技术相比,具备以下有益效果:

1、本发明实施例开发了基于虚拟现实情境的模拟护航决策任务,为军事决策效能提供了适应性强、可靠、有效的监测系统。

2、本发明实施例通过个体决策过程中的行为指标和生理指标,根据军事决策效能评估指标体系动态监测军事人员决策时的评估指标的数值,在需要干预训练时实时提供反馈信号给军事人员,以提高军事决策效能,进一步保障了系统的适应性。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1