基于多智体强化学习的心智理论模型实现方法及装置

文档序号:31564454发布日期:2022-09-20 19:42阅读:391来源:国知局
基于多智体强化学习的心智理论模型实现方法及装置

1.本技术涉及心智模型和多智体控制领域,尤其涉及一种基于多智体强化学习的心智理论模型实现方法及装置。


背景技术:

2.目前,在强化学习与心智理论结合的方法中大多使用的都是单智体算法与心智理论模型进行结合,并且任务场景中的智能体数目较少、不同的智能体之间需要单独进行心智理论建模,而如果将这种方法直接应用到多智体场景中,将会给予网络训练极大的压力,从而导致多智能体的协同效果不佳。


技术实现要素:

3.本技术提供一种基于多智体强化学习的心智理论模型实现方法及装置,旨在提升多智能体的协同效果。
4.第一方面,本技术提供一种基于多智体强化学习的心智理论模型实现方法,包括:
5.基于心智理论模型建立原始联合心智模型网络,通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息;
6.建立多智体强化学习的任务场景并结合所述意图特征信息,分级建模所述场景任务的主目标及其子目标;
7.对所述主目标进行训练,得到收敛后的主目标实现算法,并基于平台底层规则得到所述子目标的规则化子目标实现算法;
8.通过所述收敛后的主目标实现算法和所述规则化子目标实现算法收集待使用数据对所述原始联合心智模型网络进行训练,得到目标联合心智模型网络;
9.通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,实现己方智能体的协同。
10.在一个实施例中,所述通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,实现己方智能体的协同,包括:
11.通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,得到基于心智理论的多智体强化学习算法;
12.通过所述基于心智理论的多智体强化学习算法控制己方智能体,通过强化学习算法控制敌方智能体,并将场景任务的参数调整至预设参数以及设定己方智能体和敌方智能体的奖励,在预设回合数以及预设回合时间下进行对战训练,记录训练期间每回合己方智能体和敌方智能体的第一整体雷达覆盖率指标变化;
13.将所述第一整体雷达覆盖率指标变化与单独通过多智体强化学习算法训练得到
的第二整体雷达覆盖率指标变化进行对比验证,实现己方智能体的协同。
14.所述基于心智理论模型建立原始联合心智模型网络,包括:
15.确定所述多个己方智能体的全局观测信息,其中,所述全局观测信息包括己方智能体信息和己方可观测到的敌方智能体信息;
16.通过所述多个己方智能体的己方智能体信息和己方可观测到的敌方智能体信息,对所述心智理论模型进行训练,得到所述原始联合心智模型网络。
17.所述通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息,包括:
18.通过所述原始联合心智模型网络对各个所述友方智能体的意图概率分布进行预测,得到各个所述友方智能体的表层意图信息;
19.通过所述原始联合心智模型网络对各个所述友方智能体的自身概率分布进行预测,得到各个所述友方智能体的深处意图信息;
20.将各个所述友方智能体的表层意图信息和深处意图信息,确定为各个所述友方智能体的意图特征信息。
21.所述建立多智体强化学习的任务场景并结合所述意图特征信息,分级建模所述场景任务的主目标及其子目标,包括:
22.确定多智体强化学习的任务场景,其中,所述任务场景的布局包括场景大小、作战多方初始位置信息、任务目标和最终任务评价指标;
23.将所述场景大小、所述作战多方初始位置信息、所述任务目标和所述最终任务评价指标与所述意图特征信息进行结合,分级建模所述场景任务的主目标及其子目标。
24.所述对所述主目标进行训练,得到收敛后的主目标实现算法,并基于平台底层规则得到所述子目标的规则化子目标实现算法,包括:
25.通过多智能体强化学习算法并以己方智能体信息和己方可观测到的敌方智能体信息为输入,以己方智能体选择的覆盖目标为输出,对所述主目标进行训练,得到所述收敛后的主目标实现算法;
26.对己方智能体选定的目标进行追击并基于所述平台底层规则,得到所述规则化子目标实现算法。
27.所述通过所述收敛后的主目标实现算法和所述规则化子目标实现算法收集待使用数据对所述原始联合心智模型网络进行训练,得到目标联合心智模型网络,包括:
28.通过所述收敛后的主目标实现算法,所述规则化子目标实现算法和敌方策略实现算法进行多目标覆盖任务对战,并在运行过程中收集原始联合心智模型网络训练所需的待使用数据,其中,所述待使用数据包括训练数据、标签数据和测试数据;
29.通过所述训练数据和所述标签数据对所述原始联合心智模型网络进行监督训练,并通过所述测试数据测试所述原始联合心智模型网络的意图预测准确率,得到预设准确率的目标联合心智模型网络。
30.第二方面,本技术提供一种基于多智体强化学习的心智理论模型实现装置,包括:
31.建立预测模块,用于基于心智理论模型建立原始联合心智模型网络,通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息;
32.分级建模模块,用于建立多智体强化学习的任务场景并结合所述意图特征信息,
分级建模所述场景任务的主目标及其子目标;
33.训练模块,用于对所述主目标进行训练,得到收敛后的主目标实现算法,并基于平台底层规则得到所述子目标的规则化子目标实现算法;
34.收集训练模块,用于通过所述收敛后的主目标实现算法和所述规则化子目标实现算法收集待使用数据对所述原始联合心智模型网络进行训练,得到目标联合心智模型网络;
35.预测实现模块,用于通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,实现己方智能体的协同。
36.第三方面,本技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述基于多智体强化学习的心智理论模型实现方法。
37.第四方面,本技术还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质包括计算机程序,所述计算机程序被所述处理器执行时实现第一方面所述基于多智体强化学习的心智理论模型实现方法。
38.第五方面,本技术还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被所述处理器执行时实现第一方面所述基于多智体强化学习的心智理论模型实现方法。
39.本技术提供的基于多智体强化学习的心智理论模型实现方法及装置,将多智体强化学习、心智理论模型和任务场景进行结合,引入心智理论模型在协同任务场景中对己方智能体的意图信息进行有效捕获,并在多智体强化学习算法中进行了显式学习,从而提升了多智能体的最终协同效果。同时,结合多智体强化学习算法中集中训练分布执行框架的优势,提出能够和框架进行良好结合的联合心智模型网络结构,从而实现优势互补,提升了多智能体的最终协同效果。
附图说明
40.为了更清楚地说明本技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1是本技术提供的基于多智体强化学习的心智理论模型实现方法的流程示意图;
42.图2是本技术的基于心智理论的多智体强化学习算法示意图;
43.图3是本技术提供的基于多智体强化学习的心智理论模型实现装置的结构示意图;
44.图4是本技术提供的电子设备的结构示意图。
具体实施方式
45.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术中的附图,对本
申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
46.结合图1至图4描述本技术提供的基于多智体强化学习的心智理论模型实现方法及装置。图1是本技术提供的基于多智体强化学习的心智理论模型实现方法的流程示意图;图2是本技术的基于心智理论的多智体强化学习算法示意图;图3是本技术提供的基于多智体强化学习的心智理论模型实现装置的结构示意图;图4是本技术提供的电子设备的结构示意图。
47.本技术实施例提供了基于多智体强化学习的心智理论模型实现方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但在某些数据下,可以以不同于此处的顺序完成所示出或描述的步骤。
48.本技术实施例以电子设备作为执行主体进行举例,本技术实施例种的电子设备包括但不限制于终端、计算机和设备。
49.参照图1,图1是本技术提供的基于多智体强化学习的心智理论模型实现方法的流程示意图。本技术实施例提供的基于多智体强化学习的心智理论模型实现方法包括:
50.步骤s10,基于心智理论模型建立原始联合心智模型网络,通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息。
51.根据任务要求联合心智模型网络可以采用任意简单的多层感知机网络结构(multilayer perceptron,mlp),本技术实施例采用的网络结构具体包含两层隐藏层以及一层输出层,均为包含32个隐藏节点的全链接层,其中两层隐藏层的激活函数采用的是relu激活函数。进一步通过己方智能体的全局观测对心智理论模型(多层感知机mlp网络)进行训练,得到原始联合心智模型网络tom。进一步地,通过原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息,具体如步骤s101至步骤s105所述。
52.进一步地,步骤s101至步骤s105的描述如下:
53.步骤s101,确定所述多个己方智能体的全局观测信息,其中,所述全局观测信息包括己方智能体信息和己方可观测到的敌方智能体信息;
54.步骤s102,通过所述多个己方智能体的己方智能体信息和己方可观测到的敌方智能体信息,对所述心智理论模型进行训练,得到所述原始联合心智模型网络;
55.步骤s103,通过所述原始联合心智模型网络对各个所述友方智能体的意图概率分布进行预测,得到各个所述友方智能体的表层意图信息;
56.步骤s104,通过所述原始联合心智模型网络对各个所述友方智能体的自身概率分布进行预测,得到各个所述友方智能体的深处意图信息;
57.步骤s105,将各个所述友方智能体的表层意图信息和深处意图信息,确定为各个所述友方智能体的意图特征信息。
58.具体地,mlp网络(心智理论模型)的输入信息需要用到己方智能体的全局观测信息,其中,全局观测信息包含己方智能体信息(即己方自身智能体信息)和己方可观测到的敌方智能体信息。mlp网络基于心智模型概念,需要对友方智能体的意图信息进行预测,预测出的意图信息在、具体场景中将建模为己方无人机所选择的敌方覆盖目标,mlp网络的输出为当前预测智能体的意图,每次预测时单独输入一个己方智能体信息以及可观测到的敌
方整体智能体信息,从而依次预测己方每一个智能体的意图,具体公式可表示为
[0059][0060]
其中,表示己方第i智能体的预测意图,为网络输出特征再进行一层softmax层计算后的意图概率分布(intent
i1
,

,intent
in
),每一个元素都代表当前己方智能体i选择第j个意图的概率,整体和为1;si表示第i个智能体的基本信息,se表示观测到的敌方智能体整体信息,mlp
θ
表示以θ为参数的mlp网络,由于己方所有智能体意图预测共享一个网络模型并使用全局观测进行集中训练,因此,对mlp网络(心智理论模型)训练得到原始联合心智模型网络tom。
[0061]
进一步地,通过原始心智模型网络对各个友方智能体进行意图预测,在意图预测的过程中,不仅对友方智能体的自身概率分布进行预测,还需要对友方智能体的意图概率分布进行预测,具体的:通过原始联合心智模型网络对各个友方智能体的意图概率分布进行预测,得到各个友方智能体的表层意图信息。同时,通过原始联合心智模型网络对各个友方智能体的自身概率分布进行预测,得到各个友方智能体的深处意图信息。进一步地,将各个友方智能体的表层意图信息和深处意图信息,确定为各个友方智能体的意图特征信息,上述的多层次的意图预测即为心智模型网络的嵌套信念预测机制。
[0062]
本技术实施例引入心智理论模型在协同任务场景中对己方智能体的意图信息进行有效捕获,并在多智体强化学习算法中进行了显式学习,从而提升了多智能体的最终协同效果。
[0063]
步骤s20,建立多智体强化学习的任务场景并结合所述意图特征信息,分级建模所述场景任务的主目标及其子目标。
[0064]
进一步地,建立多智体强化学习的任务场景,设置任务场景的布局,任务场景的布局包括场景大小,作战多方初始位置信息、任务目标和最终任务评价指标。进一步地,将场景大小,作战多方初始位置信息、任务目标和最终任务评价指标,与原始心智模型网络输出的各个友方智能体的意图特征信息进行结合,分级建模场景任务的主目标及其子目标,具体如步骤s201至步骤s202所述。
[0065]
进一步地,步骤s201至步骤s202的描述如下:
[0066]
步骤s201,确定多智体强化学习的任务场景,其中,所述任务场景的布局包括场景大小、作战多方初始位置信息、任务目标和最终任务评价指标;
[0067]
步骤s202,将所述场景大小、所述作战多方初始位置信息、所述任务目标和所述最终任务评价指标与所述意图特征信息进行结合,分级建模所述场景任务的主目标及其子目标。
[0068]
具体地,确定多智体强化学习的任务场景的场景大小、作战多方初始位置信息、任务目标和最终任务评价指标,在一实施例中,使用的任务场景为基于多无人机空战模拟平台xsim的多目标覆盖任务场景,模拟战场范围(场景大小)设定为300000*300000米方形战场,作战单位(作战多方)分别为蓝方无人机与红方无人机,一方最多为四架;以战场中心为原点,红方无人机的初始位置信息和蓝方无人机的初始位置信息中心分别设定为(-60000,0)和(40000,0),双方间距100000米并且同一方无人机彼此间距为5000米,高度都为9500米;对于无人机参数设置方面,最大速度设定为300米/秒,探测雷达方位范围为[-30度,30
度],俯仰范围为[-10度,10度],探测距离范围为60000米。
[0069]
进一步地,多目标覆盖场景的任务以回合制进行,每回合一共600个时间步,该回合时间结束后场景会自动重制并进入到下一回合;场景任务目标设定为在每一回合内,红方无人机在尽可能多的时间步中对蓝方无人机尽可能多的无人机实现雷达覆盖。因此,该任务的测试指标一共设定了两个,分别为每回合目标总覆盖率以及每回合目标全覆盖时间,每回合总覆盖率指标计算公式可表示为ratio。
[0070][0071]
其中,ne代表蓝方无人机的总数;ti代表第i架蓝方无人机该回合内被覆盖的总时间;t
episode
代表每回合总时间步数。每回合目标全覆盖时间指标表示每回合红方无人机对蓝方无人机实现全体雷达覆盖的持续总时间。
[0072]
进一步地,设置无人机信息、无人机动作以及无人机奖励接口,具体为:多目标覆盖场景任务基于pomdp状态序列,属于部分可观测任务,场景建模时需要考虑无人机信息获取方式以及获取信息内容;xsim平台提供的无人机控制方式主要为指令控制命令,指令控制命令包括但不限制于初始化实体(make_entityinitinfo)、航线巡逻(make_linepatrolparam)、区域巡逻(make_areapatrolparam)、机动参数调整(make_motioncmdparam)、跟随(make_followparam)和打击目标(make_attackparam),在实现对战场中无人机控制时需要对几个指令灵活配合使用;而在对无人机的奖励进行设计时需要考虑所使用的算法特点以及任务目标。
[0073]
进一步地,xsim场景提供的环境态势信息obs的内容包括但不限制于仿真时间步、红方态势和蓝方态势,红蓝方态势包含但不限制于“platforminfos”武器平台信息(己方)、“trackinfos”情报信息(敌方)和“missileinfos”导弹信息。红蓝双方掌握的敌方目标由己方所有飞机共享,可按自设频率获取战场态势,平台给定态势更新最高频率为1秒;根据多目标覆盖任务要求以及算法需要,选取了武器平台信息中的无人机位置信息和朝向信息作为己方信息状态输入,而对敌方信息的获取需要在雷达覆盖的条件下获得,否则无法获得敌方无人机信息,所获取的信息依然为无人机位置以及朝向。
[0074]
进一步地,无人机的动作控制需要通过六个指令控制命令进行组合控制,根据算法训练以及建模需求,将对无人机的控制分为追逐指定目标以及自由控制;其中,追击指定目标通过调用跟随(make_followparam)指令实现,输入追击无人机id即可通过平台底层规则实现对指定无人机的追击控制,动作控制主要用于红方主目标策略训练;自由动作控制调用了航线巡逻(make_linepatrolparam)命令,根据当前无人机坐标位置实现水平方向上的上、下、左、右、左上、右上、左下、右下以及垂直方向上的上升和下降自由度的全速前进动作控制,主要用于蓝方躲避红方雷达覆盖的策略训练。
[0075]
进一步地,对无人机的训练奖励设置分为对红方无人机的奖励设置以及蓝方无人机的奖励设置,每一架无人机单独计算;对红方无人机的奖励设置分别基础奖励以及对蓝方无人机的雷达覆盖奖励,其中基础奖励为每个时间步-0.3的奖励损失,用于激励无人机探索奖励上升的动作,对蓝方无人机的雷达覆盖奖励计算公式可表示为(每个时间步)r
cover

[0076][0077]
其中,ne表示蓝方无人机的总数;ni表示当前第i架蓝方无人机有多少架红方无人机对其实现雷达覆盖(ni≥1),ci表示当前红方无人机是否对当前第i架蓝方无人机实现雷达覆盖,如果是ci=1;否则ci=0,从而由以上设计来鼓励红方无人机去一架没有被覆盖的蓝方无人机实现雷达覆盖;对蓝方无人机的奖励设置则主要鼓励其规避对方的雷达覆盖,即当蓝方无人机若被红方雷达覆盖,被覆盖的每个时间步获得-0.2奖励,除此之外每个时间步还会获得-0.1的基础奖励。红方无人机奖励r
red
设置为预定义好的覆盖奖励r
cover
,蓝方无人机的r
blue
奖励可用公式表示如下:
[0078][0079]
表示当前蓝方无人机被覆盖时获得-0.3奖励,其他情况下获得-0.1奖励。
[0080]
进一步地,根据原始联合心智模型网络输出的意图特征信息,分级建模场景任务中的主目标与子目标,通过主目标引入意图信息的概念。使用xsim平台部署作多目标覆盖作战场景作为任务场景,包括对红方无人机以及蓝方无人机的控制,将红方无人机当作己方智能体,蓝方无人机当作敌方智能体,其中,将红方无人机选择不同的蓝方无人机作为覆盖目标的过程建模为红方无人机主目标;将红方无人机追击当前目标蓝方无人机建模为基于主目标的子目标。由此,主目标便对应着心智理论中的意图概念,接下来将要进行的意图识别内容便是己方不同无人机选择的蓝方无人机覆盖目标。
[0081]
本技术实施例结合多智体强化学习算法中集中训练分布执行框架的优势,提出能够和框架进行良好结合的联合心智模型网络结构,从而实现优势互补,提升了多智能体的最终协同效果。
[0082]
步骤s30,对所述主目标进行训练,得到收敛后的主目标实现算法,并基于平台底层规则得到所述子目标的规则化子目标实现算法。
[0083]
进一步地,通过多智能体强化学习算法并以己方智能体信息和己方可观测到的敌方智能体信息为输入,以己方智能体选择的覆盖目标为输出对主目标进行训练,得到收敛后的主目标实现算法。同时,对己方智能体选定的目标进行追击并基于平台底层规则,得到子目标的规则化子目标实现算法,具体如步骤s301至步骤s302所述。
[0084]
进一步地,步骤s301至步骤s302的描述如下:
[0085]
步骤s301,通过多智能体强化学习算法并以己方智能体信息和己方可观测到的敌方智能体信息为输入,以己方智能体选择的覆盖目标为输出,对所述主目标进行训练,得到收敛后的主目标实现算法;
[0086]
步骤s302,对己方智能体选定的目标进行追击并基于所述平台底层规则,得到所述规则化子目标实现算法。
[0087]
具体地,主目标训练实现通过多智能体强化学习算法mappo进行训练,以己方无人机基本状态信息和可观测到的敌方无人机信息作为输入,当前飞机所选择的蓝方覆盖目标作为输出;子目标任务的实现为无人机选定目标后对该目标进行追击,使用基于xsim平台底层规则进行直接实现;除此之外,敌方无人机的任务目标只有躲避雷达覆盖,主要通过多
智体强化学习算法idqn实现,其中,主目标任务的训练输出可以表示为如下过程:
[0088]ai
=π
θ
(si,s
intent
,se)
[0089]
其中,ai表示当前选择追击的敌方目标,π
θ
表示根据多智体强化学习训练的动作选择策略,θ表示网络参数;si表示当前己方无人机基本信息,s
intent
表示根据心智模型识别获得的友方整体意图信息,se表示当前观测得到的敌方无人机整体基本信息。
[0090]
进一步地,基于选定的主目标任务,红方无人机的子目标实现调用了xsim底层规则命令跟随(make_followparam)指令进行实现,执行该命令的红方无人机会以最优路径和最大速度追击选定的蓝方无人机覆盖目标。
[0091]
进一步地,使用多智能体强化学习算法mappo算法控制己方智能体主目标实现,其中,多智能体强化学习算法mappo算法中每个智能体i基于局部观测oi和一个共享策略(这里的共享策略是针对智能体是同类型的情况而言的,对于非同类型,可以拥有自己的独立actor和critic网络)π
θ
(ai∣oi)去生成一个动作ai来最大化折扣累计奖励:基于全局的状态s来学习一个中心式的值函数v
φ
(s)。其中,actor网络优化目标为:
[0092][0093]
其中,优势函数是采用gae方法,s表示策略的熵,σ是控制熵系数的一个超参数。critic网络优化目标为:
[0094][0095]
其中,是折扣奖励;b表示batch_size大小,n表示智能体数量;最后,对于actor和critic网络的结构设计都采用了包含两层隐藏层和一层输出层的神经网络结构,每一层都使用了64个隐藏节点,其中actor网络的输出层激活函数使用了tanh,critic网络的输出层激活函数使用了softmax。
[0096]
进一步地,使用强化学习算法idqn算法控制敌方智能体实现躲避雷达覆盖目标,强化学习算法idqn算法中每个无人机都单独部署了一个强化学习算法dqn算法,主要优化公式如下所示:
[0097]
li(θi)=es[(y
i-q(s,a;θi))2]
[0098]
其中,i为时间周期,li代表所计算的损失值,θi代表使用当前实时更新的网络参数也即是迭代网络参数,es表示计算期望,s和a分别表示状态和动作,所以q(s,a;θi)即代表使
用迭代网络计算出来的q估计值,公式中的yi则是根据上一个迭代周期中根据目标网络计算出的q目标值,使用的网络参数和当前的迭代网络参数是不同的。
[0099]
进一步在输入输出上,多智能体强化学习算法mappo算法输入为己方智能体联合观测x=(si,s
intent
,se),为前面提到联合输入特征,输出为a=(a1,

,an)表示己方每一个智能体i所选择的动作ai,在多目标任务场景中即为主目标ai;强化学习算法idqn算法输入包含当前敌方智能体基本信息及可观测到的己方智能体全局信息,输出则为当前敌方智能体的动作,为预定义的10个自由度的离散动作之一。
[0100]
设置好多智能体强化学习算法mappo算法以及强化学习算法idqn算法后,进行一定回合的红方无人机和蓝方无人机多目标覆盖训练,直至双方算法的策略基本收敛。
[0101]
本技术实施例结合多智体强化学习算法中集中训练分布执行框架的优势,提出能够和框架进行良好结合的联合心智模型网络结构,从而实现优势互补,提升了多智能体的最终协同效果。
[0102]
步骤s40,通过所述收敛后的主目标实现算法和所述规则化子目标实现算法收集待使用数据对所述原始联合心智模型网络进行训练,得到目标联合心智模型网络。
[0103]
进一步地,使用收敛后的己方主目标实现算法mappo(收敛后的主目标实现算法),规则化子目标实现算法和敌方策略实现算法idqn进行多目标覆盖任务对战,此时冻结算法策略,并在运行过程中收集原始联合心智模型网络训练所需的数据(待使用数据)。进一步地,通过待使用数据对原始联合心智模型网络进行训练,得到目标联合心智模型网络,具体如步骤s401至步骤s402所述。
[0104]
进一步地,步骤s401至步骤s402的描述如下:
[0105]
步骤s401,通过所述收敛后的主目标实现算法,所述规则化子目标实现算法和敌方策略实现算法进行多目标覆盖任务对战,并在运行过程中收集原始联合心智模型网络训练所需的待使用数据,其中,所述待使用数据包括训练数据、标签数据和测试数据;
[0106]
步骤s402,通过所述训练数据和所述标签数据对所述原始联合心智模型网络进行监督训练,并通过所述测试数据测试所述原始联合心智模型网络的意图预测准确率,得到预设准确率的目标联合心智模型网络。
[0107]
具体地,使用收敛后的己方主目标实现算法mappo、规则化子目标实现算法和敌方策略实现算法idqn进行多目标覆盖任务对战,此时冻结算法策略,并在运行过程中收集原始联合心智模型网络训练所需待使用数据,其中,待使用数据包括训练数据、标签数据和测试数据。
[0108]
进一步地,训练数据包括红方无人机每回合的整体朝向信息、位置信息以及对应时刻整体观测到的蓝方无人机整体朝向信息与位置信息,每次收集10万条左右训练数据并存储为json格式文件;标签数据则为训练数据对应时刻红方无人机选择的蓝方攻击目标,表示为one-hot编码格式,数量与训练数据保持一致;再以同样的方式收集2000左右条测试数据。
[0109]
进一步地,通过上述收集到的训练数据、标签数据和测试数据对原始联合心智模型网络tom进行监督训练,同时通过上述收集到的测试数据测试原始联合心智模型网络tom的意图预测准确率,得到预设准确率的目标联合心智模型网络tom,原始联合心智模型网络tom损失函数公式如下所示:
[0110][0111]
其中,c表示敌方智能体总数,yi表示标签数据,gi表示网络预测的当前智能体选择敌方第i个意图的概率。
[0112]
进一步地,在对原始联合心智模型网络tom训练和测试时,需要将收集数据中的每一个智能体的信息进行随机输入。通过训练数据、标签数据和测试你数据对原始联合心智模型网络tom进行训练的同时将原始联合心智模型网络tom在测试集上预测准确率,对比网络预测意图和智能体真实意图,当预测准确率到达95%以上时认为原始联合心智模型网络tom达到训练要求。
[0113]
本技术实施例结合多智体强化学习算法中集中训练分布执行框架的优势,提出能够和框架进行良好结合的联合心智模型网络结构,从而实现优势互补,提升了多智能体的最终协同效果。
[0114]
步骤s50,通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,实现己方智能体的协同。
[0115]
进一步地,通过目标联合心智模型网络预测当前己方智能体的意图信息,在多智体算法的训练过程中将意图信息添加至多智体算法的输入信息中,得到基于心智理论的多智体强化学习算法。进一步地,通过基于心智理论的多智体强化学习算法控制己方智能体,通过强化学习算法控制敌方智能体,并将场景任务的参数调整至预设参数以及设定己方智能体和敌方智能体的奖励,在预设回合数以及预设回合时间下进行对战训练,记录训练期间每回合己方智能体和敌方智能体的第一整体雷达覆盖率指标变化。进一步地,将第一整体雷达覆盖率指标变化与单独通过多智体强化学习算法训练得到的第二整体雷达覆盖率指标变化进行对比验证,实现己方智能体的协同,具体如步骤s501至步骤s503所述。
[0116]
进一步地,步骤s501至步骤s503的描述如下:
[0117]
步骤s501,通过目标联合心智模型网络预测当前己方智能体的意图信息,在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,得到基于心智理论的多智体强化学习算法;
[0118]
步骤s502,通过所述基于心智理论的多智体强化学习算法控制己方智能体,通过强化学习算法控制敌方智能体,并将场景任务的参数调整至预设参数以及设定己方智能体和敌方智能体的奖励,在预设回合数以及预设回合时间下进行对战训练,记录训练期间每回合己方智能体和敌方智能体的第一整体雷达覆盖率指标变化;
[0119]
步骤s503,将所述第一整体雷达覆盖率指标变化与单独通过多智体强化学习算法训练得到的第二整体雷达覆盖率指标变化进行对比验证,实现己方智能体的协同。
[0120]
具体地,将目标联合心智模型网络tom与多智体算法mappo结合,在多智体算法的训练过程中使用目标联合心智模型网络预测当前己方智能体意图信息并加入到多智体算法的输入信息中,得到基于心智理论的多智体强化学习算法tom-mappo,具体参照图2,图2是是本技术的基于心智理论的多智体强化学习算法示意图。
[0121]
进一步地,结合本技术的图2对基于心智理论的多智体强化学习算法tom-mappo分
析如下:目标联合心智模型网络与多智体强化学习算法框架的结合方式采用了在输入输出上的对接加性组合,将目标联合心智模型网络tom放入集中训练分布执行中的集中训练部分,在输入上复用了全局观测,并且依次对红方每一架无人机当前的意图,也即是主目标选择进行了预测,并将预测得到的意图概率向量拼接到集中训练的critic网络输入中实现对友方意图信息的显式建模学习,此时建模完成了全新的基于心智理论的多智体强化学习算法tom-mappo,更新后算法的联合critic网络训练目标函数如下所示(突出区别,和别的多智体算法都可以结合):
[0122][0123]
其中,在以上参数中,φ表示网络参数,是折扣奖励;b表示batch_size大小,n表示智能体数量;x代表联合观测,x
tom
代表将目标联合心智模型网络tom预测的意图向量进行拼接后得到的联合意图概率向量,满足x
tom
=(i
i1
,

,i
ij
;i
ji
),其中,i
i1
,

,i
ij
代表着当前智能体对其他智能体的意图概率分布向量预测,而i
ji
则代表其他智能体对当前智能体的意图概率分布向量预测,由于使用了目标联合心智模型网络tom,预测结果是一致的,这种不仅会对友方意图概率分布进行预测,即表层意图,还会对友方对自己的概率分布的预测进行学习预测,即深处意图,并将多层次预测的意图结合输入的方法即为心智模型网络的嵌套信念预测机制,代表当前的联合动作;actor网络的更新则与原mappo算法保持一致;
[0124]
进一步地,调整好任务场景的参数后,使用基于心智理论的多智体强化学习算法tom-mappo算法控制红方无人机,使用敌方策略实现算法idqn控制蓝方无人机,分别设定好双方的奖励后在预设回合数以及预设回合时间下进行对战训练,记录训练期间每回合红方无人机对蓝方无人机的第一整体雷达覆盖率指标变化,作为最终的评测指标,其中,预设回合数以及预设回合时间是根据实际情况设定的。
[0125]
进一步地,确定单独使用多智体强化学习算法mappo算法进行对战训练得到的第二整体雷达覆盖率指标变化。
[0126]
进一步地,将第一整体雷达覆盖率指标变化与单独通过多智体强化学习算法训练得到的第二整体雷达覆盖率指标变化进行对比验证,验证基于心智理论的多智体强化学习算法tom-mappo算法对多智能体协同效果的提升,实现己方智能体的协同。
[0127]
本技术实施例
[0128]
本技术实施例提供的基于多智体强化学习的心智理论模型实现方法,将多智体强化学习、心智理论模型和任务场景进行结合,引入心智理论模型在协同任务场景中对己方智能体的意图信息进行有效捕获,并在多智体强化学习算法中进行了显式学习,从而提升了多智能体的最终协同效果。同时,结合多智体强化学习算法中集中训练分布执行框架的优势,提出能够和框架进行良好结合的联合心智模型网络结构,从而实现优势互补,提升了多智能体的最终协同效果。
[0129]
进一步地,描述本技术提供的基于多智体强化学习的心智理论模型实现装置,基于多智体强化学习的心智理论模型实现装置与基于多智体强化学习的心智理论模型实现方法相互对应参照。
[0130]
如图3所示,图3是本技术提供的基于多智体强化学习的心智理论模型实现装置的结构示意图,基于多智体强化学习的心智理论模型实现装置包括:
[0131]
建立预测模块301,用于基于心智理论模型建立原始联合心智模型网络,通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息;
[0132]
分级建模模块302,用于建立多智体强化学习的任务场景并结合所述意图特征信息,分级建模所述场景任务的主目标及其子目标;
[0133]
训练模块303,用于对所述主目标进行训练,得到收敛后的主目标实现算法,并基于平台底层规则得到所述子目标的规则化子目标实现算法;
[0134]
收集训练模块304,用于通过所述收敛后的主目标实现算法和所述规则化子目标实现算法收集待使用数据对所述原始联合心智模型网络进行训练,得到目标联合心智模型网络;
[0135]
预测实现模块305,用于通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,实现己方智能体的协同。
[0136]
进一步地,确定预测实现模块305还用于:
[0137]
通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,得到基于心智理论的多智体强化学习算法;
[0138]
通过所述基于心智理论的多智体强化学习算法控制己方智能体,通过强化学习算法控制敌方智能体,并将场景任务的参数调整至预设参数以及设定己方智能体和敌方智能体的奖励,在预设回合数以及预设回合时间下进行对战训练,记录训练期间每回合己方智能体和敌方智能体的第一整体雷达覆盖率指标变化;
[0139]
将所述第一整体雷达覆盖率指标变化与单独通过多智体强化学习算法训练得到的第二整体雷达覆盖率指标变化进行对比验证,实现己方智能体的协同。
[0140]
进一步地,建立预测模块301还用于:
[0141]
确定所述多个己方智能体的全局观测信息,其中,所述全局观测信息包括己方智能体信息和己方可观测到的敌方智能体信息;
[0142]
通过所述多个己方智能体的己方智能体信息和己方可观测到的敌方智能体信息,对所述心智理论模型进行训练,得到所述原始联合心智模型网络。
[0143]
进一步地,建立预测模块301还用于:
[0144]
通过所述原始联合心智模型网络对各个所述友方智能体的意图概率分布进行预测,得到各个所述友方智能体的表层意图信息;
[0145]
通过所述原始联合心智模型网络对各个所述友方智能体的自身概率分布进行预测,得到各个所述友方智能体的深处意图信息;
[0146]
将各个所述友方智能体的表层意图信息和深处意图信息,确定为各个所述友方智能体的意图特征信息。
[0147]
进一步地,分级建模模块302话还用于:
[0148]
确定多智体强化学习的任务场景,其中,所述任务场景的布局包括场景大小、作战多方初始位置信息、任务目标和最终任务评价指标;
[0149]
将所述场景大小、所述作战多方初始位置信息、所述任务目标和所述最终任务评价指标与所述意图特征信息进行结合,分级建模所述场景任务的主目标及其子目标。
[0150]
进一步地,训练模块303还用于:
[0151]
通过多智能体强化学习算法并以己方智能体信息和己方可观测到的敌方智能体信息为输入,以己方智能体选择的覆盖目标为输出,对所述主目标进行训练,得到所述收敛后的主目标实现算法;
[0152]
对己方智能体选定的目标进行追击并基于所述平台底层规则,得到所述规则化子目标实现算法。
[0153]
进一步地,收集训练模块304还用于:
[0154]
通过所述收敛后的主目标实现算法,所述规则化子目标实现算法和敌方策略实现算法进行多目标覆盖任务对战,并在运行过程中收集原始联合心智模型网络训练所需的待使用数据,其中,所述待使用数据包括训练数据、标签数据和测试数据;
[0155]
通过所述训练数据和所述标签数据对所述原始联合心智模型网络进行监督训练,并通过所述测试数据测试所述原始联合心智模型网络的意图预测准确率,得到预设准确率的目标联合心智模型网络。
[0156]
本技术提供的基于多智体强化学习的心智理论模型实现装置的具体实施例与上述基于多智体强化学习的心智理论模型实现方法各实施例基本相同,在此不作赘述。
[0157]
图4示例了一种电子设备的实体结构示意图,如图4所示,电子设备可以包括:处理器(processor)410、通信接口(communications interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行基于多智体强化学习的心智理论模型实现方法,该方法包括:
[0158]
基于心智理论模型建立原始联合心智模型网络,通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息;
[0159]
建立多智体强化学习的任务场景并结合所述意图特征信息,分级建模所述场景任务的主目标及其子目标;
[0160]
对所述主目标进行训练,得到收敛后的主目标实现算法,并基于平台底层规则得到所述子目标的规则化子目标实现算法;
[0161]
通过所述收敛后的主目标实现算法和所述规则化子目标实现算法收集待使用数据对所述原始联合心智模型网络进行训练,得到目标联合心智模型网络;
[0162]
通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,实现己方智能体的协同。
[0163]
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以
软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0164]
另一方面,本技术还提供一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于多智体强化学习的心智理论模型实现方法,该方法包括:
[0165]
基于心智理论模型建立原始联合心智模型网络,通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息;
[0166]
建立多智体强化学习的任务场景并结合所述意图特征信息,分级建模所述场景任务的主目标及其子目标;
[0167]
对所述主目标进行训练,得到收敛后的主目标实现算法,并基于平台底层规则得到所述子目标的规则化子目标实现算法;
[0168]
通过所述收敛后的主目标实现算法和所述规则化子目标实现算法收集待使用数据对所述原始联合心智模型网络进行训练,得到目标联合心智模型网络;
[0169]
通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,实现己方智能体的协同。
[0170]
又一方面,本技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于多智体强化学习的心智理论模型实现方法,该方法包括:
[0171]
基于心智理论模型建立原始联合心智模型网络,通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息;
[0172]
建立多智体强化学习的任务场景并结合所述意图特征信息,分级建模所述场景任务的主目标及其子目标;
[0173]
对所述主目标进行训练,得到收敛后的主目标实现算法,并基于平台底层规则得到所述子目标的规则化子目标实现算法;
[0174]
通过所述收敛后的主目标实现算法和所述规则化子目标实现算法收集待使用数据对所述原始联合心智模型网络进行训练,得到目标联合心智模型网络;
[0175]
通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,实现己方智能体的协同。
[0176]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0177]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0178]
最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1