本技术涉及多智能体系统编队控制的,具体是涉及一种基于模糊强化学习的多智能体系统预设时间编队控制方法。
背景技术:
1、随着科技的不断进步,多智能体系统在无人机编队、机器人团队等领域的应用越来越广泛。然而,在这些复杂动态环境中,实现智能体之间的高效协调与编队控制仍然面临许多挑战。传统的多智能体系统控制方法在应对动态不确定性和外部干扰时往往表现不佳,难以确保系统在规定时间内达到预期的编队效果。此外,环境的不确定性和智能体之间的非线性相互作用进一步增加了控制难度。
2、为解决这些问题,现有技术中存在设计一种神经网络结合输出调节器的鲁棒预设时间控制器,实现基于神经网络的异构多智能体系统预设时间跟踪控制方法,虽然能够通过自适应的学习机制优化智能体的协作策略,实现在复杂环境的下确保系统在预。设时间内达到目标编队,但此类方法在处理系统参数或环境变化等不确定性上仍存在局限性;现有技术中也存在通过设计模糊逻辑系统进行多智能体的控制策略,根据模糊逻辑系统具有处理不确定性和模糊信息的能力,提供了动态的自适应更新率,提高多智能体编队的效率,但此类方法针对智能体之间的协同控制存在局限。
3、本发明针对上述问题,提出了一种基于模糊强化学习的多智能体系统预设时间编队鲁棒控制方法,有效克服传统控制方法的局限性,提高多智能体系统在动态环境中的自适应性与控制精度,为无人机群、机器人团队等多智能体系统的编队任务提供了有力的技术支持。
技术实现思路
1、为了实现在复杂环境中实现多智能体系统的鲁棒控制,从而确保系统在预设时间内达到目标编队,同时具备较强的抗干扰能力,本技术提供一种基于模糊强化学习的多智能体系统预设时间编队控制方法。
2、第一方面,本技术提供一种基于模糊强化学习的多智能体系统预设时间编队控制方法,包括:
3、s1、基于图论,建立多智能体之间的通信网络;
4、s2、构建模糊逻辑系统;
5、s3、构建多智能体系统,包括:构建多智能体的状态方程,基于多智能体状态方程构建编队误差方程以及设计引入编队误差的性能指标函数;
6、s4、以多智能体在预设时间内完成目标编队控制为目标,构建辅助函数和误差变换函数;
7、s5、定义最优编队控制理论,包括在利用误差变化函数更新性能指标函数后定义最优的性能指标函数,引入hjb 方程求解最优的控制输入;
8、s6、应用aci结构,结合模糊逻辑系统设计标识符、批评者、行动者以及对应的更新规律,完成最优编队控制的参数矩阵更新。
9、通过采用上述方案,利用模糊逻辑系统完成在复杂动态环境多智能体的输出的精准计算;构建辅助函数辅助多智能体系统完成在预设时间内完成编队的精准控制;结合最优编队控制理论,获取最优的控制输入;设计标识符、批评者和行动者的更新规律,实现了最优编队控制的参数矩阵更新,实现鲁棒控制。
10、优选的,所述s1步骤具体包括:
11、s11、定义顶点集,表示智能体数量;
12、s12、定义边集,表示智能体之间的通信连接;
13、s13、定义邻接矩阵,表示智能体与智能体之间的通信连接,当存在通信连接,否则,;
14、s14、定义无向连通图,表征多智能体系统的通信网络拓扑;其中,,表示智能体与领导者之间的拉普拉斯矩阵;表示智能体与领导者之间的通信矩阵,其中,假设至少有一个智能体与领导者连接,即。
15、通过采用上述方案,定义顶点集、边集、邻接矩阵和无向连通图,有效地表征多智能体系统的通信网络结构,确保每个智能体都能准确地接收和发送信息,避免通信延迟或中断,进而提升整个多智能体系统的编队控制性能。
16、优选的,所述s2步骤具体包括:
17、s21、建立模糊规则库;所述模糊规则库中的规则形式为:若是,是,是,则是;其中,表示输入,表示输出,表示模糊规则个数;表示模糊集,表示的隶属函数;
18、s22、采用单态模糊化、积推理和中心平均去模糊化计算输出量;计算公式包括:
19、其中,为模糊规则总数;满足,令
20、其中,和,表示为:
21、。
22、通过采用上述方案,建立详细的模糊规则库并采用单态模糊化、积推理和中心平均去模糊化的方法,以提高计算效率并增强系统的鲁棒性和稳定性。
23、优选的,所述s3步骤包括:
24、s31、构建多智能体系统状态方程,公式为:其中,表示系统状态,表示控制输出,表示未知连续非线性函数,表示外部干扰;
25、s32、构建坐标变换方程:
26、其中,为跟踪误差,为领导者状态,表示领导者与智能体的相对位置;
27、s33、构建编队误差方程,公式为:其中,,如果存在协议,使得对于,是一个稳定时间,且为期望精度;表示第i个跟随者智能体的邻接矩阵;表示第i个智能体与其邻居智能体的通信联系权重;表示领导者和第i个智能体之间的通讯连接权重;
28、s34、构建性能指标函数,公式为:
29、其中,表示折扣因子,和表示对称正定矩阵;对于多智能体系统,如果是连续的,,在集合上稳定,是有限的,则在上允许控制协议,表示为。
30、通过采用上述方案,详细构建各智能体的状态及其动态特性,并通过坐标变换方程反映领导者与智能体之间的相对位置关系,进而量化编队过程中的误差,结合构建的性能指标,为后续完成预设时间内编队鲁棒控制提供基础。
31、优选的,所述s4步骤包括:
32、s41、为了实现多智能体系统的预设时间控制性能,构建辅助函数m:
33、其中,为设计参数,为规定时间;m在上严格递减,且当时,,且;m是光滑的,m在所有时都是有界的;
34、s42、构建误差变换函数,的构造如下:其中, 是常数,且。
35、通过采用上述方案,确保构建的辅助函数在预设时间内严格递减并最终趋于零,利用辅助函数来调整误差变换函数,从而有效控制多智能体系统的编队过程在预定时间能够更精确地达到目标编队状态。
36、优选的,所述s5步骤包括:
37、s51、根据误差变换函数更新性能指标函数,更新后进一步表示为:其中,通过表示为,并将代入所得;
38、s52、取最优群体控制,得到最优性能指标函数:;
39、s53、计算最优性能指标函数的时间导数,得到hjb方程:其中,,,,且是hjb方程的唯一解,求解时,获得最优控制输入:;
40、s54、为了实现最优的群体控制,将分割为:其中,是一个设计参数,,;
41、其中,,,,将代入,获得最优控制输入:;其中,未知参数和是连续的,对于和,存在和使得:其中,和均表示最优参数矩阵;和为模糊规则号;和表示模糊基函数向量;近似误差和对应满足和;和为常数。
42、通过采用上述方案,对最优性能指标函数的时间导数进行计算,推导出hjb方程,并求解该方程以获得最优控制输入,确保多智能体系统在预设时间内达到最优编队控制;将最优控制输入分割成多个部分,分别考虑设计参数和模糊基函数的影响,进一步确保控制输出的精确性和鲁棒性。
43、优选的,所述s6步骤包括:
44、s61、应用aci结构,设计标识符为:其中,和分别表示fls和标识符参数矩阵的输出,设计标识符更新规律为:其中,表示设计参数,表示正定矩阵;
45、s62、设计批评者以评估控制性能,公式为:其中,为批评者参数矩阵;设计批评者更新规律为:其中,和为设计参数;
46、s63、设计行动者以实现控制行为,公式为:其中,表示行动者参数矩阵,设计行动者更新规律为:其中,为设计参数;
47、s64、如果落在0个特征向量的值上,则训练终止。
48、通过采用上述方案,设计控制策略的网络更新律,实现控制参数矩阵的更新,保障控制输入的鲁棒性。
49、优选的,所述s41步骤还包括:
50、利用模糊逻辑系统计算每个智能体当前时刻的输出量,比较当前时刻每个智能体的输出量与预设阈值范围确定智能体的状态;所述智能体的状态包括良好、一般以及不佳;
51、判断状态确定为不佳的多智能体的数量占比是否大于第一预设比例;若大于,则在原构建的辅助函数基础上,选择第一预设系数以调整预设的规定时间以延长预设的规定时间,获取调整后辅助函数,公式为:
52、其中,为第一预设系数;
53、判断状态确定为良好的多智能体的数量占比是否大于第二预设比例;若大于,则在原构建的辅助函数基础上,选择第二预设系数以调整预设的规定时间以缩短预设的规定时间,获取调整后辅助函数,公式为:
54、其中,为第二预设系数。
55、通过采用上述方案,比较实时输出量与预设阈值判断每个智能体的工作状态,进而动态调整多智能体系统预设时间编队控制中的预设时间,提高系统的适应性和鲁棒性。
56、优选的,所述s41步骤还包括:
57、采集当前环境数据;根据采集的环境数据自预设输出阈值库中匹配预设阈值范围,将匹配的预设阈值范围作为与每个智能体的输出量比较的预设阈值范围;所述预设输出阈值库中存储有不同环境数据条件下的预设阈值范围。
58、通过采用上述方案,根据不同环境条件下智能体的实时输出量动态调整预设阈值范围,从而更准确地判定智能体的工作状态。
59、优选的,所述步骤s33中构建编队误差方程还包括:
60、确定目标编队控制的编队情景,所述编队情景包括:紧密编队、松散编队;
61、根据确定的目标编队控制的编队情景匹配预设的编队误差系数权重组合;所述紧密编队匹配预设的编队误差系数权重组合为第一权重组合,松散编队匹配预设的编队误差系数权重组合为第二权重组合;其中,相比于第二权重组合,第一权重组合中的领导者与智能体之间跟踪误差对应的权重和智能体与智能体之间跟踪误差对应的权重之比更大;
62、利用匹配的预设的编队误差系数权重组合为构建的编队误差方程的权重进行赋值处理。
63、通过采用上述方案,根据不同编队情景灵活调整编队误差方程中的权重,提高编队控制的精度和稳定性。
64、综上,本技术具有以下有益效果:
65、通过构建模糊逻辑系统处理不确定性,用于评估智能体状态的准确性;制定规定时间控制律,确保多智能体系统在预定时间内达到目标编队;结合强化学习算法,完成自主学习智能体之间的最优协作策略;设计鲁棒控制策略,使编队在运动时能够抑制干扰影响,从而实现多智能体系统在复杂环境中能够在规定时间内的完成精确编队控制,同时具备干扰抑制性能。