本发明属于多智能体协同控制,具体涉及基于高阶动态抑制控制器的多智能体协同控制方法。
背景技术:
1、多智能体协同控制是指通过多个智能体之间的协调与合作,共同完成复杂任务的技术。它利用信息共享和分布式决策,实现智能体的高效协同和任务分配。该技术广泛应用于搜索救援、环境监测和物流等领域,以提高系统的整体性能和鲁棒性。为了优化多智能体系统(multi-agent systems,简称mas)的协同控制技术,一些新的技术方案被提出。
2、例如,现有研究中,guo和ren提出了一种事件驱动分布式最优h∞控制器,该方法通过一对一非线性映射技术转换,减轻外部扰动的影响。shi和chen设计了一种在线合作算法,并借助模型预测作为智能体的控制器,该方法有效改善了动态设计的合作机制。amirkhani使用了一致性算法的自适应控制来解决mas中的分布式控制问题。khan和wang提出了一种基于mas的架构,该架构通过分布式优化引入实时控制技术,保证了多个智能代理的协同工作。sakurama利用了梯度流方法来设计控制器,该方法基于目标函数和势函数来编码控制任务以解决多智能体的协调任务。
3、值得注意的是,上述研究是在具有稳定输出约束的条件下进行的方案设计,这通常取决于初始条件。然而在高阶系统中,输出约束发生动态变化、并且外部干扰为多层叠加的状态下,这些研究中的方案难以实现协同控制的应用。因此,研究高阶动态系统在多重外部干扰和动态变化输出约束状态下的协同控制势在必行。
技术实现思路
1、根据以上现有技术中的不足,本发明提供了基于高阶动态抑制控制器的多智能体协同控制方法,在不同初始条件和多重干扰下均能保持多智能体系统的稳定性和输出收敛性,解决了mas中的外部干扰和输出约束问题。
2、为达到以上目的,本发明提供了基于高阶动态抑制控制器的多智能体协同控制方法,包括以下步骤:
3、s1、对于由n个智能体组成的多智能体系统mas,构建高阶动态抑制控制器,步骤为:
4、s11、将每个智能体的动态行为表示为高阶随机非线性系统;
5、s12、设定关于非线性函数的假设和关于外部干扰的假设,用以描述mas的高阶随机非线性特性;
6、s13、定义mas的全局状态向量,并建立关于mas的动态系统;
7、s14、定义mas的控制目标,并基于控制目标设定高阶动态抑制控制定理;
8、s15、在高阶动态抑制控制定理中引入高阶任意动态性,获得高阶任意动态性加权控制律,完成高阶动态抑制控制器的构建;
9、s2、在高阶动态抑制控制器的基础上,构建动态自适应分层架构,用以满足动态行为下的控制激励条件,构建步骤为:
10、s21、在多智能体协同控制中,引入脑电信号eeg和脑机接口bci(脑机接口中,eeg相当于人体与外界环境的一个通道,通过脑电信号进一步完成多机协同控制的需求),建立正逆向反馈控制函数;
11、s22、对于包含bci在内的n个智能体,动态调整智能体所受到多重初始输入的干扰;
12、s23、设立正逆向反馈控制的更新规则,完成动态自适应分层架构的构建;
13、s3、基于高阶动态抑制控制器和动态自适应分层架构,实现mas中多智能体的协同控制。
14、所述的s11中,对于第i个智能体,其在t时刻的动态行为的高阶随机非线性系统表示为:
15、(1);
16、式中,是第i个智能体在t时刻的状态向量,是智能体的状态向量集合,即为第j个智能体在t时刻的状态向量;和分别是第i个智能体和第j个智能体的非线性函数;是第i个智能体在t时刻的外部干扰;是第i个智能体在t时刻的控制输入;aij是邻接矩阵的元素,表示第i个智能体和第j个智能体之间的连接权重;t代表时刻。
17、所述的s12中,关于非线性函数的假设为:
18、和分别是关于和的光滑函数,满足和;
19、关于外部干扰的假设为:
20、是有界的,即存在常数,使得。
21、所述的s13中,定义mas的全局状态向量为:
22、(2);
23、则关于mas的动态系统表示为:
24、(3);
25、(4);
26、(5);
27、(6);
28、(7);
29、式中,a是邻接矩阵;是在t时刻的外部干扰;是在t时刻的控制输入(t代表转置)。
30、所述的s14中,mas的控制目标为:
31、全局稳定性,使得mas的收敛到期望轨迹;
32、输出约束,在控制过程中,每个智能体的输出(输出即为智能体的状态向量)满足预先定义的约束条件,即为,其中是第i个智能体的输出约束集合;
33、协同工作性能,确保所有智能体在满足约束条件的同时,实现协同工作和全局优化;
34、由此,设定高阶动态抑制控制定理,具体为,考虑的动态行为,如果的设计满足式(8),则mas在有界的条件下是全局渐进稳定的,并且满足输出约束,式(8)为:
35、(8);
36、式中,是在t时刻的误差向量,是第i个智能体在t时刻的期望向量;ki是正定增益矩阵;是非线性反馈函数;是在t时刻的补偿项,且满足:
37、(9);
38、式中,是第j个智能体在t时刻的状态。
39、所述的s15中,在高阶动态抑制控制定理中引入高阶任意动态性,获得高阶任意动态性加权控制律,完成高阶动态抑制控制器的构建的过程为:
40、s151、考虑的n阶导数(即为高阶随机非线性系统),引入高阶任意动态性后的控制律表示为:
41、(10);
42、式中,m是常数,是的m阶导数,m≤n;是高阶导数项的加权系数;
43、s152、进一步展开高阶导数项,假设表示为以下形式:
44、(11);
45、式中,是m阶导数的系数,用于表示每个智能体的权重;即为t的m阶次幂;则表示为:
46、(12);
47、是数学中关于高次微分的一种书写形式;m-m等于0,0!是0的阶乘,0!=1;
48、s153、整合式(10)、式(11)和式(12),获得最终的高阶任意动态性加权控制律,表示为:
49、(13)。
50、所述的s21中,建立正逆向反馈控制函数的过程为:
51、s211、对于预处理后的eeg信号矩阵,存在优化策略,使得在时间区间内,mas在t时刻的任务识别和执行的误差满足:
52、(14);
53、式中,t0表示起始时刻;tf表示结束时刻;为在t时刻的任务标签向量;为在t时刻的任务分配矩阵;为期望的任务标签;为期望的任务分配矩阵;
54、其中,预处理方法为,利用带通滤波器去除eeg信号中的噪声和伪影,得到,表示为:
55、(15);
56、式中,为原始eeg信号矩阵,是滤波器矩阵;
57、s212、利用小波变换,对进行时频域转换,得到时频矩阵,其中cwt表示小波变换;
58、s213、利用主成分分析法pca进行降维,特征向量,其中是pca变换矩阵;
59、s214、通过独立成分分析法ica将混合信号分离,得到独立成分矩阵,其中是ica变换矩阵;
60、s215、在正向反馈中,通过第k个智能体在t时刻的误差函数实时调整任务标签向量和任务分配矩阵,使误差最小化,即,根据式(14),得到在t时刻的优化反馈控制:
61、(16);
62、式中,f是正逆向反馈控制函数,设定f1为正向反馈控制函数,f2为逆向反馈控制函数,则存在和,使得正向反馈表示为:
63、(17);
64、式中,α是学习率,β折扣因子;t+1即为t+1时刻,下同;
65、逆向反馈表示为:
66、(18);
67、式中,、、分别是t时刻的滤波器矩阵、pca变换矩阵和ica变换矩阵;、和分别代表智能体1、智能体2和智能体3在t时刻的具有激励性的误差函数,,和;、和分别是第k个智能体对三类不同的综合智能体的干扰误差函数;
68、其中,将外界环境等效为智能体1,将被控制的智能体等效为智能体2,将bci等效为智能体3,三类不同的综合智能体即为智能体1、智能体2和智能体3代表的智能体类别。
69、所述的s22中,动态调整智能体所受到多重初始输入的干扰的过程为:
70、s221、对于包含bci在内的n个智能体,智能体状态表示为:
71、(19);
72、中的元素表示各个智能体在t时刻的状态;
73、智能体的动作选择表示为:
74、(20);
75、中的元素表示各个智能体在t时刻的动作选择;
76、s222、设定表示第k个智能体的状态和动作值函数,代表中的元素,代表中的元素,在满足高阶动态抑制控制定理的前提下:
77、(21);
78、式中,表示迭代后的,表示迭代后的;ri是奖励函数;表示为:
79、(22);即代表公知的奖励函数;
80、s223、第k个智能体所受到多重初始输入的干扰表示为,根据动态调整,表示为:
81、(23);
82、式中,是调整步长;是关于的梯度;表示第k个智能体在t时刻所受到多重初始输入的干扰。
83、所述的s223中,调整的具体步骤为:
84、s2231、初始化每个智能体的和;
85、s2232、对于每个时间步长,每个智能体首先观测当前时刻(当前时刻即为t时刻)的状态,随后根据贪心策略选择动作(此处同样为t时刻),最后执行并观测和下一时刻的状态,以此更新和;是t时刻的奖励函数。
86、所述的s23中,设立正逆向反馈控制的更新规则的过程为:
87、s231、定义增益矩阵x1和x2,令:
88、(24);
89、s232、定义在t时刻的控制策略为:
90、(25);
91、式中,和分别是bci和外界干扰的控制增益矩阵;
92、s233、结合式(17)和式(18),设定规则:
93、(26);
94、(27);
95、此处同样代表公知的奖励函数;
96、由式(26)和式(27)组成的规则即为双向控制理论;
97、s234、对于每个时刻t:
98、(28);
99、s235、智能体执行并观测和下一时刻的状态,x1和x2调整为:
100、(29);
101、(30);
102、至此,完成在高阶动态抑制控制器的基础上构建动态自适应分层架构。
103、本发明涉及的算法可以通过电子设备执行,电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,通过处理器执行软件实现上述的算法。
104、本发明所具有的有益效果是:
105、本发明旨在解决多智能体系统mas中的外部干扰和输出约束问题,通过设计具有高阶任意动态性的加权控制律,确保了多智能体系统的全局稳定性;采用动态自适应分层架构(dala),结合正逆向异步反馈机制,实现了智能体的协同工作和全局优化。
106、本发明的高阶动态控制器在不同初始条件和多重干扰下均能保持多智能体系统的稳定性和输出收敛性,显著优于传统控制方法。具体来说,在尖峰式脉冲干扰下,本发明的控制律使得智能体状态能够快速收敛到期望轨迹,且在多次尖峰干扰中仍能保持稳定,这种协同控制方法为脑机接口在多智能体环境中的应用提供了新的解决方案。