本技术涉及无线通信网络,特别是涉及一种基于语义信息预测的多智能体通信协作方法、装置及设备。
背景技术:
1、多智能体深度强化学习mdrl是解决信息协调策略问题的有效方法,主要优势在于它可以将强化学习扩展到高维的状态和动作空间。深度强化学习在许多需要感知高维度原始输入数据和决策控制的任务中,已经取得了实质性的突破,例如无人驾驶、机器人控制、交通运输调度、通信网络、以及金融和社会学等领域。
2、在多智能体中,每个智能体分布于环境中,只能获得局部观察无法获取环境整体状态,导致智能体部分可观察挑战。同时面临非平稳问题,通信被认为是多智能体一种重要手段。尽管智能体接收到的观测值经常变化,但连续的观测中呈现的信息通常是相似的,智能体之间的消息交换往往冗余且海量。直接进行通信将对现有通信系统造成极大挑战,将耗费了大量通信资源。需要考虑传输信息量和通信带宽,不仅考虑利用通信提高整体性能,同时关注数据量和频带资源的消耗。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高通信整体性能的基于语义信息预测的多智能体通信协作方法、装置及设备。
2、一种基于语义信息预测的多智能体通信协作方法,所述方法实施于相互通信的多个智能体中,所述方法包括:
3、获取当前时刻的局部观测数据,以及其他智能体发送的观察数据;
4、采用正则化器针对各所述观察数据以及对应的上一时刻的观察数据进行处理,确定当前时刻的观察数据;
5、对当前时刻的观察数据进行信道解码得到,其他各智能体采用语义大模型根据各自当前时刻的局部观测数据预测得到的下一时刻的局部预测动作以及语义特征信息;
6、根据所有其他智能体的局部预测动作以及语义特征信息进行信息重构,得到全局语义观测数据;
7、利用语义反对齐网络将所述全局语义观测数据映射至观察状态域,得到对应的全局观测数据;
8、根据当前时刻的局部观测数据以及全局观测数据得到全局动作值函数,将所述全局动作值函数输入强化学习网络中,得到下一时刻的决策。
9、在其中一实施例中,所述根据当前时刻的局部观测数据以及全局观测数据得到全局动作值函数包括:
10、采用深度q网络根据所述当前时刻的局部观测数据生成对应的局部动作值函数;
11、利用所述全局观测数据对所述局部动作值函数进行优化,得到所述全局动作值函数。
12、一种基于语义信息预测的多智能体通信协作方法,所述方法实施于相互通信的多个智能体中,所述方法包括:
13、获取当前时刻的局部观测数据,对所述局部观测数据进行筛选,并通过语义对齐将筛选后的局部观测数据映射至自然语言域中,得到对应的文本数据;
14、利用语义大模型分别根据预设的动作预测提示词以及语义提示词,基于所述文本数据对下一时刻的局部动作进行动作预测,以及进行当前时刻文本数据的语义特征信息提取,得到局部预测动作以及语义特征信息;
15、将所述局部预测动作以及语义特征信息进行信道编码,得到观察数据,并将所述观察数据发送至其他智能体。
16、在其中一实施例中,所述动作预测提示词以及语义提示词根据任务信息、规则信息以及延时信息进行构建。
17、一种基于语义信息预测的多智能体通信协作方法,所述方法实施于相互通信的多个智能体中,所述方法包括:
18、获取当前时刻的局部观测数据,对所述局部观测数据进行筛选,并通过语义对齐将筛选后的局部观测数据映射至自然语言域中,得到对应的文本数据;
19、利用语义大模型分别根据预设的动作预测提示词以及语义提示词,基于所述文本数据对下一时刻的局部动作进行动作预测,以及进行当前时刻文本数据的语义特征信息提取,得到局部预测动作以及语义特征信息;
20、将所述局部预测动作以及语义特征信息进行信道编码,得到观察数据,并将所述观察数据发送至其他智能体;
21、获取其他智能体发送的观察数据,采用正则化器针对各所述观察数据以及对应的上一时刻的观察数据进行处理,确定当前时刻的观察数据;
22、对当前时刻的进行信道解码得到,其他各智能体采用语义大模型根据各自当前时刻的局部观测数据预测得到的下一时刻的局部预测动作以及语义特征信息;
23、根据所有其他智能体的局部预测动作以及语义特征信息进行信息重构,得到全局语义观测数据;
24、利用语义反对齐网络将所述全局语义观测数据映射至观察状态域,得到对应的全局观测数据;
25、根据当前时刻的局部观测数据以及全局观测数据得到全局动作值函数,将所述全局动作值函数输入强化学习网络中,得到下一时刻的决策。
26、在其中一实施例中,所述动作预测提示词以及语义提示词根据任务信息、规则信息以及延时信息进行构建。
27、在其中一实施例中,所述根据当前时刻的局部观测数据以及全局观测数据得到全局动作值函数包括:
28、采用深度q网络根据所述当前时刻的局部观测数据生成对应的局部动作值函数;
29、利用所述全局观测数据对所述局部动作值函数进行优化,得到所述全局动作值函数。
30、一种基于语义信息预测的多智能体通信协作装置,所述装置包括:
31、观测数据获取模块,用于获取当前时刻的局部观测数据,对所述局部观测数据进行筛选,并通过语义对齐将筛选后的局部观测数据映射至自然语言域中,得到对应的文本数据;
32、局部动作预测以及语义特征提取模块,用于利用语义大模型分别根据预设的动作预测提示词以及语义提示词,基于所述文本数据对下一时刻的局部动作进行动作预测,以及进行当前时刻文本数据的语义特征信息提取,得到局部预测动作以及语义特征信息;
33、观测数据发送模块,用于将所述局部预测动作以及语义特征信息进行信道编码,得到观察数据,并将所述观察数据发送至其他智能体;
34、观察数据获取模块,用于获取其他智能体发送的观察数据,采用正则化器针对各所述观察数据以及对应的上一时刻的观察数据进行处理,确定当前时刻的观察数据;
35、观测数据解码模块,用于对当前时刻的观察数据进行信道解码得到,其他各智能体采用语义大模型根据各自当前时刻的局部观测数据预测得到的下一时刻的局部预测动作以及语义特征信息;
36、全局语义观测数据构建模块,用于根据所有其他智能体的局部预测动作以及语义特征信息进行信息重构,得到全局语义观测数据;
37、全局观测数据得到模块,用于利用语义反对齐网络将所述全局语义观测数据映射至观察状态域,得到对应的全局观测数据;
38、下一时刻决策模块,用于根据当前时刻的局部观测数据以及全局观测数据得到全局动作值函数,将所述全局动作值函数输入强化学习网络中,得到下一时刻的决策。
39、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
40、获取当前时刻的局部观测数据,对所述局部观测数据进行筛选,并通过语义对齐将筛选后的局部观测数据映射至自然语言域中,得到对应的文本数据;
41、利用语义大模型分别根据预设的动作预测提示词以及语义提示词,基于所述文本数据对下一时刻的局部动作进行动作预测,以及进行当前时刻文本数据的语义特征信息提取,得到局部预测动作以及语义特征信息;
42、将所述局部预测动作以及语义特征信息进行信道编码,得到观察数据,并将所述观察数据发送至其他智能体;
43、获取其他智能体发送的观察数据,采用正则化器针对各所述观察数据以及对应的上一时刻的观察数据进行处理,确定当前时刻的观察数据;
44、对当前时刻的观察数据进行信道解码得到,其他各智能体采用语义大模型根据各自当前时刻的局部观测数据预测得到的下一时刻的局部预测动作以及语义特征信息;
45、根据所有其他智能体的局部预测动作以及语义特征信息进行信息重构,得到全局语义观测数据;
46、利用语义反对齐网络将所述全局语义观测数据映射至观察状态域,得到对应的全局观测数据;
47、根据当前时刻的局部观测数据以及全局观测数据得到全局动作值函数,将所述全局动作值函数输入强化学习网络中,得到下一时刻的决策。
48、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
49、获取当前时刻的局部观测数据,对所述局部观测数据进行筛选,并通过语义对齐将筛选后的局部观测数据映射至自然语言域中,得到对应的文本数据;
50、利用语义大模型分别根据预设的动作预测提示词以及语义提示词,基于所述文本数据对下一时刻的局部动作进行动作预测,以及进行当前时刻文本数据的语义特征信息提取,得到局部预测动作以及语义特征信息;
51、将所述局部预测动作以及语义特征信息进行信道编码,得到观察数据,并将所述观察数据发送至其他智能体;
52、获取其他智能体发送的观察数据,采用正则化器针对各所述观察数据以及对应的上一时刻的观察数据进行处理,确定当前时刻的观察数据;
53、对当前时刻的观察数据进行信道解码得到,其他各智能体采用语义大模型根据各自当前时刻的局部观测数据预测得到的下一时刻的局部预测动作以及语义特征信息;
54、根据所有其他智能体的局部预测动作以及语义特征信息进行信息重构,得到全局语义观测数据;
55、利用语义反对齐网络将所述全局语义观测数据映射至观察状态域,得到对应的全局观测数据;
56、根据当前时刻的局部观测数据以及全局观测数据得到全局动作值函数,将所述全局动作值函数输入强化学习网络中,得到下一时刻的决策。
57、上述基于语义信息预测的多智能体通信协作方法、装置及设备,通过对其他智能体发送的观察数据进行信道解码得到,其他各智能体采用语义大模型根据各自当前时刻的局部观测数据预测得到的下一时刻的局部预测动作以及语义特征信息,根据所有其他智能体的局部预测动作以及语义特征信息进行信息重构,得到全局语义观测数据,利用语义反对齐网络将全局语义观测数据映射至观察状态域,得到对应的全局观测数据,根据当前时刻的局部观测数据以及全局观测数据得到全局动作值函数,将全局动作值函数输入强化学习网络中,得到下一时刻的决策。采用本方法可以大量减少多智能体通信时的大量冗余信息,从而提高收敛速度和精度的情况下显著降低智能体间通信开销。