一种基于强化学习的异步群体决策系统及方法

文档序号：35381435发布日期：2023-09-09 07:18阅读：来源：国知局

技术特征：

1.一种基于强化学习的异步群体决策方法，其特征在于，包括：

2.如权利要求1所述的基于强化学习的异步群体决策方法，其特征在于，所述步骤二应用强化学习从参与者集合中选择一个子集构成决策者集合中，令p＝{p1，p2，…，pm}表示系统内的参与者集合，共包含m名参与者；

3.如权利要求2所述的基于强化学习的异步群体决策方法，其特征在于，所述步骤3中，对于pi的历史决策时间，其奖励表示为：

4.如权利要求1所述的基于强化学习的异步群体决策方法，其特征在于，所述步骤三设计一个异步决策过程中，基于强化学习的异步群体决策系统收到一个决策任务，决策任务表示有一个决策问题，包含五个备选方案，即g＝{g1，g2，g3，g4，g5}，决策者从五个备选方案中进行选择，当决策者集合筛选完成后，将这个决策任务发送给决策者群体e，决策者收到决策任务后，将结合自己的信息以及系统反馈回的群体信息，做出决策；

5.如权利要求1所述的基于强化学习的异步群体决策方法，其特征在于，所述步骤四确定说明决策质量的评价指标，包含说明决策者偏好的集中程度的信息熵指标hi和h以及说明决策者偏好与群体偏好差异程度的共识指数指标cii和cg，具体步骤如下：

6.如权利要求1所述的基于强化学习的异步群体决策方法，其特征在于，所述步骤五对不满足指标的决策偏好，设计一个自动调整共识算法调整决策者的偏好中，对于决策者ei的信息熵hi高于信息熵阈值η1或者共识指数cii低于共识指数阈值ζ的决策者的偏好进行修改，具体包括以下两个步骤：

7.一种基于强化学习的异步群体决策方法，其特征在于，包括：

8.一种用于实施权利要求1～6任意一项所述的基于强化学习的异步群体决策方法的基于强化学习的异步群体决策系统，其特征在于，所述基于强化学习的异步群体决策系统包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～6任意一项所述小样本变工况颤振监测方法。

10.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1～6任意一项所述小样本变工况颤振监测方法。

技术总结
本发明属于群体决策技术领域，公开了一种基于强化学习的异步群体决策系统及方法，构建一个基于强化学习的异步群体决策系统框架，并明确该系统内各过程的功能；应用强化学习从参与者集合中筛选出一组历史平均表现最优的子集构成决策者集合；设计一个异步决策过程，并对其具体子步骤给出介绍；确定说明决策质量的评价指标；对不满足指标的决策偏好，设计一个自动调整共识算法调整决策者的偏好。本发明结合了群体智能的思想，应用强化学习筛选决策者，并通过一个异步的决策过程完成群体决策任务，最后，一个自动调整共识算法被用来调整决策者的偏好。

技术研发人员：唐长兵,钟丽琴,鲍峥,胡兆龙,林飞龙
受保护的技术使用者：浙江师范大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

当前第2页1 2