1.一种基于强化学习的异步群体决策方法,其特征在于,包括:
2.如权利要求1所述的基于强化学习的异步群体决策方法,其特征在于,所述步骤二应用强化学习从参与者集合中选择一个子集构成决策者集合中,令p={p1,p2,…,pm}表示系统内的参与者集合,共包含m名参与者;
3.如权利要求2所述的基于强化学习的异步群体决策方法,其特征在于,所述步骤3中,对于pi的历史决策时间,其奖励表示为:
4.如权利要求1所述的基于强化学习的异步群体决策方法,其特征在于,所述步骤三设计一个异步决策过程中,基于强化学习的异步群体决策系统收到一个决策任务,决策任务表示有一个决策问题,包含五个备选方案,即g={g1,g2,g3,g4,g5},决策者从五个备选方案中进行选择,当决策者集合筛选完成后,将这个决策任务发送给决策者群体e,决策者收到决策任务后,将结合自己的信息以及系统反馈回的群体信息,做出决策;
5.如权利要求1所述的基于强化学习的异步群体决策方法,其特征在于,所述步骤四确定说明决策质量的评价指标,包含说明决策者偏好的集中程度的信息熵指标hi和h以及说明决策者偏好与群体偏好差异程度的共识指数指标cii和cg,具体步骤如下:
6.如权利要求1所述的基于强化学习的异步群体决策方法,其特征在于,所述步骤五对不满足指标的决策偏好,设计一个自动调整共识算法调整决策者的偏好中,对于决策者ei的信息熵hi高于信息熵阈值η1或者共识指数cii低于共识指数阈值ζ的决策者的偏好进行修改,具体包括以下两个步骤:
7.一种基于强化学习的异步群体决策方法,其特征在于,包括:
8.一种用于实施权利要求1~6任意一项所述的基于强化学习的异步群体决策方法的基于强化学习的异步群体决策系统,其特征在于,所述基于强化学习的异步群体决策系统包括:
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~6任意一项所述小样本变工况颤振监测方法。
10.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1~6任意一项所述小样本变工况颤振监测方法。