一种基于加权式强化学习的分段式退避算法

文档序号：26760145发布日期：2021-09-25 05:37阅读：来源：国知局

技术特征：
1.一种基于加权式强化学习的分段式退避算法，用于在保证节点竞争接入信道的公平性的同时提升无线传感器网络的信道有效利用率并降低丢包率，其特征在于，包括以下步骤：步骤s1：建立二进制指数退避算法模型，分析无线传感器网络的信道有效利用率和数据丢包率随网络中数据流量的增加而变化的情况，并且建立分段式的退避窗口，设置不同的节点数量以改变网络中的数据流量情况，以得到不同节点数量情况下的各段退避窗口的信道有效利用率；步骤s2：建立加权式强化学习算法，并且使得加权式强化学习算法在网络环境稳定的情况下自动减少多余的探索动作来减少资源的浪费，在网络环境波动的情况下自动增大进行探索动作的概率，并在探索动作的过程中根据原来最优动作的距离按照权重比由大到小分配，使加权式强化学习算法优先探索就近的探索动作；步骤s3：建立强化学习模型，将不同段的退避窗口与信道有效利用率作为强化学习模型的探索动作和奖励值，并且带入加权式强化学习算法，通过加权的方式影响探索动作的选择，使网络模型在保证节点竞争接入信道的公平性的同时的基础上选择信道有效利用率最高的退避窗口段。2.根据权利要求1所述的一种基于加权式强化学习的分段式退避算法，其特征在于，步骤s1具体实施为以下步骤：步骤s1.1：建立根据ieee 802.15.4 csma/ca协议的二进制指数退避算法模型，并且输入网络模型的不同节点数量na作为数据流量大小，以得到各节点数量下的信道有效利用率pa，统计获得到的各节点的信道有效利用率数据，以得到节点与信道有效利用率的关系r1；步骤s1.2：根据ieee 802.15.4中csma/ca协议的原理，以建立分段式的退避窗口，输入网络模型的不同节点数量nb作为数据流量大小，以得到各节点数量下的各段退避窗口的信道有效利用率pb，统计获得到的各节点的信道有效利用数据，以得到不同数据流量下不同段的退避窗口与信道有效利用率pb的关系r2；步骤s1.3：将r1和r2进行比对，从而获得第一比对数据。3.根据权利要求2所述的一种基于加权式强化学习的分段式退避算法，其特征在于，步骤s2具体实施为以下步骤：步骤s2.1：建立加权式强化学习算法，制定加权函数使探索动作被选择的概率以最优动作向两侧递减，加权函数如下：其中，m为拥有最大奖励值的探索动作，i为已知的其余探索动作，ε为探索动作执行的概率，m
‑
i表为执行其余探索动作距离最大奖励值探索动作的距离；步骤s2.2：建立自适应探索函数，使探索动作随着网络环境的稳定减小变化而增大，自适应探索函数如下：
其中，ε为探索动作执行的概率，v为保存初始的ε概率。4.根据权利要求3所述的一种基于加权式强化学习的分段式退避算法，其特征在于，步骤s3具体实施为以下步骤：步骤s3.1：建立强化学习模型，不同段的退避窗口与信道有效利用率作为强化学习模型的探索动作和奖励值；步骤s3.2：在强化学习模型中输入当前网络模型的不同的节点数量，分别带入第一算法和加权式强化学习算法得到探索动作的执行过程c1和c2，并且将c1和c2进行比对比获得第二比对数据。5.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述一种基于加权式强化学习的分段式退避算法的步骤。6.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4任一项所述一种基于加权式强化学习的分段式退避算法的步骤。

技术总结
本发明公开了一种基于加权式强化学习的分段式退避算法，包括步骤S1：建立二进制指数退避算法模型，分析无线传感器网络的信道有效利用率和数据丢包率随网络中数据流量的增加而变化的情况，并且建立分段式的退避窗口，设置不同的节点数量以改变网络中的数据流量情况，以得到不同节点数量情况下的各段退避窗口的信道有效利用率。本发明公开的一种基于加权式强化学习的分段式退避算法，其通过加权式强化学习模型对于网络访问控制控制层的信道接入方式进行调整，从而在保证节点竞争接入信道的公平性的同时提升无线传感器网络的信道有效利用率并降低丢包率。效利用率并降低丢包率。效利用率并降低丢包率。

技术研发人员：陈丽朱锌成杨俊邓琨尚涛赵竞远陈洁王君壬陈雨豪孙泽成盖博源
受保护的技术使用者：嘉兴学院
技术研发日：2021.06.23
技术公布日：2021/9/24

完整全部详细技术资料下载

当前第2页1 2