一种基于改进强化学习的水下多模态网络路由策略生成方法与流程

文档序号：23892488发布日期：2021-02-09 12:36阅读：来源：国知局

技术特征：
1.一种基于改进强化学习的水下多模态网络路由策略生成方法，其特征在于：在路由策略实施初期的离线阶段：从水面汇聚节点开始通过迭代的方式初步学习网络节点间传输关系，使每个节点获得每个信息价值量等级数据到汇聚节点的最大传输收益；在网络运行的在线阶段：通过强化学习模型对每个节点采用中继节点和传输频段组合获得水面汇聚节点的期望收益，从而构建适用于不同信息价值量等级数据的传输路径。2.根据权利要求1所述的一种基于改进强化学习的水下多模态网络路由策略生成方法，其特征在于：在路由策略实施初期的离线阶段每个节点获得最大传输收益步骤：s1、位于水面的汇聚节点为每个传输频段组合产生一个广告包；然后将该包通过所对应的传输频段组合以广播形式发送出去；s2、水下节点通过奖励函数计算自身到水面的汇聚节点最终奖励函数，即其中：奖励函数具体表达为式式中nr(i)是节点n
i
接收adv数据包的节点集，g表示节点n
i
从节点n
j
接收的一个adv包的传输频段组合的id，g
ij
表示节点n
i
从节点n
j
接收的一个adv包的传输频段组合的集合，表示节点n
i
使用传输模式g将信息价值量等级为l的数据传输到节点n
j
时的传输花费；s3、每个水下节点的最终奖励值通过广播方式将含有传输频段组合id信息的广告包进行广播；s4、判断所有水下节点是否获得自身到水面汇聚节点最终奖励值。3.根据权利要求1所述的一种基于改进强化学习的水下多模态网络路由策略生成方法，其特征在于：在网络运行的在线阶段构建适用于不同信息价值量等级数据的传输路径过程：s1、水下节点在有数据包进行传输时，每个节点根据数据的信息价值量等级l，利用收益函数计算当前状态s
h
的每个动作a的及时收益s2、水下节点利用q值函数计算当前状态s
h
的每个动作a的最终收益q
π
(s
h
,a)；s3、水下节点根据当前状态s
h
的每个动作a的最终收益q
π
(s
h
,a)计算最优策略的收益值以及最优策略，其中最优策略计算表达为式：式中表示节点n
i
在状态s
h
下传输信息价值量等级为l的数据所采用的最优策略。

完整全部详细技术资料下载

当前第2页1 2 3