一种基于改进强化学习的水下多模态网络路由策略生成方法与流程

文档序号:23892488发布日期:2021-02-09 12:36阅读:111来源:国知局
一种基于改进强化学习的水下多模态网络路由策略生成方法与流程

[0001]
本发明主要涉及水下无线传感网络技术领域,尤其涉及一种基于改进强化学习的水下多模态网络路由策略生成方法。


背景技术:

[0002]
水下无线传感器网络能够帮助人类更加便捷地认识和了解海洋,获得有价值海洋数据信息,提高对海洋环境的监控和预测能力,以及处理海洋突发事件的能力。它能服务的应用十分广泛,如海洋信息采集、环境监测、深海探测、灾害预测、辅助导航、分布式战术监控等。各类海洋应用日益增多,由于应用种类差异和时间敏感性不同,使它们对海洋数据传输性能的需求往往不同。水下无线传感器网络供应商需要考虑如何在满足海洋应用对数据传输需求的前提下去进一步优化网络性能,从而提高网络的收益。
[0003]
具体来讲,水下数据通常包含事件种类和事件时效性,它们可以称之为数据价值量。一个数据的事件种类越重要,事件时效性越强,那么该数据的数据价值量越高;该数据就需要被快速传输,反之则可以为了改善网络性能而慢速传输。当前为提高海洋数据传输效率,多模态水下无线传感器网络被提出。在该网络中,传感器节点配备有多种互不干扰的水下通信模块组合,它们可以同时通信,例如:水声通信和水下光通信组合,或包含多个频段相互正交的水声通信组合。此外,水下无线传感器网络节点通常由电池供电,节点电池能量有限且水下充能困难;因此,对于多模态水下无线传感器网络来说,一个最基本的问题就是:网络供应商需要在满足不同海洋应用对数据传输时延需求的前提下,设计适用于水下动态通信环境的路由策略去进一步降低和均衡网络能耗,从而延长网络寿命。
[0004]
然而据我们所知,现有基于强化学习的多模态水下无线传感器网络没有综合考虑海洋应用的数据价值量和网络寿命。如期刊论文“marlin-q:multi-modal communications for reliable and low-latency underwater data delivery”提出了一种基于强化学习的多模态水下无线传感器网络路由策略,该策略以最小化传输时延和提高数据传输可靠性为目标,根据当前邻居节点反馈的信息去动态选择中继节点和通信频段。虽然它能有效降低传输时延和提高数据传输成功率,但是它没有分析数据传输特征、数据价值量以及均衡网络能耗;从而导致算法运行能耗高,部分重要数据传输时延高以及网络寿命短等问题。针对包含多类型数据的水下无线传感器网络的传输问题,本发明提出了一种基于改进强化学习的水下多模态网络传输策略生成方法。在有效降低高价值量数据传输时延的同时均衡网络能量消耗去延长网络寿命。


技术实现要素:

[0005]
为解决上述技术问题,本发明提供一种基于改进强化学习的水下多模态网络传输策略生成方法,该方法可以降低高信息价值量数据传输时延;降低和均衡网络能耗,延长网络运行时间。
[0006]
针对现有技术存在问题,本发明采用如下技术方案:
[0007]
一种基于改进强化学习的水下多模态网络路由策略生成方法,
[0008]
在路由策略实施初期的离线阶段:从水面汇聚节点开始通过迭代的方式初步学习网络节点间传输关系,使每个节点获得每个信息价值量等级数据到汇聚节点的最大传输收益;
[0009]
在网络运行的在线阶段:通过强化学习模型对每个节点采用中继节点和传输频段组合获得水面汇聚节点的期望收益,从而构建适用于不同信息价值量等级数据的传输路径。
[0010]
进一步,在路由策略实施初期的离线阶段每个节点获得最大传输收益步骤:
[0011]
s1、位于水面的汇聚节点为每个传输频段组合产生一个广告包;然后将该包通过所对应的传输频段组合以广播形式发送出去;
[0012]
s2、水下节点通过奖励函数计算自身到水面的汇聚节点最终奖励函数,即
[0013]
其中:奖励函数具体表达为式
[0014][0015]
式中nr(i)是节点n
i
接收adv数据包的节点集,g表示节点n
i
从节点n
j
接收的一个adv包的传输频段组合的id,g
ij
表示节点n
i
从节点n
j
接收的一个adv包的传输频段组合的集合,表示节点n
i
使用传输模式g将信息价值量等级为l的数据传输到节点n
j
时的传输花费;
[0016]
s3、每个水下节点的最终奖励值通过广播方式将含有传输频段组合id信息的广告包进行广播;
[0017]
s4、判断所有水下节点是否获得自身到水面汇聚节点最终奖励值。
[0018]
进一步,在网络运行的在线阶段构建适用于不同信息价值量等级数据的传输路径过程:
[0019]
s1、水下节点在有数据包进行传输时,每个节点根据数据的信息价值量等级l,利用收益函数计算当前状态s
h
的每个动作a的及时收益
[0020]
s2、水下节点利用q值函数计算当前状态s
h
的每个动作a的最终收益q
π
(s
h
,a);
[0021]
s3、水下节点根据当前状态s
h
的每个动作a的最终收益q
π
(s
h
,a)计算最优策略的收益值以及最优策略,其中最优策略计算表达为式
[0022][0023]
式中表示节点n
i
在状态s
h
下传输信息价值量等级为l的数据所采用的最优策略。
[0024]
有益效果
[0025]
1、本发明从水面汇聚节点开始通过迭代的方式初步学习网络节点间传输关系,使每个节点获得每个信息价值量等级数据到汇聚节点的最大传输收益。然后,在网络运行的在线阶段,通过强化学习模型设计了一种综合考虑链路通信时延、节点剩余能量和传输负载的多级链路花费函数,以此计算每个节点采用不同传输策略(中继节点和传输频段组合)
到达水面汇聚节点的期望收益,从而构建适用于不同信息价值量等级数据的传输路径;节点根据采集到的数据的信息价值量等级去分配相应的路径进行数据传输。通常,高传输效率的路径传输高信息价值量的数据,以此降低高信息价值量数据的时延;同时,以均衡网络能耗和降低数据时延为共同目标,高能量效率的路径传输低信息价值量的数据。从而使该网络在降低数据传输时延的同时均衡网络能量,延长网络寿命。
[0026]
2、本发明利用强化学习模型设计一种适用于多种类数据传输的多模态水下无线传感器网络路由策略,可以自适应地为数据包动态选择传输路径,在满足海洋应用对数据时延要求的同时延长网络寿命。
[0027]
3、本发明在网络未开始运行时利用一种迭代方法去快速获得网络连接和传输时延信息,从而加快在线选择阶段所采用的强化学习模型的收敛速度,减少能量消耗。
附图说明
[0028]
图1是本发明一种基于改进强化学习的水下多模态网络路由策略生成方法的流程图
具体实施方式:
[0029]
为更加清楚描述实施方式,假设网络中有k个信息价值量等级的数据需要被传输;每个节点有g个传输频段组合。以下结合附图1,对依据本发明设计的水下数据路由策略的具体方式、结构、特征及作用详细说明如下。
[0030]
1.离线训练阶段
[0031]
步骤1:位于水面的汇聚节点(sink节点)为每个传输频段组合产生一个广告包(adv包);然后将该包通过所对应的传输频段组合以广播形式发送出去,并且退让时间t
b
=0开始计时。该adv包含sink节点坐标信息,退让时间t
b
,每个信息价值量等级为数据的最终奖励re
s
(l)以及当前广播该adv包的传输频段组合id信息。
[0032]
步骤2:假如某节点n
i
收到来自某个节点(包括sink节点)n
j
的某个传输频段组合g的adv包,节点n
i
存储该adv包中的信息,并在此刻等待时间t
w
开始计时。当t
w
到达预定值,则节点n
i
通过奖励函数计算出它向sink节点发送信息价值量等级为l的数据的最终奖励当它的退让时间t
b
到达截止时间,节点n
i
将它的adv包通过所对应的传输频段组合以广播形式发送出去,节点n
i
的adv包括它的id,坐标,每个信息价值量等级的当前广播该adv包的传输频段组合id信息。
[0033]
其中等待时间t
w
是一个固定值,为了能够使节点更全面的收集来自其它节点的adv包。
[0034]
其中奖励函数具体表达为式(1)
[0035][0036]
式中nr(i)是节点n
i
接收adv数据包的节点集。g表示节点n
i
从节点n
j
接收的一个adv包的传输频段组合的id。g
ij
表示节点n
i
从节点n
j
接收的一个adv包的传输频段组合的集
合。表示节点n
i
使用传输模式g将信息价值量等级为l的数据传输到节点n
j
时的传输花费。
[0037]
其中传输花费计算表达为式(2)
[0038][0039]
式中β(l)是数据的信息价值量等级为l对应的调节系数,用于调整传输效率成本和能量效率成本之间的权重,β(l)∈[0,1]。
[0040]
其中传输效率成本表达为式(3)
[0041][0042]
式中表示节点n
i
使用传输模式g将信息价值量等级为l的数据包传输到节点n
j
时的发送时间。pt
ij
表示数据包在水下从节点n
i
到节点n
j
的传播时间。tr
max
表示节点n
i
采用传输速率最低的传输频段组合向节点n
j
发送数据包的发送时间。pt
max
表示数据包在水下传播到所有传输频段组合的最大通信距离时的传播时间。表示信息价值量等级为x的数据包在节点n
j
的传输队列中的排队时间。
[0043]
其中能量效率成本表达为式(4)
[0044][0045]
式中e0表示节点初始能量值。er
j
表示节点n
j
的剩余能量。表示节点n
i
使用传输模式g将信息价值量等级为l的数据传输到节点n
j
的传输能耗。e
max
表示节点使用能耗最大的传输频段组合将信息价值量等级为l的数据传输到节点n
j
的传输能耗。
[0046]
其中退让时间t
b
表达为式(5)
[0047][0048]
式中nr(i)是节点n
i
接收adv数据包的节点集。g表示节点n
i
从节点n
j
接收的一个adv包的传输频段组合的id。g
ij
表示节点n
i
从节点n
j
接收的一个adv包的传输频段组合的集合。表示节点n
i
使用传输模式g将信息价值量等级为l的数据包传输到节点n
j
时的发送时间。pt
ij
表示数据包在水下从节点n
i
到节点n
j
的传播时间。tw是等待时间。
[0049]
步骤4:重复步骤3;直至所有节点获得它的每个信息价值量等级的re
ni
(l)。以上步
骤仅在本发明传输策略生成方法执行的离线阶段根据水下通信环境运行有限次。
[0050]
2.在线选择阶段
[0051]
在该阶段,本发明是采用一种基于强化学习的数据传输策略选择方法,使节点根据数据包的信息价值量等级去动态选择下一跳中继节点以及对应的传输频段组合。强化学习模型组成部分主要包含六个成分:智能体、状态集s、动作集a、策略集π、收益r、状态转移概率矩阵p。在我们的方法中,智能体是水下传感器节点,状态集s由重传次数h、传输成功suc和数据丢弃drop组成。动作集由中继节点和对应的传输频段组合构成。策略集是由状态和动作的组合映射构成。收益表示节点采取某一个策略时对应的奖励。状态转移概率矩阵表示节点当前状态转移到其它某个状态的概率矩阵;在我们的方法中,状态转移包括1)重传次数h状态向重传次数h+1转移,2)重传次数h状态向传输成功suc转移,3)当到达最大重传次数h时有重传次数h向数据丢弃drop状态转移。
[0052]
步骤1:当任意节点n
i
有数据需要传输时,它根据待传数据的信息价值量等级l,利用收益函数计算当前状态s
h
的每个动作a=〈n
j
,k〉的及时收益
[0053]
其中收益函数表达为式(6)
[0054][0055]
式中表示节点n
i
采用动作a=〈n
j
,k>时状态从s
h
转移到传输成功suc状态的概率。表示节点n
j
在状态s0传输信息价值量等级为l的数据的最大收益。主要注意的是在网络开始运行时,每个节点n
i
获得自己的初始的通过s0表示重传次数为0。h表示数据最大重传次数。h表示数据当前重传次数。ε表示调节系数,通过调节该系数可以提高数据传输成功率,通常该值设定为[0,10]。表示节点n
i
使用传输模式g将信息价值量等级为l的数据传输到节点n
j
时的传输花费,它的表达式为式(2)。
[0056]
其中表达为式(7)
[0057][0058]
式中f表示传输频段组合k中的一个水声通信模块的频段。p
ij
(f)表示节点n
i
利用频段f向节点n
j
发送数据时的数据包传输成功率;通常它可以由节点n
j
监听到节点n
i
发送的数据包个数除以节点n
i
实际总共发送的数据包个数求得。
[0059]
步骤2:然后,节点n
i
利用q值函数计算当前状态s
h
的每个动作a的最终收益q
π
(s
h
,a)。
[0060]
其中q值函数表达为式(8)
[0061][0062]
式中表示节点n
i
采用动作a时状态从s
h
转移到状态s’h
的概率。γ是折扣系
数,取值范围[0,1)。表示节点n
j
在状态s’h
传输信息价值量等级为l的数据的最大收益,它的表达式为式(9)
[0063][0064]
式中表示节点n
i
在状态s
h
下采用动作a的最终收益,它由式(8)计算得到。
[0065]
步骤3:再然后,节点n
i
根据当前状态s
h
的每个动作a的最终收益q
π
(s
h
,a)计算最优策略的收益值,以及最优策略(即当前重传次数下,节点选择的中继节点以及对应的通信频段组合)。
[0066]
其中最优策略计算表达为式(10)
[0067][0068]
式中表示节点n
i
在状态s
h
下传输信息价值量等级为l的数据所采用的最优策略。
[0069]
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1