一种利用MAB提升全双工CSMA网络吞吐量的方法与流程

文档序号：18663807发布日期：2019-09-13 19:48阅读：653来源：国知局

本发明属于无线通信网络优化技术领域，尤其是涉及一种利用mab(multi-armedbandit,mab)技术提升全双工csma网络吞吐量的方法。

背景技术：

多路载波侦听访问与冲突避免(carrier-sensemultipleaccesswithcollisionavoidance,csma/ca)是一种广泛应用于分布式无线通信网络中的媒体接入控制(mediaaccesscontrol,mac)协议。通过协调使用相同频带资源用户的信道接入顺序，csma/ca协议能有效降低数据碰撞概率，从而提升网络的整体吞吐量。现有的csma通信网络大多基于半双工(half-duplex,hd)通信模式。全双工(full-duplex,fd)通信允许一个节点同时在同一个频段上进行发送和接收操作，被认为是一种能够进一步提升网络吞吐量的新技术。

针对fdcsma网络，本发明拟通过调节各fd链路的发送功率(transmitpower,tp)和载波侦听门限(carrier-sensingthreshold,cst)，来有效提高该网络的整体吞吐量。选择调节tp和cst的原因是：一方面，调节tp可以降低链路之间的干扰，提升单条链路的通信速率；另一方面，调节cst可以增加并行传输链路的数目，提升网络的整体吞吐量。但是，如何有效分配各链路上的tp和cst使得网络的吞吐量最大化是一个棘手的问题。目前，解决该问题主要有两种途径：有控制中心式和完全分布式。前者需要一个额外节点作为数据融合中心来计算各链路最佳的tp和cst。但这样不仅会增加系统的实现复杂度，还会增加额外的通信开销。另外，计算各链路最佳的tp和cst等价于求解一个np-hard的优化问题(即最大化网络吞吐量)，常采用的穷尽搜素算法(exhaustivesearchmethod)的计算复杂度会随fd链路数目以及tp、cst数目的增加而呈指数增长，从而使得求解大规模该类网络优化变得不可行。另一种完全分布式的途径不需要数据控制中心参与，也不需要网络的任何先验信息，因此具有较低的实现复杂度。实际中考虑到计算复杂度，这种途径下设备通常为每条fd链路随机地选择一个tp和cst(fuemmelerja,vaidyanh,veeravallivv.selectingtransmitpowersandcarriersensethresholdsincsmaprotocolsforwirelessadhocnetworks[c].proceedingsofthe2ndannualinternationalworkshoponwirelessinternet,acm,2006)进行传输，该方法被称为随机选择方法(randomselectionmethod)。但是，随机选择方法会严重的制约网络的整体性能。

本发明拟采用机器学习的方法来为每条fd链路寻找最佳的tp和cst组合，从而提高fdcsma网络的吞吐量。具体地，本发明采用具有对抗性质的multi-playermulti-armedbandit(mp-mab)框架来对该网络吞吐量最大化问题进行建模，进而利用改进的exp3(exponential-weightalgorithmforexplorationandexploitation)算法求解得到各链路最佳的tp和cst组合。

技术实现要素：

本发明的目的在于针对现有技术在全双工csma网络中，如何通过调节各全双工链路的tp和cst来最大化网络整体吞吐量的问题，提供一种利用mab技术提升全双工csma网络吞吐量的方法。

本发明包括以下两个阶段：

1)参数调整阶段：假设在一个无线通信网络中分布式地放置k对传输链路，k表示该网络中总的链路数目，k≥2；假设各链路均采用全双工通信技术且工作在同一频段，并且链路之间利用csma协议来协调通信，从而降低数据碰撞概率；假设各链路之间能够进行同步，因此在参数调整阶段能够同时运行改进的exp3算法，进而得到最佳的参数设置；具体步骤如下：

(1)初始化算法参数并加入先验信息：假设每一条链路上可选择的arm数量(即tp和cst的组合数)相同，记为m，m≥4；假设各链路上的先验信息为所有arms的权重值，记为另外，假设算法的总回合数为t，并在算法启动阶段初始化回合数t＝0和各arm上估计的总收益

(2)确定算法的探索与利用参数βz，βz根据时间段z的增大而逐渐减小：在开始阶段,为保证不错过最佳的arm，算法需要尽可能充分地进行探索，所以βz应该设置得比较大；但随着算法回合数的增加，各arm上的估计值逐渐趋近于它的真实值，这时算法应尽可能多利用估计的信息来最大化总体收益，所以βz应该设置得较小；探索与控制参数βz可以表示为

其中，ln(·)是自然底对数，θz＝4^zmlnm/(e-1)，z＝0,1,...；从公式(1)可以看出，βz随着时间段z增加呈指数下降；时间段z的更新由所有arm中估计的最大总收益和判决门限λ一起决定，即

其中，λ＝θz-m/βz；表示armi在回合t-1内估计的总收益；

(3)计算各arm上的概率质量函数(probabilitymassfunction,pmf)，即

表示第i个arm在回合t时的pmf；其中，wi(t)表示armi在第t个回合数的权重值，其计算表达式为公式(6)；从公式(3)可以看出，βz充分体现了探索和利用的权衡，其计算表达式由公式(1)给出；

(4)根据pmf从所有arms随机地选择一个arm，记为it，并观察其收益；可将所有的arms看成一个字母表[1，m]，每个字母被选中的概率为其对应的pmf(或公式(3))，即armit的选择依赖于各arm上的pmf；armit很大概率来自于最大的pmf值对应的那个arm；算法在选中arm后，会得到一个关于该arm的收益，记为表示第t个回合选择armit观察到的链路吞吐量；在算法中，需要归一化为0和1之间的某个值，即

(5)计算各arm上估计的收益和估计的总收益，分别记为和其中，的计算公式为：

从式(4)中可以看出，估计收益的期望即，是真实(或观察到)收益ri(t)的无偏估计；另外，各arm上估计的总收益的计算公式为：

(6)更新各arm上的权重值，即

其中，i＝1,...,m；表示armi上的权重值的先验信息；

(7)终止条件：更新算法执行的回合数，即t＝t+1；若t＜t，则回到步骤(3)；若t＝t，则结束，并返回该链路最佳的tp和cst组合；

2)固定参数传输阶段：各链路采用步骤1)结束后的tp和cst进行数据传输，直到下一次更新周期到来为止。

与现有技术相比，本发明方法具有以下突出优点：

①本发明方法不需要额外的节点充当数据融合中心，是一种完全分布式的模式，因此具有较低的通信开销；

②本发明方法不需要网络的任何先验信息，降低了系统的实现复杂度；

③与随机选择方法相比，本发明可以提高42％的网络吞吐量。

附图说明

图1为本发明实施例提供的一个网络应用场景图；

图2为本发明实施例的结构示意图；

图3为本发明实施例提供的算法流程框图；

图4为本发明方法与随机选择方法的网络性能比较示意图(为当k＝3，t＝15,000时，在10⁵个随机网络场景下(改变不同链路的位置))。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出了一种利用mab技术提升fdcsma网络吞吐量的方法，它的处理过程为：首先，将无线通信网络中的每一条fd链路看成独立的player，以及每一条fd链路上所有可能的tp和cst组合看成arms。接着，将该网络吞吐量最大化问题建模成具有对抗性质的mp-mab问题。然后，利用改进的exp3算法对其进行求解，得到各链路上最佳的tp和cst组合。最后，网络保持该设置直到下一次更新时刻为止。

本发明包括以下两个阶段：

第一，参数调整阶段。假设在一个无线通信网络中分布式地放置着k对传输链路，k表示该网络中总的链路数目，k≥2；假设各链路均采用全双工通信技术且工作在同一频段，并且链路之间利用csma协议来协调通信，从而降低数据碰撞概率；假设各链路之间能够进行同步，因此在参数调整阶段能够同时运行改进的exp3算法，进而得到最佳的参数设置。下面给出该算法的具体执行步骤：

1)初始化算法参数并加入先验信息。假设每一条fd链路上可选择的arm数量(即tp和cst的组合数)相同，记为m，m≥4。由于所提算法具有完全分布式的特点，这里只考虑一条链路的情形。假设该链路上的先验信息为所有arms的权重值，记为另外，假设算法的总回合数为t，并在算法启动阶段初始化回合数t＝0和各arm上估计的总收益

2)确定算法的探索与利用参数βz。在所提算法中，βz根据时间段z的增大而逐渐减小。这样做的原因是：在开始阶段,为保证不错过最佳的arm，算法需要尽可能充分地进行探索，所以βz应该设置得比较大；但随着算法回合数的增加，各arm上的估计值逐渐趋近于它的真实值，这时算法应尽可能多利用估计的信息来最大化总体收益，所以βz应该设置得比较小。综上所述，该探索与控制参数βz可以表示为

其中，ln(·)是自然底对数，θz＝4zmlnm/(e-1)，z＝0,1,...。从公式(1)可以看到，βz随着时间段z增加呈指数下降。值得注意的是，时间段z的更新由所有arm中估计的最大总收益和判决门限λ一起决定，即

其中，λ＝θz-m/βz；表示armi在回合t-1内估计的总收益。

3)计算各arm上的概率质量函数(probabilitymassfunction,pmf)，即

表示第i个arm在回合t时的pmf；其中，wi(t)表示armi在第t个回合数的权重值，其计算表达式为公式(6)。从公式(3)可以看到，βz充分体现了探索和利用的权衡，其计算表达式由公式(1)给出。

4)根据pmf从所有arms随机地选择一个arm，记为it，并观察其收益。根据信息论相关知识，可以将所有的arms看成一个字母表[1，m]，每个字母被选中的概率为其对应的pmf(或公式(3))。换句话说，armit的选择依赖于各arm上的pmf。值得注意的是，armit将很大概率来自于最大的pmf值对应的那个arm。一般地，算法在选中arm后，会得到一个关于该arm的收益，记为表示第t个回合选择armit观察到的链路吞吐量。在算法中，需要归一化为0和1之间的某个值，即

5)计算各arm上估计的收益和估计的总收益，分别记为和其中，的计算公式为：

从中可以看到，估计收益的期望也就是说，是真实(或观察到)收益ri(t)的无偏估计。另外，各arm上估计的总收益的计算公式为：

6)更新各arm上的权重值，即：

其中，i＝1,...,m。表示armi上的权重值的先验信息。

7)终止条件。更新算法执行的回合数，即t＝t+1。若t＜t，则算法回到步骤三；若t＝t，则算法结束，并返回该链路最佳的tp和cst组合。

第二，固定参数传输阶段。各链路采用第一阶段结束后的tp和cst进行数据传输，直到下一次更新周期到来为止。

以下结合附图和仿真来进一步说明本发明方法的可行性和有效性。

图1给出的是一个典型的无线通信网络，其中共有k＝3对fd链路且均采用csma\ca协议来协调数据传输。也就是说，各链路在执行一定退避数之后，某一链路发起传输前，需要对信道进行检测，以确保此次传输不发生碰撞。从图1可以看到，链路1和链路2相邻存在竞争关系，而链路3相对较远。所以，在进行数据传输时链路1和链路2可能发生碰撞，而链路3能正常传输。尽管csma\ca协议可以降低数据碰撞概率，但通过调整tp和cst的值可以更进一步提高网络的整体吞吐量。

本发明方法在csma\ca协议下，各链路通过设置最佳的tp和cst来提高网络吞吐量，实现空间复用。其整体实现过程如图2所示，每次在参数调整阶段，各链路(假设同步完成)同时运行改进的exp3算法，并确保在该阶段介绍得到最佳tp和cst组合。图3给出的是该算法执行的流程图。

图4给出的是回合数t＝15,000，且在10⁵个随机网络场景下，本发明与随机选择方法的网络性能比较曲线。假设每条链路的arm数目为m＝9，其中tp＝{10,15,20}dbm,cst＝{-90,-80,-70}dbm；中心频率为5ghz，带宽为40mhz。从图4中可以看出，本发明的网络吞吐量比随机选择方法提高了42％。另外，本发明在不同网络场景中都能收敛，并且具有较快的收敛速度。

mab是一种序贯决策问题，即给定一个有限资源集合，player需要在最短的时间(或回合)内找到最佳的选项，从而使其收益最大化。其特点是player每回合需要进行利用(exploitation)和探索(exploration)的权衡。常见的mab问题可以分成三类：随机mab，对抗性mab和马尔科夫mab。本发明考虑具有对抗性的mp-mab问题，其中每个player(即fd链路)的目标是寻找最优的arm(即关于tp和cst的组合)来最大化其自身的收益。为解决该问题，本发明提出了一种改进的exp3(exponential-weightalgorithmforexplorationandexploitation)算法。与传统的exp3算法相比，它具有以下特征。第一，改进的exp3算法利用链路上的先验信息作为算法初始值，来提高算法的收敛速度。第二，改进的exp3算法采用估计的最大臂上的收益作为更新指标，为所提算法提供了一个更好的理论结果。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：付立群;童景文;岳蕾
技术所有人：厦门大学
我是此专利的发明人

上一篇：一种可调节接触力度的手动遮阳帘棘爪的制作方法
上一篇：系统故障的监测方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。