一种基于在线强化学习的传输模式选择方法及装置与流程

文档序号:21408726发布日期:2020-07-07 14:43阅读:316来源:国知局
一种基于在线强化学习的传输模式选择方法及装置与流程

本发明涉及电力窄带物联网领域,具体涉及一种基于在线强化学习的传输模式选择方法及装置。



背景技术:

电力环境下的物联网是一个实现电网基础设施、人员以及所在环境识别、感知、互联与控制的网络系统。考虑到窄带物联网(narrowbandinternetofthings,nb-iot)基站边缘的节点可能覆盖不足从而导致中断概率很高,并且难以满足服务需求。为了提高nb-iot系统在该电力物联网场景中的覆盖能力,从通信技术和资源分配管理方面出发,相关技术中考虑采用正交多址技术(orthogonalmultipelaccess,oma)和非正交多址接入技术(non-orthogonalmultipelaccess,noma)混合传输机制,同时具有直接传输和中继协作传输两种传输模式。

相关技术中,对传输模式的选择主要使用普通编程算法进行研究,但是由于在nb-iot网络环境中,网络状态实时变化,普通的动态编程算法无法进行计算,不能对传输模式进行智能选择。



技术实现要素:

因此,本发明要解决的技术问题在于克服现有技术中的在nb-iot网络环境中,网络状态实时变化,普通的动态编程算法无法进行计算的缺陷,从而提供一种基于在线强化学习的传输模式选择方法及装置。

根据第一方面,本发明实施例公开了一种基于在线强化学习的传输模式选择方法,应用于窄带物联网系统节点与基站的信息传输,包括如下步骤:步骤a:获取窄带物联网系统节点的当前时隙状态信息;步骤b:根据所述当前状态信息利用探索-利用策略执行动作;步骤c:计算当所述窄带物联网系统节点执行完动作后的奖励值;步骤d:获取所述窄带物联网系统节点的下一时隙状态信息;步骤e:根据所述奖励值和所述下一时隙状态信息更新预设q函数,并更新预设动作策略值,得到第一动作策略值;步骤f:根据所述第一动作策略值更新预设预估策略值,得到新预估策略值;步骤g:根据所述新预估策略值和所述第一动作策略值选择传输模式。

结合第一方面,在第一方面第一实施方式中,所述步骤c包括:

其中,r表示奖励值,表示窄带物联网系统节点的信道传输速率,ptot(s,a)表示窄带物联网系统节点信息传输的总功耗值。

结合第一方面第一实施方式,在第一方面第二实施方式中,所述步骤g包括:比较所述新预估策略值和所述第一动作策略值;当所述新预估策略值大于所述第一动作策略值时,根据所述新预估策略选择传输模式。

结合第一方面第二实施方式,在第一方面第三实施方式中,当所述新预估策略值小于所述第一动作策略值时,根据所述第一动作策略值选择传输模式。

结合第一方面第三实施方式,在第一方面第四实施方式中,所述方法还包括:根据更新后的q函数更新所述第一动作策略值,得到第二动作策略值;将所述第二动作策略值和新预估策略值作为新的预设动作策略值和新的预设预估策略值,返回执行所述步骤a-步骤g。

根据第二方面,本发明实施例还公开了一种基于在线强化学习的传输模式选择装置,应用于窄带物联网系统节点与基站的信息传输,包括:第一获取模块,用于获取窄带物联网系统节点的当前时隙状态信息;执行模块,用于根据所述当前状态信息利用探索-利用策略执行动作;计算模块,用于计算当所述窄带物联网系统节点执行完动作后的奖励值;第二获取模块,用于获取所述窄带物联网系统节点的下一时隙状态信息;第一更新模块,用于根据所述奖励值和所述下一时隙状态信息更新预设q函数,并更新预设动作策略值,得到第一动作策略值;第二更新模块,用于根据所述第一动作策略值更新预设预估策略值,得到新预估策略值;选择模块,用于根据所述新预估策略值和所述第一动作策略值选择传输模式。

结合第二方面,在第二方面第一实施方式中,所述计算模块包括:

其中,r表示奖励值,表示窄带物联网系统节点的信道传输速率,ptot(s,a)表示窄带物联网系统节点信息传输的总功耗值。

结合第二方面第一实施方式,在第二方面第二实施方式中,所述选择模块包括:比较模块,用于比较所述新预估策略值和所述第一动作策略值;第一选择子模块,用于当所述新预估策略值大于所述第一动作策略值时,根据所述新预估策略选择传输模式。

根据第三方面,本发明实施例还公开了一种计算机设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一实施方式所述基于在线强化学习的传输模式选择方法的步骤。

根据第四方面,本发明实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一实施方式所述的基于在线强化学习的传输模式选择方法的步骤。

本发明技术方案,具有如下优点:

本发明提供的基于在线强化学习的传输模式选择方法及装置,通过获取窄带物联网系统节点的当前时隙状态信息,根据所述当前状态信息利用探索-利用策略执行动作,计算当所述窄带物联网系统节点执行完动作后的奖励值,获取所述窄带物联网系统节点的下一时隙状态信息;根据所述奖励值和所述下一时隙状态信息更新预设q函数,并更新预设动作策略值,得到第一动作策略值,根据所述第一动作策略值更新预设预估策略值,得到新预估策略值,根据所述新预估策略值和所述第一动作策略值选择传输模式。通过实施本发明,不断对窄带物联网系统节点进行预估比较,使得窄带物联网系统节点在状态不断变化时可以选择能效最大的传输模式选择方案。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例1中基于窄带物联网系统的上行链路系统模型的一个具体示例图;

图2为本发明实施例1中基于在线强化学习的传输模式选择方法的一个具体示例的流程图;

图3为本发明实施例功率与能效对比的一个具体示例仿真图;

图4为本发明实施例窄带物联网系统节点数量与能效对比的一个具体示例仿真图;

图5为本发明实施例2中基于在线强化学习的传输模式选择装置的一个具体示例的原理框图;

图6为本发明实施例3中计算机设备的一个具体示例的原理框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

如图1所示,窄带物联网系统包括基站bs,在窄带物联网系统基站bs的覆盖范围内存在大量的节点,其中包含两种节点:信道条件良好的基站临近节点,可使用oma方式直接与基站bs通信;基站边缘节点,信道条件差,从而导致中断概率很高,无法直接传输信息到基站bs,需要中继协作传输,其中基站边缘节点到中继器采用noma方式传输,中继器传输信息到达基站bs则采用oma方式传输。本发明以一个存在大量窄带物联网节点的上行中继协作传输与直接传输两种传输方式混合的传输模型为例,基于在线强化学习对窄带物联网系统进行建模,得到基于在线强化学习的智能选择模式的训练模型,利用wolf-phc算法对各个窄带物联网系统节点进行训练,使得各个窄带物联网系统节点能够选择能效最大的传输模式。

本发明实施例的窄带物联网系统,包括一个基站,m={1,2,3,…,m}个中继节点,n={1,2,3,…,n}个基站边缘节点,w={1,2,3,…,w}个oma直接传输的基站临近节点(也称oma节点)。其中中继节点和oma节点可以与基站直接通信,而基站边缘节点不能直接传输信息到基站,需要通过中继节点进行协作传输。基站边缘节点实现两跳传输,第一跳中,基站边缘节点使用noma模式复用同一子信道传输信息到中继,此过程需要进行功率控制。第二跳中,中继节点直接采用解码转发方式(decode-and-forward,df)传输信息到基站。

规定信道集为k={1,2,3,…,k},从i到j的信道增益记为hi,i~i→j。第一跳中,中继节点r收到的信息(包括需要接收的基站边缘节点发过来的信息和其他节点传输信息时的信道干扰信息以及高斯白噪声)为:

其中,sn1[k]表示在第k个子信道上基站边缘节点发出的信号信息,sw表示oma节点直接传输到基站的信号信息,表示功率分配系数且αn1∈[0,1],pr表示基站边缘节点信息在子信道上传输的传输功率之和,pw表示中继节点的传输功率,hn1,r表示从基站边缘节点n1到中继节点r的信道增益,hw,r表示oma节点w到中继节点r的信道增益,同时记高斯噪声为ne表示小区边缘节点的总数量。

第二跳中,中继节点将解码转发信息到基站,基站收到的信息为:

其中,表示从中继节点解码转发发出的信息,表示功率分配系数且αn2∈[0,1],hr,bs表示从中继节点r到基站bs的信道增益,在基站处的高斯噪声记为

基于(1)和(2),我们可以得到信息从基站边缘节点n1通过中继r传输到基站bs的信干噪比sinr为:

其中,hl,r是信息从n1+1节点到中继节点r的信道增益,αl功率分配系数且αl∈[0,1]。

系统中信息从基站边缘节点w直接传输到基站的信干噪比sinr为:

其中,nw表示直接传输中的噪声干扰功率。

根据香农定理,系统中的所有节点发送信息传输速率为:

其中,bk表示子信道k的带宽。系统中直接传输节点w和小区边缘节点n1的信道传输速率和为:

其中表示当功率分配系数α趋于纳什平衡时的值,w表示系统中直接传输的节点总数。

对于窄带物联网系统中所有基站边缘节点的传输功率值总和为:pr+ne·ps;对于系统中所有中继节点的功率消耗为:pw+ps。其中ps表示窄带物联网系统中设备的无声功耗。

综上在本发明系统的信息传输的总功耗值:

ptot=pr+2pw+(ne+1)ps,(7)

本发明采用系统能效作为目标值,系统中直接传输链路和复用第k个子信道的边缘节点进行中继协作传输的链路总能效如下:

本实施例提供一种基于在线强化学习的传输模式选择方法,应用于窄带物联网系统节点与基站的信息传输,如图2所示,包括如下步骤:

步骤s11:获取窄带物联网系统节点的当前时隙状态信息。

示例性地,在线强化学习的模型包括状态(state)、动作(action)、策略(policy)和奖励值(reward)。由于窄带物联网系统中的每个节点采取动作时都是独立的,所以可以定义整个窄带物联网系统的当前时隙t的状态信息为网络状态空间s(t)={s1(t),s2(t),…,sn(t)};定义窄带物联网节点在时隙t采取的动作空间集合为a(t)={a1(t),a2(t),…,an(t)};定义窄带物联网节点n在时隙t中策略值为πn(t),策略集为π(t)={π1(t),π2(t),…,πn(t)}。

步骤s12:根据当前状态信息利用探索-利用策略执行动作。

示例性地,在本发明实施例中,探索-利用策略可以为基站边缘节点采用中继协作传输模式进行传输,基站临近节点采用直接传输模式进行传输,待进行模式选择的窄带物联网节点根据当前时隙的网络状态信息根据探索-利用策略得到动作ac并执行。

步骤s13:计算当窄带物联网系统节点执行完动作后的奖励值。

示例性地,在本发明实施例中,将窄带物联网系统节点传输的能效值ee作为奖励值,奖励值具体可通过如下公式确定:

其中,r表示奖励值,表示窄带物联网系统节点的信道传输速率,ptot(s,a)表示窄带物联网系统节点信息传输的总功耗值。

步骤s14:获取窄带物联网系统节点的下一时隙状态信息。具体获取参见步骤s11的描述,窄带物联网系统节点的下一时隙t+1的状态信息为网络状态空间

步骤s15:根据奖励值和下一时隙状态信息更新预设q函数,并更新预设动作策略值,得到第一动作策略值。

示例性地,在wolf-phc算法中,利用q函数进行学习,首先初始化q函数为qn(s,an)=0,该初始化的q函数即为预设q函数,初始化动作策略值为该初始化的动作策略值即为本发明实施例中的预设动作策略值,初始化预估动作策略值为该初始化的预估动作策略值即为预设预估动作策略值,初始化时,预设动作策略值和预设预估动作策略值是一样的,其中,s表示待选择传输模式的窄带物联网系统节点当前时隙的状态信息,an表示第n次迭代的动作值,a表示动作策略的矩阵,根据奖励值和下一时隙状态信息更新预设q函数可以为:

其中,σ表示,r表示奖励值,θ表示折扣因子,qn(s,ac)表示窄带物联网节点当前时隙t的q函数,表示需要找到值使qn最大化。

在更新q函数的同时,预设动作策略自动发生改变,得到第一动作策略值πn’(s,an)与预设动作策略不一样,也即与预设预估策略不一样,窄带物联网系统节点需要选择能效最高的传输模式。

步骤s16:根据第一动作策略值更新预设预估策略值,得到新预估策略值。

示例性地,根据第一动作策略值更新预设预估策略值,得到新预估策略值具体可以为:

x(s)=x(s)+1,

其中,πn’(s,an)为第一动作策略值,为预估预设策略值,x(s)表示q函数更新出现状态s的数量值,初始化时x(s)=0。

步骤s17:根据新预估策略值和第一动作策略值选择传输模式。

示例性地,根据新预估策略值和第一动作策略值选择传输模式具体可以为:比较新预估策略值和第一动作策略值πn’(s,an);当新预估策略值大于第一动作策略值时,表明新预估策略好,设定第一动作策略为输,根据新预估策略选择传输模式;当新预估策略值小于第一动作策略值时,表明第一动作策略好,设定第一动作策略为赢,根据第一动作策略值选择传输模式。

本发明提供的基于在线强化学习的传输模式选择方法,通过获取窄带物联网系统节点的当前时隙状态信息,根据当前状态信息利用探索-利用策略执行动作,计算当窄带物联网系统节点执行完动作后的奖励值,获取窄带物联网系统节点的下一时隙状态信息;根据奖励值和下一时隙状态信息更新预设q函数,并更新预设动作策略值,得到第一动作策略值,根据第一动作策略值更新预设预估策略值,得到新预估策略值,根据新预估策略值和第一动作策略值选择传输模式。通过实施本发明,不断对窄带物联网系统节点进行预估比较,使得窄带物联网系统节点在状态不断变化时可以选择能效最大的传输模式选择方案。

作为本申请一个可选实施方式,基于在线强化学习的传输模式选择方法还包括:

首先,根据更新后的q函数更新第一动作策略值,得到第二动作策略值。

示例性地,根据更新后的q函数更新第一动作策略值,得到第二动作策略值具体可以为:

其中,

其中,表示对求集合的函数,δw表示赢的学习速率,δl表示输的学习速率,初始化时δl>δw,当新预估策略值大于第一动作策略值时,表明新的预估策略好,状态为输,学习速率会变快,加快调整参数以使窄带物联网系统节点可以选择能效最大的传输模式。当新预估策略值小于第一动作策略值时,表明第一动作策略好,状态为赢,学习速率会变慢。

其次,将第二动作策略值和新预估策略值作为新的预设动作策略值和新的预设预估策略值,返回执行步骤s11-步骤s17,计算下一时隙窄带物联网节点对传输模式的选择。

示例性地,由于窄带物联网系统节点的状态是不断变化的,下一时隙的状态和当前时隙的状态可能是不一样的,将第二动作策略值和新预估策略值作为新的预设动作策略值和新的预设预估策略值,返回执行步骤s11-步骤s17,不断对窄带物联网系统节点进行训练,使其在每一时隙可以选择能效最好的传输模式。

为了检验本发明方法的效果,我们做了如下仿真,仿真参数如表1所示:

表1

如图3所示,将其分别与随机选择策略和简单贪婪算法的能效进行比较,仿真结果表明随机选择策略和简单贪婪算法的能效会随系统功率产生幅度较大的波动,系统处于不稳定的状态。而wolf-phc算法得到的能效结果处于趋于稳定上升的趋势,系统能效值远大于其他两种策略方案;图4展示了随着窄带物联网系统节点的不断接入,系统的能效的变化趋势,仿真结果表明用wolf-phc算法对终端进行传输模式选择计算可以使系统能效值趋于稳定状态,并且系统的能效显著高于随机进行传输模式选择的能效值。同时,可以看出随着系统设备的不断接入,设备数量的大小对随机选择策略的能效影响很大,系统能效处于不稳定状态。而wolf-phc算法使系统能效处于稳定状态,提高了系统的可靠性。

实施例2

本发明实施例提供一种基于在线强化学习的传输模式选择装置,应用于窄带物联网系统节点与基站的信息传输,如图5所示,包括:

第一获取模块21,用于获取窄带物联网系统节点的当前时隙状态信息;具体实现方式见实施例1中步骤s11的相关描述,在此不再赘述。

执行模块22,用于根据当前状态信息利用探索-利用策略执行动作;具体实现方式见实施例1中步骤s12的相关描述,在此不再赘述。

计算模块23,用于计算当窄带物联网系统节点执行完动作后的奖励值;具体实现方式见实施例1中步骤s13的相关描述,在此不再赘述。

第二获取模块24,用于获取窄带物联网系统节点的下一时隙状态信息;具体实现方式见实施例1中步骤s14的相关描述,在此不再赘述。

第一更新模块25,用于根据奖励值和下一时隙状态信息更新预设q函数,并更新预设动作策略值,得到第一动作策略值;具体实现方式见实施例1中步骤s15的相关描述,在此不再赘述。

第二更新模块26,用于根据第一动作策略值更新预设预估策略值,得到新预估策略值;具体实现方式见实施例1中步骤s16的相关描述,在此不再赘述。

选择模块27,用于根据新预估策略值和第一动作策略值选择传输模式。具体实现方式见实施例1中步骤s17的相关描述,在此不再赘述。

本发明提供的基于在线强化学习的传输模式选择装置,通过获取窄带物联网系统节点的当前时隙状态信息,根据当前状态信息利用探索-利用策略执行动作,计算当窄带物联网系统节点执行完动作后的奖励值,获取窄带物联网系统节点的下一时隙状态信息;根据奖励值和下一时隙状态信息更新预设q函数,并更新预设动作策略值,得到第一动作策略值,根据第一动作策略值更新预设预估策略值,得到新预估策略值,根据新预估策略值和第一动作策略值选择传输模式。通过实施本发明,不断对窄带物联网系统节点进行预估比较,使得窄带物联网系统节点在状态不断变化时可以选择能效最大的传输模式选择方案。

作为本申请一个可选实施方式,计算模块23包括:

其中,r表示奖励值,表示窄带物联网系统节点的信道传输速率,ptot(s,a)表示窄带物联网系统节点信息传输的总功耗值。具体实现方式见实施例1中对应的步骤的相关描述,在此不再赘述。

作为本申请一个可选实施方式,选择模块包括:

比较模块,用于比较新预估策略值和第一动作策略值;具体实现方式见实施例1中对应的步骤的相关描述,在此不再赘述。

第一选择子模块,用于当新预估策略值大于第一动作策略值时,根据新预估策略选择传输模式。具体实现方式见实施例1中对应的步骤的相关描述,在此不再赘述。

第二选择子模块,用于当新预估策略值小于第一动作策略值时,根据第一动作策略值选择传输模式。具体实现方式见实施例1中对应的步骤的相关描述,在此不再赘述。

作为本申请一个可选实施方式,该基于在线强化学习的传输模式选择装置还包括:

第三更新模块,用于根据更新后的q函数更新第一动作策略值,得到第二动作策略值;具体实现方式见实施例1中对应的步骤的相关描述,在此不再赘述。

返回执行模块,用于将第二动作策略值和新预估策略值作为新的预设动作策略值和新的预设预估策略值,返回执行步骤s11-步骤s17。具体实现方式见实施例1中对应的步骤的相关描述,在此不再赘述。

实施例3

本发明实施例还提供了一种计算机设备,如图6所示,该计算机设备可以包括处理器31和存储器32,其中处理器31和存储器32可以通过总线或者其他方式连接,图6中以通过总线连接为例。

处理器31可以为中央处理器(centralprocessingunit,cpu)。处理器31还可以为其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。

存储器32作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的驾驶行为评估方法对应的程序指令/模块(例如,图5所示的第一获取模块21、执行模块22、计算模块23、第二获取模块24、第一更新模块25、第二更新模块26和选择模块27)。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的基于在线强化学习的传输模式选择方法。

存储器32可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器31所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至处理器31。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器32中,当被所述处理器31执行时,执行如图2所示实施例中的基于在线强化学习的传输模式选择方法。

上述计算机设备具体细节可以对应参阅图2所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。

实施例4

本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于在线强化学习的传输模式选择方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)、随机存储记忆体(randomaccessmemory,ram)、快闪存储器(flashmemory)、硬盘(harddiskdrive,缩写:hdd)或固态硬盘(solid-statedrive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1