一种基于博弈论的在线协同无线充电方法

文档序号:25215716发布日期:2021-05-28 14:13阅读:93来源:国知局
一种基于博弈论的在线协同无线充电方法

本发明涉及无线充电算法领域,更具体地,涉及一种基于博弈论的在线协同无线充电方法。



背景技术:

无线传感器网络在工业中和军事上有广泛的应用场景,如在自动化农田中,通过部署大量传感器,周期性地收集农田的温度、湿度、昆虫密度等农作物生长数据,为自动化系统中的其他组件提供决策依据。关于无线传感器网络的研究包含了诸多议题,如传感器的硬件设计、传感器之间的传输协议、传感器的电池管理;等等。本发明面向的是传感器的电池管理议题。

从传感器电池发展的角度来看,无线传感器网络总体经过了三个阶段:最初的阶段是使用普通的可拆卸电池,由人工定期更换传感器电池。该方法的最大缺点是人工成本高,而且在复杂的设备或地形条件下,通常不具备可操作性。第二个阶段是给传感器配备清洁能源的采集装置,从周围的环境中采集能量,如风能、太阳能。该方法的主要问题是不稳定,比如太阳能,在阴天条件下就会失效。第三个阶段得益于无线电传输技术的发展,给传感器配备无线电采集装置,使用充电机器人对传感器进行无线充电。这类方法相比前两种方法,较大地解放了人力,充电性能取决于机器人的调度算法,因此在很大程度上是可控的;而且由于无线电传输技术可以隔空、甚至隔物(对转化率会有一定影响)充电,因此对不同设备和地形的适应能力强得多。为了区分,通常将第三阶段的网络称为无线可充电传感器网络(wirelessrechargeablesensornetworks),即本发明的应用场景。

在无线可充电传感器网络中,根据充电机器人的不同属性可以划分不同场景。比如根据单个网络中机器人的数量,可以分为单机器人规划与多机器人协同;前者适用于小规模的传感器网络,后者适用于传感器分布比较密集、或者网络的物理空间跨度较大的场景。根据机器人是否具备移动性,可以分为静态机器人与移动机器人的场景;前者通常采用一对多的远距离充电模式,充电转化率较低,且要求机器人使用较大的无线电发射功率,后者则允许一对一地近距离充电,适合对转化率有较高要求的场景。从这两个角度来看,本发明的应用场景属于多个移动机器人协同,附图1给出了该场景的示意图。该场景的优化目标为:最大化充电机器人总体的充电效率,同时尽可能避免出现传感器因得不到及时充电而耗尽电量的情况。

从多机器人协同的模式来看,在本发明之前,相关研究可以划分为三类。第一类是“分组+接力”的模式,先对机器人进行分组,再通过类似拉力赛的形式,由其中若干组机器人支撑另一小组移动到网络的边缘位置执行充电任务,不过这类方法多了机器人相互充电的环节,相对转化率较低。第二类是“排序+分区”的模式,通过聚类或最小生成树,将传感器划分为多个区域,或者按照距离、充电时长等指标对传感器进行加权排序之后分批。这类方法事实上将机器人的协同转化成了串行模式来回避冲突。第三类模式可归结为共赢,比如基于博弈论,或者构建图之后找最大独立集来弱化机器人决策冲突,或者用纯数学的解法对机器人的数量和路径进行线性规划。这类方法基本可以认为是真正的并行协同,较串行方法有一定的性能提升。本发明可归结为第三类模式。



技术实现要素:

本发明提供一种提升了充电机器人的长期决策能力的基于博弈论的在线协同无线充电方法。

为了达到上述技术效果,本发明的技术方案如下:

一种基于博弈论的在线协同无线充电方法,包括以下步骤:

s1:计算机器人的充电成本,包括充电量和移动电量;

s2:建立机器人与传感器的能耗模型;

s3:优化机器人的充电效率。

进一步地,所述步骤s1的具体过程是:

计算机器人的充电成本,包括充电量和移动电量,充电量表示充电机器人用于给传感器充电部分的电量成本,移动电量表示充电机器人在移动过程中的电量成本,记时间步t时机器人mj的充电量为移动电量为

其中cj表示机器人的充电功率,即cjl表示机器人在一个时间步内能传输的最大电量,表示机器人mj与传感器sj在时间步t的距离,du表示机器人在一个时间步内能移动的最大距离,v为移动速度,pm为机器人在移动时的能耗;式(1)表示当机器人在当前时间步内无法到达目标传感器时,则充电量为0,并假设只有到达传感器所在的位置才开始执行充电任务;式(2)根据机器人实际移动的距离计算移动电量;来表示在时间步t,充电机器人mj是否选择传感器si作为充电对象,

进一步地,所述步骤s2的具体过程是:

对于机器人而言,为了防止因电量过低而导致的突发意外,限制每个机器人在一个充电周期即t个时间步中,至多消耗其总电量e的比例为δm,即有式(3):

对于传感器而言,记传感器si在时间步的能耗为假设在一个时间步内能耗相对固定,因此传感器在相邻时间步之间的剩余电量满足关系式(4):

其中表示传感器在单个时间步内的耗电量,求和部分表示其在当前时间步所接收的无线充电量,同机器人,限制传感器在任何时刻电量不得低于预设的阈值,低于阈值时进入睡眠状态,即满足式(5):

进一步地,所述步骤s3的具体过程是:

定义机器人mj在一个充电周期中的充电效率为u(mj),其满足关系式(6),即充电量与充电成本的比值:

从而所有机器人的总体充电效率定义为式(7):

进一步地,对公式(7)进行优化:

1)、每个充电机器人mj获取观测半径rmax范围内的传感器信息,计算收益,各自选择收益最高的传感器i执行充电任务,记

2)、检查步骤1给出的决策是否有冲突,若有,根据帕累托原则进行调整;

3)、对于每个充电任务,在每个时间步记录充电量与移动电量用于计算充电效率;

4)、每个充电任务结束时,检查对应的充电机器人是否还有足够的剩余电量,若机器人电量低于阈值,则机器人返回充电桩;否则,回到步骤1)。

进一步地,限定观测半径,以及根据收益做出充电决策;限定观测半径使得每个机器人能够将注意力集中在局部的突变上,、应对网络的随机性与动态变化,而收益的计算使得机器人在大多数情况下都能做出最有利的决策,收益的计算方式如式(8):

其中t表示机器人mj完成对传感器si的充电任务时对应的时间步。注意到t的获得并不直观,因为收益p(j,i)是需要实时计算而需要等待网络实际运行才可知;用即传感器在时间步t电量离电池容量的差值,作为的估值。

进一步地,计算出收益后,需将长期的决策收益纳入考量来提升机器人决策的泛化能力,具体过程是:

s41、将无线可充电传感器网络视为多智能体系统,每个智能体仅可观测到半径rmax范围内的信息,建立马尔可夫决策过程模型;

s42:设计环境回报;环境回报用于指导机器人往正确的方向学习,即与式(7)等价的方向学习;

s43:选择maddpg为具体的学习算法;maddpg为actor-critic型的强化学习算法,其中actor以观测信息为输入,输出动作critic以观测-动作对即为输入,输出评价值,即对actor的决策进行打分。

进一步地,所述步骤s41的具体过程是:

1)、定义观测空间(observationspace),记为机器人mj在时间步t的观测信息,其定义如式(9):

其中indicator为布尔变量,当且仅当mj电量低于阈值或无新充电任务时,indicator=0,dto与dfrom为浮点数向量,前者表示观测范围内所有传感器到充电桩的距离;后者表示观测范围内所有传感器到机器人mj的距离,legal为布尔向量,用于指示观测范围内每个传感器是否处于可充电状态,即在当前周期内未充过电,且当前时间步未被其他机器人选中,lts与ltm为浮点数向量,前者表示观测范围内所有传感器的剩余电量或剩余工作时长,后者表示所有机器人的剩余电量或剩余工作时长,pest与pins为浮点数向量,表示观测范围内所有传感器的工作能耗,前者表示综合历史观测的平均能耗,后者表示当前时间步的实时能耗。为方便陈述,将观测范围内的传感器集合称为观测候选集;

2)、定义动作空间,注意到每个机器人观测空间中的传感器数量可能各不相同,对于离散空间,限定动作空间的大小为固定值|a|,记机器人mj在时间步t的动作,即选中的传感器在观测候选集中的编号,为当|a|小于观测候选集的大小时,对观测候选集中的传感器根据式(9)降序排序,取其前|a|个传感器;当|a|大于观测候选集的大小时,对不足的部分根据观测候选集中传感器的收益进行有放回采样;对于连续空间,不限定动作空间大小,在输出模型决策时,以观测候选集中传感器的收益作为权重进行线性映射;

3)、定义状态转移函数;在每个时间步的结尾,即机器人执行完当前动作之后,状态转移函数需要更新传感器网络的状态,主要包括传感器的剩余电量、传感器的实时能耗、机器人的实时位置与剩余电量、充电候选集的元素信息。

与现有技术相比,本发明技术方案的有益效果是:

本发明通过计算机器人的充电成本,包括充电量和移动电量;建立机器人与传感器的能耗模型;优化机器人的充电效率;通过提出新型的充电请求处理模式,提升了充电机器人的长期决策能力。

附图说明

图1为无线充电示意图;

图2(a)为总体充电效率示意图;

图2(b)为充电周期时长示意图;

图2(c)为充电周期结束时传感剩余电量百分比示意图;

图2(d)为成功充电示意图;

图3(a)为总体充电效率示意图;

图3(b)为充电周期时长示意图;

图3(c)为充电周期结束时传感剩余电量百分比示意图;

图3(d)为成功充电示意图;

图2为1km×1km无线可充电传感器网络的性能对比,横坐标表示传感器数量,纵坐标表示;图3为10km×10km无线可充电传感器网络的性能对比,横坐标表示传感器数量,纵坐标表示。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;

对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

一种基于博弈论的在线协同无线充电方法,包括以下步骤:

s1:计算机器人的充电成本,包括充电量和移动电量;

s2:建立机器人与传感器的能耗模型;

s3:优化机器人的充电效率。

进一步地,所述步骤s1的具体过程是:

计算机器人的充电成本,包括充电量和移动电量,充电量表示充电机器人用于给传感器充电部分的电量成本,移动电量表示充电机器人在移动过程中的电量成本,记时间步t时机器人mj的充电量为移动电量为

其中cj表示机器人的充电功率,即cjl表示机器人在一个时间步内能传输的最大电量,表示机器人mj与传感器sj在时间步t的距离,du表示机器人在一个时间步内能移动的最大距离,v为移动速度,pm为机器人在移动时的能耗;式(1)表示当机器人在当前时间步内无法到达目标传感器时,则充电量为0,并假设只有到达传感器所在的位置才开始执行充电任务;式(2)根据机器人实际移动的距离计算移动电量;来表示在时间步t,充电机器人mj是否选择传感器si作为充电对象,

进一步地,所述步骤s2的具体过程是:

对于机器人而言,为了防止因电量过低而导致的突发意外,限制每个机器人在一个充电周期即t个时间步中,至多消耗其总电量e的比例为δm,即有式(3):

对于传感器而言,记传感器si在时间步的能耗为假设在一个时间步内能耗相对固定,因此传感器在相邻时间步之间的剩余电量满足关系式(4):

其中表示传感器在单个时间步内的耗电量,求和部分表示其在当前时间步所接收的无线充电量,同机器人,限制传感器在任何时刻电量不得低于预设的阈值,低于阈值时进入睡眠状态,即满足式(5):

进一步地,所述步骤s3的具体过程是:

定义机器人mj在一个充电周期中的充电效率为u(mj),其满足关系式(6),即充电量与充电成本的比值:

从而所有机器人的总体充电效率定义为式(7):

进一步地,对公式(7)进行优化:

1)、每个充电机器人mj获取观测半径rmax范围内的传感器信息,计算收益,各自选择收益最高的传感器i′执行充电任务,记

2)、检查步骤1给出的决策是否有冲突,若有,根据帕累托原则进行调整;

3)、对于每个充电任务,在每个时间步记录充电量与移动电量用于计算充电效率;

4)、每个充电任务结束时,检查对应的充电机器人是否还有足够的剩余电量,若机器人电量低于阈值,则机器人返回充电桩;否则,回到步骤1)。

进一步地,限定观测半径,以及根据收益做出充电决策;限定观测半径使得每个机器人能够将注意力集中在局部的突变上,、应对网络的随机性与动态变化,而收益的计算使得机器人在大多数情况下都能做出最有利的决策,收益的计算方式如式(8):

其中t表示机器人mj完成对传感器si的充电任务时对应的时间步。注意到t的获得并不直观,因为收益p(j,i)是需要实时计算而需要等待网络实际运行才可知;用即传感器在时间步t电量离电池容量的差值,作为的估值。

进一步地,计算出收益后,需将长期的决策收益纳入考量来提升机器人决策的泛化能力,具体过程是:

s41、将无线可充电传感器网络视为多智能体系统,每个智能体仅可观测到半径rmax范围内的信息,建立马尔可夫决策过程模型;

s42:设计环境回报;环境回报用于指导机器人往正确的方向学习,即与式(7)等价的方向学习;

s43:选择maddpg为具体的学习算法;maddpg为actor-critic型的强化学习算法,其中actor以观测信息为输入,输出动作critic以观测-动作对即为输入,输出评价值,即对actor的决策进行打分。

进一步地,所述步骤s41的具体过程是:

1)、定义观测空间(observationspace),记为机器人mj在时间步t的观测信息,其定义如式(9):

其中indicator为布尔变量,当且仅当mj电量低于阈值或无新充电任务时,indicator=0,dto与dfrom为浮点数向量,前者表示观测范围内所有传感器到充电桩的距离;后者表示观测范围内所有传感器到机器人mj的距离,legal为布尔向量,用于指示观测范围内每个传感器是否处于可充电状态,即在当前周期内未充过电,且当前时间步未被其他机器人选中,lts与ltm为浮点数向量,前者表示观测范围内所有传感器的剩余电量或剩余工作时长,后者表示所有机器人的剩余电量或剩余工作时长,pest与pins为浮点数向量,表示观测范围内所有传感器的工作能耗,前者表示综合历史观测的平均能耗,后者表示当前时间步的实时能耗。为方便陈述,将观测范围内的传感器集合称为观测候选集;

2)、定义动作空间,注意到每个机器人观测空间中的传感器数量可能各不相同,对于离散空间,限定动作空间的大小为固定值|a|,记机器人mj在时间步t的动作,即选中的传感器在观测候选集中的编号,为当|a|小于观测候选集的大小时,对观测候选集中的传感器根据式(9)降序排序,取其前|a|个传感器;当|a|大于观测候选集的大小时,对不足的部分根据观测候选集中传感器的收益进行有放回采样;对于连续空间,不限定动作空间大小,在输出模型决策时,以观测候选集中传感器的收益作为权重进行线性映射;

3)、定义状态转移函数;在每个时间步的结尾,即机器人执行完当前动作之后,状态转移函数需要更新传感器网络的状态,主要包括传感器的剩余电量、传感器的实时能耗、机器人的实时位置与剩余电量、充电候选集的元素信息。

根据场景大小,本发明设计了两组仿真实验:1km×1km与10km×10km的无线可充电传感器网络。仿真实验的主要参数如表1所示。

表1仿真实验主要参数设置

在本发明之前,最新的算法有mts与gtccs。mts先使用k-means方法将整个传感器网络划分为|m|个子网络,让每个机器人分别管理一个子网络。通常情况下每个机器人的行为之间相互独立,但是在特殊情况下允许机器人前往邻居子网进行充电(比如负责该子网的机器人耗尽电量临时返回充电桩的情况)。gtccs与本发明都是基于博弈论的思想,主要的不同在于gtccs采用全局的充电请求队列,由基站对机器人进行统一调度。

在本实施方式与性能对比中,除了本发明的两个新算法(gtts、maddpg)以及mts、gtccs算法,我们还设计了两个基准算法:一是随机算法(random),机器人每次都从观测半径内的传感器中随机选择一个节点进行充电;二是贪心算法(greedy),机器人每次都选择使某个指标最优的方案,根据选择的指标不同,又可以分为greedy-d(选择距离最近的传感器)与greedy-l(选择剩余电量或工作时间最短的传感器)。

本实施方式与性能对比的结果如附图2与附图3所示。其中附图2为1km×1km无线可充电传感器网络场景下的结果,附图3为10km×10km无线可充电传感器网络场景下的结果。以附图2为例分析图中的曲线,附图3同理。

在附图2(a)中,纵坐标分别表示式(7)中的总体效率。从结果来看,本发明所提出的两个算法,gtts与maddpg性能明显超过了其他对比算法,尤其是gtts,随着网络中传感器数量不断增加,除了greedy-d算法以外,性能差距被不断拉开,说明由传感器主动判断充电需求、取消机器人待机选项的新充电请求模式,确实优于已有的算法。单看gtts与gtccs,两者都是基于博弈论的算法,但是在曲线右半段两者性能差距较大,可推测去集中式的充电请求队列在大型传感器网络确实能更好地捕捉到局部信息,以较低的成本提前解决潜在的充电需求,本发明亦通过消融实验验证了这一点。相较之下,mts算法通过将网络分块,限制了机器人之间的互动,也限制了算法的性能提升;greedy-l算法将过多注意力放在低电量节点上,分析发现其充电路径明显比其他算法要长,导致过多的移动成本。而greedy-d“小步快跑”,倒也取得不错的性能表现,与现实生活对照,引人深思。

本发明的主要目标是提升充电效率,但也需要关注是否会对其他指标造成影响。在附图2(b)(c)(d)中,纵坐标分别表充电周期时长(即时间步总数t与时间步的单位长度l的乘积,以“分钟”计)、充电周期末尾传感器剩余电量的百分比和成功充电率。从(b)来看,本发明提出的两个算法gtts与maddpg充电周期时长明显更长,这意味着单位时间内消耗的机器人数量更少,网络运营成本更低;同时结合(c),使用本发明提出的算法,在充电周期末尾,传感器剩余电量百分比也更高。图2(d)的成功充电率指充电周期末尾处传感器剩余电量不低于充电周期初始时剩余电量的百分比,可看到本发明提出的算法在这一指标上略低于其他算法,分析表明有极少数低电量的传感器在充电周期中未被发掘出来。这一比例小于2%,完全可以通过多个算法的策略组合、或者通过对机器人进行分组来解决。相比于算法带来的性能提升,这是可容忍的妥协。

相同或相似的标号对应相同或相似的部件;

附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1