一种基于磁谐振和DQN的MIMO中继充电方法与流程

文档序号：23757965发布日期：2021-01-29 18:41阅读：192来源：国知局

一种基于磁谐振和dqn的mimo中继充电方法
技术领域
[0001]
本发明涉及的基于磁谐振和dqn的mimo中继充电方法，属于无线充电技术领域。

背景技术：

[0002]
随着数亿台智能设备在人群中的广泛使用，这些设备充电问题成为当前非常重要的研究性课题。近些年来，无线电能传输(wireless power transmission)系统已经被深入研究，并出现了一批市场化的无线充电设备，以解决智能设备需要反复插拔补充电能的困扰。与传统的有线充电方法相比，无线充电最明显的优势是没有电线，降低了安全风险，有利于产品防水防尘设计。
[0003]
目前，短距离无线电能传输系统通常以两种方式实现，即：电感耦合(inductive coupling，或称磁耦合)和磁谐振耦合(magnetic resonant coupling)[1]。当使用电感耦合时，无线电能传输系统就像松散耦合变压器一样工作；而采用磁谐振技术的无线电能传输系统利用电路中谐振现象来提高能量传输效率。由于更高的效率和更长的充电距离，基于磁谐振技术的无线电能传输技术引起了业界和学术界的关注。多个无线充电联盟已经提出了无线充电系统的规范，例如无线充电联盟(wpc)提出的qi规范，以及无线电力联盟(a4wp)提出的rezence规范。
[0004]
然而，当前的规范普遍集中于只有一个电力发送单元的情况，即，系统中有且仅有一个能量发射端(tx),而商品化的无线充电设备基本都是一对一的无线充方式，且充电距离都是接近零距离的、基本贴合的，需要发射端和接收端的高度耦合。已经在文献中研究了具有多个发射端和/或多个接收端的磁谐振无线电能传输系统。其中尤为引人注目的是，磁波束成形技术(beamforming)已应用于多输入多输出(mimo)场景中，以实现更灵活和高效的能量传输。这些技术整合的无线充电系统在2014年以来的几篇相关文章[2]-[4]中有着具体阐述。
[0005]
我们在此方案中借鉴了以往无线充电系统中的设计经验，基于磁谐振原理，整合磁波束成形技术，创新性地提出中继方案，即，在多入多出环境下，插入中继线圈群，使用神经网络方法控制中继线圈的开关闭合，从而与发射端控制一起实现对接收端的高效率充电方案。

技术实现要素：

[0006]
本发明多设备同时进行无线充电的难题，提高无线充电的距离和效率，本发明的目的是通过以下技术方案实现的：
[0007]
一种基于磁谐振和dqn的mimo中继充电方法，所述该方法由4个电路组成，分别为tx circuit发射端电路、relay circuit中继端电路、rx circuit接收端电路、tx-relay controller发射端-中继端的控制电路，所述tx circuit发射端电路、relay circuit中继端电路、rx circuit接收端电路之间均由tx-relay controller发射端-中继端的控制电路控制，其中电流公式为通过应用基尔霍夫电路法,我们得出以下电流方程(1)，对于每一个
被动线圈α，α可以是任何rx，或任何处于闭合状态的relay。
[0008][0009]
电压公式：可以得出电压方程(2)，式中的α可以是任何tx,rx,或任何闭合状态的relay。τ
α
对于发射端为1，对于中继端和接收端为0。
[0010][0011]
矩阵形式：为了更容易的表示，我们将上面(1)(2)写成矩阵形式(3)，
[0012][0013]
通过简单的变换，我们可以得到式(4)
[0014][0015]
所述通过控制发射端电流和中继端开关状态，使接收端在给定能量预算下的接收能量最大化。因此，该公式表述为：
[0016][0017]
约束为
[0018][0019]
由于解空间十分巨大，在有6*6的relay的情况下，遍历算法将不能在可行时间内得到最优解，我们采用分层的方法来解决这一问题；在顶层，我们只控制中继的开闭状态，在底层，我们只控制发射端的电流，如式(6)和(7)所示。
[0020][0021][0022]
作为优选：所述底层，我们针对顶层方案中给出的闭合中继线圈的数量和排布方式，给出最大化接收端能量且满足总能量约束的发射端电流设定。
[0023]
在底层算法中，我们扩展了文献[4]中的算法，使用拉格朗日乘数法。通过符号μ作为约束(c5a)的乘数，问题(7)是寻求以下函数的驻点。
[0024][0025]
我们可以通过将两个偏导数和设为0获得驻点的信息，特殊地，我们根据(4)式获得下述方程。
[0026][0027]
然后，我们得到了关于底层调度问题(7)的最优结果的定理。
[0028][0029]
式中，其中maxeig为矩阵对应于其最大实特征值的单位特征向量。γ为正则化标量，确保系统总功率满足预算约束(c5a)。
[0030]
得到式(10)中的矩阵x1和x2，就可以解决底层问题，实际上，我们只需求得矩阵中的d和x2即可。
[0031]
估算d：由式(4)可知，d可以看作是由到的变换矩阵。幸运的是，我们可以测量tx和relay上的电流，即，和然后，通过应用tx电流(实际上是通过tx电压调控)并测量产生的中继端电流，我们可以估计出它们之间的系数。由于是长度为n的向量，在进行矩阵反演之前需要重复测量n次，其中n为txs的个数。
[0032]
更正式地说，如果应用n组不同的tx电流，测量相应的relay电流，可以由下面的公式反演出矩阵d。
[0033][0034]
估算x2：由式(4)消去可得：
[0035][0036]
我们注意到式(12)中只有两个未知系数，即h和z
r
。然后，我们可以使用与估计d相同的数据与过程来估计：
[0037][0038]
由于接收端线圈较小，且距离比较远，故接收端rx之间的互感可以忽略不计。因此，我们认为r
r
与z
r
近似相等。再结合估算出来的矩阵d，我们便可以估算出矩阵x2。
[0039]
时间消耗：时间上的消耗主要包括两部分，即测量和计算。计算过程主要由一个简单的特征向量分解过程组成，与测量过程相比，其耗时可忽略不计。
[0040]
在rx无关估计中，需要对tx电压进行n次非线性变换，并测量相应的和因此，测量时间取决于实际系统中最高的tx电压变化速率。在我们的模型中，理论上可以实现超过1khz的电压变化率。对于具有4个发射端tx的典型应用场景，我们可以在5ms内完成测量
操作。
[0041]
作为优选：所述顶层采用强化学习dqn，深度q网络的方法，该方法基于dqn的能量路径路由方案，dqn的运行模式和原理可简述为：首先环境会给出一个观察(observation)，智能体根据值函数网络得到关于这个observation的所有q(s,a)，然后利用∈-greedy选择action并做出决策，环境接收到此action后会给出一个奖励reward及下一个observation。这是一个step，此时我们根据reward去更新值函数网络的参数，接着进入下一个step，如此循环下去，直到我们训练出了一个好的值函数网络。
[0042]
将整个mrc-wpt系统作为dqn算法的环境，值网络和目标网络是dqn计算和评价最优值的核心部分，我们使用θ，来表达每个网络的权重，在第k轮中，设观察来表达每个网络的权重，在第k轮中，设观察并将之作为作为dqn的输入，将dqn的a
(k)
的输出作为中继端的开断动作，从底层问题中获得最优的功率转移效率r
(k)
作为奖励，d
(k)
和是第k轮低层问题的中间变量，其中包含了中继状态的关键信息。同时，我们采用了时间戳经验池的方式，存储短期内、系统访问过的中继闭合状态以及对应的返回值信息，避免了过于频繁地访问系统底层。
[0043]
本发明显著提升了无线充电的距离，增加了无线充电作用的范围，增强了无线充电的可用性，对无线磁充电的应用有着积极影响，有利于无线充电的发展，目前无线充电局限于一对一充电，本发明可同时为多个设备供电，有着实际的应用前景，基于本发明的系统中，允许电子设备在充电范围内移动，系统将根据环境的变化，作出自适应的调度，为小功率设备供电。
附图说明
[0044]
图1为系统架构图；
[0045]
图2为原理示意图；
[0046]
图3为包含中继的无线充电系统。
具体实施方式
[0047]
下面结合本发明的具体内容，对本发明本发明的目的是为了对多个设备进行可观效率和一定距离(40厘米内)的无线充电方案，通过解决底层的发射端电流控制和高层的能量路径路由来达到这一要求。该系统的部署主要分为4个部分，如图1所示。
[0048]“tx circuit”表示发射端电路，我们使用由印刷电路板制成的均质发射端线圈，半径为15厘米，面积为0.0707平方米。每个由tx线圈和高频高q值电容组成的串联电路使用放大的可控正弦信号供电。由于我们使用交直流转换器获得24v的直流电，所以我们的系统可以直接使用市频交流电供电。为了获得更精确、更好的谐振，我们系统中的所有部件都是专门设计的，以减少环境(周围磁场和杂波)对直流电流的影响。
[0049]“relay circuit”表示中继端电路，中继电路即要有扩大磁场能量传输的能力，同时又要尽可能地降低能量损耗。由于中继电路的特殊应用，我们采用精炼铜线圈构成中继端电路，所有中继线圈规格相同，半径为7厘米，每个线圈的电阻在0.95欧姆左右，误差小于1％。在串联谐振电路中采用超低等效串联电阻(esr)电容器与线圈谐振，提高了效率，因此，整体中继回路的串联电阻小于1欧姆。
[0050]“rx circuit”表示接收端电路，我们使用精炼铜制成的线圈，其半径小于4厘米，以匹配通常使用的移动设备的大小。在具体的接收端电路中，我们采用高频整流桥和稳压器，这样接收端可输出5v直流电压，通过简单地修改供电接口，我们的系统可为日常小功率设备供电。
[0051]“tx-relay controller”表示发射端-中继端的控制电路，这也是系统中最核心的部分。对于tx，我们的系统可以对每个线圈施加电压和测量电流。通过单片机编程，我们可以控制由高频信号产生芯片产生的正弦信号的幅度和相位，从而施加tx电压。我们通过采用幅相ad测量元件测量tx电流，并将测量结果传输到数据处理器。对于每一个中继端，我们可以通过单片机控制开关状态，并像tx一样测量中继端的电流。而pc作为数据处理器处理数据，运行dqn网络、决策并向下层单片机发送控制消息。
[0052]
如图2所示，所提出的mrc-wpt系统由n个txs、q个rxs和c个relays组成。我们将符号ti、ri、ei分别表示为第i个tx、rx和中继。该系统采用磁谐振技术，其中自感和电容在每个tx/rx/relay调谐，使他们的影响相互抵消。因此，在这项工作中，我们可以忽略有关电感和电容的项。在我们的设计方案中，有一个控制器将承载我们提出的优化算法，控制器与所有txs/relays通信。对于controller-rxs通信，我们进一步考虑了两种不同的场景，即，依赖于接收端和独立于接收端的场景。在第一个场景中，控制器和接收端之间存在某种链接，比如qi规范中的带内通信协议，或者rezence规范中的蓝牙。因此，接收端可以向控制器反馈一些非实时的信息，而这样的通信将消耗接收端的能量。在第二个场景中，controller-rx链接不存在。因此，在这种情况下，我们必须在没有接收端协同的情况下解决优化问题。
[0053]
符号说明
[0054]
我们使用r
α
、i
α
、v
α
来表示tx/rx/relay线圈α上的电阻,稳态电流,电压。由于relay和rx都是无源元件，所以它们的电压总是零。我们将二进制变量表示为第c个relay的开关状态，其中1表示“闭合”，0表示“断开”。每对线圈之间存在互感。我们使用符号m
α,β
表示互感系数。例如，表示在i个tx和第j个relay之间的互感系数。我们还使用m
**
来表示不同类型线圈之间的互感矩阵，其中下标(*)可以分别替换为代表tx/rx/relay的t|r|e。例如，矩阵m
te
中的i行和j列元素应该是
[0055]
为了便于理解，我们将符号分类为不同的类型。优化目标变量:在固定系统总功率的前提下，我们的目标是使接收端接收的总功率达到最大。因此，优化目标变量为接收端的电流，即，可控变量:第一类可控变量是中继的开关状态，即，这可以通过硬件短路实现。第二种可控变量是发射端的电流，即，其振幅和相位均可调节。然而，在实际环境中，控制电压可能比控制电流更加方便实际。通过电路方程可以方便地得到相应的发射端电压。已知常数:由于发射端和中继端通常作为基础设施固定使用，因此可以预先知道它们之间的相对位置。我们可以离线测量tx/relay电阻和它们之间的互感，作为优化问题中已知的常数。在与rx相关的情况下，我们可以通过现有的方法测量rx电阻和相关的互感。因此，这些信息也可以看作是已知的常数。然而，在与rx无关的情况下，我们对rx电阻和相关的互感系数一无所知，必须将它们视为未知或缺失的信息。测量数据:发射端和中继端均配有测量电路。控制器能够为每个tx/relay收集电流/电压的实时信息。然而对于接收端rx，rx的实时信息在控制器中不可用，即使在依赖于rx的场景中也是如此,其原因是controller-rx
通信链路需要消耗接收端rx的能量，无法支持实时通信。
[0056]
公式推导：当发射端通电后，中继端和接收端上就会产生电流，这是由一定的物理规律决定的。在这里，我们将介绍一组有关发射端、闭合中继端和接收端的电路方程，借以了解发射端、中继端和接收端之间电流的关系。在不失一般性的前提下，假设有且仅有p个中继端处于闭合状态。
[0057]
电流公式：通过应用基尔霍夫电路法,我们得出以下电流方程(1)，对于每一个被动线圈α，α可以是任何rx，或任何处于闭合状态的relay。
[0058][0059]
电压公式：同理，我们可以得出电压方程(2)，式中的α可以是任何tx,rx,或任何闭合状态的relay。τ
α
对于发射端为1，对于中继端和接收端为0。
[0060][0061]
矩阵形式：为了更容易的表示，我们将上面(1)(2)写成矩阵形式(3)，其中的符号含义见表1。
[0062][0063]
通过简单的变换，我们可以得到式(4)
[0064]
[0065][0066]
表1公式推导过程中变量含义
[0067]
我们的目标是将功率转移效率(pte)最大化，即，通过控制发射端电流和中继端开关状态，使接收端在给定能量预算下的接收能量最大化。因此，问题可以表述为：
[0068][0069]
约束为
[0070][0071]
由于解空间十分巨大，在有6*6的relay的情况下，遍历算法将不能在可行时间内得到最优解。于是我们采用分层的方法来解决这一问题。在顶层，我们只控制中继的开闭状态，在底层，我们只控制发射端的电流，如式(6)和(7)所示。
[0072][0073][0074]
为了更简明地阐述，我们将顶层问题(6)归结为能量路径路由问题，底层问题(7)归结为发射端电流控制问题。
[0075]
底层解决方案
[0076]
在底层，我们针对顶层方案中给出的闭合中继线圈的数量和排布方式，给出最大化接收端能量且满足总能量约束的发射端电流设定。
[0077]
在底层算法中，我们扩展了文献[4]中的算法，使用拉格朗日乘数法。通过符号μ作为约束(c5a)的乘数，问题(7)是寻求以下函数的驻点。
[0078]
[0079]
我们可以通过将两个偏导数和设为0获得驻点的信息，特殊地，我们根据(4)式获得下述方程。
[0080][0081]
然后，我们得到了关于底层调度问题(7)的最优结果的定理。
[0082][0083]
式中，其中maxeig为矩阵对应于其最大实特征值的单位特征向量。γ为正则化标量，确保系统总功率满足预算约束(c5a)。
[0084]
得到式(10)中的矩阵x1和x2，就可以解决底层问题，实际上，我们只需求得矩阵中的d和x2即可。
[0085]
估算d：由式(4)可知，d可以看作是由到的变换矩阵。幸运的是，我们可以测量tx和relay上的电流，即，和然后，通过应用tx电流(实际上是通过tx电压调控)并测量产生的中继端电流，我们可以估计出它们之间的系数。由于是长度为n的向量，在进行矩阵反演之前需要重复测量n次，其中n为txs的个数。
[0086]
更正式地说，如果应用n组不同的tx电流，测量相应的relay电流，可以由下面的公式反演出矩阵d。
[0087][0088]
估算x2：由式(4)消去可得：
[0089][0090]
我们注意到式(12)中只有两个未知系数，即h和z
r
。然后，我们可以使用与估计d相同的数据与过程来估计：
[0091][0092]
由于接收端线圈较小，且距离比较远，故接收端rx之间的互感可以忽略不计。因此，我们认为r
r
与z
r
近似相等。再结合估算出来的矩阵d，我们便可以估算出矩阵x2。
[0093]
时间消耗：时间上的消耗主要包括两部分，即测量和计算。计算过程主要由一个简单的特征向量分解过程组成，与测量过程相比，其耗时可忽略不计。
[0094]
在rx无关估计中，需要对tx电压进行n次非线性变换，并测量相应的和因此，测量时间取决于实际系统中最高的tx电压变化速率。在我们的模型中，理论上可以实现超过1khz的电压变化率。对于具有4个发射端tx的典型应用场景，我们可以在5ms内完成测量操作。
[0095]
解决方案
[0096]
由于顶层的数据空间大，暴力搜索方式不适用，而由于磁场的特性，直接选择路径的方式也是不可取的，因此，在顶层，我们采用强化学习(dqn，深度q网络)的方法，它是一种
通过不断探索和学习来获得最优策略的算法，使我们能够在不需要任何先验信息的情况下学习最优控制策略。这种特性使得算法能够适应不断变化的环境，这非常符合我们的应用场景。
[0097]
为解决顶层的能量路径路由问题，我们提出了基于dqn的能量路径路由方案，dqn的运行模式和原理可简述为：首先环境会给出一个观察(observation)，智能体根据值函数网络得到关于这个observation的所有q(s,a)，然后利用∈-greedy选择action并做出决策，环境接收到此action后会给出一个奖励reward及下一个observation。这是一个step，此时我们根据reward去更新值函数网络的参数，接着进入下一个step。如此循环下去，直到我们训练出了一个好的值函数网络。
[0098]
我们提出的基于dqn的中继控制策略如表2所示。我们将整个mrc-wpt系统作为dqn算法的环境。值网络和目标网络是dqn计算和评价最优值的核心部分。我们使用θ，来表达每个网络的权重。在第k轮中，设观察并将之作为作为dqn的输入，将dqn的a
(k)
的输出作为中继端的开断动作，从底层问题中获得最优的功率转移效率r
(k)
作为奖励。表2给出了相应的参数定义。值得注意的是，d
(k)
和是第k轮低层问题的中间变量，其中包含了中继状态的关键信息。
[0099][0100]
表2符号释义
[0101]
详细的算法阐述见表3。
[0102]
同时，我们采用了时间戳经验池的方式，存储短期内、系统访问过的中继闭合状态以及对应的返回值信息，避免了过于频繁地访问系统底层。
[0103]
下图为dqn算法的伪码。
[0104][0105]
表3系统的dqn算法详述
[0106]
实施方式举例
[0107]
应用场景如图3所示。
[0108]
图3中包含了本发明的所有部分，采用了4个发射端tx，16个中继端relay以及2个接收端rx。controller为一台计算机，用于运行dqn，接收发射端和中继端上传的测量数据并决策中继端relay的闭合/断开状态。
[0109]
该系统中继端平面距离发射端平面15cm，成功点亮了约40cm平面处两个3w的led灯泡。系统中，所有发射端、接收端和中继端的谐振频率均为1.0mhz，这处在普通无线电能传输系统的频率范围内，也不会干扰其他的无线设备的频段。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周颢;李向阳;周王球;宋年卉
技术所有人：德清阿尔法创新研究院
我是此专利的发明人

上一篇：一种强化钼合金及其制备方法与流程
上一篇：一种遇气膨胀橡胶材料及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、朱老师：1.聚合物绝缘材料老化 2.电力系统可靠性分析
2、赵老师：1.智能控制理论及应用 2.机器人控制技术 3.新能源控制技术与应用
3、杨老师：工程电磁场与磁技术，无线电能传输技术
4、李老师：新型电力电子技术在微网中的应用
5、王老师：薄膜光电子材料与器件、太阳能电池、光伏能源器件及材料测试
如您是高校老师，可以点此联系我们加入专家库。