用于电网安全态势感知的无人机巡检方法、终端设备

文档序号:33640364发布日期:2023-03-29 01:53阅读:来源:国知局

技术特征:
1.一种用于电网安全态势感知的无人机巡检方法,其特征在于,包括以下步骤:s1、构建状态空间,其中任一时刻t的状态s
t
包括无人机在t时刻的检测图像di
t
和飞行状态as
t
;t时刻的检测图像di
t
是由无人机在t时刻及先前k个时刻所摄图片按时间顺序排列组成的序列ci
t-k,
ci
t-k+1
,

,ci
j
,

,ci
t-2
,ci
t-1
,ci
t
;ci
j
=[vi
j
,ir
j
,ui
j
],vi
j
为j时刻拍摄的可见光图片,ir
j
为j时刻拍摄的红外图片,ui
j
为j时刻拍摄的超声图片,j=t-k,t-k+1,

,t-2,t-1,t;t时刻的飞行状态as
t
是由无人机在t时刻及先前k个时刻的位姿信息向量按时间顺序排列组成的序列pd
t-k
,pd
t-k+1
,

,pd
j
,

,pd
t-2
,pd
t-1
,pd
t
;其中pd
j
=[x
j
,y
j
,u
j

j

j

j
],x
j
、y
j
和u
j
分别为j时刻地球坐标系下无人机的飞行位置三维坐标,α
j
、β
j
和γ
j
分别为j时刻无人机的偏航角、俯仰角和横滚角;s2、构建混合深度神经网络,所述混合深度神经网络包括抗扰卷积神经网络、第一快速门限循环神经网络、第二快速门限循环神经网络和第一全连接神经网络;所述抗扰卷积神经网络与第一快速门限循环神经网络连接;第一快速门限循环神经网络、第二快速门限循环神经网络均与第一全连接神经网络连接;将所述t时刻的检测图像di
t
作为所述抗扰卷积神经网络的输入,所述t时刻的飞行状态as
t
序列作为第二快速门限循环神经网络的输入;所述第一全连接神经网络的输出为t时刻的q(s,a),q(s,a)即在状态s
t
下,无人机执行动作空间中的各个动作后,所获反馈函数值的预测值;其中动作空间a=[δx,δy,δu,δα,δβ,δγ],δx为机体坐标系下无人机在水平方向横轴上的位移调节量,δy为机体坐标系下无人机在水平方向纵轴上的位移调节量,δu为机体坐标系下无人机在垂直方向上的位移调节量,δα为无人机偏航角调节量,δβ为无人机俯仰角调节量,δγ为无人机横滚角调节量,δx、δy、δu、δα、δβ与δγ均采用离散微调控制模式;反馈函数r=w
s
s+w
d
d,s为基于信息量加权的结构相似度指标,d为所述检测图像di
t
中各张图片的中心与无人机所要检查的目标物体的中心之间的欧式距离,w
s
和w
d
为权重系数,反馈函数r直接反映检测图像di
t
的质量;优选地,所述离散微调控制模式实现过程包括:选定无人机的最大正负位移调节量δp
max
和最大正负角度调节量δd
max
;对δp
max
进行n1等分,对δd
max
进行n2等分,则δp=δp
max
/n1为无人机的位移调节间隔,δd=δd
max
/n2为无人机的角度调节间隔,a中位移调节量δx、δy和δu的动作取值为-n1δp,-(n
1-1)δp,

,-2δp,-δp,0,+δp,+2δp,

,+(n
1-1)δp,+n1δp,角度调节量δα、δβ和δγ的动作取值为-n2δd,-(n
2-1)δd,

,-2δd,-δd,0,+δd,+2δd,

,+(n
2-1)δd,+n2δd;s3、对所述混合深度神经网络进行仿真训练,得到无人机飞航状态校正模型。2.根据权利要求1所述的用于电网安全态势感知的无人机巡检方法,其特征在于,所述第一全连接神经网络的输出,即t时刻的q(s,a)函数值的获取过程包括:利用所述抗扰卷积神经网络从t时刻的检测图像di
t
序列内各张图片ci
j
中分别感知环境状态信息,得到输出特征序列f
t-k
,f
t-k+1
,

,f
j
,

,f
t-2
,f
t-1
,f
t
,利用所述第一快速门限循环神经网络从f
t-k
,f
t-k+1
,

,f
j
,

,f
t-2
,f
t-1
,f
t
中提取时序特征,得到第一特征向量v
1t
;利用所述第二快速门限循环神经网络从t时刻的飞行状态as
t
序列中提取时序特征,得到第二特征向量v
2t
;串联拼接所述第一特征向量v
1t
和第二特征向量v
2t
,将拼接而成的向量v
t
作为第一全连接神经网络的输入,得到t时刻的q(s,a)函数值。3.根据权利要求2所述的用于电网安全态势感知的无人机巡检方法,其特征在于,利用
所述抗扰卷积神经网络从t时刻的检测图像di
t
序列内各张图片ci
j
中分别感知环境状态信息的过程包括如下步骤:对di
t
中各张图片ci
j
分别进行二维膨胀卷积处理,生成一组卷积特征图m
t-k
,m
t-k+1
,

,m
j
,

,m
t-2
,m
t-1
,m
t
;分别对各张卷积特征图中各元素取绝对值,得到一组绝对值特征图am
t-k
,am
t-k+1
,

,am
j
,

,am
t-2
,am
t-1
,am
t
,分别对所述各张绝对值特征图逐通道进行全局平均池化,得到一组池化向量g
t-k
,g
t-k+1
,

,g
j
,

,g
t-2
,g
t-1
,g
t
;将每个所述池化向量分别作为第二全连接神经网络的输入,得到一组输出向量av
t-k
,av
t-k+1
,

,av
j
,

,av
t-2
,av
t-1
,av
t
,将各输出向量分别对应与各池化向量逐元素相乘,得到一组抗扰参数向量a
t-k
,a
t-k+1
,

,a
j
,

,a
t-2
,a
t-1
,a
t
,a
j
维度等于卷积特征图的通道数;将各卷积特征图中对应与各抗扰参数向量逐元素相乘,得到经过抗扰处理的卷积特征图,展开经过抗扰处理的卷积特征图,得到输出特征序列f
t-k
,f
t-k+1
,

,f
j
,

,f
t-2
,f
t-1
,f
t
。4.根据权利要求2所述的用于电网安全态势感知的无人机巡检方法,其特征在于,利用所述第一快速门限循环神经网络从f
t-k
,f
t-k+1
,

,f
j
,

,f
t-2
,f
t-1
,f
t
中提取时序特征,以及利用所述第二快速门限循环神经网络从t时刻的飞行状态as
t
序列中提取时序特征的过程包括如下步骤:利用下式生成第一快速门限循环神经网络或第二快速门限循环神经网络在第j个时间步上的更新门z
j
和重置门r
j
:(z
j
,r
j
)=sigmoid(z
j
',r
j
');其中,sigmoid为激活函数,z
j
'=dda(z
j
,g
z
,b
z
)与r
j
'=dda(r
j
,g
r
,b
r
)分别表示第一快速门限循环神经网络或第二快速门限循环神经网络在第j个时间步上的更新门z
j
和重置门r
j
的中间过程向量;dda表示数据分布调整,z
j
=w
z
h
j-1
+u
z
x
j
+b
z
与r
j
=w
r
h
j-1
+u
r
x
j
+b
r
是中间数据向量,中间数据向量维度为h,g
z
与g
r
是增益向量,b
z
和b
r
是偏置向量,增益向量与偏置向量均为可训练权重向量;在中间数据向量z
j
和r
j
中,x
j
为第一快速门限循环神经网络或第二快速门限循环神经网络在第j个时间步上的输入特征向量,即f
j
或pd
j
,h
j-1
是第一快速门限循环神经网络或第二快速门限循环神经网络在第j-1个时间步上生成的隐藏状态,w
z
、u
z
、w
r
和u
r
为权重矩阵,b
z
和b
r
为偏置向量;计算第一快速门限循环神经网络或第二快速门限循环神经网络在第j个时间步上的内部细胞状态c
j
:c
j
=relu(c
j
');其中,c
j

是c
j
的计算中间值,w
c
和u
c
是权重矩阵,b
c
是偏置向量,代表逐元素相乘;计算第一快速门限循环神经网络或第二快速门限循环神经网络在第j个时间步上的拓展权重向量e
j
:e
j
=λe
j-1
+ηc
j
c
jt
;其中,λ和η为拓展权重参数;e
j-1
代表第一快速门限循环神经网络或第二快速门限循环神经网络在第j-1个时间步上的拓展权重向量;计算第一快速门限循环神经网络或第二快速门限循环神经网络在第j个时间步上生成的隐藏状态h
j
:其中,代表逐元素相加;对第一快速门限循环神经网络或第二快速门限循环神经网络生成的各个h
j
进行特征强化处理,得到特征强化向量,即得到第一特征向量v
1t
或第二特征向量v
2t
。5.根据权利要求4所述的用于电网安全态势感知的无人机巡检方法,其特征在于,计算第一快速门限循环神经网络或第二快速门限循环神经网络的z
j
'和r
j
'的过程中,数据分布调整dda过程包括:
计算中间数据向量的均值与方差其中,x
i
为中间数据向量z
j
或r
j
中的各个元素;i=1,2,

,h;对中间数据向量中元素的分布进行标准正态化:其中,x
i

为中间数据向量z
j
或r
j
中的各个元素经过标准正态化后的值,ε是一个无限趋近于0的正数;利用下式调整中间数据向量中元素的分布:y
i
=gn
i
x
i
'+ba
i
;其中,y
i
为经过再次调整后的中间数据向量中的各个元素,gn
i
是增益向量g
z
或g
r
中的第i个元素,ba
i
是偏置向量b
z
或b
r
中的第i个元素,gn
i
与ba
i
均为可训练权重参数。6.根据权利要求1所述的用于电网安全态势感知的无人机巡检方法,其特征在于,训练所述混合深度神经网络的具体实现过程包括:s3-1、设置两个动作价值函数q(s,a)和q

(s,a),其中q(s,a)由所述混合深度神经网络拟合,q

(s,a)由一个与所述混合深度神经网络结构相同的辅助混合深度神经网络拟合;将所述混合深度神经网络和所述辅助混合深度神经网络以同一组随机权重参数初始化;将经验回放缓冲区r初始化为空集{};将训练周期数e和单步训练回合数rd初始化为0;s3-2、判断r中存储的数据的数量是否达到容量上限o
max
,若已达到则丢弃最早存入的若干组数据,使r中存储的数据的数量低于o
max
;若未达到则开始一个单步训练回合,利用所述混合深度神经网络分析当前时刻t的状态s
t
,得到t时刻的q(s,a);判断单步训练回合数rd是否达到策略转换阈值sw,若未达到,则以ε-greedy策略根据q(s,a)选择动作a
t
予以执行;若已达到,则按照下式根据q(s,a)选择动作a
t
予以执行:其中c是探索系数,n
t
(a)表示动作空间a中各动作在t时刻之前被选择的次数;获取动作a
t
执行后的新状态s
t+1
和反馈r
t
;将s
t
、a
t
、r
t
和s
t+1
组成的四元组[s
t
,a
t
,r
t
,s
t+1
]作为一组数据存储至回放缓冲区r中;s3-3、判断r中存储的四元组的数量是否超过容量下限o
min
,若未超过则返回步骤s3-2,若已超过则从r中随机采样n个四元组;利用由所述辅助混合深度神经网络拟合的q

(s,a)计算采样所得的各个四元组[s
n
,a
n
,r
n
,s
n+1
]的个体损失函数值l
n
=(r
n
+y max
a
q'(s
n+1
,a)-q(s
n
,a
n
))2,其中y为折扣因子;对n个四元组的个体损失函数值取平均值,得到目标损失函数值l;以梯度下降法最小化目标损失函数值l,更新所述混合深度神经网络的权重参数,完成一个单步训练回合,将rd的值加1;s3-4、判断rd的值是否是同步回合数c的整数倍,若是,则将混合深度神经网络的权重参数赋给所述辅助混合深度神经网络;s3-5、判断rd的值是否达到上限rd
max
,若已达到,则将e的值加1,并将rd的值清零,然后进入步骤s3-6,若未达到则返回步骤s3-2;s3-6、判断e是否达到上限e
max
,若已达到则结束训练过程,否则返回步骤s3-2。7.根据权利要求1~6之一所述的用于电网安全态势感知的无人机巡检方法,其特征在于,还包括:s4、将无人机飞航状态校正模型加载至无人机的飞行控制程序中,利用无人机对实际
输电线路进行巡检。8.根据权利要求7所述的用于电网安全态势感知的无人机巡检方法,其特征在于,利用无人机对实际输电线路进行巡检之前,利用迁移学习方法调整所述无人机飞航状态校正模型的参数。9.一种终端设备,包括存储器、处理器及存储在存储器上的计算机程序;其特征在于,所述处理器执行所述计算机程序,以实现权利要求1~8之一所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序/指令;其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1~8之一所述方法的步骤。

技术总结
本发明公开了一种用于电网安全态势感知的无人机巡检方法、终端设备。巡检方法基于深度强化学习,主要步骤包括:构建状态空间;构建混合深度神经网络;对混合深度神经网络进行仿真训练,得到无人机飞航状态校正模型;将飞航状态校正模型加载至无人机的飞行控制程序中,利用无人机对实际输电线路进行巡检。本发明利用深度学习与强化学习卓越的特征学习和控制决策能力有效增强近距离巡检状态下无人机飞行位置与姿态的稳定性以改善巡检图像质量,从而提升输电线路巡检精度与效率,增强电网安全态势感知能力。态势感知能力。态势感知能力。


技术研发人员:刘松 宋宇飞
受保护的技术使用者:湖南大学
技术研发日:2022.11.21
技术公布日:2023/3/28
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1