一种基于自我注意力机制的行为识别方法与流程

文档序号:23704226发布日期:2021-01-23 12:26阅读:来源:国知局

技术特征:
1.一种基于自我注意力机制的行为识别方法,其特征在于:包括以下步骤:s01)、连续帧图像读取:以关键帧为首帧图像,读取连续时间序列下的连续帧图像数据,并构建位置编码矩阵;位置编码矩阵是一个维度为[h,w]的全1矩阵,其中h、w表示读取图像的高度和宽度;s02)、基于2d卷积骨干网络进行图像特征提取:将读取的连续帧图像数据的每一帧输入2d卷积骨干网络,获取每一帧的图像特征,并将每一帧的特征图片进行拼接,从而获取连续帧特征图,关键帧图像为连续帧图像数据中的第一帧,则关键帧的特征图取连续帧特征图的第一帧,即key_frame=clip_frame[0],key_frame表示关键帧特征图,clip_frame表示连续帧特征图;s03)、位置编码:将步骤s01的位置编码矩阵按列方向进行逐列累加,获得矩阵x_embed;将步骤s01的位置编码矩阵按列方向进行逐列累加,获得矩阵y_embed;对矩阵x_embed、y_embed进行优化,获得优化后的结果pe
x_embed
,pe
y_embed
,将pe
x_embed
,pe
y_embed
按第3维度进行拼接,并进行维度顺序变换,获得最终的位置编码矩阵;由于关键帧数据与连续帧数据用在相同的图像处理过程,因此设定关键帧位置编码矩阵与连续帧位置编码矩阵相同,即key_mask=clip_mask,key_mask表示关键帧位置编码矩阵,clip_mask表示连续帧位置编码矩阵;s04)、关键帧图像目标位置预测:s41)、使用单层2d卷积网络对关键帧特征图进行通道压缩,使用线性连接层对关键帧位置编码矩阵进行宽高压缩,通道压缩后的关键帧特征图与宽高压缩后的关键帧位置编码矩阵具有相同的维度;s42)、将通道压缩后的关键帧特征图与宽高压缩后的关键帧位置编码矩阵输入关键帧图像目标预测模块,关键帧图像目标预测模块进行关键帧图像目标位置预测;s05)、连续帧动作预测:s51)、使用多层2d卷积网络对连续帧特征图进行通道压缩,使用线性连接层对连续帧位置编码矩阵进行宽高压缩,通道压缩后的连续帧特征图与宽高压缩后的连续帧位置编码矩阵具有相同的维度;s52)、将通道压缩后的连续帧特征图与宽高压缩后的连续帧位置编码矩阵输入连续帧图像动作类别检测模块,连续帧图像动作类别检测模块进行连接帧动作类别预测;步骤s04的关键帧图像目标预测模块与步骤s05的连续帧图像动作类别检测模块具有相同的结构,均包括编码模块和解码模块;编码模块包括m个串联的编码单元,每个编码单元包括1个多角度注意机制模块和1个数据处理模块,第一个编码单元的输入为通道压缩后的关键帧/连续帧特征图、宽高压缩后的关键帧/连续帧位置编码矩阵,后续编码单元的输入为前一个编码单元的输出;解码模块包括k个串联的解码单元和1个前置多角度注意机制模块,每个解码单元包括1个多角度注意机制模块和1个数据处理模块,前置多角度注意机制模块的输入为宽高压缩后的关键帧/连续帧位置编码矩阵、输出编码初始化值,第一个解码单元的输入为前置多角度注意机制模块的输出和编码模块的输出,后续解码单元的输入为前一个解码单元的输出;
上述多角度注意机制模块采用多个平行注意层共同关注来自不同位置的不同表示空间的信息,即对其输入进行多角度注意机制处理,然后通过数据处理模块对多角度注意机制处理后的数据进行残余连接和归一化处理;最终解码器的输出即为预测的关键帧图像目标位置或连续帧图像动作类别。2.根据权利要求1所述的基于自我注意力机制的行为识别方法,其特征在于:多角度注意机制模块的计算过程为:a)、y
multihead
=multihead(q,k,v)=concat(head
1
,head
2
,

,head
h
)w
o
,其中,head
1
,head
2
,

head
h
为h个平行注意层,为可训练权重,d
model
表示位置编码矩阵的通道数,concat(
·
)表示拼接操作,q,k,v为输入数据,对于编码器中第一个编码单元,q和k相等,等于通道压缩后的帧特征图与宽高压缩后的位置编码矩阵的和,v等于通道压缩后的帧特征图,即q=k=key_frame_in+key_mask_in或者q=k=clip_frame_in+clip_mask_in,v=key_frame_in或者v=clip_frame_in,对于编码器的其他编码单元,q、k、v等于前一个编码单元的输出;对于编码器的前置多角度注意机制模块,q和k相等,等于输出编码初始化值与宽高压缩后的位置编码矩阵的和,v等于输出编码初始化值,即q=k=key_frame_c+key_mask_in,或者q=k=clip_frame_c+clip_mask_in,v=key_frame_c或者v=clip_frame_c,对于解码模块的第一个解码单元,q和k相等,等于编码模块的输出,v等于前置多角度注意机制模块的输出,对于解码模块的其他解码单元,q、k、v等于前一个解码单元的输出;其中,key_in表示通道压缩后的关键帧特征图,key_mask_in表示宽高压缩后的关键帧位置编码矩阵,clip_in表示通道压缩后的连续帧特征图,clip_mask_in表示宽高压缩后的连续帧位置编码矩阵,key_frame_c表示关键帧特征图的编码初始化值,clip_frame_c表示连续帧特征图的编码初始化值;b)、每个平行注意层head
i
的计算过程为:其中为可训练权重参数,d
model
表示位置编码矩阵的通道数。3.根据权利要求2所述的基于自我注意力机制的行为识别方法,其特征在于:数据处理模块的计算过程为:y=layernorm(x+sublayer(x)),y表示每个编码单元或解码单元的输出,sublayer(
·
)是一个完全连接的前馈网络,构建前向数据处理模块,layernorm(
·
)表示层归一化处理,x为输入数据,即经过多角度自注
意机制处理后的数据y
multihead
;sublayer(
·
)计算过程表示为:sublayer(x)=max(0,xw
1
+b
1
)w
2
+b
2
,其中,w
1
,w
2
为训练权重,b
1
,b
2
为偏置,为输入数据,即经过多角度自注意机制处理后的数据y
multihead
。4.根据权利要求1所述的基于自我注意力机制的行为识别方法,其特征在于:对矩阵x_embed、y_embed进行优化的过程为:其中dim_t是[0,128)的连续序列,d
model
表示位置编码矩阵的通道数,pe
x_embed
,pe
y_embed
的维度是将pe
x_embed
,pe
y_embed
按第3维度进行拼接,并进行维度顺序变换,获得最终的位置编码矩阵维度为[d
model
,h,w]。5.根据权利要求1所述的基于自我注意力机制的行为识别方法,其特征在于:本方法模型训练过程中的损失函数由三部分组成,分别为loss
giou
目标giou面积损失、目标框位置1范数损失loss
box
、loss
class
类别损失,则整体损失函数可以表示为:loss=w
giou
×
loss
giou
+w
box
×
loss
box
+w
class
×
loss
class
,其中w
giou
,w
box
,w
class
为相应损失权重,基于整体损失函数对模型进行优化。6.根据权利要求1所述的基于自我注意力机制的行为识别方法,其特征在于:关键帧图像目标位置预测模块的输出box的维度为[100,4],即最多可以预测100个目标位置,其中box
i
=[cx
i
,cy
i
,h
i
,w
i
],0≤i<100为第i个目标的中中心点坐标、目标框高度、目标框宽度。7.根据权利要求1所述的基于自我注意力机制的行为识别方法,其特征在于:连接帧图像动作类别预测模块的输出class的维度为[100,nuclass+1],即最多可以预测100个目标位置,numclass为动作类别数。8.根据权利要求1所述的基于自我注意力机制的行为识别方法,其特征在于:m=6。9.根据权利要求1所述的基于自我注意力机制的行为识别方法,其特征在于:k=6。10.根据权利要求1所述的基于自我注意力机制的行为识别方法,其特征在于:步骤s01中连续读取16帧图像数据,连续帧图像数据的维度为[16,3,h,w],3表示读取帧图像为3通道rgb图像,h,w表示网络输入图像的高度和宽度。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1