一种基于无线信号的多人三维姿态估计方法与流程

文档序号:29351032发布日期:2022-03-22 21:17阅读:394来源:国知局
一种基于无线信号的多人三维姿态估计方法与流程

1.本发明属于无线通信技术领域,涉及一种基于无线信道状态信息进行多人三维姿态估计的方法。


背景技术:

2.在人体姿态估计上,基于相机的姿态估计的方法包括二维甚至三维姿态估计已经相当成熟,但是通过相机这种传统的传感器技术受光照、遮挡以及背景限制明显,而且存在隐私问题。
3.基于无线信号对人体进行感知有着很大的潜力,近几年,无线感知在人类感知方面的研究也有了一些成果,包括行为识别、呼吸检测、目标定位、人群计数等。基于无线信号人类传感的两种基本方法是:一种是基于设备,要求人佩戴或携带设备/传感器;另一种无设备,该设备使用位于环境中的传感元件来监测人类的行动,而不要求人类携带任何设备或传感器。基于设备的方法虽然通常是准确的,但在许多重要的现实生活场景中并不实用或方便,例如要求老年人或痴呆症患者在任何时候都携带设备。无设备的人类传感为这些场景提供了明显的优势。
4.很多研究结果证明无线信号在视频模型的监督下可以很好的完成二维以及三维姿态估计任务。zhao等人提出了rf-pose,这是一种基于编解码器的人体姿态估计深度学习体系结构。其输入信号是发射连续调制频率波(fmcw)的天线阵列,这种信号相比商用wifi虽然能获取到物体离信号所在的距离,但是成本高,无法进行普及。wang等人第一次将商用wifi收集的csi信号进行人体姿态估计,获得人体掩膜,二维关节点和关节有效区域部分(pafs)。guo等人同样使用深度学习从使用多方向接收csi信号获取人体骨架。前面几种方法仅仅获取二维姿态,jiang等人提出了一种从csi信号获取三维姿态的方法,通过使用vicon系统(一种姿态捕获摄像机)来当做标记对csi进行模型训练,直接端到端学习三维姿态模型学习压力大,学习准确度并不高,仍然局限于原地的姿态运动。
5.综上所述,目前现有技术存在的问题如下:基于csi的人体姿态估计大多停留在二维上,在三维姿态估计也仅仅是原地不动情况下进行三维姿态估计并且仅限单人的情况下,而且并不能实现很好的精度。另外csi信号对环境的干扰影响比较大,如果解决环境问题也是一个难点。解决上述问题的难度:如何从csi数据训练出细粒度的三维人体姿态模型;如何实现多人情况下的姿态估计;如何消除环境噪声的影响。


技术实现要素:

6.为了克服已有技术的不足,本发明提供了一种成本较低、精度较高的基于无线信号的多人三维姿态估计方法。
7.本发明解决其技术问题所采用的技术方案是:
8.一种基于无线信号的多人三维姿态估计方法,包括以下步骤:
9.步骤一,使用wifi设备采集信道状态信息csi信号,同时使用相机拍摄对应的视频
进行监督;
10.步骤二,将视频经过alphapose进行处理,输出人体目标框和人体关键点处理生成热力图和目标框图,作为无线信号训练的标注;
11.步骤三,对收集到的信号进行预处理,包括消除两个天线之间的相位偏移、去除csi信号的异常点和环境噪声,去除静态直流分量;
12.步骤四,将预处理完的csi信号与视频帧进行对应,将五个csi数据为一段数据输入csi-2d网络进行训练;
13.步骤五,将csi信号在csi-2d模型输出的热力图和目标框图进行处理,回归出每个人体的二维姿态;
14.步骤六,每个人体二维姿态组成视频帧输入到2d-3d模型并结合二维坐标,生成多人三维姿态。
15.进一步,所述步骤一的过程如下:
16.1.1在会议室环境中布置收发设备和摄像头,使用两台装有intel5300网卡的笔记本进行数据收发实验,使用了6根定向天线,将天线3个分成一组,同组天线之间的天线距离为20cm,组成一个类似wifi路由器设备,一组作为发射器(t),另一组作为接收器(r);使用wifi设备发射频率为100hz,30个不同频率的子载波信号可以获取不同频率信号的信号衰减和相位变化以了解传播路径的不同尺度的信息,接收端接收到经过目标反射穿透的3
×3×
30的信道状态信息csi信号。;
17.1.2使用相机拍摄对应的视频,过程为:使用单目rgb摄像头记录20fps视频帧,四个志愿者参与数据采集,分别有多人、单人的数据进行采集,动作做出包括挥手、拍手、走路、踢腿、下蹲、跳、打拳和握手动作,保存时间戳以便与csi信号部分进行对应。
18.再进一步,所述步骤二中,将alphapose输出生成热力图和目标框图的过程为:将视频帧输入alphapose模型中生成17个人体关键点和人体目标框位置坐标,生成的关键点坐标经过高斯模糊处理生成热力图张量;生成的目标框坐标经过多尺度变换,使用4个尺度目标框,将这些多尺度变换的目标框坐标分别放在多个图上生成张量。两个张量将作为csi-2d模型的标注来监督其学习。
19.更进一步,所述步骤三中,对采集数据进行数据预处理过程如下;
20.3.1消除两个天线之间的相位偏移,使用了共轭相乘法来消除相偏:
[0021][0022]
其中,h1(f,t)是天线1的信道状态信息,是天线2的信道状态信息的共轭,h
1,s
(f)和h
2,s
(f)分别是其静态路径部分,k和l为多径数,α
l
(f,t)为l路径上的幅度衰减函数,为多普勒频移函数;
[0023]
3.2消除环境的噪声;
[0024]
首先使用hample异常值滤波器去除原始信号最明显的离群点,异常值去除以后使用高性能的滤波器对高频噪声进行滤除,使用基于非线性小波变换软阈值法,
[0025][0026]
其中,当小波系数w的绝对值大于等于给定阈值thr的时候,小波系数w的绝对值减去阈值并乘以sgn函数,而当小波系数w小于给定阈值thr的时候,小波系数置为0。
[0027]
阈值选择标准使用的是启发式阈值原则,即当信噪比很小时,使用无偏似然估计原则进行去噪,当信噪比很大时,使用固定阈值的方法进行去噪;
[0028]
3.3去除静态直流分量;
[0029]
静态直流分量直很大,但是并不包含所需要的人体运动信息,减去信号均值来消除静态变量。
[0030]
所述步骤四中,将预处理完的csi信号与视频帧进行对应,过程为:视频的帧为20fps,csi信号发射频率为100hz,在采集视频和csi信号记录下时间戳,将视频和csi信号进行对应。
[0031]
所述步骤五中,csi-2d模型训练过程如下:
[0032]
使用学习率为0.06,训练40轮,将数据集划分为训练集:验证集=2:8,优化器采用adam优化器,偏移设置为0.9;
[0033]
csi-2d模型的训练目标是减少与基于视觉的网络模型预测出来的关键点热力图的差异,计算的损失l由多损失构成:
[0034]
l=λ1l
box
+λ2l
jhms

[0035]
其中,使用二分类损失来计算窗口损失l
box
,使用l2损失(平方损失)乘以元素权重来计算联合位置误差l
jhms
,另外设置窗口损失权重系数λ1为0.1,设置联合位置误差损失权重系数λ2为1;
[0036]
l
jhms
计算公式如下:
[0037][0038]
式中即为mse损失公式,表示的是视频标签数据矩阵,表示的是模型生成的矩阵,为元素权重,通过使用matthew权重来实现注意力机制;
[0039]
式中π(
·
)为当函数的值为+1,当函数的值为-1;
[0040]
将输入的csi张量先进行上采样,然后经过一个残差块和u-nets,输出经过池化层,将box和jhms在同一个网络模型中输出,所以将池化以后的输出进过两个卷积层和bn层输出表示张量,将输出的多尺度box图和热力图进行处理提取出每个人的二维关键点,操作如下:
[0041]
将多尺度box图中通过各个尺度分割出的人体目标框进行评估,评估出最好的作为最终每个人体的目标检测框,然后将热力图和单个人体目标框图进行相乘操作提取出单个人体的热力图,最终使用argmax函数回归出关键点坐标:
[0042][0043]
其中,j表示关键点的个数,p表示人数,表示回归出第j个关键点第p个人的坐标位置,表示第j个关键点的热力图,表示第p个人的目标检测框图。
[0044]
所述步骤六中,多人二维坐标生成多人3d坐标的过程为:将单人二维坐标序列经过归一化处理,输入到2d-3d模型中,生成单人三维坐标,联合单人二维坐标和单人三维坐标,最终在同一个三维坐标系中生成多人三维人体骨架。
[0045]
本发明提出了一种新的csi信号进行多人三维姿态估计方法,将信号经过数据预处理,在视频二维姿态估计深度学习模型监督下进行无线网络二维姿态和人体目标框联合训练,将输出二维姿态结合视频帧经过预训练好的三维姿态模型输出可移动的三维姿态骨架。
[0046]
wifi信号进行人体姿态估计将可以很好的应用到市场中,包括对一些行动不方便的病人或者老人的活动检测和生活辅助,使用wifi信号可以很好的避开一些隐私问题;对在杂物丛生的环境下将人体应用到游戏、动画、ar中;另外可以在昏暗环境中对人体进行检测。可以满足低成本和高精度的要求。
[0047]
本发明的有益效果主要表现在:
[0048]
1、使用商用wifi实现二维以及三维多人姿态估计,这种方法成本低,仅需wifi设备就能实现,精度高;
[0049]
2、本发明使用多尺度目标框,解决了多人交互时一个人关键点占用另一个空间的技术问题,从而提高了多人目标分割过程中多人交互时的准确度;
[0050]
3、本发明在生成三维姿态方面,三维部分联合二维关节点、位置以及视频帧对动作进行平滑处理从而提高模型的精度,减轻了直接进行端到端学习模型的压力;
[0051]
4、本发明在二维姿态识别上舍弃了关键点亲和场(pafs),而是通过结合人体目标框来提高模型的实时性;本发明采集了数据集包括挥手、拍手、走路、踢腿、握手、下蹲、跳、打拳8个动作,四个志愿者参加,分单人和多人的视频和csi数据。
附图说明
[0052]
图1是本发明实施例提供的基于信道状态信息三维姿态估计的方法流程图;
[0053]
图2是本发明实施例提供的原始csi信号的预处理流程图;
[0054]
图3是csi-2d模块的网络结构图。
具体实施方式
[0055]
下面结合附图对本发明作进一步描述。
[0056]
参照图1~图3,一种基于无线信号的多人三维姿态估计方法,包括以下步骤:
[0057]
步骤一,使用wifi设备采集信道状态信息csi信号,同时使用相机拍摄对应的视频进行监督;
[0058]
步骤二,将视频经过alphapose进行处理,输出人体目标框和人体关键点处理生成热力图和目标框图,作为无线信号训练的标注;
[0059]
步骤三,对收集到的信号进行预处理,包括消除两个天线之间的相位偏移、去除csi信号的异常点和环境噪声,去除静态直流分量;
[0060]
步骤四,将预处理完的csi信号与视频帧进行对应,将五个csi数据为一段数据输入csi-2d网络进行训练;
[0061]
步骤五,将csi信号在csi-2d模型输出的热力图和目标框图进行处理,回归出每个
人体的二维姿态;
[0062]
步骤六,每个人体二维姿态组成视频帧输入到2d-3d模型并结合二维坐标,生成多人三维姿态。
[0063]
如图1所示,本发明实施例提供的基于无线信道状态信息进行多人三维姿态估计的方法,包括以下步骤
[0064]
步骤一,使用wifi设备采集信道状态信息csi信号,过程如下:
[0065]
使用wifi设备发射频率为100hz,30个不同频率的子载波信号可以获取不同频率信号的信号衰减和相位变化以了解传播路径的不同尺度的信息,接收端接收到经过目标反射穿透的3
×3×
30的信道状态信息(csi)信号。
[0066]
使用相机拍摄对应的视频,过程为:
[0067]
使用单目rgb摄像头记录20fps视频帧,四个志愿者参与了数据采集,分别有多人、单人的数据进行采集,动作做出包括挥手、拍手、走路、踢腿、下蹲、跳、打拳、握手等动作,保存时间戳以便与csi信号部分进行对应。
[0068]
步骤二,将alphapose输出生成热力图和目标框图,过程如下:
[0069]
将视频帧输入alphapose模型中生成17个人体关键点和人体目标框位置坐标,生成的关键点坐标经过高斯模糊处理生成热力图张量;生成的目标框坐标经过多尺度变换,本发明使用了4个尺度目标框,将这些多尺度变换的目标框坐标分别放在多个图上生成张,两个张量将作为csi-2d模型的标注来监督其学习。
[0070]
步骤三,对采集数据进行数据预处理,过程如下;
[0071]
3.1消除两个天线之间的相位偏移,使用了共轭相乘法来消除相偏:
[0072][0073]
其中h1(f,t)是天线1的信道状态信息,是天线2的信道状态信息的共轭,h
1,s
(f)和h
2,s
(f)分别是其静态路径部分,k和l为多径数,α
l
(f,t)为l路径上的幅度衰减函数,为多普勒频移函数;
[0074]
3.2消除环境的噪声;
[0075]
首先使用hample异常值滤波器去除原始信号最明显的离群点,异常值去除以后使用高性能的滤波器对高频噪声进行滤除。使用基于非线性小波变换软阈值法,
[0076][0077]
其中,当小波系数w的绝对值大于等于给定阈值thr的时候,小波系数w的绝对值减去阈值并乘以sgn函数,而当小波系数w小于给定阈值thr的时候,小波系数置为0;
[0078]
阈值选择标准使用的是启发式阈值原则,即当信噪比很小时,使用无偏似然估计原则进行去噪,当信噪比很大时,使用固定阈值的方法进行去噪;
[0079]
3.3去除静态直流分量;
[0080]
静态直流分量直很大,但是并不包含所需要的人体运动信息,可以减去信号均值
来消除静态变量;
[0081]
步骤四,将预处理完的csi信号与视频帧进行对应,过程如下:
[0082]
视频的帧为20fps,csi信号发射频率为100hz,在采集视频和csi信号记录下时间戳,将视频和csi信号进行对应;
[0083]
步骤五,csi-2d模型训练过程,过程如下:
[0084]
使用学习率为0.06,训练40轮,将数据集划分为训练集:验证集=2:8,优化器采用adam优化器,偏移设置为0.9;
[0085]
csi-2d模型的训练目标是减少与基于视觉的网络模型预测出来的关键点热力图的差异,计算的损失l由多损失构成:
[0086]
l=λ1l
box
+λ2l
jhms

[0087]
其中,使用二分类损失来计算窗口损失l
box
,使用l2损失(平方损失)乘以元素权重来计算联合位置误差l
jhms
,另外设置窗口损失权重系数λ1为0.1,设置联合位置误差损失权重系数λ2为1;
[0088]
l
jhms
计算公式如下:
[0089][0090]
式中
[0091]
式中即为mse损失公式,表示的是视频标签数据矩阵,表示的是模型生成的矩阵,为元素权重,通过使用matthew权重来实现注意力机制;
[0092][0093]
式中π(
·
)为当函数的值为+1,当函数的值为-1。
[0094]
将输入的csi张量先进行上采样,然后经过一个残差块和u-nets,输出经过池化层,将box和jhms在同一个网络模型中输出,所以将池化以后的输出进过两个卷积层和bn层输出表示张量。将输出的多尺度box图和热力图进行处理提取出每个人的二维关键点,操作如下:
[0095]
将多尺度box图中通过各个尺度分割出的人体目标框进行评估,评估出最好的作为最终每个人体的目标检测框,然后将热力图和单个人体目标框图进行相乘操作提取出单个人体的热力图,最终使用argmax函数回归出关键点坐标:
[0096][0097]
其中,j表示关键点的个数,p表示人数,表示回归出第j个关键点第p个人的坐标位置,表示第j个关键点的热力图,表示第p个人的目标检测框图;
[0098]
步骤六,多人二维坐标生成多人3d坐标,过程如下:
[0099]
将单人二维坐标序列经过归一化处理,输入到2d-3d模型中,生成单人三维坐标,联合单人二维坐标和单人三维坐标,最终在同一个三维坐标系中生成多人三维人体骨架。
[0100]
下面结合实验对本发明实验结果进行详细的描述:
[0101]
一、实验环境和数据采集:在10m*15m的会议室环境中布置收发设备和摄像头,使
用两台装有intel5300网卡的笔记本进行数据收发实验,使用了6根定向天线,将天线3个分成一组,组成一个类似wifi路由器设备,一组作为发射器(t),另一组作为接收器(r),收发天线之间的距离为6m。发射信号以5ghz为中心的记录符合802.11nwifi通信标准的正交频分复用信号(ofdm)wifi信号,有30个子载波,发射频率为100hz,30个不同频率的子载波信号可以获取不同频率信号的信号衰减和相位变化以了解传播路径的不同尺度的信息,接收端接收到经过目标反射穿透的3
×3×
30的信道状态信息(csi)信号。在收集csi信号的同时,在接收端使使用单目rgb摄像头记录20fps视频帧。
[0102]
四个志愿者参与了数据采集,志愿者在分别多人、单人,在收发天线之间做出包括挥手、拍手、走路、踢腿、下蹲、跳、打拳、握手等动作,保存时间戳以便视频帧时间与csi信号收集时间进行对应。
[0103]
二、数据处理:将csi采集工具获得的*.dat文件在matlab数据处理工具中进行数据预处理,具体包括:消除两个天线之间的相位偏移;hample异常值滤波器去除原始信号最明显的离群点;基于非线性小波变换软阈值法去除噪声;去除静态直流分量。
[0104]
三、模型训练:将采集到的csi数据制作成数据集,以训练集:验证集=2:8划分数据集,在训练中使用了具有β1=0.9,β2=0.999的adam优化器。在计算mw权重时中使用了k=1,b=1。这些网络被训练了40轮。
[0105]
本发明在模型评估上通过视频模型生成的二维和三维关节点来作为真实值对整个模型进行评估。
[0106]
表1为本模型在多人数据集上各个关键点在平移、旋转和比例中与真实值对齐后的误差(p-mpjpe)结果,p-mpjpe越低越好;
[0107][0108]
表1
[0109]
关节点序列分别表示:1:中臀;2:左臀;3:左膝;4:左踝;5:右臀:;6:右膝;7:右踝;8:脊柱、9:胸;10:颈;11:头;12:左肩;13:左肘;14:左腕;15:右肩;16:右肘;17:右腕。
[0110]
从表1中可以看出,本发明方法的总体p-mpjpe可以达到30.4mm,相比wipose的37.9mm提高了7.5mm。
[0111]
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1