1.本发明属于生理信号检测,涉及计算机视觉,信号提取,深度学习等技术,具体来说是一种基于通道增强时空注意力网络的端到端远程心率检测方法。
背景技术:2.生理信号测量是医疗保健中至关重要的监测指标。它是由心脏的周期性活动引起的,如心率(hr)。心电图(ecg)和光电容积描记(ppg)信号是两种常用的测量心率的方法。然而,ecg和ppg都属于接触式设备,需要贴在病人的皮肤上进行信号采集,这对于一些特殊群体如婴儿或烧伤病人来说是方便的。因此非接触式的心率检测技术如通过摄像头拍摄人脸视频,从视频中提取受试者心率信息。
3.早期的远程心率检测技术通过计算视频中每帧图像上人脸区域的平均像素得到一条信号,再通过盲源分离技术从该信号中提取出生理信息,最后根据提取的生理信号计算心率值。该技术本质上是一种信号分析技术,不能保证从视频中提取的信号质量,进而使得该方法预测的心率值存在较大误差。
4.由于深度学习方法的流行,其在计算机视觉任务上有着突出性能,因此利用深度学习方法来预测人脸视频的心率值成为主流技术。但是现有的深度学习方法存在许多弊端。一方面,基于非端到端的深度学习方法需要先将视频通过一系列步骤生成指定的特征图,再将特征图输入到深度学习模型中预测心率值,这大大增加了时间消耗。另一方面,基于端到端的深度学习方法多采用3d卷积处理视频数据,使得模型参数量大增,增加了开销。此外,许多方法没有充分利用人脸不同区域的特征信息,从而导致了模型精度较低。
技术实现要素:5.本发明的目的是为了解决现有技术中精度较差的缺陷,提供一种基于通道增强时空注意力网络的端到端远程心率检测方法,以期能实现高精度的rppg信号提取,从而能提高心率检测准确性。
6.本发明为达到上述发明目的,采用如下技术方案:
7.本发明一种基于通道增强时空注意力网络的端到端远程心率检测方法的特点是按如下步骤进行:
8.步骤1、获取一段带有标签ppg信号的人脸视频数据并进行预处理,包括:利用人脸检测方法提取每一帧的人脸区域并进行裁剪,得到裁剪后的人脸区域图像,将每一帧人脸区域图像减去其前一帧的人脸区域图像后计算出差分帧,从而得到一段帧数为n的视频差分帧序列x={x1,x2,...,xi,...,xn}∈rn×c×h×w,其中,xi表示第i帧差分帧,c,h和w分别表示每帧差分帧的通道数,高度和宽度;
9.步骤2、建立通道增强时空注意力模型,包括:2个通道时间注意力模块,2个通道空间注意力模块和rppg估计器;其中,所述通道时间注意力模块依次包含时序交换层,卷积层和全局通道注意力机制层;所述通道空间注意力模块依次包含压缩通道注意力机制层,全
局空间注意力机制层和下采样层;所述rppg估计器包含多层全连接层;
10.步骤2.1、将所述视频差分帧序列x输入第一个通道增强时空注意力模型中,先经过所述通道时间注意力模块的时序交换层的处理后得到时序交叉特征序列t={t1,t2,..,ti,..,tn}∈rn×c×h×w,其中,ti表示第i个包含前后信息的时序特征;
11.所述时序交叉特征t输入所述卷积层中进行特征提取,得到时序融合特征t'∈rn×
cxhxw
;
12.所述时序融合的特征t'输入所述全局通道注意力机制层进行特征提取,得到通道增强的时序注意力特征t”∈rn×c×h×w;
13.步骤2.2、所述通道增强的时序注意力特征t”输入第一个通道空间注意力模块中,并经过所述压缩通道注意力机制层的处理后得到通道编码的空间特征q∈rn×c×h×w;
14.所述通道编码的空间特征q输入所述全局空间注意力机制层进行处理后得到通道增强的空间注意力特征s∈rn×c×h×w;
15.所述时序注意力特征t”与空间注意力特征s相加后得到时空注意力特征p∈rn×c×h×w;步骤2.3、所述时空注意力特征h输入所述下采样层进行池化操作后得到编码后的时空
16.注意力特征p'∈rn×c×h′×w′
,其中,h'=h/2和w'=w/2分别表示池化后的特征的高和宽;
17.步骤2.4、所述编码后的时空注意力特征h'再输入第二个通道增强时空注意力模型中,并按照步骤2.1的过程结果再输入第二个通道空间注意力模块中,并按照步骤2.2和步骤2.3的过程得到最终的增强时空注意力特征p”∈rn×c×h×w,其中c,h和w分别表示经过两个通道增强时空注意力模型后的特征的通道数,高和宽;
18.所述增强时空注意力特征p”∈rn×c×h×w输入所述rppg估计器中,先经过维度变换后得到编码后的增强时空注意力特征p”'∈rn×
(chw)
;chw表示c
×h×
w的乘积;
19.所述编码后的增强时空注意力特征p”'∈rn×
(chw)
输入多层全连接层进行提取,得到rppg信号y∈rn×1;
20.步骤2.5、将所述rppg特征信号y∈r
t
×1进行带通滤波,滤除信号中超过阈值范围的信号,再用功率谱密度函数计算滤波后的信号的最大频率f,从而计算相应的心率;
21.步骤3、离线训练:
22.采用负皮尔逊相关系数作为损失函数,并采用adam优化器对所述损失函数进行最小化求解,从而对通道增强时空注意力模型中的所有参数进行优化,并得到最优时空注意力模型,以所述最优时空注意力模型实现对人脸视频中rppg信号的提取。
23.与已有技术相比,本发明的有益效果体现在:
24.1、本发明利用深度学习技术,提出了一种端到端的远程心率检测方法,通过对rgb摄像头采集的人脸视频进行简单预处理即可输入网络中完成rppg信号估计,并生成心率信息。
25.2、本发明使用的网络框架是基于增强通道时序和通道空间注意力结构对视频序列进行时序信息建模,相比其他基于卷积操作和transformer架构的深度学习方法,本发明具有参数量低的特点,属于轻量级模型方法。
26.3、本发明提出的通道增强时空注意力模块,通过特征的通道维连接时序信息和空
间信息,能有效进行提取视频序列中rppg信号相关的时空特征信息,提高了远程心率检测的准确度。
附图说明
27.图1为本发明方法流程示意图;
28.图2为本发明通道时间注意力结构图;
29.图3为本发明通道空间注意力结构图;
30.图4为本发明通道增强时空注意力模型结构图。
具体实施方式
31.本实施例中,一种基于通道增强时空注意力网络的端到端远程心率检测方法主要是利用通道时序注意力机制和通道空间注意力机制来提取视频序列中的时空信息,并通过卷积神经网络(cnn)将提取的时空特征编码得到rppg信号,最后将rppg信号经过滤波并计算相应的心率值,如图1所示,是按如下步骤进行:
32.步骤1、获取一段带有标签ppg信号的人脸视频数据,本实例中使用的是公共数据集ubfc-rppg生理信号检测数据集,该数据集包含42个在阳光和室内照明条件下拍摄的rgb人脸视频。这些视频是用罗技c920 hd pro网络摄像头拍摄的,分辨率为640
×
480,30帧/秒,视频长度在1分钟到2分钟左右。标签ppg信号和对应的心率(hr)值由cms50e脉搏血氧仪采集得到,其中ppg信号采集的频率是30hz,时长和对应的视频相等;
33.对人脸视频数据进行预处理包括:利用人脸检测方法提取每一帧的人脸区域并进行裁剪,得到裁剪后的人脸区域图像,具体实施中,对视频的第一帧使用公开人脸识别算法得到包含整个人脸的矩形框的坐标,再使用矩形框裁剪出人脸区域并使用矩形框的坐标对视频其余帧进行人脸区域裁剪,为了减少计算量,对裁剪后的每帧的分辨率进行下采样到36x36,得到最终的视频序列v={v1,v2,...,vi,...,vm},其中m是视频总帧数;
34.将每一帧人脸区域图像减去其前一帧的人脸区域图像后计算出差分帧,计算差分帧视频序列,将视频序列v的每一帧减去前一帧得到差分帧如式(1)所示:
35.v'i=v
i+1-viꢀꢀꢀ
(1)
36.为了扩大训练样本量,采用滑动窗口对差分序列进行分割,滑动窗口的窗宽设为180帧,步长设为15帧,但不限于此值,同时对标签ppg信号采用同样滑动窗口进行分割,得到最终训练样本数据集;
37.从而得到一段帧数为n的视频差分帧序列x={x1,x2,...,xi,...,xn}∈rn×c×h×w,其中,xi表示第i帧差分帧,c,h和w分别表示每帧差分帧的通道数,高度和宽度;在实施例中,n,c,h和w分别是180,3,36,36;
38.步骤2、建立通道增强时空注意力模型,如图4所示,包括:2个通道时间注意力模块,2个通道空间注意力模块和rppg估计器;其中,通道时间注意力模块依次包含时序交换层,卷积层和全局通道注意力机制层;通道空间注意力模块依次包含压缩通道注意力机制层,全局空间注意力机制层和下采样层;rppg估计器包含多层全连接层;
39.步骤2.1、如图2所示,通道时间注意力模块依次由一层时序交换层,一层3x3卷积层,一层tanh激活层以及一层全局通道注意力层组成;利用第一层时序交换层与一层3x3卷
积层对特征进行时序信息建模得到卷积特征,再用全局通道注意力机制来提取卷积特征的通道间信息,得到增强的时序注意力特征;
40.将视频差分帧序列x输入第一个通道增强时空注意力模型中,先经过通道时间注意力模块的时序交换层的处理;将样本x中沿着时间维度n将前三分之一个通道特征前向移动1帧,中间三分之一个通道特征后向移动1帧,剩余的三分之一通道特征保持不变;后得到时序交叉特征序列t={t1,t2,..,ti,..,tn}∈rn×c×h×w,其中,ti表示第i个包含前后信息的时序特征;
41.时序交叉特征t输入32个卷积核尺寸为3x3,步长为1的卷积层中进行特征提取,得到时序融合特征t'∈rn×
cxhxw
;
42.为了充分利用时序融合的卷积特征通道间的信息,重新分配各通道卷积特征的权重,时序融合的特征t'输入全局通道注意力机制层进行特征提取,将时序融合的卷积特征进行维度转换得到f∈r
(nhw)
×c,其中nhw为维度n,h,w三个维度之积;将特征f'i输入两层全连接层进行提取,得到通道注意力特征f'∈r
(nhw)
×c,其模型如下:
43.f'=σ(w
′f·
relu(wf·
f+bf)+b
′f)
ꢀꢀꢀ
(2)
44.式(2)中,σ(
·
)是sigmoid激活函数,relu(
·
)是relu激活函数,wf,bf表示第一层的全连接层的权值和偏置,w'f,b'f表示第二层的全连接层的权值和偏置;
45.将通道注意力特征再次经过维度转换层得到与时序融合的卷积特征相同维度的通道注意力特征f”∈rn×c×h×w,将通道注意力特征与时序融合的卷积特征相乘,得到通道增强的时序注意力特征t”∈rn×c×h×w;在此实例中通道增强的时序注意力特征为t”∈r
180
×
32
×
36
×
36
;
46.步骤2.2、如图3所示,通道空间注意力模块由编码解码通道注意力机制层和编码解码空间注意力层以及平均池化层,dropout层组成,对输入特征进行空间信息提取与特征编码;
47.步骤2.2.1、为了提取通道编码的空间特征信息,通道增强的时序注意力特征t”输入第一个通道空间注意力模块中,并经过压缩通道注意力机制层的处理后得到通道编码的空间特征q∈rn×c×h×w;
48.对通道增强的时序注意力特征t”∈rn×c×h×w进行编码解码通道注意力特征提取,将样本特征的通道特征进行编码解码提取深度通道注意力特征。将特征t”∈rn×c×h×w进行维度转换得到t”'∈r
(nhw)
×c,再输入包含一层隐藏层的多层感知机中进行提取,其中隐藏层为编码层将输入特征的c个通道编码为c/r个通道,本实施例中c为32,r为2,再将编码的特征输入解码层将c/r个通道解码为c个通道,模型如下:
49.t
″″
=σ(decoder(relu(encoder(t
″′
))))
ꢀꢀꢀ
(3)
50.式(3)中,σ(
·
)是sigmoid激活函数,relu(
·
)是relu激活函数,encoder和decoder分别表示编码的全连接层和解码的全连接层。将编码解码的特征t
””
再次经过维度转换层得到与对通道增强的时序注意力特征t”∈rn×c×h×w相同维度的特征并与通道增强的时序注意力特征t”∈rn×c×h×w相乘得到通道编码的空间特征q∈rn×c×h×w,在此实例中通道编码的空间特征为q∈r
180
×
32
×
36
×
36
;
51.步骤2.2.2、为了提取增强的空间注意力特征,通道编码的空间特征q输入全局空间注意力机制层进行处理后得到通道增强的空间注意力特征s∈rn×c×h×w;
52.通道编码的空间特征为q∈rn×c×h×w输入全局空间注意力层提取深度空间注意力特征。全局空间注意力层依次包含第一层7x7卷积层,batchnorm层,relu激活层,第二层7x7卷积层以及一层batchnorm层;
53.将通道编码的空间特征为q∈rn×c×h×w首先输入c/r个卷积核尺寸为7x7,步长为1的卷积层,将输入特征的c个通道压缩为c/r个通道,但不限于此值,再依次输入batchnorm层和relu层得到空间信息编码特征q'∈rn×
c/r
×h×w,其模型如下:
[0054][0055]
式(4)中,bn是batchnorm层,和分别是7x7卷积层的权值和偏置;
[0056]
再将空间信息编码特征c'输入第二层7x7卷积层以及一层batchnorm层并利用sigmoid函数进行激活得到全局空间注意力特征q”∈rn×c×h×w,模型如下:
[0057][0058]
式(5)中,和分别是7x7卷积层的权值和偏置;将全局空间注意力特征与通道编码的空间特征为q∈rn×c×h×w相乘得到通道增强的空间注意力特征集s∈rn×c×h×w,在此实例中通道增强的空间注意力特征集s∈r
180
×
32
×
36
×
36
;
[0059]
时序注意力特征t”与空间注意力特征s相加后得到时空注意力特征p∈rn×c×h×w;
[0060]
步骤2.3、为了降低参数,提高空间特征信息感受野,时空注意力特征p输入下采样层进行池化操作,下采样层的窗口尺寸为2x2,步长为2,后得到编码后的时空注意力特征p'∈rn×c×h′×w′
,其中,h'=h/2和w'=w/2分别表示池化后的特征的高和宽;在本实施例中,编码后的时空注意力特征为p'∈r
180
×
32
×
18
×
18
,为了防止模型训练时过拟合,在平均池化层后加入一层dropout层;
[0061]
步骤2.4、编码后的时空注意力特征p'再输入第二个通道增强时空注意力模型中,并按照步骤2.1的过程结果再输入第二个通道空间注意力模块中,并按照步骤2.2和步骤2.3的过程得到最终的增强时空注意力特征p”∈rn×c×h×w,其中c,h和w分别表示经过两个通道增强时空注意力模型后的特征的通道数,高和宽,在此实例中最终的增强时空注意力特征为p”∈r
180
×
64
×9×9;
[0062]
增强时空注意力特征p”∈rn×c×h×w输入rppg估计器中,先经过维度变换后得到编码后的增强时空注意力特征p”'∈rn×
(chw)
;chw表示c
×h×
w的乘积;在此实例中编码后的的增强时空注意力特征为p”'∈r
180
×
5184
;
[0063]
编码后的增强时空注意力特征p”'∈rn×
(chw)
输入多层全连接层进行提取,其中包含第一层全连接层,将5184维特征映射到128维特征,再经过一层relu激活层,然后输入第二层全连接层将128维特征映射到1维特征,得到rppg信号y∈rn×1;其模型为:
[0064]
y=w
′
fc
·
relu(w
fc
·
p”'+b
fc
)+b
′
fc
ꢀꢀꢀ
(6)
[0065]
式(6)中,relu(
·
)是relu激活函数,w
fc
,b
fc
表示第一层的全连接层的权值和偏置,w'
fc
,b'
fc
表示第二层的全连接层的权值和偏置;
[0066]
步骤2.5、将rppg特征信号y∈r
t
×1进行带通滤波,滤除信号中超过阈值范围的信号,再用功率谱密度函数计算滤波后的信号的最大频率f,从而计算相应的心率;
[0067]
步骤3、离线训练:
[0068]
采用负皮尔逊相关系数作为损失函数,并采用adam优化器对损失函数进行最小化
求解,从而对通道增强时空注意力模型中的所有参数进行优化,并得到最优时空注意力模型,以最优时空注意力模型实现对人脸视频中rppg信号的提取。