一种基于并行序列通道映射网络的脑电情感识别方法与流程

文档序号:23984392发布日期:2021-02-20 11:34阅读:66来源:国知局
一种基于并行序列通道映射网络的脑电情感识别方法与流程

[0001]
本发明涉及脑电情感识别领域,尤其涉及一种基于并行序列通道映射网络的脑电情感识别方法。


背景技术:

[0002]
随着计算机科学的深入发展,越来越多的学者投入到情感研究领域中,试图让计算机能够像人类一样识别感情。以往的情感分析主要集中在面部表情和语音对话上。然而,无论是面部表情还是对话交流都可以由人类主观控制,为了获取对象准确的实时情感,生理信号就扮演了重要的角色。脑电图(eeg)、眼电图(eog)、心电图(ecg)等生理信号是人体自发产生的,具有较强的不可伪造性。因此,生理信号在捕捉人类真实的情感状态方面更加客观可靠。
[0003]
在所有生理信号中,脑电图信号直接来自于人脑,这意味着脑电图信号的变化可以直接反映人体的情感变化。脑电是人体中枢神经系统中神经元细胞的自发性、节律性电生理活动,脑电信号是大量神经元细胞群的同步活动在大脑皮层和头皮表面的整体反应,可以通过植入或外置电极记录得到。任何神经系统生理或病理性的改变引起的脑功能变化,都会影响神经元的电活动特性,进而反映为脑电信号的变化。许多研究也证实了情感状态与脑电信号在不同脑区之间的相关性。因此,对脑电信号进行深入处理与分析,对人们了解大脑工作机制,研究大脑功能,具有十分重要的意义。
[0004]
目前,脑电情感识别研究主要涉及两个方面:基于手工提取特征的算法和基于深度学习(deep learning,dl)的算法。手工提取特征的算法主要基于信号处理领域中的时频分析,例如:微分熵和功率谱密度。此外,也有研究表明非线性动态特征可以提高脑电情感识别精度。然而,手工制作的特征通常是基于某个数据库设计的,仅在该数据库中表现较好,不具备良好的迁移能力。而且,手工构造的特征提取方法往往无法捕捉到深层次的抽象的脑电特征。
[0005]
近年来,dl在图像分类、视频编码和视觉显著性检测等许多领域中显示出优异的性能。在脑电情感分类任务中,一些基于dl的方法在特征提取方面表现出很大的优势。具有代表性的就是卷积神经网络(convolutional neural network,cnn)和递归神经网络(recurrent neural network,rnn)算法。cnn可以捕获空间特征,但很难提取时间信息。rnn采用随时间推移的顺序处理,长期信息需要在进入当前单元之前按顺序遍历所有单元。这种结构容易导致梯度消失问题。衍生的长短期记忆(long short-term memory,lstm)单元克服了这个问题,但更复杂的线性层需要大量的内存带宽来计算权重。尽管dl方法在脑电情感识别方面取得了很大的进展,但仍有许多问题需要解决。例如,现有的基于特征的dl方法对时间的连续性和电极的相关性信息关注较少。而且cnn-rnn混合网络作为目前提取时空特征的主流网络,在实时性能方面还有待检验。


技术实现要素:

[0006]
本发明提供了一种基于并行序列通道映射网络(parallel sequence-channel projection convolutional neural network,pscp-net)的脑电情感识别方法,本发明有效地解决了特征提取过程中时空信息不足和效率低下的问题,详见下文描述:
[0007]
一种基于并行序列通道映射网络的脑电情感识别方法,所述方法包括:
[0008]
对受试者的eeg数据进行降采样、去除eog伪影和噪声,获取预处理后的基线信号和情感信号;
[0009]
构建一基线滤波器,用于从基线信号中筛选出平稳基线信号,并从情感信号中减去平稳基线信号得到差异信号,作为网络的输入样本;
[0010]
采用在线增强数据的方式,在每一个训练批次中随机选择同类情感的样本,随机交换不定数量的对应通道上的数据;
[0011]
构建由时间流子网络、空间流子网络、融合分类块构成的脑电情感识别网络;
[0012]
根据所述脑电情感识别网络提取人类脑电特征,所述脑电特征包括时间和空间特征。
[0013]
其中,所述从基线信号中筛选出平稳基线信号具体为:
[0014]
从第1条eeg通道中取出3秒基线信号,并转换为键值对(key,value),key用于记录采样点的初始排列顺序,value用于记录采样点的值;
[0015]
根据value的值进行升序排列,并截取出中间的2秒键值对;根据key的值对截取的键值对进行升序排列,恢复到原先的排列顺序,取出value的值作为第1条通道的基线滤波信号f1,重复以上步骤得到平稳基线信号。
[0016]
进一步地,所述在每一个训练批次中随机选择同类情感的样本具体为:
[0017]
在同种情感中随机抽取2个样本并随机选取t对通道进行交换,重复上述步骤h/4或l/4次,保证每个batch中都至少保留一半的原生样本。
[0018]
其中,所述时间流子网络由序列映射层、时间特征融合映射层、时间特征降维映射层组成,每层都采用长度同步的一维卷积核,卷积核的尺寸与当前层传入的序列长度相等,获得完整的上下文连续信息。
[0019]
进一步地,所述空间流子网络由通道映射层、空间特征整合映射层、空间特征降维映射层组成,卷积核的尺寸与当前层传入的通道数量相等;采用当前卷积核同时处理各通道的脑电信号,且电极分布不需要转换为二维网格矩阵。
[0020]
其中,所述融合分类块由三层全连接层和一层softmax层组成,将时间流子网络和空间流子网络提取的特征连接成一个联合时空特征向量并进行分类。
[0021]
本发明提供的技术方案的有益效果是:
[0022]
1、本发明充分利用了多通道脑电信号的时间连续性和空间相关性特征,通过在每个通道上映射整个时间序列来提取时间连续性,在同一时间点映射所有通道来获取空间相关性;
[0023]
2、本发明可以对脑电情感进行准确地识别,这确保了其可以用于技术实践中,如在人机交互中;机器理解人类的情感可以更好地服务人类,情感识别算法对人机交互的发展和应用有重要的价值。
附图说明
[0024]
图1为一种基于并行序列通道映射网络的脑电情感识别方法的流程图;
[0025]
图2为随机交换通道数据增强流程图;
[0026]
图3为并行序列通道映射卷积神经网络(pscp-net)的结构示意图;
[0027]
表1为不同模型在valence和arousal上的性能比较。
具体实施方式
[0028]
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
[0029]
实施例1
[0030]
本发明实施例提供了一种基于并行序列通道映射网络的脑电情感识别方法,如图1所示,该方法包括以下步骤:
[0031]
101:预处理
[0032]
采样频率由512hz降到128hz,用ica(独立成分分析)去除eog伪影。采用4.0-45.0hz的带通滤波器滤除噪声。每个受试者预处理后的eeg数据由40个试次和相应的标签组成。每个试次包含60秒的情绪信号和3秒的试验前基线信号。
[0033]
102:基线滤波
[0034]
本发明实施例提供了一个基线滤波器,该滤波器可以滤除波动较为剧烈的基线信号,保留平稳的基线信号用于基线移除(使用情感信号减去基线信号得到差异信号,作为网络输入)。
[0035]
103:随机交换通道
[0036]
采用在线增强数据的方式,在每一个训练批次(batch)中随机选择同类情感的样本,随机交换不定数量的对应通道上的数据。
[0037]
104:模型结构
[0038]
本发明实施例提出的pscp-net模型包含时间流(temporal stream,ts)子网络、空间流(spatial stream,ss)子网络、融合分类块三部分。两个子网络都分为四层,第一层进行特征映射,中间两层的卷积核数量依次递增以确保提取深度特征,最后一层采取少量的卷积核进行降维处理,加速全连接层的训练速度。模型结构如图3所示。
[0039]
1)ts子网络:由序列映射层、时间特征融合映射层、时间特征降维映射层组成,每层都采用长度同步的一维卷积核,该卷积核的尺寸与该层传入的序列的长度相等,可以获得完全的上下文连续信息。
[0040]
2)ss子网络:由通道映射层、空间特征整合映射层、空间特征降维映射层组成,卷积核的尺寸与该层传入的通道的数量相等。采用此种卷积核可以同时处理各通道的脑电信号,且电极分布不需要转换为二维网格矩阵。
[0041]
3)融合分类块:由三层全连接层和一层softmax层组成,将ts和ss子网络提取的特征连接成一个联合时空特征向量并进行分类。
[0042]
105:技术应用
[0043]
本发明实施例提出的脑电情感识别方法能够有效地提取人类脑电特征,准确地识别大脑情感状态。发本方法具有时间复杂度低,识别准确的优点,可以在实际中得到应用。
应用范围包括:人机交互、疲劳检测和医疗护理等。这些应用可以极大的促进脑电情感相关研究的发展,具有重要的社会价值。
[0044]
实施例2
[0045]
下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍,详见下文描述:
[0046]
201:基线滤波
[0047]
对数据进行基线移除可以帮助网络更好地拟合。deap数据库(本领域技术人员所公知,本发明实施例对此不做赘述)每一个试次都包含3秒基线信号和60秒情感信号,32条eeg通道。模型采用情感信号与基线信号之间的差异信号代替情感信号作为输入。为了放大这种差异,设计了一个基线噪声滤波器来去除波动剧烈的基线信号,具体工作原理如下:
[0048]
首先从第1条eeg通道中取出3秒基线信号,并转换为键值对(key,value),key用于记录采样点的初始排列顺序,value用于记录采样点的值;然后,根据value的值进行升序排列,并截取出中间的2秒键值对;最后,根据key的值对截取的键值对进行升序排列,恢复到原先的排列顺序,取出value的值作为第1条通道的基线滤波信号f1。对于32条eeg通道,重复以上步骤可以得到一个滤波后的基线向量(filtered baseline vector,fbv):
[0049]
fbv=[f1,f2,...,f
32
]
t
∈r
32
×
256
ꢀꢀꢀ
(1)
[0050]
其中,r为实数域,f2为第2条通道的基线滤波信号,以此类推,不做赘述。
[0051]
将情感信号切分为与fbv尺寸相同的多个片段,分别减去fbv,再将这些片段组合为原先的尺寸,得到基线滤波后的差异信号。将差异信号以秒为单位切片,并对每个切片样本使用如下的z-score方程进行标准化:
[0052][0053]
其中,x表示非零元素,μ表示非零元素的均值,σ代表标准差,z表示经过标准化后的元素。
[0054]
202:随机交换通道的数据增强策略
[0055]
当受试者面对相似的情感刺激时,会产生相似的脑电图信号。因此,本发明实施例提出一种随机交换通道策略来扩充训练集。在不改变全脑通道上eeg数据的前提下,通过随机交换同类情感样本间相应的eeg通道,扩展训练集。
[0056]
为了保证交换后的样本和原始样本之间有足够的差异,交换通道的数量应该有一个下限(lower limit,ll)和一个上限(upper limit,ul)。经过实验得到在deap数据库中的取值在[13,22]之内最佳(具体视使用的数据库为准)。
[0057]
使用在线增强的数据扩充方式,如图2所示,在每一个输入到网络中的batch中都包含high和low两种情感,对其进行分类并分别统计两类的样本个数为h和l。从[ll,ul]中生成一个随机种子t表示交换通道的数量。在同种情感中随机抽取2个样本并随机选取t对通道进行交换。重复上述步骤h/4或l/4次,选择除以4作为阈值是为了保证每个batch中都至少保留一半的原生样本。
[0058]
值得注意的是,由于受试者自身因素,不同受试者产生的脑电图信号相差较大。因此,所提出的数据扩充策略只能在同一受试者内部使用。
[0059]
203:pscp-net模型架构及实施细节
[0060]
本发明实施例设计的pscp-net网络由ts子网络、ss子网络和融合分类块组成。具体来说,ts和ss子网络构成一个并行的时空网络,分别通过序列映射层和通道映射层从脑电信号中提取时间和空间表示。利用融合分类块将并行网络生成的特征图矢量化为时空向量,并将其送入全连接层进行分类。图3是所提出的模型结构。
[0061]
1)ts子网络
[0062]
预处理后的eeg样本s
j
=[c1,c2,...,c
32
]
t
∈r
32
×
128
(j∈[1,batchsize])被输送到序列映射层去学习每一条通道上的时间连续性特征。序列映射层采用长度同步卷积核,其核大小等于送入该层的eeg序列的长度。
[0063]
通过长度同步卷积核可以获得完全的上下文连续信息。在第一层,采用256个1
×
128的时间卷积核对每个序列进行映射,并在空间维度上沿一个步长移动。输出映射的形状通过转换层从32
×1×
256转换到32
×
256。
[0064]
然后,分别使用512个1
×
256大小的时间卷积核和1024个1
×
512大小的时间卷积核来学习更高层次的时间表示。
[0065]
最后,使用64个形状为1
×
1024大小的时间卷积核来减少输出在时间维上的长度。经过四层序列映射层后,输入样本s
j
被分解为一个时间特征向量(temporal feature vector,tfv
j
):
[0066]
tfv
j
=conv1d(s
j
),tfv
j
∈r
2048
ꢀꢀꢀ
(3)
[0067]
2)ss子网络
[0068]
样本s
j
被转置为s'
j
=[d1,d2,...,d
128
]
t
∈r
128
×
32
,送入到空间流子网络提取空间相关性特征。该子网络由四层通道映射层组成。每一个通道映射层也采用长度同步卷积核,其核大小等于每层输送的eeg通道的数量。采用长度同步卷积核可以同时处理各通道的脑电信号,且电极分布不需要转换为二维网格矩阵。在第一层,利用64个1
×
32大小的空间卷积滤波器对同一时间点上的所有通道进行映射,并在时间维度上沿一个步长移动。然后,分别采用128个1
×
64大小的空间卷积滤波器和256个1
×
128大小的空间卷积滤波器对空间表示进行整合。在最后一层中,使用16个形为1
×
256的空间卷积滤波器来减少空间维数上的输出长度。经过四层通道映射层后,输入样本s'
j
被展开为一个空间特征向量(spatial feature vector,sfv
j
):
[0069]
sfv
j
=conv1d(s'
j
),sfv
j
∈r
2048
ꢀꢀꢀ
(4)
[0070]
3)融合分类模块
[0071]
融合分类模块通过交叉验证调整参数,实现最终的情感分类。将展开的时间和空间特征向量连接为一个联合时空特征向量(spatial-temporal feature vector,s-tfv
j
):
[0072]
s-tfv
j
=concat[sfv
j
,tfv
j
]∈r
4096
ꢀꢀꢀ
(5)
[0073]
然后,将s-tfv
j
送入到全连接层分类:
[0074]
y
j
=softmax[fc(s-tfv
j
)],y
j
∈r2ꢀꢀꢀ
(6)
[0075]
4)回归
[0076]
该网络是通过反向传播算法迭代训练的,经过一些训练周期后,即可得到训练模型。一个周期指的是来自训练集的每个样本都被训练一遍。模型优化的损失函数采用交叉熵目标函数,其表达式为:
[0077][0078]
其中,和θ表示训练好的模型参数和当前模型的参数,n表示包含k类标签的训练样本数,p
k
是模型输出的第k次预测概率,δ表示指标函数,y
j
和l
k
分别表示预测标签和真实标签,α是权衡正则化权重。
[0079]
5)实施细节
[0080]
bn(batch normalization)层被利用在每个卷积层的后面,将输入映射成正态分布,并调整网络的最佳参数。在每个卷积层和全连层后面,插入relu(rectified linear unit)层作为激活函数。采用权重为10-4
的l2正则化策略,以克服过度拟合问题。使用学习率为10-4
的adam优化器最小化交叉熵损失函数。采用指数衰减算法,衰减率为0.997,以加快收敛速度。batchsize始终保持在32。将受试者的混合数据按7:3的比例分为训练集和测试集。以1000个训练周期(epoch)后10倍交叉验证的平均精度作为最终的分类准确率。
[0081]
204:技术应用
[0082]
本发明实施例可以在人机交互过程中检测情感线索和人的综合情感反应。情感分析作为人工智能发展的一个方向,在越来越多的领域发挥着重要的作用。现实中也已经应用到诸多产品中,比如:
[0083]
1)在交通安全领域,长途火车司机、大巴车司机、火车、高铁驾驶员等经常需要熬夜工作,并且需要一直保持高度集中的状态。如果可以实时地感知驾驶员的情感状态,那么一旦出现意外状况,就可以做到提前提防,避免危险事故的发生。
[0084]
2)在教师授课中,通过捕捉学生的情感状态可以判断学生的注意力是否转移、是否理解课堂知识、以及他们的兴趣爱好,进而让老师可以更好地了解每一个学生的情感状态等,从而提高教学质量。
[0085]
情感识别是人机交互应用的基本要求,其研究具有重要的社会价值。
[0086]
实施例3
[0087]
下面结合具体的实验对实施例1和2中的方案进行可行性验证,详见下文描述:
[0088]
本实验采用deap数据集的eeg数据进行分析。deap数据集由32名健康参与者(50%为女性)的数据组成,他们的平均年龄为26.9岁。每位受试者观看40段60秒长的音乐录影带。在每段视频的最后,会在1到9之间的一个连续表上对valence、arousal、dominance和liking的程度进行自我评估。本实验仅使用了valence和arousal的数据。每个视频包含60秒的情感信号和3秒的试验前基线信号。设置5作为阈值,根据评分将视频分为2类。然后将任务转化为两个二元分类问题,即高/低valence和高/低arousal。
[0089]
如表1所示,该方法在valence和arousal上的平均准确度分别为96.16%和95.89%。其它7种比较方法的性能在72.1%和93.72%之间。结果表明,该方法优于其它7种方法。与其它方法相比,pscp-net采用序列映射和通道映射联合解码脑电信号的时空信息。此外,输入数据经bnf模块放大后特征更加明显,rce数据增强策略保证了模型的健壮性。因此,该方法取得了良好的性能。
[0090]
表1.不同方法在valence和arousal上的性能比较
[0091][0092][0093]
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
[0094]
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0095]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1