一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法

文档序号:34160189发布日期:2023-05-14 19:26阅读:200来源:国知局
一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法

本发明涉及计算机自然语言处理情感分析领域,特别涉及一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法。


背景技术:

1、抑郁症是一种常见的精神疾病,几十年来一直影响着全世界数百万人。instituteof health metrics and evaluation.global health data exchange(ghdx).available:http://ghdx.healthdata.org/gbd-results-tool?params=gbd-api-2019-permalin k/d780dffbe8a381b25e1416884959e88b(cited 2021,october 3).中显示随着covid-19在世界各地的爆发,抑郁症的严重性进一步恶化,全球死亡人数从2018年的2.64亿上升到2021年的2.8亿。抑郁症的患病人数占全球人口的3.76%,占成年人口的5.02%。由于经济成本、隐私问题和精神病医生的严重短缺,导致抑郁症的诊断和治疗在全球许多地方都是遥不可及的,并且这种缺少诊断治疗的现象在低收入国家更加严重,这些国家或地区的精神病医生相对总人口的比率比经济较好的国家低210倍。因此,多达三分之二的抑郁症病例无法得到诊断和治疗。抑郁症会导致睡眠、注意力和幸福感的缺失,从而严重破坏生活质量,在极端的情况下,抑郁症甚至会导致自杀,全球每年有70万人因此丧生。此外,抑郁症也是导致残疾的主要原因。从社会经济学的角度来看,与健康人相比,抑郁症患者每周会多损失4个小时的工作时间,这可能会对个人的生活和总体经济生产造成一定的影响,据估计,全球每年要在抑郁症上花费至少2105亿美元。

2、因此,能够提取诊断出抑郁症来减轻对社会和个人产生这些不良的后果,是十分有必要的。在闵宝权,周爱红,梁丰,等.病人健康问卷抑郁自评量表(phq-9)的临床应用[j].神经疾病与精神卫生,2013(006):569-572.、kurt kroenke,tara w.strine,robertl.spitzer,janet b.w.williams,joyce t.berry,ali h.mokdad,the phq-8as a measureof current depression in the general population,journal of affectivedisorders,volume 114,issues 1–3,2009,pages 163-173以及berndkurtkroenke,kerstindetecting and monitoring depression with a two-itemquestionnaire(phq-2),journal of psychosomatic research,volume 58,issue 2,2005,pages 163-171都提及目前的抑郁症诊断方法包括通过与精神病医生面谈进行临床诊断,以及phq-2、phq-8和phq-9等问卷调查。虽然由精神科医生进行诊断可以检测到更精确的疾病表现和症状,但由于受到精神科医生数量的限制,让医生当面访谈诊断受到限制,使得这个方法缺乏广泛性。与临床诊断方法相比,患者健康问卷的敏感性和特异性较低,在诊断抑郁症时不太实用。以phq-8问卷为例,其敏感性为77%,特异性为62%,明显低于结构化临床访谈的敏感性95%,特异性84%。而且抑郁症的发病机理还在研究中,尤其在临床早期,通过医生也难以进行诊断和治疗。随着人工智能的快速发展,了解抑郁症和日常行为之间的关系有助于早期对抑郁症的诊断,可以有效的减少劳动力成本、临床误诊以及医生的经验判断,此外,心理健康检测和基于云的远程诊断可以通过自动化抑郁诊断系统实现,这为应用自动语音识别技术诊断抑郁症提供了机会,这种方法不仅减少了对人力资源的依赖,而且比亲自筛选更具可扩展性。在过去的十年中,已经开发了许多技术来检测各种精神障碍,包括焦虑、ptsd和阿尔茨海默病。

3、与普通人相比,抑郁症患者通常有不同的面部表情和日常交流情况,如表情呆滞、头部动作异常、说话音调较低、文本语义相对消极等一些特征,由于这些不同模态所体现出的特征,使得多模态结合针对抑郁状态的检测要比相对于单一模态的检测准确率高。


技术实现思路

1、本发明目的在于提出一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法。通过对检测对象的语音、转录文本及视频动作等容易采集的日常行为提取高维特征来检测其抑郁状态有着较高的准确率,既保护了被测对象的隐私又辅助检测出症状。

2、本发明的技术方案为:

3、一种基于多模态深度神经网络对人群抑郁状态辅助检测的方法,包括步骤如下;

4、步骤1):基于音频模态使用特征提取模块提取抑郁状态的高维特征;

5、特征提取模块由多头自注意力网络(ssa)组成,主要由多头自注意力机制结构和前馈神经网络堆叠组成;前馈神经网络包括两层全连接层,第一层全连接层的激活函数是relu,第二层全连接层的激活函数是一个线性激活函数;

6、步骤2):基于文本模态使用双向长短时间记忆网络框架模型提取抑郁状态的高维特征;

7、双向长短时间记忆网络为双向lstm组合的bilstm网络,bilstm网络使用双层的lstm layer;用lstm模型可以很好的捕捉到较长距离的依赖关系,因为lstm通过训练过程可以学到记忆哪些信息和遗忘哪些信息。在传统的递归神经网络模型和lstm模型,信息只能向前传播,所以时间t的状态只取决于时间t之前的文本信息,为了使每一刻都更完整地包含上下文信息,由lstm神经元和双向递归神经网络(birnn)模型组成的bilstm模可以用于捕获上下文信息,bilstm是lstm模型的扩展。

8、步骤3):基于视频模态使用时间分布卷积神经网络模型提取抑郁状态的高维特征;

9、时间分布卷积神经网络模型为两个并行的分支,t-cnn分支为多层结构,包括五个扩张卷积块和四个最大池化层;扩张卷积块用于获取不同感知范围内的信息;最大池化层用于缩小特征分辨率,提取出高维特征;

10、步骤4):融合三种模态中提取的抑郁状态的高维特征,通过自注意力模块输出二进制标签,对人群的抑郁状态检测;

11、通过学习三个模态的特征,对抑郁症的有无进行分类,预测结果只有两种情况,预测的概率分别为p和1-p;使用交叉熵损失函数,定义如下:

12、

13、lce=-[y·log(p)+(1-y)·log(1-p)]   (1)

14、式中m是采用的模态通道,lce是定义的交叉熵损失函数,xm是三通道拼接的多模态特征向量,ωm是自注意力网络中相对xm学习到的权重,y表示样本的标签,有抑郁症为1,无抑郁症为0,p表示样本预测为有抑郁症的概率。

15、所述步骤1)中,具体步骤包括:

16、步骤1.1):音频序列编码

17、使用预训练的wav2vec2.0模型作为wav2vec2.0音频编码模块,用于提取音频片段;bidirectional encoder representations from transformers(bert)是google提出的自然语言处理中的一个预训练方法,是多个transformer的双向叠加,在大型文本语料库上训练通用的‘语言理解’模型,然后将该模型应用在各种下游任务中。

18、通过视频录音记录被测人的音频片段,经过降噪、除杂和去静音的预处理操作后,输入到wav2vec2.0音频编码模块,输出的特征维度为512×帧数;wav2vec2.0音频编码模块包括vq-wav2vec的量化模块和transformer结构;

19、步骤1.2):特征提取模块进行特征提取

20、将wav2vec2.0音频编码模块输出的特征输入到特征提取模块中,其中t和dm分别是输入的长度和维度;特征提取模块对x进行三次投影,得到查询向量q、键向量k和价值向量v,再将q、k和v拆分为h个部分,产生dh个维度特征,其中h为正数,每个部分的特征都经过一个多头自注意力机制结构后输出q′;同时输入的x在经过另一个多头自注意力机制结构后输入到前馈神经网络中,得到一个加权的特征向量并映射为k′和v′,q′、k′和v′输入至下一个多头自注意力结构,输出至最后一层前馈神经网络,得到每个部分的输出特征,将h个维度的输出串联后形成最终输出;特征提取模块映射公式如下:

21、

22、k′,v′=max(0,q′w1+b1)w2+b2   (3)

23、

24、其中w1,w2为可学习权重,b1,b2为偏置。

25、所述步骤2)中,具体步骤包括:

26、2.1):文本序列编码

27、将被测人的音频进行转录,获得文本数据,再经过文本清洗后,输入到bert文本编码模块;bert文本编码模块为经过预训练的bert模型,输入为每个样本的转录文本,输出为1×768的一维特征向量;

28、2.2):双向长短时间记忆网络提取文本的高维特征

29、步骤2.1)得到的一维特征向量输入至双向长短时间记忆网络,一维特征向量首先输入至前层lstm layer中,然后将反向的时间序列输入至后层lstm layer中。

30、所述步骤3)中,具体步骤包括:

31、3.1)通过佩戴传感器采集被测人在受访时间内的头部动作的三维坐标信息,通过录像视频采集被测人在受访时间内的面部关键点的三维坐标信息;

32、将所获得的头部动作和关键点的三维坐标信息读取后获得的特征向量,其中t是时间步长,d为特征维数;

33、3.2)以面部关键点的三维坐标特征向量序列和头部动作三维坐标特征向量序列作为输入,使用时间分布卷积神经网络提取视觉的高维特征;

34、输入面部关键点三维坐标特征向量序列和头部动作三维坐标特征向量序列至两个并行的t-cnn分支进行学习特征;

35、输入t-cnn分支的卷积运算表示为:

36、

37、其中d为扩张因子,k为卷积核大小,b为偏置;采用零填充,保持t-cnn输入输出形状相同。所述扩张因子的倍数是2,用于获取路径上不同时间跨度的时间信息,两条并行的路径通过激活函数连接。

38、所述步骤4)中,具体步骤包括;

39、4.1):整合从三个分支模型中提取的高维特征,得到向量i,并输入至自注意力模块,在处理这些高维特征向量序列时,各个向量之间并不是独立的,由于是从不同模态中所提取的关于抑郁的特征,不同模态向量之间的相关性也不同,需要建立非局部依赖关系,自注意力模块将学习到的特征进行融合,将权重分配给不同的特征通道;得到表示三种模态不同特征重要性的权重矩阵;

40、输入向量i时,自注意力机制的计算过程为:

41、计算融合后向量i的三个向量矩阵即qf,kf,vf矩阵:

42、qf=wqi   (2)

43、kf=wki   (3)

44、vf=wvi   (4)

45、计算注意力分数矩阵a′

46、a=ktqf   (5)

47、a′=softmax(a)   (6)

48、计算输出矩阵o

49、o=vfa′   (7)

50、其中wq,wk,wv是可学习参数。

51、所述步骤2.1)中,输入文本至bert文本编码模块时,先将其编码为模型计算机语言能识别的编码;首先将文本根据词典编码为数字,为token embedding;当输入的文本是两句话时,用[sep]标志分隔,得到segment embedding,前一句对应元素的编码为0,后一句编码为1;当输入的文本元素是位置信息时,为position embedding;三个embedding组合后输入至bert文本编码模块。

52、本发明的有益效果:

53、1)利用三种不同的分支网络针对音频、文本、视频模态提取抑郁高维特征,进行深度融合后进行抑郁状态的检测;

54、2)针对获取抽象的视频模态特征构建多尺度时间分布卷积神经网络提高模态中的高维抑郁状态特征;

55、3)提出基于深度神经网络的三通道多模态网络框架,从不同模态中多角度提取抑郁特征,提高抑郁症检测的准确率;

56、4)将音频特征提取模块、文本双向长短时间记忆网络框架模型及视频时间分布卷积神经网络模型进行结合,通过构建融合网络检测人群抑郁状态。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1