一种基于语音的焦虑预测模型的生成方法和焦虑预测系统与流程

文档序号:21469641发布日期:2020-07-14 16:54阅读:170来源:国知局
一种基于语音的焦虑预测模型的生成方法和焦虑预测系统与流程

本发明涉及心理学和人工智能领域,更具体地涉及一种基于语音的焦虑预测模型的生成方法和焦虑预测系统。



背景技术:

焦虑症是一种不能控制的、过度的、广泛的、持续的焦虑为特点的慢性疾病,又称为焦虑性神经症,以焦虑情绪体验为主要特征。主要表现为:无明确客观对象的紧张担心,坐立不安,还有植物神经功能失调症状,如心悸、手抖、出汗、尿频等,及运动性不安。焦虑症并非由实际威胁所引起,或其紧张惊恐程度与现实情况很不相称。抗焦虑药物等药物治疗及心理治疗是焦虑症的主要治疗方法。

焦虑症可以说是人群中最常见的情绪障碍了,前不久,《柳叶刀·精神病学》发布了《中国精神障碍患病率的流行病学现况研究》,研究指出:在各类心理、精神疾病中,焦虑症的患病率最高,终生患病率为7.57%。据此估计,全国约有5千万以上的焦虑症患者。世界卫生组织表示,90%的焦虑症患者在35岁以前发病,女性往往多于男性。近些年来,焦虑症患者呈不断上升趋势。据世界卫生组织估算,中国约有4100万人患有焦虑症。所以,焦虑症的识别与治疗值得我们重点关注。调查发现,尽管焦虑症是可以治愈的,但只有36.9%的患者得到治疗。这其中最大的一个障碍是焦虑的识别。

迄今为止,尚无针对焦虑症的特异性检查。目前,焦虑的诊断方法有:(1)通过自我报告的量表筛查和自我诊断,如焦虑自评量表(sas)测评;(2)由专科医生根据病史、家族史、临床症状、病程及体格检查来做诊断。目前关于焦虑症状的评估主要是通过自我报告的量表的方式进行的。但是,自我报告的测评所花费的时间较长,且依赖于被测者的主观配合;由医生综合患者的各类信息作诊断,花费的精力较大、时间较长,容易出现误诊。同时,在需要对焦虑状态长期监测的情况下,要求用户反复且频繁地回答相同的问题也是不可行的。因此,对用户的焦虑状态进行更加便捷,客观,实时评估的需求似乎越来越迫切。

焦虑自评量表(即sas量表,self-ratinganxietyscalesas)由华裔教授zung编制(1971)。从量表构造的形式到具体评定的方法,都与抑郁自评量表(sds)十分相似,是一种分析病人主观症状的相当简便的临床工具。由于焦虑是心理咨询门诊中较常见的一种情绪障碍,所以近年来sas是咨询门诊中了解焦虑症状的常用量表。

sas采用4级评分,主要评定症状出现的频度,其标准为:“1”表示没有或很少时间有;“2”表示有时有;“3”表示大部分时间有;“4”表示绝大部分或全部时间都有。20个条目中有l5项是用负性词陈述的,按上述l~4顺序评分。其余5项(第5,9,13,17,19)注*号者,是用正性词陈述的,按4~1顺序反向计分。

sas的主要统计指标为总分。将20个项目的各个得分相加即得粗分;用粗分乘以1.25以后取整数部份,就得到标准分,或者可以查表作相同的转换。



技术实现要素:

为克服现有技术的上述缺陷,本发明采集用户朗读同一文本的语音,并利用用户的sas量表得分对音频数据进行标注,然后基于神经网络构建焦虑预测模型。利用该焦虑预测模型,构建基于语音的焦虑状态自动预测系统。

根据本发明的一个方面,提出一种基于语音的焦虑预测模型的生成方法,包括:步骤1:采集用户朗读文本的语音和用户的sas量表得分,并用所述得分为所述语音标注;步骤2:提取所述语音的语音特征,并利用神经网络构建焦虑预测模型。

较佳地,在所述步骤2中,包括以下步骤:

s21:设定子语音长度n和窗口x,将所述语音截取为长度为n的子语音

s22:在窗口x下对所述子语音进行加窗切分处理,生成子语音在窗口x下的语音特征;

s23:将子语音分为训练子语音和测试子语音;

s24:将训练子语音在窗口x下的语音特征作为输入,将训练子语音的sas量表得分作为输出,利用神经网络算法构建窗口x下的焦虑预测模型。

较佳地,所述语音特征包括基本特征、基本特征的导数值特征以及在时间窗口长度上基本特征的统计量和导数值特征的统计量,其中,基本特征包括强度、响度、过零率、清浊比率、基频、基频包络、8个线性频谱对,12个梅尔倒谱系数,统计量包括均值、标准差、峰度、偏度、斜率。

较佳地,所述方法还包括:

s25:计算所述测试子语音在窗口x下的语音特征输入所述窗口x下的焦虑预测模型中得到输出结果与所述测试子语音的sas得分之间的差值;

s26:计算窗口x下的焦虑预测模型的平均差值,公式为:平均差值=所述差值/所述测试子语音在窗口x下的数量;

s27:x取1至n-1,重复步骤s22-s26,将平均差值最小的窗口x下的焦虑预测模型作为焦虑预测模型,所述焦虑预测模型的窗口为最优窗口长度。

其中,x也可以采用人工设置的若干小于n的数值。

根据本发明的另一方面,提出一种基于语音的焦虑预测系统,包括:数据采集模块、语音特征提取模块、训练样本构建模块、神经网络训练模块、焦虑预测模型生成模块和预测模块,其中,

所述数据采集模块,用于采集被试的语音;

所述语音特征提取模块,用于接收语音、子语音长度n和窗口长度x,以提取和返回窗口x下的语音特征;

所述训练样本构建模块,用于采集用户的语音和sas量表得分,并将所述语音标注sas量表得分;所述训练样本构建模块还能够将所述用户的语音、子语音长度、窗口长度传送给所述语音特征提取模块,并将返回的子语音根据设定比例划分为训练子语音和测试子语音;

所述神经网络训练模块,基于所述训练子语音,利用神经网络算法构建窗口x下的焦虑预测模型;

焦虑预测模型生成模块,用于生成焦虑预测模型和最优窗口长度;

焦虑预测模块,用于接收被试的语音,将所述被试的语音和最优窗口长度输入所述语音特征提取模块,并将返回的子语音的语音特征传送给所述焦虑预测模型,根据所述焦虑预测模型返回的被试的焦虑状态评分判定被试的焦虑状态。

较佳地,所述语音特征提取模块中,将语音截取为长度为n的子语音,然后进行加窗切分处理,生成子语音在窗口x下的语音特征。

较佳地,所述语音特征包括基本特征、基本特征的导数值特征以及在时间窗口长度上基本特征的统计量和导数值特征的统计量,其中,基本特征包括强度、响度、过零率、清浊比率、基频、基频包络、8个线性频谱对,12个梅尔倒谱系数,统计量包括均值、标准差、峰度、偏度、斜率。

较佳地,所述神经网络训练模块,接收窗口长度值x和训练子语音,将训练子语音在窗口x下的语音特征作为输入,将训练子语音的sas量表得分作为输出,利用神经网络算法构建窗口x下的焦虑预测模型。

较佳地,所述焦虑预测模型生成模块中,接收窗口x下的测试子语音和窗口x下的焦虑预测模型,计算窗口x下测试子语音的语音特征输入窗口x下焦虑预测模型后得到的输出结果与测试子语音的sas得分之间的差值,然后计算窗口x下的焦虑预测模型的平均差值;在所述焦虑预测模型生成模块中,x从1遍历到n-1,获得n-1个窗口x下的焦虑预测模型,选取平均差值最小的窗口x下的焦虑预测模型作为焦虑预测模型;所述焦虑预测模型对应的窗口长度为最优窗口长度。

本发明基于朗读文本语音得到的预测模型,不仅能够实现对当前时刻用户焦虑状况自动有效识别,而且识别精度在高低分组下达到70%以上的准确度,是能够对心理状态进行预警的便捷方式。

附图说明

图1为根据本发明一个实施例的一种基于语音的焦虑预测模型的生成方法的流程示意图;

图2为根据本发明一个实施例的构建焦虑预测模型的方法的流程示意图;

图3为根据本发明一个实施例的基于语音的焦虑预测系统的结构示意图。

为了能明确实现本发明的实施例的结构,在图中标注了特定的尺寸、结构和器件,但这仅为示意需要,并非意图将本发明限定在该特定尺寸、结构、器件和环境中,根据具体需要,本领域的普通技术人员可以将这些器件和环境进行调整或者修改,所进行的调整或者修改仍然包括在后附的权利要求的范围中。

具体实施方式

下面结合附图和具体实施例对本发明提供的基于特定文本朗读语音的焦虑识别方法的和预警系统进行详细描述。

在以下的描述中,将描述本发明的多个不同的方面,然而,对于本领域内的普通技术人员而言,可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言,阐述了特定的数目、配置和顺序,但是很明显,在没有这些特定细节的情况下也可以实施本发明。在其他情况下,为了不混淆本发明,对于一些众所周知的特征将不再进行详细阐述。

在本发明中,被试指待测试者,用户指采集了其语音和sas量表得分的人。

本发明提出了一种基于语音的焦虑预测模型的生成方法,如图1所示,包括以下步骤:步骤1:采集用户朗读文本的语音和用户的sas量表得分,并用所述得分为所述语音标注;步骤2:提取所述语音的语音特征,并利用神经网络构建焦虑预测模型。

在步骤1中,数据采集中的各个数据必须是同口径的,要求具有可比性。如要求用户朗读特定文本,被试也会朗读同样的文本,文本可以是一段中性的风光名胜介绍的短篇,300-500字。数据采集的环境应该尽量保证环境的安静,以保证语音中无噪音。

在基于语音的焦虑识别和预测中,有很多语音,如可以为朗读相同的中性文本、规定提纲的自我介绍、对同一幅图片进行描述等。采集时,使用同一种方式进行,以保证口径相同,具有可比性。

用户朗读后,还要填写sas量表,将量表得分与朗读的语音对应,之后对语音进行子语音截取时,量表得分也会标注到子语音上。

在步骤2中,包括4个步骤,如图2所示,下面具体介绍。

s21:设定子语音长度n和窗口x,将所述语音截取为长度为n的子语音,n、x单位可以为毫秒。由于采集多个用户的语音,因此每个用户的语音都被分成多份,也就是说子语音的数量有多个。

s22:在窗口x下对所述子语音进行加窗切分处理,生成子语音在窗口x下的语音特征。

在一个实施例中,在特征提取上,首先提取25个基本语音特征(强度、过零率、清浊比率、基频、基频包络、8个线性频谱对,12个梅尔倒谱系数),为了表述语音特征的动态变化,对所有语音特征分别计算导数值特征(△),并在窗口切分技术上计算基本语音特征和导数值特征的5个统计量(均值、标准差、峰度、偏度、斜率。共(25+25)*5=250个特征。

加窗处理是现有技术,长度为n的子语音中可以截出很多个x长度的窗,然后在窗口中生成子语音的语音特征。x不同,语音特征就不同,后面会对x的取值进行说明,并比较x不同时如何选取根据x构成的预测模型。

s23:将子语音分为训练子语音和测试子语音;

这个操作将所有用户的子语音分成了训练子语音和测试子语音,上一步中,已经对子语音进行了窗口x下的语音特征提取,所以训练子语音和测试子语音也都包含窗口x下的语音特征,同时,子语音也带着语音的sas量表得分。在一个实施例中,随机选择设定比例(比如80%)的训练样本(即采集的样本,一个样本包括一个用户的语音、该用户的sas量表得分)作为训练数据,剩余的样本作为测试数据。

s24:将训练子语音在窗口x下的语音特征作为输入,将训练子语音的sas量表得分作为输出,利用神经网络算法构建窗口x下的焦虑预测模型。

也就是说,将同一采样时间窗口x的训练数据送入神经网络,训练神经网络系统,即获得神经网络的相关参数,从而得到了窗口x下的焦虑预测模型。根据输入和输出数据训练神经网络的技术是现有技术人员常用的技术,有成熟的框架供编程使用。这样,随着x的不同,就可以得到不同的焦虑预测模型。

在一个实施例中,x遍历[1,n-1],通过上述s22-s24可以得到n-1个不同窗口x下的焦虑预测模型。对每个窗口x下的焦虑预测模型进行如下处理:

s25:计算所述测试子语音在窗口x下的语音特征输入所述窗口x下的焦虑预测模型中得到输出结果与所述测试子语音的sas得分之间的差值;

s26:计算窗口x下的焦虑预测模型的平均差值,公式为:平均差值=所述差值/所述测试子语音在窗口x下的数量.

平均差值最小的窗口x下的焦虑预测模型就是焦虑预测模型,焦虑预测模型对应的窗口长度为最优窗口长度。上述x也可以采用几个预设的值,这样运行速度会加快。

使用时,只需要采集被试的朗读语音,然后根据模型中的n和x,将语音分为子语音,并生成窗口x下的语音特征,再将语音特征输入焦虑预测模型,就可以得到焦虑状态评分,根据规则库判断预测数值是否在安全范围内,如果在安全范围内,则说明该用户心理状态良好,否则说明心理状态异常。规则库采用sas的标准。

在一个实施例中,为了加快计算速度,窗口长度x可以不用遍历的方式,而是采用人工设定的方式。音频长度为6000ms中性文本朗读音频,分别设置x=15ms,x=30ms,x=45ms构建三组样本数据。针对每组样本数据,从中随机选出一些数据作为训练数据,例如80%的样例作为训练数据,也就是8个,剩余的2个作为测试数据。利用训练数据建立焦虑预测的神经网络模型之后,将测试数据输入,得到预测结果,然后计算预测结果与实际sas结果之间的误差,以误差的均值作为焦虑预测模型性能的评估值。针对不同x训练得到3个神经网络,它们的性能评估值分别为0.45,0.23,0.30。通过比较三个不同的x值,选取误差值最小的x=30ms模型为最优焦虑预测模型,也就是最终的焦虑预测模型。

根据本发明的另一方面,提出一种基于语音的焦虑预测系统,如图3所示,包括数据采集模块、语音特征提取模块、训练样本构建模块、神经网络训练模块、焦虑预测模型生成模块和预测模块,其中,

数据采集模块,用于采集被试的语音;

语音特征提取模块,用于接收语音、子语音长度n和窗口长度x,以提取和返回窗口x下的语音特征;

训练样本构建模块,用于采集用户的语音和sas量表得分,并为语音标注sas量表得分;训练样本构建模块还能够将用户的语音、子语音长度、窗口长度传送给语音特征提取模块,并将返回的子语音根据设定比例划分为训练子语音和测试子语音;

神经网络训练模块,基于训练子语音,利用神经网络算法构建窗口x下的焦虑预测模型;

焦虑预测模型生成模块,用于生成焦虑预测模型和最优窗口长度;所述焦虑预测模型的输出为焦虑状态评分;

焦虑预测模块,用于接收被试的语音,将被试的语音和最优窗口长度输入语音特征提取模块,将返回的子语音的语音特征传送给焦虑预测模型,并根据返回的被试的焦虑状态评分判定被试焦虑状态。

语音特征提取模块中,先提取25个基本特征(强度、过零率、清浊比率、基频、基频包络、8个线性频谱对,12个梅尔倒谱系数),为了表述语音特征的动态变化,对所有基本特征分别计算导数值特征(△),并在窗口切分技术上计算5个统计量(均值、标准差、峰度、偏度、斜率)。因此共得到(25+25)*5=250个特征。

神经网络训练模块中,用于通过训练样本构建模块传送的训练子语音训练焦虑预测模型;将同一采样时间窗口长度x的训练子语音用于作为焦虑预测模型的输入,输出为该语音的sas量表得分,从而获得窗口x下的焦虑预测模型。训练子语音带有sas量表得分,以及窗口x下的语音特征。

焦虑预测模型生成模块,用于生成焦虑预测模型;具体来说,接收窗口x下的测试子语音和窗口x下的焦虑预测模型,计算窗口x下测试子语音的语音特征输入窗口x下焦虑预测模型后得到的输出结果与测试子语音的sas得分之间的差值,然后计算窗口x下的焦虑预测模型的平均差值;在所述焦虑预测模型生成模块中,x从1遍历到n-1,获得n-1个窗口x下的焦虑预测模型,选取平均差值最小的窗口x下的焦虑预测模型作为焦虑预测模型;所述焦虑预测模型对应的窗口长度为最优窗口长度,输出为焦虑状态评分。

为了加快计算速度,x也可以采用人工设置的方式,而不必遍历n-1次。

焦虑预测模块,用于接收被试的语音,将该语音和最优采样时间窗口长度输入语音特征提取模块,以生成最优采样时间窗口下的语音特征,将该语音特征输入焦虑预测模型就可以得到被试的焦虑状态评分,对于该分数,可以进一步和判断规则进行比较,从而判断出其心理状态是否异常。判断规则可以为sas标准规则。

最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其他的修改、变化、应用和实施例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1