基于AdaBoost算法的帕金森病冻结步态症状关键特征参数的语音分析方法及系统

文档序号:29566048发布日期:2022-04-09 02:29阅读:177来源:国知局
基于AdaBoost算法的帕金森病冻结步态症状关键特征参数的语音分析方法及系统
基于adaboost算法的帕金森病冻结步态症状关键特征参数的语音分析方法及系统
技术领域
1.本发明属于机器学习领域在医学方面的应用,涉及一种基于adaboost算法的帕金森病冻结步态症状关键特征参数的语音分析方法及系统。


背景技术:

2.帕金森病是仅次于阿尔茨海默病的第二大神经退行性疾病,其主要症状包括运动症状和非运动症状,运动症状包含肌肉僵硬、震颤以及其他一些运动障碍,非运动症状主要包含嗅觉减退、便秘、睡眠行为异常以及抑郁等。这些症状是由大量的多巴胺能神经元的减少而引起的。
3.冻结步态是帕金森病最严重的运动障碍症状之一,指患者企图行走时或前进过程中步伐短暂、突然中止或明显减少,最常见的症状表现为患者起始犹豫,迈步受阻,突然难以行走。冻结步态具有致残性,大部分患者在症状出现平均五年后需要借助轮椅活动,极大地影响患者的生活质量。
4.已有的研究表明,帕金森病和发音障碍之间有一定的病理联系。语音损伤可能是帕金森病最早的征兆之一,其症状表现为讲话缓慢、声音嘶哑、音量低和发音震颤等。这些语音损伤是由于帕金森病患者喉部的,发音的以及呼吸肌肉的控制损失引起的。
5.语音主要通过体内发声器官合作产生,而人体器官之间的合作是由神经元统一协调控制的。帕金森病患者由于相关神经元损失导致无法稳定控制发声器官,使得患者均有不同程度的发声障碍。与健康人相比,帕金森病患者往往不能发出平稳准确的声音。因此可以利用语音信号对帕金森病进行早期症状分析。与传统的帕金森病分析方法相比,利用语音信号来分析帕金森病经济高效,语音的监测是非接触式的,且简单方便。对于发音,可以使用持续的元音/a/、/i/、/o/。持续的元音/a/是最容易发出的,并且经验证明它最能传达临床有用的信息。生理上,元音/a/涉及到声带和声道中各种肌肉的组合,因此它增加了神经问题能够被鉴别出的概率。利用语音信号分析帕金森病时需要通过语音信号处理算法来对待测语音信号进行分析,以提取能够表征帕金森病病理特征的语音特征信息。
6.基于上述情况,通过语音信号处理算法提取出语音特征后,提取得到的语音特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相关性,容易导致维数灾难。特征选择能剔除不相关或冗余的特征,选择出对当前分类任务有用的关键特征,从而达到提高模型精确度,减少模型预测的时间,提供具有一定可解释性的关键特征的目的。之后便可以利用机器学习领域的技术模型进行帕金森病冻结步态症状的分析。


技术实现要素:

7.本发明针对传统的帕金森病冻结步态症状分析困难的问题,提出了一种基于adaboost的帕金森病冻结步态症状关键特征参数的语音分析方法及系统。对采集到的语音信号进行特征提取,并进行可解释特征选择,再结合机器学习中的集成学习算法对帕金森
病患者进行冻结步态的分析,实现帕金森病患者冻结步态症状的可解释关键特征分析,以期及时采取后续的特定治疗策略。
8.为了实现以上目的,本发明方法包括以下步骤:
9.步骤一、采集帕金森病患者持续稳定的元音,记录帕金森病患者是否有冻结步态症状。
10.步骤二、对语音信号进行去噪处理,去除静音片段。
11.步骤三、利用语音信号处理算法提取多种语音特征。
12.利用语音信号处理算法提取语音特征,提取的特征包括:基频轮廓f0_contour、平均基频f0_ave、最小基频f0_min、最大基频f0_max,四个衡量基频变化的特征jitter、rap、ppq、ddp,五个衡量振幅变化的特征shimmer、apq3、apq5、apq11、dda,噪声谐波比nhr、谐波噪声比hnr、循环周期密度熵rpde、趋势波动分析dfa、基因周期熵ppe,以及对特征在梅尔倒谱域进行转换得到的梅尔频率倒谱系数mfcc。
13.步骤四、利用cart算法进行特征选择,筛选出能够有效表征冻结步态症状信息的具有可解释性的关键特征。
14.利用cart算法进行特征选择,具体过程为:
15.数据集d的基尼指数gini(d)的具体公式为:
[0016][0017]
其中pk表示样本点属于第k类的概率,k表示k个分类问题;
[0018]
特征a的基尼指数gini
index
(d,a)定义为:
[0019][0020]
其中v代表特征a有v个可能取值;因此,选择使得划分后基尼指数最小的特征取值作为最优划分特征a
*
,即:
[0021]a*
=argmax
a∈a
gini
index
(d,a)(3)
[0022]
步骤五、训练adaboost模型。
[0023]
步骤六、语音分析:将待测语音的特征向量输入模型,得到待测者冻结步态症状的关键特征参数。
[0024]
本发明还公开了一种基于adaboost算法的帕金森病冻结步态症状关键特征参数的语音分析系统,所述系统包括:
[0025]
语音信号采集模块,用于执行步骤一、语音信号的采集:采集帕金森病患者持续稳定的元音,记录帕金森病患者是否有冻结步态症状;
[0026]
语音信号处理模块,用于执行步骤二、语音信号的预处理:对语音信号进行去噪处理,并去除静音片段;
[0027]
语音特征提取模块,用于执行步骤三、语音特征提取:利用语音信号处理算法提取多种语音特征;;
[0028]
语音特征选择模块,用于执行步骤四、特征选择:利用cart算法进行特征选择,筛选出能够表征冻结步态症状的关键特征;
[0029]
adaboost分类模型训练模块,用于执行步骤五、训练模型:采用决策树作为基分类器训练adaboost分类模型;
[0030]
语音分析模块,用于执行步骤六、语音分析:将待测语音的特征向量输入模型,得到待测者冻结步态症状的关键特征参数。
[0031]
本发明提供的基于adaboost算法的帕金森病冻结步态语音分析方法,其有益效果在于:
[0032]
1、降低了帕金森病患者冻结步态早期分析的成本。因为本发明是通过对语音信号进行特征提取,再利用机器学习方法来进行冻结步态症状分析的,避免了去医院进行诊断的较高费用,而只需要获取语音信号以及帕金森病患者步态特征信息进行模型建立,然后即可进行冻结步态症状早期分析,节省了诊断成本。
[0033]
2、提高了帕金森病冻结步态症状分析的效率。传统帕金森病分析方法是通过医生对患者进行一系列运动、震颤等方面的测试并根据患者表现综合分析患者是否具有帕金森病的冻结步态症状,其患病程度以及可能的病情发展趋势,疾病分析手段复杂且费时。本发明则是通过机器学习方法得到的,并且通过对语音特征进行有效选择,可以降低输入语音特征向量的维度,提高了机器学习算法程序分析效率。
[0034]
3、提供了可靠的帕金森病冻结步态症状关键特征参数分析手段。传统的冻结步态症状分析通过医生对患者进行多项运动和震颤等方面的测试,而由于帕金森病发病早期运动症状并不明显,分析准确性受很大影响。本发明则是利用了语音和帕金森病之间的生理学联系,根据患者的语音,分析早期的冻结步态症状,主观影响小,而且通过cart特征选择,筛选出具有可解释性的关键语音特征,作为医生分析评估病情的参考值。
附图说明
[0035]
图1为本发明的分类器训练流程图;
[0036]
图2为本发明的系统模块框图。
具体实施方式
[0037]
采用以下实验验证本发明的有益效果:
[0038]
本实验选用本发明所采集到的帕金森病患者数据集作为研究对象。该数据集共采集到53位帕金森病患者共212份语音样本。经过去噪预处理后提取多种语音特征。每个样本包含59种语音特征,其中每种语音特征包含7种统计学数值;样本包含一个标签标识步态特征信息,1表示具有冻结步态症状,0表示未出现冻结步态。如图1所示,根据数据集中的属性,基于语音的帕金森病冻结步态分析方法按以下步骤进行:
[0039]
步骤一、采集帕金森病患者持续稳定的元音,记录帕金森病患者是否有冻结步态症状。
[0040]
步骤二、对语音信号进行预处理,包括去噪处理,以及去除静音片段。
[0041]
步骤三、利用语音信号处理算法提取多种语音特征,每个样本包含59种语音特征。
[0042]
步骤四、特征选择:利用cart算法进行特征选择,筛选出能够表征冻结步态症状的关键特征。
[0043]
cart算法的决策树深度设置为5,不纯度计算方法为基尼系数,分枝子节点所需最小样本数设置为3。运行cart算法10次,得到平均情况下选择出的关键特征,其中包括:梅尔频率倒谱系数mfcc的第9和第11个频率范围mfcc_mean_9和mfcc_mean_11、基频轮廓f0_
contour_mean、基频扰动特征ddp、趋势波动分析dfa、shimmer等。
[0044]
将进行特征选择后的数据集分为训练集和测试集。采用五折交叉验证法,将数据集随机划分成五个大小相似的互斥数据子集。每次选择四个子集的并集作为训练集,用来训练决策树模型,余下的一个子集作为测试集,用于测试模型性能。最终得到五组训练/测试集的测试结果的均值,作为模型的性能度量指标。
[0045]
步骤五、训练模型:采用决策树作为基分类器训练adaboost分类模型。
[0046]
在进行模型训练之前,先对训练集和测试集数据进行归一化处理,将所有的数据映射到[0,1]数值范围内。归一化算法的作用是:1、数据集中的各个属性都有实际的物理背景,因此它们的单位和极差各不相同。归一化可以消除单位或数量级的影响,将所有数据都映射到事先规定好的范围内,为后面处理数据提供便利;2、归一化可以使程序运行速度提高,加速收敛;3、奇异样本数据(相对于其他输入样本特别大或者特别小的样本矢量)可能会使训练时间增加,甚至导致算法无法收敛。训练之前进行归一化则可以消除奇异样本数据对训练过程的影响。
[0047]
构建adaboost模型的具体过程为:
[0048]
1)初始化训练数据的权值分布,每一个训练样本开始时都被赋予相同的权重:1/n;
[0049][0050]
其中w
1i
表示第i个训练样本开始时的权重,n表示样本总数;
[0051]
2)进行m次迭代,每次迭代进行以下步骤:
[0052]
a.使用具有权值分布dn的训练数据集进行学习,得到基分类器gm(x):
[0053]gm
(x):χ

{-1,+1}
[0054]
b.计算gm(x)在训练数据集上的分类误差率em:
[0055][0056]
其中gm(xi)表示基分类器gm(x)在训练数据xi上的分类结果,yi表示训练数据xi的真实分类,w
mi
表示第m次迭代时样本xi的权值,p()表示某个事件的概率;《()表示括号内事件为真时结果为1,反之结果为0;
[0057]
c.计算gm(x)的系数,得到基本分类器在最终分类器中的权重αm:
[0058][0059]
其中em表示gm(x)在训练数据集上的分类误差率;
[0060]
d.更新训练数据集的权值分布:
[0061]dm+1
=(w
m+1,1
,w
m+1,2
,

,w
m+1,i
,

,w
m+1,n
)
[0062][0063][0064]
其中w
m+1,i
表示第+个训练样本迭代m次后的更新权重;zm表示规范化因子,exp()表示以自然常数e为底的指数函数;
[0065]
3)组合全部的基分类器,得到最终的分类器,最终的分类结果由全部的基分类器
经过加权投票表决得到:
[0066][0067]
其中f(x)表示各个基分类器的加权组合,g(x)表示最终的分类器,sign()表示符号函数。
[0068]
步骤六、语音分析:将待测语音的特征向量输入模型,得到待测者冻结步态症状的关键特征参数。这里选择100份待测语音样本进行语音分析,得到冻结步态的部分关键特征参数值如下表所示。
[0069][0070][0071]
在选择出关键语音特征后,利用这些特征进行冻结步态症状的早期分析,得到测试准确率为87.6%。
[0072]
图2则给出了本发明的系统模块框图,系统包括:
[0073]
语音信号采集模块;用于执行步骤一、语音信号的采集:采集帕金森病患者持续稳定的元音,记录帕金森病患者是否有冻结步态症状;
[0074]
语音信号处理模块;用于执行步骤二、语音信号的预处理:对语音信号进行去噪处理,并去除静音片段;
[0075]
语音特征提取模块;用于执行步骤三、语音特征提取:利用语音信号处理算法提取多种语音特征;
[0076]
语音特征选择模块;用于执行步骤四、特征选择:利用cart算法进行特征选择,筛选出能够表征冻结步态症状的关键特征;
[0077]
adaboost分类模型训练模块;用于执行步骤五、训练模型:采用决策树作为基分类器训练adaboost分类模型;
[0078]
语音分析模块;用于执行步骤六、语音分析:将待测语音的特征向量输入模型,得到待测者冻结步态症状的关键特征参数。
[0079]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1