一种基于异常特征值的室性早搏智能分析方法与流程

文档序号:18198596发布日期:2019-07-17 06:01阅读:233来源:国知局

本发明属于心搏检测分类技术领域,具体涉及一种基于异常特征值的室性早搏智能分析方法。



背景技术:

心电图(electrocardiogram,ecg)是从体表记录心脏每一心动周期所产生的电活动变化的图形,它蕴含了丰富的心脏基本功能和病理信息。因此,其在心脏的安全评测和各种治疗方法的评估等方面具有重大的作用意义,目前是普遍采用的心律失常等多种心脏疾病检查和诊断的重要手段。。期前收缩是临床上最为常见的心律失常,它指的是异位起搏点发出的过早冲动引起的心脏搏动。按起源部位可分为窦性、房性、房室交接处性和室性四种,其中最为普遍和常见的就是室性早搏。

室性早搏的发生与心肌梗死相关的死亡率有关。因此,准确的检测出pvc对于那些可以预防生命危险的病人来说具有重要意义。也因此,最近几年相关pvc的研究成为了比较热门的研究方向。目前,机器学习已经广泛用于医学诊断,用来帮助提高医生诊断治疗的工作效率,让医生能够尽早地诊断出疾病。尽管目前已经开发出用于检测pvc心拍的高度精确的方法,但它们的效率通常伴随着长计算时间和高复杂性。再者,mit-bih心律失常数据库中正常心拍类型要远多于pvc心拍类型,所以他们没有考虑去解决因为数据不平衡问题所导致的一些因素,



技术实现要素:

本发明的目的是克服现有技术的不足而提供一种心电信号分类准确、有效对心电信号进行深度学习分类的基于异常特征值的室性早搏智能分析方法。

本发明的技术方案如下:

一种基于异常特征值的室性早搏智能分析方法,包括以下步骤:

1)、信号预处理,用小波滤波器对原始信号进行去噪处理,之后再通过斜率、幅度和宽度的数字分析来定位qrs复合波,最后再从完整的ecg信号中以r峰为中心进行分割提取单个心拍;

2)、特征提取,选取qrs复合波面积、rr间期和qrs振幅矢量和作为特征参数用于分类器的输入;

3)、模型训练,通过自助法重采样技术,从原始训练样本集中有放回地重复随机抽取k个样本生成新的训练样本集合,然后根据自助样本集生成m个分类树组成随机森林,根据分类树投票多少形成的分数确定新数据的分类结果。

进一步,所述步骤3)中所述随机森林的构建方法包括以下步骤:

s21、从原始训练集中使用bootstraping方法随机有放回采样选出k个样本,共进行tree_m次采样,生成tree_m个训练集;

s22、对步骤s21中tree_m个训练集,分别训练tree_m个决策树模型;

s23、对于步骤s22中单个决策树模型,假设训练样本特征的个数为m,那么每次分裂时根据基尼指数选择最好的特征进行分裂;

s24、每棵决策树都按着步骤s23的过程分裂下去,直到该节点的所有训练样例都属于同一类,在决策树的分裂过程中不需要剪枝;

s25、将生成的多棵决策树组成随机森林,按多棵树分类器投票决定最终分类结果。

进一步,所述随机森林的构件方法还包括构建随机森林分类器。

进一步,所述随机森林分类器的构建方法为使用基于cart决策树来构建随机森林分类器,具体的,所述cart决策树使用基尼指数来选择划分属性。

与现有技术相比,本发明的有益效果是:

本发明对经过信号预处理和特征提取的心电信号通过构建随机森林决策树模型进行模型训练和特征学习,将心电信号进行精确分类,对心电信号中的室性早搏信号进行准确识别,有效提高心律失常等多种异常心电信号的分类识别。

具体实施方式

下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种基于异常特征值的室性早搏智能分析方法,包括以下步骤:

1)、信号预处理,用小波滤波器对原始信号进行去噪处理,之后再通过斜率、幅度和宽度的数字分析来定位qrs复合波,最后再从完整的ecg信号中以r峰为中心进行分割提取单个心拍;

2)、特征提取,选取qrs复合波面积、rr间期和qrs振幅矢量和作为特征参数用于分类器的输入;

3)、模型训练,通过自助法重采样技术,从原始训练样本集中有放回地重复随机抽取k个样本生成新的训练样本集合,然后根据自助样本集生成m个分类树组成随机森林,根据分类树投票多少形成的分数确定新数据的分类结果。

进一步,所述步骤3)中所述随机森林的构建方法包括以下步骤:

s21、从原始训练集中使用bootstraping方法随机有放回采样选出k个样本,共进行tree_m次采样,生成tree_m个训练集;

s22、对步骤s21中tree_m个训练集,分别训练tree_m个决策树模型;

s23、对于步骤s22中单个决策树模型,假设训练样本特征的个数为m,那么每次分裂时根据基尼指数选择最好的特征进行分裂;

s24、每棵决策树都按着步骤s23的过程分裂下去,直到该节点的所有训练样例都属于同一类,在决策树的分裂过程中不需要剪枝;

s25、将生成的多棵决策树组成随机森林,按多棵树分类器投票决定最终分类结果。

进一步,所述随机森林的构件方法还包括构建随机森林分类器。

进一步,所述随机森林分类器的构建方法为使用基于cart决策树来构建随机森林分类器,具体的,所述cart决策树使用基尼指数来选择划分属性。

本实施例中,cart决策树使用“基尼指数”来选择划分属性;假定当前样本集合d中第k类样本所占的比例为pk(k=1,2,...,k),则数据集d的纯度可用基尼值来度量:

gini(d)反应了从数据集d中随机抽取两个样本,其类别标记不一致的概率;以二分类为例,如果所抽取的样本类别为同一类别,则:

如果所抽取的样本类别为两类,并且数量相同,则:

因此,gini(d)越小,则数据集d的纯度越高;

假设离散属性a有v个可能的取值{a1,a2,...,av},若使用a来对样本集d进行划分,则会产生v个分支结点,其中第v个分支结点包含了d中所有在属性a上取值为av的样本,记为dv,根据式(1)计算出dv的基尼值,再考虑到不同的分支结点所包含的样本数不同,给分支结点赋予权重,即样本数越多的分支结点的影响越大,于是属性a的基尼指数定义为:

则在候选属性集合a中,选择那个使得划分后基尼指数最小的属性作为最优划分属性,即

本实施例中,bagging是并行式集成学习方法,它的基本流程是采样出t个含m个训练样本的其它的算法描述如下表:

其中ht表示第t个学习器,dbs是自助采样产生的样本分布。

bagging可以应用于二分类、多分类和回归等任务,这是它的一个优点。除此之外,它还可以将初始训练集中剩下的样本用作验证集来对泛化性能进行“包外估计(out-of-bagestimate)”,需记录每个基学习器所使用的训练样本。令dt表示ht实际使用的训练样本集,令hoob(x)表示对样本x的包外预测,即仅考虑那些未使用x训练的基学习器在x上的预测为

则bagging泛化误差的包外估计为

在对预测输出进行判断时,bagging通常对分类任务使用简单投票法;将hi在样本x上的预测输出表示为一个n维向量其中hi是在类别标记cj上的输出。

绝对多数投票法(majorityvoting)

即若某标记得票过半数,则预测为该标记;否则拒绝预测。

相对多数投票法(pluralityvoting)

即预测为得票最多得标记,若同时有多个标记获得高票,则从中随机选取一个。

加权投票法(weightedvoting)

与加权平均法类似,wi是hi的权重,通常wi≥0,

实验评估

本实施例以准确率(acc)、阳性预测值(ppv)、灵敏度(se)、特异性(sp)以及γ作为算法的评估指标。

以上指标公式以及分类的混淆矩阵如下所示:

γ=se+sp-1(12)

混淆矩阵表

实验与结果分析

不同随机因子的实验结果分析:

由于随机森林具有随机性,当不设置随机因子时,它会产生不同的分类效果。所以在ds2数据集上对rf的不同因子做了实验分析,其结果见下表:

在实验中以2的指数倍增长的速度来研究不同随机因子所造成的影响。很显然在上表中可以看出,当随机因子为4时,rf的性能表现最好,其五个指标值都达到了最高点,分别为99.35%,97.15%,93.67%,99.81%和93.48%。其中acc值和sp值波动范围不大,都不超过0.5%,而另外的三个值波动范围都在3%左右。因此,说明随机因子对该实验结果还是有一定影响力的。

本实施例用acc、ppv、se、sp、γ这五个评估指标,比较了k近邻(knn)、梯度提升树(gbdt)、朴素贝叶斯(nb)、多层感知器(mlp)、决策树(dt)和随机森林(rf)算法在不平衡的二分类数据集(ds2)上性能的差别。其实验结果对比见下表:

表1各种分类器的实验结果分析

从表1中的结果可知,与其他算法相比使用nb算法得到的结果相差较大,如nb的ppv值、se值和γ值分别为63.28%、56.45%、55.83%。说明该算法不适合用于该数据集。结果较好的分别是dt和rf,rf是由多个决策树组合而成,选取投票结果作为最终结果,自然分类效果会好于dt。同样地,gbdt也是由多颗树组成的,它与rf的区别就在于它是由回归树组成,只能串行生长,对于最终的结果而言,采取的是将所有结果累加起来而不是投票的方式;因此,gbdt的分类效果会略差一点。

在表1中可以看出,rf已经有了较高的结果,其acc值为99.35%,ppv值为97.15%,se值为93.67%,sp值为99.81%,γ值为93.48%。但se值和γ值相对acc值、ppv值和sp值偏低。因此,针对此问题做了一些实验。由于44条记录中n远远多于v,所以采取上采样方法,将44条记录中所有的v类型数据按2倍、3倍、4倍的扩展,然后用与ds2中同样的22条记录进行测试,得到的测试数据集分别记为ds2_2v、ds2_3v、ds2_4v。上采样后的数据集中虽然会有很多数据重叠,但由于rf随机性的引入,所以并不用担心过拟合这个问题。根据不同的数据集所做的实验结果见下表:

表2不平衡数据集的实验结果分析

通过实验对比的分析,从上表可知,随着pvc类数据的不断增加,数据间的不平衡差距也越来越小,得到的所有分类器结果也越来越好。与在ds2上的rf结果相比,这次得到了更好的分类效果,acc值从99.35%到99.45%,ppv值从97.15%升到99.20%,se值由93.67%升到98.05%,sp值由99.81%到99.79%,γ值从93.48%升到97.84%。除了acc值与sp值略微变化之外,其他三个结果变动非常大。从而得知,虽然rf可以平衡误差,但当类别比例差别足够大时,数据集不平衡问题依然会对实验造成影响。

尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1