一种基于支持向量机的医疗影像检查疾病分类方法
【技术领域】
[0001] 本发明涉及医疗影像检查疾病自动分类领域,具体涉及一种基于支持向量机的医 疗影像检查疾病自动分类方法。
【背景技术】
[0002] 随着数字医疗的快速发展,医疗数据成爆炸式增长。以医疗影像信息系统RIS为 例,长年运行积累了大量的检查、随访和会诊记录,其中大部分内容为文本数据。针对这些 海量文本数据,研宄围绕疾病的聚类、分类对于医疗管理决策有着重要意义。
[0003] 目前,对于医疗影像检查的疾病分类,一般是通过影像医生人工分类,由于影像医 生日常诊断繁忙,常常无暇顾及。因此,事后实现自动分类具有应用价值。经过文献检索 可知,霍洪波等在文章 The Automatic Classification Research to Medical Imaging Disease Based on Na'ive Nayesion Algorithm提出了基于朴素贝叶斯算法的影像检查文 本自动分类方法。朴素贝叶斯方法存在不足之处:首先朴素贝叶斯分类法是假设在各个分 类属性之间是相互独立的,而在实际情况下,各类属性之间不可能是相互独立的,这给分类 准确率带来了一定的影响;其次,该方法是假设在无限训练样本存在的情况下建立的,而实 际情况下训练样本不可能无限大。
[0004] 针对朴素贝叶斯分类方法存在的上述问题,本发明采用优化的支持向量机分类方 法,解决小样本训练问题、高维、非线性以及分类精度低等问题。
【发明内容】
[0005] 本发明的目的主要是为了克服常用分类器对样本量、高维以及训练过程存在的问 题,提出了一种优化的支持向量机文本分类方法,解决医疗影像检查基于文本数据的疾病 自动分类。
[0006] 本发明主要按照以下技术方法实现:首先对医疗影像信息系统RIS数据库中的检 查文本用κ-means聚类,生成标准医疗影像疾病语料库,该语料库作为分类器训练样本以 及测试样本。其次,再使用训练样本对支持向量机分类器进行训练,生成分类标准后再使用 该分类模型对分类样本分类。最后针对分类结果存在的不足之处,提出支持向量机分类器 优化的训练过程。
[0007] 本发明的具体步骤是:
[0008] 步骤1 :首先对RIS数据库中的检查文本数据使用k-means聚类方法聚成十大类, 聚成十个类别后,借助国际疾病类型分类标准I⑶-?ο将这十个类别进行疾病类型编码。将 编码后的十大类文本数据作为医疗影像疾病标准语料库,并以此作为分类的训练数据以及 测试数据。K-means聚类的具体步骤可以按照以下步骤来完成:
[0009] 1)对选出的检查文本数据先进行预处理,主要对检查文本数据进行词性的标注, 构成统计词典,对文本数据进行词条切分,并使用中文分词程序ICTCLAS完成分词。
[0010] 2)建立检查文本数据的空间向量并降维。该步骤主要是将检查文本数据转化成计 算机能识别的形式,采用空间向量模型来表示文本信息。由于生成的向量空间模型其维数 一般都很大,需要经过稀疏降维处理。
[0011] 3)检查文本数据聚类处理。采用平面划分的聚类过程如下:
[0012] (1)确定生成的簇的数目k;
[0013] (2)生成k个原始聚类中心S = (S1, s2,…,sn);
[0014] (3)对D中的每个文件φ,依次计算与聚类中心S中Sj的相似度sim(d i,Sj);
[0015] (4)从上面计算出的相似度中选出最大相似度,并将Cli归入到s」中;
[0016] (5)重复(3)、(4)两个步骤若干次,直到所有检查文本数据都完成聚类;
[0017] (6)将聚类完成的十个大类按照国际疾病分类标准ICD-10进行编码并确定其疾 病类型。
[0018] 步骤2 :从十大类检查文本数据中抽取其中一部分记录作为分类的训练模型,而 将剩余的检查文本数据作为测试样本,用于检测分类模型的分类精度。文本分类使用支持 向量机方法,具体建立支持向量机分类器(SVM分类器)过程如下所示:
[0019] 1)检查文本预处理。首先要对训练样本进行文本预处理,由于在文本聚类过程中 已经检查过文本的是否缺失以及是否存在脏数据等情况,故该步骤无需重复以上步骤。只 需使用ICTCLAS汉语分词系统对训练样本进行分词处理。
[0020] 2)检查文本表示。将上述预处理完成的文本转换成计算机能明白的形式,文本表 示模型较多,其优缺点也不相同,本方法中使用的向量空间表示模型。其向量空间模型可以 表不为 V = (ti,W1;!: 2, W2;. · · ;t n, wn)。其中(L,t2, · · ·,tn)表不特征词条,(W1, W2, · · ·,wn) 表示特征词条对应的权重。
[0021] 3)对检查文本中的特征词条进行降维处理,即特征选择处理。特征选择的方法很 多,本方法使用互信息(MI),互信息用于描述两个变量间的相关程度,若两者的相关程度越 高,则其MI值越大,反之则越小。首先计算出所有检查文本中特征词条与类别之间的MI值, 然后设定一个阈值,将大于该阈值的特征词条留下,而删除小于该阈值的特征词条。
[0022] 4)支持向量机分类器的建立。构建SVM分类器方法最关键的是找出一个最优超 平面将样本数据分为两类,最优超平面不仅能将两类正确分开,而且要使分类间距最大。当 分类线性方程为g (X) = W · x+b,对它进行归一化处理使其满足Ig(X) I彡1,当条件等于1 的时候可以求得其分类间隔为2/1 Iwl I,要使分类间隔最大等价于I Iwl I最小。转化为求解
【主权项】
1. 一种基于支持向量机的医疗影像检查疾病分类方法,其特征在于该方法包括以下步 骤: 步骤1 :首先对RIS数据库中的检查文本数据使用k-means聚类方法聚成十大类,聚成 十个类别后,借助国际疾病类型分类标准I⑶-10将这十个类别进行疾病类型编码;将编码 后的十大类文本数据作为医疗影像疾病标准语料库,并以此作为分类的训练数据以及测试 数据; 步骤2 :从十大类检查文本数据中抽取其中一部分记录作为分类的训练模型,而将剩 余的检查文本数据作为测试样本,用于检测分类模型的分类精度;文本分类使用支持向量 机方法: 步骤3 :针对检查文本分类过程中支持向量机分类器的建立过程进行优化; 使用训练样本完成支持向量机分类器的建立后,将剩余的样本作为测试样本来检测分 类器的分类精度;在完成测试集的分类后,通过建立分类结果的混淆矩阵,来判断哪些检查 文本被错分,找出这些错分的文本并将其加入到原属类别的训练样本中,以此来组成新的 训练样本,最后再将新的训练样本通过步骤2来进行训练支持向量机分类器。
2. 根据权利要求1所述的一种基于支持向量机的医疗影像检查疾病分类方法,其特征 在于:步骤1中所述K-means聚类的具体步骤按照以下步骤来完成: 1) 对选出的检查文本数据先进行预处理,主要对检查文本数据进行词性的标注,构成 统计词典,对文本数据进行词条切分,并使用中文分词程序ICTCLAS完成分词; 2) 建立检查文本数据的空间向量并降维;该步骤主要是将检查文本数据转化成计算 机能识别的形式,采用空间向量模型来表示文本信息;由于生成的向量空间模型其维数一 般都很大,需要经过稀疏降维处理; 3) 检查文本数据聚类处理;采用平面划分的聚类过程如下: (1) 确定生成的簇的数目k ; (2) 生成k个原始聚类中心S = (S1, S2,…,sn); (3) 对D中的每个文件屯,依次计算与聚类中心S中的相似度simd,Sj); (4) 从上面计算出的相似度中选出最大相似度,并将Cli归入到^中; (5) 重复(3)、(4)两个步骤若干次,直到所有检查文本数据都完成聚类; (6) 将聚类完成的十个大类按照国际疾病分类标准ICD-10进行编码并确定其疾病类 型。
3. 根据权利要求1所述的一种基于支持向量机的医疗影像检查疾病分类方法,其特征 在于:步骤2中向量机方法,其具体建立支持向量机分类器过程如下所示: 1) 检查文本预处理;首先要对训练样本进行文本预处理,使用ICTCLAS汉语分词系统 对训练样本进行分词处理; 2) 检查文本表示;将上述预处理完成的文本转换成计算机能明白的形式,使用向量空 间表示模型;其向量空间模型表示为V = U1, w1;t 2, w2;. . . ;t n, wn),其中U1, t2, . . .,tn)表 示特征词条,(W1, w2, . . .,wn)表示特征词条对应的权重; 3) 对检查文本中的特征词条进行降维处理,即特征选择处理;特征选择的使用互信 息,首先计算出所有检查文本中特征词条与类别之间的互信息值,然后设定一个阈值,将大 于该阈值的特征词条留下,而删除小于该阈值的特征词条; 4) 支持向量机分类器的建立;构建支持向量机分类器方法最关键的是找出一个最优 超平面将样本数据分为两类,最优超平面不仅能将两类正确分开,而且要使分类间距最大; 当分类线性方程为g(x) =W ·Χ+?3,对它进行归一化处理使其满足|g(x) I彡1,当条件等于 1的时候可以求得其分类间隔为2/1 Iwl I,要使分类间隔最大等价于I Iwl I最小;转化为求 解0(r) = = 的最小值,针对该最优求解,引入Lagrange函数来解决该约束 最优化问题,转化为目标函数: min Z(fr,A,%)=金 |卜『-写 a?·'. + A) - 1] ( 1) 由Lagrange极值定理可以求得最优解Wi"和b #(其中YiG {+1,-1}正表示属于该类, 负表示不属于该类);最后即可得到最优分类函数为: f(x) - sgn(r*·^ + b*) = sgna*YiXi^x + ?*) (2) ?-1 如果f (X)大于O表示该样本属于71类,小于O则表示不属于y i类; 5) 构造多类SVM分类器;采用的是二叉树方法来构造;其主要思想是将第i类作为+1 类,第i+Ι到i+n类为-1类,随着i的递增依次建立多个分类器即可;对待分类样本X时, 从第一个分类器开始,如果大于〇则表示属于第一类并停止决策,否则继续使用第二个分 类器,以此类推直到判断出X所属类别为止。
【专利摘要】本发明公开了一种基于支持向量机的医疗影像检查疾病分类方法。本发明使用K-means聚类完成对检查文本数据的聚类,并将聚类好的检查文本作为SVM分类器的训练集以及测试集,最后针对检查文本的特有情况,对SVM分类器的训练过程使用了一种优化的训练过程,以此来提高SVM分类器的分类效果。
【IPC分类】G06K9-62
【公开号】CN104834940
【申请号】CN201510242216
【发明人】何必仕, 倪杭建, 徐哲
【申请人】杭州电子科技大学
【公开日】2015年8月12日
【申请日】2015年5月12日