本发明属于计算机医疗技术领域,尤其是涉及一种基于卷积神经网络的drgs自动分组方法。
背景技术:
目前人口老龄化、新科学技术的发展,医疗保险基金的后付制容易刺激过度医疗服务、预付制容易造成推诿重病人减少医疗服务等缺陷,造成总卫生费用不断上涨,医疗保险基金的支出也大幅度上涨,许多地区的医保基金面临资金不足的风险。
drgs(diagnosisrelatedgroups,疾病诊断相关分组),是一种病例组合方式,主要依据临床过程相近、费用消耗相似的原则将病例进行分组。根据不同分组的疾病进行付费,针对性的治疗,避免医疗资源的浪费。但由于经济发展及医疗水平的不均衡,各地不同地区人口结构、健康状况、经济发展水平等各不相同,需要建立适应本地特点的分组体系,并根据运行结果调整分组体系。
公开号为cn110289088a的中国专利文献公开了一种基于drgs的大数据智能管理方法及系统,包括:将某地区某医院的全年住院病例的住院病案首页数据放进drg分组器,按照drg分组原则(根据疾病诊断、手术操作、并发症/合并症、年龄、严重程度等)进行分组以获得n个drg组以及每一个drg组的权重数和例数、相应的住院天数和费用分布;计算该医院住院病例总权重数;计算病例组合指数(cmi)值=该医院的总权重数/该医院的总住院病例数;计算第i个drg组的相对权重rwi,分析该院相对权重rwi>2的病例占该院所有病例的比例,该drgi组病例的平均费用表示第i个drg组的平均费用。
公开号为cn107463771a的中国专利文献公开了一种病例分组的方法和系统,包括:获取病例信息,根据病例信息中的主要诊断编码和操作编码将其分入对应的基本组,得到基本组编码和基本组名称;当主要诊断编码对应的主要诊断不属于住院时间影响型,或者,基本组不属于特定基本组时,根据基本组编码和各诊断编码,计算得到各诊断编码对应的诊断复杂性得分;根据各诊断编码对应的诊断复杂性得分,计算得到病例信息对应的疾病复杂指数;根据疾病复杂指数,将病例信息从基本组分入细分组,得到疾病诊断相关分组代码、疾病诊断相关分组名称和疾病诊断相关分组相对权重,完成病例分组。
然而各地区某些病种的分组可能存在争议,用常规方式可能存在不同的分组,因此亟需设计一种可以综合各种实际信息对分组较困难的类别进行划分的方法。
技术实现要素:
为解决现有技术存在的上述问题,本发明提供了一种基于卷积神经网络的drgs自动分组方法,可以综合数据的实际信息对病种进行自动划分。
一种基于卷积神经网络的drgs自动分组方法,包括以下步骤:
(1)收集病例数据并将病例按照主要诊断大类和核心疾病诊断相关分组的方式进行划分,将病例数据划分至各自对应的组别中,作为训练数据集;
(2)对训练数据集中的病例数据进行数字编码处理,将文字描述数据转换为对应的数字形式;
(3)构建卷积神经网络模型并采用步骤(2)得到的数据进行迭代训练,训练过程中,使用k-means聚类方法对卷积神经网络提取的特征向量进行聚类得到k个类别标签,结合类别标签和分类器监督卷积神经网络进行迭代训练;
(4)模型训练完毕后,将待划分的数据进行数字编码后输入到训练完毕的模型中进行分组。
利用本发明的方法,避免了人工特征选取和新增分组类别进行额外标注数据的缺点,对于分组模糊、困难的数据可以进行自动学习分组。
步骤(2)中,进行数字编码处理时,将病理数据数值化并统一转换为0至1范围内,转换公式如下:
其中,vc为当前待计算的数值,vmin、vmax分别为序号中的最小值、最大值。
因数据相对图像信息量较少,流行的网络结构大多层数较深容易造成数据过拟合情况,步骤(3)中,采用3层卷积层的浅层卷积神经网络对数据进行特征提取。
步骤(3)中,卷积神经网络模型的训练过程如下:
(3-1),使用卷积神经网络对编码后的数据进行特征提取。
提取特征使用的卷积计算公式如下:
其中,f(x,y)是输入数据,g(x,y)是卷积核函数,m与n分别为卷积核的长、宽。特征提取目的是综合数据的不同信息,寻找各种信息之间的关联性。
(3-2),将步骤(3-1)卷积神经网络提取特征后的特征向量传入到k-means聚类器中进行分类,使用余弦距离计算两类向量之间的距离,距离较近的划分至一个类簇,用某一类簇所有成员到另一类所有成员之间的最短两点之间的距离度量类簇之间的距离,最终以类簇之间的距离最大为最佳效果,根据聚类效果自动选择对应的k值。
所述的余弦距离的计算公式如下:
其中,a、b是两个不同的特征向量。
(3-3),将步骤(3-2)得到的k个类别作为数据的标签,使用回归模型和损失度量函数对网络的学习效果进行度量,监督神经网络学习,直至网络模型收敛。
因划分的类别可能存在多种,所述的回归模型选择可用于多分类问题的softmax方法,计算方式如下:
其中,zj是第j个神经元的输出量,n是总的类别数量,p(z)j是第j个类别的概率值;模型对于每一个类别都输出一个概率值,n个类别则有n个概率值。
上述的损失度量函数为交叉熵,计算公式如下:
其中,yi为第i个类别的标签,
与现有技术相比,本发明具有以下有益效果:
本发明的方法,通过卷积神经网络与k-means聚类方法相结合,利用卷积神经网络自动提取特征和自动优化的优势,提取各种特征之间的联系,使用聚类方法生成的标签作用到神经网络的分类器中,进而监督神经网络的训练学习,形成自动优化分组效果的方法。对使用常规分组规则较难分组的情况,此方法可以结合实际数据的所有信息进行分组,并且可以在不额外增加工作量的情况下增添数据来优化分组效果。
附图说明
图1为本发明一种基于卷积神经网络的drgs自动分组方法流程示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,一种基于卷积神经网络的drgs自动分组方法,包括以下步骤:
s1,收集病例数据并将病例情况按照主要诊断大类和核心疾病诊断相关分组的方法划分至各自对应的组别中。在本实施例中,训练数据是在核心疾病诊断相关分组的任选一组进行。
s2,对数据进行编码。实际的数据是以文字描述的结构化数据,需要将数据编码为数字形式输入卷积网络进行学习,将数据数值化并统一限定在0至1的范围。
s2-1,本实施中对疾病有无的情况使用0、1方式进行编码;
s2-2,对于就诊科别、血型、手术级别及操作名称等已有标准的数据,通过将各种类别排序,使用0,1,…,n的序号对各类别进行标记,然后将序号数值转换为0至1对应的数值,计算公式如下:
其中vc为当前待计算的数值,vmin、vmax分别为序号中的最小值、最大值。
以血型为例,血型栏一般有a、b、o、ab、不详、未查共6种,可以分别分配序号为1、2、3、4、5、0,a对应的序号为0,b对应的序号为1,转换后的数值分别是0.2、0.4。
s2-3,对于年龄、治疗费用类数据,s2-2中的公式同样适用,不同的是最小值和最大值从待训练的数据集中提取。
s3,构建卷积神经网络对s2得到的数据进行迭代训练,对网络输出的特征信息进行k-means聚类,得到k个类别标签,再结合网络的分类器和类别标签监督神经网络训练。
s3-1,因数据相对图像信息量较少,流行的网络结构大多层数较深容易造成数据过拟合情况,因此实例中选择resnet前3层残差块的网络结构,卷积使用1维卷积核组成的网络对数据进行特征提取,卷积方式可以结合各类数据的信息,具有较好的语义信息,其计算公式如下:
其中,f(x,y)是输入数据,g(x,y)是卷积核函数,m与n分别为卷积核的长、宽。特征提取目的是综合数据的不同信息,寻找各种信息之间的关联性。
s3-2,将s3-1输出的各种特征信息向量传入k-means聚类方法,使用余弦相似度方法度量各种向量之间的距离,优化聚类算法,将特征向量划分为k个类别。
其中k-means的k初始值根据核心疾病诊断相关组的分组规则来确定,如根据分组规则,先期分组疾病及相关操作分组初步划分为9组,若对此分组数据进行训练时k的初始值暂定为9。在聚类方法的计算中再根据聚类效果调整k值。
聚类训练中,通过特征向量之间距离的原则来判断是否为同一个类簇,若两特征向量的距离较小则为同一个类簇,否则为不同的类簇。用某一类簇所有成员到另一类所有成员之间的最短两点之间的距离度量类簇之间的距离,最终以类簇之间的距离最大为最佳效果,计算中使用余弦距离来度量特征向量之间的距离,其计算公式如下:
其中,a、b是两个不同的特征向量。
s3-3,将步骤s3-2得到的k个类别作为数据的标签,使用回归模型和损失度量函数对网络的学习效果进行度量。
因划分的类别可能存在多种,本发明选择可用于多分类问题的softmax方法,其计算公式如下:
其中,zj是第j个神经元的输出量,n是总的类别数量,p(z)j是第j个类别的概率值。模型对于每一个类别都输出一个概率值,n个类别则有n个概率值。
上述的损失度量函数使用交叉熵,其计算公式如下:
其中,yi为第i个类别的标签,
在具体应用时,将待划分的数据进行编码后输入到分类模型中,其自动划分出对应的分组。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。