本发明属于大数据挖掘技术领域,涉及一种针对中医药临床案例信息的大数据挖掘系统。
背景技术:
近年来,中医学领域中积累了大量的病案资料,病案记录中的信息包含很多隐藏的、有价值的医学知识。
而医学数据的网络化与数字化转变使得人工整理数据的方法不再可行,不能满足医疗研究人员的研究需求、更好的保存及使用病案信息。
因此,设计出一种集病案管理模块与数据挖掘模块于一体的数据挖掘系统,用于病案数据挖掘,提取主症状,获得中药配伍规律、挖掘用药与症状的关联关系,寻找症状-证型间的匹配规律,从而辅助医务人员做出合理的诊治方案显得尤为重要。
技术实现要素:
本发明目的在于提供一种针对中医药临床案例信息的大数据挖掘系统,为了克服传统的人工整理数据的方法不再满足医疗研究人员的研究需求及更好的保存、使用病案信息的问题,通过采用c#.net环境以及b/s架构技术进行设计,满足了医疗研究人员的研究需求,以及更好的保存、使用病案信息,为进一步研究中医药临床数据挖掘新规律、新方法奠定了基础。
为解决上述技术问题,本发明采用如下的技术方案:一种针对中医药临床案例信息的大数据挖掘系统,该系统包括:病案管理模块、数据源模块以及数据挖掘模块;其中,所述病案管理模块允许医师录入病案及对病案信息进行检索,并提供数据给所述数据源模块;所述数据源模块负责存储所述病案管理模块提交的数据以及其它外来数据并进行规范化处理;所述数据挖掘模块负责针对所述数据源模块传来的数据进行数据预处理、知识挖掘以及知识分析处理。
进一步地,所述病案管理模块由病案录入子模块以及病案检索子模块组成;其中,病案录入子模块包括基本信息录入与病历录入功能;病案检索子模块主要负责查询并显示病人的病案信息,以及提供按病案号精确查询、按病名查询、按诊治医师查询等功能。
进一步地,所述数据挖掘模块的挖掘过程分:数据预处理、挖掘知识以及知识分析三个阶段。
本发明与现有技术相比具有以下的有益效果:
本发明方案针对传统的人工整理数据的方法不再满足医疗研究人员的研究需求及更好的保存、使用病案信息的问题,通过采用c#.net环境以及b/s架构技术进行设计,满足了医疗研究人员的研究需求,以及更好的保存、使用病案信息,为进一步研究中医药临床数据挖掘新规律、新方法奠定了基础。
附图说明
图1是针对中医药临床案例信息的大数据挖掘系统的整体框架图。
图2是针对中医药临床案例信息的大数据挖掘系统的病案录入及检索流程图。
图3是针对中医药临床案例信息的大数据挖掘系统的数据挖掘模块流程图
具体实施方式
下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。
参照图1,本发明一种针对中医药临床案例信息的大数据挖掘系统,该系统包括:该系统包括:病案管理模块、数据源模块以及数据挖掘模块;其中,所述病案管理模块允许医师录入病案及对病案信息进行检索,并提供数据给所述数据源模块;所述数据源模块负责存储所述病案管理模块提交的数据以及其它外来数据并进行规范化处理;所述数据挖掘模块负责针对所述数据源模块传来的数据进行数据预处理、知识挖掘以及知识分析处理。
参照图2,病案管理模块是基于现实需要设计的,病案管理模块包含两个功能:病案录入与病案检索。病案录入又分为基本信息录入和病历录入,基本信息主要包括:病案号、姓名、性别、职业、名族、婚况、年龄、发病节气、身份证、电话、联系地址、既往史、家族史这十三个属性;病历录入主要是录入病人的病历信息,主要有:病案号、主诉、现病史、诊断、治法、中医四诊信息、实验室检查信息等。病案检索同时也包含打印输出的功能,病案检索主要是查询并显示病人的病案信息,提供按病案号精确查询、按病名查询、按诊治医师查询等。
对于病案录入,创建一个病案号,分别录入基本信息、病例信息,基于已设计的输入信息模板,系统显示需要输入的选项,在输入病案数据时,为进行统一规范化,系统会对一些数据给出提示和默认值。如,时间日期的输入。医生可以分次录入所有数据,并以输入病案号作为标识,方便信息录入与更新。另外建立数据字典表,录入一些规范性的知识,如规范后的中药名与编号、症状与编码、证型与编码等,将其存入数据库中。
对于病案检索,系统提供“精确检索”和“模糊查询”检索两种方式,通过可以设定的不同条件,比如说姓名、年龄、病案号等,输入查询条件,医生可以检索到需要的所有病案信息,系统设定操作权限,医师对他人诊治病案没有修改权限。提供了病案检索功能后,医生可以提前查看病人病案,以便病人预约复诊时能提出更合理的诊疗意见,也可以对自己之前疏忽的地方加以改正,年轻医生也可通过查看有经验医生录入的病案丰富自己的诊断知识。系统支持打印输出。
参照图3,所述数据挖掘模块是基于研究需求设计的,其旨在对病案数据进行知识挖掘,挖掘过程分为以下三个阶段:
数据预处理阶段,在数据预处理过程中,首先通过数据库导入获取数据,然后经数据预处理对病案信息进行整理规范、量化分级等,得到可用数据。主要流程包括:通过“数据清洗”,即对选择的数据进行删除缺省值、删除错误等操作;借助“数据转化”,调用sql语句将医学表达的数据对照知识库中的数据字典表转化为机器学习上可操作的数据。同时系统提供数据横纵向转化功能,处理完后将转化后的数据存入数据挖掘库中,以待后期研究使用。还有一种对数据预处理的方式就是通过粗糙集属性约简算法对数据属性进行约简:调用mibark算法将约简后的属性信息提取出来,存入数据挖掘库中。
挖掘知识阶段中,实现的挖掘功能有:关联规则挖掘,神经网络分类预测,以及其他数据挖掘功能,在数据挖掘知识过程中,选择需要挖掘知识种类,针对已经规范处理后的,症状数据集、证型数据集、中药数据集,分别运用数据挖掘算法,对关联分析知识和神经网络分类预测知识进行挖掘。在关联分析知识挖掘中,调用系统封装的算法文件,通过设置的支持度阈值、置信度阈值参数来获取需要的关联规则。系统将频繁项集及各个频繁项集的统计计数,显示在页面上,关联结果以“前件=>后件支持度置信度”的顺序列表显示。在神经网络分类预测知识挖掘中,根据设定好的参数:误差、学习率、最大迭代次数、各层节点数、训练样本个数等,建立出分类预测模型。然后对选择测试的样本进行预测,系统运行后,输出识别率、识别结果。
在最后的知识分析阶段中,将获得的挖掘知识结合知识库中知识,挖掘出医药方剂配伍规律、症状与用药之间的关联关系以及症状-证型的辨证辨别规律。
针对中医药临床案例信息的大数据挖掘系统设计到的算法有:
基于属性重要性的mibark算法,是一种通过引入决策表的条件类与决策类之间的互信息来衡量属性重要性的属性约简算法。mibark算法描述如下:输入:决策表,其中u表示事务数据集,c表示条件属性,d表示决策属性。输出:属性集b为条件属性集c相对于决策属性集d的一个相对约简。在数据预处理阶段,系统利用该算法来提取哮喘主症状,消除冗余症状,为下一步中医病案数据挖掘做准备。
基于计算机对于位串的快速反应,对apriori算法进行改进:将事物数据库d中的每个事物i用一个位串来表示。出现为1,不出现为0。改进后算法只需扫描一次数据库,生成最初的项位串,对项位串的逻辑“与”操作,通过统计项位串中“1”的个数来确定项支持度计数。
本系统中还采用一种改进的bp神经网络算法,该改进算法通过隐层的竞争学习与学习率的自适应调整来使算法快速收敛,避免陷入局部极小。算法的基本思想:隐层计算完各节点的误差后,对有最大误差的节点的权值进行正常修正,而对其他单元的权值都向相反方向修正;每次算法迭代完以后,计算误差函数的值并与前一次的值进行比较,如果误差函数的值增大,则代表过调了学习率,应在下一次迭代时以一定比率下调学习率,若误差函数的值减小,则代表学习率增幅可以加大。系统在哮喘症状-证型匹配的知识挖掘中,首先采用mibark算法,提取出主症状集,然后再采用改进的bp算法,建立分类预测模型,对测试数据进行分类预测,进而挖掘出哮喘症状与证型之间的匹配规律
以上所述并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。