一种基于中文医疗主诉分析的临床数据组分类方法与流程

文档序号:19278239发布日期:2019-11-29 22:34阅读:319来源:国知局

本发明涉及机器学习算法与数据挖掘技术领域,特别涉及一种基于中文医疗主诉分析的临床数据组分类方法。



背景技术:

不同的医院、医院的不同等级,院内信息化程度参差不齐,在信息化程度不高的医院内部,各个业务系统存在数据孤岛,院内各系统之间,区域内医院和医院之间,医院和社会公众之间均存在不同程度的数据壁垒。

随着大数据技术的不断发展,在政策和技术的双重推动下,医院有强烈的意愿消除内部的数据壁垒,建立微型、小型医院临床数据中心,对数据的互联互通、医生的科研需求、院内的疾病判断、减少医生误诊率等方面将会有重要的意义。

医生在诊疗过程中,需要很多相关信息的辅助,最重要的信息来源是患者的各种临床检验检查数据组成的数据组。这些检验检测数据组成的数据组,汇入到疾病数据库之后,能够形成疾病辅助决策支持,对医生的工作进一步形成指导,从而准确判断疾病,给出诊疗方案,减少技术上的失误。因此,若能建立数据模型,对各种临床检验检查数据组成的数据组进行分析挖掘,实现对数据组的精准分类,将会大大提高医生的工作效率,对构建院内小型、微型临床数据中心具有重要意义。

基于上述情况,本发明提出了一种基于中文医疗主诉分析的临床数据组分类方法。



技术实现要素:

本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于中文医疗主诉分析的临床数据组分类方法。

本发明是通过如下技术方案实现的:

一种基于中文医疗主诉分析的临床数据组分类方法,其特征在于:包括以下步骤:

第一步,使用机器学习算法对各种临床检验检查数据和医生录入的主诉项组成的数据组进行分析挖掘,获取数据组所隐含的信息和知识;

第二步,根据医院信息系统提供的数据源对医生录入的主诉项内容进行分析处理,结合获取到的数据组隐含的信息和知识,得到数据组的数据分类;

第三步,将数据组存入临床数据中心相关知识库对应的数据类别即可。

所述第一步中,所述使用机器学习算法对各种临床检验检查数据组成的数据组进行分析挖掘,包括中文文本预处理、特征提取、数据建模和知识发现。

所述中文文本预处理包括文本数据清洗、词切分和数据映射。

所述数据清洗是指处理缺失数据与异常值,并剔除掉原始数据中与数据建模无关的数据。

所述词切分是指使用用户自定义的分词词典将各种临床检验检查数据和医生录入的主诉项分别进行分词;所述用户自定义的分词词典采用主诉相关医学词典,并在词切分时加载使用。

所述数据映射是指构建检查及数据分类标准映射表,并使用标准映射表分别对各种临床检验检查数据和医生录入的主诉项进行标准化处理。例:高血压三级(xxx)映射为高血压三级。

所述特征提取包括以下两部分:

第一,加载用户自定义词典对医生录入的主诉项内容进行分词,转换为词向量后提取主诉特征词后,对主诉特征词进行编码转换;

第二,使用特殊符号对各种临床检验检查数据进行切分,过滤掉不含中文的字符项,并使用标准映射表分别对各种临床检验检查数据进行标准化处理;然后加载用户自定义词典将标准化处理后的各种临床检验检查数据进行分词,转换为词向量后提取临床检验检查数据特征词,然后对临床检验检查数据特征词进行编码转换。

所述数据建模是指对已进行编码转换的主诉项内容和各种临床检验检查数据进行建模;数据建模后,将数据模型输出的结果进行再次编码转换为原始集,用以构建主诉项内容、各种临床检验检查数据及数据分类间的规则引擎。

所述第三步中,所述临床数据中心相关知识库对应的数据类别包括疾病类别和检查类别。

本发明的有益效果是:该基于中文医疗主诉分析的临床数据组分类方法,通过使用机器学习相关算法建立数据模型,对各种临床检验检查数据和医生录入的主诉项组成的数据组进行分析挖掘,实现了对数据组的精准分类,不仅能够大大提高医生的工作效率,还对构建院内小型、微型临床数据中心具有重要意义。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

该基于中文医疗主诉分析的临床数据组分类方法,包括以下步骤:

第一步,使用机器学习算法对各种临床检验检查数据和医生录入的主诉项组成的数据组进行分析挖掘,获取数据组所隐含的信息和知识;

第二步,根据医院信息系统提供的数据源对医生录入的主诉项内容进行分析处理,结合获取到的数据组隐含的信息和知识,得到数据组的数据分类;

第三步,将数据组存入临床数据中心相关知识库对应的数据类别即可。

所述医院信息系统提供的数据源来自医院his(hospitalinformationsystem)系统。his是覆盖医院所有业务和业务全过程的信息管理系统,是一种在医院管理和医疗活动中进行信息管理和联机操作的计算机应用系统,英文缩写his。

医院his系统包括以下几个部分:

(1)临床诊疗部分:医生工作站,护士工作站,临床信息系统(clinicalinformationsystem,cis)、放射学信息系统(radiologyinformationsystem,ris)、实验室信息系统(laboratoryinformationsystem,lis)医学影像信息系统pacs(picturearchivingandcommunicationsystems),输血及血库管理系统,手术麻醉管理系统;

(2)药品管理部分:数据准备及药品字典、药品库房管理功能、门急诊药房管理功能、住院药房管理功能、药品核算功能、药品价格管理、制剂管理子系统、合理用药咨询功能;

(3)经济管理部分:门急诊挂号系统,门急诊划价收费系统,住院病人入、出、转管理系统,病人住院收费系统,物资管理系统,设备管理子系统,财务管理与经济核算管理系统;

(4)综合管理与统计分析部分:病案管理系统、医疗统计系统、院长查询与分析系统、病人咨询服务系统;

(5)外部接口部分:医疗保险接口、社区卫生服务接口、远程医疗咨询系统接口。

所述第一步中,所述使用机器学习算法对各种临床检验检查数据组成的数据组进行分析挖掘,包括中文文本预处理、特征提取、数据建模和知识发现。

所述中文文本预处理包括文本数据清洗、词切分和数据映射。

所述数据清洗是指处理缺失数据与异常值,并剔除掉原始数据中与数据建模无关的数据。

所述词切分是指使用用户自定义的分词词典将各种临床检验检查数据和医生录入的主诉项分别进行分词;所述用户自定义的分词词典采用主诉相关医学词典,并在词切分时加载使用。

所述数据映射是指构建检查及数据分类标准映射表,并使用标准映射表分别对各种临床检验检查数据和医生录入的主诉项进行标准化处理。例:高血压三级(xxx)映射为高血压三级。

所述特征提取包括以下两部分:

第一,加载用户自定义词典对医生录入的主诉项内容进行分词,转换为词向量后提取主诉特征词后,对主诉特征词进行编码转换;

第二,使用特殊符号对各种临床检验检查数据进行切分,过滤掉不含中文的字符项,并使用标准映射表分别对各种临床检验检查数据进行标准化处理;然后加载用户自定义词典将标准化处理后的各种临床检验检查数据进行分词,转换为词向量后提取临床检验检查数据特征词,然后对临床检验检查数据特征词进行编码转换。

所述数据建模是指对已进行编码转换的主诉项内容和各种临床检验检查数据进行建模;数据建模后,将数据模型输出的结果进行再次编码转换为原始集,用以构建主诉项内容、各种临床检验检查数据及数据分类间的规则引擎。

所述第三步中,所述临床数据中心相关知识库对应的数据类别包括疾病类别和检查类别。

与现有技术相比,该基于中文医疗主诉分析的临床数据组分类方法,具有以下特点:

1、使用机器学习相关算法构建诊断等相关规则引擎。

2、通过对医院信息系统中的各种临床检验检查数据进行挖掘分析,获取该数据所隐含的信息和知识,并能够对医生录入的主诉项内容进行分析处理得到相应的疾病类别和检查类别,并自动存入对应类别,从而构建起院内小型、微型临床数据中心。

以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1