一种基于知识图谱的病状初步诊断及治疗方法与流程

文档序号:31604806发布日期:2022-09-21 10:13阅读:247来源:国知局
一种基于知识图谱的病状初步诊断及治疗方法与流程

1.本发明涉及医学知识图谱技术领域,具体来说,涉及一种基于知识图谱的病状初步诊断及治疗方法。


背景技术:

2.知识图谱是语义网的技术之一,已成为当前搜索引擎技术发展的一个研究重点。期望通过知识图谱来刻画现实时间中各种实体和概念,以及它们之间的关联。知识图谱将互联网文本中的知识进行抽取,以图的形式构建一个关系网络,为研究者提供“关系”的视角来分析和研究问题。
3.知识图谱作为一种大数据技术,既有可视化的特点,又便于分析实体之间的关系。知识图谱将互联网的海量信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解信息的能力,具有直观、定量、知识发现等诸多优点,适用于研究医疗领域。目前知识图谱的技术已可以应用于智能语义搜索、知识问答以及数据分析决策等方面。
4.电子病历(emr,electronic medical record)是指医务人员在医疗活动过程中,使用医疗机构信息系统生成的文字、符号、图表、图形、数据、影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录使用电子病历。在医院使用电子病历的过程中,积累了大量的病历记录。如何高效率以及高效益的处理好各大医院所收集的海量医学数据是每一个从事医疗健康行业的企业所急切关注的问题。因此,本发明提出了一种基于知识图谱的病状初步诊断及治疗方法。


技术实现要素:

5.针对相关技术中的问题,本发明提出一种基于知识图谱的病状初步诊断及治疗方法,以克服现有相关技术所存在的上述技术问题。
6.为此,本发明采用的具体技术方案如下:
7.一种基于知识图谱的病状初步诊断及治疗方法,该方法包括以下步骤:
8.s1、采集电子病历构建病历数据集,基于词典的分词算法对病历数据集中的字段进行分词处理,并分析判断疾病或病状的别名;
9.s2、分别基于命名实体识别模型及实体关系抽取模型对处理后的电子病历数据集中的数据进行实体及实体关系标注;
10.s3、构建rdf格式的实体与关系标注数据集,并利用实体与关系标注数据集构建基于疾病诊断的知识图谱;
11.s4、基于疾病症状的纯度及疾病信息熵对疾病病状进行初步诊断,并利用基于疾病诊断的知识图谱结合协同推荐算法得到推荐初步治疗方案。
12.进一步的,所述s1中采集电子病历构建病历数据集,基于词典的分词算法对病历数据集中的字段进行分词处理之前还包括以下步骤:
13.利用数据处理模块对病历数据集中的病历数据进行清洗与预处理,进行病历分
词、剔除空数据、无效数据、剔除无情感意义的文字和重复数据。
14.进一步的,所述基于词典的分词算法对病历数据集中的字段进行分词处理包括以下步骤:
15.按照预定的策略将预先建立的分词词典中所有词语与病历数据集中的字段逐一进行匹配,识别出字段中包含的属于分词词典的词语,并将识别到的词语作为有用信息返回。
16.进一步的,所述s2中分别基于命名实体识别模型及实体关系抽取模型对处理后的电子病历数据集中的数据进行实体及实体关系标注包括以下步骤:
17.s21、将分词处理后的病历数据集按照预设比例分为人工病历标注数据集和自动病历标注数据集;
18.s22、医学专家利用专业知识对人工病历标注数据集中的数据进行实体及实体关系标注;
19.s23、将标注后的人工病历标注数据集中的病历数据输入预先构建的命名实体识别模型及实体关系抽取模型进行训练;
20.s24、将自动病历标注数据逐个输入训练好的命名实体识别模型及实体关系抽取模型进行实体识别及实体与实体关系的自动标注。
21.进一步的,所述实体包括症状、疾病、部位、药品、科室及人群基本实体信息,所述实体关系包括部位症状关系、部位疾病关系、症状疾病关系、疾病科室关系、药品疾病关系、药品症状关系及药品人群关系。
22.进一步的,所述基于疾病诊断的知识图谱由6个实体及7个实体关系构成,采用有向图g表示,其中g=(v,e),式中,v={v1,v2,

,vn}表示一组指向不同实体的顶点,e为一组边,表示实体之间不同类型的关系。
23.进一步的,所述s4中基于疾病症状的纯度及疾病信息熵对疾病病状进行初步诊断,并利用基于疾病诊断的知识图谱结合协同推荐算法得到推荐初步治疗方案包括以下步骤:
24.s41、计算知识图谱中每个症状的纯度p及该症状相关疾病的疾病信息熵s,并基于该纯度p及疾病信息熵s分析得到病状;
25.s42、利用基于疾病诊断的知识图谱结合协同推荐算法得到推荐初步治疗方案。
26.进一步的,所述s41中计算知识图谱中每个症状的纯度p及该症状相关疾病的疾病信息熵s,并基于该纯度p及疾病信息熵s分析得到病状包括以下步骤:
27.s411、计算知识图谱中每个症状的纯度p,并选取纯度最大的症状计算该症状相关疾病的疾病信息熵s,其中,所述纯度p的公式计算如下:
[0028][0029]
所述疾病信息熵s的计算公式如下:
[0030]
[0031]
式中,n表示疾病的个数,vi表示与症状或症状组合相关联疾病量化关系的数值,n2表示与症状或症状组合相关联的疾病个数的平方,v
i’表示症状或症状组合与某个疾病的量化关系数值,v
i”表示所有与该疾病相关联症状的量化关系数值;
[0032]
s412、判断疾病信息熵s是否大于预设阈值或者为最后一个症状,若是则选择疾病信息熵s最大的疾病保存,并在原有所有疾病列表删除该疾病,重复上述步骤,迭代n次结束,获得n个疾病,最后通过疾病对于输入的所有症状计算疾病信息熵实现排序,并依据排序结果分析得到初步病状。
[0033]
进一步的,所述s42中利用基于疾病诊断的知识图谱结合协同推荐算法得到推荐初步治疗方案包括以下步骤:
[0034]
s421、获取患者的病状信息,并利用基于疾病诊断的知识图谱分析得到第一推荐治疗方案;
[0035]
s422、利用协同推荐算法为患者推荐与之病状信息相似的治疗方案,得到第二推荐治疗方案;
[0036]
s423、结合第一推荐治疗方案及第二推荐治疗方案分析得到推荐初步治疗方案。
[0037]
进一步的,所述s422中利用协同推荐算法为患者推荐与之病状信息相似的治疗方案,得到第二推荐治疗方案包括以下步骤:
[0038]
s4221、获取患者的症状信息数据,并计算病历数据集中与患者症状信息数据的相似度,其中,相似度的计算公式如下:
[0039][0040]
式中,sim(u1,u2)为患者u1与u2的相似度,s为症状总数,在单选择情况下相同为1,不同为0,且在多选情况下:
[0041]
s1为多选选项数;
[0042]
s4222、根据上述公式判断相似患者,并选取相似度最近的若干患者进行排序,得到病例组;
[0043]
s4223、计算某个病例组中病例对当前患者病状的治疗方案推荐值,并依据推荐值结果为该患者推荐治疗方案,得到第二推荐治疗方案,其中,治疗方案推荐值的计算公式如下:
[0044][0045]
其中,p表示推荐值,sim(u,ui)为患者u和患者ui的相似度,ri是患者症状i对病例组的平均估值,为患者症状i对病例的平均估值,n表示业务服务的总数量。
[0046]
本发明的有益效果为:通过利用基于词典的分词算法对电子病历数据集进行分词
处理,并利用基于实体关系抽取模型对电子病历数据集中的数据进行实体及实体关系标注,从而可以利用实体与关系标注数据集构建基于疾病诊断的知识图谱,进而不仅可以基于疾病症状的纯度及疾病信息熵来实现疾病病状的初步诊断,而且还可以利用基于疾病诊断的知识图谱结合协同推荐算法为患者推荐初步治疗方案,同时,通过利用基于疾病诊断的知识图谱结合协同推荐算法为患者推荐初步治疗方案,可以有效地提高推荐治疗方案的准确率。
附图说明
[0047]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0048]
图1是根据本发明实施例的一种基于知识图谱的病状初步诊断及治疗方法的流程示意图。
具体实施方式
[0049]
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
[0050]
根据本发明的实施例,提供了一种基于知识图谱的病状初步诊断及治疗方法。
[0051]
现结合附图和具体实施方式对本发明进一步说明,如图1所示,根据本发明实施例的一种基于知识图谱的病状初步诊断及治疗方法,该方法包括以下步骤:
[0052]
s1、采集电子病历构建病历数据集,基于词典的分词算法对病历数据集中的字段进行分词处理,并分析判断疾病或病状的别名;
[0053]
其中,所述s1中采集电子病历构建病历数据集,基于词典的分词算法对病历数据集中的字段进行分词处理之前还包括以下步骤:
[0054]
利用数据处理模块对病历数据集中的病历数据进行清洗与预处理,进行病历分词、剔除空数据、无效数据、剔除无情感意义的文字和重复数据。
[0055]
具体的,所述疾病或病状的别名的分析判断采用预先构建的疾病别名自动识别模型进行处理,具体包括以下步骤:
[0056]
获取病历数据集中的语料数据;构建疾病领域本体;对疾病领域本体进行扩充,得到扩充后的疾病领域本体;利用扩充后的疾病领域本体对从病历数据集中获取的语料数据进行自动标注,得到带有扩充后的疾病别名标注的训练语料;根据带有扩充后的疾病别名标注的训练语料,建立疾病别名自动识别模型;根据疾病别名自动识别模型,对待处理的字段进行疾病别名识别,例如“阿尔兹海默症”又称之为“老年痴呆症”。
[0057]
具体的,所述基于词典的分词算法对病历数据集中的字段进行分词处理包括以下步骤:
[0058]
按照预定的策略将预先建立的分词词典(该分词词典为常用词典与医学专用词典
的结合)中所有词语与病历数据集中的字段逐一进行匹配,识别出字段中包含的属于分词词典的词语,并将识别到的词语作为有用信息返回。
[0059]
s2、分别基于命名实体识别模型及实体关系抽取模型对处理后的电子病历数据集中的数据进行实体及实体关系标注;
[0060]
其中,所述s2中分别基于命名实体识别模型及实体关系抽取模型对处理后的电子病历数据集中的数据进行实体及实体关系标注包括以下步骤:
[0061]
s21、将分词处理后的病历数据集按照预设比例分为人工病历标注数据集和自动病历标注数据集;
[0062]
s22、医学专家利用专业知识对人工病历标注数据集中的数据进行实体及实体关系标注;
[0063]
具体的,所述实体包括症状、疾病、部位、药品、科室及人群基本实体信息,所述实体关系包括部位症状关系、部位疾病关系、症状疾病关系、疾病科室关系、药品疾病关系、药品症状关系及药品人群关系。
[0064]
s23、将标注后的人工病历标注数据集中的病历数据输入预先构建的命名实体识别模型及实体关系抽取模型进行训练;
[0065]
s24、将自动病历标注数据逐个输入训练好的命名实体识别模型及实体关系抽取模型进行实体识别及实体与实体关系的自动标注。
[0066]
s3、构建rdf格式的实体与关系标注数据集,并利用实体与关系标注数据集构建基于疾病诊断的知识图谱;
[0067]
其中,所述基于疾病诊断的知识图谱由6个实体及7个实体关系构成,采用有向图g表示,其中g=(v,e),式中,v={v1,v2,

,vn}表示一组指向不同实体的顶点,e为一组边,表示实体之间不同类型的关系。
[0068]
s4、基于疾病症状的纯度及疾病信息熵对疾病病状进行初步诊断,并利用基于疾病诊断的知识图谱结合协同推荐算法得到推荐初步治疗方案。
[0069]
其中,所述s4中基于疾病症状的纯度及疾病信息熵对疾病病状进行初步诊断,并利用基于疾病诊断的知识图谱结合协同推荐算法得到推荐初步治疗方案包括以下步骤:
[0070]
s41、计算知识图谱中每个症状的纯度p及该症状相关疾病的疾病信息熵s,并基于该纯度p及疾病信息熵s分析得到病状;
[0071]
具体的,所述s41中计算知识图谱中每个症状的纯度p及该症状相关疾病的疾病信息熵s,并基于该纯度p及疾病信息熵s分析得到病状包括以下步骤:
[0072]
s411、计算知识图谱中每个症状的纯度p,并选取纯度最大的症状计算该症状相关疾病的疾病信息熵s,其中,所述纯度p的公式计算如下:
[0073][0074]
所述疾病信息熵s的计算公式如下:
[0075]
[0076]
式中,n表示疾病的个数,vi表示与症状或症状组合相关联疾病量化关系的数值,n2表示与症状或症状组合相关联的疾病个数的平方,v
i’表示症状或症状组合与某个疾病的量化关系数值,v
i”表示所有与该疾病相关联症状的量化关系数值;
[0077]
s412、判断疾病信息熵s是否大于预设阈值或者为最后一个症状,若是则选择疾病信息熵s最大的疾病保存,并在原有所有疾病列表删除该疾病,重复上述步骤,迭代n次结束,获得n个疾病,最后通过疾病对于输入的所有症状计算疾病信息熵实现排序,并依据排序结果分析得到初步病状。
[0078]
s42、利用基于疾病诊断的知识图谱结合协同推荐算法得到推荐初步治疗方案。
[0079]
具体的,所述s42中利用基于疾病诊断的知识图谱结合协同推荐算法得到推荐初步治疗方案包括以下步骤:
[0080]
s421、获取患者的病状信息,并利用基于疾病诊断的知识图谱分析得到第一推荐治疗方案;
[0081]
s422、利用协同推荐算法为患者推荐与之病状信息相似的治疗方案,得到第二推荐治疗方案;具体包括以下步骤:
[0082]
s4221、获取患者的症状信息数据,并计算病历数据集中与患者症状信息数据的相似度,其中,相似度的计算公式如下:
[0083][0084]
式中,sim(u1,u2)为患者u1与u2的相似度,s为症状总数,在单选择情况下相同为1,不同为0,且在多选情况下:
[0085]
s1为多选选项数;
[0086]
s4222、根据上述公式判断相似患者,并选取相似度最近的若干患者进行排序,得到病例组;
[0087]
s4223、计算某个病例组中病例对当前患者病状的治疗方案推荐值,并依据推荐值结果为该患者推荐治疗方案,得到第二推荐治疗方案,其中,治疗方案推荐值的计算公式如下:
[0088][0089]
其中,p表示推荐值,sim(u,ui)为患者u和患者ui的相似度,ri是患者症状i对病例组的平均估值,为患者症状i对病例的平均估值,n表示业务服务的总数量。
[0090]
s423、结合第一推荐治疗方案及第二推荐治疗方案分析得到推荐初步治疗方案。
[0091]
具体的,当第一推荐治疗方案及第二推荐治疗方案相同时,则生成第一推荐治疗
方案或第二推荐治疗方案为推荐初步治疗方案,当第一推荐治疗方案及第二推荐治疗方案不同时,需判断患者的症状数量是否大于预先设定的阈值,若是,则选取第二推荐治疗方案为推荐初步治疗方案,若否,则选择第一推荐治疗方案为推荐初步治疗方案。
[0092]
综上所述,借助于本发明的上述技术方案,通过利用基于词典的分词算法对电子病历数据集进行分词处理,并利用基于实体关系抽取模型对电子病历数据集中的数据进行实体及实体关系标注,从而可以利用实体与关系标注数据集构建基于疾病诊断的知识图谱,进而不仅可以基于疾病症状的纯度及疾病信息熵来实现疾病病状的初步诊断,而且还可以利用基于疾病诊断的知识图谱结合协同推荐算法为患者推荐初步治疗方案,同时,通过利用基于疾病诊断的知识图谱结合协同推荐算法为患者推荐初步治疗方案,可以有效地提高推荐治疗方案的准确率。
[0093]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1