基于畜禽疾病知识图谱的畜禽疾病的预测分类方法

文档序号:29264955发布日期:2022-03-16 13:35阅读:131来源:国知局
基于畜禽疾病知识图谱的畜禽疾病的预测分类方法

1.本发明涉及一种预测分类方法,特别涉及基于畜禽疾病知识图谱的畜禽疾病的预测分类方法。


背景技术:

2.随着人工智能的兴起,病情辅助诊别也在大数据的驱动下逐渐智能化,多数人工智能病情辅助诊别的技术研究均基于病情文本。据统这些文本如果都由人来处理,不仅时效低而且代价高。并且在本文所涉及到的畜禽疾病预测分类领域,亟需一种便捷的辅助预测分类方式帮助释放人工压力。综上,通过人工智能的手段进行智能化的疾病预测分类辅助是必要的。
3.知识图谱是一种通过符号形式表示客观概念和关系的语义知识库,它由许多实体和关系组成,通过关系和实体两两连接,构成“实体-关系-实体”的三元组,最终形成以各个三元组为基本单位的知识网络。近年来知识图谱广泛应用于各个领域,也为结构化存储病情文本提供了一种优秀的解决方案。
4.智慧医疗是知识图谱应用中收到广泛关注的一个领域。目前很多公司医院均在医疗领域中进行了相关研究并且构建了自己的医疗知识图谱,如搜狗公司的ai医学知识图谱、阿里巴巴的“医知鹿”、上海曙光医院够贱的中医知识图谱等。随着互联网技术以及区域医疗卫生信息化技术的不断发展,医疗数据迅速增长,如何从这些繁杂庞大的数据中挖掘出有效信息并加以利用,是推进智慧医疗不断发展的关键,同时也是药物推荐等一系列相关应用的基础,对于帮助医生诊疗,减轻人员负担有着重要的意义。
5.在医疗知识图谱的构建方面,虽然现有的实体关系抽取研究较为成熟,但是部分研究没有考虑到实体和关系之间的联系,容易造成误差累积和准确率不高的问题;同时在疾病预测方面,很多研究人员进行了相关的研究,但是目前的疾病预测针对性较强,扩展性也有所不足,同时深度不足,缺乏对疾病更深层关系的挖掘,需要一定的改进。


技术实现要素:

6.本发明的目的是克服现有技术缺陷,提供基于畜禽疾病知识图谱的畜禽疾病的预测分类方法,通过构建深度特征关联网络和提供一种优化疾病影响因子算法,加深知识图谱构建时关系的构成,为畜禽疾病预测分类提供一种可行的有效方法,结果可以作为后续诊断的参考。
7.本发明的目的是这样实现的:一种基于畜禽疾病知识图谱的畜禽疾病的预测分类方法,其特征在于,包括以下步骤:
8.步骤1)根据畜禽疾病文本进行特征提取:选定一种畜禽疾病的病情陈述文本集合,使用汉语分词系统nlpir导入提前准备的疾病和症状词典,对文本进行处理得到初始特征词集,之后进行词性选择得到中间特征词集,最后对中间特征词集进行加权tfidf排序得到最终特征词集;
9.步骤2)使用图计算方法构建特征关联网络:对步骤1)得到的最终特征词集,通过基于图计算的方法建立该种疾病的特征关联网络,以此挖掘描述同种疾病的特征词之间出现的模式;将所有的特征词作为节点建立完全图,并且计算任意两个节点之间的有向关联度作为边的权重,然后通过去除弱关联获得强关联的特征关联网络,最后通过重构得到最终的特征词关联网络;
10.步骤3)构建畜禽疾病知识图谱:在步骤2)特征关联网络中,找出节点数在3以上的极大词团,通过筛选得到在描述该种疾病时同时出现的词团用于疾病类型推理,通过词团语义关系建立知识图谱;
11.步骤4)结构化抽取畜禽疾病特征:通过对知识图谱中的连通子图进行分解抽取,最终整理得到具有加权度的结构化特征;
12.步骤5)基于朴素贝叶斯,通过添加权重的改进算法计算单个特征对疾病的影响因子impt:设计基于朴素贝叶斯的单个症状对疾病的影响因子的计算方法,对所提取的结构化特征进行加权处理得到改进后的影响因子计算方法;
13.步骤6)基于步骤5)计算多个特征对疾病的影响因子:考虑到现实情况中往往出现两个或者多个症状对应一个疾病的情况,改进步骤5)的影响因子计算方法,得到更为实际高效的计算方法;
14.步骤7)得到畜禽疾病预测分类的结果:基于步骤5)、步骤6)中的改进算法,计算特征对于畜禽疾病的影响因子,通过影响因子的排列进一步辅助进行疾病预测推理,最终得到畜禽疾病预测分类的一个或多个推荐结果。
15.作为本发明的进一步限定,所述步骤1)具体包括:
16.步骤1.1)根据畜禽疾病文本进行特征提取:选定一种畜禽疾的病情陈述文本集合,使用汉语分词系统nlpir导入提前准备的疾病和症状词典,对文本进行分词,词性标注,单字过滤和停用词去除得到初始特征集,之后对初始特征集进行词性选择、筛选与疾病密切相关的名词、动词、形容词,得到中间特征集;最后对得到的中间特征集进行加权tfidf排序,得到最终特征集;对于tfidf值而言,tfidf值越高,就代表着该词与该种疾病的特征关联度越大。
17.作为本发明的进一步限定,所述步骤2)具体包括:
18.步骤2.1)定义有向关联度:对于步骤1)中得到的最终特征词集,采用基于图计算的方法建立该种疾病的特征关联网络,以此挖掘描述同种疾病的特征词之间出现的模式;对于一种疾病的特征词集w,对于特征词集中的关键词wi,wj计算wi与wj的有向关联度,定义计算方式如下所示:
[0019][0020]
其中,w(wj|wi)是计算的有向关联度,p(wj|wi)是词wi出现时词wj出现的概率t(wi)是词wi的tfidf值,q(wi,wj)是特征词对共现次数,q(wi)是词wi的词频;
[0021]
步骤2.2)得到特征词关联网络:将所有特征词作为节点建立完全图,计算任意两个节点之间的有向关联度作为边的权重,去除不符合条件的关联边,定义若两节点之间的
关联边小于2,则作为弱关联进行去除,得到强关联的特征关联网络;最后对得到的特征关联网络进行重构,将关键词对出现的次数q()作为新的权值重构得到关联网络g,然后根据g中权值的阈值进行过滤,得到最终的特征词关联网络。
[0022]
作为本发明的进一步限定,所述步骤3)具体包括:
[0023]
步骤3.1)定义极大特征词团:对于步骤2.2)中得到的关联网络g,g表示图g中的一个完全子图,如果g不属于g中的任何一个完全子图,则定义子图g为图g的极大团,在本文中,找出节点数在3以上的极大团,然后进行对照筛选;
[0024]
步骤3.2)根据语义关系建立知识图谱:特征词团作为病情陈述的不同体现方式,建立知识图谱kg=(c,r,w),其中,将词团集合c中的每个词团g作为节点,将每两个词团之间的有向关联作为边构成边集r,定义若两特征词团ci、cj交集不为空集,则存在词团间的有向边,其中w
ij
∈w为词团ci与cj的有向关联度,公式如下所示:
[0025][0026]
通过以上过程得到包含子图g的出初始知识图谱,然后根据节点入度和阈值过滤节点和边得到最终知识图谱。
[0027]
作为本发明的进一步限定,所述步骤4具体包括:
[0028]
步骤4.1)对知识图谱g中的连通子图进行分解抽取:通过对g中的子图进行切分,对切分出的子图g中的所有节点的词求交集来得到一个结构化特征t并且将连通子图从知识图谱中移除,循环此过程直至知识图谱为空,最终得到结构化特征集。
[0029]
作为本发明的进一步限定,所述步骤5具体包括:
[0030]
步骤5.1)基于朴素贝叶斯改进影响因子算法:对贝叶斯定理而言,将贝叶斯定理转换成分类任务的表达式,如下所示:
[0031][0032]
将对疾病的预测过程类比分类过程,从疾病预测角度来说,朴素贝叶斯做的就是对于给定的待分类症状特征,求在表现出此特征时哪个疾病出现的概率最大,最大的疾病即为分类类别;相应地,对于给定的戴分类疾病,在患有此疾病的情况下求哪个特征症状出现的概率最大,最大的症状即为分类类别,给出公式如下:
[0033][0034]
在得到的结构化特征列表中,识别出对某种疾病的预测最为独特的症状,并对其进行相应的权衡;对于每一个提取的特征,检索其在步骤1)得到的最终特征词集中出现的词频总数,并且使用词频总数的倒数作为其权重,改进后的影响因子impt公式如下所示:
[0035]
[0036]
其中,fy表示症状特征在库中的词频,xi表示疾病是否存在的二元变量,yj表示症状是否存在的二元变量,xi=1表示疾病存在,xi=0表示疾病不存在;yj=1表示症状存在,yj=0表示症状不存在。
[0037]
作为本发明的进一步限定,所述步骤6)具体包括:
[0038]
步骤6.1)改进计算多个特征对疾病的影响因子:对于多个症状的影响因子计算,基于步骤6)提出的改进算法,提出如下公式:
[0039][0040]
其中,nimpt为多个症状对疾病的影响因子,n为症状的总数,imptk为症状k对疾病的影响因子。
[0041]
作为本发明的进一步限定,所述步骤7)具体包括:
[0042]
步骤7.1)得到畜禽疾病预测分类的一个或多个推荐结果:通过对影响因子的计算得出疾病与症状的深度联系,再对照提出的症状特征,最终得到畜禽疾病预测分类的一个或多个推荐结果。
[0043]
本发明采用以上技术方案,与现有技术相比有益效果为:1)本发明考虑到传统医疗知识图谱关系联系不够紧密的问题,提出了一种通过图计算方法构建深层特征关联网络的方法,通过计算多次加权和关联度,优化节点关联,建立可视化的知识图谱,利用知识图谱进行知识发现和推理。2)本发明提出了一种改进的疾病影响因子计算方法,基于朴素贝叶斯提出了具有加权度的多特征对疾病影响因子计算方法,考虑到了不同症状的权重关系与不同有效提高了疾病预测的正确率;3)本发明通过无监督的流程进行畜禽疾病的预测分类,结果也可作为数据存入知识图谱中,具有很高的延展性。
附图说明
[0044]
图1本发明的总体框架图。
[0045]
图2本发明构建的特征关联网络概念图。
[0046]
图3本发明构建的知识图谱概念图。
具体实施方式
[0047]
如图1所示的基于畜禽疾病知识图谱的畜禽疾病的预测分类方法,包括以下步骤:
[0048]
步骤1)根据畜禽疾病文本进行特征提取:选定一种畜禽疾病的病情陈述文本集合,使用汉语分词系统nlpir导入提前准备的疾病和症状词典,对文本进行处理得到初始特征词集,之后进行词性选择得到中间特征词集,最后对中间特征词集进行加权tfidf排序得到最终特征词集;
[0049]
步骤1.1)根据畜禽疾病文本进行特征提取:选定一种畜禽疾的病情陈述文本集合,使用汉语分词系统nlpir导入提前准备的疾病和症状词典,对文本进行分词,词性标注,单字过滤和停用词去除得到初始特征集,之后对初始特征集进行词性选择、筛选与疾病密切相关的名词、动词、形容词,得到中间特征集;最后对得到的中间特征集进行加权tfidf排序,得到最终特征集;对于tfidf值而言,tfidf值越高,就代表着该词与该种疾病的特征关
联度越大。
[0050]
步骤2)使用图计算方法构建特征关联网络:对步骤1)得到的最终特征词集,通过基于图计算的方法建立该种疾病的特征关联网络,以此挖掘描述同种疾病的特征词之间出现的模式;将所有的特征词作为节点建立完全图,并且计算任意两个节点之间的有向关联度作为边的权重,然后通过去除弱关联获得强关联的特征关联网络,最后通过重构得到最终的特征词关联网络;
[0051]
步骤2.1)定义有向关联度:对于步骤1)中得到的最终特征词集,采用基于图计算的方法建立该种疾病的特征关联网络,以此挖掘描述同种疾病的特征词之间出现的模式;对于一种疾病的特征词集w,对于特征词集中的关键词wi,wj计算wi与wj的有向关联度,定义计算方式如下所示:
[0052][0053]
其中,w(wj|wi)是计算的有向关联度,p(wj|wi)是词wi出现时词wj出现的概率t(wi)是词wi的tfidf值,q(wi,wj)是特征词对共现次数,q(wi)是词wi的词频;
[0054]
步骤2.2)得到特征词关联网络:将所有特征词作为节点建立完全图,计算任意两个节点之间的有向关联度作为边的权重,去除不符合条件的关联边,定义若两节点之间的关联边小于2,则作为弱关联进行去除,得到强关联的特征关联网络;最后对得到的特征关联网络进行重构,将关键词对出现的次数q()作为新的权值重构得到关联网络g,然后根据g中权值的阈值进行过滤,得到最终的特征词关联网络。以此显示更为明显的此种疾病的特征词之间的语义关系;构建出的特征关联网络如图2所示。
[0055]
步骤3)构建畜禽疾病知识图谱:在步骤2)特征关联网络中,找出节点数在3以上的极大词团,通过筛选得到在描述该种疾病时同时出现的词团用于疾病类型推理,通过词团语义关系建立知识图谱;
[0056]
步骤3.1)定义极大特征词团:对于步骤2.2)中得到的关联网络g,g表示图g中的一个完全子图,如果g不属于g中的任何一个完全子图,则定义子图g为图g的极大团,在本文中,找出节点数在3以上的极大团,然后进行对照筛选;
[0057]
步骤3.2)根据语义关系建立知识图谱:特征词团作为病情陈述的不同体现方式,建立知识图谱kg=(c,r,w),其中,将词团集合c中的每个词团g作为节点,将每两个词团之间的有向关联作为边构成边集r,定义若两特征词团ci、cj交集不为空集,则存在词团间的有向边,其中w
ij
∈w为词团ci与cj的有向关联度,公式如下所示:
[0058][0059]
通过以上过程得到包含子图g的出初始知识图谱,然后根据节点入度和阈值过滤节点和边得到最终知识图谱;建立出的知识图谱概念图如图3所示。
[0060]
步骤4)结构化抽取畜禽疾病特征:通过对知识图谱中的连通子图进行分解抽取,最终整理得到具有加权度的结构化特征;
[0061]
步骤4.1)对知识图谱g中的连通子图进行分解抽取:通过对g中的子图进行切分,
对切分出的子图g中的所有节点的词求交集来得到一个结构化特征t并且将连通子图从知识图谱中移除,循环此过程直至知识图谱为空,最终得到结构化特征集。在构建结构化特征集中,通过添加加权度的方法来优化后续计算影响因子的方法,具体为,在通过交集得到结构化特征时,通过节点出现频率的累积得到加权值。
[0062]
步骤5)基于朴素贝叶斯,通过添加权重的改进算法计算单个特征对疾病的影响因子impt:设计基于朴素贝叶斯的单个症状对疾病的影响因子的计算方法,对所提取的结构化特征进行加权处理得到改进后的影响因子计算方法;
[0063]
步骤5.1)基于朴素贝叶斯改进影响因子算法:对贝叶斯定理而言,将贝叶斯定理转换成分类任务的表达式,如下所示:
[0064][0065]
将对疾病的预测过程类比分类过程,从疾病预测角度来说,朴素贝叶斯做的就是对于给定的待分类症状特征,求在表现出此特征时哪个疾病出现的概率最大,最大的疾病即为分类类别;相应地,对于给定的戴分类疾病,在患有此疾病的情况下求哪个特征症状出现的概率最大,最大的症状即为分类类别,给出公式如下:
[0066][0067]
考虑到在疾病预测的过程中,不同症状对疾病预测起到的作用不同,比如某些常见的症装是非常常见的,可以与许多疾病一起发生,而某些罕见的症装可能与某些疾病有着更为独特并且紧密的联系。因此,在得到的结构化特征列表中,识别出对某种疾病的预测最为独特的症状,并对其进行相应的权衡;对于每一个提取的特征,检索其在步骤1)得到的最终特征词集中出现的词频总数,并且使用词频的倒数作为其权重,通过此种方法,为相对罕见的症装赋予比更加频繁的症状更高的权重,使得罕见的症状与疾病的联系更加紧密,提高预测的准确度,改进后的影响因子impt公式如下所示:
[0068][0069]
其中,fy表示症状特征在库中的词频,xi表示疾病是否存在的二元变量,yj表示症状是否存在的二元变量,xi=1表示疾病存在,xi=0表示疾病不存在;yj=1表示症状存在,yj=0表示症状不存在。因此,单个症状对疾病的影响因子为症状存在并且疾病存在的概率与症状不存在并且疾病存在的概率之差。而影响因子impt值越大,就表示知识图谱中某症状特征对于疾病的权重越大,即影响因子impt值代表了某个症状对于某个疾病的影响程度。
[0070]
步骤6)基于步骤5)计算多个特征对疾病的影响因子:考虑到现实情况中往往出现两个或者多个症状对应一个疾病的情况,改进步骤5)的影响因子计算方法,得到更为实际高效的计算方法;
[0071]
步骤6.1)改进计算多个特征对疾病的影响因子:在一个确定无噪的环境中,疾病的存在于症状的显现处于确定可观察状态,症状与疾病的关系可以是一一对应并且一定存在的。但是现实情况中往往是两个或者以上的症状对应一个疾病,并不是简单的单个症状引起单个疾病,甚至多个症状对疾病的影响因子更高,因此要判断多个症状对疾病的影响因子;对于多个症状的影响因子计算,基于步骤6)提出的改进算法,提出如下公式:
[0072][0073]
其中,nimpt为多个症状对疾病的影响因子,n为症状的总数,imptk为症状k对疾病的影响因子。
[0074]
本疾病知识图谱构建的结构化特征集对于一种疾病而言,往往含有多个症状表示方法,通过对多个症状影响因子的叠加,从而保证结果的可靠性。
[0075]
步骤7)得到畜禽疾病预测分类的结果:基于步骤5)、步骤6)中的改进算法,计算特征对于畜禽疾病的影响因子,通过影响因子的排列进一步辅助进行疾病预测推理,最终得到畜禽疾病预测分类的一个或多个推荐结果。
[0076]
步骤7.1)得到畜禽疾病预测分类的一个或多个推荐结果:由于影响因子代表着某些症状特征对于疾病的关联程度,通过对影响因子的计算得出疾病与症状的深度联系,再对照提出的症状特征,最终得到畜禽疾病预测分类的一个或多个推荐结果。
[0077]
本发明提出了一种通过图计算方法构建深层特征关联网络的方法,通过计算多次加权和关联度,优化节点关联,建立可视化的知识图谱,利用知识图谱进行知识发现和推理;同时提出了一种改进的疾病影响因子计算方法,基于朴素贝叶斯提出了具有加权度的多特征对疾病影响因子计算方法,考虑到了不同症状的权重关系与不同有效提高了疾病预测的正确率;最后本发明通过无监督的流程进行畜禽疾病的预测,结果也可作为数据存入知识图谱中,具有很高的延展性与应用价值。
[0078]
本发明并不局限于上述实施例,在本发明公开的技术方案的基础上,本领域的技术人员根据所公开的技术内容,不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形,这些替换和变形均在本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1