基于医疗知识图谱融合的病症实体对齐方法及其装置

文档序号:33349101发布日期:2023-03-04 04:25阅读:131来源:国知局
基于医疗知识图谱融合的病症实体对齐方法及其装置

1.本发明涉及医疗技术领域,尤其是基于医疗知识图谱融合的病症实体对齐方法及其装置。


背景技术:

2.目前,现有技术中医疗领域的常用方法主要是基于翻译模型《etal.multilingual knowledge graph embeddings for cross-lingual knowledge alignment》或基于图神经网络《et al.cross-lingual knowledge graph alignment via graph convolutional networks》进行知识表示学习,从而实现图谱之间的实体对齐。另外,在翻译模型方面,如孙倩南《面向呼吸科室疾病的知识抽取与对齐》使用transe算法对实体和关系进行嵌入,对不同数据源的呼吸科室医疗数据进行了实体对齐工作;如“专利公开号为:cn111309930a、名称为:一种基于表示学习的医学知识图谱实体对齐方法”的中国发明专利中,在表示学习的基础上,根据医学知识的特点,加入词根集和规则用于医学实体对齐任务,提高了实体对齐的准确性。在图神经网络方面,程瑞《面向中文医疗知识图谱的实体对齐方法研究及应用》通过图卷积网络对医疗知识图谱中的关系信息和结构信息进行建模,使用transe对属性信息进行建模,最终将两者融合进行实体对齐,取得了较好的效果。在“专利公开号为:cn113361279a、名称为:一种基于双邻域图神经网络的医疗实体对齐方法及系统”的中国发明中,基于双邻域图神经网络对实体邻域及属性邻域的图谱节点特征进行建模学习,构建了一种用于医疗领域实体对齐的方法和系统。
3.目前,基于翻译模型和基于图神经网络的方法分别在知识图谱实体三元组序列特征和图结构特征的学习方面有各自的优势,但是两种方法都比较适用于大规模知识图谱的实体对齐和图谱融合,在用于建模如自描述症状一类的小规模序列或图谱时会难以充分对其知识表示进行学习。同时,该两种方法的性能还极依赖于训练数据或种子实体对的数量和质量,基于神经网络的方法还存在解释性较弱的问题。综上,目前医疗领域实体对齐的常用方法还存在一定的短板或缺点。
4.因此,急需要提出一种逻辑简单、准确可靠的基于医疗知识图谱融合的病症实体对齐方法及其装置。


技术实现要素:

5.针对上述问题,本发明的目的在于提供基于医疗知识图谱融合的病症实体对齐方法及其装置,本发明采用的技术方案如下:
6.第一部分,本技术提供了一种基于医疗知识图谱融合的病症实体对齐方法,其包括以下步骤:
7.构建并形成大规模的标准疾病知识图谱;
8.获取自描述症状语言数据,利用最优切分算法使自描述症状数据进行最优化切词,并形成自描述症状图谱;
9.构建word2vec词向量模型,利用大规模医疗文本训练word2vec词向量模型,对自描述症状图谱和标准疾病知识图谱的实体进行特征扩展,以获得自描述症状图谱和标准疾病知识图谱的实体内容在同一特征向量空间下的语义建模;
10.基于最优子图匹配算法对标准疾病知识图谱的任一子图结构进行遍历,计算子图结构的子图特征表示和自描述图谱特征表示的相似度,获取最优匹配子图,实现自描述症状实体到标准疾病实体的对齐。
11.第二部分,本技术提供了基于医疗知识图谱融合的病症实体对齐装置,其包括:
12.标准疾病知识图谱模块;
13.自描述症状图谱模块,获取自描述症状语言数据后,并利用最优切分算法使自描述症状数据进行最优化切词,形成自描述症状图谱;
14.word2vec词向量模型,利用大规模医疗文本训练word2vec词向量模型,对自描述症状图谱和标准疾病知识图谱的实体进行特征扩展,以获得自描述症状图谱和标准疾病知识图谱的实体内容在同一特征向量空间下的语义建模;
15.最优子图匹配模块,利用最优子图匹配算法对标准疾病知识图谱的任一子图结构进行遍历,计算子图结构的子图特征表示和自描述图谱特征表示的相似度,获取最优匹配子图,实现自描述症状实体到标准疾病实体的对齐。
16.第三部分,本技术提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于医疗知识图谱融合的病症实体对齐方法。
17.与现有技术相比,本发明具有以下有益效果:
18.(1)本发明巧妙地采用最优切分算法实现自描述病症的自动切分及标准病症实体库中身体部位、方向位置、状态、特征、专有名词实体与自描述病症实体的映射,从而完成自描述症状到有向无环图(dag)的图谱化处理;
19.(2)本发明巧妙地采用最优子图匹配算法,实现自描述症状图谱与标准疾病知识图谱的融合,完后自描述疾病实体与标准疾病实体的对齐;
20.(3)本发明通过求得子图结构的子图特征表示和自描述图谱特征表示的相似度,获取最优匹配子图,以保证匹配准确可靠;
21.(4)本发明构建了涵盖身体部位、方向位置、状态、特征、专有名词、标准疾病名称等6种类型实体的标准疾病知识图谱,保证标准疾病知识图谱信息全面;
22.综上所述,本发明具有逻辑简单、准确可靠等优点,在医疗技术领域具有很高的实用价值和推广价值。
附图说明
23.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需使用的附图作简单介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对保护范围的限定,对于本领域技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
24.图1为本发明的结构示意图。
25.图2为本发明的最优切分逻辑流程图。
26.图3为本发明的最优子图匹配逻辑流程图。
具体实施方式
27.为使本技术的目的、技术方案和优点更为清楚,下面结合附图和实施例对本发明作进一步说明,本发明的实施方式包括但不限于下列实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
28.实施例
29.如图1至图3所示,本实施例提供了基于医疗知识图谱融合的病症实体对齐方法及其装置,该装置主要包括标准疾病知识图谱模块、自描述症状图谱模块、word2vec词向量模型和最优子图匹配模块。其中,本技术的核心步骤总共包括标准疾病知识图谱构建、自描述症状的图谱化解析以及基于图谱融合的实体对齐实现三个部分。
30.第一部分,标准疾病知识图谱构建:
31.在本实施例中,对包含身体部位、方向位置、专有名词、状态、特征以及标准疾病名称6类词表的病症实体库进行融合,构建了包含3845种疾病的标准疾病知识图谱。其中身体部位实体1698个、方向位置实体61个、专有名词实体109490个、状态实体1396个、特征实体749个、标准疾病名称实体2563个。身体部位实体以层次数据结构进行存储,方向位置、专有名词、状态、特征、标准疾病名称实体以词典形式存储。
32.第二部分,自描述症状的图谱化解析
33.本实施例是基于最优切分算法,实现自描述症状的最适宜切分和病症实体库中身体部位、方向位置、专有名词、状态、特征以及标准疾病名称6类实体对自描述症状的自动映射,形成自描述症状的图谱化表。具体如下:
34.步骤s11,加载症状实体库数据;
35.步骤s12,采用自描述症状全模式分词;
36.步骤s13,获取其中之一的分词方式;
37.步骤s14,采用多类型实体匹配,并获得实体匹配方式;
38.步骤s15,求得该匹配方式下的实体相似度之积;
39.步骤s16,遍历任一实体匹配方式;
40.若未完成遍历匹配方式,则返回步骤s14;否则,遍历任一分词方式;
41.若未完成遍历分词方式,则进入步骤s13,否则,进入步骤s17;
42.步骤s17,获取最大相似度之积对应的自描述症状图谱。
43.第三部分,基于图谱融合的实体对齐:
44.本实施例采用最优子图匹配算法实现自描述图谱与标准疾病知识图谱的图嵌入表示,并通过计算自描述图谱与标准疾病知识图谱子图的最大相似度,完成自描述图谱与标准疾病知识图谱的融合,从而实现自描述症状到标准疾病症状的实体对齐。
45.具体来说,本实施例通过构建word2vec词向量模型,利用大规模医疗文本训练word2vec词向量模型,对自描述症状图谱和标准疾病知识图谱的实体进行特征扩展,以获得自描述症状图谱和标准疾病知识图谱的实体内容在同一特征向量空间下的语义建模。
46.在此基础上,本实施例对自描述症状图谱与子图进行匹配,具体来说:
47.步骤s21,获取标准疾病知识图谱的一个子图,并获取该子图对应的向量表示;
48.步骤s22,利用word2vec词向量模型对子图进行特征扩展;
49.步骤s23,求得自描述症状图谱与子图的相似度;
50.步骤s24,遍历任一子图,并求得相似度最大值对应的子图;
51.步骤s25,利用相似度最大值对应的子图输出标准疾病症状实体。
52.上述实施例仅为本发明的优选实施例,并非对本发明保护范围的限制,但凡采用本发明的设计原理,以及在此基础上进行非创造性劳动而作出的变化,均应属于本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1