知识图谱构建方法和系统与流程

文档序号:13236791阅读:920来源:国知局
知识图谱构建方法和系统与流程

本发明涉及人工智能技术领域,尤其是涉及知识图谱构建方法和系统。



背景技术:

构建知识图谱是目前实现人工智能技术在具体行业领域中应用的核心。以往的知识图谱主要基于现有的学科教材和文献知识,通过二次加工和编辑得出。这些知识图谱存在着人工工作量巨大,知识领域覆盖有限、实体和相关关系较少等不足,难以满足当前处理海量数据的场景应用需求。

另外,大量结构化的数据是人工智能技术开展具体应用和服务的基础。同时,对于专业性很强的学科,其研究进展迅速,知识更新和延展速度极快。大量的专业知识仍以书籍和文献的形式交流,仅有少量的知识可以通过各类百科网站查询浏览,而知识都是非结构化和半结构化的数据,它们是无法直接作为人工智能技术应用的基础的。

综上,如何完善知识图谱的构建以满足当前处理海量数据的场景应用需求,并将利用网络渠道获取的半结构化数据转换成结构化数据,从而为实现人工智能技术在具体行业领域中应用打下基础,成为需要解决的问题。



技术实现要素:

有鉴于此,本发明的目的在于提供知识图谱构建方法和系统,通过构建知识图谱基础架构和利用多种网络渠道获取数据并完成数据融合,实现了将半结构化数据转换成结构化数据的功能,为下一步在此基础上开发人工智能技术打下基础。

第一方面,本发明实施例提供了知识图谱构建方法,所述方法包括:

根据通用数据标准建立知识图谱的基础架构;

将所述基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表;

获取与所述知识图谱中的内容相关的半结构化数据;

从所述半结构化数据中抽取关键实体的实体信息;

根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据;

将所述结构化数据生成对应的数据结构对,并将所述数据结构对存储为所述知识图谱。

结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述将所述基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表包括:

将所述实体的实体属性转换成三元组数据rdf;

根据所述rdf将所述实体属性与所述实体的关系类型和命名规则进行统一规范。

结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据包括:

判断所述实体信息是否符合所述标准规范;

如果符合,则根据所述标准字典表将所述实体信息进行数据融合,形成所述结构化数据。

结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述实体信息包括实体名称和实体属性信息,所述如果符合,则根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据包括:

将所述实体名称与所述标准字典表中的内容进行映射,得到相同实体名称以及所述相同实体名称的属性信息;

将所述相同实体名称的属性信息与所述实体属性信息进行数据融合,形成所述结构化数据。

结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述实体信息包括实体名称和实体属性信息,所述如果符合,则根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据包括:

将所述实体名称与所述标准字典表中的内容进行映射,得到同义实体名称以及所述同义实体名称的属性信息;

将所述实体名称与所述同义实体名称建立同义对应关系;

根据所述同义对应关系将所述同义实体名称的属性信息与所述实体属性信息进行数据融合,形成所述结构化数据。

结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述方法还包括:

如果不符合,则根据专业知识分类对所述实体信息进行关系映射,形成所述结构化数据。

结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,将所述数据结构对存储为所述知识图谱包括:

将所述数据结构对转换为图形数据,并将所述图形数据存储到图形数据库。

第二方面,本发明实施例还提供知识图谱构建系统,所述系统包括:

基础架构建立模块,用于根据通用数据标准建立知识图谱的基础架构;

统一规范模块,用于将所述基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表;

获取模块,用于获取与所述知识图谱中的内容相关的半结构化数据;

抽取模块,用于从所述半结构化数据中抽取关键实体的实体信息;

数据融合模块,用于根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据;

生成及存储模块,用于将所述结构化数据生成对应的数据结构对,并将所述数据结构对存储为所述知识图谱。

结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述统一规范模块包括:

转换单元,用于将所述实体的实体属性转换成三元组数据rdf;

统一规范单元,用于根据所述rdf将所述实体属性与所述实体的关系类型和命名规则进行统一规范。

结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,所述数据融合模块包括:

判断单元,用于判断所述实体信息是否符合所述标准规范;

数据融合单元,用于在符合所述标准规范的情况下,根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据。

本发明实施例提供了知识图谱构建方法和系统,包括:根据通用数据标准建立知识图谱的基础架构;将基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表;获取与知识图谱中的内容相关的半结构化数据;从半结构化数据中抽取关键实体的实体信息;根据标准字典表将实体信息进行数据融合,形成结构化数据;将结构化数据生成对应的数据结构对,并将数据结构对存储为知识图谱。通过构建知识图谱基础架构和利用多种网络渠道获取数据并完成数据融合,实现了将半结构化数据转换成结构化数据的功能,为下一步在此基础上开发人工智能技术打下基础。

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的知识图谱构建方法流程图;

图2为本发明实施例提供的知识图谱构建方法的另一流程图;

图3为本发明实施例提供的知识图谱构建系统的示意图;

图4为本发明实施例提供的知识图谱构建系统的另一示意图。

图标:

10-基础架构建立模块;20-统一规范模块;30-获取模块;40-抽取模块;50-数据融合模块;60-生成及存储模块;21-转换单元;22-统一规范单元;51-判断单元;52-数据融合单元。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

目前如何完善知识图谱的构建以满足当前处理海量数据的场景应用需求,并将利用网络渠道获取的半结构化数据转换成结构化数据,从而为实现人工智能技术在具体行业领域中应用打下基础,成为需要解决的问题。基于此,本发明实施例提供的知识图谱构建方法和系统,通过构建知识图谱基础架构和利用多种网络渠道获取数据并完成数据融合,实现了将半结构化数据转换成结构化数据的功能,为下一步在此基础上开发人工智能技术打下基础。

为便于对本实施例进行理解,首先对本发明实施例所公开的知识图谱构建方法进行详细介绍。

实施例一:

图1为本发明实施例提供的知识图谱构建方法流程图。

参照图1,知识图谱构建方法包括:

步骤s101,根据通用数据标准建立知识图谱的基础架构;

步骤s102,将基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表;

进一步地,步骤s102可采取如下步骤实现:

将实体的实体属性转换成三元组数据rdf(resourcedescriptionframework,三元组数据);

根据rdf将实体属性与实体的关系类型和命名规则进行统一规范。

这里,以医学为例进行说明。医学教材和医学文献是建立传统医学知识图谱的主要依据和基础。其存在着人工整理输入工作量巨大、数据结构不严谨和数据冲突等多方面问题。目前,已经有部分国际通用的医学专业数据标准建立并在医疗系统内部推广应用,例如icd-10国际疾病分类编码(internationalclassificationofdiseases)。以这样的国际通用数据标准为基础建立医学知识字典表,确保了知识图谱覆盖的广度和专业性。传统的医学知识图谱中多数围绕单一关键实体建立,如以疾病为核心或以药品为核心建立,不同关键实体之间的关联关系无统一规范。

本发明实施例将实体的属性转换成rdf(resourcedescriptionframework)三元组数据,并对实体属性和实体间的关系类型和命名规则进行了统一规范。具体举例说明如下:感冒作为实体,其实体属性为感冒的症状有打喷嚏、流鼻涕和发烧等。将感冒这一实体的属性转化成rdf以后,即感冒的症状有打喷嚏,感冒的症状有流鼻涕,感冒的症状有发烧。从而对实体属性和实体间的关系类型和命名规则进行了统一规范。

以往的各类公开医学知识图谱较为局限,只包含疾病、症状、检查检验、药品等部分数据和实体之间的关系。各医学子领域知识之间的关系相互独立,没有做到直接的映射。本发明实施例的知识图谱中包括了疾病、症状、检查、检验、药品、医生、医院、治疗方法等多种医学子领域知识,并做到其中各个实体之间的关联关系,对各个实体的属性以及属性之间的关系做了统一规范。

步骤s103,获取与知识图谱中的内容相关的半结构化数据;

步骤s104,从半结构化数据中抽取关键实体的实体信息;

步骤s105,根据标准字典表将实体信息进行数据融合,形成结构化数据;

这里,对半结构化数据和结构化数据进行举例说明。首先,结构化数据举例如下:姓名:xxx;性别:男;年龄:18。字段和数据一一对应,可以直接导入到关系型数据库当中。半结构化数据里面也包含了部分结构化数据,但是没有完全分离开。可能是一段文本,例如患者基本信息:患者姓名xxx,年龄18岁,性别男。

具体地,仍以医学为例,首先,根据标准字典表将实体信息进行数据融合,需要将通过网络获取的医学百科知识中的关键实体(如疾病名称、药品名称等)与先前建立的标准字典表中的内容进行对照映射,做到实体对齐,消除数据冲突等问题。同时,保留实体的属性关系(如疾病名称——疾病症状、疾病名称——疾病治疗方法、药品名称——药品适应症等)。接下来对不符合先前制定的规范标准的实体、实体属性和实体关系的数据进行人工审核编辑,和关系映射。最终实现不同数据源数据融合和关系规则统一。

医学专业的复杂不仅体现在专业性强,同时医学专业人士和非医学专业人士对同一疾病、症状等的认知可能存在巨大的差异,这也造成了目前很难依赖用户输入数据完成智能诊断、智能问答等自助服务。我们发现在通过网络医学知识百科的数据中还包含着大量的符合普通用户表达习惯的对疾病、症状等实体的描述。对于此类数据,我们利用人工审核的方式,建立起与医学专业知识的对应关系。通过这样的方式,可以尽可能地提高知识图谱中的数据对现实世界中用户表达信息的覆盖。

步骤s106,将结构化数据生成对应的数据结构对,并将数据结构对存储为知识图谱。

进一步地,如图2所示,步骤s105可采取如下步骤实现:

步骤s1051,判断实体信息是否符合标准规范,如果是,则执行步骤s1051;如果否,则执行步骤s1052;

步骤s1052,根据标准字典表将实体信息进行数据融合,形成结构化数据;

步骤s1052,根据专业知识分类对实体信息进行关系映射,形成结构化数据。

进一步地,实体信息包括实体名称和实体属性信息,步骤s1052包括以下过程:

将实体名称与标准字典表中的内容进行映射,得到相同实体名称以及相同实体名称的属性信息;

将相同实体名称的属性信息与实体属性信息进行数据融合,形成结构化数据。

这里将实体名称作为索引,与标准字典表中的内容进行映射,得到相同实体名称以及相同实体名称的属性信息,根据标准字典表中实体命名及实体间关系的统一规范,将实体名称的属性信息与相同实体名称的属性信息融合到一起。

进一步地,步骤s1052还包括以下过程:

将实体名称与标准字典表中的内容进行映射,得到同义实体名称以及同义实体名称的属性信息;比如感冒这一实体名称的同义实体名称包括上呼吸道感染;

将实体名称与同义实体名称建立同义对应关系,例如将感冒与上呼吸道感染建立同义对应关系,即表明它们的含义相同;

根据同义对应关系将同义实体名称的属性信息与实体属性信息进行数据融合,形成结构化数据。

进一步地,将数据结构对存储为知识图谱包括:

将数据结构对转换为图形数据,并将图形数据存储到图形数据库。

这里的数据结构对为rdf三元组数据,利用tinkerpop工具将其转换存储到图形数据库neo4j中。因为rdf存储的方式难以满足多维度推理计算的性能需求。neo4j是目前较为流行的图形数据库,基元是节点、关系以及属性,通过这三个基元可以完整地描述任意一个实体的情况。同时,还可以在关系上赋予属性,灵活扩展知识图谱的网络模型。

本发明实施例提供了知识图谱构建方法,包括:根据通用数据标准建立知识图谱的基础架构;将基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表;获取与知识图谱中的内容相关的半结构化数据;从半结构化数据中抽取关键实体的实体信息;根据标准字典表将实体信息进行数据融合,形成结构化数据;将结构化数据生成对应的数据结构对,并将数据结构对存储为知识图谱。通过构建知识图谱基础架构和利用多种网络渠道获取数据并完成数据融合,实现了将半结构化数据转换成结构化数据的功能,为下一步在此基础上开发人工智能技术打下基础。

本发明实施例提供的知识图谱构建方法所得到的知识图谱具有以下特点:覆盖面广;实体之间关系完整且互通性好;知识图谱具有可扩展性;专业性和用户表达丰富性;图形数据库存储形式方便检索和推理应用展开。

实施例二:

图3为本发明实施例提供的知识图谱构建系统的示意图。

参照图3,知识图谱构建系统包括:

基础架构建立模块10,用于根据通用数据标准建立知识图谱的基础架构;

统一规范模块20,用于将基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表;

获取模块30,用于获取与知识图谱中的内容相关的半结构化数据;

抽取模块40,用于从半结构化数据中抽取关键实体的实体信息;

数据融合模块50,用于根据标准字典表将实体信息进行数据融合,形成结构化数据;

生成及存储模块60,用于将结构化数据生成对应的数据结构对,并将数据结构对存储为知识图谱。

进一步地,如图2所示,统一规范模块20包括:

转换单元21,用于将实体的实体属性转换成三元组数据rdf;

统一规范单元22,用于根据rdf将实体属性与实体的关系类型和命名规则进行统一规范。

进一步地,数据融合模块50包括:

判断单元51,用于判断实体信息是否符合标准规范;

数据融合单元52,用于在符合标准规范的情况下,根据标准字典表将实体信息进行数据融合,形成结构化数据。

本发明实施例提供的知识图谱构建系统,与上述实施例提供的知识图谱构建方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。

本发明实施例还提供一种电子设备,包括存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例提供的知识图谱构建方法的步骤。

本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述实施例的知识图谱构建方法的步骤。

另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

本发明实施例所提供的进行知识图谱构建方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1