一种实体关系图的确定方法、装置、服务器及存储介质与流程

文档序号:17131245发布日期:2019-03-16 01:15阅读:178来源:国知局
一种实体关系图的确定方法、装置、服务器及存储介质与流程

本发明实施例涉及计算机技术领域,尤其涉及一种实体关系图的确定方法、装置、服务器及存储介质。



背景技术:

面对日益增多的海量信息,从中快速选择真正需要的信息,并将这些信息进行分类、提取和重构,显得尤为重要。

在这种背景下,信息抽取技术应运而生,广义上来说,信息抽取处理的对象可以是文本、图像、语音或视频等多种媒体,实际应用中通常是对文本信息进行抽取。文本信息抽取是一种从自然语言文本中抽取指定类型的实体和关系的技术,主要包括三方面:处理非结构化的自然语言文本、选择性抽取文本中指定的信息、抽取的信息形成结构化数据表示。为此,现有技术利用信息抽取技术,抽取出两两实体之间的关系,并进行存储,然后通过处理这些关系,形成最终的关系图,这种方法不仅需要占用较大的存储空间,而且过程繁琐,效率较低。



技术实现要素:

本发明实施例提供一种实体关系图的确定方法、装置、服务器及存储介质,以简化实体关系图的确定过程,提高效率,节省存储空间。

第一方面,本发明实施例提供一种实体关系图的确定方法,包括:

确定目标数据中的至少一个实体,并抽取各实体之间的实体关系;

确定各所述实体关系的可靠度;

根据所述可靠度的排序,确定目标实体关系及相应的目标实体对;

基于各所述目标实体关系连接各所述目标实体对,构成实体关系图并存储。

进一步的,所述确定目标数据中的至少一个实体,包括:

对目标数据的关键词进行语义解析;

根据解析结果确定所述目标数据中的至少一个实体。

进一步的,在确定目标数据中的至少一个实体之后,还包括:

对各所述实体进行消歧和归并处理,得到至少一个标准实体。

进一步的,所述对各所述实体进行消歧和归并处理,得到至少一个标准实体,包括:

根据设定的消歧规则对各所述实体进行消歧处理;

计算各消歧后实体的属性相似度;

根据各所述属性相似度确定各所述消歧后实体的实体相似度;

根据各所述实体相似度,对消歧后各所述实体进行归并处理,得到至少一个标准实体。

进一步的,所述抽取各实体之间的实体关系,包括:

根据预设规则确定各所述实体之间存在的实体关系,并抽取各所述实体关系。

进一步的,所述确定各所述实体关系的可靠度,包括:

根据所述实体的出处,确定所述实体的来源系数;

根据所述实体的产生时间,确定所述实体的时间系数;

根据预设时间内所述实体出现的频率,确定所述实体的出现频率系数;

根据所述来源系数、所述时间系数和所述出现频率系数确定各所述实体关系的可靠度。

进一步的,在确定目标数据中的至少一个实体之前,还包括:

抓取原始数据,并分析提取所述原始数据的数据特征;

根据所述数据特征整合获得目标数据。

第二方面,本发明实施例还提供一种实体关系图的确定装置,该装置包括:

第一确定模块,用于确定目标数据中的至少一个实体,并抽取各实体之间的实体关系;

第二确定模块,用于确定各所述实体关系的可靠度;

第三确定模块,用于根据所述可靠度的排序,确定目标实体关系及相应的目标实体对;

构成模块,用于基于各所述目标实体关系连接各所述目标实体对,构成实体关系图并存储。

第三方面,本发明实施例还提供一种服务器,包括:

一个或多个处理器;

存储器,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的实体关系图的确定方法。

第四方面,本发明实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的实体关系图的确定方法。

本发明实施例提供一种实体关系图的确定方法、装置、服务器及存储介质,通过确定目标数据中的至少一个实体,并抽取各实体之间的实体关系,确定各所述实体关系的可靠度,根据所述可靠度的排序,确定目标实体关系及相应的目标实体对,基于各所述目标实体关系连接各所述目标实体对,构成实体关系图并存储,解决了现有实体,关系数据存储所带来的存储开销和过程繁琐等问题,简化了实体关系图的确定过程,提高了效率,节省了存储空间。

附图说明

图1为本发明实施例一提供的一种实体关系图的确定方法的流程图;

图2为本发明实施例二提供的一种实体关系图的确定方法的流程图;

图3为本发明实施例二提供的一种句法分析树的示意图;

图4为本发明实施例三提供的一种实体关系图的确定装置的结构图;

图5为本发明实施例四提供的一种服务器的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种实体关系图的确定方法的流程图,本实施例可应用于根据实体和实体关系确定实体关系图的情况,该方法可以由实体关系图的确定装置来执行,该装置集成在服务器中,参考图1,该方法包括如下步骤:

s110、确定目标数据中的至少一个实体,并抽取各实体之间的实体关系。

目标数据可以是基于设定规则得到的数据,也可以是根据实际需要选择的特定类数据,其中,设定规则可以是数据清洗、数据集成和数据规范化等规则以将非结构化数据转换成结构化数据,满足用户的需求,其中,结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理,非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,例如办公文档、文本、图片、各类报表、图像和音频/视频信息等。特定类数据可以是用户根据实际需要选择的某种标准,如行业标准等。

数据的实体是一类事物的集合,可以是人、地、事、物和组织,其中,地可以是现实的地理位置,也可以是网络地址或ip地址等虚拟地址,事可以是具体的事件,物可以是实体物也可以是虚拟物,其中实体物可以是树木、鸟兽或衣服等,虚拟物可以是股票或票据等,组织可以是具体的组织机构或团体,例如文工团。实际应用中,每条数据可以包含多个实体,而且可以体现各个实体之间的关联关系,将各个实体之间的关联关系记为实体关系,例如“小明有一个苹果”,“小明”表示的是实体人,“苹果”表示的是实体物,两个实体之间的实体关系即为“拥有”。需要说明的是,不同的实体之间可以具有一种或多种实体关系,同一实体之间也可以具有不同的实体关系,如人与物的实体关系可以是拥有和使用,人与组织的实体关系是属于,人与人的实体关系可以是好友或者同一人。

具体的,确定目标数据的实体的方法可以根据实际需要选择,例如可以采用人工方式,对目标数据进行分析、总结和归纳,确定目标数据的实体,也可以采用自动方式,将目标数据输入预先设置好的实体确定模型中,由实体模型输出实体,其中,实体确定模型可以是基于crf(conditionalrandomfield,条件随机场)的中文命名实体识别模型。实体关系图包括实体和各个实体之间的关系,因此确定出目标数据的实体之后,需要进一步抽取各个实体之间的关系。可以理解的是,两个实体之间可能存在多种实体关系,例如人与物的实体关系可以是拥有,也可以是使用,为此,可以通过解析目标数据的语义,确定各个实体的实体关系,并将该实体关系取出,为实体关系图的确定提供依据。

s120、确定各所述实体关系的可靠度。

可靠度是反映实体关系是否真实的一个指标,如果可靠度大于等于预设值,表明抽取的实体关系可以真实的反映目标数据中两个实体之间的关系,反之,如果可靠度小于预设值,表明抽取的实体关系不可信,不能根据该实体关系确定实体关系图,其中,预设值可以根据实际需要设置,实施例不进行限定。具体的,可以根据实体的特征确定可靠度的计算方法,然后根据该方法计算各个实体关系的可靠度,其中,实体的特征可以根据实际需要选择。

s130、根据所述可靠度的排序,确定目标实体关系及相应的目标实体对。

目标实体关系是可靠度满足预设值的实体关系,目标实体对是与目标实体关系对应的实体对,例如,“拥有”这一实体关系的可靠度满足预设值,与“拥有”对应的实体分别为“小明”和“苹果”,则“拥有”为目标实体关系,“小明”和“苹果”为对应的目标实体对。具体的,对计算出的可靠度按照由高到低排序,当可靠度大于等于预设值时,即可根据可靠度确定目标实体关系以及与目标实体关系对应的目标实体对。

s140、基于各所述目标实体关系连接各所述目标实体对,构成实体关系图并存储。

实体关系图也可以称为实体-联系图,是一种用于数据库设计的结构图,包括实体和实体之间的实体关系,通过实体关系图,可以一目了然各个实体之间的关系,并从中快速的获取需要的信息。具体的,根据各个目标实体关系连接对应的各个目标实体对即可构成实体关系图。实体关系图生成之后可以存储在图形数据库,图形数据库是一种非关系型数据库,采用图形理论存储实体之间的实体关系,例如可以将实体关系图存储在neo4j图形数据库,这样存储的好处是相较于关系型数据库,图形数据库可以将结果更加清晰直观的展示给用户,供用户选择自己需要的信息,节省时间。

本发明实施例一提供一种实体关系图的确定方法,通过确定目标数据中的至少一个实体,并抽取各实体之间的实体关系,确定各所述实体关系的可靠度,根据所述可靠度的排序,确定目标实体关系及相应的目标实体对,基于各所述目标实体关系连接各所述目标实体对,构成实体关系图并存储,解决了现有实体,关系数据存储所带来的存储开销和过程繁琐等问题,简化了实体关系图的确定过程,提高了效率,节省了存储空间。

可以理解的是,不同的实体代表的含义可能存在相同或非常相近的情况,例如张三和张阿三表示的是同一个人,同一实体也可能存在多种含义,如“bank”可以表示银行,也可以表示河岸,这些情况的存在会影响实体关系图的精确度因此在确定目标数据的实体之后需要对这些实体进行消歧和归并,以提高实体关系图的精确度。

具体的,在上述实施例的基础上,在确定目标数据中的至少一个实体之后,还包括:

对各所述实体进行消歧和归并处理,得到至少一个标准实体。

消歧即为消除实体的歧义,以确定实体在该数据中的含义。具体的,可以采用基于词典的消歧,即基于语义定义的消歧。如果词典中对word的第i种定义包含词汇otheri,那么如果在一个包含word的句子中,同时也出现了otheri,则认为在该句子中word的语义取词典中的第i种定义。归并即为实体的合并,即将实质相同的实体合并为一个实体,例如将张三和张大三统一为张三。

为了进一步说明消歧和归并的过程,可以将“对各所述实体进行消歧和归并处理,得到至少一个标准实体”具体化为:

根据设定的消歧规则对各所述实体进行消歧处理;

计算各消歧后实体的属性相似度;

根据各所述属性相似度确定各所述消歧后实体的实体相似度;

根据各所述实体相似度,对消歧后各所述实体进行归并处理,得到至少一个标准实体。

具体的,消歧规则可以是根据实际需要设定的规则,例如可以是基于语义的消歧规则,具体过程在前面已经描述,此处不再赘述。实体的属性可以是实体的特性,例如学生(实体)有学号、姓名、年龄和性别等属性。属性相似度是同一类实体的相同属性的相似度,当两个属性的相似度大于预设的属性相似度时,表明两个属性代表的实体为同一实体,实际应用中,可以将属性相似度作为与属性对应的实体的实体相似度,例如,属性1对应的实体为实体1,属性2对应的实体为实体2,如果属性1和属性2的属性相似度为70%,则认为实体1和实体2的实体相似度也为70%。

可选的,对消歧后的实体进行语义分析,并将语义相近的实体划分为一组,例如张三、张大三和张三1990为一组,为了进一步确定三个属性表示的是否为同一人,可以计算张大三和张三1990的属性相似度以及张三和张大三的属性相似度,假设预设的属性相似度值为90%,如果张三和张大三的属性相似度大于等于90%,则确定张三和张大三为同一人,如果张大三和张三1990的属性相似度小于90%,则确定张三和张三1990是两个人。进一步的,根据属性相似度值,可以确定张三和张大三表示的是同一实体,因此可以将张三和张大三进行统一,即将实质相同的实体合并为同一实体,得到一个标准实体,提高了数据的可靠度,同时节省了数据存储的空间。

实施例二

图2为本发明实施例二提供的一种实体关系图的确定方法的流程图,在上述实施例的基础上进行优化,具体的,该方法包括如下步骤:

s210、抓取原始数据,并分析提取所述原始数据的数据特征。

原始数据可以是非结构化的日志数据,可以通过脚本爬虫或者数据汇聚等方式在邮件或网络等抓取,其中,爬虫是自动抓取互联网信息的一种方式,例如可以采用python爬虫爬取日志数据或者在邮件中提取数据。数据特征是数据的特征或特性,可以反映数据代表的信息,例如可以是手机号、身份证或微信号等。可选的,获取原始数据后,对原始数据进行预处理,其中,预处理包括但不限于数据清洗和数据变换,数据清洗可以是数据去重和数据降噪,以提高数据质量,数据变换主要是对数据进行规范化处理,将不同格式的数据转换为预设格式。对原始数据进行预处理后,提取原始数据的数据特征,以生成结构化数据。

s220、根据所述数据特征整合获得目标数据。

提取数据特征后,可以将数据特征按照一定的顺序进行排列,以得到目标数据,并将生成的目标数据存入kafka缓存,其中kafka缓存是一种分布式发布订阅消息系统,用于存储数据。

s230、对目标数据的关键词进行语义解析。

具体的,关键词是反映目标数据的主题,根据数据特征整合得到的目标数据包含多个关键词,为了进一步确定关键词的含义,需要对关键词进行语义解析。

s240、根据解析结果确定所述目标数据中的至少一个实体。

示例性的,关键词a经解析后,表示的是地理位置,因此,可以根据解析结果,将关键词a确定为实体地。可选的,在确定实体后,可以为实体赋予一个标记,根据该标记即可确定当前实体的类型以及该实体表示的含义。

s250、根据预设规则确定各所述实体之间存在的实体关系,并抽取各所述实体关系。

预设规则是确定各个实体之间存在的实体关系的依据,例如可以是先确定实体a和实体b可能存在的实体关系,然后结合语境,从可能存在的实体关系中进一步确定两个实体的实体关系。例如,张三和李四是好朋友,根据预设规则,先确定张三和李四可能是同一人,也可能是两个人,结合语境,可以确定张三和李四是两个人,并且张三和李四的实体关系是好友。需要说明的是,此处的实体可以是根据目标数据确定的实体,也可以是经过消歧和归并处理后得到的标准实体。可选的,在确定出目标数据的实体之后,可以根据预设规则采用人工方式获取各个实体之间的实体关系,也可以采用自动方式,如机器学习,预先将预设规则输入机器学习,然后将目标数据输入机器学习,通过机器学习输出各个实体的实体关系,其中,人工方式或自动方式在上述实施例已经介绍过,此处不再赘述。进一步的,在抽取各个实体的实体关系后,将实体关系应用到赋予标记的实体之间,为了确定抽取的实体关系的可靠度,在抽取出实体关系后将其导入知识库进行学习,并根据学习结果调整实体关系。

可选的,还可以通过构建句法分析树,根据句法分析树确定各个实体之间的关系,句法分析树可以反映目标数据中词与词、词组与词组之间的句法、语义和逻辑关系。示例性的,以“我打篮球”为例,“我”是名词,以nn表示,“打”是动词,以“vt”表示,“篮球”是名词,以nn表示,根据句法分析树的原理可知,“我”对应的推导概率是0.5,树的路径是“我”,“打”的推导概率是1.0,树的路径是“打”,“篮球”的推导概率是0.5,树的路径是“篮球”,“篮球”和“打”组合,符合vp规则,其中,vp表示的是动词词组,推导概率是0.5,nn和vp组合符合s规则,推导概率是0.25,其中s表示的是句子,树的路径是“我打篮球”,由此,得到的最终的句法分析树的示意图如图3所示。需要说明的是,同一语句中,相同词性的推导概率和为1。

得到句法分析树之后,采用机器学习从句法分析树顶端的词向量开始,对句子的语法进行迭代与合并,最终得到该句子的向量表示,根据该向量表示,确定各个实体的实体关系。其中,机器学习可以是递归神经网络。

s260、确定各所述实体关系的可靠度。

为了进一步明确可靠度的确定过程,下面对“确定各所述实体关系的可靠度”进行具体化,具体的,所述确定各所述实体关系的可靠度,包括:

根据所述实体的出处,确定所述实体的来源系数;

根据所述实体的产生时间,确定所述实体的时间系数;

根据预设时间内所述实体出现的频率,确定所述实体的出现频率系数;

根据所述来源系数、所述时间系数和所述出现频率系数确定各所述实体关系的可靠度。

具体的,实体的出处是实体的来源,即当前实体所对应的数据的出处,根据出处确定实体的来源系数,例如如果实体对应的数据来源比较可靠,例如选自百度百科或某种标准,则对应的来源系数较高,反之,如果实体对应的数据来源不可靠,则对应的来源系数较低,具体的,设定哪些数据来源可靠,哪些数据来源不可靠可以根据实际需要设置。

实体的产生时间即实体对应的数据的时间,例如是2018年的数据或者是2017年的数据,实施例设定,选择的数据对应的时间与当前时间越接近,对应的时间系数越高,例如2018年的数据对应的实体的时间系数高于2001年的数据对应的实体的时间系数。

实体出现的频率即预设时间内实体出现的频率,如果出现的频率越高,则出现频率系数越高,其中,预设时间可以根据实际需要进行设置。具体的,可靠度的计算可以根据设定的计算公式计算,其中,计算公式可以是可靠度=来源系数*时间系数*出现频率系数。需要说明的是,来源系数、时间系数和出现频率系数均为百分数。

s270、根据所述可靠度的排序,确定目标实体关系及相应的目标实体对。

s280、基于各所述目标实体关系连接各所述目标实体对,构成实体关系图并存储。

本发明实施例二提供一种实体关系图的确定方法,在上述实施例的基础上,对“确定目标数据中的至少一个实体,并抽取各实体之间的实体关系”以及“确定各所述实体关系的可靠度”进行优化,通过对原始数据进行预处理,并根据提取的数据特征整合得到目标数据,以及根据实体的来源系数、时间系数和出现频率系数确定各实体关系的可靠度,提高了数据质量,增加了实体关系图的可靠度。

实施例三

图4为本发明实施例三提供的一种实体关系图的确定装置的结构图,该装置可以执行上述实施例所述的实体关系图的确定方法,具体的,该装置包括:

第一确定模块410,用于确定目标数据中的至少一个实体,并抽取各实体之间的实体关系;

第二确定模块420,用于确定各所述实体关系的可靠度;

第三确定模块430,用于根据所述可靠度的排序,确定目标实体关系及相应的目标实体对;

构成模块440,用于基于各所述目标实体关系连接各所述目标实体对,构成实体关系图并存储。

本发明实施例三提供一种实体关系图的确定装置,通过确定目标数据中的至少一个实体,并抽取各实体之间的实体关系,确定各所述实体关系的可靠度,根据所述可靠度的排序,确定目标实体关系及相应的目标实体对,基于各所述目标实体关系连接各所述目标实体对,构成实体关系图并存储,解决了现有实体,关系数据存储所带来的存储开销和过程繁琐等问题,简化了实体关系图的确定过程,提高了效率,节省了存储空间。

在上述实施例的基础上,第一确定模块410,包括:

解析单元,用于对目标数据的关键词进行语义解析;

实体确定单元,用于根据解析结果确定所述目标数据中的至少一个实体。

在上述实施例的基础上,该装置还包括:

处理模块,用于在确定目标数据中的至少一个实体之后,对各所述实体进行消歧和归并处理,得到至少一个标准实体。

在上述实施例的基础上,处理模块,包括:

消歧处理单元,用于根据设定的消歧规则对各所述实体进行消歧处理;

计算单元,用于计算各消歧后实体的属性相似度;

确定单元,用于根据各所述属性相似度确定各所述消歧后实体的实体相似度;

归并处理单元,用于根据各所述实体相似度,对消歧后各所述实体进行归并处理,得到至少一个标准实体。

在上述实施例的基础上,第一确定模块410,还包括:

抽取单元,用于根据预设规则确定各所述实体之间存在的实体关系,并抽取各所述实体关系。

在上述实施例的基础上,第二确定模块420,包括:

第一确定单元,用于根据所述实体的出处,确定所述实体的来源系数;

第二确定单元,用于根据所述实体的产生时间,确定所述实体的时间系数;

第三确定单元,用于根据预设时间内所述实体出现的频率,确定所述实体的出现频率系数;

第四确定单元,用于根据所述来源系数、所述时间系数和所述出现频率系数确定各所述实体关系的可靠度。

在上述实施例的基础上,该装置还包括:

抓取模块,用于抓取原始数据,并分析提取所述原始数据的数据特征;

整合模块,用于根据所述数据特征整合获得目标数据。

实施例四

图5为本发明实施例四提供的一种服务器的结构图,参考图5,该服务器包括:处理器510、存储器520、输入装置530和输出装置540。该服务器中处理器510的数量可以是一个或多个,图5以一个处理器510为例。该服务器中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接,图5中以通过总线连接为例。

存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中实体关系图的确定方法对应的程序指令/模块。处理器510通过运行存储在存储器中的软件程序、指令以及模块,从而执行终端的各种功能应用以及数据处理,即实现上述实施例的实体关系图的确定方法。

存储器520主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备、扬声器以及蜂鸣器等音频设备。

本发明实施例四提供的服务器与上述实施例提供的实体关系图的确定方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例具备执行实体关系图的确定方法相同的有益效果。

实施例五

本发明实施例五还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的实体关系图的确定方法。

当然,本发明实施例所提供的一种存储介质,其计算机可执行指令不限于如上所述的实体关系图的确定方法的操作,还可以执行本发明任意实施例所提供的实体关系图的确定方法中的相关操作,且具备相应的功能和有益效果。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是机器人,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的实体关系图的确定方法。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1