时序知识图谱生成方法、装置、设备和介质与流程

文档序号:20949721发布日期:2020-06-02 20:04阅读:424来源:国知局
时序知识图谱生成方法、装置、设备和介质与流程

本申请实施例涉及计算机技术,具体涉及知识图谱技术,尤其涉及一种时序知识图谱生成方法、装置、设备和介质。



背景技术:

知识图谱是从语义角度用结构化信息表示现实世界知识的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。知识是指知识图谱中关于现实世界的客观事实的描述,通常包括实体对(主体s-客体opair)与他们之间的关系(p),以spo三元组的形式表示。

然而,目前通用的知识三元组对知识的时间表达精度不高,只能通过离散时间状态进行简单表示。此外,时间作为一种度量方式,本身是可以进行计算操作的,由于知识的时间表达精度不高,导致知识不支持时间信息的计算。



技术实现要素:

本申请实施例公开一种时序知识图谱生成方法、装置、设备和介质,以提出一种基于包含时间区间的结构化数据格式生成时序知识图谱的方式,对构建时序知识图谱的数据格式进行统一的规范化,提高知识图谱中知识的时间信息的表达精度。

第一方面,本申请实施例公开了一种时序知识图谱生成方法,包括:

获取包括时间信息的语料;

对所述语料进行多元数据抽取,其中,所述多元数据包括实体对、实体关系、以及所述实体关系的目标时间区间,所述目标时间区间用于表示所述实体关系有效的期限;

基于所述实体对、实体关系、以及所述实体关系的目标时间区间,生成时序知识图谱。

上述申请中的一个实施例具有如下优点或有益效果:提出了一种基于包含时间区间的结构化数据格式生成时序知识图谱的方式,对构建时序知识图谱的数据格式进行了统一的规范化,使得时序知识图谱中可以准确的表达每个实体对的实体关系的有效期限,提高了时间信息的表达精度,并且基于实体关系的时间区间,可以支持时间维度的知识计算。

可选的,所述实体关系的目标时间区间的抽取过程包括:

通过所述多元数据抽取,得到所述实体关系的多个时间区间;

对所述多个时间区间进行融合处理,得到所述目标时间区间。

上述申请中的一个实施例具有如下优点或有益效果:确保了时序知识图谱中各实体关系的有效时间区间的准确性和完整性。

可选的,对所述多个时间区间进行融合处理,得到所述目标时间区间,包括:

按照所述多个时间区间中每个时间区间的置信度,对所述多个时间区间进行筛选;

按照时间顺序对筛选后的时间区间进行整合,得到所述目标时间区间。

可选的,按照所述多个时间区间中每个时间区间的置信度,对所述多个时间区间进行筛选,包括:

统计所述多个时间区间中每个时间区间对应的数据源在所述语料中的数量;

根据所述数量,确定每个时间区间的置信度;

按照所述置信度,对所述多个时间区间进行筛选。

可选的,所述方法还包括:

确定所述目标时间区间的时间起点和时间终点是否存在空值;

如果存在空值,则利用与当前语料不同来源的候选语料,确定所述空值的有效性。

可选的,对所述语料进行多元数据抽取,包括:

利用预先训练的特征提取模型,对所述语料中的每个语句进行特征提取;

基于每个语句的提取特征,对每个语句中的词语进行分类标注,得到所述多元数据。

可选的,所述方法还包括:

利用训练语料集和所述训练语料集中每个语句的多元数据标记结果,训练得到多元数据抽取模型,使得利用所述多元数据抽取模型执行所述特征提取和所述分类标注操作。

可选的,对所述语料进行多元数据抽取,包括:

分析所述语料中文本的主题或文本结构;

如果所述文本的主题属于预设主题,或者所述文本结构属于预设文本结构,则采用不同的数据抽取方式抽取所述多元数据。

上述申请中的一个实施例具有如下优点或有益效果:本实施例方案支持按照语料中文本结构和文本主题,采用不同的知识抽取方式对多元数据中的各数据进行灵活的区分抽取,有助于提高知识抽取的效率和准确性。

可选的,所述采用不同的数据抽取方式抽取所述多元数据,包括:

按照预设关系抽取方式从所述文本的语句中抽取所述实体关系,其中,所述预设关系抽取方式是指基于知识抽取需求而预先定义的确定实体关系的方式;

通过对所述文本中的语句进行特征提取与词语分类标注,得到所述实体对、以及所述实体关系的目标时间区间。

可选的,在对所述语料进行多元数据抽取之后,所述方法还包括:

按照知识抽取需求,对所述抽取的实体对中的任一论元和所述抽取的实体关系进行消歧;

对消歧后的实体对和消歧后的实体关系进行融合。

上述申请中的一个实施例具有如下优点或有益效果:通过知识消歧和知识融合等后处理操作,可以提高用于构建时序知识图谱的多元数据的表达准确性和知识的全面性。

可选的,所述获取包括时间信息的语料,包括:

通过对所述时间信息的识别,得到包括所述时间信息的语料;

其中,所述时间信息包括语料正文记载的时间、语料数据的推送时间、语料数据的更新时间、以及基于语料来源间接获取的时间。

上述申请中的一个实施例具有如下优点或有益效果:通过按照时间信息筛选用于当前知识抽取的语料,确保了可用语料的针对性和语料质量,进而提高了知识抽取的效率。

可选的,所述多元数据采用五元组数据形式,分别包括主体、实体关系、客体、关系生效时间起点、关系失效时间终点。

第二方面,本申请实施例还公开了一种时序知识图谱生成装置,包括:

语料获取模块,用于获取包括时间信息的语料;

数据抽取模块,用于对所述语料进行多元数据抽取,其中,所述多元数据包括实体对、实体关系、以及所述实体关系的目标时间区间,所述目标时间区间用于表示所述实体关系有效的期限;

图谱生成模块,用于基于所述实体对、实体关系、以及所述实体关系的目标时间区间,生成时序知识图谱。

第三方面,本申请实施例还公开了一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本申请实施例任一所述的时序知识图谱生成方法。

第四方面,本申请实施例还公开了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如本申请实施例任一所述的时序知识图谱生成方法。

根据本申请实施例的技术方案,通过同时抽取实体对、实体关系、以及实体关系的目标时间区间,提出了一种基于包含时间区间的结构化数据格式生成时序知识图谱的方式,对构建时序知识图谱的数据格式进行了统一的规范化,使得时序知识图谱中可以准确的表达每个实体对的实体关系的有效期限,解决了现有技术中知识图谱中的时间信息表达精度较低的问题,提高了时间信息的表达精度,并且基于实体关系的时间区间,可以支持时间维度的知识计算,提高了对时序知识的灵活使用;并且,使得时序知识图谱能够支持更丰富的需要提供知识信息的场景。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1是根据本申请实施例公开的一种时序知识图谱生成方法的流程图;

图2是根据本申请实施例公开的另一种时序知识图谱生成方法的流程图;

图3是根据本申请实施例公开的一种时序知识图谱生成装置的结构示意图;

图4是根据本申请实施例公开的一种电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请实施例公开的一种时序知识图谱生成方法的流程图,本实施例可以适用于通过对语料进行知识抽取,构建包括实体关系有效时间区间的时序知识图谱的情况。本实施例方法可以由时序知识图谱生成装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成在任意的具有计算能力的电子设备上,例如服务器等。

如图1所示,本实施例公开的时序知识图谱生成方法包括:

s101、获取包括时间信息的语料。

在本实施例中,语料可以来源于网页、百科数据库等,根据不同的知识抽取需求,网页可以包括各种主题类别,例如教育、科技、体育等。在初步获取语料后,可以利用表征时间信息的关键词对初步获取的语料进行筛选,从而获得包括时间信息的语料。

示例性的,获取包括时间信息的语料,包括:通过对时间信息的识别,得到包括时间信息的语料;其中,时间信息包括语料正文记载的时间、语料数据的推送时间、语料数据的更新时间、以及基于语料来源间接获取的时间。对于不同来源的语料,识别其中的时间信息的方式可以不同,例如对于网页数据,可以利用文本识别技术从网页正文识别,或者使用网页更新时间,或者根据特定网页标签/位置来间接获取;对于百科数据库,可以通过数据文本识别,或者使用数据推送时间等方式获取。

在进行多元数据抽取之前,除了按照时间信息对初步获取的语料进行过滤外,还可以基于当前知识抽取需求,按照语料来源的可靠性、文本内容质量、文本主题类型等预设条件对初步获取的语料进行过滤,从而保证用于当前知识抽取的语料的质量。

s102、对语料进行多元数据抽取,其中,多元数据包括实体对、实体关系、以及实体关系的目标时间区间,目标时间区间用于表示实体关系有效的期限。

获取包括时间信息的语料之后可以通过对该语料中的文本,按照标点符号或者段落划分等方式,对文本进行切分处理,然后基于切分后的文本进行多元数据抽取,数据抽取的实现方式包括利用预先训练的多元数据抽取模型,或者通过对实体对、用于表征实体关系的关键词和用于表示时间信息的关键词进行识别等方式,本实施例不作具体限定。并且,根据数据抽取的具体实现,还可以对语料中的文本数据进行格式转换,以得到抽取过程中可识别的文本数据。

每个实体对中均包括主体和客体这两个论元,实体关系即用于表示主体和客体之间的关系或者属性,每个实体关系在对应的目标时间区间内有效,超出目标时间区间则该实体关系无效。通过在知识图谱中增加对每个实体关系的有效时间区间,提高了知识图谱中时间信息的表达精度,进而也便于后续对该实体关系进行时间维度的知识计算。例如,按照本实施例方法进行知识抽取,可以确定a在2009年至2013年担任b国总统,结合已统计的2009年之前该b国的历任总统信息,可以根据时间区间的排序,计算出第x任b国总统信息。

可选的,多元数据可以采用五元组数据形式,分别包括主体、实体关系、客体、关系生效时间起点(from值)、关系失效时间终点(to值),关系生效时间起点和关系失效时间终点组成时间区间,从而实现对构建知识图谱的数据格式的统一化和规范化。当然,如果存在增加其他的论元数据的需求时,多元数据也可以采用多于五维论元的数据形式,从而达到数据可灵活扩展的效果。

可选的,实体关系的目标时间区间的抽取过程包括:通过多元数据抽取,得到实体关系的多个时间区间;对多个时间区间进行融合处理,得到目标时间区间。当语料较多时,经过知识抽取,每个实体对的实体关系可能对应多个时间区间,例如至少两个时间区间,为确保知识图谱中每个实体关系的时间区间的准确性和全面性,则需要对得到的多个时间区间进行融合处理,例如,错误时间区间的去除、以及按照时间顺序对不同时间区间进行拼接或者去重等。

可选的,对多个时间区间进行融合处理,得到目标时间区间,包括:按照多个时间区间中每个时间区间的置信度,对多个时间区间进行筛选;按照时间顺序对筛选后的时间区间进行整合,例如时间区间的拼接或者去重等,得到目标时间区间。示例性的,可以将置信度低于置信度阈值的时间区间丢弃,然后按照时间顺序将筛选后的时间区间进行拼接,得到最终的from值和to值,从而得到目标时间区间。对于存在时间间隔,不能进行拼接的多个时间区间,可以分别作为独立的目标时间区间,对应于相同的实体关系,相当于当前抽取得到多组多元数据。其中,每个时间区间的置信度可以根据预先确定的语料来源的优先级进行确定,例如语料来源的优先级越高,从该语料中抽取出的时间区间的置信度越高;也可以通过统计抽取出同一时间区间的数据源在语料中的数量,根据该数量动态确定该时间区间的置信度,本实施例不作具体限定。执行知识抽取任务所用的语料中可以包括多个数据源,例如不同网址的网页文本等。多个数据源可以分别对应不同的语料来源,也可以对应相同的语料来源。语料来源可以按照信息发布方进行区分。

示例性的,按照多个时间区间中每个时间区间的置信度,对多个时间区间进行筛选,包括:统计多个时间区间中每个时间区间对应的数据源在语料中的数量;根据统计的数量,确定每个时间区间的置信度;按照置信度,对多个时间区间进行筛选。例如,多个时间区间分别为a、b、c,抽取出时间区间a的数据源在语料中的数量为x1,抽取出时间区间b的数据源在语料中的数量为x2,抽取出时间区间c的数据源在语料中的数量为x3,x1>x2>x3,则时间区间a、b、c的置信度依次减小,可以将置信度小于置信度阈值的时间区间丢弃,置信度阈值可以适应性设置。

进一步的,本实施例方法还可以包括:确定目标时间区间的时间起点和时间终点是否存在空值;如果存在空值,则利用与当前语料不同来源的候选语料,确定空值的有效性,即对候选语料进行相关的时间信息识别,对时间区间中的空值进行验证,如果确定空值无效,则利用从候选语料中识别的时间对该空值进行替换,以确保当前确定的目标时间区间的可靠性。

s103、基于实体对、实体关系、以及实体关系的目标时间区间,生成时序知识图谱。

根据本实施例的技术方案,通过同时抽取实体对、实体关系、以及实体关系的目标时间区间,提出了一种基于包含时间区间的结构化数据格式生成时序知识图谱的方式,对构建时序知识图谱的数据格式进行了统一的规范化,使得时序知识图谱中可以准确的表达每个实体对的实体关系的有效期限,解决了现有技术中知识图谱中的时间信息表达精度较低的问题,提高了时间信息的表达精度,并且基于实体关系的时间区间,可以支持时间维度的知识计算,提高了对时序知识的灵活使用;并且,使得时序知识图谱能够支持更丰富的需要提供知识信息的场景。

图2是根据本申请实施例公开的另一种时序知识图谱生成方法的流程图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。如图2所示,该方法包括:

s201、获取包括时间信息的语料。

s202、利用预先训练的特征提取模型,对语料中的每个语句进行特征提取;

s203、基于每个语句的提取特征,对每个语句中的词语进行分类标注,得到多元数据。

其中,多元数据包括实体对、实体关系、以及实体关系的目标时间区间,目标时间区间用于表示实体关系有效的期限。特征提取模型可以利用现有技术中任意的能够对语句进行特征提取的模型实现,本实施例不作具体限定,例如利用基于双向长短时间记忆网络(bidirectionallongshort-termmemory,lstm)的特征提取模型,通过对语料中每个语句中的上下文进行分析,提取每个语句的特征,并利用特征向量的形式表示,然后通过对每个语句中的词语进行分类标注,将每个语句中的词语按照多元数据中包括的多个论元进行分类,其中,词语分类标注可以利用预先训练的分类标注模型实现,包括但不限于基于条件随机场(conditionalrandomfield,crf)的分类标注模型等。本实施例中所述的词语包括单字构成的词语。

在对多元数据进行抽取的过程中,可以分步利用两个训练模型分别执行特征提取和分类标注操作,也可以利用一个综合模型同时用于执行特征提取和分类标注操作。可选的,本实施例方法还包括:利用训练语料集和训练语料集中每个语句的多元数据标记结果,训练得到多元数据抽取模型,使得利用多元数据抽取模型执行特征提取和分类标注操作,其中,多元数据抽取模型可以基于长短期记忆网络和条件随机场实现。

此外,本实施例中的多元数据抽取模型采用的标注序列可以为bioe结构。通过对标注结果利用bioe结构进行约束,可以提升词语分类标注结果的质量,将具有完整bioe结构的标注结果确定为正确的标注结果,即有效的多元数据,否则在构建时序知识图谱过程中不予采用。

s204、按照知识抽取需求,对抽取的实体对中的任一论元和抽取的实体关系进行消歧。

消歧的目的在于避免一词多义或者多词一义等现象影响抽取的实体对或实体关系的准确性。通过分析语句所属文本的上下文信息,将每个实体对中的任一论元和抽取的实体关系对应到真正的实体对或实体关系。其中,知识抽取需求中定义了当前需要抽取的目标实体和目标实体关系。

s205、对消歧后的实体对和消歧后的实体关系进行融合。

考虑互联网中的信息存在大量冗余,相同的知识可能在语料的多个数据源中都有提及,通过融合处理可以实现知识的去冗,对相同知识进行合并。示例性的,以实体对中的论元-客体为例,如果该客体是实体,则对相同实体进行融合;如果该客体是非实体,则可以依赖预先定义的词典和融合方式对该客体进行融合,其中,词典是基于语言表达的多样性预先定义的同义或近义的词语数据库,融合方式是指根据知识抽取需求预先定义的融合处理策略,例如使用不同短语结构表达相同的语义,则这两个短语可以进行合并。预先定义的词典和融合方式均可以用于辅助确定多个非实体的客体是否实质上对应同一客体。通过知识消歧和知识融合等后处理操作,可以提高用于构建时序知识图谱的多元数据的表达准确性和知识的全面性。

s206、基于融合处理后的实体对、实体关系、以及实体关系的目标时间区间,生成时序知识图谱。

在上述技术方案的基础上,可选的,对语料进行多元数据抽取,包括:

分析语料中文本的主题或文本结构;

如果文本的主题属于预设主题,或者文本结构属于预设文本结构,则采用不同的数据抽取方式抽取多元数据。

对于当前用于知识抽取的语料,可以通过对每个文本进行关键词识别与分析确定文本主题,或者利用文本结构分析技术对每个文本结构进行分析。考虑语料来源的多样性以及语言表达的多样性,当前语料中包含的多元数据并非均需要统一使用预先训练的多元数据抽取模型来抽取,如果语料中特定文本的文本结构较为简单或者较为固定,即属于预设文本结构,则可以针对该类文本,灵活采用不同的数据抽取方式快速抽取出其中的多元数据。预设主题是指根据网络内容发布的习惯所预先确定的使用简单的文本结构或固定文本结构发布的文本内容的主题。

进一步的,采用不同的数据抽取方式抽取多元数据,包括:

按照预设关系抽取方式从文本的语句中抽取实体关系,其中,预设关系抽取方式是指基于知识抽取需求而预先定义的确定实体关系的方式;

通过对文本中的语句进行特征提取与词语分类标注,得到实体对、以及实体关系的目标时间区间。

示例性的,预设关系抽取方式可以是指通过语句中的关键词识别与匹配确定实体关系,具体的,可以根据知识抽取需求,为每种实体关系预先定义包括预设数量的关键词的集合,只要语句中包括该关键词集合中的词语,则可以确定该语句中实体对的实体关系;预设关系抽取方式还可以是利用预先训练的专门用于抽取实体关系的关系抽取模型实现,例如,利用训练语料集和训练语料集中每个语句中的实体关系标注结果训练得到关系抽取模型;预设关系抽取方式还可以是通过对语句进行语义分析而确定实体关系,该方法尤其适用于实体关系的隐性表达语句中;实体对、以及实体关系的目标时间区间可以利用预先训练的实体对和时间抽取模型确定,模型训练过程与前述模型训练思想一致,在此不在赘述。此外,实体关系的时间区间也可以采用人工输入的方式确定。当首先确定出实体关系后,可以将用于表示该实体关系的关键词在其所属语句中的位置作为实体对和时间抽取模型的输入,以用于辅助抽取实体对和实体关系的目标时间区间,从而提高知识抽取的准确性,当然,此时,实体对和时间抽取模型的训练过程中也需要将用于表示实体关系的关键词在其所属训练语句中的位置作为输入进行模型训练。

本实施例中通过根据语料中文本的主题或者文本结构对语料中的文本进行区分,采用不同的知识抽取方式对实体对、实体关系的目标时间区间和实体关系进行灵活的区分抽取,有助于提高知识抽取的效率;而且在一个抽取模型训练过程中标注数据的维度越多,该训练模型的输出结果的出错率越高,因此,通过区分抽取,减少模型训练过程中的标注数据的维度,还可以降低知识抽取的出错率。

根据本实施例的技术方案,按照统一和规范的包含时间区间的结构化数据格式,通过对语料中的每个语句进行特征提取与词语分类标注,得到多元数据,构建时序知识图谱,解决了现有技术中知识图谱中的时间信息表达精度较低的问题,提高了时间信息的表达精度;并且通过知识消歧和融合处理,提高了时序知识图谱中知识描述的准确性和全面性;而且,本实施例方案支持按照语料中文本结构和文本主题,采用不同的知识抽取方式对多元数据中的各数据进行灵活的区分抽取,有助于提高知识抽取的效率和准确性。

图3是根据本申请实施例公开的一种时序知识图谱生成装置的结构示意图,本实施例可以适用于通过对语料进行知识抽取,构建包括时间信息的时序知识图谱的情况。本实施例装置可以采用软件和/或硬件的方式实现,并可集成在任意的具有计算能力的电子设备上,例如服务器等。

如图3所示,本实施例公开的时序知识图谱生成装置300包括语料获取模块301、数据抽取模块302和图谱生成模块303,其中:

语料获取模块301,用于获取包括时间信息的语料;

数据抽取模块302,用于对语料进行多元数据抽取,其中,多元数据包括实体对、实体关系、以及实体关系的目标时间区间,目标时间区间用于表示实体关系有效的期限;

图谱生成模块303,用于基于实体对、实体关系、以及实体关系的目标时间区间,生成时序知识图谱。

可选的,数据抽取模块302包括:

时间区间抽取单元,用于通过多元数据抽取,得到实体关系的多个时间区间;

目标时间区间确定单元,用于对多个时间区间进行融合处理,得到目标时间区间。

可选的,目标时间区间确定单元包括:

时间区间筛选子单元,用于按照多个时间区间中每个时间区间的置信度,对多个时间区间进行筛选;

时间区间整合子单元,用于按照时间顺序对筛选后的时间区间进行整合,得到目标时间区间。

可选的,时间区间筛选子单元具体用于:

统计多个时间区间中每个时间区间对应的数据源在语料中的数量;

根据统计的数量,确定每个时间区间的置信度;

按照置信度,对多个时间区间进行筛选。

可选,数据抽取模块302还包括:

时间空值确定单元,用于确定目标时间区间的时间起点和时间终点是否存在空值;

空值有效性确定单元,用于如果存在空值,则利用与当前语料不同来源的候选语料,确定空值的有效性。

可选的,数据抽取模块302包括:

特征提取单元,用于利用预先训练的特征提取模型,对语料中的每个语句进行特征提取;

词语分类标注单元,用于基于每个语句的提取特征,对每个语句中的词语进行分类标注,得到多元数据。

可选的,数据抽取模块302还包括:

模型训练单元,用于利用训练语料集和训练语料集中每个语句的多元数据标记结果,训练得到多元数据抽取模型,使得利用多元数据抽取模型执行特征提取和分类标注操作。

可选的,数据抽取模块302包括:

文本主题或结构分析单元,用于分析语料中文本的主题或文本结构;

多元数据抽取单元,用于如果文本的主题属于预设主题,或者文本结构属于预设文本结构,则采用不同的数据抽取方式抽取多元数据。

可选的,多元数据抽取单元包括:

实体关系抽取子单元,用于按照预设关系抽取方式从文本的语句中抽取实体关系,其中,预设关系抽取方式是指基于知识抽取需求而预先定义的确定实体关系的方式;

实体对和时间区间抽取子单元,用于通过对文本中的语句进行特征提取与词语分类标注,得到实体对、以及实体关系的目标时间区间。

可选的,本实施例装置还包括:

消歧模块,用于数据抽取模块302执行对语料进行多元数据抽取的操作之后,按照知识抽取需求,对抽取的实体对中的任一论元和抽取的实体关系进行消歧;

融合模块,用于对消歧后的实体对和消歧后的实体关系进行融合。

可选的,语料获取模块301具体用于:

通过对时间信息的识别,得到包括时间信息的语料;

其中,时间信息包括语料正文记载的时间、语料数据的推送时间、语料数据的更新时间、以及基于语料来源间接获取的时间。

可选的,多元数据采用五元组数据形式,分别包括主体、实体关系、客体、关系生效时间起点、关系失效时间终点。

本申请实施例所公开的时序知识图谱生成装置300可执行本申请实施例所公开的时序知识图谱生成方法,具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本申请任意方法实施例中的描述。

根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。

如图4所示,图4是用于实现本申请实施例中时序知识图谱生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请实施例的实现。

如图4所示,该电子设备包括:一个或多个处理器401、存储器402,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示图形用户界面(graphicaluserinterface,gui)的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作,例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统。图4中以一个处理器401为例。

存储器402即为本申请实施例所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请实施例所提供的时序知识图谱生成方法。本申请实施例的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请实施例所提供的时序知识图谱生成方法。

存储器402作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中时序知识图谱生成方法对应的程序指令/模块,例如,附图3所示的语料获取模块301、数据抽取模块302和图谱生成模块303。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的时序知识图谱生成方法。

存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据时序知识图谱生成方法的电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至用于实现本实施例中时序知识图谱生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用于实现本实施例中时序知识图谱生成方法的电子设备还可以包括:输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接,图4中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息,以及产生与用于实现本实施例中时序知识图谱生成方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置和触觉反馈装置等,其中,辅助照明装置例如发光二极管(lightemittingdiode,led);触觉反馈装置例如,振动电机等。该显示设备可以包括但不限于,液晶显示器(liquidcrystaldisplay,lcd)、led显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(applicationspecificintegratedcircuit,asic)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序,也称作程序、软件、软件应用、或者代码,包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置,例如,磁盘、光盘、存储器、可编程逻辑装置(programmablelogicdevice,pld),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置,例如,阴极射线管(cathoderaytube,crt)或者lcd监视器;以及键盘和指向装置,例如,鼠标或者轨迹球,用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈,例如,视觉反馈、听觉反馈、或者触觉反馈;并且可以用任何形式,包括声输入、语音输入或者、触觉输入,来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统,例如,作为数据服务器,或者实施在包括中间件部件的计算系统,例如,应用服务器,或者实施在包括前端部件的计算系统,例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互,或者实施在包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信,例如通信网络,来将系统的部件相互连接。通信网络的示例包括:局域网(localareanetwork,lan)、广域网(wideareanetwork,wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案,通过同时抽取实体对、实体关系、以及实体关系的目标时间区间,提出了一种基于包含时间区间的结构化数据格式生成时序知识图谱的方式,对构建时序知识图谱的数据格式进行了统一的规范化,使得时序知识图谱中可以准确的表达每个实体对的实体关系的有效期限,解决了现有技术中知识图谱中的时间信息表达精度较低的问题,提高了时间信息的表达精度,并且基于实体关系的时间区间,可以支持时间维度的知识计算,提高了对时序知识的灵活使用。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1