技术特征:
1.一种基于偏序格的大型语义图近似摘要方法,其特征在于:该方法包括以下步骤:s1:对大型语义图按照关系类型的丰富程度进行分类,分为:i型,即丰富关系型语义图和ii型,即简单关系型语义图;s2:对于i型语义图,使用算法1根据其特征计算基于偏序格的近似摘要,进而利用算法3计算摘要的信息度,即:覆盖原语义图的比率;s3:对于ii型语义图,使用算法2根据其特征计算基于偏序格的近似摘要,进而利用算法4计算摘要的信息度,即:原语义图实体的过滤比率;s4:生成语义图的偏序格摘要结果。2.根据权利要求1所述的一种基于偏序格的大型语义图近似摘要方法,其特征在于:所述s1具体为:语义图由语义数据rdf三元组构成,将语义图定义为其中v是实体的集合,r是实体之间的关系集合,是关系类型,即对象属性集合,是属性,即数据类型属性集合,是关系到关系类型的映射,是实体到属性集合的映射;将语义图的中实体的属性视为仅关联该实体的性质,而不是实体与属性值之间的关系;定义关系类型指标δ:来衡量语义图中的关系的丰富程度;其中,δ越大则语义图的关系类型越丰富;反之,关系类型越简单;语义图分类步骤,具体如下:s11:首先,提取大型语义图的实体数量|v|及关系类型数量通过解析语义图的rdf文件完成或将语义图导入相应的数据库,包括图数据库和语义数据库,利用数据库查询语言获取;s12:其次,按公式(1)计算关系指标δ;s13:将关系指标δ与设定的指标阈值δ
t
比较大小关系;根据现有大型语义图的情况,将δ
t
默认值设定为10-4
;用户根据所处理的语义图的具体情况进行设定;s14:最后根据δ与δ
t
的大小,得出语义图类型:当δ<δ
t
时,语义图为i型语义图;当δ≥δ
t
时,语义图为ii型语义图。3.根据权利要求2所述的一种基于偏序格的大型语义图近似摘要方法,其特征在于:所述s2具体为:定义1实体模式:给定语义图g,设为实体中所有三元组(s,p,o)中主语s的集合;对任意为实体s的特征集合;一个实体模式(ep)定义为c=(s,t,a),其中:(i)(ii)cs(s)=t;(iii)a=∪
s∈s
l
a
(s);设c为所有实体模式的集合,则形成一个偏序集;若设定2个特殊的实体模式若设定2个特殊的实体模式和则形成一个偏序格;定义2关键关系类型:给定语义图g,若关系类型的子集:是该语义图被检索最频繁的前σ%个关系类型,其中则称r
t
*为关键关系类型集合,r
t
*中的元素为关键关系类型;
设定σ值为20;定义3基于偏序格的i型语义图近似摘要:给定语义图g及关键关系类型集合r
t
*,基于偏序格的i型语义图近似摘要定义为由偏序集(σc,≤)所形成的格σl,其中σc是实体模式集合且每个实体模式至少包含一个关键关系类型,即:算法1给出了计算于偏序格的i型语义图近似摘要elsrr的步骤;该算法的输入是语义图g,关键类型集合r
t
*,参数σ及语义图类型,输出是基于偏序格的i型语义图近似摘要σl;s21:对实体模式集合进行初始化;s22:针对每个语义图中的实体s,若其关联了关键关系类型,则将该实体s及其关联的所有关系类型加入σc中;s23:合并具有相同特征集合cs的实体,并且按照特征集合cs的基数对实体模式ep进行分层;cs_t
k
存放第k层的实体模式ep,即:所有在第k层的实体模式ep均满足:所有实体的特征集合的基数|t|=k;m表示所有特征集合cs的最大值;s24:根据各层的实体模式cs_t生成偏序格σl;s25:返回偏序格σl。4.根据权利要求3所述的一种基于偏序格的大型语义图近似摘要方法,其特征在于:所述s3具体为:定义4基于偏序格的ii型语义图近似摘要:给定语义图g及关键关系类型集合基于偏序格的ii型语义图近似摘要定义为由偏序集(μc,≤)所形成的格μl,其中:有有是具有关系类型为p*的边集合,μ(p*)为p*的阈值;设定μ(p*)=2,过滤至少50%与p*相关的实体;μ(p*)由用户自行设定,且不同的关键关系类型p*设定不同的阈值,以实现对规定实体进行过滤;算法2是给出计算于偏序格的ii型语义图近似摘要elssr的步骤;该算法的输入是语义图g,关键类型集合r
t
*,p*的阈值μ(p*),及语义图类型,输出是基于偏序格的ii型语义图近似摘要μl;s31:对实体模式集合进行初始化;s32:针对每个语义图中的实体s,若该实体s关联了关键关系类型p*,则检查其关联的相应边集合与设定的阈值μ(p*)的关系,若则将该实体s及其关联的所有关系类型加入μc中;s33:合并具有相同特征集合cs的实体,并且按照特征集合cs的基数对实体模式ep进行分层;cs_t
k
存放第k层的实体模式ep,即:所有在第k层的实体模式ep均满足,所有实体的特征集合的基数|t|=k;m表示所有特征集合cs的最大值;s34:根据各层的实体模式cs_t生成偏序格μl;s35:返回偏序格μl。5.根据权利要求4所述的一种基于偏序格的大型语义图近似摘要方法,其特征在于:所述s4具体为:定义5elsrr的基图:给定语义图关键关系类型集合r
t
*,以及该语义图的elsrr摘要σl=(σc,≤),g的基图定义为:是语义图g
的子图满足:(1)v
b
=v
σ
∪v
n
,其中v
n
包含v
σ
中所有节点的邻接节点;(2)r
b
={(u,v)|u∈v
σ
or v∈v
σ
};(3)(4)(5)是一个映射,将r
b
中的关系映射为语义图中的关系类型;(6)是一个映射,将v
b
中的实体映射到语义图中的属性集合;elsrr的基图就是摘要所覆盖的原语义图的子图;定义6elsrr的信息度:给定语义图关键关系类型集合r
t
*,以及该语义图的elsrr摘要σl=(σc,≤),elssr的信息度定义为:其中,v
b
和r
b
是基图的实体集合与关系集合,v和r是语义图的实体集合与关系集合;算法3是elsrr信息度计算方法;具体步骤如下:s41:初始化相应变量i
σ
,v
b
,v
σ
,v
n
,r
b
;s42:计算σl的基图g
b
;s43:根据公式(2)计算信息度i
σ
;s44:返回信息度i
σ
;定义7elssr的信息度:给定语义图关键关系类型集合r
t
*及其阈值μ(r
t
*),该语义图的elssr摘要μl=(μc,≤),elssr的信息度定义为:其中v
μ
为μc所包含的所有实体集合;算法4是elssr信息度计算方法;具体步骤如下:s51:初始化相应变量i
μ
,v
b
,v
σ
,v
n
,r
b
;s52:计算μl的实体数量;s53:根据公式(3)计算信息度i
μ
;s54:返回信息度i
μ
。6.一种基于偏序格的大型语义图近似摘要系统,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1~5任一项所述的方法。7.一种计算机可读存储介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1~5任一项所述的方法。
技术总结
本发明涉及一种基于偏序格的大型语义图近似摘要方法及系统,属于计算机领域。本发明首先根据关系类型指标将语义图分为两类,针对每一类语义图的特点,再利用代数结构中偏序格这一数学模型对语义图中的实体和关系生成格结构,作为该类语义图的摘要。对于两类语义图,本发明给出了摘要的方法和相应的摘要信息度指标,以对生成的语义图摘要进行评估,从而达到高效提取大型语义图关键信息的目的。到高效提取大型语义图关键信息的目的。到高效提取大型语义图关键信息的目的。
技术研发人员:王艺
受保护的技术使用者:西南大学
技术研发日:2022.01.17
技术公布日:2022/4/22