一种基于图神经网络的商品信息自动补全方法

文档序号:32050808发布日期:2022-11-03 09:04阅读:66来源:国知局
一种基于图神经网络的商品信息自动补全方法

1.本发明属于商品知识图谱和图神经网络技术领域,具体涉及一种基于图神经网络的商品信息自动补全方法。


背景技术:

2.知识图谱是大规模语义网络知识库,采取符号化的知识表示方式,利用三元组来描述具体的知识,并以有向图的形式对其进行表示和存储,具有语义丰富、结构友好、易于理解等优点。由于在表达人类先验知识上具有优良的特性,知识图谱将数据结构化组织成知识,已被广泛应用到搜索引擎、推荐系统、智能问答系统等知识驱动的任务。
3.为了高效地存储及利用知识,人们通过自动化或众包的方式构建了许多面向开放域和垂直域的知识图谱,常用的开放域知识图谱如wikidata、freebase以及dbpedia等,垂直域知识图谱如商品知识图谱、医疗知识图谱等。
4.商品知识图谱中知识为商品信息,其存储形式为三元组,每个三元组由两个实体和表示两个实体之间的关系组成,并对应一条商品知识。其中实体包括用户,商品等,关系包含了用户维度、商品维度、品类维度等,用户维度包含了共同购买关系和共同浏览关系,商品维度包含了相似商品关系以及商品描述关系,品类维度包含商品所属类目的层级关系。例如三元组(乐事黄瓜味,品牌,乐事)表示乐事黄瓜味的品牌是乐事,其中“乐事黄瓜味”被称作头实体,“乐事”被称作尾实体,“品牌”被称为关系。
5.由于商品知识图谱的构建常通过自动化或半自动化的手段,已构建图谱存在知识不完整性问题。为解决该问题,许多知识图谱表示学习算法被提出用于预测新知识,如现有文献bordes a,usunier n,garcia-duran a,et al.translating embeddings for modeling multi-relational data[j].advances in neural information processing systems,2013,26和现有文献sun z,deng z h,nie j y,et al.rotate:knowledge graph embedding by relational rotation in complex space[c]//international conference on learning representations.2018公开的预测新知识的方法。
[0006]
但这些方法主要通过给定商品和关系预测缺失的尾实体。如果给定的商品实体和关系不存在关联,那预测本身是没有意义的。因此,更实际的问题是在只给定商品实体的情况下,如何为该商品实体预测可能存在的关系以及对应的尾实体。直观的做法是遍历所有的(关系,尾实体)组合,但这样的方法对于大规模商品知识图谱来说,计算的代价是很大的。


技术实现要素:

[0007]
鉴于上述,本发明的目的是提供一种基于图神经网络的商品信息自动补全方法,通过仅利用商品知识图谱中已有商品信息三元组,对给定的商品预测可能的关系和尾实体的组合,以实现商品信息三元组的自动补全。
[0008]
为实现上述发明目的,本发明提供以下技术方案:
[0009]
一种基于图神经网络的商品信息自动补全方法,包括以下步骤:
[0010]
步骤1,获取商品知识图谱,商品知识图谱包含的商品信息三元组(头实体,关系,尾实体)中头实体和尾实体为商品或商品属性,关系为商品维度关系、品类维度关系,从商品信息三元组中提取头实体-关系二元组(头实体,关系)、关系-尾实体二元组(关系,尾实体),依据头实体-关系二元组构建头实体-关系图,根据关系-尾实体二元组构建尾实体-关系图;
[0011]
步骤2,利用两个图神经网络并行学习头实体-关系图和尾实体-关系图的头实体、尾实体以及关系的表示,通过两个聚合操作获取聚合后的表示,同时一阶段更新两个图神经网络的网络参数与两个聚合操作参数;
[0012]
步骤3,对齐头实体-关系图和尾实体-关系图中的共现实体,并基于共现实体的头实体和尾实体的表示构建差异损失来二阶段更新两个图神经网络的网络参数与两个聚合操作参数;
[0013]
步骤4,针对待补全商品信息中的头实体,从关系集合中提取关系,该头实体与提取的关系通过二阶段参数优化后的第一图神经网络和聚合操作提取表示后,基于头实体表示与关系表示之间的粘合度来筛选候选关系;
[0014]
步骤5,从实体集合中提取尾实体,该尾实体与候选关系通过二阶段参数优化后的第二图神经网络和聚合操作提取表示后,基于尾实体表示与候选关系表示之间的粘合度来筛选候选尾实体;
[0015]
步骤6,将候选关系、候选尾实体以及头实体组成候选商品信息三元组,计算候选商品信息三元组的知识表示分数,基于知识表示分数筛选确定可靠的候选商品信息三元组,完成商品信息的自动补全。
[0016]
与现有技术相比,本发明具有的有益至少包括:
[0017]
在构建头实体-关系图和尾实体-关系图的基础上,通过图神经网络和聚合操作更新实体表示和关系表示,这样得到的实体表示和关系表示更加准确,在此基础上,对于给定的商品头实体,通过基于头实体表示与关系表示之间的粘合度来筛选候选关系,基于尾实体表示与候选关系表示之间的粘合度来筛选候选尾实体,不需要遍历所有的(关系,尾实体)组合,即能够快速过滤关系和尾实体,得到由候选关系、候选尾实体以及头实体组成候选商品信息三元组,再基于该候选商品信息三元组的知识表示分数来确定可靠的候选商品信息三元组,实现了快速准确的商品信息的自动补全。
附图说明
[0018]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
[0019]
图1是实施例提供的基于图神经网络的商品信息自动补全方法的流程图。
具体实施方式
[0020]
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本
发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
[0021]
为了降低商品信息补全的计算开销,提升商品信息补全的效率,实施例提供了一种基于图神经网络的商品信息自动补全方法,首先对(关系,尾实体)组合进行过滤选择可能性大的组合,再计算候选商品信息三元组的分数,以此来提升商品信息补全的效率和准确性。
[0022]
如图1所示,实施例提供的基于图神经网络的商品信息自动补全方法,包括以下步骤:
[0023]
步骤1,获取商品知识图谱,并根据商品知识图谱包含的商品信息三元组构建头实体-关系图和尾实体-关系图。
[0024]
实施例中,商品知识图谱包含的商品信息三元组(头实体,关系,尾实体)中头实体和尾实体为商品或商品属性,关系为商品维度关系、品类维度关系。其中,商品维度关系包含了相似商品关系以及商品描述关系,品类维度关系包含商品所属类目的层级关系。
[0025]
实施例中,从商品信息三元组(头实体,关系,尾实体)中提取头实体-关系二元组(头实体,关系),依据头实体-关系二元组构建头实体-关系图gh,由于头实体-关系二元组只有头实体和关系的连接关系,根据统计对gh计算头实体和头实体、关系和关系之间的相似性,对gh补充头实体和头实体的连接关系,以及关系和关系的连接关系,具体包括:
[0026]
首先,根据头实体连接的关系集合计算头实体之间的相似度,依据头实体之间的相似度筛选似度排名前k1的头实体对,并在组成头实体对的两个头实体之间构建连边,其中,头实体之间的相似度计算表示为:
[0027][0028]
其中,表示第i个头实体与第j个头实体之间的相似度,表示具有相同头实体的二元组中关系rh的集合,|
·
|表示统计集合中元素的个数,∩表示对两个集合中的元素求交集;
[0029]
然后,依据连接到关系的头实体集合计算关系之间的相似度,依据关系之间的相似度筛选似度排名前k2的关系对,并在组成关系对的两个关系之间构建连边,其中,关系之间的相似度计算表示为:
[0030][0031]
其中,表示第i个关系与第j个关系之间的相似度,表示具有相同关系的二元组中头实体eh的集合;
[0032]
将头实体-关系二元组(eh,rh)中的头实体eh和关系rh作为节点,通过在头实体之间构建连边,关系之间构建连边,以构建头实体-关系图。
[0033]
从商品信息三元组中提取关系-尾实体二元组(关系,尾实体),根据关系-尾实体
二元组构建尾实体-关系图g
t
,由于关系-尾实体二元组只有尾实体和关系的连接关系,根据统计对g
t
计算尾实体和尾实体、关系和关系之间的相似性,对g
t
补充尾实体和尾实体的连接关系,以及关系和关系的连接关系,具体包括:
[0034]
首先,根据尾实体连接的关系集合计算尾实体之间的相似度,依据尾实体之间的相似度筛选似度排名前k3的尾实体对,并在组成尾实体对的两个尾实体之间构建连边,其中,尾实体之间的相似度计算表示为:
[0035][0036]
其中,表示第i个尾实体与第j个尾实体表示之间的相似度,表示具有相同尾实体的二元组中关系r
t
的集合,|
·
|表示统计集合中元素的个数,∩表示对两个集合中的元素求交集;
[0037]
然后,依据连接到关系的尾实体集合计算关系之间的相似度,依据关系之间的相似度筛选似度排名前k4的关系对,并在组成关系对的两个关系之间构建连边,其中,关系之间的相似度计算表示为:
[0038][0039]
其中,表示第i个关系与第j个关系之间的相似度,表示具有相同关系的二元组中尾实体e
t
的集合;
[0040]
将关系-尾实体二元组(r
t
,e
t
)中的尾实体e
t
和关系r
t
作为节点,通过在尾实体之间构建连边,关系之间构建连边,以构建尾实体-关系图。
[0041]
步骤2,利用两个图神经网络并行学习头实体-关系图和尾实体-关系图的头实体、尾实体以及关系的表示,通过两个聚合操作获取聚合后的表示,同时一阶段更新两个图神经网络的网络参数与两个聚合操作参数。
[0042]
实施例中,利用第一图神经网络学习头实体-关系图中头实体、关系的表示,然后通过以下聚合操作获取聚合后的头实体表示和关系表示;
[0043][0044]
[0045]
其中,eh′
表示头实体-关系图中头实体聚合的表示,eh表示头实体-关系图中头实体的表示,表示头实体-关系图中与头实体eh有连接关系的第i个头实体的表示,s
e1
表示与头实体eh有连接关系的头实体的集合,表示头实体eh所在二元组(eh,rh)中第j个关系的表示,n
r1
表示头实体eh所在二元组(eh,rh)中关系的集合,rh′
表示头实体-关系图中关系聚合的表示,rh表示头实体-关系图中关系rh的表示,表示头实体-关系图中与关系rh有连接关系的第i个关系的表示,s
r1
表示与关系rh有连接关系的关系的集合,表示关系rh所在二元组(eh,rh)中第j个头实体的表示,n
e1
表示关系rh所在二元组(eh,rh)中头实体的集合,σ(
·
)表示非线性激活函数,w1,w2,w3,b1,b2,b3分别为聚合的权重参数和偏置参数,在训练过程中,这些参数需要被更新。
[0046]
实施例中,利用第二图神经网络学习尾实体-关系图中尾实体、关系的表示,然后通过以下聚合操作获取聚合后的尾实体表示和关系表示;
[0047][0048][0049]
其中,e
t

表示尾实体-关系图中尾实体聚合的表示,e
t
表示尾实体-关系图中尾实体的表示,表示尾实体-关系图中与尾实体e
t
有连接关系的第i个尾实体的表示,s
e2
表示与尾实体e
t
有连接关系的尾实体的集合,表示尾实体e
t
所在二元组(r
t
,e
t
)中第j个关系的表示,n
r2
表示头尾实体e
t
所在二元组(r
t
,e
t
)中关系的集合,r
t

表示尾实体-关系图中关系聚合的表示,r
t
表示尾实体-关系图中关系r
t
的表示,表示尾实体-关系图中与关系r
t
有连接关系的第i个关系的表示,s
r2
表示与关系r
t
有连接关系的关系的集合,表示关系r
t
所在二元组(r
t
,e
t
)中第j个尾实体的表示,n
e2
表示关系r
t
所在二元组(r
t
,e
t
)中尾实体的集合,σ(
·
)表示非线性激活函数,w4,w5,w6,b4,b5,b6分别为聚合的权重参数和偏置参数,在训练过程中,这些参数需要被更新。
[0050]
实施例中,利用头实体-关系图一阶段更新第一图神经网络的网络参数与聚合操作参数采用基于margin的损失函数l
hr
为:
[0051]
[0052]
其中,|gh|表示头实体-关系图gh中二元组(eh,rh)的总个数,eh′
、rh′
表示头实体eh和关系rh聚合后的表示,表示不存在于gh中的二元组(e
h*
,r
h*
)中头实体e
h*
和关系r
h*
聚合后的表示,γ1表示调节超参数,通常取值为0.5或1,||
·
||2表示欧式距离,符号∧表示并且,符号
·
表示点乘。
[0053]
实施例中,利用尾实体-关系图一阶段更新第二图神经网络的网络参数与聚合操作参数采用基于margin的的损失函数l
tr
为:
[0054][0055]
其中,|g
t
|表示尾实体-关系图g
t
中二元组(r
t
,e
t
)的总个数,e
t

、r
t

表示尾实体e
t
和关系r
t
聚合后的表示,表示不存在于g
t
中的二元组(r
t*
,e
t*
)中尾实体e
t*
和关系r
t*
聚合后的表示,γ2表示调节超参数,通常取值为0.5或1,||
·
||2表示欧式距离,符号∧表示并且,符号
·
表示点乘。
[0056]
步骤3,对齐头实体-关系图和尾实体-关系图中的共现实体,并基于共现实体的头实体和尾实体的表示构建差异损失来二阶段更新两个图神经网络的网络参数与两个聚合操作参数。
[0057]
实施例中,将头实体-关系图和尾实体-关系图中相同含义的头实体和尾实体作为共现实体,组成的共现实体对集合ea,基于共现实体的头实体和尾实体的表示构建的差异损失la,表示为:
[0058][0059]
其中,eh′
、e
t

分别表示共现实体对(eh,e
t
)中头实体eh和尾实体e
t
聚合后的表示,|ea|表示ea中共现实体对的数量,||
·
||2表示欧式距离。
[0060]
步骤4,针对待补全商品信息中的头实体,从关系集合中提取关系,该头实体与提取的关系通过二阶段参数优化后的第一图神经网络和聚合操作提取表示后,基于头实体表示与关系表示之间的粘合度来筛选候选关系。
[0061]
实施例中,将待补全商品信息中的头实体和提取的关系输入至二阶段参数优化后的第一图神经网络,在得到头实体表示和关系表示后,再经过二阶段参数优化后的聚合操作进行聚合,以得到头实体eh和关系rh的聚合后的表示eh′
、rh′
,然后计算头实体表示与关系表示之间的粘合度ρ1,表示为:
[0062]
ρ1=eh′
.rh′
[0063]
然后,根据粘合度ρ1筛选粘合度高的关系作为候选关系。
[0064]
步骤5,从实体集合中提取尾实体,该尾实体与候选关系通过二阶段参数优化后的第二图神经网络和聚合操作提取表示后,基于尾实体表示与候选关系表示之间的粘合度来筛选候选尾实体。
[0065]
实施例中,将候选关系和提取的尾实体输入至二阶段参数优化后的第二图神经网络,在得到尾实体表示和关系表示后,再经过二阶段参数优化后的聚合操作进行聚合,以得到尾实体e
t
和关系r
t
的聚合后的表示e
t

、r
t

,然后计算头实体表示与关系表示之间的粘合
度ρ2,表示为:
[0066]
ρ2=e
t

·rt

[0067]
然后,根据粘合度ρ2筛选粘合度高的尾实体作为候选尾实体。
[0068]
步骤6,将候选关系、候选尾实体以及头实体组成候选商品信息三元组,计算候选商品信息三元组的知识表示分数,基于知识表示分数筛选确定可靠的候选商品信息三元组,完成商品信息的自动补全。
[0069]
实施例中,将候选关系、候选尾实体以及头实体组成候选商品信息三元组,将候选商品信息三元组输入至知识学习模型中,经过计算得到知识表示分数,其中,知识表示模型包括transe,distmult或rotate等。然后根据知识表示分数筛选大于分数阈值的候选商品信息三元组作为可靠的候选商品信息三元组,该可靠的候选商品信息三元组的获得即完成商品信息的自动补全。
[0070]
实验例
[0071]
针对如表示1所示的商品知识图谱,每个商品信息三元组如表1所示。
[0072]
表1 商品知识图谱
[0073]
e1(乐事)r2(相似品类)e4(薯愿)e5(乐事黄瓜味)r3(品牌)e1(乐事)e3(可比克烧烤味)r1(同口味薯片品牌)e4(薯愿)e5(乐事黄瓜味)r2(相似品类)e3(可比克烧烤味)e2(休闲零食)r3(品牌)e4(薯愿)e5(乐事黄瓜味)r4(场景)e2(休闲零食)
[0074]
商品知识图谱自动补全方法包括以下步骤:
[0075]
(1)基于表1所示的商品知识图谱,构建的头实体-关系图gh中,包含头实体e1,e2,e3,e5,包含关系r1,r2,r3,r4,已有的实体-关系边有:(e1,r2),(e5,r3),(e3,r1),(e5,r2),(e2,r3),(e5,r4)。构建的尾实体-关系图g
t
包含尾实体e1,e2,e3,e4,包含关系r1,r2,r3,r4,已有的实体-关系边有:(e4,r2),(e1,r3),(e4,r1),(e3,r2),(e4,r3),(e2,r4)。如果设置阈值为1,则对于头实体-关系图gh,可以产生实体-实体边有:(e1,e5),(e2,e5),可以产生的关系-关系边有:(r2,r4),(r2,r3),(r3,r4)。对于尾实体-关系图g
t
可以产生实体-实体边(e1,e4),(e3,e4),关系-关系边有:(r1,r2),(r1,r3),(r2,r3)。
[0076]
(2)利用两个不同的图神经网络学习已有实体和关系的表示,关系会有两个表示,在gh中的关系rh表示用于选择关系,在g
t
中关系表示r
t
用于选择尾实体。比如要预测e5的(关系,尾实体)组合,利用gh中的e5的表示,遍历所有关系,此时e5和关系的表示使用gh中的表示,选择排名靠前的关系。对选择的关系,遍历所有实体,此时关系和实体的表示使用g
t
中的表示,排名靠前的尾实体和对应的关系组成e5的候选(关系,尾实体)组合。
[0077]
(3)gh和g
t
中对齐的实体有e1,e2,e3,通过拉近这些实体在两个图中的表示的距离为目标函数,优化实体的表示。
[0078]
(4)经过步骤(2)分别对两个图训练图神经网络得到知识图谱中实体和关系的表示,以及步骤(3)对对齐的实体进行联合训练更新两个图中共现的实体的表示,就可以得到商品实体e5的候选(关系-尾实体)组合,从而得到候选的商品信息三元组。比如得到e5的候选三元组为(e5,r1,e1),(e5,r1,e3),(e5,r2,e4)。再通过已有的知识表示学习模型,如
transe,学习获取实体和关系的表示,对候选三元组计算分数时使用从transe学习的实体和关系表示,根据候选三元组的分数选择得分高的认为是正确三元组。假设候选三元组(e5,r1,e1),(e5,r1,e3),(e5,r2,e4)计算的分数分别为0.8,0.5,0.7,则认为(e5,r1,e1)为商品实体e5要补全的商品信息三元组。
[0079]
总之,实施例提供的基于图神经网络的商品信息自动补全方法,利用已有商品知识图谱构建gh和g
t
图,使用统计手段对图中的边进行扩充,并在两个图上分别使用图神经网络训练,获取每个图上实体和关系的表示。对两个图中共现的实体拉近两个图中实体的表示,更新共现实体的表示。利用gh学习的实体和关系表示,对给定的商品实体预测可能的关系集合,以及利用g
t
学习的实体和关系表示预测选定关系对应的尾实体集合,得到该商品实体的候选(关系,尾实体)组合,最终得到该商品的候选三元组。利用已有的知识表示学习方法学习商品知识图谱中所有实体和关系的表示,利用该表示计算候选商品信息三元组对应的分数,选择得分高的候选三元组,其对应的候选(关系,尾实体)组合为商品要自动补全的关系和尾实体。
[0080]
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1