本发明涉及表格数据处理,尤其涉及一种语义相似度的计算方法、装置、电子设备及存储介质。
背景技术:
1、在表格数据处理中,实体链接是用于将位于某一表格文本单元中的待链接对象与预设知识库中的实体进行链接,进而根据链接的目标实体对待链接对象进行语义理解以及内容挖掘的重要技术手段,其中,衡量目标实体的关键在于计算各候选实体与待链接对象间的语义相似度,即基于各候选实体各自与待链接对象间的语义相似度,将相应语义相似度最高的候选实体作为待链接对象的目标实体。
2、目前,语义相似度常是根据候选实体的描述信息以及待链接对象的上下文信息计算获得,具体的,描述信息诸如候选实体的类目信息、候选实体的实体类型、候选实体的地址信息等,在对某一候选实体与待链接对象间的语义相似度进行计算时,常需从提前构建好的描述信息库中,获取与该候选实体匹配的所有描述信息,然而,在该候选实体的描述信息未被记载于描述信息库中时,基于上述方式,会导致候选实体与待链接对象间的语义相似度的计算无法进行,同时针对语义相似度的计算需提前构建完备的描述信息库,进而提高了运算成本并降低了整体计算效率。
技术实现思路
1、本技术实施例提供一种语义相似度的计算方法、装置、电子设备及存储介质,用于提升语义相似度的计算方法的完备性。
2、第一方面,本技术实施例提供一种语义相似度的计算方法,包括:
3、获取候选实体及待链接对象的第一上下文,其中,所述候选实体为所述待链接对象匹配的实体,所述第一上下文包括:所述待链接对象在表格文本中的分词上下文,及所述待链接对象在所述表格文本中的实体上下文;
4、获取与所述候选实体匹配的语义关键信息,并根据所述语义关键信息,获得所述候选实体的第二上下文,其中,所述语义关键信息包括:与所述候选实体匹配的各关键分词及各关键实体,所述第二上下文包括:所述候选实体的分词上下文,及所述候选实体的实体上下文;
5、根据所述第一上下文及所述第二上下文,获得所述待链接对象与所述候选实体间的语义相似度。
6、在一种具体的实现方式中,所述第一上下文,是采用以下方式获得的:
7、根据所述待链接对象的文本位置,从表格文本中,获得与所述待链接对象关联的各表格单元,其中,所述文本位置为所述待链接对象在所述表格文本中的行、列位置,所述表格单元为所述表格文本中,与所述待链接对象位于同一行或同一列的单元;
8、根据所述各表格单元各自包含的表格分词,获得所述待链接对象的分词上下文,其中,所述待链接对象的分词上下文包括:各表格分词及其各自的频数;
9、根据所述各表格单元各自包含的表格实体,获得所述待链接对象的实体上下文,其中,所述待链接对象的实体上下文包括:各表格实体及其各自的频数;
10、根据所述待链接对象的分词上下文及实体上下文,获得所述待链接对象的第一上下文。
11、在一种具体的实现方式中,所述获取与所述候选实体匹配的语义关键信息,包括:
12、采用针对所述候选实体的条件查询指令,获取与所述候选实体匹配的各关键分词及各关键实体,作为所述候选实体的语义关键信息。
13、在一种具体的实现方式中,所述根据所述语义关键信息,获得所述候选实体的第二上下文,包括:
14、根据所述各关键分词,获得所述候选实体的分词上下文,其中,所述候选实体的分词上下文包括:所述各关键分词及其各自的频数;
15、根据所述各关键实体,获得所述候选实体的实体上下文,其中,所述候选实体的实体上下文包括:所述各关键实体及其各自的频数;
16、根据所述候选实体的分词上下文及实体上下文,获得所述候选实体的第二上下文。
17、在一种具体的实现方式中,所述根据所述第一上下文及所述第二上下文,获得所述待链接对象与所述候选实体间的语义相似度,包括:
18、根据所述第一上下文及所述第二上下文,获得所述待链接对象的上下文词典,其中,所述上下文词典用于指示所述各表格分词及所述各关键分词对应的各个分词类型;
19、根据所述上下文词典,获得所述待链接对象的第一表示向量,以及所述候选实体的第二表示向量,其中,所述第一表示向量包括:所述待链接对象的分词表示向量及实体表示向量,所述第二表示向量包括:所述候选实体的分词表示向量及实体表示向量;
20、根据所述第一表示向量及所述第二表示向量,获得所述待链接对象与所述候选实体间的语义相似度。
21、在一种具体的实现方式中,所述根据所述上下文词典,获得所述待链接对象的第一表示向量,以及所述候选实体的第二表示向量,包括:
22、根据所述上下文词典对应的,各分词类型各自的分词权重,获得所述待链接对象与所述候选对象间的向量排序,其中,每个分词权重关联相应分词类型在所述知识库中的逆文档频率,所述向量排序用于指示相应分词类型在所述第一表示向量及所述第二表示向量中的维度的次序;
23、根据所述向量排序,及所述各表格分词各自的频数,获得所述待链接对象的分词表示向量,并根据所述向量排序,及所述各表格实体各自的频数,获得所述待链接对象的实体表示向量;
24、根据所述向量排序,及所述各关键分词各自的频数,获得所述候选实体的分词表示向量,并根据所述向量排序,及所述各关键实体各自的频数,获得所述候选实体的实体表示向量。
25、在一种具体的实现方式中,所述根据所述第一表示向量及所述第二表示向量,获得所述待链接对象与所述候选实体间的语义相似度,包括:
26、根据所述待链接对象的分词表示向量,及所述候选实体的分词表示向量,获得所述待链接对象与所述候选实体间的分词相似度;
27、根据所述待链接对象的实体表示向量,及所述候选实体的实体表示向量,获得所述待链接对象与所述候选实体间的实体相似度;
28、将所述分词相似度及所述实体相似度中的最大值,作为所述待链接对象与所述候选实体间的语义相似度。
29、第二方面,本技术实施例提供一种语义相似度的计算装置,包括:
30、第一获取模块,用于获取候选实体及待链接对象的第一上下文,其中,所述候选实体为所述待链接对象匹配的实体,所述第一上下文包括:所述待链接对象在表格文本中的分词上下文,及所述待链接对象在所述表格文本中的实体上下文;
31、第二获取模块,用于获取与所述候选实体匹配的语义关键信息,并根据所述语义关键信息,获得所述候选实体的第二上下文,其中,所述语义关键信息包括:与所述候选实体匹配的各关键分词及各关键实体,所述第二上下文包括:所述候选实体的分词上下文,及所述候选实体的实体上下文;
32、相似度计算模块,用于根据所述第一上下文及所述第二上下文,获得所述待链接对象与所述候选实体间的语义相似度。
33、在一种具体的实现方式中,所述第一上下文,是采用以下方式获得的:
34、根据所述待链接对象的文本位置,从表格文本中,获得与所述待链接对象关联的各表格单元,其中,所述文本位置为所述待链接对象在所述表格文本中的行、列位置,所述表格单元为所述表格文本中,与所述待链接对象位于同一行或同一列的单元;
35、根据所述各表格单元各自包含的表格分词,获得所述待链接对象的分词上下文,其中,所述待链接对象的分词上下文包括:各表格分词及其各自的频数;
36、根据所述各表格单元各自包含的表格实体,获得所述待链接对象的实体上下文,其中,所述待链接对象的实体上下文包括:各表格实体及其各自的频数;
37、根据所述待链接对象的分词上下文及实体上下文,获得所述待链接对象的第一上下文。
38、在一种具体的实现方式中,所述获取与所述候选实体匹配的语义关键信息,所述第二获取模块用于:
39、采用针对所述候选实体的条件查询指令,获取与所述候选实体匹配的各关键分词及各关键实体,作为所述候选实体的语义关键信息。
40、在一种具体的实现方式中,所述根据所述语义关键信息,获得所述候选实体的第二上下文,所述第二获取模块用于:
41、根据所述各关键分词,获得所述候选实体的分词上下文,其中,所述候选实体的分词上下文包括:所述各关键分词及其各自的频数;
42、根据所述各关键实体,获得所述候选实体的实体上下文,其中,所述候选实体的实体上下文包括:所述各关键实体及其各自的频数;
43、根据所述候选实体的分词上下文及实体上下文,获得所述候选实体的第二上下文。
44、在一种具体的实现方式中,所述根据所述第一上下文及所述第二上下文,获得所述待链接对象与所述候选实体间的语义相似度,所述相似度计算模块用于:
45、根据所述第一上下文及所述第二上下文,获得所述待链接对象的上下文词典,其中,所述上下文词典用于指示所述各表格分词及所述各关键分词对应的各个分词类型;
46、根据所述上下文词典,获得所述待链接对象的第一表示向量,以及所述候选实体的第二表示向量,其中,所述第一表示向量包括:所述待链接对象的分词表示向量及实体表示向量,所述第二表示向量包括:所述候选实体的分词表示向量及实体表示向量;
47、根据所述第一表示向量及所述第二表示向量,获得所述待链接对象与所述候选实体间的语义相似度。
48、在一种具体的实现方式中,所述根据所述上下文词典,获得所述待链接对象的第一表示向量,以及所述候选实体的第二表示向量,所述相似度计算模块用于:
49、根据所述上下文词典对应的,各分词类型各自的分词权重,获得所述待链接对象与所述候选对象间的向量排序,其中,每个分词权重关联相应分词类型在所述知识库中的逆文档频率,所述向量排序用于指示相应分词类型在所述第一表示向量及所述第二表示向量中的维度的次序;
50、根据所述向量排序,及所述各表格分词各自的频数,获得所述待链接对象的分词表示向量,并根据所述向量排序,及所述各表格实体各自的频数,获得所述待链接对象的实体表示向量;
51、根据所述向量排序,及所述各关键分词各自的频数,获得所述候选实体的分词表示向量,并根据所述向量排序,及所述各关键实体各自的频数,获得所述候选实体的实体表示向量。
52、在一种具体的实现方式中,所述根据所述第一表示向量及所述第二表示向量,获得所述待链接对象与所述候选实体间的语义相似度,所述相似度计算模块用于:
53、根据所述待链接对象的分词表示向量,及所述候选实体的分词表示向量,获得所述待链接对象与所述候选实体间的分词相似度;
54、根据所述待链接对象的实体表示向量,及所述候选实体的实体表示向量,获得所述待链接对象与所述候选实体间的实体相似度;
55、将所述分词相似度及所述实体相似度中的最大值,作为所述待链接对象与所述候选实体间的语义相似度。
56、第三方面,提出了一种电子设备,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述第一方面所述的语义相似度的计算方法的步骤。
57、第四方面,提出一种计算机可读存储介质,其包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行上述第一方面所述的语义相似度的计算方法的步骤。
58、本技术可以达到的技术效果如下:
59、本技术提供一种语义相似度的计算方法、装置、电子设备及存储介质,包括:首先,获取候选实体及待链接对象的第一上下文,其中,候选实体为待链接对象匹配的实体,第一上下文包括待链接对象在表格文本中的分词上下文及待链接对象在表格文本中的实体上下文;其次,获取与候选实体匹配的语义关键信息,并根据语义关键信息,获得候选实体的第二上下文,其中,语义关键信息包括与候选实体匹配的各关键分词及各关键实体,第二上下文包括候选实体的分词上下文及候选实体的实体上下文;进一步的,根据第一上下文及第二上下文,获得待链接对象与候选实体间的语义相似度,基于上述方式,一方面,根据第一上下文及第二上下文计算待链接对象与候选实体间的语义相似度,即根据候选实体及待链接对象间的上下文相似性,有效度量待链接对象与候选实体间的联系,另一方面,语义关键信息可从已有知识库中获取,进而,根据语义关键信息即可获得候选对象的第二上下文,避免了因描述信息缺失,而导致的语义相似度可能无法计算的问题,进而保证了上述方法的完备性并提升了整体运算效率。