一种融合文本概念化和网络表示的观点检索系统及方法与流程

文档序号:15164139发布日期:2018-08-14 17:14阅读:177来源:国知局

本发明涉及观点检索领域,更具体地,涉及一种融合文本概念化和网络表示的观点检索系统及方法,,能够结合知识图谱,高效地从社交媒体等文档集中检索出与给定查询相关,同时带有对查询的观点的相关文档列表。



背景技术:

当前,有很多技术方法可用于观点检索。传统的观点检索方法将观点检索分为两个阶段,首先利用传统的信息检索模型或者语言模型得到主题相关的文档集合,接着利用观点分类器从主题相关文档中得到带有观点的文档,该类方法工作重点在于第二个阶段,但用于观点检索中缺少理论依据,效果也不够理想。

当前,存在着一些统一观点检索模型。将主题相关度和观点得分结合到统一的检索模型中,从传统的基于统计的检索模型出发,推导出统一的检索模型,模型包含了主题相关部分和观点相关部分。该类模型相对于两阶段模型,具有在理论上易解释、对信息需求表达更直接有效等优点。

当前,还存在着一些排序学习观点检索模型。该类模型将观点检索问题视为分类问题,提取文本特征、作者特征和主观性特征,采用排序学习框架对文本进行倾向性检索。一般而言,使用排序学习算法进行观点检索往往可以取得较高的精度,但是由于其需要大量的人工标注数据构建训练集,因此这一方法的应用场景相对于前两种方法而言较为有限。

然而,在社交媒体中,用户的查询输入通常较短,往往只是一个简单的词语,很难准确表达用户查询的信息需求,而目前的观点检索系统和方法在检索过程中往往无法根据上下文将词汇进行概念层面的抽象,并且在语义层面忽略词汇之间的语义联系,倾向性层面缺乏倾向性泛化能力。随着近年来互联网的高速发展,微博、论坛等社交媒体消息的不断产生,这就对观点检索技术提出了一个挑战:如何构建一个能充分解析查询和文本的信息需求和语义的观点检索系统来检索出符合用户查询需求的观点文档。因此,人们迫切希望有一种高效准确的观点检索方法,该方法能够理解用户查询信息需求,解析查询和文本的语义联系,检索出社交媒体中与用户查询相关的观点文档。



技术实现要素:

本发明的目的在于提供一种融合文本概念化和网络表示的观点检索系统及方法,能够高效将文本知识进行概念层面的抽象,能够解析查询和文本的语义联系,检索出与用户查询相关并带有对查询观点的文档。

为实现上述目的,本发明的技术方案是:一种融合文本概念化和网络表示的观点检索系统,包括

一文本概念化模块,利用知识图谱将用户查询和待查询文档映射到概念空间,通过分析查询和文本的概念空间,判断对应多个概念的实体在具体上下文中的概念,以此来实现概念级别的推理;

一网络表示模块,基于网络节点的网络表示学习,利用知识图谱中的结构化信息,学习捕获词汇之间的语义信息,把词汇节点投射到低维的语义空间中;

一观点检索得分计算模块,在概念空间计算查询与文本的主题相似度得分,然后计算待查询文档的观点得分,并根据主题相似度得分和文档观点得分得到一个文档的综合得分;

一统一相关检索模块,根据文档综合得分从高到低排序,得到查询的观点检索结果并输出;

一排序学习检索模块,将经由文本概念化模块、网络表示模块和观点检索得分计算模块得到文本概念化特征、网络表示特征和文本观点得分特征融入到现有的排序学习框架中进行分类,并按照顺序输出文档。

在本发明一实施例中,还包括一数据预处理模块,用于去除文本中的链接、特殊字符或标点符号,对数据进行词干还原处理,过滤文本中的停用词。

在本发明一实施例中,在概念空间计算查询与文本的主题相似度得分的具体方式为:根据文本和查询的概念空间、经由网络表示模块得到的网络表示特征,分别计算文本和查询在概念空间的主题相似度和低维向量表示计算余弦相似度,然后将二者线性加权得到最终的主题相似度。

在本发明一实施例中,观点检索得分计算模块计算待查询文档的观点得分,是通过观点词典、朴素贝叶斯和卷积神经网络分别计算待查询文档的三种观点得分。

本发明还提供了一种融合文本概念化和网络表示的观点检索方法,实现如下:

首先,由文本概念化模块利用知识图谱将用户查询和待查询文档映射到概念空间,通过分析查询和文本的概念空间,判断对应多个概念的实体在具体上下文中的概念,以此来实现概念级别的推理;

由网络表示模块基于网络节点的网络表示学习,利用知识图谱中的结构化信息,学习捕获词汇之间的语义信息,把词汇节点投射到低维的语义空间中;

而后,由观点检索得分计算模块在概念空间计算查询与文本的主题相似度得分,然后计算待查询文档的观点得分,并根据主题相似度得分和文档观点得分得到一个文档的综合得分;

再而,由统一相关检索模块根据文档综合得分从高到低排序,得到查询的观点检索结果并输出;

最后,由排序学习检索模块,将经由文本概念化模块、网络表示模块和观点检索得分计算模块得到文本概念化特征、网络表示特征和文本观点得分特征融入到现有的排序学习框架中进行分类,并按照顺序输出文档。

在本发明一实施例中,还包括通过数据预处理模块去除文本中的链接、特殊字符或标点符号,对数据进行词干还原处理,过滤文本中的停用词。

在本发明一实施例中,在概念空间计算查询与文本的主题相似度得分的具体方式为:根据文本和查询的概念空间、经由网络表示模块得到的网络表示特征,分别计算文本和查询在概念空间的主题相似度和低维向量表示计算余弦相似度,然后将二者线性加权得到最终的主题相似度。

在本发明一实施例中,观点检索得分计算模块计算待查询文档的观点得分,是通过观点词典、朴素贝叶斯和卷积神经网络分别计算待查询文档的三种观点得分。

相较于现有技术,本发明具有以下有益效果:本发明能够高效将文本知识进行概念层面的抽象,能够解析查询和文本的语义联系,检索出与用户查询相关并带有对查询观点的文档。

附图说明

图1为本发明一实施例,在社交媒体文档集中的观点检索系统的示意配置图。

具体实施方式

下面结合附图1,对本发明的技术方案进行具体说明。

如图1所示,本发明的一种融合文本概念化和网络表示的观点检索系统,包括

一文本概念化模块,利用知识图谱将用户查询和待查询文档映射到概念空间,通过分析查询和文本的概念空间,判断对应多个概念的实体在具体上下文中的概念,以此来实现概念级别的推理;

一网络表示模块,基于网络节点的网络表示学习,利用知识图谱中的结构化信息,学习捕获词汇之间的语义信息,把词汇节点投射到低维的语义空间中;

一观点检索得分计算模块,在概念空间计算查询与文本的主题相似度得分,然后计算待查询文档的观点得分,并根据主题相似度得分和文档观点得分得到一个文档的综合得分;

一统一相关检索模块,根据文档综合得分从高到低排序,得到查询的观点检索结果并输出;

一排序学习检索模块,将经由文本概念化模块、网络表示模块和观点检索得分计算模块得到文本概念化特征、网络表示特征和文本观点得分特征融入到现有的排序学习框架中进行分类,并按照顺序输出文档。

还包括一数据预处理模块,用于去除文本中的链接、特殊字符或标点符号,对数据进行词干还原处理,过滤文本中的停用词。

在概念空间计算查询与文本的主题相似度得分的具体方式为:根据文本和查询的概念空间、经由网络表示模块得到的网络表示特征,分别计算文本和查询在概念空间的主题相似度和低维向量表示计算余弦相似度,然后将二者线性加权得到最终的主题相似度。

观点检索得分计算模块计算待查询文档的观点得分,是通过观点词典、朴素贝叶斯和卷积神经网络分别计算待查询文档的三种观点得分。

本发明还提供了一种融合文本概念化和网络表示的观点检索方法,实现如下:

首先,由文本概念化模块利用知识图谱将用户查询和待查询文档映射到概念空间,通过分析查询和文本的概念空间,判断对应多个概念的实体在具体上下文中的概念,以此来实现概念级别的推理;

由网络表示模块基于网络节点的网络表示学习,利用知识图谱中的结构化信息,学习捕获词汇之间的语义信息,把词汇节点投射到低维的语义空间中;

而后,由观点检索得分计算模块在概念空间计算查询与文本的主题相似度得分,然后计算待查询文档的观点得分,并根据主题相似度得分和文档观点得分得到一个文档的综合得分;

再而,由统一相关检索模块根据文档综合得分从高到低排序,得到查询的观点检索结果并输出;

最后,由排序学习检索模块,将经由文本概念化模块、网络表示模块和观点检索得分计算模块得到文本概念化特征、网络表示特征和文本观点得分特征融入到现有的排序学习框架中进行分类,并按照顺序输出文档。

还包括通过数据预处理模块去除文本中的链接、特殊字符或标点符号,对数据进行词干还原处理,过滤文本中的停用词。

在概念空间计算查询与文本的主题相似度得分的具体方式为:根据文本和查询的概念空间、经由网络表示模块得到的网络表示特征,分别计算文本和查询在概念空间的主题相似度和低维向量表示计算余弦相似度,然后将二者线性加权得到最终的主题相似度。

观点检索得分计算模块计算待查询文档的观点得分,是通过观点词典、朴素贝叶斯和卷积神经网络分别计算待查询文档的三种观点得分。

以下为本发明的具体实现过程。

如图1所示,根据本发明实施例在社交媒体中所采用的观点检索系统包括:数据预处理模块1对数据进行预先处理;文本概念化模块2,用于将用户查询和待查询文档映射到概念空间,通过有效分析查询和文本的概念空间,判断对应多个概念的实体在具体上下文中的概念,以此来实现概念级别的推理;网络表示模块3,用于学习捕获词汇之间的语义信息,把词汇节点投射到低维的语义空间中;观点检索得分计算模块4,用于在概念空间计算查询与文本的主题相似度得分,然后根据观点词典、朴素贝叶斯和卷积神经网络分别计算待查询文档的三种观点得分,并根据主题相似度得分和文档观点得分得到一个文档的综合得分;统一相关检索模块5,用于将文档综合得分从高到低排序,得到查询的观点检索结果并输出;由排序学习检索模块6,用于将文本概念化特征、网络表示特征和文本观点得分特征融入到现有的排序学习框架中进行分类,并按照顺序输出文档。下面分别详细描述各模块的配置。

1)数据预处理模块1

首先,描述数据预处理模块如何进行数据的预处理。

社交媒体文档中包含了丰富的信息但同时也夹杂了一定的噪声,因此对数据集进行预处理,主要进行以下几个方面的操作:

1.去除文档中的网页链接,特殊字符,标点符号等;

2.对数据进行词干还原处理;

3.根据中英文的停用词表分别过滤掉数据集中包含的停用词。

2)文本概念化模块2

其次,介绍如何将用户查询和文档链接到知识图谱的相关实体。选用目前的大型开放通用知识图谱probase作为要链接的知识图谱,利用实体识别算法识别用户的查询词或者文档中的词的实体,使用概念推理算法,推理出最能描述文档或查询的概念集合,丰富知识维度,提高系统对查询和文档的理解程度。

3)网络表示模块3

再次,简述网络表示模块如何将用户查询和待检索文本映射到低维度空间。在进行检索时,传统模型通常使用基于词袋模型的词语匹配方法,忽略了词汇之间的语义关联,存在词汇鸿沟现象。网络表示面向知识图谱进行表示学习,将知识图谱中的节点表示成一个低维稠密的向量,使得语义相似的词汇节点可以通过向量之间的计算来表示。本发明的网络表示模块在文本概念化模块的基础上,学习得到概念的低维稠密向量,然后根据词向量推出查询和文本的向量并用余弦公式计算用户查询与文本的相关度。可以有效改善传统模型存在的词汇鸿沟问题。

4)观点检索得分计算模块4

接着,描述观点检索得分计算模块如何计算文档的综合得分。本发明提出融合文本概念化和网络表示的观点检索模型,包含了主题相关度得分部分和三种不同的观点相关度得分部分,同时,模型中既包含了原始查询,也融入了实体的概念信息。观点相关度得分部分不仅使用了基于词典的观点得分计算,还包括了基于统计机器学习方法的观点倾向计算。

5)排序输出模块5

最后,描述排序输出模块。排序输出模块分为统一相关检索模块和排序学习检索模块。统一相关检索模块根据观点检索得分计算得到在某一查询下的各个文档的得分,根据文档的得分由高到低排序,并依次输出文档列表,得到最终观点检索的结果。排序学习检索模块将文本概念化特征、网络表示特征和观点得分特征融入排序学习框架进行分类,并按照顺序输出文档。

以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1