专利名称:用于搜索引擎的色情用户查询识别方法及设备的制作方法
技术领域:
本发明涉及信息检索和搜索引擎,尤其涉及搜索引擎中色情用户查询的识别方法。
背景技术:
随着互联网规模不断增加,搜索引擎成为互联网上的重要应用系统之一。如何准确的理解用户提交到搜索引擎的查询意图是一个重要的技术问题。准确理解用户的查询意图有助于搜索引擎返回更好的结果或者调用相应的垂直搜索引擎,从而提高搜索引擎的用户体验。然而,互联网中的信息纷繁复杂,糟柏与精华并存,搜索引擎的返回结果中往往包含一些不良结果,例如色情页面。正确识别用户查询中是否包含色情意图能够帮助搜索引擎针对色情用户查询采取特殊措施,避免返回色情页面。这对于保护未成年人和构建和谐的互联网都十分重要。
搜索引擎中用户查询意图最初主要分为三类,分别是导航类,信息类,实务类。导航类是指用户期望找到某个网站的首页。信息类是指用户期望找到一些满足需求的网页,这些网页往往是内容型的,例如新闻,百科类的网页。通过阅读这些页面,用户可以得到满意的信息。事务类是指用户期望找到某个网页能够完成某项事务。例如银行转账,购买商品,查询机票信息等。随着互联网的快速发展,近期的研究工作对用户查询意图进行了进一步的细分,例如用户查询是否涉及找工作,是否搜索餐厅,是否下载音乐等等。正确识别这些细粒度的用户查询意图,能够帮助搜索引擎触发正确的垂直搜索引擎。
由于搜索引擎的用户查询较短,文本特征稀疏,且用户查询往往具有歧义性,因此如何准确的识别用户的查询意图具有挑战性。针对这些问题,现有的技术中主要采用下面两类方法进行解决。一类方法利用用户搜索引擎的点击日志来识别用户的查询意图。这类方法利用用户在查询结果页中所点击的网站或页面来识别查询意图,这类方法假设用户点击的页面满足其查询意图,但是当用户点击页面后快速离开却往往意味着查询意图并没有得到满足,这种行为模式在用户点击日志中并没有得到体现。另一类方法通过使用用户查询的搜索结果反向判断用户查询的意图,这类方法利用搜索结果页的主题分布特征来识别用户查询意图的分布,其对在查询日志中出现频率较低的意图识别不够准确。而且这种基于搜索结果反向判断用户查询意图的方法识别查询意图的时间复杂度高,给搜索引擎造成较大的负荷。发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种融合命名实体和语言模型的色情用户查询识别方法,能快速有效地识别色情用户查询。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种用于搜索引擎的色情用户查询意图识别方法,包括:步骤I)利用训练好的用于识别色情用户查询的分类模型判断待识别的用户查询是否为色请用户查询;其中,用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征。上述方法中,用于训练所述分类模型的用户查询特征还包括用户属于色情查询和非色情查询的概率。上述方法中,所述分类模型可以是基于已标注的用户查询集合通过以下步骤进行训练:步骤21)基于用户查询日志来训练主题模型;步骤23)利用训练好的主题模型来提取已标注的用户查询集合中每个用户查询的命名实体和实体上下文主题特征,并以用户查询的命名实体和实体上下文主题特征来训练所述分类模型。上述方法中,所述分类模型是基于已标注的用户查询集合通过以下步骤进行训练:步骤21)基于用户查询日志来训练主题模型;步骤22)基于色情语料和非色情语料分别训练基于统计的语言模型;步骤23)利用训练好的主题模型来提取已标注的用户查询集合中每个用户查询的命名实体和实体上下文主题特征,利用训练好的语言模型来判断已标注的用户查询集合中每个用户查询属于色情查询和非色情查询的概率,并以用户查询的命名实体和实体上下文主题特征以及用户查询属于色情查询和非色情查询的概率来训练所述分类模型。上述方法中,所述步骤I)可包括:通过已收集的色情类型的命名实体集合将待识别的用户查询切分为命名实体和实体上下文两部分,并利用训练好的主题模型提取该用户查询的命名实体和实体上下文主题特征;基于该用户查询的命名实体和实体上下文主题特征,利用训练好的分类模型判断该用户查询是否为色请用户查询。上述方法中,所述步骤I)可包括:通过已收集的色情类型的命名实体集合将待识别的用户查询切分为命名实体和实体上下文两部分,并利用训练好的主题模型提取该用户查询的命名实体和实体上下文主题特征;利用训练好的语言模型来判断该用户查询属于色情查询和非色情查询的概率,基于该用户查询的命名实体和实体上下文主题特征以及该用户查询属于色情查询和非色情查询的概率,利用训练好的分类模型判断该用户查询是否为色请用户查询。上述方法中,所述步骤21)可包括:通过已收集的色情类型的命名实体集合将用户查询日志中的每个查询切分为命名实体和实体上下文两部分;将每一个命名实体在用户查询日志中的实体上下文聚合为一篇关于该命名实体的文档,并构造该文档的词频特征向量;基于从用户查询日志中提取的命名实体和关于命名实体的文档及其词频特征向量来对主题模型进行训练,以得到实体上下文的主题分布特征和每个命名实体的主题分布特征。
另一方面,本发明提供了一种用于搜索引擎的色情用户查询意图识别设备,包括:识别装置,用于利用训练好的用于识别色情用户查询的分类模型判断待识别的用户查询是否为色请用户查询;其中,用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征。上述设备中,用于训练所述分类模型的用户查询特征还包括用户属于色情查询和非色情查询的概率。上述设备中,还可包括训练装置,用于基于已标注的用户查询集合,训练所述分类模型。与现有技术相比,本发明的优点在于:不需要基于搜索引擎的查询结果来识别色情查询,而是通过利用用户查询中包含的命名实体特征和语言模型特征实现了快速、有效的色情查询识别。
以下参照附图对本发明实施例作进一步说明,其中:图1为根据本发明一个实施例的用于搜索引擎的色情用户查询意图识别方法的流程示意图。
具体实施例方式为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。在本发明的一个实施例中,提供了一种用于搜索引擎的色情用户查询意图识别的方法。该方法包括离线训练和在线识别两个阶段,在离线训练阶段,可以基于已标注的用户查询集合来训练用于识别色情查询意图的分类模型;在在线识别阶段,可以利用该训练好的分类模型来判断待识别的用户查询是否为色情用户查询。图1给出了根据本发明实施例的色情用户查询识别方法的流程示意图。该方法包括步骤I)基于已标注的用户查询集合,训练用于识别色情用户查询的分类模型;步骤2)根据待识别的用户查询的特征和该训练好的分类模型来判断该用户查询是否为色请用户查询。现参考图1,更具体地,在步骤I)基于已标注的用户查询集合,训练用于识别色情用户查询的分类模型(即离线训练阶段)。其中,已标注的用户查询集合包括被标注为色情或非色情的用户查询。例如,通过将用户查询输入通用的搜索引擎,查看其查询结果就可以判断该用户查询是否是色情查询,从而可以对该用户查询进行标注。而分类模型可以采用逻辑回归模型、决策树、支持向量机(Support Vector Machine, SVM)模型等典型的分类模型。在训练分类模型时,最关键的是以哪些特征来选择样本并训练模型,所谓训练分类模型就是利用样本数据和从样本数据中提取的特征通过训练来学习出分类模型中的参数。在本发明的一个优选实施例中,可以以用户查询中的命名实体的主题分布特征、实体上下文的主题分布特征以及该用户查询属于色情查询和非色情查询的概率这四个特征来训练该分类模型。在该实施例中,可使用训练好的主题模型来发现用户查询中的命名实体及实体上下文的主题分布特征,并且可采用基于统计的语言模型来估计的对于该用户查询属于色情查询和非色情查询的概率。下面将分别介绍如何从已标注的用户查询集合中的每个用户查询中提取上述四个特征。(I)对于命名实体及实体上下文的主题分布特征,首先基于用户查询日志来训练主题模型,然后使用训练好的主题模型来发现已标注的用户查询集合中每个用户查询的命名实体及实体上下文的主题分布特征。其中,主题模型通常用来发现文档中隐含的主题分布特征,PLSA(ProbabilisticLatent Semantic Analysis,基于概率的隐含语义分析),LDA (Latent DirichletAllocation,隐含狄利克雷分配)等都是常用的主题模型。在一个实施例中,可以采用LDA作为主题模型。LDA是一种先进的主题模型,与PLSA相比需要学习更少的参数,因此LDA模型的泛化能力也更强。LDA模型基于词袋(bag of world)假设,适合用来处理用户查询并不构成完整句子的问题。LDA的建模过程是逆向通过文本集合建立生成模型。假设一个语料库中有若干个主题;在生成某个文档时,首先随机选择某一主题;然后选择单词,选择到那些和主题相关的词的概率更高。这样就完成了一个单词的选择。不断选择N个单词,这样就组成了一篇关于多个主题的文档。具体来说,生成一篇文档按照如下步骤:1.选择N,N服从Poisson(I)分布,这里N代表文档的长度,ξ表示泊松分布的参数。2.选择θ,Θ服从Dirichlet(a )分布,这里Θ是k维列向量,该列向量中每个元素表示每个主题在该文档发生的概率,a是Dirichlet分布的参数,k表示训练主题模型过程中所设定的主题数量,可根据经验设定,例如可设为10、20等。3.对N个单词中的每一个:
a)选择主题zn, Zn服从Multinomial ( Θ )多项分布。Zn代表当前选择的主题;
b)选择Wn,根据P (wn I ζη; β ):在ζη条件下的多项分布,p(wn|zn; β )表示了对于第η个单词Wn,在选择了主题Zn的情况下生成Wn的概率;β记录了某个主题条件下生成某个单词的概率,实际上β相当于一个矩阵,行为主题(共k行),列为单词,该矩阵中每个元素表示在某个主题下某个单词发生的概率。就本发明的实施例而言,Θ表示命名实体的主题分布特征,β表示实体上下文的主题分布特征。所建立的LDA模型例如为:
权利要求
1.一种用于搜索引擎的色情用户查询识别方法,该方法包括: 步骤I)利用训练好的用于识别色情用户查询的分类模型判断待识别的用户查询是否为色请用户查询; 其中,用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征。
2.根据权利要求1所述的方法,其中用于训练所述分类模型的用户查询特征还包括用户属于色情查询和非色情查询的概率。
3.根据权利要求1所述的方法,其中,所述分类模型是基于已标注的用户查询集合通过以下步骤进行训练: 步骤21)基于用户查询日志来训练主题模型; 步骤23)利用训练好的主题模型来提取已标注的用户查询集合中每个用户查询的命名实体和实体上下文主题特征,并以用户查询的命名实体和实体上下文主题特征来训练所述分类模型。
4.根据权利要求2所述的方法,其中,所述分类模型是基于已标注的用户查询集合通过以下步骤进行训练: 步骤21)基于用户查询日志来训练主题模型; 步骤22)基于色情语料和非色情语料分别训练基于统计的语言模型; 步骤23)利用训练好的主题模型来提取已标注的用户查询集合中每个用户查询的命名实体和实体上下文主题特征,利用训练好的语言模型来判断已标注的用户查询集合中每个用户查询属于色情查询和非色情查询的概率,并以用户查询的命名实体和实体上下文主题特征以及用户查询属于色情查询和非色情查询的概率来训练所述分类模型。
5.根据权利要求3所述的方法,所述步骤I)包括: 通过已收集的色情类型的命名实体集合将待识别的用户查询切分为命名实体和实体上下文两部分,并利用训练好的主题模型提取该用户查询的命名实体和实体上下文主题特征; 基于该用户查询的命名实体和实体上下文主题特征,利用训练好的分类模型判断该用户查询是否为色请用户查询。
6.根据权利要求4所述的方法,所述步骤I)包括: 通过已收集的色情 类型的命名实体集合将待识别的用户查询切分为命名实体和实体上下文两部分,并利用训练好的主题模型提取该用户查询的命名实体和实体上下文主题特征; 利用训练好的语言模型来判断该用户查询属于色情查询和非色情查询的概率, 基于该用户查询的命名实体和实体上下文主题特征以及该用户查询属于色情查询和非色情查询的概率,利用训练好的分类模型判断该用户查询是否为色请用户查询。
7.根据权利要求3至6之一所述的方法,所述步骤21)包括: 通过已收集的色情类型的命名实体集合将用户查询日志中的每个查询切分为命名实体和实体上下文两部分; 将每一个命名实体在用户查询日志中的实体上下文聚合为一篇关于该命名实体的文档,并构造该文档的词频特征向量;基于从用户查询日志中提取的命名实体和关于命名实体的文档及其词频特征向量来对主题模型进行训练,以得到实体上下文的主题分布特征和每个命名实体的主题分布特征。
8.一种用于搜索引擎的色情用户查询识别设备,该设备包括: 识别装置,用于利用训练好的用于识别色情用户查询的分类模型判断待识别的用户查询是否为色请用户查询;其中,用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征。
9.根据权利要求8所述的设备,其中,用于训练所述分类模型的用户查询特征还包括用户属于色情查询和非色情查询的概率。
10.根据权利要求8或9所述的设备,还包括训练装置,用于基于已标注的用户查询集合,训练所述分类模型。
11.根据权利要求10所述的设备,所述训练装置被配置为执行: 基于用户查询日志来训练主题模型;以及 利用训练好的主题模型来提取已标注的用户查询集合中每个用户查询的命名实体和实体上下文主题特征,并以用户查询的命名实体和实体上下文主题特征来训练所述分类模型。
12.根据权利要求10所述的设备,所述训练装置被配置为执行: 基于用户查询日志来训练主题模型; 基于色情语料和非色情语料分别训练基于统计的语言模型;以及利用训练好的主题模型来提取已标注的用户查询集合中每个用户查询的命名实体和实体上下文主题特征,利用训练好的语言模型来判断已标注的用户查询集合中每个用户查询属于色情查询和非色情查询的概率,并以用户查询的命名实体和实体上下文主题特征以及用户查询属于色情查询和非色情查询的概率来训练所述分类模型。
全文摘要
本发明提供一种用于搜索引擎的色情用户查询识别方法,该方法包括基于已标注的用户查询集合,训练用于识别色情用户查询的分类模型,以及利用该训练好的分类模型判断待识别的用户查询是否为色请用户查询。其中,用于训练所述分类模型的用户查询特征包括用户查询的命名实体和实体上下文主题特征以及用户属于色情查询和非色情查询的概率。该方法不需要基于搜索引擎的查询结果来识别色情查询,而是通过利用用户查询中包含的命名实体特征和语言模型特征实现了快速、有效的色情查询识别。
文档编号G06F17/30GK103177126SQ20131013493
公开日2013年6月26日 申请日期2013年4月18日 优先权日2013年4月18日
发明者程学旗, 熊锦华, 公帅, 张 成, 廖华明, 王元卓 申请人:中国科学院计算技术研究所