基于话题的新闻检索装置及方法

文档序号:6374414阅读:109来源:国知局
专利名称:基于话题的新闻检索装置及方法
技术领域
本发明涉及互联网信息处理领域的文本聚类、信息检索技术,尤其涉及一种基于话题的新闻检索装置及方法。
背景技术
随着以互联网为代表的信息技术的快速发展,信息的数量越来越大、传播速度越来越快,影响范围越来越广。在此大环境下,网络新闻也日益显现出多元化的特点。对于同一话题,很可能存在多篇采取不同角度、产自不同媒体、持有不同观点的新闻。用户在检索新闻时,如果能以话题为单位,展示与话题相关的新闻、数据等,则与传统的单纯展示以单篇新闻为单位的检索结果相比,可以帮助用户一目了然的了解该与其查询相关的舆论情况,取得更好的用户体验。

目前,提供新闻检索的网站,主要为各专业新闻媒体官方网站、门户网站、搜索引擎的新闻垂直搜索频道等。这些网站的新闻检索还有很大改进余地。这些网站的新闻检索主要依赖于对单篇新闻建立索引,用户输入查询后,考察用户查询和单篇新闻的相关度。有些网站只能单纯展示以单篇新闻为单位的检索结果;有些网站的检索结果只是简单的把重复的新闻组合在一起;有些网站虽然能够依靠某种技术,确定属于同一话题的各篇新闻,但其在处理用户查询时,采取的是先考察用户查询和单篇新闻的相关度,再把与各单篇新闻相关的新闻组合展示的方式,没有从根本上和深层次上考察用户查询和各话题的相关度。

发明内容
有鉴于此,本发明的主要目的在于提供一种基于话题的新闻检索装置及方法,在用户检索新闻时,从根本上和深层次上考查各话题和用户查询的相关度,并把检索到的话题和常规新闻网页结合展示。为达到上述目的,本发明的技术方案是这样实现的
一种基于话题的新闻检索装置,主要包括采集分析模块、聚类处理模块、索引建立模块、查询排序模块以及结果输出模块;其中
采集分析模块,用于采集新闻网页,并提取相应的特征;
聚类处理模块,用于对新闻网页聚类,产生话题及其特征向量;
索引建立模块,用于对话题和新闻网页建立索引;
查询排序模块,用于对用户的查询、计算各话题和新闻网页排序分数;
结果输出模块,用于对检索结果进行排序和输出。一种基于话题的新闻检索方法,主要包括
A、采集新闻网页,对新闻网页进行分析,提取特征的步骤;
B、对新闻网页聚类,产生话题及其特征向量的步骤;
C、对话题和新闻网页建立索引的步骤;
D、对用户的查询、计算各话题和新闻网页排序分数的步骤;以及E、对检索结果进行排序和输出的步骤。其中,步骤A所述采集新闻网页并对新闻网页提取特征,包括
Al、采用网络爬虫采集新闻网页;
A2、对新闻网页进行分词、词性标注、专名识别的处理,构造特征向量,所述特征向量以词或短语token及其权重为单位。步骤B所述对新闻网页聚类、产生话题及其特征向量,包括 所述产生的特征对新闻网页聚类,每个聚类结果作为一个话题,每个聚类结果有一个以token及其相关信息为元素的中心向量,该向量作为话题的特征向量,并记录该话题包含的新闻网页ID。步骤C所述对话题和新闻网页建立索引,主要包括
Cl、对话题建索引,建立倒排表;对于每个话题,以步骤B产生的特征向量中的token作为索引项;对于每个token,倒排链中存储包含该token的所有话题ID、该token在各话题中的权重及其他信息;
C2、对新闻网页建索引;对每个新闻网页,利用步骤A中产生的特征向量建立索引;所述索引项为特征向量中的token。步骤D所述对用户的查询、计算各话题和新闻网页排序分数的过程包括
D1、用户输入查询后,对查询进行分词、分词结果赋权等处理,产生一个查询向量,单位为 token。D2、计算相关度;对于话题和常规新闻网页,分别通过话题索引和新闻网页索引,计算查询特征向量和话题或新闻网页特征向量的余弦相似度,得出查询与话题或新闻网页的相关度;
D3、综合其他因素计算话题或新闻网页的排序分数,计算过程中保证话题和新闻网页的排序分数的可比性。对步骤E所述检索结果的排序,由于话题和新闻网页的排序分数有可比性,既可混合排序也可各自排序;在展示检索结果时,该话题通过链接导入新页面,包含该话题内的所有新闻以及话题的其他信息。本发明所提供的基于话题的新闻检索装置及方法,具有以下优点
本发明将话题作为检索对象,对话题建立索引,从根本上和深层次上考查话题和用户查询的相关度。话题的排序分数与常规新闻网页的排序分数有可比性,便于混合排序展示。


图I为本发明的基于话题的新闻检索方法总体流程 图2为本发明中对网络爬虫采集新闻网页的流程 图3为本发明中对话题和新闻网页建立索引的流程 图4为本发明针对用户的查询、计算各话题和新闻网页排序分数流程 图5为本发明的基于话题的新闻检索装置结构示意图。
具体实施例方式下面结合附图及本发明的实施例对本发明的装置及方法作进一步详细的说明。
图I为本发明的基于话题的新闻检索方法总体流程图,该方法依据图5所示的基于话题的新闻检索装置进行工作,该装置主要包括采集分析模块、聚类处理模块、索引建立模块、查询排序模块以及结果输出模块;其中
采集分析模块,用于采集新闻网页,并提取相应的特征。聚类处理模块,用于对新闻网页聚类,产生话题及其特征向量。索引建立模块,用于对话题和新闻网页建立索引。查询排序模块,用于对用户的查询、计算各话题和新闻网页排序分数;
结果输出模块,用于对检索结果进行排序和输出。如图I所示,所述的基于话题的新闻检索方法主要包括如下步骤 步骤Si、采集新闻网页,对新闻网页进行分析,以提取特征的步骤;
步骤S2、对新闻网页聚类,产生话题及其特征向量的步骤;具体包括
利用步骤SI中产生的特征对新闻网页聚类,考虑到网络新闻不断产生的特点,聚类算法采用在线式层次聚类,该算法每轮先去除长时间没有更新的话题;然后对本轮新增新闻做非加权组中心(UPGMC,Unweighted Pair-Group Method using Centroids)聚类,产生一批新话题;再把新话题与现有话题合并(如果符合条件);最后对全部现有话题再进行一次UPGMC聚类。聚类过程中的相似度计算采用余弦相似度。每个聚类结果作为一个话题,每个话题有一个以token及其相关信息为元素的中心向量,该向量作为话题的特征向量。并记录该话题包含的新闻网页ID。步骤S3、对话题和新闻网页建立索引的步骤;
步骤S4、对用户的查询、计算各话题和新闻网页排序分数;以及 步骤S5、对检索的结果进行排序和输出的步骤。这里,由于话题和新闻网页的排序分数有可比性,故既可以混合排序也可以各自排序。在展示检索结果时,话题可以通过链接导入新页面,包含该话题内的所有新闻以及话题的其它信息(报道趋势图、评论、图片、视频等)。图2为本发明中对网络爬虫采集新闻网页的流程图,如图2所示,所述采集新闻网页并对新闻网页提取特征的步骤如下
步骤S11、采用网络爬虫采集新闻网页;
步骤S12、对新闻网页进行分词、词性标注、去除停用词、专名识别、同义词归并等处理,构造特征向量,特征向量以词或短语(token )及其权重为单位。图3为本发明中对话题和新闻网页建立索引的流程图,如图3所示,所述对话题和新闻网页建立索引,主要包含以下步骤
步骤S31、对话题建索引,建立倒排表。对于每个话题,以步骤S2中产生的特征向量中的token作为索引项。对于每个token,倒排链中的各元素存储包含该token的各话题ID、该token在各话题中的归一化权重及其它信息。步骤S32、对新闻网页建立索引。对每个新闻网页,利用步骤SI中产生的特征向量建立索引。与话题的索引类似,索引项同样为特征向量中的token,倒排链中的存储包含该token的各新闻网页ID、该token在各新闻网页中的归一化权重等信息。图4为本发明针对用户的查询、计算各话题和新闻网页排序分数流程图,如图4所示,对用户的查询,计算各话题和新闻网页排序分数,包含以下步骤步骤S41、用户输入查询后,对查询进行分词、分词结果赋权等处理,产生一个查询向量,单位同样为token。步骤S42、计算话题或新闻网页和查询的相关度。对于话题和常规新闻网页,分别通过话题索引和新闻网页索引,计算查询特征向量和话题或新闻网页特征向量的余弦相似度。公式如下
权利要求
1.一种基于话题的新闻检索装置,其特征在于,主要包括采集分析模块、聚类处理模块、索引建立模块、查询排序模块以及结果输出模块;其中 采集分析模块,用于采集新闻网页,并提取相应的特征; 聚类处理模块,用于对新闻网页聚类,产生话题及其特征向量; 索引建立模块,用于对话题和新闻网页建立索引; 查询排序模块,用于对用户的查询、计算各话题和新闻网页排序分数; 结果输出模块,用于对检索结果进行排序和输出。
2.一种基于话题的新闻检索方法,其特征在于,主要包括 A、采集新闻网页,对新闻网页进行分析,提取特征的步骤; B、对新闻网页聚类,产生话题及其特征向量的步骤; C、对话题和新闻网页建立索引的步骤; D、对用户的查询、计算各话题和新闻网页排序分数的步骤;以及 E、对检索结果进行排序和输出的步骤。
3.根据权利要求2所述的基于话题的新闻检索方法,其特征在于,步骤A所述采集新闻网页并对新闻网页提取特征,包括 Al、采用网络爬虫采集新闻网页; A2、对新闻网页进行分词、词性标注、专名识别的处理,构造特征向量,所述特征向量以词或短语token及其权重为单位。
4.根据权利要求2所述的基于话题的新闻检索方法,其特征在于,步骤B所述对新闻网页聚类、产生话题及其特征向量,包括 所述产生的特征对新闻网页聚类,每个聚类结果作为一个话题,每个聚类结果有一个以token及其相关信息为元素的中心向量,该向量作为话题的特征向量,并记录该话题包含的新闻网页ID。
5.根据权利要求2所述的基于话题的新闻检索方法,其特征在于,步骤C所述对话题和新闻网页建立索引,主要包括 Cl、对话题建索引,建立倒排表;对于每个话题,以步骤B产生的特征向量中的token作为索引项;对于每个token,倒排链中存储包含该token的所有话题ID、该token在各话题中的权重及其他信息; C2、对新闻网页建索引;对每个新闻网页,利用步骤A中产生的特征向量建立索引;所述索引项为特征向量中的token。
6.根据权利要求2所述的基于话题的新闻检索方法,其特征在于,步骤D所述对用户的查询、计算各话题和新闻网页排序分数的过程包括 D1、用户输入查询后,对查询进行分词、分词结果赋权等处理,产生一个查询向量,单位为 token。
7.D2、计算相关度;对于话题和常规新闻网页,分别通过话题索引和新闻网页索引,计算查询特征向量和话题或新闻网页特征向量的余弦相似度,得出查询与话题或新闻网页的相关度; D3、综合其他因素计算话题或新闻网页的排序分数,计算过程中保证话题和新闻网页的排序分数的可比性。
8.根据权利要求2所述的基于话题的新闻检索方法,其特征在于,对步骤E所述检索结果的排序,由于话题和新闻网页的排序分数有可比性,既可混合排序也可各自排序;在展示检索结果时,该话题通过链接导入新页面,包含该话题内的所有新闻以及话题的其他信息。
全文摘要
本发明公开了一种基于话题的新闻检索装置及方法,包括采集分析模块、聚类处理模块、索引建立模块、查询排序模块以及结果输出模块;其中采集分析模块,用于采集新闻网页,并提取相应的特征;聚类处理模块,用于对新闻网页聚类,产生话题及其特征向量;索引建立模块,用于对话题和新闻网页建立索引;查询排序模块,用于对用户的查询、计算各话题和新闻网页排序分数;结果输出模块,用于对检索结果进行排序和输出。采用本发明,能够在用户检索新闻时,从根本上和深层次上考查各话题和用户查询的相关度,并把检索到的话题和常规新闻网页结合展示。
文档编号G06F17/30GK102831192SQ20121027476
公开日2012年12月19日 申请日期2012年8月3日 优先权日2012年8月3日
发明者李德聪, 方庆安, 杨青 申请人:人民搜索网络股份公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1