融合地理信息与视觉信息的网络新闻检索系统及方法

文档序号:6437798阅读:182来源:国知局
专利名称:融合地理信息与视觉信息的网络新闻检索系统及方法
技术领域
本发明涉及网络新闻检索领域,特别的,涉及一种融合地理信息与视觉信息的网络新闻检索系统及方法。
背景技术
随着信息技术的发展和网络的全球化,在线新闻越来越多并且也越来越受欢迎, 日益变成了人们日常生活中获取信息的一种重要途径。人们可以通过一些主要的网络门户网站如雅虎、MSN或者大型新闻网站如CNN、AOL和MSNBC获取和浏览新闻。但是,现有技术中的新闻展示方法具有若干不足。例如,现有的新闻展示方法缺乏以地理为基础的组织。有研究表明用户经常优先关注几个特定地点的新闻,比如家乡和工作地点。大部分的大型新闻网站可以根据相关的国家进行组织新闻。用户可以提交一个地点作为检索词检索新闻。但是文档中包含的地理名词经常存在噪声,因而降低了检索的性能。另外,现有的新闻展示方法不包含全面的视觉信息。图1显示了现有技术中一篇新闻文档中包含图片个数的分布情况。从图1中可以看到,现有技术中大部分的新闻文档没有图片或者包含很少的图片。例如,仅有不到5%的新闻文档包含超过一张的图片。通常来说,图片的表现效果胜过千言万语,作为新闻文本的补充,新闻图片能够使用户更快的获取信息。但是,如图1所示,现有的新闻文档中包含的图片数很少,因而远远不能满足用户获取信息的全面需求。

发明内容
本发明的目的是提供一种融合地理与视觉信息的网络新闻检索系统及方法。根据本发明的系统及方法,能够为用户提供基于地理信息组织的新闻,使用户快速地浏览到所关心地区发明的新闻事件;进而,本发明采用图像信息对文本信息进行补充,使用户能够快速地掌握新闻事件的内容。根据本发明的一个方面,提供了一种融合地理信息与视觉信息的网络新闻检索系统,该系统包括数据预处理模块,用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息;地点相关性分析模块,用于执行新闻事件与新闻地点的相关性分析;新闻配图模块,用于为新闻选择合适的图像;检索结果展示模块, 用于基于检索相关性排序展示检索到的新闻。其中,所述数据预处理模块包括新闻数据爬取模块,用于从新闻网站上爬取新闻文档和对应的新闻图像;文本分析模块,用于提取出新闻数据的标题、时间、网站、摘要和正文以及对应的网址,提取出新闻图像的网址和图像对应的文本信息;新闻实体提取模块,从新闻数据中提取出人物,地点和时间。所述地点相关性分析模块包括地理名词过滤和扩展模块,用于获取地理名词的地理位置信息;基于矩阵分解的相关性分析模块,用于利用一致性约束概率矩阵分解方法分析新闻地点和新闻事件之间的关系。所述新闻配图模块包括检索词生成模块,用于从新闻数据中抽取一个或多个关键词,将其组合成检索词并提交给图像搜索引擎进行图像检索;图像排序和选择模块,用于对检索到的图像进行排序和去重,并选择能够表达新闻文档内容的图像。所述检索结果展示模块包括地图视图模块,用于显示所选择的新闻在地图上的分布位置;新闻事件列表模块,用于按照预定的规则排序并显示检索到的新闻事件的列表。在地点相关性分析模块中,所述一致性约束概率矩阵分解方法基于下述规则分析新闻地点和新闻事件之间的关系相似度较高的新闻事件很可能发生在同一个地方,以及相关性较高的多个地点与同一个新闻事件的关系是相近的。在新闻配图模块中,所述检索词生成模块是从新闻数据的多个部分中提取检索词进行图像检索;所述图像排序和选择模块采用基于等级聚合的方法对检索到的图像进行排序。在检索结果展示模块中,所述地图视图模块响应于用户输入的检索词或者点击地图上任何一个地点,显示出最相关新闻事件的标题及对应的图像;所述预定的规则排序包括下述中的一种或多种新闻事件之间的相关性、新闻事件与检索地点之间的相关性以及新闻发生的时间信息。根据本发明的另一个方面,还提供了一种融合地理信息与视觉信息的网络新闻检索方法,该方法包括数据预处理步骤,用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息;地点相关性分析步骤,用于执行新闻事件与新闻地点的相关性分析;新闻配图步骤,用于为新闻选择合适的图像;检索结果展示步骤,用于基于检索相关性排序展示检索到的新闻。如上所述,本发明的系统及方法,提供了基于地理位置的新闻检索,估计和细化了新闻文档与地理位置之间的关系,在此过程中综合考虑了新闻文档与地点的初始关系,地点之间的关系以及新闻文档之间的相似性。此外,通过提出给新闻文档配图的方法,使得使用户能够更直接和更快地获取新闻。此外,还提出了支持新闻地理名词的检索模块,以及通过点击地图上相应地理位置进行检索的用户检索与浏览界面。根据本发明提出的一致性约束概率矩阵分解模型,能够将地点-事件关系,地点之间相关性和事件之间的相似性融合起来,估计和细化地点与事件之间的相关性,能够去除噪声和估计出潜在的关系。根据本发明提出的从文本中抽取检索词进行网络图像检索和图像排序的方法,可以按照多种规则实现对新闻文档的精确配图。根据本发明提出的组合检索词的方法,能够避免目前网络搜索引擎不能够处理复杂检索的问题以及单个词作为检索不能表达文档内容的问题。此外,对于从网络搜索引擎中得到的不同的图像列表,本发明还提出了基于等级聚合的方法对这些图像列表进行融合排序的,从而选出最能表达新闻文档内容的图像。根据本发明提出的新闻文档排序方法,综合考虑了新闻的时效性、重要性以及检索相关性。该方法基于传统的马尔科夫随机游走模型,将前面分析得到的新闻事件-新闻地点相关性与新闻文档的时效性线性融合为该模型中的初始状态,并基于新闻文档之间的相似性,实现新闻文档集合的检索相关性排序。本发明还提供便于用户检索和浏览新闻的交互界面。用户可以通过提交检索或者单击地图进行检索,同时为一个检索结果提供了标题、新闻图片和内容摘要,用户可以快速生动地获取需要的信息。如果用户想要了解更详细的信息,可通过点击界面的“更多”按钮来获取。综上所述,本发明以新闻的发生地点名称为搜索关键词或者通过点击地图上感兴趣的地理位置,提供给用户一个更生动、更富信息的新闻搜索结果,其结果展示界面包含两部分其一,在真实地图上按照事件所发生地理位置来展示与检索地点最相关的新闻标题和图片信息;其二,具有新闻标题、图片和简短说明的多模态检索结果列表。


图1显示了现有技术中一篇新闻文档中包含图片个数的分布情况;图2显示了本发明的网络新闻检索系统的示意图;图3是本发明提出的一致性约束概率矩阵分解模型图;图4显示了本发明中一个新闻配图的实例;图5显示了本发明一个实施例的网络新闻检索和浏览界面;图6是BM25排序模型、概率矩阵分解模型和一致性约束概率矩阵分解模型的检索性能评价结果;图7给出了变化参数在NDCG@50规则下的结果;图8是本发明的新闻配图方法与现有技术的性能比较结果;图9显示了本发明的检索结果排序方法与现有技术的排序方法在检索相关性上的比较结果;图10显示了本发明的检索结果排序方法与现有技术的排序方法在时效性方面的比较结果。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,并参照附图,对本发明进一步详细说明。虽然本发明的实例是基于英文新闻提供的,但是本发明的方法不受语言种类的限制。本发明提出了一个利用计算机的基于多媒体分析的新闻检索系统,综合利用了地理信息和视觉信息。首先从文本中提取出新闻地点候选集,利用网络信息进行过滤和扩展, 并获取其地理位置信息(经纬度)。通过本发明提出的基于一致性约束概率矩阵分解关系挖掘技术发现潜在的新闻地点与新闻事件之间的关系,综合考虑了新闻地点之间的相关性,新闻事件的相似性和新闻地点-新闻事件之间的初始关系。然后为了使用户快速生动地获取新闻,本发明提出了给新闻配图的方法。虽然目前的新闻文档中也包含了新闻图片,但是对应的新闻图片太少了甚至一半以上的文档还是没有图片的,如图1所示。本发明提出的相关方法能够给文档提供多张具有表现力的图片。对检索结果,本发明提出了考虑时间信息的基于网页排序的排序方法。设计了一个方便用户的新闻检索与浏览界面。
图2显示了本发明的网络新闻检索系统的示意图。如图2所示,本发明的融合地理信息和视觉信息的新闻检索系统包括数据预处理模块、地点相关性分析模块、新闻配图模块及检索结果展示模块。数据预处理模块用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息。所述数据预处理模块包括新闻数据爬取模块、文本分析模块和新闻实体提取模块等子模块,其中新闻数据爬取模块采用网络爬虫从新闻网站(例如,ABC、BBC、CNN及谷歌等新闻网站)上爬取新闻文档和对应的新闻图像。文本分析模块采用自然语言处理技术提取出新闻文档的标题、时间、网站、摘要和正文以及对应的网址,提取出新闻图像的网址和图像对应的文本信息。新闻实体提取模块采用自然语言处理技术去除重复文档和从新闻文档中提取出人物,地点和时间。地点相关性分析模块,用于执行新闻事件与新闻地点的相关性分析。地点相关性分析模块包括地理名词过滤和扩展模块、基于矩阵分解的相关性分析模块等子模块,其中地理名词过滤和扩展模块用于获取地理名词的地理位置信息(例如地理经纬度)。基于矩阵分解的相关性分析模块采用本发明的一致性约束概率矩阵分解方法分析新闻地点和新闻事件之间的关系。新闻配图模块用于为新闻选择能够说明新闻内容的图像。新闻配图模块包括检索词生成模块、图像排序和选择模块等子模块,其中检索词生成模块,用于从新闻数据中抽取一个或多个关键词,将其组合成检索词并提交给图像搜索引擎进行图像检索,即从新闻文档中抽取一个或多个关键词,将其组合成长度不同的检索词,提交给图像搜索引擎(例如谷歌)进行图像检索。本实施例中,可以利用新闻数据的各个部分(标题、摘要和正文等)的不同重要性,从新闻中提取检索词进行网络图像检索,从而解决目前图像检索引擎不能处理长检索词的问题以及单个检索词无法表达文档内容的问题。图像排序和选择模块,用于对检索到的图像进行排序和去重,并选择合适的图像。 该模块执行图像排序和选择即考虑图像在返回列表中的位置以及与源文档包含图片的相似度,采用等级聚合方法学习不同长度的检索词对应列表的权重,再利用这些权重对图像进行排序,并去除重复图像,然后选择能够表达新闻内容的图像。检索结果展示模块用于基于检索相关性排序展示检索到的新闻。本发明提供了一个展示检索结果的用户界面。如图2所示,检索结果展示模块包括地图视图模块和新闻事件列表模块等子模块,其中地图视图模块显示所选择的新闻在地图上的分布位置。新闻事件列表模块用于按照预定的规则排序并显示检索到的新闻事件的列表。如图2所示,用户可以在检索框中输入检索词进行检索,也可以浏览地图点击想要检索的地点在地图上对应的位置,系统自动返回相关结果。本发明的检索结果展示模块综合考虑了新闻的时效性、与检索的相关性以及新闻的重要性。如图2所示,在地图上展示了最相关新闻的标题和前两幅图像。在右部分的列表中,每个新闻显示了标题、相关图像和简短摘要。更多的信息可通过点击“更多”按钮获取。以上介绍了本发明的新闻检索系统的结构组成,如图2所示,与该新闻检索系统的各个模块对应,本发明还提出了融合地理信息与视觉信息的网络新闻检索方法,该方法包括下述步骤数据预处理步骤,用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息;地点相关性分析步骤,用于执行新闻事件与新闻地点的相关性分析;新闻配图步骤,用于为新闻选择合适的图像;检索结果展示步骤,用于基于检索相关性排序展示检索到的新闻。所述地点相关性分析步骤包括地理名词过滤和扩展步骤,用于获取地理名词的地理位置信息;基于矩阵分解的相关性分析步骤,用于利用一致性约束概率矩阵分解方法分析新闻地点和新闻事件之间的关系。优选的,所述一致性约束概率矩阵分解方法基于下述规则分析新闻地点和新闻事件之间的关系相似度较高的新闻事件很可能发生在同一个地方,以及相关性较高的多个地点与同一个新闻事件的关系是相近的。所述新闻配图步骤包括检索词生成步骤,用于从新闻数据中抽取一个或多个关键词,将其组合成检索词并提交给图像搜索引擎进行图像检索;图像排序和选择步骤,用于对检索到的图像进行排序和去重,并选择合适的图像。优选的,所述检索词生成步骤从新闻数据的多个部分中提取检索词进行图像检索;所述图像排序和选择步骤采用基于等级聚合的方法对检索到的图像进行排序。所述检索结果展示步骤包括地图视图步骤,用于显示所选择的新闻在地图上的分布位置;新闻事件列表步骤,用于按照预定的规则排序并显示检索到的新闻事件的列表。其中,所述预定的规则排序包括下述中的一种或多种新闻事件之间的相关性、新闻事件与检索地点之间的相关性以及新闻发生的时间信息。其中,所述地图视图步骤,响应于用户输入的检索词或者点击地图上任何一个地点,显示出最相关新闻事件的标题及对应的图像。如上所述,该新闻检索系统采用了以下4个主要处理流程(1)基于一致性约束概率矩阵分解模型的地理位置相关性分析;( 新闻配图;C3)检索结果的排序;(4)检索结果浏览界面。下面以英文检索为例分别介绍上述子流程,主要包括新闻文档定位流程和配图流程,以及对用户检索结果的排序流程。但显然,本发明不限制于此,而是可以合理的应用于其他语言种类,例如中文等。<地理位置-新闻事件的相关性分析>该流程包括四个步骤⑴候选地名提取;(2)取出候选地名奇异性;⑶得到地名与文档的初始关系;(4)是对地名与文档的关系进行细化分析。首先,根据利用自然语言处理技术从数据库的新闻文档中抽取出新闻地名,得到了候选地名列表;然后将利用已得到的列表提交到维基百科,如果返回的页面中没有地理信息则认为这个候选地名是噪声并去除。然后,对于不同的地方对应同一个名字的情况,可以将过滤之后的列表再提交给地理信息系统(GeoNames)进行扩展并爬取对应的地理信息(经纬度)。随后,统计各地名在数据库新闻文档中的出现频率,从而得到初始的地名与文档的关系。根据上述方法得到的地名与文档的对应关系是包含噪声的,例如,一个关于名人婚礼的新闻会有婚礼举行地点以及新娘和新郎的家乡。婚礼地点才是该新闻真正的地点, 也是最相关的,其他地点是不相关的。另外与新闻相关的地点可能没有出现在文章中,比如关于北京奥运会的新闻,介绍了相关的体育事件但没提及北京,然而与此新闻最相关的地点是北京。因此,为了更好地挖掘新闻地点与新闻事件之间的关系(新闻事件与的新闻文档是一一对应关系,即认为一个新闻文档描述了一个新闻事件),本发明基于传统的概率矩阵分角军(Probabilistic Matrix Factorization,PMF)模型(参见Ruslan Salakhutdinov and Andriy Mnih. "Probabilistic Matrix Factorization”,NIPS 2008.)提出了一致性约束概率矩阵分角军模型(Consistent Constraints Probabilistic Matrix Factorization, 简写为CCPMF),对新闻地点与新文档的相关性进行分析。相比传统的PMF模型,本发明的 CCPMF模型引入了新闻文档与地点之间的一致相关性作为优化求解的约束条件(即相关的新闻文档需要对应相关的地点,反之亦然),从而能够更有效的分析二者之间的真实相关性。其中,地点相关性是利用搜索引擎(例如谷歌距离)计算各地名之间的统计共生相关性;新闻文档之间的相关性是通过考虑新闻标题、摘要和正文的不同重要性,进行线性组合计算而得的文本相似性。下面详细讲述前述第四个步骤地名与文档的关系细化分析。图3是本发明提出的一致性约束概率矩阵分解模型图。如图3所示,考虑到非常相关的事件很有可能发生在同一个地点以及同一个新闻可能与非常相关的几个地名相关,本发明的一致性约束概率矩阵分解模型综合考虑了地名之间的相关性、文档之间的相似性以及地名与文档的关系。假设具有M个地点,N个事件。R G ·尤G 和S G兄 ‘分别表示地点-事件关系矩阵、地点之间的相关性矩阵和事件相似性矩阵。采用矩阵分解的思想挖掘潜在的高质量特征空间,即采用PtE近似R,其中P e 和E e 'Eifx v表示潜在的H维地名和事件特征矩阵。R0 e Xa〃 是初始的地点-事件的0-1关系矩阵。在概率矩阵分解模型中,假设对地点-事件的关系估计误差从均值为0、方差为(7 的高斯分布,则有
λ; .V
P(R.°|Ρ. Ε,σΙ ) = H [][Λ'( / ;'Ip/ a . 'TJ{ i],.'"
—1J=I其中AXq/.rr2)表示均值为0、方差为σ 2的高斯分布函数。Pi和e」分别是矩阵P 和E的第i列和第j列。δ是标识矩阵,如果i和j的关系大于零,则δ u = 1,否则δ u
=O0另外,假设潜在特征空间和系数矩阵服从球形高斯分布,即
M
F(P|4) =1]-'^ '!°-^1)
权利要求
1.一种融合地理信息与视觉信息的网络新闻检索系统,该系统包括数据预处理模块,用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息;地点相关性分析模块,用于执行新闻事件与新闻地点的相关性分析; 新闻配图模块,用于为新闻选择能够说明新闻内容的图像; 检索结果展示模块,用于基于检索相关性排序展示检索到的新闻。
2.根据权利要求1所述的系统,所述数据预处理模块包括新闻数据爬取模块,用于从新闻网站上爬取新闻文档和对应的新闻图像; 文本分析模块,用于提取出新闻数据的标题、时间、网站、摘要和正文以及对应的网址, 提取出新闻图像的网址和图像对应的文本信息;新闻实体提取模块,从新闻数据中提取出人物,地点和时间。
3.根据权利要求1所述的系统,所述地点相关性分析模块包括 地理名词过滤和扩展模块,用于获取地理名词的地理位置信息;基于矩阵分解的相关性分析模块,用于利用一致性约束概率矩阵分解方法分析新闻地点和新闻事件之间的关系。
4.根据权利要求1所述的系统,所述新闻配图模块包括检索词生成模块,用于从新闻数据中抽取一个或多个关键词,将其组合成检索词并提交给图像搜索引擎进行图像检索;图像排序和选择模块,用于对检索到的图像进行排序和去重,并选择能够说明新闻内容的图像。
5.根据权利要求1所述的系统,所述检索结果展示模块包括 地图视图模块,用于显示所选择的新闻在地图上的分布位置;新闻事件列表模块,用于按照预定的规则排序并显示检索到的新闻事件的列表。
6.根据权利要求3所述的系统,所述一致性约束概率矩阵分解方法基于下述规则分析新闻地点和新闻事件之间的关系相似度较高的新闻事件很可能发生在同一个地方,以及相关性较高的多个地点与同一个新闻事件的关系是相近的。
7.根据权利要求4所述的系统,其中所述检索词生成模块从新闻数据的多个部分中提取检索词进行图像检索; 所述图像排序和选择模块采用基于等级聚合的方法对检索到的图像进行排序。
8.根据权利要求5所述的系统,其中所述预定的规则排序包括下述中的一种或多种 新闻事件之间的相关性、新闻事件与检索地点之间的相关性以及新闻发生的时间信息。
9.根据权利要求5所述的系统,其中所述地图视图模块,响应于用户输入的检索词或者点击地图上任何一个地点,显示出最相关新闻事件的标题及对应的图像。
10.一种融合地理信息与视觉信息的网络新闻检索方法,该方法包括数据预处理步骤,用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息;地点相关性分析步骤,用于执行新闻事件与新闻地点的相关性分析; 新闻配图步骤,用于为新闻选择能够说明新闻内容的图像; 检索结果展示步骤,用于基于检索相关性排序展示检索到的新闻。
11.根据权利要求10所述的方法,所述数据预处理步骤包括新闻数据爬取步骤,用于从新闻网站上爬取新闻文档和对应的新闻图像;文本分析步骤,用于提取出新闻数据的标题、时间、网站、摘要和正文以及对应的网址, 提取出新闻图像的网址和图像对应的文本信息;新闻实体提取步骤,从新闻数据中提取出人物,地点和时间。
12.根据权利要求10所述的方法,所述地点相关性分析步骤包括地理名词过滤和扩展步骤,用于获取地理名词的地理位置信息;基于矩阵分解的相关性分析步骤,用于利用一致性约束概率矩阵分解方法分析新闻地点和新闻事件之间的关系。
13.根据权利要求10所述的方法,所述新闻配图步骤包括检索词生成步骤,用于从新闻数据中抽取一个或多个关键词,将其组合成检索词并提交给图像搜索引擎进行图像检索;图像排序和选择步骤,用于对检索到的图像进行排序和去重,并选择合适的图像。
14.根据权利要求10所述的方法,所述检索结果展示步骤包括地图视图步骤,用于显示所选择的新闻在地图上的分布位置;新闻事件列表步骤,用于按照预定的规则排序并显示检索到的新闻事件的列表。
15.根据权利要求12所述的方法,所述一致性约束概率矩阵分解方法基于下述规则分析新闻地点和新闻事件之间的关系相似度较高的新闻事件很可能发生在同一个地方,以及相关性较高的多个地点与同一个新闻事件的关系是相近的。
16.根据权利要求13所述的方法,其中所述检索词生成步骤从新闻数据的多个部分中提取检索词进行图像检索;所述图像排序和选择步骤采用基于等级聚合的方法对检索到的图像进行排序。
17.根据权利要求14所述的方法,其中所述预定的规则包括下述中的一种或多种新闻事件之间的相关性、新闻事件与检索地点之间的相关性以及新闻发生的时间信息。
18.根据权利要求14所述的方法,其中所述地图视图步骤,响应于用户输入的检索词或者点击地图上任何一个地点,显示出最相关新闻事件的标题及对应的图像。
全文摘要
本发明提出了一种融合地理信息与视觉信息的网络新闻检索系统及方法。该系统包括数据预处理模块,用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息;地点相关性分析模块,用于执行新闻事件与新闻地点的相关性分析;新闻配图模块,用于为新闻选择合适的图像;检索结果展示模块,用于基于检索相关性排序展示检索到的新闻。本发明的系统及方法综合利用了地理位置信息和视觉信息对网络新闻进行描述与展示,为网络用户提供基于地理位置的多媒体新闻检索,同时综合了新闻地点-新闻事件的关系、新闻地点的相关性以及新闻事件之间的关系,从而提供给用户一个更生动、更富信息的新闻搜索结果。
文档编号G06F17/30GK102364473SQ20111035200
公开日2012年2月29日 申请日期2011年11月9日 优先权日2011年11月9日
发明者刘静, 卢汉清, 李泽超 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1