一种面向主题定制的新闻情报提取系统的制作方法

文档序号:6375504阅读:228来源:国知局
专利名称:一种面向主题定制的新闻情报提取系统的制作方法
技术领域
本发明涉及一种新闻情报提取系统,具体是ー种以新闻为对象的面向主题定制的情报提取系统。
背景技术
在互联网高速发达的今天,利用公共信息发布系统搜集政治、军事、经济、文化等领域的情报已成为ー个获取情报的重要渠道之一。根据情报学中对情报的定义,所谓情报,是指在有效的时间内的实时所需信息。目前,90%的情报都是从公共信息发布系统中获取的,而各类新闻信息无疑是最大量的公共信息。但是,互联网新闻是海量信息源,而且是ー个开放、分布的信息空间,它本身所固 有的以下特点己经明显地阻碍了人们对互联网上信息资源的充分使用=Internet上可利用的信息是无组织、多种结构形式的,并且分布在全世界的各个站点上;资料和服务的类型以及数量每天都在大量増加,因而信息的可利用性和可靠性也在不断地变化;由于信息源的动态性以及潜在的有用信息的更新和保存问题,信息常常是模糊的,有时甚至是错误的。如何确定情报收集的方向,并找到一种高效的收集方式,也就是在互联网上如何找、以及怎样找,是进行公开情报收集的一个函待解决的问题。目前所提供的信息检索方式,如搜索引擎,并不能从根本上解决这方面的问题。其原因主要有以下几点
(1)用户的兴趣表达方式与搜索引擎对用户兴趣的理解与识别之间存在相当的距离;同时在检索过程中,会有大量不相关的信息被提供给用户,产生“信息过载”的现象。目前都是用人エ来对所有查到的信息逐条地判断与收集,效率十分低下;
(2)—篇网络新闻对事件很难一次性交代清楚,随着事件的推移可能有新情况、新问题。搜索引擎对某ー主题事件返回的结果往往是片段的、离散的,不能对ー个事件按时间顺序归类排列,形成ー个事件的发展轨迹。而ー个事件比较完善的发展轨迹,能给用户ー个參照,以判断事件的发展趋势。(3)搜索引擎在检索信息时,不能保证信息的时效性和权威性,这对于情报提取来说,是ー个非常严重、甚至是致命的弱点。

发明内容
本发明的目的是克服现有技术的不足,提供一种面向主题定制的新闻情报提取系统,它可以根据用户的兴趣主题定制,比较全面地、及时地收集网络新闻,自动进行新闻文本抽取、话题识别和话题追踪,形成以话题为中心的文本分类方法,并可以集中进行检索和浏览,提供甄别新闻的相关信息,最终帮助用户提取相关情报。为了解决上述问题,本发明所述的面向主题定制的新闻情报提取系统包括新闻搜集子系统、文本处理子系统和人机交互子系统;所述新闻搜集子系统,捜索用户定制的相关主题的相关新闻,并提取新闻文本;所述文本处理子系统,将文本分成不同的类,在此基础上对文本的内容进行话题检测、话题追踪,同时自动生成文摘,建立相应的索引;所述人机交互子系统,对话题先进行分析,计算话题的热度,将热门话题以话题的主题为组、以热度为顺序呈现给用户,同时该人机交互子系统提供话题检索,用户根据得到的内容进行人エ甄别,将甄别后的信息通过人工抽取后得到的情报存入到情报库。所述新闻搜集子系统包括聚焦爬虫単元、网页数据库、文本抽取单元以及文本库;其中,所述聚焦爬虫単元根据用户定制的主题,使用聚焦爬虫在互联网中进行搜索,在捜索的过程中进行网页主题相关度判断,将于主题相关的网页保存存入网页数据库;所述网页数据库用于存储聚焦爬虫单元采集来的原始网页;所述文本抽取单元对网页数据库里面的网页进行去噪处理,并对半结构化的网络新闻进行结构化抽取,将抽取得到的信息集合以文本的形式存入文本库;所述文本库用来存储文本抽取单元传来的信息。所述文本处理子系统包括文本分类单元、话题检测单元、话题追踪单元、文摘索引単元以及话题库;其中,所述文本分类单元是将文本库中的文本按其内容分到基本的大类中,方便进行下一歩的处理;所述话题检测单元将文本库中的新闻归入不同的话题,在需要的时候建立新的话题,将同一话题的新闻文本汇集起来存入话题库;所述话题追踪单元追踪话题的后续报道,将同一话题按时间顺序排序,形成ー个事件的发展轨迹,给用户ー个 参考,以判断事件的发展趋势,将排序信息写回话题库;所述文摘索引単元对归类好的话题库中的新闻内容进行加工,生成摘要,形成用于搜索的索引库,并提供检索功能;所述话题库用来存储话题检测単元处理后的文本库中的信息以及话题追踪単元和文摘索引単元写回的新闻相关信息,并提供给人机交互子系统进行检索。所述人机交互子系统包括话题分析単元、话题呈现单元、检索反馈单元以及情报库;所述话题分析単元根据话题出现的天数、报道的数量计算话题的热度,同时进行话题热度的排名;所述话题呈现单元将与主题相关的话题以话题的主题为组,以热度为顺序向用户展示与主题相关的话题信息,起到预警的作用;所述检索反馈单元接收用户的查询请求,将相应的信息以话题为中心,以时间为顺序显示,同时显示新闻的来源地点、更新时间、发布机构信息以帮助用户对信息进行甄别,同时用户可以将甄别后的新闻进行人エ抽取并存入情报库;所述情报库用来存储检索反馈单元提供的情报。与现有技术相比,本发明具有以下有益效果
(I)可以进行主题定制,并节省时间。通过对新闻搜集子系统里的聚焦爬虫单元进行主题定制,用户可以对自己感兴趣的主题进行互联网信息抓取,同时避免爬虫进行低效、繁重的无用信息的抓取,提高了效率,节省时间。(2)可以比较全面地、及时地收集与主题相关的网络新闻。由于聚焦爬虫単元可以指定页面,站点,因此系统可以针对这些站点的内容进行全面的爬行;同时可以定制聚焦爬虫的抓取周期,对经常更新的站点及时地进行爬行,使网页数据库中的记录能够保持最新的状态。(3)系统自动对新闻进行话题检测,将新闻文本按话题归类。话题检测单元对文本库中的文本内容进行处理,发现新话题、识别文本话题,将同一话题的新闻文本归为ー类,便于情报分析时分类检索和查询。(4)系统自动对新闻进行话题追踪,展现话题的来龙去脉。话题追踪单元追踪话题的后续报道,将同一话题按时间顺序排序,形成ー个事件的发展轨迹,给用户ー个參考,以判断事件的发展趋势。
(5)可以集中的检索和浏览。由于收集和加工处理的新闻信息和话题相关信息都存储在话题库中,因此便于通过浏览检索界面进行分类检索和捜索查询浏览。(6)充分发挥用户的认知能力,通过人机结合,实现更好地情报提取效果。在情报的甄别、提取过程中,系统可以提供新闻来源、时间等相关信息给用户以參考,同时系统充分发挥用户的认知能力,最终提取到对用户有用的情报。


图I是本发明实施例中提出的一种面向主题定制的新闻情报提取系统的结构示意图。图2是本发明实施例中情报信息提取过程的方法流程图。
具体实施方式

下面结合附图和实施例对本发明作进ー步说明。如图I所示,是本发明所述的面向主题定制的新闻情报提取系统包括三个子系统,分别为新闻搜集子系统I、文本处理子系统2、人机交互子系统3。新闻搜集子系统I完成捜索用户定制的相关主题的相关新闻,并提取新闻文本的功能。新闻搜集子系统I包括聚焦爬虫単元102、网页数据库104、文本抽取单元106以及文本库108。聚焦爬虫单元102接收用户定制的主题,根据用户定制的页面、站点或随机生成的URL表,按照抓取策略,逐一进行访问,对每个抓取的页面进行主题相关度判断,将和主题相关的页面保存到网页数据库,和主题无关的页面舍弃。网页数据库104,用于存储聚焦爬虫単元102抓取和主题相关的网页,提供给文本抽取单元106使用。文本抽取单元106读取网页数据库104中的新闻网页,对其进行去噪处理,并对半结构化的网络新闻进行结构化抽取,包括标题、来源、文本大小、发布时间、人物、地点,具体内容等信息,将抽取得到的信息集合以文本的形式存入文本库108中。文本库108用于存储文本抽取单元106传来的信息。文本处理子系统2将文本库108中的文本分成不同的类,在此基础上对文本的内容进行话题检测、话题追踪,同时自动生成文摘,建立相应的索引。文本处理子系统2包括文本分类单元110、话题检测单元112、话题追踪单元114、文摘索引单元116以及话题库118。文本分类单元110将文本库108中的文本按其内容分到基本的大类中,方便进行下一歩的处理。话题检测单元112读取文本库108中新闻文本的内容,将新闻文本归入不同的话题,在需要的时候建立新的话题,将同一话题的新闻文本汇集起来,并将文本以及归类信息存入话题库118中。话题追踪单元114追踪话题的后续报道,将同一话题按时间顺序排序,形成ー个事件的发展轨迹,给用户ー个參考,以判断事件的发展趋势,将排序信息写回话题库118中。文摘索引单元116利用现有的自动文摘生成技术,对话题库118中新闻文本内容进行自动抽取加工,生成新闻内容的摘要信息,并将摘要保存回话题库118中;同时利用搜索引擎全文检索技术,读取话题库118中新闻文本的内容,将文本转换成索引项,并将索引项存储在索引库中,为人机交互子系统03提供捜索信息的功能。话题库118用来存储话题检测単元114传来的文本信息以及归类信息,并为话题追踪单元114、文摘索引単元116以及人机交互子系统03提供数据源,同时接收话题追踪单元114传来的归类、排序信息,文摘索引単元116传来的文摘信息和索引信息,并支持人机交互子系统03按关键字进行检索。人机交互子系统3对话题先进行分析,计算话题的热度,将热门话题以话题的主题为组,以时间为顺序呈现给用户,同时该子系统提供话题检索,用户根据得到的内容进行人工甄别,将甄别后的信息通过人工抽取后得到的情报存入到情报库。人机交互子系统3包括话题分析単元120、话题呈现单元122、检索反馈单元124以及情报库126。话题分析単元120读取话题库中的信息,根据话题出现的天数、报道的数量等因素计算话题的热度,同时进行话题热度的排名。 话题呈现单元122利用话题分析単元120传来的信息,将与主题相关的话题以话题的主题为组,以热度为顺序向用户展示与主题相关的各种信息,起到预警的作用。检索反馈单元124接收用户的查询请求,从索引库进行检索,并从话题库118中调取相应信息,将信息以话题为中心,以时间为顺序显示,同时显示新闻的来源地点、更新时间、发布机构以及话题分析単元120传来的分析结果等信息以帮助用户对信息进行甄别,同时用户可以将甄别后的新闻进行人エ抽取,并将抽取后的信息以情报的形式存入情报库126。情报库126用来存储从检索反馈单元124传来的情报信息。如图2所示,是本发明实施例中情报信息提取过程的流程图,以从采集网络新闻,文本抽取,文本分类,话题检测,话题追踪,自动文摘,自动索引,最后通过人机交互将情报提取出来存入情报库的过程为例,详细说明与本发明所述系统对应的工作流程,包括以下步骤
步骤201,向聚焦爬虫单元102输入定制的新闻主题、抓取策略等信息;
步骤202,聚焦爬虫単元102启动,开始抓取网页,并进行主题相关度判断,将于主题无关的网页舍弃,将抓取的新闻网页放入网页数据库104 ;
步骤203,文本抽取单元106处理网页数据库中的网页,并将抽取后的文本存入文本库
108 ;
步骤204,文本分类单元110将文本库108中的文本按其内容分到基本的大类中,方便进行下一歩的处理;
步骤205,话题检测单元112识别文本库108中文本内容包含的话题,并将文本按话题分类,将新闻文本、话题以及分类信息存入话题库118 ;
步骤206,话题追踪单元114追踪话题的后续报道,将同一话题的文本按时间顺序排
序;
步骤207,文摘索引单元116读取话题库118文本的内容,利用自动文摘技术,生成文本摘要;
步骤208,同时文摘索引単元116利用搜索引擎全文检索技木,读取话题库118中新闻文本的内容,将文本转换成索引项,并将索引项存储在索引库中;
步骤209,话题分析単元120对话题库118中的话题进行分析,计算话题热度;
步骤210,话题呈现单元122将与主题相关的话题按热度以话题的主题为组,以热度为顺序向用户展示与主题相关的话题信息;
步骤211,检索反馈单元124接收用户的请求,返回已归类的序列化的新闻信息,并显示新闻来源等信息; 步骤212,检索反馈单元124将用户甄别、提取的情报,存入情报库126。由以上实例可以看出,基于本发明所提供的面向主题定制的新闻情报提取系统,可以帮助用户方便的获取其感兴趣主题的相关新闻,并自动的将主题相关的新闻按话题归类,将同一话题的新闻以时间排序,很清晰的交代话题的来龙去脉,给用户ー个參考,以判断事件的发展趋势;同时系统里的文摘索引単元可以帮助用户从话题库快速检索到所需要的信息,人机交互子系统则充分发挥技术优势和人的认知能力,使提取到最大价值的情报。在本系统的帮助下,用户可以方便的从浩渺的网络新闻快速提取到所需的情报。
权利要求
1.一种面向主题定制的新闻情报提取系统,其特征在于,包括新闻搜集子系统(I)、文本处理子系统(2)和人机交互子系统(3);所述新闻搜集子系统(I),捜索用户定制的相关主题的相关新闻,并提取新闻文本;所述文本处理子系统(2),将文本分成不同的类,在此基础上对文本的内容进行话题检测、话题追踪,同时自动生成文摘,建立相应的索引;所述人机交互子系统(3),对话题先进行分析,计算话题的热度,将热门话题以话题的主题为组、以热度为顺序呈现给用户,同时该人机交互子系统提供话题检索,用户根据得到的内容进行人エ甄别,将甄别后的信息通过人工抽取后得到的情报存入到情报库。
2.如权利要求I所述的面向主题定制的新闻情报提取系统,其特征在于,所述新闻搜集子系统(I)包括聚焦爬虫単元(102)、网页数据库(104)、文本抽取单元(106)以及文本库(108);其中,所述聚焦爬虫単元(102)根据用户定制的主题,使用聚焦爬虫在互联网中进行捜索,在捜索的过程中进行网页主题相关度判断,将于主题相关的网页保存存入网页数据库(104);所述网页数据库(104)用于存储聚焦爬虫単元(102)采集来的原始网页;所述 文本抽取单元(106)对网页数据库(104)里面的网页进行去噪处理,并对半结构化的网络新闻进行结构化抽取,将抽取得到的信息集合以文本的形式存入文本库(108);所述文本库(108)用来存储文本抽取单元(106)传来的信息。
3.如权利要求2所述的面向主题定制的新闻情报提取系统,其特征在于,所述文本处理子系统(2)包括文本分类单元(110)、话题检测单元(112)、话题追踪单元(114)、文摘索引单元(116)以及话题库(118);其中,所述文本分类单元(110)是将文本库(108)中的文本按其内容分到基本的大类中,方便进行下ー步的处理;所述话题检测单元(112)将文本库(108)中的新闻归入不同的话题,在需要的时候建立新的话题,将同一话题的新闻文本汇集起来存入话题库(118);所述话题追踪单元(114)追踪话题的后续报道,将同一话题按时间顺序排序,形成ー个事件的发展轨迹,给用户ー个參考,以判断事件的发展趋势,将排序信息写回话题库(118);所述文摘索引単元(116)对归类好的话题库(118)中的新闻内容进行加工,生成摘要,形成用于搜索的索引库,并提供检索功能;所述话题库(118)用来存储话题检测单元(112)处理后的文本库(108)中的信息以及话题追踪単元(114)和文摘索引単元(116)写回的新闻相关信息,并提供给人机交互子系统(3)进行检索。
4.如权利要求I所述的面向主题定制的新闻情报提取系统,其特征在于,所述人机交互子系统(3)包括话题分析単元(120)、话题呈现单元(122)、检索反馈单元(124)以及情报库(126);所述话题分析単元(120)根据话题出现的天数、报道的数量计算话题的热度,同时进行话题热度的排名;所述话题呈现单元(122)将与主题相关的话题以话题的主题为组,以热度为顺序向用户展示与主题相关的话题信息,起到预警的作用;所述检索反馈单元(124)接收用户的查询请求,将相应的信息以话题为中心,以时间为顺序显示,同时显示新闻的来源地点、更新时间、发布机构信息以帮助用户对信息进行甄别,同时用户可以将甄 别后的新闻进行人エ抽取并存入情报库(126);所述情报库(126)用来存储检索反馈单元(124)提供的情报。
全文摘要
本发明公开了一种面向主题定制的新闻情报提取系统,包括新闻搜集子系统,完成搜索用户定制的相关主题的相关新闻并提取新闻文本的功能;文本处理子系统,将文本分成不同的类,在此基础上对文本的内容进行话题检测、话题追踪,同时自动生成文摘,建立相应的索引;人机交互子系统,对话题先进行分析,计算话题的热度,将热门话题以话题的主题为组、以热度为顺序呈现给用户,同时提供话题检索,用户根据得到的内容进行人工甄别,将甄别后的信息通过人工抽取后得到的情报存入情报库。本系统可以较全面、及时地收集互联网上的新闻,自动对新闻进行检测、分类和追踪,并通过发挥用户在情报的认知能力,将用户所需的情报从浩渺的网络新闻中提取出来。
文档编号G06F17/30GK102831220SQ20121030060
公开日2012年12月19日 申请日期2012年8月23日 优先权日2012年8月23日
发明者台宪青, 王艳军, 赵旦谱, 楚涌泉, 张伟娜 申请人:江苏物联网研究发展中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1