专利名称:热点聚合方法及装置的制作方法
技术领域:
本发明涉及计算机技术领域,特别是涉及ー种热点聚合方法及装置。
背景技术:
在现有技术中,热点聚合方法可以应用在电子布告栏系统(Bulletin BoardSystem,简称为BBS)和博客(BLOG)上,也可以应用在网页、新闻、以及微博等数据上。目前,各搜索引擎都会提供热榜之类的产品,例如,百度的搜索风云榜,搜搜的热榜等,在现有技术中,热点聚合的实现方法基本有两种方法1,利用用户的查询日志,按周期进行统计,对查询串进行分词,提取关键词, 根据查询次数排序得到热词榜。方法2,对网页标题或内容进行中心词的抽取,按中心词进行聚合,计算出热点事件。方法I是基于统计进行热点事件计算的,因而会有一定的滞后性,不能及时发现热点事件。此外,上述两种方法都基于分词技木,而分词是基于词典的,而利用分词技术本身就会对新词的发现有一定的滞后性,从而会导致ー些新的热词及热门事件不能及时发现,此外,上述两种方法的效果太过依赖于分词技术,需要进行词典维护,还具有一定的运维成本
发明内容
本发明提供ー种热点聚合方法及装置,以解决现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题。本发明提供ー种热点聚合方法,包括抓取互联网上的网络资源;采用最长公共子序列(Longest Common Subsequence,简称为LCS)算法对网络资源进行匹配,获取匹配结果;根据匹配结果生成热点词组。优选地,根据匹配结果生成热点词组具体包括设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数;获取所涉及网络资源的个数大于最少个数的匹配結果,井根据该匹配结果生成热点词组。优选地,抓取互联网上的网络资源具体包括从分布式文件系统中获取以预定时间周期分割后的网络资源。优选地,抓取互联网上的网络资源之后,上述方法还包括对网络资源进行过滤。优选地,对网络资源进行过滤的处理具体包括以下至少之一根据预先配置的域名列表,滤除非重点域名的网络资源;根据预先配置的网络白名单,保留与网络白名单相应的网络资源;根据网页的浏览数对网络资源进行过滤;根据网页的发布日期对网络资源进行过滤;根据新闻、博客、或者帖子的回复数对网络资源进行过滤;对网络资源的标题中的无用信息进行过滤;对网络资源中的常用词进行过滤。优选地,根据匹配结果生成热点词组之后,上述方法还包括获取与各个热点词组相关的网络资源的标识,并将每个热点词组以及与该热点词组相关的网络资源的标识作为ー个热点组进行聚合存储。优选地,采用LCS算法对网络资源进行匹配,获取匹配结果具体包括通过LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算矩阵中对角线最长的匹配序列,根据匹配序列在矩阵中的位置,获取最长匹配子串的位置;优选地,根据匹配结果生成热点词组具体包括根据最长匹配子串的位置生成热点词组。优选地,根据匹配结果生成热点词组之后,上述方法还包括采用LCS算法对热点词组再次进行匹配,生成关键词组;将每个热点词组以及与该热点词组相关的网络资源的标识作为ー个热点组进行存储具体包括将姆个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为ー个热点组进行存储。优选地,在将热点组进行存储之后,上述方法还包括对存储的热点组中的热点数据进行统计分析、展现、和/或查询。 本发明还提供了ー种热点聚合装置,包括网络抓取模块,用于抓取互联网上的网络资源;匹配模块,用于采用最长公共子序列LCS算法对网络资源进行匹配,获取匹配结果;生成模块,用于根据匹配结果生成热点词组。优选地,生成模块具体用于设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数;获取所涉及网络资源的个数大于最少个数的匹配結果,井根据该匹配结果生成热点词组。优选地,获取模块具体用于从分布式文件系统中获取以预定时间周期分割后的网络资源。优选地,上述装置还包括过滤模块,用于在网络抓取模块抓取互联网上的网络资源之后,对网络资源进行过滤。优选地,过滤模块具体包括以下至少之ー域名过滤子模块,用于根据预先配置的域名列表,滤除非重点域名的网络资源;白名单过滤子模块,用于根据预先配置的网络白名单,保留与网络白名单相应的网络资源;浏览数过滤子模块,用于根据网页的浏览数对网络资源进行过滤;发布日期过滤子模块,用于根据网页的发布日期对网络资源进行过滤;回复数过滤子模块,用于根据新闻、博客、或者帖子的回复数对网络资源进行过滤;标题过滤子模块,用于对网络资源的标题中的无用信息进行过滤;常用词过滤子模块,用于对网络资源中的常用词进行过滤。优选地,上述装置还包括存储模块,用于获取与各个热点词组相关的网络资源的标识,将每个热点词组以及与该热点词组相关的网络资源的标识作为ー个热点组进行存储。优选地,匹配模块具体用于通过LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算矩阵中对角线最长的匹配序列,根据匹配序列在矩阵中的位置,获取最长匹配子串的位置;生成模块具体用于根据最长匹配子串的位置生成热点词组。优选地,匹配模块还用于采用LCS算法对热点词组再次进行匹配,生成关键词组;存储模块具体用于将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为ー个热点组进行存储。优选地,上述装置还包括统计分析模块,用于对存储的热点组中的热点数据进行统计分析、展现、和/或查询。本发明有益效果如下通过利用LCS算法对网络资源进行热点聚合,解决了现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题,能够降低运维成本和热点聚合计算的复杂度,提高了热点聚合的速度,能够实时采集,实时计算,快速发现热点事件,基本没有滞后。
图I是本发明实施例的热点聚合方法的流程图;图2是本发明实施例的热点聚合装置的结构示意图;图3是本发明实施例的热点聚合装置的详细结构示意图。
具体实施例方式为了解决现有技术中通过分词技术进行热点聚合而导致的热点词发现滞后、以及进行词典维护的运维成本高的问题,本发明提供了ー种热点聚合方法及装置,根据本发明实施例的无词典热点聚合方法,通过采用LCS技术对互联网上网页的主题在一定周期内进行聚合,可以快速发现本周期内发生的热点事件。以下结合附图以及实施例,对本发明进行进ー步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。根据本发明的实施例,提供了ー种热点聚合方法,图I是本发明实施例的热点聚合方法的流程图,如图I所示,根据本发明实施例的热点聚合方法包括如下处理步骤101,抓取互联网上的网络资源;其中,上述网络资源包括网页、帖子、微博、
博客等。优选地,在实际应用中,需要从文件系统中获取以预定时间周期分割后的网络资源,其中,该文件系统可以为分布式文件系统(moosefs),也可以为普通的文件系统。在步骤101中,可以从moosefs上采集按一定切分周期(即上述预定时间周期)切分好的网络资源。在实际应用中,切分周期可以根据网络资源的种类(或者网络资源更新的速度)的不同进行不同的配置,以控制计算的周期。例如,由于BBS的网络资源更新较快,因此,BBS可以按小时对网络资源进行切分(即切分周期为ー小吋),由于BLOG的网络资源更新较慢,因此,BLOG可以按天对相关网络资源进行切分(即切分周期为一天24小吋)。此外,在抓取互联网上的网络资源之后,还可以对网络资源进行过滤。具体地,对网络资源进行过滤的处理具体包括以下至少之ーI、filter_host过滤域名根据预先配置的域名列表,滤除非重点域名的网络资源,可以减少垃圾数据;2、filter_blog_list blog白名单过滤根据预先配置的网络白名单,保留与网络白名单相应的网络资源,例如,根据博客白名单,保留重点博客的数据;3、filter_viewcount浏览数过滤根据网页的浏览数对网络资源进行过滤;例如,根据对网页或帖子的浏览数的多少,过滤出浏览数低于一定门限的网页或帖子,还需要过滤出浏览数高于一定门限的网页或帖子。例如,对浏览数为O或I的过滤掉;对浏览数为10000以上的过滤掉,浏览数为10000以上的大多为抓错或旧帖;4、filter_replycount回复数过滤根据新闻、博客、或者帖子的回复数对网络资源进行过滤;例如,如果对某个帖子的回复数大于10000以上的帖子进行过滤,大多为抓错或旧帖;5、filter _publictime发帖日期过滤根据网页的发布日期对网络资源进行过滤;例如,将一天前的帖子进行过滤。6、filter_title过滤掉题目里的版块名称、说明、以及求助等无用前缀信息即,对网络资源的标题中的无用信息进行过滤;7、filter_comm_word常用词过滤对网络资源中的常用词进行过滤,例如,对ー些常用的、无意义的词进行过滤。
通过上述网络资源的过滤处理,能够过滤掉网络资源中大部分的干扰网络资源和垃圾网络资源,为下一歩匹配打下良好的基础。步骤102,采用LCS算法对网络资源进行匹配,获取匹配结果;具体地,在步骤201中,采用LCS算法对网络资源进行匹配,获取匹配结果具体包括如下处理通过LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算矩阵中对角线最长的匹配序列,根据匹配序列在矩阵中的位置,获取最长匹配子串的位置(即上述匹配結果);例如,LCS算法使用一个矩阵来记录两个字符串中所有位置的两个字符之间的匹配情况,若是匹配则为1,否则为O。然后求出对角线最长的I序列,其对应的位置就是最长匹配子串的位置。需要说明的是,LCS是计算两个字符串相似程度的ー种方法LCS计算出的最长匹配子串越长,两个字符串越相似。所以,用它可以对相似主题进行聚集,用来达到发现相同主题的目的。步骤103,根据匹配结果生成热点词组。具体地,在步骤103中,根据步骤102中获取的最长匹配子串的位置(即,匹配结果)生成热点词组。为了能够获取更准确的热点词组,在本发明实施例中,可以设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数,获取所涉及网络资源的个数大于最少个数的匹配結果,井根据该匹配结果生成热点词组。当然,判断是否构成热点词组的维度还有很多,例如,可以按照所涉及的网络资源数量的多少对热点词组进行排序等等。优选地,在本发明实施例中,根据匹配结果生成热点词组之后,还可以获取与各个热点词组相关的网络资源的标识,并将每个热点词组以及与该热点词组相关的网络资源的标识作为ー个热点组进行聚合存储。其中,网络资源的标识可以为网络资源的链接、或者网络资源的统一资源定位符(Uniform/Universal Resource Locator,简称为URL)地址。当然,在本发明实施例中,也可以直接对相关的网络资源进行存储。为了进一步对热点词组进行聚合,在本发明实施例中,优选地,在根据匹配结果生成热点词组之后,可以采用LCS算法对热点词组再次进行匹配,生成关键词组;随后,将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为一个热点组进行存储。也就是说,将LCS算法计算出的最长匹配子串,做为分组词组,对同一组中的词组再使用LCS算法计算出关键词组,并将关键词组、与关键词组对应的所有热点词组、以及对应网络资源(网站、帖子、博客、以及微博等)的标识归为ー个热点,作为ー个热点组。在实际应用中,将每个关键词组、与关键词组相对应的热点词组、以及与热点词组相关的网络资源的标识作为ー个热点组进行存储时,需要存储的关键词组的字段如表I所示,包括热点组ID、关键词组、状态(用于标识关键词组是否有效)、入库存储时间、修改时间、以及扩展字段。表I
权利要求
1.一种网络热点聚合方法,其特征在于,包括 抓取互联网上的网络资源; 采用最长公共子序列LCS算法对所述网络资源进行匹配,获取匹配结果; 根据所述匹配结果生成热点词组。
2.如权利要求I所述的方法,其特征在于,根据所述匹配结果生成热点词组具体包括 设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数; 获取所涉及网络资源的个数大于所述最少个数的匹配结果,并根据该匹配结果生成热点词组。
3.如权利要求I所述的方法,其特征在于,所述抓取互联网上的网络资源具体包括 从分布式文件系统中获取以预定时间周期分割后的网络资源。
4.如权利要求I或2或3所述的方法,其特征在于,抓取互联网上的网络资源之后,所述方法还包括 对所述网络资源进行过滤。
5.如权利要求4所述的方法,其特征在于,对所述网络资源进行过滤的处理具体包括以下至少之一 根据预先配置的域名列表,滤除指定域名的网络资源; 根据预先配置的网络白名单,保留与所述网络白名单相应的网络资源; 根据网页的浏览数对所述网络资源进行过滤; 根据网页的发布日期对所述网络资源进行过滤; 根据新闻、博客、或者帖子的回复数对所述网络资源进行过滤; 对所述网络资源的标题中的无用信息进行过滤; 对所述网络资源中的常用词进行过滤。
6.如权利要求I所述的方法,其特征在于,根据所述匹配结果生成热点词组之后,所述方法还包括 获取与各个热点词组相关的网络资源的标识,并将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行聚合存储。
7.如权利要求6所述的方法,其特征在于,根据所述匹配结果生成热点词组之后,所述方法还包括 采用LCS算法对所述热点词组再次进行匹配,生成关键词组; 将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行存储具体包括 将每个关键词组、与所述关键词组相对应的热点词组、以及与所述热点词组相关的网络资源的标识作为一个热点组进行存储。
8.如权利要求I所述的方法,其特征在于, 采用LCS算法对所述网络资源进行匹配,获取匹配结果具体包括 通过所述LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算所述矩阵中对角线最长的匹配序列,根据所述匹配序列在所述矩阵中的位置,获取最长匹配子串的位置; 根据所述匹配结果生成热点词组具体包括根据所述最长匹配子串的位置生成热点词组。
9.如权利要求6或7所述的方法,其特征在于,在将所述热点组进行存储之后,所述方法还包括 对存储的所述热点组中的热点数据进行统计分析、展现、和/或查询。
10.一种热点聚合装置,其特征在于,包括 网络抓取模块,用于抓取互联网上的网络资源; 匹配模块,用于采用最长公共子序列LCS算法对所述网络资源进行匹配,获取匹配结果;生成模块,用于根据所述匹配结果生成热点词组。
11.如权利要求10所述的装置,其特征在于,所述生成模块具体用于 设置采用LCS算法进行匹配时生成匹配结果所涉及网络资源的最少个数; 获取所涉及网络资源的个数大于所述最少个数的匹配结果,并根据该匹配结果生成热点词组。
12.如权利要求10所述的装置,其特征在于,所述网络抓取模块具体用于从分布式文件系统中获取以预定时间周期分割后的网络资源。
13.如权利要求10或11或12所述的装置,其特征在于,所述装置还包括 过滤模块,用于在所述网络抓取模块抓取互联网上的网络资源之后,对所述网络资源进行过滤。
14.如权利要求13所述的装置,其特征在于,所述过滤模块具体包括以下至少之一 域名过滤子模块,用于根据预先配置的域名列表,滤除指定域名的网络资源; 白名单过滤子模块,用于根据预先配置的网络白名单,保留与所述网络白名单相应的网络资源; 浏览数过滤子模块,用于根据网页的浏览数对所述网络资源进行过滤; 发布日期过滤子模块,用于根据网页的发布日期对所述网络资源进行过滤; 回复数过滤子模块,用于根据新闻、博客、或者帖子的回复数对所述网络资源进行过滤; 标题过滤子模块,用于对所述网络资源的标题中的无用信息进行过滤; 常用词过滤子模块,用于对所述网络资源中的常用词进行过滤。
15.如权利要求10所述的装置,其特征在于,所述装置还包括 存储模块,用于获取与各个热点词组相关的网络资源的标识,将每个热点词组以及与该热点词组相关的网络资源的标识作为一个热点组进行存储。
16.如权利要求15所述的装置,其特征在于, 所述匹配模块还用于采用LCS算法对所述热点词组再次进行匹配,生成关键词组; 所述存储模块具体用于将每个关键词组、与所述关键词组相对应的热点词组、以及与所述热点词组相关的网络资源的标识作为一个热点组进行存储。
17.如权利要求10所述的装置,其特征在于, 所述匹配模块具体用于通过所述LCS算法,采用矩阵记录两个字符串中相应位置上的两个字符之间的匹配关系,并计算所述矩阵中对角线最长的匹配序列,根据所述匹配序列在所述矩阵中的位置,获取最长匹配子串的位置;所述生成模块具体用于根据所述最长匹配子串的位置生成热点词组。
18.如权利要求15或16所述的装置,其特征在于,所述装置还包括 统计分析模块,用于对存储的所述热点组中的热点数据进行统计分析、展现、和/或查询。
全文摘要
本发明公开了一种热点聚合方法及装置。该方法包括抓取互联网上的网络资源;采用最长公共子序列LCS算法对网络资源进行匹配,获取匹配结果;根据匹配结果生成热点词组。借助于本发明的技术方案,能够降低运维成本和热点聚合计算的复杂度,提高了热点聚合的速度,能够实时采集,实时计算,快速发现热点事件,基本没有滞后。
文档编号H04L29/08GK102710795SQ201210210038
公开日2012年10月3日 申请日期2012年6月20日 优先权日2012年6月20日
发明者马良 申请人:奇智软件(北京)有限公司