基于网页差异的网页分析方法及系统的制作方法
【技术领域】
[0001]本发明涉及一种网络信息分析技术,特别涉及一种基于网页差异的网页分析方法及系统。
【背景技术】
[0002]舆情系统需要对网络上大量的网页进行不间断的抓取,并且正确解析网页内容,分析出其中的发布时间、作者、标题等信息。例如,在志愿者网络舆情服务中,我们需要从很多站点采集志愿者相关的网络舆情信息。然而,不同站点网页的格式千差万别,即使是同一站点的不同版面、页面的格式也可能不一样。这些格式还会不定期的修改。这些差别和修改给自动化的网页分析带来了很大的困难,因此往往需要大量的人工干预,对新的网页和不断出现的解析错误进行手动配置。
[0003]目前,网页内容的分析主要有以下几种方法:
[0004]1.通过人工的方式分析网页的内容组织模式,找到DOM树中所需提取网页元素所在的节点。例如,通过人工的观察和检查,确定固定的匹配规则(一般使用XPath来描述)。其中,DOM是W3C(万维网联盟)的标准,它定义了访问HTML和XML文档的标准,基于这个标准,网页的代码结构可以用一颗树的形式展示,这棵树就称之为DOM树,如图1所示dPath是指DOM树上根节点到的某个节点的路径,给定一个网页,一个XPath可以唯一确定一个网页节点。
[0005]2.通过一些启发式规则来发现网页中各个主题信息块的边界。比如,在描述时间的节点上一般会包含“发布时间”,“时间”等文字。文章的标题所对应的节点上,很多会包含“标题”。
[0006]3.通过分析网页元素的特征,比如通过每个信息块里面的虚词的分布来区别正文和广告。比如广告文本中很少包含“的”、“了”这样的词,但是在正文文本内容中,这样的词出现非常频繁。
[0007]4.通过对网页进行渲染,然后分析可视化特征点(T-Point)来提取网页内容。比如,一个网页在浏览器中显示出来之后,其标题所在的屏幕的位置(T-Point)是基本确定的,根据这些位置信息则可以确定所要提取的网页元素。
[0008]但是,上述几种方法均都存在一些缺点:
[0009]1.人工的方式分析网页的内容组织模式方式缺陷是效率低下,因为这种方式需要对每一个新的网页和变化后的网页进行人工分析。
[0010]2.启发式规则可能对大多数主流的网页是有效的,但是不能满足千变万化的其它非主流的网页。互联网存在严重的长尾效应,非主流的小网站数量众多,启发式规则对于这些网页的自动化解析能力不足。
[0011]3.分析网页元素的特征的方法对于具有丰富文本内容的网页节点效果很好,但是对于文本内容很少(比如网络文章的作者字段一般文本很短,再如微博的文章本身就很短)的节点则没有效果。
[0012]4.分析可视化特征点的办法首先需要对网页进行渲染,对于显示区域变化范围较大的内容(比如长的文本或者图片)效果不甚理想。
【发明内容】
[0013]本发明实施例的目的是提供一种基于网页差异的网页分析方法及系统,以解决现有的网页内容的分析存在的效率低、解析能力不足、通用性差的问题。
[0014]本发明实施例提出一种基于网页差异的网页分析方法,包括:
[0015]采集需要分析的网页信息;
[0016]根据采集的所述网页信息的节点结构,对所述网页信息进行聚类;
[0017]根据所述聚类结果,提取出每一个节点中,节点内容变动的可视化网页元素;
[0018]对提取出的可视化网页元素进行分类,以对所述可视化网页元素进行识别。
[0019]依照本发明较佳实施例所述的基于网页差异的网页分析方法,所述根据采集的所述网页信息的节点结构,对所述网页信息进行聚类的步骤之前还包括:去除所述网页信息的源码中的可视化内容。
[0020]依照本发明较佳实施例所述的基于网页差异的网页分析方法,所述根据采集的所述网页信息的节点结构,对所述网页信息进行聚类的步骤包括:
[0021]根据采集的所述网页信息的节点结构,计算任意两个网页之间的距离;
[0022]根据计算出的任意两个网页之间的距离,对所述网页信息进行聚类。
[0023]依照本发明较佳实施例所述的基于网页差异的网页分析方法,所述根据所述聚类结果,提取出每一个节点中,节点内容变动的可视化网页元素的步骤包括:
[0024]去除聚类结果中节点出现频率小于设定阈值的节点;
[0025]去除相同内容出现频率大于设定阈值的节点;
[0026]提取剩余节点的可视化网页元素。
[0027]依照本发明较佳实施例所述的基于网页差异的网页分析方法,所述对提取出的可视化网页元素进行分类,以对所述可视化网页元素进行识别的步骤包括:
[0028]构建网页元素类别的分类器;
[0029]根据构建的分类器,对提取出的可视化网页元素进行分类,以对所述可视化网页元素进行识别。
[0030]本发明还提出一种基于网页差异的网页分析系统,包括:
[0031]信息采集模块,用于采集需要分析的网页信息;
[0032]聚类模块,用于根据采集的所述网页信息的节点结构,对所述网页信息进行聚类;
[0033]元素提取模块,用于根据所述聚类结果,提取出每一个节点中,节点内容变动的可视化网页元素;
[0034]分类模块,用于对提取出的可视化网页元素进行分类,以对所述可视化网页元素进行识别。
[0035]依照本发明较佳实施例所述的基于网页差异的网页分析系统,所述网页分析系统还包括:
[0036]内容过滤模块,用于在所述聚类模块对所述网页信息进行聚类之前,去除所述网页信息的源码中的可视化内容。
[0037]依照本发明较佳实施例所述的基于网页差异的网页分析系统,所述聚类模块进一步包括:
[0038]距离计算单元,用于根据采集的所述网页信息的节点结构,计算任意两个网页之间的距离;
[0039]网页聚类单元,用于根据计算出的任意两个网页之间的距离,对所述网页信息进行聚类。
[0040]依照本发明较佳实施例所述的基于网页差异的网页分析系统,所述元素提取模块包括:
[0041]第一过滤单元,用于去除聚类结果中节点出现频率小于设定阈值的节点;
[0042]第二过滤单元,用于去除相同内容出现频率大于设定阈值的节点;
[0043]提取单元,用于提取剩余节点的可视化网页元素。
[0044]依照本发明较佳实施例所述的基于网页差异的网页分析系统,所述分类模块包括:
[0045]分类器构建单元,用于构建网页元素类别的分类器;
[0046]元素识别单元,用于根据构建的分类器,对提取出的可视化网页元素进行分类,以对所述可视化网页元素进行识别。
[0047]相对于现有技术,本发明的有益效果是:
[0048]本发明可以自动化地实现对网页内容的分析,无需人工操作,节约了人力成本,效率高。
[0049]本发明采用网页节点结构对网页节点进行聚类,并根据聚类结果对网页信息进行分析,解析能力强,且无需对网页进行渲染,对各种站点的网页均可以适用,具有很强的通用性,可以有效克服互联网信息分析所存在的长尾效应。
[0050]本发明通过提取可视化的变动网页元素,实现了针对用户关心的核心网页信息的分析,不仅针对性强,分析效果好,而且省去了大量对于用户来说无关紧要的信息的分析运算量,减少了系统的计算负担,大大提高了效率。
[0051]当然,实施本申请的任一产品并不一定需