要同时达到以上所述的所有优点。
【附图说明】
[0052]图1为一种DOM树的不意图;
[0053]图2为本发明实施例的一种基于网页差异的网页分析方法的流程图;
[0054]图3为本发明实施例的一种对所述网页信息进行聚类的流程图;
[0055]图4为一论坛一版面的一个可视化网页的示意图;
[0056]图5为一论坛一版面的一个可视化网页的示意图;
[0057]图6为本发明实施例的一种对一个网页聚类DOM树的处理过程示意图;
[0058]图7为本发明实施例的一种提取节点内容变动的可视化网页元素的计算过程的流程图;
[0059]图8为本发明实施例的一种对提取出的可视化网页元素进行分类的流程图;
[0060]图9为本发明实施例的另一种基于网页差异的网页分析方法的流程图;
[0061]图10为本发明实施例的一种可视化内容的示意图;
[0062]图11为本发明实施例的一种基于网页差异的网页分析系统的结构图;
[0063]图12为本发明实施例的一种聚类模块的结构图;
[0064]图13为本发明实施例的一种元素提取模块的结构图;
[0065]图14为本发明实施例的一种分类模块的结构图;
[0066]图15为本发明实施例的另一种基于网页差异的网页分析系统的结构图。
【具体实施方式】
[0067]有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过【具体实施方式】的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
[0068]请参见图2,其为本发明实施例的一种基于网页差异的网页分析方法的流程图,其包括以下步骤:
[0069]S21,采集需要分析的网页信息。
[0070]S22,根据采集的所述网页信息的节点结构,对所述网页信息进行聚类。
[0071]S23,根据所述聚类结果,提取出每一个节点中,节点内容变动的可视化网页元素。
[0072]S24,对提取出的可视化网页元素进行分类,以对所述可视化网页元素进行识别。
[0073]步骤S21中,所述需要分析的网页信息可以是某个站点的某个版面,并采集其大量的历史网页信息。所述的网页信息可以包括网页源码以及浏览器显示出的可视化页面内容,其中根据网页源码可以构建各个网页直观的DOM树结构。
[0074]步骤S22中,所述的节点即DOM树的节点。由于采集的网页的结构可能多种多样,即使采集的是同一版面的网页信息,其网页结构可能也不尽相同,例如同样是论坛的网页,不同板块的页面的结构就可能不同,因此本步骤中聚类的目的就是将节点结构类似的网页归为一类,解决即使是同一站点的同一版面其网页结构也可能多样化的问题,以便于网页内容的分析。
[0075]聚类所采用的算法可以根据需要来选择,本发明优选利用计算任意两个网页之间的距离来进行聚类。具体来说,请参见图3,对所述网页信息进行聚类时又可以进一步包括以下步骤:
[0076]S221,根据采集的所述网页信息的节点结构,计算任意两个网页之间的距离。
[0077]由于网页的节点结构可以看作是一棵DOM树,网页和网页之间的距离也即计算两棵DOM树之间的编辑距离。对于两棵DOM树之间的编辑距离,目前国际上已经有提出了计算两颗树的编辑距离的方法(比如RTED,M.Pawl ik and N.Augsten.Rted: a robustalgorithm for the tree edit distance.Proc.VLDB Endow.,5(4):334-345,2011.),在此不再赘述。
[0078]S222,根据计算出的任意两个网页之间的距离,对所述网页信息进行聚类。
[0079]聚类所采用的算法可以根据需要来选择,例如KMeans算法,K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。
[0080]步骤S23中,所述节点内容变动的可视化网页元素是指可视化页面上内容会发生变化的信息。请结合参见图4和图5,其是同一论坛同一版面的两个可视化网页的示意图,其中,图中用椭圆标注的区域即是节点内容变动的可视化网页元素,即作者、发文时间、标题、内容、阅读数、回复数,这些信息在这两个页面上是不同的,这些可视化内容会发生变化的信息,往往也就是用户比较关心的核心信息。反之,两个页面上内容不变的信息,往往是用户不太会关心的信息。由此可见,本步骤的目的就是找出网页上用户会关心的核心信息。
[0081]对于每一个网页聚类,去掉那些不变的DOM树节点。然后在剩下的DOM树节点中,每一个这样的DOM树节点中的可视化元素则作为所需要提取的信息候选。
[0082]为了便于计算,可以先对每一个网页聚类的DOM树进行处理,首先对每一个聚类的网页所对应的DOM树结构,采用树的比对(tree a I i gnment)算法(比如D ir ec tOptimizat1n),计算这些树的一个比对。然后,根据这个比对,计算一个最小公共树,即计算出每一个网页聚类中所有的DOM树并集。如图6所示,假设一个网页聚类中包含两个网页的信息,其中,树I和树2分别是这两个网页的DOM树,经过计算树I和树2这两棵DOM树的并集,最后获得树3这个与该网页聚类对应的最小公共子树。而后续对节点内容变动的可视化网页元素的提取可以基于这棵最小公共子树,以便于简化计算过程。
[0083]具体来说,请参见图7,本实施例中提取节点内容变动的可视化网页元素的计算过程可以包括以下步骤:
[0084]S231,去除聚类结果中节点出现频率小于设定阈值的节点。
[0085]由于采集的信息是用户比较关注的信息,因而需要在大部分网页中都出现,所以通过本步骤去除出现频率较低的节点。本步骤所述的阈值可以根据需要来设定,优选0.SN,其中N为该聚类中节点的总数。
[0086]S232,去除相同内容出现频率大于设定阈值的节点。
[0087]内容会发生变化的信息,也就是用户比较关心的核心信息,通过本步骤去除内容变化不大的节点,即去除了用户不是很关心的网页信息。因此,如果一个节点上的同一内容的信息出现的频率过高,那么筛除该节点。本步骤所述的阈值可以根据需要来设定,优选0.2N,其中N为该聚类中节点的总数。
[0088]S233,提取剩余节点的可视化网页元素。即提取出剩余每一个节点中的所有内容
?目息O
[0089]步骤S24中,为了实现对网页信息的分析,需要对提取出的信息再进行分类。请参加图8,对提取出的可视化网页元素进行分类可以进一步包括以下步骤:
[0090]S241,构建网页元素类别的分类器。
[0091]所述分类器用来针对每一个候选的DOM树节点中的信息进行分类,比如识别出是否是时间、作者、标题、内容等。该分类器只需要对所有站点的所有网页构建一次。分类规则也可以根据实际需要来设定,举例来说,
[0092]a)对于时间,可以采用正则表达式进行匹配,采用模式识别器根据字符的分布进行打分。经过比较,采用SVM(Support Vector Machine,是一个有监督的学习模型,通常用来进行模式识别、分类,以及回归分析)进行分类打分。
[0093]b)对于作者,系统提取了作者名字的单字分解,字的个数,采用规则进行打分。
当前第2页
1 
2 
3 
4