专利名称:基于锚定位的bbs和论坛的楼层分割方法
技术领域:
本发明涉及一种信息领域的网页区块分割方法,尤其是对BBS和论坛的不同楼 层信息进行分割的方法。
背景技术:
在BBS和论坛里,楼层是指每一个发帖人的个人信息、帖子相关的信息和帖子 相关的操作等信息所构成的网页区块。其借鉴了现实生活中大楼楼层的概念,第一个发 帖人被称为楼主,也被称为l楼的人;2楼的发帖人的帖子被称为首发,网络语言是坐沙 发;3楼的发帖人则戏称自己是坐板凳的,因为沙发已经被2楼的人抢占了 ;后面的楼层 则常用楼层的信息来相互鉴别。因此如果要将BBS和论坛里的信息进行充分利用,首先 需要识别里面的每一个楼层的区块划分。 目前,针对网页区块分割方法有很多,主要用于页面框架的识别和新闻等内容 的识别。所使用的技术主要是针对DOM树或者有穷自动机来实现的,在识别这些区块后 可以对页面进行消噪、去重、内容分类和检索等。对于BBS和论坛,由于网站众多,各 个网站的样式和风格、美工的设计都千差万别,因此单纯的DOM树或有穷自动机等方法 对于不同网站的BBS或者论坛的识别比较困难,对某一个BBS或论坛识别比较高的情况 下,对于另外一些BBS或者论坛的识别率可能会比较低,这是因为其DOM树的位置、使 用的技术等都可能不同。除了手工模板的方式来针对一系列网站内容进行配置识别外, 还没有见到简单有效地识别、分割不同站点BBS和论坛网页的不同楼层信息的全自动方 法。 通常的基于Web页面的BBS和论坛里,都会使用各种各样的小图片或者图标 (后面全部简称图标)来表达一定的概念、功能和设计风格。其中最常用的是每一个楼 层里的各种信息如引用、发帖人资料、给发帖人发送短信、编辑、删除等诸多功能的实 现是通过点击图标上的超级链接来实现的;有一些具有装饰、占位、分割版面或版式功 能的图标也会出现在楼层的固定位置。同一个网站内,每一层楼都使用相同的功能的时 候,该功能的图标是固定的,不同的楼(发帖)里该功能的图标也是固定的,即使帖子分 布在不同的版块也一样。因此,我们通过分析这些网页里表达某类功能的图标的位置, 通过归纳来推导其所表达的楼层信息在DOM树上的共同根节点及起始位置,完成楼层信 息的识别;通过另外一个等价页面的楼层分割的信息来进行验证。
发明的内容 为了克服不同网站BBS和论坛网页的区块划分中的楼层区块的识别和分割中的 自动化问题,本发明提出一种基于图片等锚信息定位的BBS和论坛的楼层分割方法,利 用每一层楼里面都会出现的固定功能的图片和函数等锚信息所处的位置来归纳和分割楼 层信息,可以非常准确地识别不同类型的BBS和论坛里的楼层分割信息,实现楼层识别 自动化。 本发明采用如下技术方案
—种用于BBS网页信息提取的楼层分割方法 1、原始的页面经过楼层分割后,把页面内容分为噪音内容和有效内容,有效内 容作为信息提取的输入,过滤掉噪音内容; 2、对于含有图标或图片装饰的网页或者使用JavaScript构造每楼都有的网页元 素,这些图标或者JS函数不是动态生成的,称为锚信息。当BBS网页模板更新时,锚 信息也可能发生变化,利用锚归纳算法提取出新的锚信息; 3、利用锚信息与BBS楼层有稳定的映射关系,根据锚信息在DOM中的路径定 位楼层子树的路径,实现楼层的分割。 4、基于锚信息的楼层分割方法适应性强,绝大多数的BBS网页都可准确地分割 楼层,但是对于纯文本的BBS网页,除了部分使用JavaScript的网页可以使用JS函数分 割楼层外,其余部分无法处理。 5、楼层分割的依据是网页中的锚信息,锚信息的准确性决定了楼层分割的准确 性,基于锚归纳算法提取锚信息的过程如下 1)提取出网页中所有的图片元素或者JavaScript函数,这些元素在楼层中的位置 相同; 2)根据DOM树的特性可知,锚信息与每个楼层有稳定的映射关系,根据元素在
DOM树中的路径,向上定位出每个元素所在的子树路径,记为子树集合T; 3)统计每个子树中包含的上述元素的个数,同一元素只统计一次; 4)比较子树包含的个数大小,记录包含元素最多的子树集合^ ; 5)针对^的所有子树,统计其包含的元素在其他子树12 = 中出现的次数,
且同一元素在同一子树中只统计一次; 6)在T2中出现次数最多的元素称为锚信息。 6、由于分割后的楼层子树结构一致,提取结构化的信息是可行的。
简单地讲,把所有的图片或者函数信息所在的DOM树的路径进行归纳分析,得 到最活跃的图片、函数和DOM路径,经过彼此的验证,找到所有图片和其对应的DOM 路径。这些图片或者函数就是锚信息。再利用锚信息的DOM路径来归纳共同的根路径; 最后利用锚信息的DOM路径以及共同根来确定每个锚信息在共同根下都是独立分支。这 些独立分支在共同根下顺序排列的每一个周期(可能包含上述独立子树和其他的子树)即 对应每一个楼层。与现有技术相比,本发明具有如下优点
1、减少人工工作量。 本发明利用锚归纳算法对网页进行归纳学习,实现锚信息的自动提取。
2、提高信息提取的准确度。 本发明中的信息提取模块以分割后的楼层作为输入,只对含有有用信息的楼层 子树进行信息提取,能够提高后续信息提取工作的准确性。 本发明的有益效果是,使用该发明的系统能够准确地自动识别不同BBS和论坛 里不同楼层的区块,为进一步提取每一个发帖人的发帖内容、发帖时间等其他详细信息 打下良好的基础。本发明可以用于以BBS的公开信息分析BBS社区中个体的行为习惯等 (包含一些跨越站点的行为习惯,这是单个网站后台数据库所无法实现的),这些行为习 惯等信息可以用来优化网站设计的第三方评估,实现植入式商业广告的优化效果检测、广告精确投递等'
权利要求
一种利用锚信息来对BBS或论坛进行楼层分割的方法,其特征在于对于含有图标或图片装饰的网页或者使用JavaScript函数等构造每楼都有的网页元素称为锚信息。利用锚在每层楼都出现的特征,归纳出锚的集合及对应的DOM树路径的集合,经过筛选和融合确定最小的锚集合;用锚所在的DOM树路径来寻找各楼层共同的根;再在共同根的路径下面验证锚集合中锚所在的路径是否是共同根下的独立分支,这些独立分支在共同根下顺序排列的每一个周期(可能包含上述独立子树和其他的子树)即对应每一个楼层。
全文摘要
本发明公开一种锚信息来对BBS或论坛进行楼层分割的方法提取结构化的BBS网页楼层内容的方法,对于含有图标或图片装饰的网页或者使用JavaScript函数构造每楼都有的网页元素称为锚信息。利用锚在每层楼都出现的特征,归纳出锚的集合及对应的DOM树路径的集合,经过筛选和融合确定最小的锚集合;用锚所在的DOM树路径来寻找各楼层共同的根;再在共同根的路径下面验证锚集合中锚所在的路径是否是共同根下的独立分支,这些独立分支在共同根下顺序排列的每一个周期(可能包含上述独立子树和其他的子树)即对应每一个楼层。本发明具有节省人工工作量、提高信息提取准确度等优点。
文档编号G06F17/30GK101692225SQ20091003481
公开日2010年4月7日 申请日期2009年9月9日 优先权日2009年9月9日
发明者廖闻剑, 彭艳兵, 韩杰 申请人:南京烽火星空通信发展有限公司