本发明涉及信息抽取
技术领域:
:,尤其涉及一种基于网页特征的正文信息抽取方法。
背景技术:
::互联网技术的快速发展使得网页成为人们获得信息的主要来源之一。然而,随着新事物的不断涌现,网页数量也在以惊人的数量增长,不计其数的网页中蕴含着丰富的信息资源,为了让用户快速获取需要的信息,jimcowie和yorickwilks于1996年提出信息抽取这一概念。在这个发展过程中,已有很多学者根据不同的抽取需求提出了不同的信息抽取方法,如下所示:基于包装器的方法主要利用网页模块化和结构化的特征提取网页正文,该方法根据页面的布局特点、规律等设计统一的模板,对得到的模板进行分析以获取页面中的正文。该方法需要人工编写抽取规则,对于结构相似的模板页面能精确的定位到正文信息,但通用性不强,只适用于特定的页面,无法处理种类繁多的web页面。此外,人工书写规则容易出错,不便于维护。基于网页标签的方法依赖html语言中的特定标签(如:<table></table>、<p></p>等),这类方法一般适用于正文处于特定标签的情况,对特征标签有很大的依赖,对页面的内容布局有很高要求,处理其他布局类型的页面将无法适用。基于文档树的方法基本思路是将html网页解析成dom树的结构,通过统计节点的链接长度、文本长度、链接与文本数量比例等信息确定正文节点,根据路径相似度抽取其他正文,最终整合成网页正文。这种方法预处理工作较复杂,效率较低。基于视觉特征的页面分块算法vips(visionbasedpagesegmentation),该算法根据页面中的文字大小、背景颜色、逻辑块和逻辑块之间的间距等视觉表现特征来分割语义块,达到页面分块的效果,对页面块之间水平和垂直方向的分隔条赋予权值并通过配置网页信息抽取规则从中抽取信息。vips算法主要是将页面进行分块,对于网页信息提取需要信息抽取规则,使得这种方法通用性受限,增加了算法复杂度。技术实现要素:本发明所要解决的技术问题是:提供一种具有较好的通用性和较高的准确率的基于网页特征的正文信息抽取方法。本发明所采用的技术方案是:一种基于网页特征的正文信息抽取方法,它包括以下步骤:(1)、对网页进行预处理;(2)、将预处理后的网页的所有行标号并且统计每行的字符长度,形成一个初始文本;(3)、设置行文长度阈值l;(4)、然后遍历步骤(2)中得到的初始文本,以当前行的行文长度大于等于阈值l的行作为正文文本的起始行,以当前行的行文长度为0的行作为结尾行,所述起始行与结尾行之间的部位成为一个正文组;(5)、然后继续遍历初始文本中的剩余部分,并且得到初始文本中的所有正文组;(6)、设置行距阈值d;(7)、检测所有正文组之间的行距,若检测到存在行距大于阈值d,则删去这个行距下方的所有正文组,然后将其他正文组判定为网页的正文部分;若没有检测到存在行距大于阈值d,则判断所有的正文组均为网页的正文部分。采用以上方法与现有技术相比,本发明具有以下优点:通过行文长度来选择起始行与结束行,并且通过行距来判断是否属于正文,这样提取出来的正文部分准确度较高,而且通用性也较高。作为优选,步骤(7)后还包括以下步骤,(8)、从下到上检测步骤(7)中得到的正文部分,直到检测到有句号,然后将句号之前的部分判断为真正的正文部分。通过检测句号可以删去一些直接连接在正文后面的评论、其他引用等不属于正文的内容,进而使得提取出来的正文部分准确度更高。作为优选,所述步骤(1)中的预处理包括以下步骤:a、获取网页标题;b、将网页中的html标签过滤;c、删除html符号实体。这样在进行行文长度筛选时先删去很多会影响筛选准确性的误导因素,进而使得提取出来的正文部分准确性更高。具体实施方式以下通过具体实施方式对本发明做进一步描述,但是本发明不仅限于以下具体实施方式。一种基于网页特征的正文信息抽取方法,它包括以下步骤:(1)、对网页进行预处理;a、获取网页标题;一般的网页标题处于<head>区域中标签<title>和</title>之间,在获取网页源码后,提取标签<title>和</title>之间的内容作为页面标题并保存。若无法提取到标题,则从<body>区域中的<h1>标签提取;b、将网页中的html标签过滤;即最好只保留文本信息;c、删除html符号实体,包括空格、制表符、引号等(2)、将预处理后的网页的所有行标号并且统计每行的字符长度,形成一个初始文本;主要是统计文字的长度;(3)、设置行文长度阈值l;l一般取值为60-90;(4)、然后遍历步骤(2)中得到的初始文本,以当前行的行文长度大于等于阈值l的行作为正文文本的起始行,以当前行的行文长度为0的行作为结尾行,所述起始行与结尾行之间的部位成为一个正文组;遍历主要是指从上往下一行一行的扫描整个初始文本;(5)、然后继续遍历初始文本中的剩余部分,并且得到初始文本中的所有正文组;多个正文组可能就是多个段落;(6)、设置行距阈值d;d一般取值为8-12;(7)、检测所有正文组之间的行距,若检测到存在行距大于阈值d,则删去这个行距下方的所有正文组,然后将其他正文组判定为网页的正文部分;若没有检测到存在行距大于阈值d,则判断所有的正文组均为网页的正文部分;这里主要是指两个段落之间的距离较长,这样可以判断后一个段落就不属于正文部分了;(8)、从下到上检测步骤(7)中得到的正文部分,直到检测到有句号,然后将句号之前的部分判断为真正的正文部分。技术特征:技术总结本发明涉及信息抽取
技术领域:
:,尤其涉及一种基于网页特征的正文信息抽取方法,它根据页面布局等特征将页面源码预处理行号和文本的集合,然后通过行文本阈值以及行间距阈值来提取页面正文部分,最后根据标点符号来优化提取结果。本方法对于不同类型的页面有较好的效果,具有一定的通用性。技术研发人员:李晓林;刘志杰;谢婷婷;严柯;张懿受保护的技术使用者:武汉工程大学技术研发日:2017.05.17技术公布日:2017.10.13