一种网页内容抽取的方法及装置的制作方法

文档序号:6397988阅读:173来源:国知局
专利名称:一种网页内容抽取的方法及装置的制作方法
技术领域
本发明涉及信息技术领域,尤其涉及一种网页内容抽取的方法及装置。
背景技术
通过SAX解析器将网页源码中表示文本区域的〈P〉标签、<Hn>标签、<a>标签、<DIV>标签等标签中的内容解析为多个文本块,并计算各个文本块中的预设指标,判断此文本块的内容是否可以作为正文,其中,预设指标可以包括单词数、超链接密度等指标。例如,当前文本块的链接密度小于等于O. 333333,并且前一文本块的链接密度小于等于O. 555556,并且当前文本块的单词数小于等于16,并且下一文本块的单词数小于等于14,并且前一文本块的单词数大于4时,当前文本块能作为正文;前面条件不变,最后一个条件为前一文本块的单词数小于等于4时,当前文本块不能作为正文。然而,当采用现有技术进行网页内容抽取时,网页标题抽取不准确,网页各个元素抽取不全面等问题,导致网页正文抽取不准确。

发明内容
本发明的实施例提供一种网页内容抽取的方法及装置,可以在进行网页内容抽取时,准确抽取网页标题以及网页中各个元素。第一方面,本发明提供一种网页内容抽取的方法,包括将HTML源码转换为对应的文档树结构,并根据所述文档树结构的TITLE标签,确定网页标题;根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源;根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性,所述文本块的属性包括所述文本块的网页内容为正文,或者所述文本块的网页内容非正文;抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。第二方面,本发明提供一种网页内容抽取的装置,包括转换单元,用于将HTML源码转换为对应的文档树结构;网页标题确定单元,用于将HTML源码转换为对应的文档树结构,并根据所述文档树结构的TITLE标签,确定网页标题;网页元素确定单元,用于根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源;文本块属性确定单元,用于根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性,所述文本块的属性包括所述文本块的网页内容为正文,或者所述文本块的网页内容非正文;
网页全文获取单元,用于抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。本发明实施例提供一种网页内容抽取的方法及装置,通过将HTML源码转换为对应的文档树结构,并根据所述文档树结构的TITLE标签,确定网页标题;根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源;根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性,所述文本块的属性包括所述文本块的网页内容为正文,或者所述文本块的网页内容非正文;抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。与现有技术中进行网页内容抽取时,网页标题抽取不准确,网页各个元素抽取不全面等问题,导致网页正文抽取不准确相比,本发明实施例通过TITLE标签,确定网页标题,再根据网页标题确定网页其他元素,例如网站LOGO、页面导航、新闻发布时间、新闻来源等,使得在进行网页内容抽取时,准确抽取网页标题以及网页中各个元素。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例1提供的一种网页内容抽取的方法的流程图;图2为本发明实施例1提供的另一种网页内容抽取的方法的流程图;图3为本发明实施例1提供的一种确定当前文本块的网页内容为正文或者非正文的方法的流程图;图4为本发明实施例2提供的一种网页内容抽取的装置的框图;图5为本发明实施例2提供的另一种网页内容抽取的装置的框图;图6为本发明实施例2提供的第一确定模块的框图;图7为本发明实施例2提供的第三确定模块的框图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例1本发明实施例提供一种网页内容抽取的方法,如图1所示,该方法包括步骤101,将HTML源码转换为对应的文档树结构,并根据所述文档树结构的TITLE标签,确定网页标题。通过对网页的超文本标记语言(Hyper Text Mark-up Language,HTML)源码解析,可以获得文档对象模型(Document Object Model,DOM),其也可以称为文档树结构。文档树结构中包含许多可以用于分析和模式匹配的有效信息。通过对文档树结构源码采用SAX解析,可以获得文本块。例如,在DIV布局的网页中,文档树结构由多个DIV块组成,DIV块即为DIV标签标记的文本块。DIV块作为一个容器,可以用来存放页面的文字和图片信息,网页正文页存在于DIV块之中。当然在本发明中,文档树结构中不仅包括DIV块,还可以包括由P标签标记的文本块、Hn标签标记的文本块等等。可选的,根据文档树结构的TITLE标签,确定网页标题包括根据文档树结构的TITLE标签,和/或,所述文档树结构属性“name”的值为“description”的META标签,获得第一网页标题信息;根据第一网页标题信息,以及预设的划分原则,提取第二网页标题信息,其中划分原则可以为根据“ I ”进行划分的原则,第二网页标题信息在第一网页标题信息中第一“ I ”之前的信息;根据所述第二网页标题信息,遍历所述文档树结构中的body标签中包括的所有文本块,当确定第二文本块中的网页内容与所述第二网页标题信息相匹配时,则将所述第二文本块的网页内容标记为网页标题,所述第二文本块为网页标题所在的文本块。步骤102,根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源。可选的,在一个网页全文中,网页标题很重要,但是网站LOGO、页面导航、新闻发布时间、新闻来源等可以使得网页信息更加全面,因此本发明支持网页全文中显示网页元素,使得网页全文显示的信息更加全面,更加详细。可选的,根据所述网页标题,确定网页中的网页元素包括在所述网页标题所在的文本块之前,根据页面导航正则表达式确定页面导航;在所述页面导航所在的文本块之前,根据所述文档树结构的包含LOGO关键字的IMG标签,确定网站LOGO ;在所述网页标题所在的文本块之后,根据日期正则表达式,确定新闻发布时间;在所述新闻发布时间所在的文本块之后,根据“来源”关键字,或者所述新闻发布时间所在的文本块之后的第一个文字串,确定新闻来源。步骤103,根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性,所述文本块的属性包括所述文本块的网页内容为正文,或者所述文本块的网页内容非正文。文本块的密度包括文字密度和链接密度。文字密度为文本块中包含的中文汉字数与文本块中包含的全部字符数的比值。链接密度为A标签中中文汉字数与文本块中包含的中文汉字数的比值,其中A标签为标记链接的标签。可选的,根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性包括根据所述文档树结构的文本块的文字密度、链接密度和文字数,确定当前文本块的网页内容为正文或者非正文;根据所述网页标题,确定所述网页标题之前的网页内容为非正文;根据所述文档树结构的文本块中包含的网页正文结束特征词,确定包含所述特征词的文本块之后的网页内容为非正文。步骤104,抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。本发明实施例提供一种网页内容抽取的方法,通过文本树结构中的TITLE标签,确定网页标题,再根据网页标题确定网页其他元素,例如网站LOGO、页面导航、新闻发布时间、新闻来源等,使得在进行网页内容抽取时,抽取网页标题、网页元素以及网页内容为正文的正文文本块,获取网页全文,可以准确抽取网页标题以及网页中各个元素。本发明实施例提供另一种网页内容抽取的方法,如图2所示,该方法包括 步骤201,将HTML源码转换为对应的文档树结构。通过对网页的超文本标记语言HTML源码解析,可以获得文档对象模型D0M,其也可以称为文档树结构。文档树结构中包含许多可以用于分析和模式匹配的有效信息。步骤202,根据文档树结构中的Head部属性“http-equiv”的值为“Content-Type”的META标签,获取网页编码信息。例如,〈meta http-equiv = " Content-Type " content = " text/html ;charset=gb2312" />,在META标签中,网页编码信息即为属性“charset”的值“gb2312”,gb2312表示中文网页页面的字符集。当获取到gb2312时,即可以按照字符集为gb2312进行网页内容的抽取,这样就不会出现乱码。现有技术中根据网页的URL,获取其页面编码信息,这种情况下强行指定“UTF-8”为默认的字符集,当网页的字符集为gb2312时,则会使得后续网页内容抽取时出现乱码。因此本发明实施例可以根据META标签获取网页编码信息,从而根据网页设置的字符集进行后续网页内容抽取,使得可以避免出现乱码。步骤203,将文档树结构的转义字符进行编码,获得转义字符普通文本形式。对获得的文档树结构中的转义字符进行编码。网页内容中含有转义字符,例如“&#160 ; ”,显示为空格,为了避免转义字符在进行SAX解析时丢失,所以将转义字符转化为转义字符普通文本形式,转义字符普通文本形式可以为:#esc#xxx#/esc#。步骤204,判断是否需要抽取图片。需要说明的是,在本步骤中,可以根据用户的设定或者设计人员的设定判断是否需要抽取图片。例如,根据某一型号的手机进行设定,当某一型号的手机能力较弱时,即运算速度较慢,屏幕较小,此时可以设定不需要抽取图像,以加快手机的处理速度;当另一型号的手机能力较强时,即运算速度较快,屏幕较大,此时可以设定需要抽取图像,以使得网页内容更详细丰富。步骤205,当需要抽取图片时,将所述文档树结构的MG标签进行编码,获得MG标签普通文本形式。对IMG标签进行编码。为了避免图片在进行SAX解析时丢失,而将IMG标签转化为MG标签普通文本的形式,其中MG标签普通文本的形式可以为#img#〈attributes>#/img#。当执行完步骤205之后,继续执行步骤206,对文档树结构源码解析为文本块。步骤206,当不需要抽取图片时,则将文档树结构源码解析为文本块;将文档树结构采用SAX解析为文本块。例如,在DI V布局的网页中,文档树结构由多个DIV块组成,DIV块即为DIV标签标记的文本块。DIV块作为一个容器,可以用来存放页面的文字和图片信息,网页正文页存在于DIV块之中。当然在本发明中,文档树结构中不仅包括DIV块,还可以包括由P标签标记的文本块、Hn标签标记的文本块等等。步骤207,判断当前需要进行转码处理的网页是否为中文网页。当前需要进行转码处理的网页为中文网页时,继续执行步骤209;当前需要进行转码处理的网页为英文网页时,执行步骤208。
步骤208,将英文网页由Boilerplate算法进行网页内容抽取。Boilerplate算法为将英文网页进行网页内容抽取的算法,此步骤可以根据现有技术执行,因此不在详细描述,具体可参见Boilerplate算法的描述。当步骤208执行完成之后,继续执行步骤216。步骤209,根据所述文档树结构的TITLE标签,确定网页标题;可选的,根据文档树结构的Head部的TITLE标签,将TI TLE标签中的内容作为第一网页标题信息,其中第一网页标题信息可以为候选网页标题。例如TITLE标签中的内容如下〈title>人社部专家建议退休年龄应延至65岁I延迟退休I老龄化I养老保险_新浪新闻〈/title〉。然后根据第一网页标题信息,提取第二网页标题信息。可选的,根据预设划分原贝U,其中划分原则可以为根据“ I ”进行划分的原则,第二网页标题信息为在第一网页标题信息中第一“ I ”之前的信息,第二网页标题信息即为“人社部专家建议退休年龄应延至65
I7Lt ”
歹 O再根据第二网页标题信息,遍历文档树结构中的body标签中包括的所有文本块,当确定第二文本块中的网页内容与第二网页标题信息相匹配时,则将所述第二文本块的网页内容标记为网页标题,所述第二文本块为网页标题所在的文本块。例如,当第二文本块的网页内容为“人社部专家建议退休年龄应延至65岁”,此时,第二文本块中的网页内容与第二网页标题信息相匹配,则第二文本块为网页标题所在的文本块,“人社部专家建议退休年龄应延至65岁”则为网页标题。这里第二文本块为文档树结构中的body标签中包括的所有文本块中的任意一个,“第二”并不是对文本块进行排序,而仅为了方便描述。另外,第二文本块中的网页内容与第二网页标题信息相匹配时,可以为第二文本块中的网页内容与第二网页标题信息相同,或者第二文本块中的网页内容与第二网页标题信息大部分相同。可选的,根据文档树结构属性“name”的值为“description”的META标签,将META标签中的内容作为第一网页标题信息,其中第一网页标题信息可以为候选网页标题。例如,META标签中的内容为〈meta content =“叙利亚是否进入内战?联合国国际红十字会说T算,国际新闻” name = “description” >。然后根据第一网页标题信息,提取第二网页标题信息。可选的,根据预设划分原贝U,其中划分原则可以为根据“,”进行划分的原则,第二网页标题信息即为“叙利亚是否进入内战?联合国国际红十字会说了算”。再根据第二网页标题信息,遍历文档树结构中的body标签中包括的所有文本块,当确定第二文本块中的网页内容与第二网页标题信息相匹配时,则将所述第二文本块的网页内容标记为网页标题,所述第二文本块为网页标题所在的文本块。当第二文本块中的网页内容为“叙利亚是否进入内战?联合国国际红十字会说了算”时,则第二文本块中的网页内容与第二网页标题信息相匹配,则第二文本块为网页标题所在的文本块,网页标题为“叙利亚是否进入内战?联合国国际红十字会说了算”。可选的,根据所述文档树结构的TITLE标签,和根据所述文档树结构属性“name”的值为“description”的META标签,获得第一网页标题信息。例如,META标签的内容〈meta content = “叙利亚是否进入内战?联合国国际红十字会说了算,国际新闻” name = “description” > ;
TITLE标签的内容〈title〉叙利亚是否进入内战?联合国国际红十字会说了算---齐鲁热线新闻频道,让新闻离您更近〈/title〉。
META标签的内容和TITLE标签的内容都可以作为第一网页标题信息,然后根据第一网页标题信息获得第二网页标题信息,可以分别为叙利亚是否进入内战?联合国国际红十字会说了算;叙利亚是否进入内战?联合国国际红十字会说了算一齐鲁热线新闻频道,让新闻离您更近。
根据所述第二网页标题信息,遍历所述文档树结构中的body标签中包括的所有文本块,即将第二网页标题信息分别与文档树结构中的body标签中包括的所有文本块的网页内容进行比较,第二文本块中的网页内容可以为“叙利亚是否进入内战?联合国国际红十字会说了算”。当确定第二文本块中的网页内容与第二网页标题信息相匹配时,则将第二文本块的网页内容标记为网页标题,第二文本块为网页标题所在的文本块。即“叙利亚是否进入内战?联合国国际红十字会说了算”为网页标题。
步骤210,根据所述网页标题,确定网页中的网页元素。
其中,网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源。
可选的,根据网页标题,确定网页中页面导航包括在所述网页标题所在的文本块之前,根据页面导航正则表达式确定页面导航。
页面导航正则表达式为[\\u4e00-\\u9fa5] + []*[ > —],此页面导航正则表达式可以解释为中文+0个或者多个空格+导航分隔符,导航分隔符包括“>”或“一”。从网页标题所在的文本块开始,向前搜索12个文字块,当查询到当前文本块符合页面导航正则表达式时,例如,“新华体育 > 正文”,则确定当前文本块为页面导航所在的文本块,“新华体育> ”即为页面导航。
可选的,在页面导航所在的文本块之前,根据所述文档树结构的包含LOGO关键字的IMG标签,确定网站LOGO。具体的,基于页面导航所在的文本块,向前搜索5个文本块,一旦发现含有“logo”字样的<img>标签,即作为网站LOGO。
可选的,在所述网页标题所在的文本块之后,根据日期正则表达式,确定新闻发布时间;日期正则表达式可以为\\d{2,4} [-\\u5E74/\\. ]
\\d[-\\u6708/\\.]
\\d\\u65E5 (\\s) (
\\d(:
\\d) {1,2}) 。从网页标题所在的文本块开始,向后搜索第一个匹配日期正则表达式的文本块,即可以确定新闻发布时间。 此正则表达式可以匹配下列日期格式第一,YYYY年丽月DD日hh:mm,例如,2012年02月 17日09时30分;第二,YYYY年MM月DD日hh:mm:ss,例如,2012年02月17日09时30 分 30 秒;第三,YYYY-MM-DDhh :mm,例如,2012 年 02 月 17 日 09 时 30 分;第四,YYYY-MM-DD hh:mm:ss,例如,2012 年 02 月 17 日 09 时 30 分 30 秒;第五,YYYY/MM/DD/hh:mm,例如,2012 年 02 月 17 日 09 时 30 分;第六,YYYY/MM/DD/hh:mm:ssJi^n,2012 年 02 月 17 日 09 时 30 分30秒ο
可选的,在所述新闻`发布时间所在的文本块之后,根据“来源”关键字,或者所述新闻发布时间所在的文本块之后的第一个文字串,确定新闻来源。例如,新闻发布时间所在的文本块之后的第一个文字串为京华时报,则新闻来源为京华日报。
步骤211,根据所述文档树结构的文本块的文字密度、链接密度和文字数,确定当前文本块的网页内容为正文或者非正文。
所述文本块的属性包括所述文本块的网页内容为正文,或者所述文本块的网页内 容非正文。具体的,如图3所示,根据所述文档树结构的文本块的文字密度、链接密度和文 字数,确定当前文本块的网页内容为正文或者非正文包括
301,判断当前文本块的文字密度是否大于等于文字密度下限值。
其中,文字密度下限值可以为O. 6,文字密度下限值为根据多次试验获得。
当所述当前文本块的文字密度小于汉字密度下限值时,执行步骤302,当所述当前 文本块的文字密度大于等于汉字密度下限值时,执行步骤303。
302,确定所述当前文本块的网页内容为非正文。
303,判断当前文本块的链接文字密度是否小于第一链接文字密度上限值。
其中,第一链接文字密度上限值可以为O. 5,第一链接文字密度上限值为根据多次 试验获得。
当所述当前文本块的链接文字密度小于第一链接文字密度上限值时,则执行步骤 304,当所述当前文本块的链接文字密度大于等于第一链接文字密度上限值时,则执行步骤 309。
304,判断前一个文本块中链接文字密度是否小于第二链接文字密度上限值。
其中,第二链接文字密度上限值可以为O. 555556,第二链接文字密度上限值为根 据多次试验获得。
当所述前一个文本块中连接文字密度小于第二链接文字密度上限值时,则执行步 骤305,当所述前一个文本块中连接文字密度大于等于第二链接文字密度上限值时,则执行 步骤310。
305,判断当前文本块的文字数是否小于第一文字数下限值。
第一文字数下限值可以为3,即文本块中包含的文字数为3个汉字。第一文字数下 限值为根据多次试验获得。
当所述当前文本块的文字数小于第一文字数下限值时,则执行步骤306,当所述当 前文本块的文字数大于等于第一文字数下限值时,则执行步骤308,即确定当前文本块的网 页内容为正文。
306,判断后一个文本块的文字数是否小于第二文字数下限值。
第二文字数下限值可以为5,即文本块中包含的文字数为5个汉字。第二文字数下 限值为根据多次试验获得。
当所述后一个文本块的文字数小于第二文字数下限值时,则执行步骤307,当所述 后一个文本块的文字数大于等于第二文字数下限值时,则执行步骤312。
307,判断前一个文本块的文字数是否小于第三文字数下限值。
第三文字数下限值可以为3,即文本块中包含的文字数为3个汉字。第三文字数下 限值为根据多次试验获得。
当所述前一个文本块的文字数小于所述第三文字数下限值时,则执行步骤302,即 确定所述当前文本块的网页内容为非正文;当所述前一个文本块的文字数大于等于所述第 三文字数下限值时,则执行步骤308。
308,确定当前文本块的网页内容为正文。
309,当前一个文本块的网页内容为正文时,判断所述当前文本块中链接的文字数 的平均值是否小于文字数上限值;
此步骤为当所述当前文本块的链接文字密度大于等于第一链接文字密度上限值 时,并且当前一个文本块的网页内容为正文时,判断当前文本块中链接的文字数的平均值 是否小于文字数上限值;
文字数上限值可以为5,文字数上限值为根据多次试验获得。
当所述当前文本块中链接的文字数的平均值小于文字数上限值时,则执行步骤 308,即确定所述当前文本块的网页内容为正文;
当所述当前文本块中链接的文字数的平均值大于等于文字数上限值时,则执行步 骤302,确定所述当前文本块的网页内容为非正文。
310,判断当前文本块的文字数是否小于等于第四文字数下限值。
此步骤为当所述当前文本块的链接文字密度大于等于所述第一链接文字密度上 限值时,继续判断所述当前文本块的文字数是否小于等于第四文字数下限值。第四文字数 下限值可以为30,第四文字数下限值为根据多次试验获得。其中,第四文字数下限值为网页 内容抽取时对于汉字的统计口径,字数大于30个汉字的文本块,就被认为是正文。
当所述当前文本块的文字数大于第四文字数下限值时,则执行步骤308,即确定所 述当前文本块的网页内容为正文;
当所述当前文本块的文字数小于等于第四文字数下限值时,则执行步骤311。
311,判断所述前一个文本块或者所述后一个文本块的文字数是否小于等于第五 文字数下限值;
第五文字数下限值可以为17,第五文字数下限值为根据经验获得。
当所述前一个文本块或者后一个文本块的文字数小于等于第五文字数下限值时, 则执行步骤302,即确定所述当前文本块的网页内容为非正文;
当所述前一个文本块或者后一个文本块的文字数大于第五文字数下限值时,则执 行步骤308,即确定所述当前文本块的网页内容为正文。
312,判断前一个文本块的网页内容是否为正文。
本步骤中,当所述后一个文本块的文字数大于等于第二文字数下限值时,判断所 述前一个文本块的网页内容是否为正文;
当前一个文本块的网页内容为正文时,则执行步骤308,确定所述当前文本块的网 页内容为正文;
当前一个文本块的网页内容为非正文时,则执行步骤302,确定所述当前文本块的 网页内容为非正文。
当确定了当前文本块的网页内容为正文或者非正文之后,继续执行步骤212。
步骤212,根据网页标题所在的文本块,确定网页标题所在的文本块之前的网页内 容为非正文。
可选的,首先定位在网页标题所在的文本块,然后将网页标题之前的网页内容标 记为非正文。确定网页标题所在的文本块之前的网页内容为非正文后,过滤掉网页标题所 在文本块之前的内容,这样可以有效过滤标题之前的无用信息,例如各个频道信息、广告等坐 寸ο
步骤213,根据所述文档树结构的文本块中包含的网页正文结束特征词,确定包含 所述特征词的文本块之后的网页内容为非正文。
可选的,统计网页正文结束的特征词,生成语料库。例如,网页正文结束的特征词 包括分享到、责任编辑、声明等。判断文档树结构的各个文本块的网页内容中是否包含所 述语料库中的特征词;当文档树结构的第一文本块的网页内容中包含所述语料库中的特征 词时,确定所述第一文本块为网页正文结束文本块,并确定所述网页正文结束文本块之后 的网页内容为非正文,这样,有效地去除了正文之后的信息,例如广告、相关新闻链接以及 其他栏目等无用的信息。这里第一文本块为文档树结构的各个文本块中的任意一个,“第 一”不是为了对文本块进行排序,而是为了方便描述。
在确定包含所述特征词的文本块之后的网页内容为非正文之后,过滤掉网页正文 结束文本块之后的网页内容。
步骤214,将含有图片的文本块与紧邻所述含有图片的文本块之后的网页内容为 正文的文本块合并为一个正文文本块。
在步骤211中,将含有MG标签的文本标记为非正文,因此需要抽取图片时,需要 将图片所在的文本块保留下来,因此可以将含有图片的文本块与其后一个正文文本块合并 为一个新的正文文本块,这样在抽取网页内容时可以将图片一起抽取出来,方便快捷的完 成抽取操作。
步骤215,删除网页内容为非正文的文本块;
网页内容为非正文的文本块为进行网页内容抽取时无用的文本块,因此删除这些 文本块,有利于后续对正文内容的抽取。
需要说明的是,当经过步骤209-步骤215的处理之后,仅正文文本块保留下来。
步骤216,还原所述正文文本块的HTML标签,获得格式化后的网页正文;
由于正文文本块中含有网页源码的地址信息,因此根据该地址信息可以确定正文 文本块前后的HTML标签,例如P标签、DIV标签等等。将这些标签还原,作为格式化后的正 文,以便在显示时采用。
步骤217,将所述网页正文中的转义字符普通文本形式进行解码,恢复转义字符的 功能;
此步骤执行的操作为步骤203执行的操作的反操作,即恢复转义字符的功能。
步骤218,将所述网页正文中的IMG标签普通文本形式进行解码,恢复IMG标签的 功能;
此步骤为可选步骤,当步骤205存在时,则执行此步骤,当步骤205不存在时,则不 执行此步骤。
步骤219,将所述网页正文中的链接添加转码应用的前缀。
本步骤中,将网页正文中的链接添加转码应用的前缀,可以使得点击网页正文中 的任意一个链接时,发送的访问请求都由转码应用进行处理,以实现网页转码的闭环操作。 也就是说,点击网页正文中的任意一个链接之后,显示的二级页面为根据本发明提供的方 法处理之后的网页正文。
步骤220,根据所述网页标题、所述网页元素以及所述网页正文,获取网页全文,并 以独立接口的形式显示所述网页全文。
本发明实施例提供一种网页内容抽取的方法,通过文本树结构中的TITLE标签, 确定网页标题,再根据网页标题确定网页其他元素,例如网站LOGO、页面导航、新闻发布时 间、新闻来源等。根据网页标题,将网页标题之前的网页内容标记为非正文删除,将正文之 后的网页内容根据网页结束的特征词确定正文结束文本块之后的网页内容为非正文,然后 删除。使得在进行网页内容抽取时,抽取网页标题、网页元素以及网页内容为正文的正文文 本块,获取网页全文,可以准确抽取网页标题以及网页中各个元素,提升了中文网页正文抽 取的完整性、格式一致性、无用信息分离度,从而获得了较高的正文判定准确率,并且增强 了抽取中文网页内容的乱码问题,增强了图片处理。
实施例2
本发明实施例提供一种网页内容抽取的装置,如图4所示,该装置包括转换单元 401,网页标题确定单元402,网页元素确定单元403,文本块属性确定单元404,网页全文获 取单元405 ;
转换单元401,用于将HTML源码转换为对应的文档树结构;
网页标题确定单元402,用于根据所述文档树结构的TITLE标签,确定网页标题;
网页元素确定单元403,用于根据所述网页标题,确定网页中的网页元素,所述网 页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源;
文本块属性确定单元404,用于根据所述网页标题,以及所述文档树结构的文本块 的密度和文字数,确定各个文本块的属性,所述文本块的属性包括所述文本块的网页内容 为正文,或者所述文本块的网页内容非正文;
网页全文获取单元405,用于抽取所述网页标题、所述网页元素以及所述网页内容 为正文的正文文本块,获取网页全文。
进一步可选的,如图5所示,所述装置还包括网页编码信息获取单元406,编码单 元 407 ;
在转换单元401将HTML源码转换为对应的文档树结构之后,在网页标题确定单元 402根据所述文档树结构的TITLE标签,确定网页标题之前,网页编码信息获取单元406根 据所述文档树结构中的Head部属性“ht tp-equiv”的值为“Content-Type”的META标签, 获取网页编码信息。
编码单元407,用于将所述文档树结构的转义字符进行编码,获得转义字符普通文 本形式;
所述编码单元407,还用于当需要抽取图片时,将所述文档树结构的MG标签进行 编码,获得MG标签普通文本形式。
进一步可选的,如图5所示,所述网页标题确定单元402包括获取模块4021,提 取模块4022,确定模块4023 ;
获取模块4021,用于根据所述文档树结构的TITLE标签,和/或,根据所述文档树 结构属性“name”的值为“description”的META标签,获得第一网页标题信息;
提取模块4022,用于根据所述第一网页标题信息,提取第二网页标题信息;
确定模块4023,用于根据所述第二网页标题信息,遍历所述文档树结构中的body 标签中包括的所有文本块,当确定第二文本块中的网页内容与所述第二网页标题信息相匹 配时,则将所述第二文本块的网页内容标记为网页标题,所述第二文本块为网页标题所在的文本块。
进一步可选的,如图5所示,所述网页元素确定单元403,用于
在所述网页标题所在的文本块之前,根据页面导航正则表达式确定页面导航;
在所述页面导航所在的文本块之前,根据所述文档树结构的包含LOGO关键字的 MG标签,确定网站LOGO ;
在所述网页标题所在的文本块之后,根据日期正则表达式,确定新闻发布时间;
在所述新闻发布时间所在的文本块之后,根据“来源”关键字,或者所述新闻发布 时间所在的文本块之后的第一个文字串,确定新闻来源。
进一步可选的,如图5所示,所述文本块属性确定单元404,包括第一确定模块 4041,第二确定模块4042,第三确定模块4043 ;
其中,文本块的密度包括文字密度和链接密度;第一确定模块4041,用于根据所 述文档树结构的文本块的文字密度、链接密度和文字数,确定当前文本块的网页内容为正 文或者非正文;
第二确定模块4042,用于根据所述网页标题,确定所述网页标题之前的网页内容 为非正文;
第三确定模块4043,用于根据所述文档树结构的文本块中包含的网页正文结束特 征词,确定包含所述特征词的文本块之后的网页内容为非正文。
进一步可选的,如图6所不,第一确定模块4041包括第一判断子模块601,第一 确定子模块602,第二判断子模块603,第三判断子模块604,第四判断子模块605,第二确定 子模块606,第五判断子模块607,第六判断子模块608,第七判断子模块609,第八判断子模 块610,第九判断子模块611,第十判断子模块612;
第一判断子模块601,用于判断所述当前文本块的文字密度是否大于等于文字密 度下限值;
当所述当前文本块的文字密度小于汉字密度下限值时,第一确定子模块602,确定 所述当前文本块的网页内容为非正文。
当所述当前文本块的文字密度大于等于汉字密度下限值时,第二判断子模块603, 用于判断所述当前文本块的链接文字密度是否小于第一链接文字密度上限值;
第三判断子模块604,用于当所述当前文本块的链接文字密度小于所述第一链接 文字密度上限值时,判断前一个文本块中链接文字密度是否小于第二链接文字密度上限 值;
当所述前一个文本块中连接文字密度小于所述第二链接文字密度上限值时,第四 判断子模块605,用于判断所述当前文本块的文字数是否小于第一文字数下限值;
当所述当前文本块的文字数大于等于所述第一文字数下限值时,第二确定子模块 606,用于确定所述当前文本块的网页内容为正文。
当所述当前文本块的文字数小于所述第一文字数下限值时,第五判断子模块607, 用于判断后一个文本块的文字数是否小于第二文字数下限值;
当所述后一个文本块的文字数小于所述第二文字数下限值时,第六判断子模块 608,用于判断所述前一个文本块的文字数是否小于第三文字数下限值;
当所述前一个文本块的文字数小于所述第三文字数下限值时,第一确定子模块602,用于确定所述当前文本块的网页内容为非正文;
第二确定子模块606,用于当所述前一个文本块的文字数大于等于所述第三文字 数下限值时,确定所述当前文本块的网页内容为正文。
当所述当前文本块的链接文字密度大于等于所述第一链接文字密度上限值时,并 且当所述前一个文本块的网页内容为正文时,第七判断子模块609,用于判断所述当前文本 块中链接的文字数的平均值是否小于文字数上限值;
当所述当前文本块中链接的文字数的平均值小于文字数上限值时,第二确定子模 块606,用于确定所述当前文本块的网页内容为正文;
当所述当前文本块中链接的文字数的平均值大于等于文字数上限值时,第一确定 子模块602,用于确定所述当前文本块的网页内容为非正文。
当所述当前文本块的链接文字密度大于等于所述第一链接文字密度上限值时,第 八判断子模块610,用于判断所述当前文本块的文字数是否小于等于第四文字数下限值;
当所述当前文本块的文字数大于所述第四文字数下限值时,第二确定子模块606, 用于确定所述当前文本块的网页内容为正文;
当所述当前文本块的文字数小于等于所述第四文字数下限值时,第九判断子模块 611,用于判断所述前一个文本块或者所述后一个文本块的文字数是否小于等于第五文字 数下限值;
第一确定子模块602,用于当所述前一个文本块或者后一个文本块的文字数小于 等于所述第五文字数下限值时,确定所述当前文本块的网页内容为非正文;
第二确定子模块606,用于当所述前一个文本块或者后一个文本块的文字数大于 所述第五文字数下限值时,确定所述当前文本块的网页内容为正文。
当所述后一个文本块的文字数大于等于所述第二文字数下限值时,第十判断子模 块612,用于判断所述前一个文本块的网页内容是否为正文;
当所述前一个文本块的网页内容为正文时,第二确定子模块606,用于确定所述当 前文本块的网页内容为正文;
当所述前一个文本块的网页内容为非正文时,第一确定子模块602,用于确定所述 当前文本块的网页内容为非正文。
进一步可选的,如图7所示,所述第三确定模块4043包括统计子模块701,判断 子模块702,确定子模块703 ;
统计子模块701,用于统计网页正文结束的特征词,生成语料库;
判断子模块702,用于判断所述文档树结构的各个文本块的网页内容中是否包含 所述语料库中的特征词;
确定子模块703,用于当所述文档树结构的第一文本块的网页内容中包含所述语 料库中的特征词时,确定所述第一文本块为网页正文结束文本块,并确定所述网页正文结 束文本块之后的网页内容为非正文。
进一步可选的,如图5所示,所述装置还包括合并单元408,删除单元409,还原单 元410,解码单元411,添加单元412 ;
在所述网页全文获取单元405抽取所述网页标题、所述网页元素以及所述网页内 容为正文的正文文本块,获取网页全文之前,合并单元408,用于将含有图片的文本块与紧邻所述含有图片的文本块之后的网页内容为正文的文本块合并为一个正文文本块。
删除单元409,用于删除网页内容为非正文的文本块;
还原单元410,用于还原所述正文文本块的HTML标签,获得格式化后的网页正文;
解码单元411,用于将所述网页正文中的转义字符普通文本形式进行解码,恢复转 义字符的功能;
所述解码单元411,还用于将所述网页正文中的MG标签普通文本形式进行解码, 恢复MG标签的功能;
添加单元412,用于将所述网页正文中的链接添加转码应用的前缀。
进一步可选的,所述网页全文获取单元405用于
根据所述网页标题、所述网页元素以及所述网页正文,获取网页全文,并以独立接 口的形式显示所述网页全文。
需要说明的是,附图4、附图5、附图6以及附图7所示装置中,其各个模块的具体 实施过程以及各个模块之间的信息交互等内容,由于与本发明方法实施例基于同一发明构 思,可以参见方法实施例,在此不一一赘述。
本发明实施例提供一种网页内容抽取的装置,通过网页标题确定单元根据文本树 结构中的TITLE标签,确定网页标题,再根据网页标题网页元素确定单元确定网页其他元 素,例如网站LOGO、页面导航、新闻发布时间、新闻来源等。文本块属性确定单元根据网页标 题,将网页标题之前的网页内容标记为非正文删除,将正文之后的网页内容根据网页结束 的特征词确定正文结束文本块之后的网页内容为非正文,然后删除。使得网页全文获取单 元在进行网页内容抽取时,抽取网页标题、网页元素以及网页内容为正文的正文文本块,获 取网页全文,可以准确抽取网页标题以及网页中各个元素,提升了中文网页正文抽取的完 整性、格式一致性、无用信息分离度,从而获得了较高的正文判定准确率,并且增强了抽取 中文网页内容的乱码问题,增强了图片处理。
以上所述,仅为本发明的具体实施方式
,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵 盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
权利要求
1.一种网页内容抽取的方法,其特征在于,包括 将超文本标记语言HTML源码转换为对应的文档树结构,并根据所述文档树结构的标题TITLE标签,确定网页标题; 根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站商标LOGO、页面导航、新闻发布时间、新闻来源; 根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性,所述文本块的属性包括所述文本块的网页内容为正文,或者所述文本块的网页内容非正文; 抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。
2.根据权利要求1所述网页内容抽取的方法,其特征在于,文本块的密度包括文字密度和链接密度; 所述根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性包括 根据所述文档树结构的文本块的文字密度、链接密度和文字数,确定当前文本块的网页内容为正文或者非正文; 根据所述网页标题,确定所述网页标题之前的网页内容为非正文; 根据所述文档树结构的文本块中包含的网页正文结束特征词,确定包含所述特征词的文本块之后的网页内容为非正文。
3.根据权利要求2所述网页内容抽取的方法,其特征在于,所述根据所述文档树结构的文本块的文字密度、链接密度和文字数,确定当前文本块的网页内容为正文或者非正文包括 判断所述当前文本块的文字密度是否大于等于文字密度下限值; 当所述当前文本块的文字密度大于等于汉字密度下限值时,判断所述当前文本块的链接文字密度是否小于第一链接文字密度上限值; 当所述当前文本块的链接文字密度小于所述第一链接文字密度上限值时,判断前一个文本块中链接文字密度是否小于第二链接文字密度上限值; 当所述前一个文本块中连接文字密度小于所述第二链接文字密度上限值时,判断所述当前文本块的文字数是否小于第一文字数下限值; 当所述当前文本块的文字数小于所述第一文字数下限值时,判断后一个文本块的文字数是否小于第二文字数下限值; 当所述后一个文本块的文字数小于所述第二文字数下限值时,判断所述前一个文本块的文字数是否小于第三文字数下限值; 当所述前一个文本块的文字数小于所述第三文字数下限值时,确定所述当前文本块的网页内容为非正文; 当所述前一个文本块的文字数大于等于所述第三文字数下限值时,确定所述当前文本块的网页内容为正文。
4.根据权利要求3所述网页内容抽取的方法,其特征在于, 当所述当前文本块的文字密度小于汉字密度下限值时,确定所述当前文本块的网页内容为非正文。
5.根据权利要求3所述网页内容抽取的方法,其特征在于, 当所述当前文本块的链接文字密度大于等于所述第一链接文字密度上限值时,并且当所述前一个文本块的网页内容为正文时,判断所述当前文本块中链接的文字数的平均值是否小于文字数上限值; 当所述当前文本块中链接的文字数的平均值小于文字数上限值时,确定所述当前文本块的网页内容为正文; 当所述当前文本块中链接的文字数的平均值大于等于文字数上限值时,确定所述当前文本块的网页内容为非正文。
6.根据权利要求3所述网页内容抽取的方法,其特征在于, 当所述当前文本块的链接文字密度大于等于所述第一链接文字密度上限值时,判断所述当前文本块的文字数是否小于等于第四文字数下限值; 当所述当前文本块的文字数大于所述第四文字数下限值时,确定所述当前文本块的网页内容为正文; 当所述当前文本块的文字数小于等于所述第四文字数下限值时,判断所述前一个文本块或者所述后一个文本块的文字数是否小于等于第五文字数下限值; 当所述前一个文本块或者后一个文本块的文字数小于等于所述第五文字数下限值时,确定所述当前文本块的网页内容为非正文; 当所述前一个文本块或者后一个文本块的文字数大于所述第五文字数下限值时,确定所述当前文本块的网页内容为正文。
7.根据权利要求3所述网页内容抽取的方法,其特征在于, 当所述当前文本块的文字数大于等于所述第一文字数下限值时,确定所述当前文本块的网页内容为正文。
8.根据权利要求3所述网页内容抽取的方法,其特征在于, 当所述后一个文本块的文字数大于等于所述第二文字数下限值时,判断所述前一个文本块的网页内容是否为正文; 当所述前一个文本块的网页内容为正文时,确定所述当前文本块的网页内容为正文; 当所述前一个文本块的网页内容为非正文时,确定所述当前文本块的网页内容为非正文。
9.根据权利要求2所述网页内容抽取的方法,其特征在于,所述根据所述文档树结构的文本块中包含的网页正文结束特征词,确定包含所述特征词的文本块之后的网页内容为非正文包括 统计网页正文结束的特征词,生成语料库; 判断所述文档树结构的各个文本块的网页内容中是否包含所述语料库中的特征词; 当所述文档树结构的第一文本块的网页内容中包含所述语料库中的特征词时,确定所述第一文本块为网页正文结束文本块,并确定所述网页正文结束文本块之后的网页内容为非正文。
10.根据权利要求1所述网页内容抽取的方法,其特征在于,在所述根据所述文档树结构的TITLE标签,确定网页标题之前,还包括将所述文档树结构的转义字符进行编码,获得转义字符普通文本形式; 当需要抽取图片时,将所述文档树结构的IMG标签进行编码,获得IMG标签普通文本形式。
11.根据权利要求10所述网页内容抽取的方法,其特征在于,在将所述文档树结构的转义字符进行编码,获得转义字符普通文本形式之前,还包括 根据所述文档树结构中的Head部属性“http-equiv”的值为“Content-Type”的META标签,获取网页编码信息; 根据所述网页编码信息,执行所述网页内容抽取,获取所述网页全文。
12.根据权利要求1所述网页内容抽取的方法,其特征在于,所述根据所述文档树结构的TITLE标签,确定网页标题包括 根据所述文档树结构的TITLE标签,和/或,根据所述文档树结构属性“name”的值为“description”的META标签,获得第一网页标题信息; 根据所述第一网页标题信息,提取第二网页标题信息; 根据所述第二网页标题信息,遍历所述文档树结构中的body标签中包括的所有文本块,当确定第二文本块中的网页内容与所述第二网页标题信息相匹配时,则将所述第二文本块的网页内容标记为网页标题,所述第二文本块为网页标题所在的文本块。
13.根据权利要求1所述网页内容抽取的方法,其特征在于,所述根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源包括 在所述网页标题所在的文本块之前,根据页面导航正则表达式确定页面导航; 在所述页面导航所在的文本块之前,根据所述文档树结构的包含LOGO关键字的IMG标签,确定网站LOGO; 在所述网页标题所在的文本块之后,根据日期正则表达式,确定新闻发布时间; 在所述新闻发布时间所在的文本块之后,根据“来源”关键字,或者所述新闻发布时间所在的文本块之后的第一个文字串,确定新闻来源。
14.根据权利要求10所述网页内容抽取的方法,其特征在于,在所述抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文之前,还包括 将含有图片的文本块与紧邻所述含有图片的文本块之后的网页内容为正文的文本块合并为一个正文文本块。
15.根据权利要求10所述网页内容抽取的方法,在所述抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文之前,还包括 删除网页内容为非正文的文本块; 还原所述正文文本块的HTML标签,获得格式化后的网页正文; 将所述网页正文中的转义字符普通文本形式进行解码,恢复转义字符的功能; 将所述网页正文中的頂G标签普通文本形式进行解码,恢复MG标签的功能; 将所述网页正文中的链接添加转码应用的前缀。
16.根据权利要求1-15中任一项所述网页内容抽取的方法,所述抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文包括 根据所述网页标题、所述网页元素以及所述网页正文,获取网页全文,并以独立接口的形式显示所述网页全文。
17.—种网页内容抽取的装置,其特征在于,包括 转换单元,用于将HTML源码转换为对应的文档树结构; 网页标题确定单元,用于根据所述文档树结构的TITLE标签,确定网页标题; 网页元素确定单元,用于根据所述网页标题,确定网页中的网页元素,所述网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源; 文本块属性确定单元,用于根据所述网页标题,以及所述文档树结构的文本块的密度和文字数,确定各个文本块的属性,所述文本块的属性包括所述文本块的网页内容为正文,或者所述文本块的网页内容非正文; 网页全文获取单元,用于抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。
18.根据权利要求17所述网页内容抽取的装置,其特征在于,文本块的密度包括文字密度和链接密度; 所述文本块属性确定单元,包括 第一确定模块,用于根据所述文档树结构的文本块的文字密度、链接密度和文字数,确定当前文本块的网页内容为正文或者非正文; 第二确定模块,用于根据所述网页标题,确定所述网页标题之前的网页内容为非正文; 第三确定模块,用于根据所述文档树结构的文本块中包含的网页正文结束特征词,确定包含所述特征词的文本块之后的网页内容为非正文。
19.根据权利要求18所述网页内容抽取的装置,其特征在于,所述第一确定模块包括 第一判断子模块,用于判断所述当前文本块的文字密度是否大于等于文字密度下限值; 第二判断子模块,用于当所述当前文本块的文字密度大于等于汉字密度下限值时,判断所述当前文本块的链接文字密度是否小于第一链接文字密度上限值; 第三判断子模块,用于当所述当前文本块的链接文字密度小于所述第一链接文字密度上限值时,判断前一个文本块中链接文字密度是否小于第二链接文字密度上限值; 第四判断子模块,用于当所述前一个文本块中连接文字密度小于所述第二链接文字密度上限值时,判断所述当前文本块的文字数是否小于第一文字数下限值; 第五判断子模块,用于当所述当前文本块的文字数小于所述第一文字数下限值时,判断后一个文本块的文字数是否小于第二文字数下限值; 第六判断子模块,用于当所述后一个文本块的文字数小于所述第二文字数下限值时,判断所述前一个文本块的文字数是否小于第三文字数下限值; 第一确定子模块,用于当所述前一个文本块的文字数小于所述第三文字数下限值时,确定所述当前文本块的网页内容为非正文; 第二确定子模块,用于当所述前一个文本块的文字数大于等于所述第三文字数下限值时,确定所述当前文本块的网页内容为正文。
20.根据权利要求19所述网页内容抽取的装置,其特征在于,所述第一确定模块,还包括所述第一确定子模块,用于当所述当前文本块的文字密度小于汉字密度下限值时,确定所述当前文本块的网页内容为非正文。
21.根据权利要求19所述网页内容抽取的装置,其特征在于,所述第一确定模块,还包括 第七判断子模块,用于当所述当前文本块的链接文字密度大于等于所述第一链接文字密度上限值时,并且当所述前一个文本块的网页内容为正文时,判断所述当前文本块中链接的文字数的平均值是否小于文字数上限值; 所述第二确定子模块,用于当所述当前文本块中链接的文字数的平均值小于文字数上限值时,确定所述当前文本块的网页内容为正文; 所述第一确定子模块,用于当所述当前文本块中链接的文字数的平均值大于等于文字数上限值时,确定所述当前文本块的网页内容为非正文。
22.根据权利要求19所述网页内容抽取的装置,其特征在于,所述第一确定模块,还包括 第八判断子模块,用于当所述当前文本块的链接文字密度大于等于所述第一链接文字密度上限值时,判断所述当前文本块的文字数是否小于等于第四文字数下限值; 所述第二确定子模块,用于当所述当前文本块的文字数大于所述第四文字数下限值时,确定所述当前文本块的网页内容为正文; 第九判断子模块,用于当所述当前文本块的文字数小于等于所述第四文字数下限值时,判断所述前一个文本块或者所述后一个文本块的文字数是否小于等于第五文字数下限值; 所述第一确定子模块,用于当所述前一个文本块或者后一个文本块的文字数小于等于所述第五文字数下限值时,确定所述当前文本块的网页内容为非正文; 所述第二确定子模块,用于当所述前一个文本块或者后一个文本块的文字数大于所述第五文字数下限值时,确定所述当前文本块的网页内容为正文。
23.根据权利要求19所述网页内容抽取的装置,其特征在于,所述第一确定模块,还包括 所述第二确定子模块,用于当所述当前文本块的文字数大于等于所述第一文字数下限值时,确定所述当前文本块的网页内容为正文。
24.根据权利要求19所述网页内容抽取的装置,其特征在于,所述第一确定模块,还包括 第十判断子模块,用于当所述后一个文本块的文字数大于等于所述第二文字数下限值时,判断所述前一个文本块的网页内容是否为正文; 所述第二确定子模块,用于当所述前一个文本块的网页内容为正文时,确定所述当前文本块的网页内容为正文; 所述第一确定子模块,用于当所述前一个文本块的网页内容为非正文时,确定所述当前文本块的网页内容为非正文。
25.根据权利要求18所述网页内容抽取的装置,其特征在于,所述第三确定模块包括 统计子模块,用于统计网页正文结束的特征词,生成语料库; 判断子模块,用于判断所述文档树结构的各个文本块的网页内容中是否包含所述语料库中的特征词; 确定子模块,用于当所述文档树结构的第一文本块的网页内容中包含所述语料库中的特征词时,确定所述第一文本块为网页正文结束文本块,并确定所述网页正文结束文本块之后的网页内容为非正文。
26.根据权利要求17所述网页内容抽取的装置,其特征在于,所述装置还包括 编码单元,用于将所述文档树结构的转义字符进行编码,获得转义字符普通文本形式; 所述编码单元,还用于当需要抽取图片时,将所述文档树结构的IMG标签进行编码,获得MG标签普通文本形式。
27.根据权利要求26所述网页内容抽取的装置,其特征在于,所述装置还包括 网页编码信息获取单元,用于根据所述文档树结构中的Head部属性“http-equiv”的值为“Content-Type”的META标签,获取网页编码信息。
28.根据权利要求17所述网页内容抽取的装置,其特征在于,所述网页标题确定单元包括 获取模块,用于根据所述文档树结构的TITLE标签,和/或,根据所述文档树结构属性“name”的值为“description”的META标签,获得第一网页标题信息; 提取模块,用于根据所述第一网页标题信息,提取第二网页标题信息; 确定模块,用于根据所述第二网页标题信息,遍历所述文档树结构中的body标签中包括的所有文本块,当确定第二文本块中的网页内容与所述第二网页标题信息相匹配时,则将所述第二文本块的网页内容标记为网页标题,所述第二文本块为网页标题所在的文本块。
29.根据权利要求17所述网页内容抽取的装置,其特征在于,所述网页元素确定单元,用于 在所述网页标题所在的文本块之前,根据页面导航正则表达式确定页面导航; 在所述页面导航所在的文本块之前,根据所述文档树结构的包含LOGO关键字的IMG标签,确定网站LOGO; 在所述网页标题所在的文本块之后,根据日期正则表达式,确定新闻发布时间; 在所述新闻发布时间所在的文本块之后,根据“来源”关键字,或者所述新闻发布时间所在的文本块之后的第一个文字串,确定新闻来源。
30.根据权利要求26所述网页内容抽取的装置,其特征在于,所述装置还包括 合并单元,用于将含有图片的文本块与紧邻所述含有图片的文本块之后的网页内容为正文的文本块合并为一个正文文本块。
31.根据权利要求26所述网页内容抽取的装置,所述装置还包括 删除单元,用于删除网页内容为非正文的文本块; 还原单元,用于还原所述正文文本块的HTML标签,获得格式化后的网页正文; 解码单元,用于将所述网页正文中的转义字符普通文本形式进行解码,恢复转义字符的功能; 所述解码单元,还用于将所述网页正文中的MG标签普通文本形式进行解码,恢复IMG标签的功能;添加单元,用于将所述网页正文中的链接添加转码应用的前缀。
32.根据权利要求17-31中任一项所述网页内容抽取的装置,所述网页全文获取单元用于 根据所述网页标题、所述网页元素以及所述网页正文,获取网页全文,并以独立接口的形式显示所述网页全文。
全文摘要
本发明公开一种网页内容抽取的方法及装置,涉及信息技术领域,可以在进行网页内容抽取时,准确抽取网页标题以及网页中各个元素。本发明通过将HTML源码转换为对应的文档树结构,并根据文档树结构的TITLE标签,确定网页标题;根据网页标题,确定网页中的网页元素,网页元素至少包括网站LOGO、页面导航、新闻发布时间、新闻来源;根据网页标题,以及文档树结构的文本块的密度和文字数,确定各个文本块的属性;抽取所述网页标题、所述网页元素以及所述网页内容为正文的正文文本块,获取网页全文。本发明提供的方案适于进行网页内容抽取时采用。
文档编号G06F17/27GK103064827SQ201310016689
公开日2013年4月24日 申请日期2013年1月16日 优先权日2013年1月16日
发明者兰晶, 徐慎昆 申请人:盘古文化传播有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1