一种网页信息抽取方法和装置制造方法
【专利摘要】本发明公开了一种网页信息抽取方法和装置,该方法包括:1)获取预设的第一信息集合和第一正则表达式群;2)根据所述第一信息集合和第一正则表达式群在第一网页集合中检索到包含所述第一信息集合的所有网页并形成第二网页集合;3)根据所述第二网页集合和所述第一信息集合形成第二正则表达式群,并将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群,根据所述第三正则表达式群进行网页信息抽取。本发明采取了上述方法以后,能够通过给定一个一类信息很小的值的集合,生成正则表达式群,以解决一类信息在所有网站上的数据抽取问题,其可以节省目前海量的互联网网页中信息抽取大量人工参与的工作量。
【专利说明】一种网页信息抽取方法和装置
【技术领域】
[0001]本发明属于一种信息抽取方法,特别涉及一种基于正则表达式的网页信息抽取方法和系统,属于信息处理领域。
【背景技术】
[0002]正则表达式,在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成 “regex,,,单数有 regexp、regex,复数有 regexps、regexes、regexen。
[0003]专利《网页信息抽取方法与系统》,申请号:200810036268.5.主要技术方案:一种网页信息抽取方法,通过选择训练网页内容集并提取目标结构化数据;训练所述训练网页内容集获得与所述目标结构化数据匹配的正则表达式;将所述正则表达式写入配置模板;利用所述配置模板采集网页;从所述采集网页中提取结构化数据。
[0004]现有技术的缺点如下:
[0005]1.上述专利主要解决对一个网站的同类型网页信息的信息抽取,不能扩展到不同类型的网页上。
[0006]2.是为一种类型的网页生成一个正则表达式,扩展性不足,另外不是正则的正确性非程序自动验证。
[0007]3.通过生成的正则配置模板,人工参与度过高。
[0008]目前互联网上包含的信息越来越多,对于在网页上展现的信息,我们可以通过正则表达式来描述,对于不同的网页,所对应的正则表达式往往是不一样,这样就给我们的数据抽取工作带来了很大的工作量。
[0009]比如在音乐领域,在互联网上有上万级别的网站来展示音乐信息,如果想把这里上万级别的网页中的歌曲名、歌手名、专辑名及其他音乐信息抽取出来按照原始的方法要手工配置上万级的模板,需要海量的人工工作量。
【发明内容】
[0010]本发明所要解决的技术问题是提供一种网页信息抽取方法和装置,其能够基于正则表达式的自动提取网页中信息,其能够降低对人工工作量的损耗。
[0011]本发明解决上述技术问题所采取的技术方案如下:
[0012]一种网页信息抽取方法,包括:
[0013]I)获取预设的第一信息集合和第一正则表达式群;
[0014]2)根据所述第一信息集合和第一正则表达式群在第一网页集合中检索到包含所述第一信息集合的所有网页并形成第二网页集合;[0015]3)根据所述第二网页集合和所述第一信息集合生成第二正则表达式群,并将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群;(4)根据所述第三正则表达式群进行网页信息抽取。
[0016]进一步地,优选的步骤是,步骤4)中,根据所述第三正则表达式群进行网页信息抽取之前,还包括:根据所述第三正则表达式群在所述第二网页集合中提取信息;根据所述提取信息过滤掉错误的或者重合的正则表达式,并最终形成经过过滤后的第三正则表达式群。
[0017]一种网页信息抽取装置,包括:
[0018]初始化单元,用于获取预设的第一信息集合和第一正则表达式群;
[0019]第一信息检索单元,用于根据所述第一信息集合和第一正则表达式群在第一网页集合中检索到包含所述第一信息集合的所有网页并形成第二网页集合;
[0020]正则表达式生成单元,用于根据所述第二网页集合和所述第一信息集合形成第二正则表达式群,并将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群;
[0021 ] 信息抽取单元,用于根据所述第三正则表达式群进行网页信息抽取。
[0022]进一步地,优选的是,还设有表达式去重单元,用于在根据所述第三正则表达式群进行网页信息抽取之前,根据所述第三正则表达式群在所述第二网页集合中提取信息;
[0023]并进一步根据所述提取信息过滤掉错误的或者重合的正则表达式,并最终形成经过过滤后的第三正则表达式群。
[0024]本发明采取了上述方法以后,能够通过给定一个信息很小的值的集合,并成正则表达式群,并通过验证正则表达式群的准确性,以解决一类信息在所有网站上的数据抽取方法,可以节省目前海量的互联网网页中信息抽取大量人工参与的工作量。
[0025]本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
【专利附图】
【附图说明】
[0026]下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。其中,
[0027]图1是两个网页获取信息的示例示意图;
[0028]图2是互联网网页获取/[目息不例不意图;
[0029]图3是本发明实施例的网页信息抽取方法的流程示意图;
[0030]图4是本发明的一个实施例的数据抽取流程示意图;
[0031]图5是本发明一个实施例的正则表达群生成流程示意图;
[0032]图6是本发明一个实施例的正则表达式群验证流程示意图;
[0033]图7是本发明一个实施例的网页信息抽取装置的结构示意图。
【具体实施方式】
[0034]以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
[0035]另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0036]根据本发明的发明构思,本发明设计了一种解决互联网上所有网页中同一类型的信息获取方法,该方法其可以通过预设的第一信息集合和第一正则表达式群,并根据网页中的提取生成相应的正则表达式群。其中,示例来说,可以通过给定一小部分的歌曲名,然后通过自动生成正则表达式群可以从海量的互联网信息中抽取出所有的歌曲名。
[0037]理论上来说,一种类型的信息在不同的网站上表现形式不同但是所要描述的内容是相同的,同一个网站的同一类型的网页的结构是一致的。比如目前互联网上展示和音乐信息相关的网站是千万级别的,同一个网站的展示音乐信息的网页结构一般情况下是一致的,而网页结构完全相同的网站很少的,其中,假设信息的全集为S,定义与信息相关的网页的合集为W,对于两个集合所包括的信息量来说W > S,且任意兀素S属于S, S也属于W。
[0038]为此,定义正则表达式合集P = pi, p2,p2…pn,且能够使得W通过P的过滤得到信息合集S。比如S为全部的歌曲名集合,而展示歌曲名信息的网页集合为W,而任意一首歌曲名S则属于歌曲名集合S,我们的目标是通过正则表达式群P来从W中经过内容过滤得到歌曲名集合S。
[0039]并且,根据以上分析可知不同类型的网页会包含同一种信息,但是他们在不同的网站上表达方式是不同的,比如在音乐领域,互联网上有很多的包含音乐信息网站、论坛等,他们不同的网站、论坛网页结构和表现形式一般是不相同的,但是他们包含了很多同种类型的信息,比如歌曲名、歌手名、专辑等信息,我们可以将歌曲名作为一种信息。
[0040]例如,对于一种信息(如歌曲名),对于同一类型的网页(记为urlpatternl),我们可以通过正则表达式来(prefixl info suffixl)表示,我们把记录下来值的合集记为VI。对于不同类型的网页(urlpattern2),他们有不同的正则表达式(prefix2 infosuffix2),记这个网站的值合集V2。
[0041]从理论上讲,因为他们只是以不同的网页形式,描述了同一样东西,理论上来说,Vl应该和V2的值描述的信息是基本一致的,如图1所示。
[0042]为此,以此类推如果存在η种不同类型网页,则应存在小于等于η种值的集合,存在小于等于η个正则表达式,如图2所示。
[0043]因此,我们可以基于以上的理论思路,给定一种类型信息的部分集合(比如10到100的样本量),记为Ssub,我们可以通过网页合集W,来得到信息合集S’,比如我们给定100首歌曲名作为Ssub,则通过下述流程,我们可以从音乐网页合集中从抽取出15万首的歌曲名集合S’,进而能够达到基于正则表达式全面提取信息的效果。
[0044]具体来说,如图3所示,根据本发明实施例,本发明所述的网页信息抽取方法,包括下列步骤:
[0045]步骤101:获取预设的第一信息集合和第一正则表达式群;
[0046]步骤102:根据所述第一信息集合和第一正则表达式群在第一网页集合中检索到包含所述第一信息集合的所有网页并形成第二网页集合;
[0047]步骤103:根据所述第二网页集合和所述第一信息集合生成第二正则表达式群,并将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群;
[0048]步骤106:根据所述第三正则表达式群进行信息抽取。
[0049]其中,在步骤106之前,还可以包括对第三正则表达式群的准确性验证和去重,为此,其还可以进一步包括:
[0050]步骤105:根据步骤103中的所述第三正则表达式群在所述第二网页集合中提取信息;步骤105:根据所述提取信息过滤掉错误的或者重合的正则表达式,并最终形成经过过滤后的第三正则表达式群。
[0051]此时,所述步骤106中,进一步包括:
[0052]根据所述最终经过过滤的第三正则表达式群进行网页信息抽取,由于经过步骤104和105中的正则表达式去重或去错,从而保证了最终该正则表达式群的精确性和全面性。
[0053]其中,进一步的实施例中,所述步骤103以后,将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群之后,还包括:
[0054]利用所述第三正则表达式群在所述第一网页集合中检索形成第二信息集合,并比
对第一信息集合和第二信息集合;
[0055]其中,当所述第一信息集合和第二信息集合中的信息不相同时,则重复所述步骤102和103,直至所述第一信息集合和第二信息集合中相同,并据此确定最终的第三正则表达式群,由此达到正则表达式的精确性和全面性。
[0056]其中,对上述步骤103中的根据所述第二网页集合和所述第一信息集合形成第二正则表达式群进行详细说明。根据本发明一个具体实施例,该方法具体包括:获取第一信息集合中的任一设定信息元素;
[0057]找到所述第二网页集合中的网页中所述设定信息元素的位置;
[0058]向前和向后回溯,找到所述设定信息元素的网页标签及描述信息,并预先定义正则表达式的样式生成所述第一信息集合的正则表达式群。
[0059]其中,为了实现上述方法,本发明在上述步骤之前,还包括:
[0060]预先定义正则表达式的样式P = prefix info suffix, prefix和suffix为正则表达式的前缀和后缀,具体值为网页标签集合中某一个信息元素及描述信息;
[0061]其中,其中info内容通过数字、字母、特殊符号、汉字表示,prefix和suffix通过页标签集合表示。
[0062]本发明采取了上述方法以后,能够通过给定一个信息很小的值的集合,并成正则表达式群,并通过验证正则表达式群的准确性,以解决一类信息在所有网站上的数据抽取方法,可以节省目前海量的互联网网页中信息抽取大量人工参与的工作量。
[0063]下面结合具体实施例对本发明的上述方法进行详细说明,其中,如图4,5,6,7所示,在一个实施例中,本发明提供了一种方法,通过该方法,能够得到正则表达式群P,并进一步地,通过P能最大限度的获取网页合集W中的S信息,该方法的数据提取/抽取的过程如图4所示:
[0064]I)给定信息S的子集Ssub,Ssub的元素为可枚举的;[0065]2)初始化正则表达式合集P ;
[0066]3)从网页合集W中,找到含有Ssub中元素的网页W’ ;
[0067]4)根据所述子集Ssub以及网页W’重新生成信息pattern集合,假设为P’,并且,使得 W,= > Ssub ;
[0068]5)把 pattern 合集 P’ 加入 pattern 合集 P,此时 P = P U P’
[0069]6)通过pattern合集P,反过来匹配网页合集W中的所有网页,记得到的结果为Ssubj ο
[0070]7)其中,如果 Ssub = = Ssub’ 则算法结束,如果 Ssub’ > Susb 则 Ssub = Ssubj,转入步骤3)。
[0071]根据上述方法,本流程能够通过该抽取过程可以将网页集合W中的给定样本值的同一类信息抽取出来。
[0072]其中,以下结合实施例对本发明中,如上述步骤4)根据所述子集Ssub以及网页W’重新生成信息pattern集合,假设为P’的具体方法进行说明,如图5所示,其中,具体来说,正则表达式是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串,通常被用来检索那些符合某个模式的文本内容。比如一个正则表达式可以描述一个音乐歌曲名信息的字符串,通过该正则表达式可以匹配出歌曲名。
[0073]本实施例在该步骤中,主要包括下列的子步骤:
[0074]第一、定义信息兀素集合和正则表达式样式,根据信息兀素集合和正则表达式样式所述自动生成一个网页w上值集合Ssub的正则表达式群,该步骤主要包括:
[0075]I)定义正则表达式的样式P = prefix info suffix。其中prefix和suffix为正则表达式的前缀和后缀,具体值为网页标签集合中某一个元素及描述信息,描述信息和Info范围是一致的。
[0076]其中,Info为包含Ssub的某一个值的两个网页标签之内的字符串,其范围包括数字、字母、特殊符号、汉字集合,描述如下。
[0077]2)用以下集合作为正则表达式的组成元素:
[0078](I)数字集合 NumberSet ;
[0079](2)字母集合 EnglishSet ;
[0080](3)特殊符号集合 SpecialSet ;
[0081](4)汉字集合 ChineseSet ;
[0082](5)网页标签集合MetaSet ;
[0083]其中info内容通过(1)-(4)表示,prefix和suffix通过(1)-(5)表示。
[0084]基于上述定义对某一个具体的网页W,信息值为集合Ssub,生成正则表达式群过程如下,主要包括:
[0085](I)遍历集合Ssub,找到某一元素s ;
[0086](2)找到网页w中s的位置;
[0087](3)向前回溯,找到第一个网页标签及描述信息,记为prefix,并按照按照2)中描述的(1)-(5)中集合表述出来;
[0088](4)向后回溯,找到第一个网页标签及描述信息,记为suffix,并按照按照2)中描述的(1)-(5)中集合表述出来;;[0089](5)顺序扫描把中间的内容info按照2)中描述的(1)-(4)中集合表述出来;
[0090](6)生成s在网页w上所描述正则集合,由于info是通过四种集合描述的再遍历的过程中可以通过合并等方式生成不同的正则表达式,比如数字和字母可以合并,这些是正则的常用技术,在这里不再描述。
[0091](7)生成Ssub在网页w上的正则表达集合,将该正则表达式群记录为T = pi,p2...pn,其中,以上的具体流程图见图4所示。
[0092]为了详细说明上述提取过程,以一个包含歌曲名的网页文本为例进行描述该流程:假设一个网页上包含歌曲名的文本序列为:
[0093]SI = “〈span id=" dvCurrTrk" > 忘情水〈/span〉,,
[0094]S2 = “〈a href = " " target = " _blank" > 忘情水〈/a>”
[0095]S3 = “〈title〉忘情水〈/title〉”
[0096]则生成的正则表达式群为:
[0097]Pl = “<span\\sid = " dvCurrTrk;/ > (.*)〈/span〉,,
[0098]P2 = “<a\\shref = " " \\starget = " _blank" >(.*)〈/a>”
[0099]P3 = “〈title〉(.*)〈/title〉”
[0100]其中,经过上述过程中生成的正则表达式群中包含了很多的不合格的正则表达式,如P3由于过于简单会提取出很多的非歌曲名信息出来,因此,在正则表达式验证的时候会被过滤掉,为此,本实施例在具体实现的过程中,还需要进行正则表达式群验证和过滤过程,其验证和过滤过程的主要目的在于对生成的正则表达式群中的每个正则表达是否会提取出噪音信息,如果提取出噪音信息则会被过滤掉,比如生成的提取歌曲名的正则表达式群如果某个正则表达式提取出非歌曲名信息,则说明该正则表达式是有问题的,会被过滤掉。
[0101]并且,在另一种情形中,如果一些正则表达式提取出的结果集完全一样,则最终留一个即可,从而达到对正则表达式简化的技术效果。
[0102]具体在一个实施例中,本发明还包括正则表达式群去重或者去掉错误的步骤,其中,如图5所示,对于网页合集r以及值合集Ssub,做如下过程:
[0103]1)遍历W’,对于每个网页,做正则表达式生成操作。
[0104]2)得到正则表达式合集Tt = Tl,T2…Tn
[0105]3)遍历Tt,得到一个正则表达式合集,遍历这个合集。
[0106]4)任意P e Tn,匹配W’,得到值的集合为S。
[0107]5)如果S-Ssub古Φ,舍弃该表达式(也就是说,去掉同时匹配其他内容的正则表达式);
[0108]6)如果S-Ssub = Φ,记录此正则表达式的S的个数Scount = S中元素个数;
[0109]7)遍历Tt,任意的Tn e Tt,如果Tn中正则表达式的个数大于I,选取Tn中Scount最大的那个,舍去其余的。(也就是说,同一个匹配的多个表达式,选取匹配最多的那个);
[0110]8)遍历Tt,对比其中任意两个Tn,如果正则表达式是一样的,则舍弃其中任意一个。(也就是说,去掉相同的正则表达式);
[0111]9)通过上述方法,获取到Ssub的所有的正则表达式群,即通过上述方法,得到返回剩下所有的正则表达式,记为P’ = pi,p2…pn,其中,上述方法主要如图5所示。[0112]其中,以下本发明的一个具体实例对上述方法进行详细说明,其中,本发明以从互联网上提出网页中歌曲名提取阐述数据的抽取过程。
[0113]I)定义歌曲样本集合100首歌曲,Ssub = {忘情水,传奇,我的未来不是梦…};
[0114]2)定义网页集合W:从网上抓取10000万个和音乐相关的网站网页约一亿个,包括主流的音乐网站:九天音乐、qq音乐、豆瓣音乐及主流音乐论坛:百度掌门人、清风音乐论坛等。
[0115]3)抽取过程描述如下:
[0116](I)根据正则表达式群生成流程,以九天音乐为例,生成的正则表达式群为T ={<span\\sid = " dvCurrTrk〃 > (.氺)</span>...};
[0117](2)提取过程如下:
[0118]由于这个过程是运行了很多次,在这里只描述第一次运行的结果,描述如下:a)从网页合集W中,找到含有Ssub中歌曲的网页集合W’中网页为5356个;b)生成的P’正则表达式个数为3584个。
[0119]c)反过来匹配网页合集W中的所有网页,记得到的结果为Ssub’元素个数为56114
首歌曲。
[0120]最终通过多次的运行后从网页集合w中提取出歌曲名约150000首,最终生成的正则表达式群元素个数910 0多个。
[0121]与最接近的现有技术相比,本申请有以下的技术优点:
[0122]1.本发明通过给定一个一类信息很小的值的集合,自动生成正则表达式群,并通过自动验证正则表达式群的准确性,以解决一类信息在所有网站上的数据抽取方法,数据抽取流程都是自动进行的,并且可以扩展到不同类型的网页上。
[0123]此外,根据本发明的上述发明构思,本发明还提供了一种信息抽取装置,主要通过上述步骤获取的最终的正则表达式群进行信息抽取/抽取。
[0124]如图7所示,所述信息抽取装置,主要包括:
[0125]初始化单元,用于获取预设的第一信息集合和第一正则表达式群;
[0126]信息检索单元,用于根据所述第一信息集合和第一正则表达式群在第一网页集合中检索到包含所述第一信息集合的所有网页并形成第二网页集合;
[0127]正则表达式生成单元,用于根据所述第二网页集合和所述第一信息集合形成第二正则表达式群,并将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群;
[0128]信息抽取单元,用于根据所述第三正则表达式群进行网页信息抽取。
[0129]其中,在该优选的实施例中,还设有表达式去重单元,用于在根据所述第三正则表达式群进行网页信息抽取之前,根据所述第三正则表达式群在所述第二网页集合中提取信息;
[0130]并进一步根据所述提取信息过滤掉错误的或者重合的正则表达式,并最终形成经过过滤后的第三正则表达式群。
[0131]其中,在该优选的实施例中,所述正则表达式生成单元,用于将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群之后,利用所述第三正则表达式群在所述第一网页集合中检索形成第二信息集合,并比对第一信息集合和第二信息集合;[0132]其中,当所述第一信息集合和第二信息集合中的信息不相同时,则所述信息检索单元和正则表达式生成单元重复进行表达式生成步骤,直至所述第一信息集合和第二信息集合中相同,并据此确定最终的第三正则表达式群。
[0133]其中,在该优选的实施例中,所述正则表达式生成单元,用于根据所述第二网页集合和所述第一信息集合形成第二正则表达式群,具体包括:获取第一信息集合中的任一设定信息元素;
[0134]找到所述第二网页集合中的网页中所述设定信息元素的位置;
[0135]向前和向后回溯,找到所述设定信息元素的网页标签及描述信息,并预先定义正则表达式的样式生成所述第一信息集合的正则表达式群。
[0136]其中,在该优选的实施例中,还包括:
[0137]表达式式样存储单元,用于存储预先定义正则表达式的样式P = prefixinfosuffix, prefix和suffix为正则表达式的前缀和后缀,具体值为网页标签集合中某一个信息元素及描述信息;
[0138]其中,其中info内容通过数字、字母、特殊符号、汉字表示,prefix和suffix通过页标签集合表示。
[0139]其中,本实施例具有前述任一发明实施例的优点,即本发明采取了上述方法以后,能够通过给定一个一类信息很小的值的集合,自动生成正则表达式群,并通过自动验证正则表达式群的准确性,以解决一类信息在所有网站上的数据抽取方法。可以节省目前海量的互联网网页中信息抽取大量人工参与的工作量,具有很好的自动化采集效果和优点。
[0140]需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
[0141]本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
[0142]而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0143]最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种网页信息抽取方法,其特征在于,包括: 1)获取预设的第一信息集合和第一正则表达式群; 2)根据所述第一信息集合和第一正则表达式群在第一网页集合中检索到包含所述第一信息集合的所有网页并形成第二网页集合; 3)根据所述第二网页集合和所述第一信息集合生成第二正则表达式群,并将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群; 4)根据所述第三正则表达式群进行网页信息抽取。
2.根据权利要求1所述的网页信息抽取方法,其特征在于,步骤4)中,根据所述第三正则表达式群进行网页信息抽取之前,还包括:根据所述第三正则表达式群在所述第二网页集合中提取信息; 根据所述提取信息过滤掉错误的或者重合的正则表达式,并最终形成经过过滤后的第三正则表达式群。
3.根据权利要求1或2所述的网页信息抽取方法,其特征在于,步骤3)中,将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群之后,还包括: 利用所述第三正则表达式群在所述第一网页集合中检索形成第二信息集合,并比对第一信息集合和第二信息集合; 其中,当所述第一信息集合和第二信息集合中的信息不相同时,则重复所述步骤2)和3),直至所述第一信息集合和第二信息集合中相同,并据此确定最终的第三正则表达式群。
4.根据权利要求1所述的网页信息抽取方法,其特征在于,步骤3)中,根据所述第二网页集合和所述第一信息集合形成第二正则表达式群,具体包括:获取第一信息集合中的任一设定信息兀素; 找到所述第二网页集合中的网页中所述设定信息元素的位置; 向前和向后回溯,找到所述设定信息元素的网页标签及描述信息,并预先定义正则表达式的样式生成所述第一信息集合的正则表达式群。
5.根据权利要求4所述的网页信息抽取方法,其特征在于,进一步包括,在步骤2)之前,还包括: 预先定义正则表达式的样式P = prefix info suffix, prefix和suffix为正则表达式的前缀和后缀,具体值为网页标签集合中某一个信息元素及描述信息; 其中,其中info内容通过数字、字母、特殊符号、汉字表示,prefix和suffix通过页标签集合表示。
6.一种网页信息抽取装置,其特征在于,包括: 初始化单元,用于获取预设的第一信息集合和第一正则表达式群; 信息检索单元,用于根据所述第一信息集合和第一正则表达式群在第一网页集合中检索到包含所述第一信息集合的所有网页并形成第二网页集合; 正则表达式生成单元,用于根据所述第二网页集合和所述第一信息集合形成第二正则表达式群,并将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群; 信息抽取单元,用于根据所述第三正则表达式群进行网页信息抽取。
7.根据权利要求1所述的网页信息抽取装置,其特征在于,还设有表达式去重单元,用于在根据所述第三正则表达式群进行网页信息抽取之前,根据所述第三正则表达式群在所述第二网页集合中提取信息; 并进一步根据所述提取信息过滤掉错误的或者重合的正则表达式,并最终形成经过过滤后的第三正则表达式群。
8.根据权利要求1或2所述的网页信息抽取装置,其特征在于,所述正则表达式生成单元,用于将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群之后,利用所述第三正则表达式群在所述第一网页集合中检索形成第二信息集合,并比对第一信息集合和第二信息集合; 其中,当所述第一信息集合和第二信息集合中的信息不相同时,则所述信息检索单元和正则表达式生成单元重复进行表达式生成步骤,直至所述第一信息集合和第二信息集合中相同,并据此确定最终的第三正则表达式群。
9.根据权利要求1所述的网页信息抽取装置,其特征在于,所述正则表达式生成单元,用于根据所述第二网页集合和所述第一信息集合形成第二正则表达式群,具体包括:获取第一信息集合中的任一设定信息兀素; 找到所述第二网页集合中的网页中所述设定信息元素的位置; 向前和向后回溯,找到所述设定信息元素的网页标签及描述信息,并预先定义正则表达式的样式生成所述第一信息集合的正则表达式群。
10.根据权利要求4所述的网页信息抽取装置,其特征在于,还包括: 表达式式样存储单元 ,用于存储预先定义正则表达式的样式P = prefix infosuffix,prefix和suffix为正则表达式的前缀和后缀,具体值为网页标签集合中某一个信息元素及描述信息; 其中,其中info内容通过数字、字母、特殊符号、汉字表示,prefix和suffix通过页标签集合表示。
【文档编号】G06F17/30GK103902578SQ201210579270
【公开日】2014年7月2日 申请日期:2012年12月27日 优先权日:2012年12月27日
【发明者】王全礼, 杨俊拯 申请人:中国移动通信集团四川有限公司