一种DeepWeb响应页面数据抽取方法

文档序号:6480977阅读:652来源:国知局

专利名称::一种DeepWeb响应页面数据抽取方法
技术领域
:本发明属于深层网络数据管理领域,特别涉及一种De印Web响应页面数据抽取方法。
背景技术
:随着Web的发展,Web上的信息呈爆炸式增长。Web按其所含信息的深度可分为SurfaceWeb和DeepWeb(深层网络)两大部分。SurfaceWeb是指可以通过超链接被传统的搜'索引擎索引到的页面的集合;而DeepWeb是指Web中不能被传统的搜索引擎索引到的那部分内容,只能通过在査询接口动态提交查询来访问Web中的内容。随着DeepWeb数据源数量的增加,其重要性日趋突现。因为这些数据源中蕴含了大量的高质量的结构化信息。然而,这些数据源只能通过其査询接口访问,最终返回一系列包含大量半结构化信息的Web页面,因此如何自动而准确地抽取这些高质量的结构化数据给人们提出了挑战。近年来,较为典型的方法有RoadRunner、MDR、MDRII、ViNTs、ViPER等。RoadRunner是一个包装器归纳系统,其方法是进一步发掘Html文档内在的特征,通过对比样本页面间的异同来生成抽取规则,并通过比较样本页面的标签结构来识别结构之间的不匹配。RoadRunner可以分析出模式中的可选属性和嵌套属性(可以在一条记录中重复出现多次属性),但其推导时间复杂性为指数级,抽取代价高。MDR和MDRII都是基于DOMTree结构特征,完成对多记录页面的抽取。它们实现的关键在于利用页面的嵌套结构和表现特征把査询结果从整个页面中分离出来,并精确地划分结果中的多个记录。MDR把标签树中节点的路径看作一个字符串,并使用字符串编辑距离从数据区中发现数据记录结点;MDRII是以树的结构信息代替标签字符串,可更准确地识别数据记录。该类方法适合于DOM结构简单的页面,对DOMTree结构复杂、数据区内噪声节点过多的结果页面不适合,并且不支持嵌套结构的数据。ViNTs和ViPER都是基于可视化特征的抽取方法。该类方法需要建立一个有效的可视化模型,模拟人眼对页面的识别过程。其识别效率低于直接分析页面文档的识别方法。当页面没有明显的视觉特征时,抽取精度会变得很低。
发明内容针对己有DeepWeb响应页面数据抽取方法的不足,本发明提供了一种De印Web响应页面数据抽取方法。本发明采用的技术方案是,包括以下步骤步骤(1)选取DeepWeb响应页面Page;在査询页面输入关键字Key,査询得到响应页面Page,响应页面Page是HTML语4法描述的字符串数组,用DOM解析工具(采用HTMLParser)将HTML字符串转化为DOM树结构,DOM树中的结点定义(N,Kn,Wn,Tn),其中N表示结点N,K。表示结点N包含关键字的个数,Wn表示结点N中包含关键字的孩子结点的个数,Tn表示结点N的文本内容,则DOM树结构描述为廳={〔dccrc;)降丽,(福,Ln>廳}其中,N为DOM树中的结点,CNJ为结点N的第i个孩子结点;步骤(2)抽取页面模板信息;对于响应页面的DOM树结构,找到包含关键字的孩子结点个数Wn最多的双亲结点P,保存该结点的绝对路径{^12,...^},绝对路径的起始结点为根结点root,则P结点可以表示为尸=P结点所有的孩子结点子树即为记录结点子树集。保存该结点的绝对路径,绝对路径的起始结点为根结点root;将记录结点DOM结构转化为带标记的token块序列,统计记录token块序列中非空结点最小深度,记为lownum,再将带标记的token块序列转化为带标记的token字符序列;用LCS算法处理任意两个记录的带标记的token字符序列,得到一个公共token字符序列;分隔并过滤公共token字符序列得到模板信息;首先找到包含关键字的孩子结点个数(即Wn信)最多的双亲结点,保存该结点的绝,对路径。绝对路径的起始结点为根结点root。若生成的绝对路径为{2,8,3},则记录结点的双亲结点为Cc4。,。1)记录结点DOM结构转化为带标记的token块序列,再将带标记的token块序列转化为带标记的token字符序列。带标记的token块序列结构为{(字符串,结点深度,块序列)};带标记的token字符序列结构为U字符,结点深度,块序列,字符序列))。记录结点DOM结构转化为带标记的token块序列过程是先根遍历记录结点,对每个结点作如下处理①标记结点深度;②标记结点序列号(流水号,从1开始)。(i)统计记录pken块序列中非空结点最小深度,记为lownum。带标记的token块序列转换为带标记的token字符序列过程是顺序读取每一token块序5列,对每个token块作如下处理①若token块的字串为空,将其删除,不做其它处理,否则按后面过程处理;②将每个token块分裂成字符token,每个字符都生成一个字符token;③保留其结点深度,结点序列号,增加一个字符序列号(流水号,从l开始)。2)应用LCS算法处理任意两个记录的带标记的token字符序列,得到一个公共tokfen字符序列。3)分隔并过滤公共token字符序列得到模板信息(锚文本)对公共token字符序列做如下处理①如果结点深度相同并且结点序列号相同并且字符序列号连续,进行合并,合并后的结点保留结点深度和结点序列号。②将不包含字符""的结点全部去掉,剩余的结点信息即为模板信息。步骤(3)数据抽取;根据绝对路径取得记录结点的双亲结点P,P下的每个记录结点子树的根结点即为记录的根结点,先根遍历每个记录的根结点,读取文本结点的内容Tn,得到一个记录的文本内容,即得到记录级数据;基于模板信息对token块进行切割,得到新的token块序列,设A为待切割的token块,B为模板信息,U为模板信息中token块集合,若A切割必需满足①35(5^且②A的内容必需完全包含B的内容,并且A的token块深度等于B的token块深度;1)获取记录级数据。根据绝对路径取得记录结点的双亲结点,该结点下的每个孩子结点即为记录的根结点,先根遍历每个记录的根结点,读取文本结点的内容,得到一个记翠的文本内容,即得到记录级数据。2)切割token块序列,基于模板信息对token块进行切割,得到新token块序列。设A为待切割token块,B为模板信息,U为模板信息中token块集合。若A切割必需满足:①35(5^C7)且②A的内容必需完全包含B的内容,并且A的token块深度等于B的token块深度。'如果A的内容完全包含B的内容,并且A的token块深度等于B的token块深度表示为(A的部分内容(Al)—B的内容(B)—A的部分内空(A2),token块深度),则切割规则为将(Al—B一A2,token块深度,块序号)切割为(Al,token块深度,块序号),(B—A2,token块深度,块序号)*两部分,"*"表示该结点被打上了模板信息标记B。步骤(4)token块合并;依据统计值lownum继续对token块进行合并,合并规则为(1)如果token块深度高于lownum,则将当前token块合并到下一token块中;(2)如果token块深度等于lownum时,并且下一token块深度大于lownum,则输出本token块内容;如果下一token块深度等于lownum,则当前token块合并到下一token块中;步骤(5)数据表格聚类,得到数据块级别数据;将标有相同模板标记的token块放入数据表格的同一列,其它无标记的token块依据择近原则填入相应的位置。其中择近原则表示其它无标记的token块同块序列号最近的带标记的token块放在一起。将标有相同模板标记的token块放入数据表格的同一列,其它无标记的token块依据择近原则(距离已填入的token块的距离即块间隔)填入相应的位置。这个数据表格中的内容即是数据块级别数据,而打上标记的信息就是其模式信息。'本发明的有益效果采用本发明的数据抽取方法,适用性强,精度高,效率得到大大提高。图l本发明的总体流程图;图2本发明的抽取页面模板信息流程图;图3本发明的数据抽取流程图。具体实施例方式本发明的一个实施例,采用知名的当当图书网站http:/7book.dangdang.com/做为数据源,在当当图书网站的高级搜索中的书名框中填入java,点击搜索返回一个结果页面,将这、个页面另存为java.html,贝Ujava.html为数据集。编码方式为gbk。由于java.html内容太大,为了便于书写,特将其内容进行删减,只保存了前6条记录。java.htol的原码如下<!DOCTYPEh加lPUBLIC"-/AV3C//DTDXHTML1.0Transitional//EN"'"http:〃www.w3.org/TR/xhtmll/DTD/xhtmU-transitional.dtd"><htmlxmlns="http:〃www3.org/1999/xhtmr><head><metahttp《quiv="Content-Type"content="text/htal;chaiset=gb2312"/xtitle〉当当图书搜索:java々titlex/head:xbody〉<divclass="list—rjist"><spanclass="list_r_list_book"xaname="link_prd_img"href='rd.aspid=9317290&clsid=01.49.01.11|01.54.06.06|01.54.26.00&key=java'target="_blank"ximgonload='D^awImilge(this);,src='http:〃img3.dangdang.com/images/9317290_mjpg'alt='Java编程思想(第4版)7></ax/span><h2><aname="link_prd_name"href='rd.aspid=9317290&clsid=01,49.01.11|01.54.06.06|01.54.26.00&key=java'target="—blank"xfontclass^'skcolorJjg、Java々fon。编程思想(第4版)</a></h2><h3>顾客评分<imgsrc='images/star_red.gif/><imgsrc='images/star_red.gif/><imgsrc='images/star—red.gif'/><imgsrc='images/star_red.gifZximgsrc='images/star_red2.gif/x/h3><h4class-"listjjistji4'作者(美)<ahref='search.aspxcategory=01&key2=%b0%a3%b£%cb°/。b6%fb'111=作者'>埃克尔</a>著,〈ahre,'search.aspxcategor5^01&key2-。/。b3。/。c2y。ea。/。bb。/oc5y。f4'name^作者'〉陈昊鹏々P译</14><114>出版社《ahref^search.aspxcategorj^01&key3J/。bb。/。fa。/。d0o/。b5。/ob9。/。a4。/。d2。/。b5。/。b3o/。伤。/。b0。/oe6。/。c9。/oe7'name—出版社'>机械工业出版社</3></114><*4>出版时间2007年06月</114><115>本书赢得了全球程序员的广泛赞誉,即使是最晦涩的概念,在BruceEckd的文字亲和力和小而直接的编程示例面前也会化解于无形,从《ontclass^'skcolor—ljg,Java々fonP的基础语法到最高级特性(深入的面向对象概念、多线程、自动项目构建、单元...<*5><divclass-"clear"></div><h6xspanclass="dd">Y108.00</span><spanclass="red">Y81.00</span>折扣75折节省Y27.00</h6><spanclass="list_r—list—button"xaname='link_sale'href=*javascript:AddToShoppingCart(9317290)'onclick="returns('9317290','or,'java',this.href)"ximgsrc-'images/buttomjoumai.gifonmouseover='this.src="images/buttom_goumai_over,gif"onmouseout='this.src="images^uttom_goumai,gif"onmousedown='this.src="images/buttoni_goumai_click.gif"title-'购买'/x/ax7span〉<spanclass="list—r—list_button"><aname="link_favorlist"id="addto_favorlist—93172901'hrfjavascript:showMsgBox('addto一favoi:list一9317290V9317290','http:〃customer.dangd如g.com/wishlist/reniote—addtofavorlist.aspO"xiingsrc="images/buttom_zancun.gironmouseover='this.src="images/buttom__zancun—over.gif"onmouseout='thissrc="images/buttom—zancun.gif"omnousedown='this.src="images/buttom_zancun—click.gif"title^'放入暂存架"alt^"放入暂存架"/x/ax/sp朋〉</div><divclass="clear"></div><divcass="list_r—list"><spanclass="list—rjist一book"xaname="link_prd」mg"href='rd.aspid=20285763&clsid=01.54.06.06&key=java'target="_blank"ximgonload='DrawImage(this);,src-'http:〃img3.d加gdang.comyimages/20285763—m.jpg'alt='Java核心技术巻I基础知识7></a></span><h2xaname="link_prd—name"href='rd.aspid=20285763&clsid=01.54.06.06&key=java,target="_blank"><fontclass-"skcolor—ljg"〉Java〈/fonP核心技术巻I基础知识</&></h2><h3>顾客评分<imgsrc='images/star_red.gif/><imgsrc='images/star_red.gif/><imgsrc='images/star_red.gif/><imgsrc='images/star—red.gif/ximgsrc=,images/star_red2.gif/></h3><h4class-"lisLrJistJi4"〉作者(美)<ahref="search.aspxcategory=01&key2=%ea%bb%cb%b9%cc%d8%c2%fc'n肌e-'作者V昊斯特曼</a>著,<ahref='search.aspxcategory=01&key2=%d2%b6%c4%cb%ce%c4'name='作者,>叶乃文</a>,<ahref='search.aspxcategory=0I&key2=%da%f7。/。be。/。a2%f3%de'name-1作者'〉/U劲筠</a>,<ahre^'search.aspxcategon^01&key2-y。b6o/oc5o/od3o/oc0o/。c6y。bc'name-'作者5杜永萍々^译</114>〈h4〉出版社〈ahre^'search.aspxcategory^l&key3-o/。bbo/。fan/。dOo/。b5。/。b9。/。a4o/。d2o/Db5o/ob3o/of6o/。bOD/oe6。/oc9。/oe7'name^出版社'>机械1:业出版社</3></114><114>出版时间2008年06月</114><h5>《<fontclass一'skcolor—ljg""ava々fon^核心技术》出版以来一直畅销不衰,深受读者青睐,每个新版本都尽可能快地跟上<fontclass="skcolorJjg">Java</font>开发工具箱发展的步伐,而且每一版都重新改写了部分内容,以便适应<fontcla5S^skcok)rJjg""ava々fon^的最新特性。本版也不例外,它反映了4ontclass-"skcolorJjg'、Java〈/fonPSE6的...</115><divdass="clear"></div><h6><spanclass="der>Y98.0D</span><spanclass="red"〉Y73.50</span>折扣75折节省Y24.50</h6><spanclass="list—r—list—button"><aname='linksale'href^'javascript:AddToShoppingCart(20285763)'onclick="returns('20285763','0r,'java',this.href)"ximgsrcJimagesZbuttom_goumai.gifonmouseover='this.src="images/buttom_goumai—over.gif"onmouseout='this,src="images/buttom__goumai.gif"'onmousedown='this.src="images/buttom_goumai-Click:.gif"title-'购买'/></ax/span><spanclass="list—r」ist_button"xaname="link—favorlist"id="addto_favorlist_20285763"href^"javascript:showMsgBox('addto一favorlisL20285763','20285763',lUtp:〃custonierdangdang.com/wishlist/remote一addtofavorlist.aspx')"ximgsrc="images/buttom_zancun,gif'onmouseover='this.src="images/buttom_zancun—over.gif"onmouseout='this.src="images/buttom_zancun.gif"onmousedown='this.src="images/buttom_zancun_click.gif"title:"放入暂存架"alf放入暂存架"/x/ax/span〉</div><divclass="clear"x/diY><divclass="list_r—Ust"><spanclass="list—r_list_book"><aname="link_prd_img"href='rd.aspid=8889911&dsid=01.54.06.06&key=java'target="—blank"ximgonload='DrawImage(this);'src='http:〃img3.dangdang.com/images/888991l一m.jpg'alH精通Struts:基于MVC的JavaWeb设计与开发(附光盘)7x/a></span><h2><aname="link_prd_nanie"href^'rd.aspid=8889911&clsid=01,5《06.06&key=java'largef'J)lank"〉精通Struts:基于MVC的〈fontclass一'skcolorJjg'^Java々fon^Web设计与开发(附光盘)</a></h2><h3>顾客评分<imgsrc="images/star—red.gif/><imgsrc='images/star—red.gif/><imgsrc='images/star_red.gif/><imgsrc='images/star_red.gif/><imgsrc='images/star__red2.gif/></h3><h4dass="list_r」ist—h4'、作者<ahref='searcri.aspxcategorj-0'&fcey2=%cb%ef%ce%c0%c7%d9'name-'作者'〉孙卫琴々a^编著</114><14>出版杜<3hre^'search,aspxcategory^01&key3J/ob5o/oe7o/od7o/od3o/ob9o/oa4o/od2o/ob5o/ob3。/o伤o/obOo/oe6o/oc9o/oe7'nameJ出版社'〉电子工业出版社</3></114><114>出版时间2004年08月</14>",<h5>Struts是目前非常流行的基于MVC的〈fontclassJ'skcolorJjg'、Java々fon^Web框架。本书详细介绍了在最新的Strutsl.l通过;个Struts应用实例,3|...</h5>^、、''<divclass="clear"></div><h6xspanclass="dd">Y49.00</span><spanclass=Ved">Y36.80</span>折扣'.75折节省Y12.20</h6><spanclass^"listr一list一button"xaname—link—sale'href='javascript:AddToShoppingCart(8889911)'onclick="retums('88899ir,'(UVjava',this.href)"ximgsrc='images/buttom_goumai.gifonmouseover=='this.src="images/buttom_goumai__over,gir'ornnouseout^'this.src-"images/buttomjoumai.gif"'onmousedown='this.src="images/buttom_goumai_click.gif"title一购买'/x/ax/sp加〉<spanclass="list—r」ist一button"xaname="link—favorlist"id="addto_favorlist_88899irhref="javascript:showMsgBox('addto—favorlist—8889911','88899ir,Tittp:〃cLiStomer.dangdang.com/wishlist/rernoteaddtofavorlist.aspx')"ximgsrc="images/buttom—zancun,gif'onmouseoveF'this.src-"images/bu加m—zancunover.gif"onmouseout^'this.srcyimages/buttom—zancun.gif"onmousedown='this.src="iinages/buttotti_zancun—click.gir'title^"放入暂存架"al,"放入暂存架7x/ax/sp如〉</div><divclass="clear"></div><divclass="list_r—list"><spanclass="list_r_list—book"xaname="Hnk_prd_img"href^'rd,aspid=9I86^0&clsid=01.54.06,06&key^java'target="_blank"ximgonload='DrawImage(this);'src-"http:〃img3.dangdang.com/itnages/9186890一m,jpg'a!t='JAVA面向对象编程'/x/ax/span〉<h2><aname="link:_prd—name"href^rd.aspid-9186890&clsid-01.54.06.06&key-java'target="_blank"xfomclass-"skcolor」jg""AVA〈/fon^面向对象编程</8></h2><h3>顾客i平分<imgsrc='images/star_red.gif/ximgsrc='images/star—red.gif/><imgsrc='images/star_red.gif/><itngsrdmages/star—red.gif/><imgsrc='images/star—red2.gif/></h3><h4class="list—r—list—h4'、作者<ahref='search.aspxcategory=01&key2=%cb%ef%ce%c0%c7%d9'name^作者孙卫琴〈/^编著</114><14>出版社<ahre^'search.aspxcalegory=01&key3=%b5%e7%d7%d3%b9%a4%d2%b5%b3%f6%b0%e6%c9%e7'name='出版社'>电子工业出版社</0></114><(14>出版时间2006年07月<*4;><1!5>本书内容由浅入深,紧密结合实际,利用大量典型实例,详细讲解〈fomclass—skcolor一ljg""ava々font〉面向对象的编程思想、编程语法和设'计模式,介绍常见《ontclass="skcobr—ljg'、Java々fot^类库的用法,总结优化《ontclass一'skcolorJjg'、Java々for^编程的各种宝贵经验,深入阐述《ontclass="skcolor—1jg^Java々fon^虚拟机执行〈fontclass="skcolor—ljg"习ava々font〉程序的原理…々h5〉i<divclass="clear"></div><h6><spanc,ass="der>Y65.80</span><spanclass="red">Y49.35々span>折扣75折节省¥16,45</h6><spanclass="list_r—list一button"xaname='link_sale'href='javascript:AddToShoppingCart(9186890)'onclick="returns('9186S90','0r,'java',thishref)"ximgsrc-'hnages/buttom—goumaigifonmouseover='this.si"c="images/buttom_goumai_over.gif''011!1101156011!='11^3.51"0=、013经63/(311优0111^011!110;.^^"0111110113€<10\¥11='11^5.51^=、11^经65/()11110111_^0110131一(;1^1(:.§1^"'title二'购买'/x/a></span><spanclass="list—r_list_button"><aname="link_favorlist"id="addto_favorlist_9186890"href="javascript:showMsgBox('addto—favorlist一9186890','9186890','http:〃customer.dangd旭g.comy沐ishlist/renK)te-addtofavorlistaspx')"xinigsrc="images/buttom—zancun甲gif'onmouseover='this.src="images/buttom一zancun一over.gif"'onmouseout='this■src="images/buttom—zancun.gif"onmousedown='this.src="images/buttom_zancun_click.gif"title-"放入暂存架"alt^"放入暂存架"/x/ax/sp加〉</div><divclass="clear"x/div><divdass="list_rjisr><span'class="list—rjist一book"xaname="Unk_prd_img"hrefrd.aspid=20007297&clsidKll.54.06.06&key=java'target^"—blank"><imgonload='DrawImage(this);'src='http:〃img3.dangdang,com/images/20007297—m.jpg'alfJava程序员面试宝典'/x/^f/span〉<h2><aname="linlc_pr<l—name"href='rd.aspid=20007297&clsid=01.54.06.06&key=java'targe护"—blank"xfontclass-"skcolorJjg""ava々fon^程序员面试宝典</3></h2><h3>顾客评分<imgsrc^"images/star一red.gif/><imgsrc='images/star—red.gif/><imgsrc='images/star_red.gif/><imgsrc='images/starred.gif/ximgsrc='images/stai^gray.gif/></h3><h4class="list_r_Jist_h4";^$者<ahref='search.aspxcategory=01&key2=%c5%b7°/ocl%a2%c6°/。e6'n咖e-'作者'〉欧立奇々&,<ahref='search.aspxcategory=01&key2-%d6%ec%c3%b7'11咖£='作者'>朱梅</3>,<ahref='search.aspxcategory=01&key2=%b6%ce%e8%ba,1131^='作者,>段韬</3>编著</114><14>出版社<&href=lsearch.aspxcategory=01&key3=°/。b5%e7o/。d7%d3%b9%a4%d2%b5%b3%f6%b0%e6%c9%e7'name-'出版社'>电子工业出版社々ax/h4〉<114>出版时间2007年08月</114>1<15>本书是程序员面试宝典系列中的一部,也是上一本《程序员面试宝典》的姊妹丛书。本书对程序设计面试中《ontclass-"skcolorJjg'、Java々font^常见的题型和常用解答技巧进行了介绍,它不仅能帮助求职者快速复习有相关知识点,也对现代职业人如何<divclass="clear"x/div><h6><spanclass="der>Y46.00</span><spanclass="red">Y34.50</span>折扣75折节省Y11.50</h6><spanclass="list_r_listbutton"><aname='link_sale,href='javascript:AddToShoppingCart(20007297)'onclick="retums('20007297','0r,'java',this,href)"ximgsrc='images/buttom_goumai.gifonmoiiseover='this.src="images/buttom_goumai_cwer.gir'onmouseout='this.src="iniages/buttom_gouniai.gif"onmousedown='this.src="images/buttom^goumai_click:.gif"'title-'购买VxyaX/span〉<spanclass="list_r—list_button"Xaname="link_favoriist"id="addto_favorlist—20007297"hrefjavascript:showMsgBox('addto一favorlist_20007297V20007297','http:〃customer.dangdang.com/wishlist/rcmote_addtofavorlistaspx')"><imgsrc="images/buttom_zaneun.gironmouseover='this.src="images/buttom_zancun_over.gif"onmouseout='this.src="images/buttom_zancuagir'onmousedown='this.src="images/buttom—z肌cun—click.gif"title-"放入暂存架"al卜"放入暂存架"/x/ax/span〉</div><divclass-"clear"></div><divclass="list_r」ist"><spanclass-"list—r—list—book"xaname="link;_prd」mg"href='rd.aspid=9155128&clsid=01.54.06.06&ke》=java'target="_blank"ximgonload='Drawhnage(this);'src="http:〃img3.dangdang.com/images/9155128—m.jpg'alfJAVA2核心技术,巻II:高级特性(原书第7版)'Xax/span><h2xaname="link_prd—name"href='rd.aspid=9155128&clsid=01.54.06.06&key=java,target="—blank"xfontclass-"skcolorJjg"〉JAVA〈/font^核心技术,巻II:高级特性(原书第7版)</a></h2><h3>顾客评分<imgsrc='images/star_red.gif/><imgsrc='images/star—red.gif/><imgsrc='images/star—red.gif/><imgsrc='images/star_red.gif/><imgsrc-'images/star一red2.gif/></h3><h4class="list_r—listji4'、作者(美Xahre伊'search.aspxcategor^01&key2-o/obb。/。f4。/。cb。/ob9。/。cc。/od8。/oc2。/ofc'tiame-'作者^霍斯特曼</3>(<ahref^search.aspxcategory^01&key2-Hors加ami'n咖e-'f乍者'》Hors加amK/a^〈ahref^search.aspxcategon^K)l&key2-G.Sl'name=,作者,>C.S</a>.),(美)<ahref='search.aspxcategory=01&key2=%bf%c6%c4%ce%b6%fb'name—作者,>科奈尔</a>(<ahref^'search.aspxcategory=01&key2=Cornell'name-'作者'>Comell</a>,G)著;<ahref^search.aspxcategooH)l&key2-。/ob3。/oc2u/oea。/obb。/oc5。/of4'n咖e^作者'〉陈昊鹏々^等译</[)4>〈h4〉出版社〈ahre,'search.aspxcategory^01&key3^Tobb。/ofao/od0o/ob5Yob9。/oa4。/od2。/。b5。/ob3。/。伤。/ob0o/oe6。/oc9。/oe7'iiame^出版社、机械工业出版社々ax/h4〉-、<114>出版时间2006年03月</114>〈h5〉本书是〈fontclass="skcoorJjg">Java</font>2技术权威指南,全面覆盖〈fontclass="skcolor_ljg">Java</font>2技术的高级主题,包括多线程、集合框架、网络API、数据库编程、分布式对象等,深入探究了Swing、<fontclass="skcolor_ljg">Java<font>2DAPI、<fontclass="skcolor—ljg">Java</fom>ean、<fontclass="skcolor—ljg'、Java〈/fon^安全模式、XML、注释、元数据等主题,...</h5><divdass="clear"></div><h6><spanclass="der,>Y108.00</span><spanclass="red">Y81.00</span>折扣-.75折节省¥27.00</h6><spanclass="list—r一list一button"xaname-'link一saJe'hre,'javascript:AddToShoppingCart(9155128)'onclick="returnS('9155l28','0r,java',this.href)"ximgsrc='images/buttoni_goumai.gifonmouseover='this.src="images/buttom_goumai—over.gif"onmouseout='this.src="images/buttom_goumai,gif"'onmousedown='this.src="images/buttom_goumai—click.gif"title-'购买'/></a></span><spanclass="ist_r_list—burton"xaname="Iink_favorlist"id="addto—favorlist—9155128"10href^"javascript:showMsgBox('addto一favorlist一91551289155128Vhttp:〃customer.daiigdang.com/wishlist/remote一addtofavorlist.aspx')"ximgsrc-"images/buttom一zancun.gif'onmouseover='this.sre="images/buttom_zancun__over.gif"onmouseout='this.src="images/buttom_zancun.gif"'onmousedown='this.src="images/buttom_zancun—click.gif"title-"放入暂存架"al,"放入暂存架"/X/aX/sp加〉</div><divclass="clear"x/div></body></html>实施例的过程如下(1)定位记录,获得绝对位置。可以得到记录结点的绝对路径为{2}。注G^=<6o^>,结点body下的所有孩子结点都是记录结点子树。(2)抽取模板信息。①任取两个记录子树(第l条和第3条)转换为带标记的两个token块序列。token块序列l:H"",l,l),("",l,2),("Java",4,3),("编程思想(第4版)",3,4),("",2,5),("",1,6),("顾客评分",2,7),("",1,8),("作者(美)",2,9),("埃克尔",3,10),("著,",2,11),("陈昊鹏",3,12),("译",2,13),("",1,14),("出版社",2,15),("机械工业出版社",3,16),("",1,17),("出版时间2007年06月",2,18),("",1,19),("本书赢得了全球程序员的广泛赞誉,即使是最晦涩的概念,在BruceEckel的文字亲和力和小而直接的编程示例面前也会化解于无形。从",2,20),("Java",3,21),("的基础语法到最高级特性(深入的面向对象概念、多线程、自动项目构建、单元...",2,22),("",1,23),("",1,24),("Y108.00",3,25),("",2,26),("Y81.00",3,27),("折扣75折节省Y27.00",2,28),("",1,29),("",1,30),("",1,31)}token块序列2:K"",l,l),("",l,2),("精通Struts:基于MVC的",3,3),("Java",4,4),("Web设计与开发(附光盘)",3,5),("",2,6),("",1,7),("顾客评分:",2,8),("",1,9),("作者:",2,10),("孙卫琴",3,11),("著",2,12),("",1,13),("出版社",2,14),("电子工业出版社",3,15),("",1,16),("出版时间2004年08月",2,17),("",l,18),("Struts是目前非常流行的基于MVC的",2,19),("Java",3,20),("Web框架。本书详细介绍了在最新的Strutsl.l以及不久将推出的Strutsl.2版本上设计和开发",2,21),("Java",3,22),("Web应用的各种技术。本书第1章到第3章为入门篇,通过两个Struts应用实例,弓I…",2,23),("",1,24),("",1,25),("Y49.00",3,26),("",2,27),("Y36.80",3,28),("折扣75折节省Y12.20",2,29),("",l,30),("",l,31),("",1,32))②获得统计值lownumber:lownumber=2③将带标记的两个token块序列转换成带标记的token字符序列。token字符序列l-(("J",4,3,l),("a",4,3,2),('V',4,3,3),("a",4,3,4),("编",3,4,5),("程",3,4,6),("思",3,4,7),("想",3,4,8),("(",3,4,9),("第",3,4,10),("4",3,4,11),("版",3,4,12),(")",3,4,13),("顾",2,7,14),("客",2,7,15),("评",2,7,16),("分",2,7,17),(":",2,7,18),("作",2,9,19),("",2,9,20),("者",2,9,21),(":",2,9,22),("(",2,9,23),("美",2,9,24),(")",2,9,25),("埃",3,10,26),("克",3,10,27),("尔",3,10,28),("著",2,11,29),(",",2,11,30),("陈",3,12,31),("昊",3,12,32),("鹏",3,12,33),("译",2,13,34),("出",2,15,35),("版",2,15,36),("社",2,15,37),(":",2,15,38),("机",3,16,39),("械",3,16,40),("工",3,16,41),("业",3,16,42),("出",3,16,43),("版",3,16,44),("社",3,16,45),("出",2,18,46),("版,",2,18,47),("时",2,18,48),("间",2,18,49),(":",2,18,50),("2",2,18,51),("0",2,18,52),("0",2,18,53),('7",2,18,54),("年",2,18,55),("0",2,18,56),("6",2,18,57),("月",2,18,58),("本",2,20,59),("书",2,20,60),("赢",2,20,61),("得",2,20,62),("了",2,20,63),("全",2,20,64),("球",2,20,65),("程",2,20,66),("序",2,20,67),("员",2,20,68),("的",2,20,69),("广",2,20,70),("泛",2,20,71),("赞",2,20,72),("誉",2,20,73),(",",2,20,74),("即",2,20,75),("使",2,20,76),("是",2,20,77),("最",2,20,78),("晦",2,20,79),("泡",2,20,80),("的",2,20,81),("概",2,20,82),("念",2,20,83),(",",2,20,84),("在",2,20,85),("B",2,20,86),("r",2,20,87),("u",2,20,88),("c",2,20,89),("e",2,20,90),("",2,20,91),("E";2,20,92),("c",2,20,93),("k",2,20,94),("e",2,20,95),(T,2,20,96),("的",2,20,97),("文",2,20,98),("字",2,20,99),("亲",2,20,100),("和",2,20,1Ol),("力",2,20,102),("和",2,20,103),("小'",2,20,104),("而",2,20,105),("直",2,20,106),("接",2,20,107),("的",2,20,108),("编",2,20,109),("程",2,20,110),("示",2,20,111),("例",2,20,112),("面",2,20,113),("前",2,20,114),("也",2,20,115),("会",2,20,116),("化",2,20,117),("解",2,20,118),("于",2,20,119),("无",2,20,120),("形",2,20,121),("。",2,20,122),("从",2,20,123),("J",3,21,124),("a",3,21,125),(V',3,21,126),("a",3,21,127),("的",2,22,128),("基",2,22,129),("础",2,22,130),("语",2,22,131),("法",2,22,132),("到",2,22,133),("最",2,22,134),("高",2,22,135),("级",2,22,136),("特",2,22,137),("性",2,22,138),("(",2,22,139),("深",2,22,140),("入",2,22,141),("的",2,22,142),("面",2,22,143),("向",2,22,144),("对",2,22,145),("象",2,22,146),("概",2,22,147),("念",2,22,148),("、",2,22,149),("多",2,22,150),("线",2,22,151),("程",2,22,152),("、",2,22,153),("自",2,22,154),("动",2,22,155),("项",2,22,156),("目",2,22,157),("构",2,22,158),("建",2,22,159),("、",2,22,160),("单",2,22,161),("元",2,22,162),(".",2,22,163),(".",2,22,164),(".",2,22,165),("Y",3,25,166),(T,3,25,167),("0",3,25,168),("8",3,25,169),(".",3,25,170),("0",3,25,171),("0",3,25,m),("Y",3,27,173),("8",3,27,174),(T,3,27,175),(".",3,27,176),("0",3,27,177),("0",3,27,178),("折",2,28,179),("扣",2,28,180),(":",2,28,181),("7",2,28,182),("5",2,28,183),("折",2,28,184),("'",2,28,185),("节",2,28,186),("省",2,28,187),(":",2,28,188),("Y",2,28,189),("2",2,28,190),("7",2,28,191),(",",2,28,192),("0",2,28,193),("0",2,28,194)}token字符序列2:(("精",3,3,1),("通",3,3,2),("S",3,3,3),("t",3,3,4),("r",3,3,5),("u",3,3,6),("t",3,3,7),("s",3,3,8),(":",3,3,9),("基",3,3,10),("于",3,3,11),("M",3,3,12),("V",3,3,13),("C",3,3,14),("的",3,3,15),("J",4,4,16),("a",4,4,17),(V',4,4,18),("a",4,4,19),("W",3,5,20),(V',3,5,21),("b",3,5,22),("设",3,5,23),("计",3,5,24),("与",3,5,25),("开",3,5,26),("发",3,5,27),("(",3,5,28),("附",3,5,29),("光",3,5,30),("盘",3,5,31),(")",3,5,32),("顾",2,8,33),("客",2,8,34),("评",2,8,35),("分",2,8,36),(":",2,8,37),("作",2,10,38),("",2,10,39),("者",2,10,40),(":",2,10,41),("孙",3,11,42),("卫",3,11,43),("琴",3,11,44),("编",2,12,45),("著",2,12,46),("出",2,14,47),("版",2,14,48),("社",2,14,49),(":",2,14,50),("电",3,15,51),("子",3,15,52),("工",3,15,53),("业",3,15,54),("出",3,15,55),("版",3,15,56),("社",3,15,57),("出",2,17,58),("版",2,17,59),("时",2,17,60),("间",2,17,61),(":",2,17,62),("2";2,17,63),("0",2,17,64),("0",2,17,65),("4",2,17,66),("年",2,17,67),("0",2,17,68),("8",2,17,69),("月'",2,17,70),("S",2,19,71),("t",2,19,72),("r",2,19,73),(V',2,19,74),("t",2,19,75),("s",2,19,76),("是",2,19,77),("目",2,19,78),("前",2,19,79),("非",2,19,80),("常",2,19,81),("流",2,19,82),("行-",2,19,83),("的",2,19,84),("基",2,19,85),("于",2,19,86),("M",2,19,87),("V",2,19,88),("C",2,19,89),("的.",2,19,90),("J",3,20,91),("a",3,20,92),(V',3,20,93),("a",3,20,94),("W",2,21,95),("e",2,21,96),("b",2,21,97),("框",2,21,98),("架",2,21,99),("。",2,21,100),("本",2,21,101",2,21,102),("详",2,21,103),("细",2,21,104),("介",2,21,105),("绍",2,21,106),("了",2,21,107),("在",2,21,108),("最",2,21,109),("新",2,21,110),("的",2,21,lll),("S",2,21,112),("t",2,21,113),(V,2,21,114),(V',2,21,115),("t",2,21,116),("s',,2,21,117),("r,2,21,118),(".",2,21,119),("r,2,21,120),("以",2,21,121),("及",2,21,122),("不",2,2U23),("久",2,21,124),("将",2,21,125),("推",2,21,126),("出",2,21,127),("的",2,2U28^"S",2,21,129),("t",2,21,130),(V,2,21,13li,(V',2,21,132),("t",2,21,133),("s",2,21,134),('T',2,21,135),(".",2,21,136),("2",2,21,137),("版",2,21,138),("本",2,21,139),("上",2,21,140),("设",2,21,141),("计",2,21,142),("和",2,21,143),("开",2,21,144),("发'",2,21,145),(T,3,22,146),("a",3,22,147),("v",3,22,148),("a",3,22,149),("W",2,23,150),("e",2,23,151),("b",2,23,152),r应",2,23,153),("用",2,23,154),("的",2,23,155),("各",2,23,156),("禾中",2,23,157),("技",2,23,158),("术",2,23,159),("。",2,23,160),("本",2,23,161),("书",2,23,162),("第",2,23,163),("1",2,23,164),("章",2,23,165),("到",2,23,166),("第",2,23,167),("3",2,23,168),("章",2,23,169),("为",2,23,170),("入",2,23,171),("门",2,23,172),("篇",2,23,173),(",",2,23,174),("通",2,23,175),("过",2,23,176),("两",2,23,177),("个",2,23,178),("S",2,23,179),("t",2,23,180),("r",2,23,181),("u",2,23,182),("t",2,23,183),("s",2,23,184),("应",2,23,185),("用",2,23,186),("实",2,23,187),("例",2,23,188),(",",2,23,189),("弓1",2,23,190),(".",2,23,191),(".",2,23,192),(".",2,23,193),("Y",3,26,194),("4",3,26,195),("9",3,26,196),(".",3,26,197),("0",3,26,198),("0",3,26,199),("Y",3,28,200),("3",3,28,201),("6",3,28,202),(".",3,28,203),("8",3,28,204),("0",3,28,205),("折",2,29,206),("扣",2,29,207),("",2,29,208),("7",2,29,209),("5",2,29,210),("折",2,29,211),("",2,29,212),("节",2,29,213),("省",2,29,214),(":",2,29,215),("Y",2,29,216),("1",2,29,217),("2",2,29,218),(".",2,29,219),("2'1,2,29,220),("0",2,29,221)}④LCS算法得到最大不连续公共串(("J",4,3,l),("a",4,3,2),(V',4,3,3),("a",4,3,4),("(",3,4,5),(")",3,4,6),("顾",2,7,7),("客",2,7,8),("评",2,7,9),("分",2,7,10),(":",2,7,11),("作",2,9,12),("",2,9,13),("者",2,9,14),(":",2,9,15),("著",2,11,16),("出",2,15,17),("版",2,15,18),("社",2,15,19),(":",2,15,20),("工",3,16,21),("业",3,16,22),("出",3,16,23),("版",3,16,24),("社",3,16,25),("出",2,18,26),("版",2,18,27),("时",2,18,28),("间",2,18,29),(":",2,18,30),("2",2,18,31),("0",2,18,32),("0",2,18,33),("年",2,18,34),("0",2,18,35),("月",2,18,36),("本",2,20,37),("书",2,20,38),("了",2,20,39),("最",2,20,40),("的",2,20,41),(V,2,20,42),(V',2,20,43),("的",2,20,44),(".和",2,20,45),("J",3,21,46),("a",3,21,47),('V',3,21,48),("a",3,21,49),("的",2,22,50),("至!j",2,22,51),("入",2,22,52),(".",2,22,53),(".",2,22,54),('',2,22,55),("Y,",3,25,56),(".",3,25,57),("0",3,25,58),("0",3,25,59),("Y",3,27,60),("8",3,27,61),("0",3,27,62),("'折",2,28,63),("扣",2,28,64),(":",2,28,65),("7",2,28,66),("5",2,28,67),("折",2,28,68),("",2,28,69),("节",2,28,70),("省",2,28,71),("",2,28,72),("Y",2,28,73),("2",2,28,74),('V',2,28,75),("0",2,28,76》⑤分隔过滤公共串得到模板信息.templaeWord:Text-〉顾客评分AnodeDepth->2AnodeBlockNumber->3templaeWord:Text-〉作者AnodeDepth->2AnodeBlockNumber->4templaeWord:Text->出版社AnodeDepth->2AnodeBlockNumber->9templaeWord:Text國〉出版时间AnodeDepth->2AnodeBlockNumber->l1templaeWord:Text陽〉折扣AnodeDepth->2AnodeBlockNumber->l7templaeWord:Text扁〉节省AnodeDepth->2AnodeBlockNumber->17(4)抽取网页信息①抽取记录级的数据Java编程思想(第4版)顾客评分作者(美)埃克尔著,陈昊鹏译出版社'机械工业出版社出版时间2007年06月本书赢得了全球程序员的广泛赞誉,即使是最晦涩的概念,在BruceEckel的文字亲和力和小而直接的编程示例面前也会化解于无形。从Java的基础语法到最高级特性(深入的面向对象概念、多线程、自动项目构建、单元…Y108.00¥81.00折扣75折节省Y27.00Java核心技术巻I基础知识顾客评分作者(美)昊斯特曼著,叶乃文,邝劲筠,杜永萍译出版社机械工业出版社出版时间2008年06月《Java核心技术》出版以来一直畅销不衰,深受读者青睐,每个新版本都尽可能快地跟上Java开发工具箱发展的步伐,而且每一版都重新改写了部分内容,以便适应Java的最新特性。本版也不例外,它反映了JavaSE6的...¥98.00¥73.50折扣75折节省Y24.50精通Struts:基于MVC的JavaWeb设计与开发(附光盘)顾客评分作者孙卫琴编著出版社电子工业出版社出版时间2004年08月Struts是目前非常流行的基于MVC的JavaWeb框架。本书详细介绍了在最新的Strutsl.l以及不久将推出的Strutsl.2版本上设计和开发JavaWeb应用的各种技术。本书第1章到第3章为入门篇,通过两个Struts应用实例,引...¥49.00Y36.80折扣75折节省Y12.20'JAVA面向对象编程顾客评分作者孙卫琴编著出版社电子工业出版社出版时间2006年07月本书内容由浅入深,紧密结合实际,利用大量典型实例,详细讲解Java面向对象的编程思想、编程语法和设计模式,介绍常见Java类库的用法,总结优化Java编程的各种宝贵经验,深入阐述Java虚拟机执行Java程序的原理.,.Y65.80Y49.35折扣75折节省¥16.45Java程序员面试宝典顾客评分作者欧立奇,朱梅,段韬编著出版社电子工业出版社出版时间2007年08月本书是程序员面试宝典系列中的一部,也是上一本《程序员面试宝典》的姊妹丛书。本书对程序设计面试中Java常见的题型和常用解答技巧进行了介绍,它不仅能帮助求职者快速复习有相关知识点,也对现代职业人如何有...¥46.00Y34.50折扣75折节省Y11.50JAVA2核心技术,巻II:高级特性(原书第7版)顾客评分作者(美)霍斯特曼(Horstmann,C.S.),(美)科奈尔(Comell,G.)著;陈昊鹏等译出版社机械工业出版社出版时间2006年03月本书是Java2技术权威指南,全歯覆盖Java2技术的高级主题,包括多线程、集合框架、网络API、数据库编程、分布式对象等,深入探究了Swing、Java2DAPI、Javaean、Java安全模式、XML、注释、元数据等主题,...Y108.00Y81.00折扣75折节省Y27.00②标记模式后的结点信息絲#scheme:null#value:Java编程思想(第4版)$$测试位置3弁schema:顾客评分#value:$$测试位置7弁schema:作者#value:(美)埃克尔著,陈昊鹏译$$测试位置9弁schema:出版社#value:机械工业出版社$$测试位置15弁schema:出版时间#value:2007年06月$$测试位置18#schema:null#value:本书赢得了全球程序员的广泛赞誉,即使是最晦涩的概念,在BruceEckel的文字亲和力和小而直接的编程示例面前也会化解于无形。从Java的基础语法到最高级特性(深入的面向对象概念、多线程、自动项目构建、'单元...$$测试位置20#schema:null#value:Y108.00Y81.00$$测试位置25弁schema:折扣#value:75折$$测试位置28弁schema:节省#value:Y27.00$$测试位置28###schema:null#value:Java核心技术巻I基础知识$$测试位置3存schema:顾客评分#value:$$测试位置7弁schema:作者#value:(美)昊斯特曼著,叶乃文,邝劲筠,杜永萍译$$测试位置9-弁schema:出版社#value:机械工业出版社$$测试位置19存schema:出版时间#value:2008年06月$$测试位置22#schema:null#value:《Java核心技术》出版以来一直畅销不衰,深受读者青睐,每个新版本都尽可能快地跟上Java开发工具箱发展的步伐,而且每一版都重新改写了部分内容,以便适应Java的最新特性。本版也不例外,它反映了JavaS.E6的...$$测试位置24弁schema:null弁value:Y98.00¥73.50$$测试位置35弁schema:折扣#value:75折$$测试位置38弁schema:节省#value:Y24.50$$测试位置38##"#schema:null#value:精通S加ts:基于MVC的JavaWeb设计与开发(附光盘)$$测试位置3弁schema:顾客评分#value:$$测试位置8弁schema:作者#value:孙卫琴编著$$测试位置10弁schema:出版社#value:电子工业出版社$$测试位置14弁schema:出版时间#value:2004年08月$$测试位置17#schema:null#value:Struts是目前非常流行的基于MVC的JavaWeb框架。本书详细介绍了在最新的Strutsl.l以及不久将推出的Strutsl.2版本上设计和开发JavaWeb应用的各种技术。本书第1章到第3章为入门篇,通过两个Struts应用实例,引...$$测试位置19#schema:null#value:Y49.00Y36.80$$测试位置26弁schema:折扣#value:75折$$测试位置29弁schema:节省#value:Y12.20$$测试位置29###schema:null#value:JAVA面向对象编程$$测试位置3弁schema:顾客评分#value:$$测试位置7'弁schema:作者#value:孙卫琴编著$$测试位置9弁schema:出版社#value:电子工业出版社$$测试位置13弁schema:出版时间#value:2006年07月$$测试位置16#schema:null#value沐书内容由浅入深,紧密结合实际,利用大量典型实例,详细讲解Java面向对象的编程思想、编程语法和设计模式,介绍常见Java类库的用法,总结优化Java编程的各种宝贵经验,深入阐述Java虚拟机执行Java程序的原理...$$测试位置18#schema:null#value:Y65.80Y49.35$$测试位置31弁schema:折扣#value:75折$$测试位置34弁schema:节省#value:¥16.45$$测试位置34絲#schema:null#value:Java程序员面试宝典$$测试位置3弁schema:顾客评分#value:$$测试位置7弁schema:作者#value:欧立奇,朱梅,段韬编著$$测试位置9存schema:出版社#value:电子工业出版社$$测试位置17'弁schema:出版时间#value:2007年08月$$测试位置20#schema:null#value:本书是程序员面试宝典系列中的一部,也是上一本《程序员面试宝典》的姊妹丛书。本书对程序设计面试中Java常见的题型和常用解答技巧进行了介绍,它不仅能帮助求职者快速复习有相关知识点,也对现代职业人如何有...$$测试位置22#schema:null#value:Y46.00Y34.50$$测试位置27存schema:折扣#value:75折$$测试位置30fechema:节省#value:Y11.50$$测试位置30絲#schema:null#value:JAVA2核心技术,巻II:高级特性(原书第7版)$$测试位置3弁schema:顾客评分#value:$$测试位置7存schema:作者#value:(美)霍斯特曼(Horstmann,C.S.),(美)科奈尔(Comell,G.)著陈昊鹏等译$$测试位置9存schema:tli版社#value:机械工业出版社$$测试位置2315弁schema:出版时间#value:2006年03月$$测试位置26#schema:null#value:本书是Java2技术权威指南,全面覆盖Java2技术的高级主题,包括:多线程、集合框架、网络API、数据库编程、分布式对象等,深入探究了Swing、Java2DAPI、Javaean、Java安全模式、XML、注释、元数据等主题,...$$测试位置28#schema:null#value:Y108.00Y81.00$$测试位置41弁schema:折扣#value:75折$$测试位置44存schema:节省#value:Y27.00$$测试位置44(5)数据集成<table>tableseeoriginaldocumentpage16</column></row><table>权利要求1、一种DeepWeb响应页面数据抽取方法,其特征是该方法包括以下步骤步骤(1)选取DeepWeb响应页面Page在查询页面输入关键字Key,查询得到响应页面Page,响应页面Page是HTML语法描述的字符串数组,用DOM解析工具将HTML字符串转化为DOM树结构,DOM树中的结点定义(N,Kn,Wn,Tn),其中N表示结点N,Kn表示结点N包含关键字的个数,Wn表示结点N中包含关键字的孩子结点的个数,Tn表示结点N的文本内容,则DOM树结构描述为<mathsid="math0001"num="0001"><math><![CDATA[<mrow><mi>DOM</mi><mo>=</mo><mo>{</mo><mo>(</mo><msubsup><mi>C</mi><mi>N</mi><mi>i</mi></msubsup><mo>,</mo><msub><mi>K</mi><msubsup><mi>C</mi><mi>N</mi><mi>i</mi></msubsup></msub><mo>,</mo><msub><mi>W</mi><msubsup><mi>C</mi><mi>N</mi><mi>i</mi></msubsup></msub><mo>,</mo><msub><mi>T</mi><msubsup><mi>C</mi><mi>N</mi><mi>i</mi></msubsup></msub><mo>)</mo><mo>|</mo><mo>&ForAll;</mo><mi>N</mi><mo>&Element;</mo><mi>DOM</mi><mo>,</mo><mo>(</mo><mi>root</mi><mo>,</mo><msub><mi>K</mi><mi>root</mi></msub><mo>,</mo><msub><mi>W</mi><mi>root</mi></msub><mo>,</mo><msub><mi>T</mi><mi>root</mi></msub><mo>)</mo><mo>&Element;</mo><mi>DOM</mi><mo>}</mo></mrow>]]></math></maths>其中,N为DOM树中的结点,CNi为结点N的第i个孩子结点;步骤(2)抽取页面模板信息;对于响应页面的DOM树结构,找到包含关键字的孩子结点个数Wn最多的双亲结点P,保存该结点的绝对路径{i1,i2,...,in},绝对路径的起始结点为根结点root,则P结点可以表示为<mathsid="math0002"num="0002"><math><![CDATA[<mrow><mi>P</mi><mo>=</mo><msubsup><mi>C</mi><msubsup><mi>C</mi><msubsup><mi>C</mi><msubsup><mi>C</mi><mi>root</mi><msub><mi>i</mi><mn>1</mn></msub></msubsup><msub><mi>i</mi><mn>2</mn></msub></msubsup><mrow><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo></mrow></msubsup><msub><mi>i</mi><mi>n</mi></msub></msubsup></mrow>]]></math></maths>P结点所有的孩子结点子树即为记录结点子树集;将记录结点子树集所有记录结点子树先根遍历转化为带标记的token块序列,统计记录token块序列中非空结点最小深度,记为lownum,再将带标记的token块序列转化为带标记的token字符序列;用LCS算法处理以上两个记录的带标记的token字符序列,得到一个公共token字符序列;分隔并过滤公共token字符序列得到模板信息;步骤(3)数据抽取;根据绝对路径取得记录结点的双亲结点P,P下的每个记录结点子树的根结点即为记录的根结点,先根遍历每个记录的根结点,读取文本结点的内容Tn,得到一个记录的文本内容,即得到记录级数据;基于模板信息对token块进行切割,得到新的token块序列,设A为待切割的token块,B为模板信息,U为模板信息中token块集合,若A切割必需满足①<mathsid="math0003"num="0003"><math><![CDATA[<mrow><mo>&Exists;</mo><mi>B</mi><mo>(</mo><mi>B</mi><mo>&SubsetEqual;</mo><mi>U</mi><mo>)</mo></mrow>]]></math>id="icf0003"file="A2009100102010002C3.tif"wi="22"he="5"top="221"left="46"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>且②A的内容必需完全包含B的内容,并且A的token块深度等于B的token块深度;步骤(4)token块合并;依据统计值lownum继续对token块进行合并,合并规则为(1)如果token块深度高于lownum,则将当前token块合并到下一token块中;(2)如果token块深度等于lownum时,并且下一token块深度大于lownum,则输出本token块内容;如果下一token块深度等于lownum,则当前token块合并到下一token块中;(5)数据表格聚类,得到数据块级别数据;将标有相同模板信息的token块放入数据表格的同一列,其它无标记的token块同块序列号最近的带标记的token块放在一起。2、按照权利要求1所述的DeepWeb响应页面数据抽取方法,其特征在于步骤(2)所述的带标记的token块序列,实现过程如下先根遍历记录结点,对每个结点作如下处理①标记结点深度;②标记结点序列号,流水号,从l开始;③统计记录token块序列中非空结点最小深度,记为lownum。3、按照权利要求1所述的DeepWeb响应页面数据抽取方法,其特征在于步骤(2)所述的将带标记的token块序列转化为带标记的token字符序列,过程如下顺序读取每一token块序列,对每个token块作如下处理①若token块的字串为空,将其删除,不做其它处理,否则按后面过程处理;②将每个token块分裂成字符token,每个字符都生成一个字符token;③保留其结点深度,结点序列号,增加一个字符序列号。全文摘要一种DeepWeb响应页面数据抽取方法,属于深层网络数据管理领域,该方法包括以下步骤(1)选取DeepWeb响应页面Page;在查询页面输入关键字Key,查询得到响应页面Page;(2)抽取页面模板信息;对于响应页面的DOM树结构,找到包含关键字的孩子结点个数Wn最多的双亲结点P,将带标记的token块序列转化为带标记的token字符序列;用LCS算法处理以上两个记录的带标记的token字符序列,分隔并过滤公共token字符序列得到模板信息;(3)数据抽取;(4)token块合并;(5)数据表格聚类;本发明的有益效果采用本发明的数据抽取方法,适用性强,精度高,效率得到大大提高。文档编号G06F17/30GK101582074SQ20091001020公开日2009年11月18日申请日期2009年1月21日优先权日2009年1月21日发明者戈于,孙高尚,月寇,王振华,申德荣,聂铁铮申请人:东北大学
网友询问留言 已有1条留言
  • 访客 来自[中国] 2020年08月12日 08:55
    0
    0
1