web页面信息搜索方法与流程

文档序号:12364216阅读:734来源:国知局

本发明涉及数据检索,特别涉及一种web页面信息搜索方法。



背景技术:

随着用户对互联网领域的数据获取要求越来越精准,专业搜索引擎为了实现这些需求而产生,这是搜索引擎按照数据专业类型的专有领域信息整合。比如商品搜索、金融搜索、视频搜索等等。与综合搜索引擎相比,专业搜索引擎搜索规则更丰富,更精确,更专业。但从现有的垂直搜索技术及应用产品来看,仍然存在一些技术上的不完善之处,包括:现有电商搜索引擎排序一般按照检索词所在文档中的综合打分进行排序,如果需要按照访问量进行排序,则对全部搜索结果集进行二次排序,但却打乱第一次排序的结果,给用户的体验造成很大的影响;此外现有的搜索引擎通常采用搜索词文字匹配的方式进行,只能做到简单的字符配对,而并不能真正理解某一个搜索对象本身的含义,只能通过人的主观感知才能提炼,再者随着网站技术日新月异,需要为电商搜索引擎重新编写正则表达式,显然难以适应全网海量的数据实时处理。



技术实现要素:

为解决上述现有技术所存在的问题,本发明提出了一种web页面信息搜索方法,包括:

采集web页面,将采集的数据按照索引所需的数据格式整理;

根据数据建立索引,将搜索引擎发布成http服务;

对web页面内容的数据业务部分进行数据分析;

从索引中执行数据搜索,然后自动更新索引;

接收用户对搜索结果的修改。

优选地,所述从索引中执行数据搜索,进一步包括分级排序,具体为:

根据搜索业务的实际需求对搜索逻辑根据优先级以矩阵的形式进行分级处理;排序结果按级别进行划分,每个排序逻辑层对应一个排序结果集合,然后根据统一等级的排序逻辑进行级内排序,将实时的访问量数据作为排序的因素进行级内二次排序,从各个有序的排序结果层中找到合适的排序结果子集进行整合后返回给用户;

所述从索引中执行数据搜索,还包括搜索词扩展,具体包括:

首先生成web页面对象,其对应搜索引擎web页面集中的一条记录,该对象包含三部分:数据ID,代表该条数据的引用地址;数据值,指具体的数据;排序属性列表,代表分级的排序逻辑对应的排序属性值多维列表,并降维得到一维排序属性列表,这些排序属性值根据等级的优先级由高到低存储在一个数组中,在两个排序属性列表比较时根据优先级进行对比;该web页面对象数组是一个公共的数据池,通过数据ID对里面的各个数据进行引用,并维护一个以web页面对象中的数据值为键的web页面对象散列表;然后生成搜索词对象,包括以下元素:搜索词、数据ID对象列表及数据ID对象候选列表;其中搜索词是由公共数据池的里面web页面对象中的数据值属性划分得到,每个数据值根据长度递增的方式划分得到多个搜索词;一个数据ID对象是由web页面ID及排序数据值列表两个元素组成的,数据ID对象列表是指一个搜索词对应的有效的数据ID对象列表;数据ID对象候选列表用于补充数据ID对象列表;

搜索词扩展内容的生成过程是在遍历web页面的过程中进行的,将web页面按照搜索词长度递增的规则逐个划分web页面,在划分的过程中对划分的搜索词进行转换形成搜索词列表,将各个搜索词作为键存放到散列表中,具体描述如下:

(1).将web页面根据内存结构要求存储在内存,遍历搜索web页面列表;

(2).转换并划分每条web页面形成搜索词列表;

(3).根据各个搜索词的排序属性值列表决定将对应的web页面ID插入数据ID列表还是数据ID候选列表中;

(4).生成搜索web页面的搜索词对象散列表,该散列表包含填充的数据ID列表及数据ID候选列表;

其中每条数据的划分流程是核心部分,具体描述如下:将web页面对象的数据值进行转换成多种类型的数据值集合;对数据值集合每条数据值根据搜索词长度递增的方式进行划分;根据划分的搜索词列表作为键搜索搜索词散列表,查找成功,则转上文步骤3;根据内存数据结构建立搜索词对象加入散列表中。

本发明相比现有技术,具有以下优点:

本发明提出了一种web页面信息搜索方法,克服了字符串配对式搜索的瓶颈,提高了搜索结果的精确性,并实现了智能高效搜索,能够适应各类电商业务的需求。

附图说明

图1是根据本发明实施例的web页面信息搜索方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种web页面信息搜索方法。图1是根据本发明实施例的web页面信息搜索方法流程图。

本发明实现了一种专业领域搜索引擎体系结构,利用分级排序,通过二维空间分值计算建立加权属性进行深度智能搜索;建立多维约束数据提取方式实现页面的内容智能提取,并进行搜索词扩展内容生成及更新,特别对超长文本的搜索词,基于散列搜索实现搜索词的突出显示。

专业领域搜索引擎体系结构包括:采集模块,负责数据的采集接收,并保存到特定的文件夹下,提供web页面。数据存储模块,负责将接受的数据按照索引所需的数据格式整理。具有自我恢复、回滚功能。回滚操作不能撤销,一旦回滚到特定日期,当下次更新时,此日期之前的数据将保留,而此日期之后的数据将删除。数据索引模块,负责根据数据建立索引,同时索引具有备份机制。搜索调用接口模块,将搜索引擎发布成http服务。日志及监控模块,监视以上各个系统的运行状态。数据分析模块,对web页面内容的数据业务部分进行数据分析。用户修改模块,从外部修改搜索结果,包括增删改结果及对排序进行修改。数据搜索模块,负责数据搜索,并自动从索引系统中更新最新数据。

数据分析模块针对特定网站的显著特征,判别并找出所有web页面;然后,按照web页面上网址中搜索概念的语义,通过web页面及其每一网址指向的页面所分别包含的本体集间的大小关系的比较,找出该web页面的URL;最后,将URL上的链接文本映射到该URL指向的web页面所包含的本体上,归入该本体的属性集。为避免隐藏属性发现过程中的不必要的重复,设置搜索B-树的剪枝机制,搜索B-树的每个节点代表一个web页面,父节点指向叶节点的边代表相应web页面间的下位关系,边上的值即为相应的隐藏属性,从根节点到叶节点路径上的所有隐藏属性构成该叶节点的隐藏属性集。首先以深度优先方式,根据下位网址语义生成下层叶节点;接着,对于新生成的每个叶节点,判断其隐藏属性集是否和已有的某个叶节点相同,若有则丢弃该叶节点,以完成属性的爬取。爬取过程结束时,获得无重复的所有对象页面,所有属性信息供页面信息提取过程提取。

本发明数据分析模块将电商网站上的web页面分成三种:结果页面,对象页面和其他页面。一个搜索对应的是一系列结果页面,对象页面包含一个单独本体信息,包括商品。不属于以上两种页面的页面分类为其他页面。每个本体都用一组属性集合进行描述,形成了搜索的条件。每个本体有且仅有一个对象页面。用无向图来描述电商网站,P表示顶点集,每个顶点代表一个页面,L是边集,每一条边代表从一个页面到另一个页面的URL。R表示所有结果页面的集合,O表示所有对象页面的集合,Q表示所有搜索的集合。搜索、结果页面和对象页面三者间所有的属性构成一个属性空间,基于页面间的连接结构将其进行聚类。

为找出每个本体隐藏在搜索中的属性信息。需要找出搜索的完整集合、与每个搜索相对应的属性与值的组成的键值对、满足每个搜索的本体。令q为一个搜索,我们使用与搜索相符的结果页面集合δ(q)来表示q。具体执行步骤:

1.爬取整个网站页面,利用它的URL识别每一个页面并从页面提取所有的网址。

2.识别每个页面的类型,即结果页面,对象页面和其他页面。在页面类型识别中,基于相同网站上对象页面HTML结构相似性,使用基于SVM的页面分类方法来完成对象页面的识别。然后采用了贪心算法,只要任何非对象页面包含一个指向对象页面的网址,则将它分类为一个结果页面。

3.根据搜索将结果页面聚类为多个集合,每个集合对应一个搜索。即对于集合R中每个页面p指向的所有结果页面的集合t(p),用t(p)之间的对称差表示每两个页面的距离,引入一个距离阈值d,当所述距离小于d时,指示两个页面属于相同的搜索。

4.找出搜索之间的关系。检查每个结果页面集合s的每个页面的URL;如果一个搜索URL指向另一结果页面集合r中的页面,那么检查s和r分别所包含的查询所关联的本体页面ws和wr之间的子集关系。如果则提取s和r的URL作为属性,使用其超文本作为属性值和上层HTML元素作为属性名创建一个属性键值对。

5.提取满足所有搜索的属性与值的组成的键值对的并集,作为本体的隐藏属性。

所述搜索引擎结构的数据搜索模块包括:排序模块、基于属性权值的搜索模块、搜索词扩展模块,web页面智能处理模块,搜索词突出显示模块。排序模块进行分级排序,每个等级设置多种同等权值的排序逻辑,对每层逻辑进行级内排序。同时将访问量作为实时排序的参考依据。总体流程包括排序逻辑分级、排序逻辑整合、排序结果块划分、排序结果整合、排序结果集存储。根据搜索业务的实际需求对搜索逻辑根据优先级以矩阵的形式进行分级处理。排序结果按级别进行划分,每个排序逻辑层对应一个排序结果集合,然后根据统一等级的排序逻辑进行级内排序,将实时的访问量数据作为排序的因素进行级内二次排序,从各个有序的排序结果层中找到合适的排序结果子集进行整合后返回给用户。

基于属性权值的搜索模块根据用户对商品的评价,通过分值计算的方式计算出商品对应的加权属性,通过基于属性权值的搜索的方式解决语义的商品搜索,包括属性值动态生成、属性分值计算、商品多重属性排序及商品属性搜索。

搜索词扩展模块在用户输入搜索词的部分内容后,提示出用户需要的检索词列表,用户通过选择搜索词列表中的任一搜索词进行搜索。本发明将web页面对象经过划分后存储在内存中,通过遍历并划分web页面生成搜索词扩展列表,用于搜索词的搜索与更新。

web页面智能处理模块将普通页面作为训练集,确定某类型页面的约束规则集合,然后直接利用这些约束规则集合进行相应的信息提取,同时允许手动调整节点划分规则,节点划分规则从不同的方面描述节点的最基本属性,而同一种类型的页面只需定义一类节点划分规则,从而满足了现有搜索引擎的需求。

所述搜索词突出显示模块,针对长文本搜索词显示问题设计一种通用的搜索词信息内容显示方法。首先通过设计的内存数据结构将信息内容解析得到的多个搜索词的位置信息倒排索引存入内存,然后通过散列查找搜索词的位置信息倒排索引来提高搜索词信息加载效率,同时定位指定搜索词的位置信息以确定搜索词突出显示范围,包括搜索词解析、信息内容解析、搜索词信息加载、显示内容整合、显示单元。

由于排序模块具体包括排序逻辑分级、排序逻辑整合、排序结果块划分、排序结果整合、排序结果集存储各个单元,本发明在进一步的实施例中详细描述各个单元。

逻辑分级单元根据用户的实际需求将排序逻辑进行分级,形成一个矩阵排序逻辑模型。其中矩阵中行元素代表同等级的多个逻辑,而不同行代表不同等级,不同层之间的权值是不同的。假设N*M矩阵由N个排序逻辑等级,而每个排序逻辑等级由M个排序逻辑,从中选取部分级及等级中的部分逻辑。选取排序逻辑分级矩阵,矩阵中设置前P行是搜索逻辑层,优先级按照逻辑递增或递减,在某一搜索逻辑层上有1-M个子集作为该层的排序逻辑。将各个逻辑映射成一个数字,将搜索逻辑矩阵转换为数字矩阵。

排序逻辑整合单元根据M*N分级排序逻辑矩阵中的排序逻辑整合成一个搜索的集合,对所有文档扫描完成所有搜索,形成多个级内有序的结果集。排序结果块划分单元根据分级模型进行分块,每一层对应一块,生成M个数据块即排序数据层,每个数据块形成一个数据域。

排序结果整合单元根据传过来的参数从各个数据块中取出一定数量的结果子集,然后进行结果整合成一个完整的结果集。传过来的参数是一个区域值,整合的流程如下:

1.根据区域首尾地址判断要求返回的搜索结果所在的排序数据层;

2.判断首尾地址是否在同一个排序数据层中,否则转步骤8;

3.取出第一个排序数据层底部的数据子集;

4.判断排序数据层个数是否大于2,如果大于2则转步骤6;

5.取出中间排序数据层的所有结果子集;

6.取出最后一个排序数据层上部数据子集;

7.将取出的结果集进行顺序合并;

8.返回结果集。

所述根据统一等级的排序逻辑进行级内排序,将实时的访问量数据作为排序的因素进行级内二次排序,进一步包括:

将实时排序访问量矩阵对应分级排序逻辑矩阵,每一层逻辑对应多个外在排序访问量作为实时排序的参考依据。根据实时排序访问量矩阵的值进行二次排序,包括:根据参数定位要排序的数据块及块内区域;从数据库中实时取出排序因子对应的数值;对排序区域进行排序;

对于基于属性权值的搜索模块,本发明根据用户对商品的评价自动抽取得到商品的属性值,通过属性值搜索得到符合特定场景的某种类型的商品,已达到准语义搜索的目标。所述自动抽取包括:

1.将商品评价结构化;

2.将同一用户对同一个商品的所有评论的内容部分进行分词,分词处理后将预定义停用词进行过滤,然后将重复的词选取对应评论时间最新,最后得到同一用户对同一个商品的属性值;

3.根据步骤2计算得到所有用户的对同一个商品的属性值,将相同的属性值进行聚集;

4.根据步骤2与3得到所有用户对所有商品的评论得到的属性值。

按照上述步骤,每个商品都有了用户所定义的多个属性。然后将属性值分类。将得到的商品类型作为属性的维度。重复次数大于预定义阈值的属性值,即为维度中的一个值。

然后通过商品及用户之间相互依赖的方式计算各自的分值权值,即分析所有评价得到所有用户感兴趣的商品列表。从商品维度,通过评价得到属性值并计算属性值,通过属性值计算得到每个属性值下的商品列表,体现用户的对该商品在该属性下的支持情况。

定义维度集合D;维度集合值V;被评价过的商品列表SU(p1,p2...pn);参与评价的用户列表UU(u1,u2...um);商品的维度列表DU{d1,d2...dk};对于DU内任一属性值列表VU{v1,v2...vo};属性列表SMU(pm1,pm2...pmx),对应SU元素的值;属性分类列表UMU(um1,um2...umy),对应UU元素的值。

假设某一维度为A{a1,a2...an},用户集合U{U1,U2,...Um},商品集合P{P1,P2,...Pk}

(1)商品分值根据评价用户的个数及评价用户权值共同计算得到,计算过程如下:

<mrow> <mi>S</mi> <mi>P</mi> <mrow> <mo>(</mo> <mi>p</mi> <mi>r</mi> <mi>o</mi> <mi>d</mi> <mi>u</mi> <mi>c</mi> <mi>t</mi> <mo>|</mo> <mi>a</mi> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mrow> <mo>(</mo> <msub> <mi>U</mi> <mrow> <mi>i</mi> <mo>{</mo> <msub> <mi>U</mi> <mi>i</mi> </msub> <mo>.</mo> <mi>A</mi> <mo>=</mo> <mi>a</mi> <mi>x</mi> <mo>}</mo> </mrow> </msub> <mo>/</mo> <msub> <mi>cnt</mi> <mi>M</mi> </msub> <mo>/</mo> <msub> <mi>cnt</mi> <mi>v</mi> </msub> <mo>&times;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>cnt</mi> <mrow> <mi>v</mi> <mi>x</mi> </mrow> </msub> <mo>/</mo> <mi>s</mi> <mi>u</mi> <mi>m</mi> </mrow>

其中,ax为在维度A的一个维度值;product|ax表示商品在维度A其维度值为ax的分值;

Ui.A=ax包括对product在维度A上评价为ax的所有用户。

cntM为所有属性的总数;sum表示所有用户对product在维度A上的评价的总数;cntvx为所有用户对product在维度A上维度值为ax的评价总数;cntvx/sum为所有用户对product上在维度A上维度值为ax的权值系数;cntv为用户在这个维度的这个值上的评价数量;θ为降权因子,通过用户对product在维度A上评价的最新时间和最早时间确定。

(2)用户的分值由商品对应属性分值计算得到:

假设用户对于商品的分类集合为DV(DiVj|Di∈DU,Vj∈VU)定义pdv为商品p在维度d的维度值v上的分值,pdv’=pdv/cntpdv,其中cntpdv为在商品p在维度d上投票给值v的用户的个数。用户分值SP(Uu)计算如下:

<mrow> <mi>S</mi> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>U</mi> <mi>u</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>o</mi> </munderover> <msub> <mi>P</mi> <mi>i</mi> </msub> <msub> <mi>D</mi> <mi>j</mi> </msub> <msub> <mi>V</mi> <mi>k</mi> </msub> <mo>/</mo> <msub> <mi>P</mi> <mi>i</mi> </msub> <msub> <mi>D</mi> <mi>j</mi> </msub> <msub> <mi>V</mi> <mi>k</mi> </msub> <mo>,</mo> </mrow>

(3)构建权值方程组

根据上述的用户及商品属性的权值计算分值SP(product|ax)和SP(Uu),建立M+N*V元一次方程组,其中商品的总数为N,用户的总数为M,V为每个维度上维度值集合元素个数,通过迭代的方式求解权值方程组得到每个商品对应属性的权值及用户权值。

所述搜索词扩展模块首先生成web页面对象,其对应搜索引擎web页面集中的一条记录,该对象包含三部分:数据ID,代表该条数据的引用地址;数据值,指具体的数据;排序属性列表,代表分级的排序逻辑对应的排序属性值多维列表,并降维得到一维排序属性列表,这些排序属性值根据等级的优先级由高到低存储在一个数组中,在两个排序属性列表比较时根据优先级进行对比。该web页面对象数组是一个公共的数据池,通过数据ID对里面的各个数据进行引用,并维护一个以web页面对象中的数据值为键的web页面对象散列表。

然后生成搜索词对象包括以下元素:搜索词、数据ID对象列表及数据ID对象候选列表。其中搜索词是由公共数据池的里面web页面对象中的数据值属性划分得到,每个数据值根据长度递增的方式划分得到多个搜索词;一个数据ID对象是由web页面ID及排序数据值列表两个元素组成的,数据ID对象列表是指一个搜索词对应的有效的数据ID对象列表;数据ID对象候选列表用于补充数据ID对象列表。

搜索词扩展内容的生成过程是在遍历web页面的过程中进行的,将web页面按照搜索词长度递增的规则逐个划分web页面,在划分的过程中对划分的搜索词进行转换形成搜索词列表,将各个搜索词作为键存放到散列表中。具体描述如下:

1.将web页面根据内存结构要求存储在内存,遍历搜索web页面列表;

2.转换并划分每条web页面形成搜索词列表;

3.根据各个搜索词的排序属性值列表决定将对应的web页面ID插入数据ID列表还是数据ID候选列表中;

4.生成搜索web页面的搜索词对象散列表,该散列表包含填充的数据ID列表及数据ID候选列表。

其中每条数据的划分流程是核心部分,具体描述如下:

将web页面对象的数据值进行转换成多种类型的数据值集合;对数据值集合每条数据值根据搜索词长度递增的方式进行划分;根据划分的搜索词列表作为键搜索搜索词散列表,查找成功,则转上文步骤3;根据内存数据结构建立搜索词对象加入散列表中。

web页面智能处理模块生成信息约束集合及其优化过程的详细步骤包括:

1.首先将样本解析成文档对象树节点集合:

Spot_U{Spot1,Spot2,...SpotN},其中SpotN∈文档对象树节点;

按照字段或类型划分维度

Info_dim(Dim1,Dim2...DimM},其中DimM表示信息的第M字段;

再将这些维度对应的信息节点结果用如下的集合表述

U_Info{SpotXl,SpotX2,SpotX3...SpotXm},SpotXi∈Spot_U;

U_Info集合即信息提取的最终结果节点集;

2.从节点分布区域,节点展现形式,以及节点内部组织规律分析集合Spot_U中每个节点属性,并根据属性的差异进行集合等价划分;

3.计算集合U_Info中每个节点自身的约束关系:记录U_Info中每个节点在各个划分所定义的属性的值,即分别计算维度Info_dim对应的节点集合中的每个节点出现在步骤2中的哪些集合中,得到U_Info上节点的约束集合;

4.计算维度之间的约束关系:取U_Info中任意两个节点,选取一个节点的属性,计算这个属性上所定义的各个二元距离关系:

|Dim(i)Attr-Dim(j)Attr|<σ

其中i,j指任意的两个维度,Attr指维度的每个属性,σ设定的阈值,并通过训练自动调整;

5.按照以上步骤计算完所有样本。通过上述计算得到两种类型的集合:(1)在特定的属性上,信息的特定维度所取的值的范围,即节点或维度自身的约束条件集合;(2)维度间约束条件集合,得出在多个维度在特定节点属性上的二元关系集合;

6.合并维度内部节点在属性或值属性上的等价关系;通过步骤3至5,记录了所有的样本特定维度在特定属性上的值,记为

Value_Cnt{(Vl,cnt1),(V2,cnt2)...(Vn,cntN)],其中N为值的种类数;

对于等价关系的合并,计算分成两种类型:

(1)如果是离散型的属性值,采用统计概率计算在此属性上此维度的节点取这个值的概率Pvi,公式为:

Cnt其中i取[0,N]

对于连续型的属性值,服从期望为μ,标准差为δ的正态概率分布,其中:

μ=V1*PV1+V2*PV2+…+Vn*PVn

<mrow> <mi>&delta;</mi> <mo>=</mo> <msqrt> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>-</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mi>N</mi> </mfrac> <mo>)</mo> </mrow> </mrow> <mi>N</mi> </mfrac> </msqrt> </mrow>

7.对不同维度之间可能存在的关系进行计算分析。对比较关系的合并,取大于,小于,等于作为枚举值的离散型数值属性。按照步骤4得到比较关系的概率值,将在不同样本页中分布相同的情况进行合并,不同的关系去除;对于距离关系的合并,将各个距离值作为取值的点,作为样本值的连续性数值属性。按照步骤4得到距离关系的概率值,计算距离值覆盖的范围,确定分布的区域;以从所有样本集的角度确定维度之间存在的关系。

8.用等价关系约束集合以及多个维度在同一属性上的关系约束去检查每个样本。

(1)假设每个维度值集里面元素的个数都为1,得出的结果集为:

Result{Udi(Nij|j∈(1,m})|i∈{1,n}}

若在维度d1上的结果集为Ud1(Nxi,…Nxm),在维度d2上的结果集为Ud2(Nxi,…Nyn),在d1和d2上有二元关系集UR(R1,...Rn),取Ud1和Ud2的组合:

Ud12((Nxi,Nyj)|j∈(1,m})|i∈{1,n}}

遍历上述节点对,定义满足UR上所有的二元关系节点对的集合。

(2)得到从所有的维度任意选取两个维度的枚举,遍历这个组合,对于每两个维度的组合,重复步骤(1);

(3)如果最后得出的结果的集合只有1个,则确定在以上划分的集合上,通过等价关系以及维度之间的二元关系可以正确的识别出信息的各个维度,如果结果多余1个,则增加更多的约束。

9.如果步骤8不能得出正确的结果,则用值的比较序列取最大或最小值来确定。对结果集的每个节点,获取可比较的属性,通过有限的极值序列来从结果集中得出实际值。

10.如果通过计算所有样本得到公共的极值序列集合U_info不为空集,则认为在划分集合上,信息Info_dim是可识别的。如果U_info为空集,且通过其他两种得出的结果大于实际结果,则认为在划分集合上,信息Info_dim是不可识别的。此时细化划分,或者增加新的划分。

11.假设信息Info_dim在划分集合上是可识别的,输出以上三种约束集合;若为不可识别,给出所有的根据其他两种约束得出的结果集,通过人工的观察结果集和正确结果,来获得他们之间区别的知识,并添加到划分集合中重新计算。

通过以上的计算分析过程,最终将得到一组与信息提取维度相关的规则约束集合,将这些约束集合及维度信息配置到模板中,用于信息提取。

在约束集合的基础上,通过节点划分对需要解析的页面进行处理划分,然后根据训练生成的约束集合筛选合适的信息节点,从而完成信息的提取。

首先生成信息集合:

1.将输入的页面解析成文档树;

2.遍历文档树上的所有节点;

3.获取文档树的一个节点;

4.判断该节点是否为注释节点,如果是,执行步骤3,否则,执行下一步;

5.将该节点添加到信息集合中;

6.判断文档树是否还有节点没有遍历,如果有,执行步骤3,否则执行下一步;

7.输出得到的信息集合U(Nl,N2...Nn),按照预定义的节点分类规则,将每个元素都存储在它所属的子集中;然后进行归类合并,将同一个节点不同特征值进行合并,生成以元素为键,特征元组为值的查找表。

然后对每个维度自身包含的候选节点集合处理,首先对这些节点按照约束规则进行分类,然后根据指定的排序规则对分类后得到的多个块集合分别进行块内排序,然后按照配置的条件分别取每块的TopN个元素作为候选结果集。具体如下:

读取每个维度的排序约束条件;然后对该维度进行分类筛选出满足排序规则的节点集合;将节点集合存储到排序划分约束查找表中;判断是否还有维度没有处理过,如果有,迭代执行分类筛选的步骤,否则输出所得到的排序约束划分查找表。

在提取过程中,对所得出的关联约束查找表,获取一个维度的候选节点集合;确定集合中的元素的个数是1,如果是,则根据需求提取该节点的相关内容信息,即去除页面的标记以及相关格式信息,将该信息保存到以维度为键值,节点信息内容为值对的信息集合中;输出得到的信息体集合,完成信息提取,结束此过程;将此页面连接、维度标识及其候选节点集合写入错误处理日志中。

综上所述,本发明提出了一种web页面信息搜索方法,克服了字符串配对式搜索的瓶颈,提高了搜索结果的精确性,并实现了智能高效搜索,能够适应各类业务的需求。

显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。

应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1