网页信息的解析方法及装置制造方法

文档序号:6521574阅读:332来源:国知局
网页信息的解析方法及装置制造方法
【专利摘要】本发明提出了一种网页信息的解析方法,包括以下步骤:将待解析网页的网址与可解析的域名集合中的域名进行匹配;根据匹配成功的域名定位到对应的网址特征集合;将待解析网页的网址与该网址特征集合中的网址特征进行匹配;根据匹配成功的网址特征定位到对应的商品模板集合;将待解析网页与该商品模板集合中的商品模板进行匹配;将待解析的网页按照匹配成功的商品模板进行解析,返回解析结果。本发明还提供了一种对应的网页信息的解析装置。采用本发明,网站中多种形式的商品网址都能够准确识别出来,对于不同类型的商品网址能够采用不同种类的商品模板去匹配识别,从而尽可能多地将网页上的商品信息解析出来。
【专利说明】网页信息的解析方法及装置
【技术领域】
[0001]本发明涉及网页信息的解析技术,特别是当网页的网址多样化,网页信息呈现多样化时的信息解析抽取方法及其相应装置。
【背景技术】
[0002]随着电子商务网站的不断发展,为了更好的展现出商品的信息,打动前来购物的消费者,现在网站的页面做的越来越复杂,对于要提取这些网站的商品信息的购物搜索来讲,提出了不小的挑战。首先商品页面的网址可能会有多种形式,其次商品页面信息也可能会有多种呈现形式。而传统的购物搜索在提取电商网站的商品页面信息时,一般都只维护一套模板,碰到这种复杂的页面情况时,会显得力不从心,只能成功解析一部分商品,导致解析的成功率比较低下。

【发明内容】

[0003]为了克服现有技术存在的缺陷,需要将网站中多种形式的商品网址都能够准确识别出来,对于不同类型的商品网址能够采用不同种类的商品模板去匹配识别,从而尽可能多地将网页上的商品信息解析出来。
[0004]因此,依据本发明的一个方面,本发明提出了一种网页信息的解析方法,该方法包括以下步骤:
[0005]将待解析网页的网址与可解析的域名集合中的域名进行匹配;
[0006]根据匹配成功的域名定位到对应的网址特征集合;
[0007]将待解析网页的网址与该网址特征集合中的网址特征进行匹配;
[0008]根据匹配成功的网址特征定位到对应的商品模板集合;
[0009]将待解析网页与该商品模板集合中的商品模板进行匹配;
[0010]将待解析的网页按照匹配成功的商品模板进行解析,返回解析结果。
[0011]可选地,所述域名集合由一级域名构建。
[0012]可选地,所述网址特征包括两个项目:域名和特征表达式。
[0013]可选地,所述特征表达式,是字符串,或者是正则表达式。
[0014]可选地,所述可解析的域名集合中包括一个或多个域名,所述网址特征集合中包括一个或多个网址特征,所述商品模板集合中包括一个或多个商品模板,商品模板中包含需要从页面内容中提取出来的用于描述商品的项目。
[0015]可选地,所述商品模板还包括页面类型项,该页面类型项包括用于描述页面类型的正则表达式或字符串,在所述将待解析网页与该商品模板集合中的商品模板进行匹配的步骤中,通过判断待解析网页的网址与商品模板中包括的页面类型项的正则表达式或字符串是否匹配,来确定待解析网页与商品模板是否匹配成功。
[0016]可选地,同一个商品模板能够隶属于不同的商品模板集合,从而对应于不同的网址特征。[0017]可选地,所述涉及匹配的步骤中,是将待解析网页的网址与集合中的元素逐一进行匹配,如果集合中的全部元素都不能与待解析网页的网址匹配成功,则认为匹配失败,不进行下一步骤,解析过程结束。
[0018]根据本发明的另一方面,本发明还提出了一种网页信息的解析装置,该解析装置包括以下模块:
[0019]域名匹配模块,将待解析网页的网址与可解析的域名集合中的域名进行匹配;
[0020]域名定位模块,根据匹配成功的域名定位到对应的网址特征集合;
[0021]网址匹配模块,将待解析网页的网址与该网址特征集合中的网址特征进行匹配;
[0022]网址定位模块,根据匹配成功的网址特征定位到对应的商品模板集合;
[0023]商品匹配模块,将待解析网页与该商品模板集合中的商品模板进行匹配;
[0024]解析模块,将待解析的网页按照匹配成功的商品模板进行解析,返回解析结果。
[0025]可选地,所述域名集合由一级域名构建。
[0026]可选地,所述网址特征包括两个项目:域名和特征表达式。
[0027]可选地,所述特征表达式,是字符串,或者是正则表达式。
[0028]可选地,所述可解析的域名集合中包括一个或多个域名,所述网址特征集合中包括一个或多个网址特征,所述商品模板集合中包括一个或多个商品模板,商品模板中包含需要从页面内容中提取出来的用于描述商品的项目。
[0029]可选地,所述商品模板还包括页面类型项,该页面类型项包括用于描述页面类型的正则表达式或字符串,在所述商品匹配模块将待解析网页与该商品模板集合中的商品模板进行匹配过程中,通过判断待解析网页的网址与商品模板中包括的页面类型项的正则表达式或字符串是否匹配,来确定待解析网页与商品模板是否匹配成功。
[0030]可选地,同一个商品模板能够隶属于不同的商品模板集合,从而对应于不同的网址特征。
[0031]可选地,所述涉及匹配的过程中,是将待解析网页的网址与集合中的元素逐一进行匹配,如果集合中的全部元素都不能与待解析网页的网址匹配成功,则认为匹配失败,不进行后续处理,解析过程结束。
[0032]根据本发明实施例的一种网页信息的解析方法可以看出,本公开解决了多域名、多模板网站的有效信息提取的问题,能够尽可能多地将网页上的商品信息有效并准确的解析出来。
[0033]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0034]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0035]图1是根据本发明一个实施例的网页信息解析方法的流程图;
[0036]图2是根据本发明一个实施例的商品模板的组织结构示意图;[0037]图3是根据本发明另一个实施例的网页信息解析装置的结构示意图。
【具体实施方式】
[0038]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0039]如图1所示的本发明的一种网页信息的解析方法,包括以下步骤:
[0040]步骤S110,解析开始前,首先需要获取待解析网页的网址。由于并非所有网页的网址都能够被解析,因此,需要根据待解析网页的网址判断其是否能够被解析,比如对于每个商家,都需要区分这个网站表述的商品特征和非商品的特征,商家感兴趣的自然是商品特征,因此具备商品特征的网址是需要被解析并提取的,而不相干或不感兴趣的网址则不需要被解析或提取。在实际运行中,设置一个能够解析的域名集合是一种可选的解决方案,该域名集合中包括一个或多个域名,只需要将网址与域名集合中的域名匹配一下就能够知道该网址的网页是否能被解析。由于域名仍然可能存在多种形式,因此我们优选按照商家的一级域名来构成这个域名集合,使得它更具备独特性。下面举例说明一级域名的含义:
[0041]
【权利要求】
1.一种网页信息的解析方法,其特征在于包括以下步骤: 将待解析网页的网址与可解析的域名集合中的域名进行匹配; 根据匹配成功的域名定位到对应的网址特征集合; 将待解析网页的网址与该网址特征集合中的网址特征进行匹配; 根据匹配成功的网址特征定位到对应的商品模板集合; 将待解析网页与该商品模板集合中的商品模板进行匹配; 将待解析的网页按照匹配成功的商品模板进行解析,返回解析结果。
2.根据权利要求1所述的网页信息的解析方法,其特征在于:所述域名集合由一级域名构建。
3.根据权利要求1所述的网页信息的解析方法,其特征在于:所述网址特征包括两个项目:域名和特征表达式。
4.根据权利要求3所述的网页信息的解析方法,其特征在于:所述特征表达式,是字符串,或者是正则表达式。
5.根据权利要求1-4之一所述的网页信息的解析方法,其特征在于:所述可解析的域名集合中包括一个或多个域名,所述网址特征集合中包括一个或多个网址特征,所述商品模板集合中包括一个或多个商品模板,商品模板中包含需要从页面内容中提取出来的用于描述商品的项目信息。
6.根据权利要求1所述的网页信息的解析方法,其特征在于:所述商品模板还包括页面类型项,该页面类型项包括用于描述页面类型的正则表达式或字符串,在所述将待解析网页与该商品模板集合中的商品模板进行匹配的步骤中,通过判断待解析网页的网址与商品模板中包括的页面类型项的正则表达式或字符串是否匹配,来确定待解析网页与商品模板是否匹配成功。
7.根据权利要求1所述的网页信息的解析方法,其特征在于:同一个商品模板能够隶属于不同的商品模板集合,从而对应于不同的网址特征。
8.根据权利要求1-7之一所述的网页信息的解析方法,其特征在于:所述涉及匹配的步骤中,是将待解析网页的网址与集合中的元素逐一进行匹配,如果集合中的全部元素都不能与待解析网页的网址匹配成功,则认为匹配失败,不进行下一步骤,解析过程结束。
9.一种网页信息的解析装置,其特征在于包括以下模块: 域名匹配模块,将待解析网页的网址与可解析的域名集合中的域名进行匹配; 域名定位模块,根据匹配成功的域名定位到对应的网址特征集合; 网址匹配模块,将待解析网页的网址与该网址特征集合中的网址特征进行匹配; 网址定位模块,根据匹配成功的网址特征定位到对应的商品模板集合; 商品匹配模块,将待解析网页与该商品模板集合中的商品模板进行匹配;解析模块,将待解析的网页按照匹配成功的商品模板进行解析,返回解析结果。
10.根据权利要求9所述的网页信息的解析装置,其特征在于:所述域名集合由一级域名构建。
【文档编号】G06F17/30GK103793461SQ201310631635
【公开日】2014年5月14日 申请日期:2013年12月2日 优先权日:2013年12月2日
【发明者】周雷, 高扬, 姜鑫, 曹晴, 牛杏媛 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1