爬取电商网站关键词品类信息的方法及装置与流程

文档序号:11155070阅读:来源:国知局

技术特征:

1.一种爬取电商网站关键词品类信息的方法,其特征在于,包括:

根据电商网站信息、爬取品类信息的关键词构造电商网站的搜索统一资源定位符URL;

访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息;

对所述网页的页面信息进行解析,提取出所述页面中描述电商网站关键词品类的信息,得到电商网站关键词品类信息。

2.根据权利要求1所述的方法,其特征在于,所述电商网站信息包括电商网站的域名;根据电商网站信息、爬取品类信息的关键词构造电商网站的搜索URL包括:

根据电商的域名信息、爬取品类信息的关键词构造如下形式的电商网站的搜索URL:

http://search.XXX.com/Search?keyword=YYY

其中,XXX是电商网站的域名,YYY是指具体的爬取品类信息的关键词。

3.根据权利要求1或2所述的方法,其特征在于,访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息包括:

批量访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息。

4.根据权利要求3所述的方法,其特征在于,所述批量访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息包括:

通过多线程同时并发批量访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息。

5.根据权利要求4所述的方法,其特征在于,所述页面信息为超文本标记语言HTML代码的形式的页面信息。

6.根据权利要求5所述的方法,其特征在于,对所述网页的页面信息进行解析,提取出所述页面中描述电商网站关键词品类的信息,得到电商网站关键词品类信息包括:

直接对所述HTML代码进行解析,提取出所述页面中描述电商网站关键词品类的信息,得到电商网站关键词品类信息。

7.一种爬取电商网站关键词品类信息的装置,其特征在于,包括:

构造单元,用于根据电商网站信息、爬取品类信息的关键词构造电商网站的搜索统一资源定位符URL;

访问单元,用于访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息;

解析单元,用于对所述网页的页面信息进行解析,提取出所述页面中描述电商网站关键词品类的信息,得到电商网站关键词品类信息。

8.根据权利要求7所述的装置,其特征在于,所述电商网站信息包括电商网站的域名;所述构造单元具体用于:

根据电商的域名信息、爬取品类信息的关键词构造如下形式的电商网站的搜索URL:

http://search.XXX.com/Search?keyword=YYY

其中,XXX是电商网站的域名,YYY是指具体的爬取品类信息的关键词。

9.根据权利要求7或8所述的装置,其特征在于,所述访问单元用于批量访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息。

10.根据权利要求9所述的装置,其特征在于,所述批量访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息包括:

通过多线程同时并发批量访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1