1.一种爬取电商网站关键词品类信息的方法,其特征在于,包括:
根据电商网站信息、爬取品类信息的关键词构造电商网站的搜索统一资源定位符URL;
访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息;
对所述网页的页面信息进行解析,提取出所述页面中描述电商网站关键词品类的信息,得到电商网站关键词品类信息。
2.根据权利要求1所述的方法,其特征在于,所述电商网站信息包括电商网站的域名;根据电商网站信息、爬取品类信息的关键词构造电商网站的搜索URL包括:
根据电商的域名信息、爬取品类信息的关键词构造如下形式的电商网站的搜索URL:
http://search.XXX.com/Search?keyword=YYY
其中,XXX是电商网站的域名,YYY是指具体的爬取品类信息的关键词。
3.根据权利要求1或2所述的方法,其特征在于,访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息包括:
批量访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息。
4.根据权利要求3所述的方法,其特征在于,所述批量访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息包括:
通过多线程同时并发批量访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息。
5.根据权利要求4所述的方法,其特征在于,所述页面信息为超文本标记语言HTML代码的形式的页面信息。
6.根据权利要求5所述的方法,其特征在于,对所述网页的页面信息进行解析,提取出所述页面中描述电商网站关键词品类的信息,得到电商网站关键词品类信息包括:
直接对所述HTML代码进行解析,提取出所述页面中描述电商网站关键词品类的信息,得到电商网站关键词品类信息。
7.一种爬取电商网站关键词品类信息的装置,其特征在于,包括:
构造单元,用于根据电商网站信息、爬取品类信息的关键词构造电商网站的搜索统一资源定位符URL;
访问单元,用于访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息;
解析单元,用于对所述网页的页面信息进行解析,提取出所述页面中描述电商网站关键词品类的信息,得到电商网站关键词品类信息。
8.根据权利要求7所述的装置,其特征在于,所述电商网站信息包括电商网站的域名;所述构造单元具体用于:
根据电商的域名信息、爬取品类信息的关键词构造如下形式的电商网站的搜索URL:
http://search.XXX.com/Search?keyword=YYY
其中,XXX是电商网站的域名,YYY是指具体的爬取品类信息的关键词。
9.根据权利要求7或8所述的装置,其特征在于,所述访问单元用于批量访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息。
10.根据权利要求9所述的装置,其特征在于,所述批量访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息包括:
通过多线程同时并发批量访问构造的电商网站的搜索URL,获取所述URL对应的网页的页面信息。