网络数据分类式采集方法及装置与流程

文档序号:11807986阅读:323来源:国知局
网络数据分类式采集方法及装置与流程
本发明涉及大数据应用与分析领域,特别涉及一种网络数据分类式采集方法及装置。
背景技术
:如今大数据时代悄然兴起,网络上充斥着大量的公开信息,而且大型互联网站比比皆是,因此这些网站成为了数据采集工作的重点对象。目前的数据采集方法为:在网站中找到所需数据对应的列表页面,由于信息量很大,该列表页面包括很多分页,通过翻页操作来对各个分页对应的数据进行采集,其中,在针对每一个分页进行数据采集时,需要逐条访问各个分页中所列出的详情页链接,从而采集到网站上所有的所需数据。然而对于大型的互联网站,其数据总量过大,以及受硬件环境的制约,网站上一般只会显示一部分数据,现有的采集方式是针对显示出的详情页链接进行数据采集的,因此,无法实现网站信息的全部覆盖,从而造成数据漏采问题。技术实现要素:本发明实施例提供了一种网络数据分类式采集方法及装置,能够有效地解决现有技术中数据漏采的问题。第一方面,本发明实施例提供了一种网络数据分类式采集方法包括:确定待采集数据,并确定所述待采集数据对应的至少一个分类参数;确定每一个分类参数对应的参数值;根据每一个分类参数和对应的参数值,生成各个分类参数分别对应的入口链接;针对每一个入口链接,逐个采集相应分类参数所对应的数据。优选地,所述确定每一个分类参数对应的参数值,包括:确定所述待采集数据所在的目标网站;用于在所述目标网站中获取所述待采集数据对应的列表页面;在所述列表页面中逐个选择每一个分类参数,得到每一个分类参数对应的分类链接;根据得到的各个分类链接,确定每一个分类参数对应的参数值。优选地,所述确定每一个分类参数对应的参数值,包括:获取预先存储的针对所述待采集数据的目标参数列表;根据所述目标参数列表存储的对应关系,确定每一个分类参数对应的参数值。优选地,所述根据每一个分类参数和对应的参数值,生成各个分类参数分别对应的入口链接,包括:分别针对每一个当前分类参数及对应的当前参数值,执行如下操作:将所述当前分类参数、当前参数值以及设定的字符按设定形式进行拼接;将拼接后的内容添加到所述当前分类参数对应的分类链接中,得到所述当前分类参数对应的入口链接。优选地,所述针对每一个入口链接,逐个采集相应分类参数所对应的数据,包括:针对每一个当前入口链接,分别进行如下操作:获取所述当前入口链接对应的目标列表页面;所述目标列表页面中包括至少一个分页页面;对每一个分页页面中的详情链接进行访问,并对访问的详情链接进行数据采集。第二方面,本发明实施例提供了一种网络数据分类式采集装置,包括:第一确定单元,用于确定待采集数据,并确定所述待采集数据对应的至少一个分类参数;第二确定单元,用于确定每一个分类参数对应的参数值;生成单元,用于根据每一个分类参数和对应的参数值,生成各个分类参数分别对应的入口链接;采集单元,用于针对每一个入口链接,逐个采集相应分类参数所对应的数据。优选地,所述第二确定单元,包括:第一确定子单元,用于确定所述待采集数据所在的目标网站;第一获取子单元,用于在所述目标网站中获取所述待采集数据对应的列表页面;选择子单元,用于在所述列表页面中逐个选择每一个分类参数,得到每一个分类参数对应的分类链接;第二确定子单元,用于根据得到的各个分类链接,确定每一个分类参数对应的参数值。优选地,所述第二确定单元,包括:第二获取子单元,用于获取预先存储的针对所述待采集数据的目标参数列表;第三确定子单元,用于根据所述目标参数列表存储的对应关系,确定每一个分类参数对应的参数值。优选地,所述生成单元,具体用于分别针对每一个当前分类参数及对应的当前参数值,执行如下操作:将所述当前分类参数、当前参数值以及设定的字符按设定形式进行拼接;将拼接后的内容添加到所述当前分类参数对应的分类链接中,得到所述当前分类参数对应的入口链接。优选地,所述采集单元,具体用于针对每一个当前入口链接,分别进行如下操作:获取所述当前入口链接对应的目标列表页面;所述目标列表页面中包括至少一个分页页面;对每一个分页页面中的详情链接进行访问,并对访问的详情链接进行数据采集。本发明实施例提供了一种网络数据分类式采集方法及装置,通过确定待采集数据的至少一个分类参数,以将待采集数据进行分类,利用每一个分类参数和相应的参数值拼接成入口链接,通过访问该入口链接可以展示出对应该入口链接的列表页面,由于每一个分类对应的列表页面内容较少,因此,即使网站对显示页数有限制,每一个分类的列表页面也可能会完全显示,通过对显示的列表页面进行数据采集,从而能够实现防止数据漏采的功能。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明一个实施例提供的一种网络数据分类式采集方法流程图;图2是本发明一个实施例提供的另一种网络数据分类式采集方法流程图;图3是是本发明一个实施例提供的装置所在设备的硬件架构图;图4是本发明一个实施例提供的网络数据分类式采集装置结构图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。如图1所示,本发明实施例提供了一种网络数据分类式采集方法,该方法可以包括以下步骤:步骤101:确定待采集数据,并确定所述待采集数据对应的至少一个分类参数;步骤102:确定每一个分类参数对应的参数值;步骤103:根据每一个分类参数和对应的参数值,生成各个分类参数分别对应的入口链接;步骤104:针对每一个入口链接,逐个采集相应分类参数所对应的数据。本发明实施例提供了一种网络数据分类式采集方法,通过确定待采集数据的至少一个分类参数,以将待采集数据进行分类,利用每一个分类参数和相应的参数值拼接成入口链接,通过访问该入口链接可以展示出对应该入口链接的列表页面,由于每一个分类对应的列表页面内容较少,因此,即使网站对显示页数有限制,每一个分类的列表页面也可能会完全显示,通过对显示的列表页面进行数据采集,从而能够实现防止数据漏采的功能。在本发明一个实施例中,为了使采集过程全面而且条理清晰,所述确定每一个分类参数对应的参数值,包括:确定所述待采集数据所在的目标网站;在所述目标网站中获取所述待采集数据对应的列表页面;在所述列表页面中逐个选择每一个分类参数,得到每一个分类参数对应的分类链接;根据得到的各个分类链接,确定每一个分类参数对应的参数值。例如,待采集数据是美团上北京地区的所有麦当劳的数据信息,首先确定待采集数据所在的目标网站是美团,将“麦当劳”作为确定的分类参数,其次打开美团的首页,在当前首页的搜索栏中输入北京,系统会生成一个列表页面,然后在所述的列表页面中,找到麦当劳选项并点击,系统会生成一个与美团上北京地区的麦当劳对应的列表页面,最终在当前所述的列表页面中获取麦当劳对应的分类链接,从而获取到“麦当劳”对应的参数值。例如,得到的分类链接为:http://bj.meituan.com/shops/?w=%E9%BA%A6%E5%BD%93%E5%8A%B3&mtt=1,那么可以将该分类链接中的1作为该分类参数“麦当劳”的参数值。通过在分类参数对应的当前链接中获取到每一个分类参数对应的参数值,利用分类参数以及对应的参数值可以将大型网站的全部数据进行分类,可以避免由于网站显示不全造成的数据漏采问题。同时,这种分类方法及参数值的获取方式具有很好的适用性,操作简便,当待采集数据的分类个数较少时,可以简单方便的获取每一个分类参数对应的参数值。在本发明一个实施例中,为了使采集过程全面而且条理清晰,所述确定每一个分类参数对应的参数值,包括:获取预先存储的针对所述待采集数据的目标参数列表;根据所述目标参数列表存储的对应关系,确定每一个分类参数对应的参数值。当待采集数据的分类情况较多时,例如,待采集数据是北京地区的麦当劳、肯德基和味多美等数据信息,可首先通过获取目标参数列表,之后在目标参数列表中找到分类参数与参数值的对应关系。例如,该对应关系可以包括如下表1:表1:分类参数参数值麦当劳1肯德基2味多美3…………由表1中的对应关系可以得到,“麦当劳”对应的参数值为1,“肯德基”对应的参数值为2,“味多美”对应的参数值为3。通过这种方式可以很快的得到每一个分类参数对应的参数值,尤其是当待采集数据的分类较多时,可以将每一个分类参数及其参数值的对应关系调用出来,能够在数据采集的过程中节约一部分时间。在本发明一个实施例中,为了能够实现防止数据漏采的功能,所述根据每一个分类参数和对应的参数值,生成各个分类参数分别对应的入口链接,包括:分别针对每一个当前分类参数及对应的当前参数值,执行如下操作:将所述当前分类参数、当前参数值以及设定的字符按设定形式进行拼接;将拼接后的内容添加到所述当前分类参数对应的分类链接中,得到所述当前分类参数对应的入口链接。其中,该添加内容形式也可以根据用户需求来设定。例如,该添加形式为:先将分类参数、参数值和设定字符按照设定形式进行拼接,之后将拼接的内容添加到当前分类链接的最后面。以分类参数为“麦当劳”、参数值为“1”、设定字符为“&=”、设定形式为“分类参数、设定字符、参数值依次拼接”、当前分类链接为“http://bj.meituan.com/shops/&mtt=1”为例,拼接后的内容为“麦当劳&=1”,得到的当前分类参数对应的入口链接为http://bj.meituan.com/shops/&mtt=1麦当劳&=1。利用分类参数、参数值和设定字符生成的入口链接,覆盖了当前分类参数对应的全部网站数据信息,通过访问当前入口链接,而不是像传统数据采集过程中访问网站上显示的部分数据,因而可以采集到当前分类参数对应的全部数据,防止了数据漏采的问题。下面将北京的工作作为待采集数据为例,对本发明实施例中的网络数据分类式采集方法进行详细说明,如图2所示,本发明实施例提供了一种网络数据分类式采集方法,该方法可以包括:步骤201:确定待采集数据为北京的工作。在本步骤中,一般的待采集数据会以文本的形式给出,只有先确定所述待采集数据,之后才能对其进行分类,从而确定所述待采集数据的至少一个分类参数。因此,首先获取到该文本信息,然后仔细阅读所给文本内容,最终确定待采集数据。本发明实施例中的待采集数据确定为北京的工作。步骤202:确定北京的工作数据信息对应的至少一个分类参数。在本步骤中,确定待采集数据之后,完成对所述待采集数据的分类,从而确定所述待采集数据的至少一个分类参数,为后续相应的参数值获取奠定基础。其中,对北京地区的工作数据进行分类时,分类参数的个数及类别可依照用户需求进行设定,但分类参数的个数至少为一个,例如,北京地区的工作划可划分为四类,分别是“国企”、“本科”、“薪资”和“工作经验”。本发明实施例中以分类参数为“国企”、“本科”为例,将北京地区的工作划分为这两类。步骤203:确定所述待采集数据所在的目标网站为智联招聘网站。在本步骤中,确定所述待采集数据对应的至少一个分类参数之后,分类参数以“国企”、“本科”为例,为获取每一个分类参数对应的参数值,首先应根据确定的待采集数据,确定所述待采集数据所在的目标网站。其中,该目标网站可以是任意的招聘网站,也可以根据用户需求来选择,例如“智联招聘”、“前程无忧”和“大街网”。本发明实施例中以“智联招聘”作为目标网站。步骤204:在所述智联招聘网站中获取北京的工作所对应的列表页面。在本步骤中,确定所述待采集数据的目标网站为智联招聘之后,首先应打开该智联招聘网站,然后在智联招聘网站上通过输入关键字,其中,该关键字为北京,获取到网站上北京地区工作对应的列表页面,所述列表页面中的数据是网站上显示的部分北京地区的工作数据。步骤205:在所述列表页面中逐个选择每一个分类参数,得到每一个分类参数对应的分类链接。在本步骤中,获取到目标网站中待采集数据对应的列表页面之后,为获取每一个分类参数对应的参数值,可通过生成每一个分类参数对应的相应链接的形式获得。以分类参数为“国企”和“本科”、北京地区工作所对应列表页面的链接为“http://sou.zhaopin.com/jobs/=&sm=0&isfilter=1&p=1&ct=-1”为例,在当前链接下的列表页面中,找到公司性质及学历要求的分类项,一般是在列表页面的顶部或一侧,然后在这两个分类项中分别点击国企和本科,系统会依据每一个分类参数生成当前分类参数下的列表页面,最终会获取到分类参数“国企”对应下的列表页面的链接为http://sou.zhaopin.com/jobs/sm=0&isfilter=1&p=1&ct=1,分类参数“本科”对应下的列表页面的链接为http://sou.zhaopin.com/jobs/=&sm=0&ct=-1&isfilter=1&p=1&el=4。步骤206:根据得到的国企、本科对应的链接,确定国企、本科分别对应的参数值。在本步骤中,可在网站的列表页面的链接中获取到每一个分类参数对应的参数值。可选地,获取分类参数对应的参数值的另一种方式为:通过键盘上的快捷键来获取目标网站上各个分类参数和相应参数值的对应关系,通过该对应关系确定每一个分类参数对应的参数值。在目标网站构建时,可以将各个分类参数和相应参数值的对应关系进行存储,用户可以直接获取到该存储的对应关系。其中,该快捷键可以是开发人员在进行软件开发时设置的,例如,该快捷键为F12。步骤207:拼成入口链接。在本步骤中,若在网站上对数据信息进行采集,需生成与分类参数相应的入口链接,为接下来访问相应的链接奠定基础,同时本步骤中生成的入口链接是以获取到的分类参数以及与之对应的参数值为基础的,因此可以覆盖到网站上所有待采集数据的内容,从而可以使得采集过程全面而条理清晰,防止数据漏采的问题。具体实现形式是:将至少一个分类参数、参数值以及设定的字符按照设定形式进行拼接,之后将拼接后的内容添加到当前分类参数对应的当前链接中,从而获取到当前分类参数下的入口链接。其中,该设定的字符可以为任意字符,且字符个数可以为至少一个。例如,该设定的字符为“&”;再如,该设定的字符为“%&”。进一步地,该设定形式也可以根据用户需求来设定,例如,该设定形式为分类参数、字符和参数值依次拼接,以设定字符为“&”、分类参数为“国企”、参数值为“1”为例,拼接后的内容为“国企&1”。更进一步地,拼接内容的添加形式也可以根据用户需求来设定,例如,该添加形式为:将拼接内容置于该分类参数当前链接中的参数值前面。以分类参数为“国企”、“国企”对应的当前链接为“http://sou.zhaopin.com/jobs/sm=0&isfilter=1&p=1&ct=1”为例,获取到“国企”对应的入口链接为http://sou.zhaopin.com/jobs/sm=0&isfilter=1&p=1&ct=国企&11。步骤208:针对生成的两个入口链接,逐个采集相应分类参数所对应的数据。本步骤主要是通过访问生成的入口链接,在网站数据全部覆盖的基础之上,最终全面的采集相应分类参数对应的数据。具体包括:获取所述当前入口链接对应的目标列表页面;所述目标列表页面中包括至少一个分页页面;对每一个分页页面中的详情链接进行访问,并对访问的详情链接进行数据采集。以分类参数“国企”对应的入口链接为“http://sou.zhaopin.com/jobs/sm=0&isfilter=1&p=1&ct=国企&11”、“本科”对应的入口链接为“http://sou.zhaopin.com/jobs/=&sm=0&ct=-1&isfilter=1&p=1&el=4本科&22”为例,首先对这两个链接进行依次访问,系统会分别针对这两个入口链接自动生成两个相应的列表页面。其中,由于采集的信息量大,所以每个列表页面会有很多列表分页面,例如“国企”对应的全部工作数据信息共有20页,“本科”对应的全部工作数据信息共有30页,然后针对所述生成的列表分页面,按照翻页的形式依次进行访问。例如,以分类参数为“国企”生成的全部数据的列表页面为例,可以从1至20页依次对每一页进行访问。进一步地,通过对国企和本科的列表分页面的详情链接进行访问,获取到当前分类下的全部数据信息。同样的,以分类参数为“国企”生成的全部数据的列表页面为例,在获取到1至20页的所有列表页面之后,分别对每一页上的每一条详情链接进行访问,最终采集到所有北京地区国企的工作信息。如图3、图4所示,本发明实施例提供了一种网络数据分类式采集装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例提供的网络数据分类式采集装置所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的网络数据分类式采集装置,包括:第一确定单元401,用于确定待采集数据,并确定所述待采集数据对应的至少一个分类参数;第二确定单元402,用于确定每一个分类参数对应的参数值;生成单元403,用于根据每一个分类参数和对应的参数值,生成各个分类参数分别对应的入口链接;采集单元404,用于针对每一个入口链接,逐个采集相应分类参数所对应的数据。在本发明一个实施例中,所述第二确定单元402,包括:第一确定子单元,用于确定所述待采集数据所在的目标网站;第一获取子单元,用于在所述目标网站中获取所述待采集数据对应的列表页面;选择子单元,用于在所述列表页面中逐个选择每一个分类参数,得到每一个分类参数对应的分类链接;第二确定子单元,用于根据得到的各个分类链接,确定每一个分类参数对应的参数值。在本发明一个实施例中,所述第二确定单元402,包括:第二获取子单元,用于获取预先存储的针对所述待采集数据的目标参数列表;第三确定子单元,用于根据所述目标参数列表存储的对应关系,确定每一个分类参数对应的参数值。在本发明一个实施例中,所述生成单元403,具体用于:分别针对每一个当前分类参数及对应的当前参数值,执行如下操作:将所述当前分类参数、当前参数值以及设定的字符按设定形式进行拼接;将拼接后的内容添加到所述当前分类参数对应的分类链接中,得到所述当前分类参数对应的入口链接。在本发明一个实施例中,所述采集单元404,具体用于:针对每一个当前入口链接,分别进行如下操作:获取所述当前入口链接对应的目标列表页面;所述目标列表页面中包括至少一个分页页面;对每一个分页页面中的详情链接进行访问,并对访问的详情链接进行数据采集。综上,本发明各个实施例具有如下效果:1、在本发明实施例中,通过确定待采集数据的至少一个分类参数,以将待采集数据进行分类,利用每一个分类参数和相应的参数值拼接成入口链接,通过访问该入口链接可以展示出对应该入口链接的列表页面,由于每一个分类对应的列表页面内容较少,因此,即使网站对显示页数有限制,每一个分类的列表页面也可能会完全显示,通过对显示的列表页面进行数据采集,从而能够实现防止数据漏采的功能。2、在本发明实施例中,通过在分类参数对应的当前链接中获取到每一个分类参数对应的参数值,利用分类参数以及对应的参数值可以将大型网站的全部数据进行分类,可以避免由于网站显示不全造成的数据漏采问题。同时,这种分类方法及参数值的获取方式具有很好的适用性,操作简便,对于较少的分类时,可以简单方便的获取每一个分类参数对应的参数值。3、在本发明实施例中,通过目标对应参数列表得到每一个分类参数对应的参数值,尤其是当待采集数据的分类较多时,可以将每一个分类参数及其参数值的对应关系调用出来,能够在数据采集的过程中节约一部分时间。4、在本发明实施例中,利用分类参数、参数值和设定字符生成的入口链接,覆盖了当前分类参数对应的全部网站数据信息,通过访问当前入口链接,而不是像传统数据采集过程中访问网站上显示的部分数据,因而可以采集到当前分类参数对应的全部数据,防止了数据漏采的问题。上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃·····”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1