网页数据的收集方法及系统与流程

文档序号:13575077阅读:602来源:国知局
网页数据的收集方法及系统与流程

本发明实施例属于软件领域,尤其涉及一种网页数据的收集方法及系统。



背景技术:

目前,用户常需要收集并分析各个网页的数据,再根据分析结果判断网页数据的有效性,或根据分析结果执行其他操作等。

现有的网页数据收集方法中,通常直接抓取网页中指定位置的数据,再对抓取的数据进行分析,但由于抓取数据的过程中有可能出现错误,即抓取到与页面中指定位置不符合的数据,而用户仅根据抓取的数据难以发现抓取的数据为与页面中指定位置不符合的数据,因此导致后续的数据分析结果出错。



技术实现要素:

本发明实施例提供了一种网页数据的收集方法及系统,旨在解决现有方法可能抓取到与页面指定位置不符合的数据,从而导致抓取的数据的准确度过低的问题。

本发明实施例是这样实现的,一种网页数据的收集方法,所述方法包括:

接收统一资源定位符url地址的写入指令,并写入对应的url地址;

显示所述url地址对应的网页以及网页对应的源代码;

根据显示的网页抓取对应的源代码,以实现网页数据的收集。

本发明实施例的另一目的在于提供一种网页数据的收集系统,所述系统包括:

url地址的写入指令接收单元,用于接收统一资源定位符url地址的写入指令,并写入对应的url地址;

网页显示单元,用于显示所述url地址对应的网页以及网页对应的源代码;

网页数据收集单元,用于根据显示的网页抓取对应的源代码,以实现网页数据的收集。

在本发明实施例中,由于根据显示的网页抓取对应的源代码,因此,便于用户判断当前抓取的源代码是否为需要抓取的源代码,从而提高抓取的源代码的准确度,进而提高后续的数据分析结果的准确度。

附图说明

图1是本发明第一实施例提供的一种网页数据的收集方法的流程图;

图2是本发明第一实施例提供的一种写入url地址的位置的示意图;

图3是本发明第一实施例提供的可配置的浏览器参数的示意图;

图4是本发明第一实施例提供的“源代码”的按键的示意图;

图5是本发明第二实施例提供的一种网页数据的收集装置的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明实施例中,接收url地址的写入指令,并写入对应的url地址,显示所述url地址对应的网页以及网页对应的源代码,根据显示的网页抓取对应的源代码,以实现网页数据的收集。

为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。

实施例一:

图1示出了本发明第一实施例提供的一种网页数据的收集方法的流程图,详述如下:

步骤s11,接收统一资源定位符url地址的写入指令,并写入对应的url地址。

其中,统一资源定位符(uniformresourcelocator,url)地址的写入指令可通过用户“复制”再“黏贴”的操作发出,也可以通过用户直接输入发出。如图2所示,在系统呈现的界面的“入口url”处写入“韶关法院”对应的url地址。

由于有些网页是针对特定的浏览器开发的,因此,为了便于后续能够正确、完整地显示该网页,可在执行步骤s11之后,选择与所述url地址匹配的浏览器,或者,在执行步骤s11之后,接收用户发出的浏览器选择指令,根据所述浏览器选择指令选择与所述url地址匹配的浏览器。比如,选择chrome或火狐或ie等类型的浏览器。当然,如图3所示,为了进一步加快收集网页数据的速度,在选择与url地址匹配的浏览器时,还包括:接收浏览器参数的配置指令,根据所述浏览器参数的配置指令对浏览器参数进行配置。其中,浏览器参数包括:http发送超时时间、是否启用脚本执行、是否启用级联样式表(csscascadingstylesheets,css)、是否启用重定向、activexnative等等。例如,电商类网站通常需要启用脚本执行,而一般网站不需要,由于无需启用脚本执行,减少了流量占用,提高了收集网页数据的速度。进一步地,为了提高后续分析收集的网页数据的便利性,在接收浏览器参数的配置指令,根据所述浏览器参数的配置指令对浏览器参数进行配置时,配置项目的名称,项目描述以及相关字段信息。

由于加载扩展名为js的文件(用javascript脚本语言编写的文件)时也需要占用一定的流量及时间,因此,为了进一步提高收集网页数据的速度,可过滤掉不需要执行的js的文件,即不加载过滤掉的不需要执行的js的文件。

步骤s12,显示所述url地址对应的网页以及网页对应的源代码。

需要指出的是,网页以及源代码都显示在系统的同一界面上,以便用户对比查看。

该步骤中,为了灵活满足用户的不同需求,在显示url地址对应的网页之前,包括:接收用户发出的重载页面指令。如图2所示,当用户点击“重载页面”按键时,发出重载页面指令,根据该重载页面指令显示url地址对应的网页。在显示网页对应的源代码之前,包括:接收用户发出的源代码显示指令。如图4所示,当用户点击“源代码”按键时,发出源代码显示指令,根据该源代码显示指令显示网页对应的源代码。

可选地,由于某些网站需要用户输入登录信息之后才会显示相应的网页,因此,为了减少用户的操作步骤,也为了能够自动、正常地显示网页,则在所述步骤s12之前,包括:

a1、判断所述url地址对应的网页是否需要登录信息。具体地,预先存储需要登录信息的url地址,当写入的url地址与预先存储的需要登录信息的某个url地址相同时,判定该写入的url地址对应的网页需要登录信息,否则,判定该写入的url地址对应的网页不需要登录信息。

a2、在所述url地址对应的网页需要登录信息时,将预先获取的登录信息写入所述url地址对应的网页的相应位置,以登录所述url地址对应的网页。

具体地,预先获取登录所述url地址对应的网页的登录信息,当写入需要登录信息的url地址之后,将预先获取的登录信息写入网页的相应位置,以便在网页验证登录信息成功后,系统能够显示url地址对应的网页。

步骤s13,根据显示的网页抓取对应的源代码,以实现网页数据的收集。

具体地,当显示一个网页时,抓取显示屏当前显示的网页对应的源代码,以便能够在一次抓取中抓取到更多的网页数据。

可选地,在只抓取显示屏当前显示的部分网页对应的源代码时,所述步骤s13具体包括:

b1、检测当前鼠标在网页的位置的停留时长。具体地,当鼠标停留在显示的网页中的某个位置时,记录该鼠标停留的开始时间,并在固定的间隔时间统计开始时间与当前时间的差(即停留时长)。

b2、在当前鼠标在网页的位置的停留时长超过预设的时长时,抓取所述当前鼠标在网页的位置对应的源代码,以实现网页数据的收集。可选地,由于鼠标占用的网页的位置不大,因此,为了抓取到更多的源代码,抓取所述当前鼠标在网页的位置对应的源代码是指,抓取当前鼠标在网页的位置对应的版面的源代码。例如,假设显示的网页分多个版面:版面1、版面2、版面3和版面4,在当前鼠标在网页的位置(对应版面1)时,抓取版面1对应的源代码。

上述b1和b2中,由于在当前鼠标在网页的位置的停留时长超过预设的时长时,自动抓取当前鼠标在网页的位置对应的源代码,因此,无需用户操作,提高了网页数据抓取的便捷性。

可选地,在只抓取显示屏当前显示的部分网页对应的源代码时,所述步骤s13具体包括:

b1’、检测当前鼠标在网页的位置。

b2’、接收源代码抓取指令,根据所述源代码抓取指令抓取当前鼠标在网页的位置对应的源代码。其中,源代码抓取指令可通过按压鼠标键(左键和/或右键)发出。

上述b1’和b2’中,无需关注当前鼠标在网页的位置的停留时间,只要接收到源代码抓取指令就会抓取当前鼠标在网页的位置对应的源代码。可选地,由于鼠标占用的网页的位置不大,因此,为了抓取到更多的源代码,抓取所述当前鼠标在网页的位置对应的源代码是指,抓取当前鼠标在网页的位置对应的版面的源代码。

进一步地,为了能够抓取到更精确的网页数据,则检测用户在显示的网页选择的网页数据;再根据用户选择的网页数据抓取对应的源代码。由于只抓取用户选择的网页数据,因此,使得抓取的源代码更符合用户的需求。

可选地,为了能够抓取到多个网页对应的网页数据,在所述步骤s13之后,包括:

c1、判断显示的网页对应的网站是否存在多个网页。

c2、在显示的网页对应的网站存在多个网页时,发出翻页指令,以显示翻页后对应的网页。其中,翻页指令可由用户点击“下一页”按键发出,也可设置在自动点击间隔时间到来时自动点击“下一页”按键发出,当然,为了使得自动点击“下一页”按键发出的翻页指令更接近于用户点击“下一页”按键发出的翻页指令,则设置的自动点击间隔时间不能过短,比如,应大于3秒,但也不能过长,以免抓取网页数据的时间过长,比如,应小于8分钟等。

c3、根据翻页后对应的网页抓取对应的源代码,以实现网页数据的收集。

上述c1~c3中,由于能够通过发出翻页指令抓取多个网页的网页数据,因此,使得抓取的网页数据更全面。

进一步地,为了便于后续查看抓取的网页数据,在步骤s13之后,存储收集的网页数据。具体地,可以通过数据库、文件或excel的形式存储。通过各种方式存储收集的网页数据,提高了后续分析收集的网页数据的便利性。

本发明第一实施例中,接收url地址的写入指令,并写入对应的url地址,显示所述url地址对应的网页以及网页对应的源代码,根据显示的网页抓取对应的源代码,以实现网页数据的收集。由于根据显示的网页抓取对应的源代码,因此,便于用户判断当前抓取的源代码是否为需要抓取的源代码,从而提高抓取的源代码的准确度,进而提高后续的数据分析结果的准确度。

应理解,在本发明实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

实施例二:

图5示出了本发明第二实施例提供的一种网页数据的收集系统的结构图,该网页数据的收集系统可以包括经无线接入网ran与一个或多个核心网进行通信的用户设备,该用户设备可以是移动电话(或称为“蜂窝”电话)、具有移动设备的计算机等,例如,用户设备还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。又例如,该移动设备可以包括智能手机、平板电脑、个人数字助理pda、销售终端pos或车载电脑等。为了便于说明,仅示出了与本发明实施例相关的部分。

该网页数据的收集系统包括:url地址的写入指令接收单元51、网页显示单元52、网页数据收集单元53:

url地址的写入指令接收单元51,用于接收统一资源定位符url地址的写入指令,并写入对应的url地址。

其中,url地址的写入指令可通过用户“复制”再“黏贴”的操作发出,也可以通过用户直接输入发出。

由于有些网页是针对特定的浏览器开发的,因此,为了便于后续能够正确、完整地显示该网页,所述网页数据的收集系统包括:浏览器选择单元,用于选择与所述url地址匹配的浏览器,或者,接收用户发出的浏览器选择指令,根据所述浏览器选择指令选择与所述url地址匹配的浏览器。比如,选择chrome或火狐或ie等类型的浏览器。当然,如图3所示,为了进一步加快收集网页数据的速度,在选择与url地址匹配的浏览器时,所述网页数据的收集系统还包括:配置指令接收单元,用于接收浏览器参数的配置指令,根据所述浏览器参数的配置指令对浏览器参数进行配置。其中,浏览器参数包括:http发送超时时间、是否启用脚本执行、是否启用css、是否启用重定向、activexnative等等。例如,电商类网站通常需要启用脚本执行,而一般网站不需要,由于无需启用脚本执行,减少了流量占用,提高了收集网页数据的速度。进一步地,为了提高后续分析收集的网页数据的便利性,所述配置指令接收单元还包括:配置项目的名称,项目描述以及相关字段信息。

由于加载扩展名为js的文件(用javascript脚本语言编写的文件)时也需要占用一定的流量及时间,因此,为了进一步提高收集网页数据的速度,所述网页数据的收集系统包括:文件过滤单元,用于过滤掉不需要执行的js的文件,即不加载过滤掉的不需要执行的js的文件。

网页显示单元52,用于显示所述url地址对应的网页以及网页对应的源代码。

需要指出的是,网页以及源代码都显示在系统的同一界面上,以便用户对比查看。

为了灵活满足用户的不同需求,所述网页数据的收集系统包括:重载页面指令接收单元,用于接收用户发出的重载页面指令,根据该重载页面指令显示url地址对应的网页。和/或,包括:接收用户发出的源代码显示指令,根据该源代码显示指令显示网页对应的源代码。

可选地,由于某些网站需要用户输入登录信息之后才会显示相应的网页,因此,为了减少用户的操作步骤,也为了能够自动、正常地显示网页,则所述网页数据的收集系统包括:

登录信息判断单元,用于判断所述url地址对应的网页是否需要登录信息。具体地,预先存储需要登录信息的url地址,当写入的url地址与预先存储的需要登录信息的某个url地址相同时,判定该写入的url地址对应的网页需要登录信息,否则,判定该写入的url地址对应的网页不需要登录信息。

登录信息写入单元,用于在所述url地址对应的网页需要登录信息时,将预先获取的登录信息写入所述url地址对应的网页的相应位置,以登录所述url地址对应的网页。

具体地,预先获取登录所述url地址对应的网页的登录信息,当写入需要登录信息的url地址之后,将预先获取的登录信息写入网页的相应位置,以便在网页验证登录信息成功后,系统能够显示url地址对应的网页。

网页数据收集单元53,用于根据显示的网页抓取对应的源代码,以实现网页数据的收集。

具体地,当显示一个网页时,抓取显示屏当前显示的网页对应的源代码,以便能够在一次抓取中抓取到更多的网页数据。

可选地,在只抓取显示屏当前显示的部分网页对应的源代码时,所述网页数据收集单元53包括:

停留时长检测模块,用于检测当前鼠标在网页的位置的停留时长。具体地,当鼠标停留在显示的网页中的某个位置时,记录该鼠标停留的开始时间,并在固定的间隔时间统计开始时间与当前时间的差(即停留时长)。

源代码抓取模块,用于在当前鼠标在网页的位置的停留时长超过预设的时长时,抓取所述当前鼠标在网页的位置对应的源代码,以实现网页数据的收集。可选地,由于鼠标占用的网页的位置不大,因此,为了抓取到更多的源代码,抓取所述当前鼠标在网页的位置对应的源代码是指,抓取当前鼠标在网页的位置对应的版面的源代码。

上述停留时长检测模块和源代码抓取模块中,由于在当前鼠标在网页的位置的停留时长超过预设的时长时,自动抓取当前鼠标在网页的位置对应的源代码,因此,无需用户操作,提高了网页数据抓取的便捷性。

可选地,在只抓取显示屏当前显示的部分网页对应的源代码时,所述网页数据收集单元53包括:

鼠标位置检测模块,用于检测当前鼠标在网页的位置。

源代码抓取指令接收模块,用于接收源代码抓取指令,根据所述源代码抓取指令抓取当前鼠标在网页的位置对应的源代码。其中,源代码抓取指令可通过按压鼠标键(左键和/或右键)发出。

上述鼠标位置检测模块和源代码抓取指令接收模块中,无需关注当前鼠标在网页的位置的停留时间,只要接收到源代码抓取指令就会抓取当前鼠标在网页的位置对应的源代码。可选地,由于鼠标占用的网页的位置不大,因此,为了抓取到更多的源代码,抓取所述当前鼠标在网页的位置对应的源代码是指,抓取当前鼠标在网页的位置对应的版面的源代码。

进一步地,为了能够抓取到更精确的网页数据,网页数据的收集系统包括:选择的网页数据检测单元,用于检测用户在显示的网页选择的网页数据;选择的网页数据抓取单元,用于根据用户选择的网页数据抓取对应的源代码。由于只抓取用户选择的网页数据,因此,使得抓取的源代码更符合用户的需求。

可选地,为了能够抓取到多个网页对应的网页数据,所述网页数据的收集系统包括:

多个网页判断单元,用于判断显示的网页对应的网站是否存在多个网页。

翻页指令发出单元,用于在显示的网页对应的网站存在多个网页时,发出翻页指令,以显示翻页后对应的网页。

翻页后的网页数据抓取单元,用于根据翻页后对应的网页抓取对应的源代码,以实现网页数据的收集。其中,翻页指令可由用户点击“下一页”按键发出,也可设置在自动点击间隔时间到来时自动点击“下一页”按键发出,当然,为了使得自动点击“下一页”按键发出的翻页指令更接近于用户点击“下一页”按键发出的翻页指令,则设置的自动点击间隔时间不能过短,比如,应大于3秒,但也不能过长,以免抓取网页数据的时间过长,比如,应小于8分钟等。

上述多个网页判断单元、翻页指令发出单元、翻页后的网页数据抓取单元中,由于能够通过发出翻页指令抓取多个网页的网页数据,因此,使得抓取的网页数据更全面。

进一步地,为了便于后续查看抓取的网页数据,所述网页数据的收集系统包括:网页数据存储单元,用于存储收集的网页数据。具体地,可以通过数据库、文件或excel的形式存储。通过各种方式存储收集的网页数据,提高了后续分析收集的网页数据的便利性。

本发明第二实施例中,由于根据显示的网页抓取对应的源代码,因此,便于用户判断当前抓取的源代码是否为需要抓取的源代码,从而提高抓取的源代码的准确度,进而提高后续的数据分析结果的准确度。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1