管理网站登录信息的方法和装置与流程

文档序号:11918508阅读:256来源:国知局
管理网站登录信息的方法和装置与流程

本发明涉及互联网技术领域,尤其涉及一种管理网站登录信息的方法和装置。



背景技术:

网络爬虫是一种按照一定的规则,自动抓取万维网信息的程序。在实际应用中,爬虫程序在爬取各种网站时,常常会遇到需要登录凭证才有权爬取网页内容的网站。在这种情况下,在爬虫程序爬取网站之前,会先向网站服务器发送登录信息(包括登录账号和密码);网站服务器接收到登录信息后,会通过验证规则对该登录信息进行验证;若验证通过,则向该爬虫程序反馈登录凭证,以便爬虫程序通过登录凭证爬取该网站上的网页内容。由此可知,登录信息是爬虫程序获得登录凭证的重要条件。

然而,在实际应用中,却常常发生因所使用的登录信息失效,从而无法获得登录凭证的现象。其中,登录信息失效主要分为三种情况:(1)永久失效;(2)在一定时间段内失效,超过该时间段后,该登录信息可恢复正常使用;(3)由于网络或其他原因,请求获得登录凭证失败,而被爬虫程序误认为是登录信息失效。当爬虫程序获知某登录信息失效时,会将该登录信息丢弃,然后由人工来判断丢弃的登录信息是否可再次使用,若可再次使用,则将可再次使用的登录信息添加到爬虫程序中。由此可知,在对失效的登录信息进行管理的整个过程,操作复杂,并且需要人工参与处理,从而造成管理网站登录信息的效率较低。



技术实现要素:

鉴于上述技术问题,本发明提出了一种管理网站登录信息的方法和装置,能够解决现有技术中当爬虫程序确定某登录信息失效时,将其丢弃,之后需人工对丢弃的登录信息进行处理,从而造成管理网站登录信息效率低的问题。

一方面,本发明提供了一种管理网站登录信息的方法,所述方法包括:

获取本地存储的失效的登录信息;

判断所述登录信息的失效时长是否大于所述登录信息对应的预设时间阈值;

若所述失效时长大于所述预设时间阈值,则将所述登录信息恢复为有效的登录信息。

另一方面,本发明提供了一种管理网站登录信息的装置,所述装置包括:

获取单元,用于获取本地存储的失效的登录信息;

判断单元,用于判断所述获取单元获取的所述登录信息的失效时长是否大于所述登录信息对应的预设时间阈值;

恢复单元,用于当所述判断单元的判断结果为所述失效时长大于所述预设时间阈值时,将所述登录信息恢复为有效的登录信息。

借由上述技术方案,本发明提供的管理网站登录信息的方法和装置,能够在爬虫程序确定某登录信息失效后,将其保存在本地,并对其进行检测,判断登录信息的失效时长是否大于该登录信息对应的预设时间阈值,当失效时长大于预设时间阈值时,将该登录信息恢复为有效的登录信息。在整个登录信息恢复有效性的过程中,爬虫程序无需丢弃失效的登录信息,也无需人工参与处理失效的登录信息,从而提高了管理网站登录信息的效率。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种管理网站登录信息的方法的流程图;

图2示出了本发明实施例提供的一种管理网站登录信息的装置的组成框图;

图3示出了本发明实施例提供的另一种管理网站登录信息的装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种管理网站登录信息的方法,如图1所示,该方法包括:

101、获取本地存储的失效的登录信息。

具体的,当爬虫程序使用某登录信息无法获得登录凭证时,会确定该登录信息失效,此时,爬虫程序会将该失效的登录信息以及确定失效时的时间点(即起始失效时间点)存储到本地。在判断登录信息是否为失效的登录信息时,可直接根据该登录信息是否有对应的起始失效时间点来判断该登录信息是否为失效的登录信息。

此外,为了提高获取失效的登录信息的效率,在爬虫程序确定某登录信息为失效的登录信息时,还可以为其添加一个失效标记,以便根据失效标记快速确定当前获取的登录信息是否为失效的登录信息。

需要说明的是,一般情况下,登录网站所使用的登录信息为登录账号和密码,因此本发明实施例中涉及的登录信息主要为登录账号和密码。

102、判断登录信息的失效时长是否大于登录信息对应的预设时间阈值。

其中,预设时间阈值是用于判断失效的登录信息是否能够恢复有效性的恢复周期。在实际应用中,各个网站针对失效的登录信息恢复有效性所需的时间往往不同,所以本步骤中涉及的预设时间阈值可能不同。

具体的,在本地可存储一个恢复周期对应表,该恢复周期对应表中至 少记录有登录信息与预设时间阈值的对应关系,还可以记录对应网站的网址等信息。当需要对获取的失效的登录信息进行判断时,可以从本地存储的恢复周期对应表中查找到该失效的登录信息所对应的预设时间阈值,然后根据预设时间阈值进行判断。

此外,在上述步骤101中提及,在记录失效的登录信息时,还会记录该登录信息的起始失效时间点,因此,可根据该起始失效时间点获得该登录信息的失效时长,从而将失效时长与该登录信息对应的预设时间阈值进行比较,以便判断该登录信息是否可恢复有效性。

需要说明的是,大多数情况下,爬虫开发者并不知道各个网站所设置的实际恢复周期,因此本步骤中提及的预设时间阈值可能是根据经验统计而来的。

103、若失效时长大于预设时间阈值,则将登录信息恢复为有效的登录信息。

当判断结果为当前检测的登录信息的失效时长大于预设时间阈值时,在网站服务器侧已经恢复了该登录信息的有效性,说明此时利用该登录信息可以成功申请到登录凭证。但是,在爬虫程序侧看来,该登录信息依然是失效的登录信息,因此,为了让爬虫程序确定其为有效的登录信息,需将该登录信息恢复为有效的登录信息,即在爬虫程序侧看来,该登录信息是有效的登录信息。其中,让爬虫程序确定该登录信息为有效的登录信息的方法有多种。例如,给该登录信息添加一个有效标记,用于标识该登录信息有效。

此外,在实际应用中可以实时检测本地存储的失效登录信息是否可以恢复有效性,也可以定时检测本地存储的失效登录信息是否可以恢复有效性,本发明实施例对此不做限定。

本发明实施例提供的管理网站登录信息的方法,能够在爬虫程序确定某登录信息失效后,将其保存在本地,并对其进行检测,判断登录信息的失效时长是否大于该登录信息对应的预设时间阈值,当失效时长大于预设时间阈值时,将该登录信息恢复为有效的登录信息。在整个登录信息恢复有效性的过程中,爬虫程序无需丢弃失效的登录信息,也无需人工参与处 理失效的登录信息,从而提高了管理网站登录信息的效率。

进一步的,在上述步骤101中提及,当爬虫程序确定某登录信息失效时,可为其添加一个失效标记,以便后续快速确定该登录信息是失效的登录信息。因此,当失效的登录信息携带失效标记时,可将步骤101细化为:遍历本地存储的登录信息;判断当前登录信息是否携带失效标记;若当前登录信息携带失效标记,则确定当前登录信息为失效的登录信息;若当前登录信息没有携带失效标记,则确定当前登录信息不是失效的登录信息。其中,失效标记是在爬虫程序确定登录信息失效时,为登录信息添加的标记。

需要说明的是,在上述实施例中提及,在判断登录信息是否为失效的登录信息时,可直接根据该登录信息是否有对应的起始失效时间点来判断该登录信息是否为失效的登录信息。但是,在爬虫程序为失效的登录信息添加失效标记的情况下,爬虫程序在判断某登录信息是否失效时,仅以失效标记作为判断依据,并不考虑是否含有对应的起始失效时间点。

进一步的,当确定登录信息的失效时长大于预设时间阈值时,可以确定利用该登录信息可以成功申请登录凭证,因此,为了避免爬虫程序继续将其识别为失效的登录信息,需要将该登录信息恢复为有效的登录信息。具体的,可以将该登录信息携带的失效标记更改为有效标记,也可以直接将失效标记删除。

进一步的,在实际应用中,当爬虫程序确定某登录信息失效时,会将该失效的登录信息保存到本地,并记录对应的起始失效时间点,以便后续根据起始失效时间点判断该登录信息的失效时长。由此可知,对于判断登录信息的失效时长是否大于登录信息对应的预设时间阈值的具体实现方式可以为:从本地获取登录信息对应的起始失效时间点;根据起始失效时间点,计算登录信息的失效时长;从本地查找登录信息对应的预设时间阈值;判断失效时长是否大于预设时间阈值。

示例性的,若登录信息对应的起始失效时间点为2015年10月1日18点25分4秒,当前时间点为2015年10月2日7点50分4秒,则爬虫程序根据起始失效时间点和当前时间点,计算出的失效时长为13小时25分 钟,而登录信息所对应的预设时间阈值为10小时。由此可知,该登录信息的失效时长已经超过了预设时间阈值,因此爬虫程序可恢复该登录信息的有效性。

进一步的,由于预设时间阈值可能是根据经验统计而来的,与实际的恢复周期存在误差,所以可能会出现预设时间阈值比实际的恢复周期小的情况。对于上述情况,可能会发生以下问题:当爬虫程序确定某登录信息的失效时长大于预设时间阈值时,会将该登录信息恢复为有效的登录信息,但是实际上该登录信息还未到达实际的恢复周期,此时若爬虫程序利用该登录信息申请登录凭证,会申请失败,从而爬虫程序又将该登录信息确定为失效的登录信息,从而降低了爬虫程序爬取网页的效率。为解决上述技术问题,本发明实施例提出了如下方案:

从登录信息恢复为有效的登录信息起,若在预设时间段内,登录信息由有效的登录信息变为失效的登录信息,则根据第一预设算法,将登录信息对应的预设时间阈值调高。

其中,第一预设算法的具体内容可以为:将当前预设时间阈值成倍增大,例如,将当前预设时间阈值乘以2;还可以为:将当前预设时间阈值增加一个固定值,例如,在当前预设时间阈值的基础上加上5分钟。

此外,也可能出现预设时间阈值远远大于实际的恢复周期的情况,而这种情况会降低登录信息的使用率。为解决该问题,本发明实施例提出了如下方案:

在将登录信息恢复为有效的登录信息之后,根据预设调整规则,对登录信息对应的预设时间阈值进行调整,获得最佳时间阈值,其中,最佳时间阈值为基于当前预设时间阈值将失效的登录信息恢复有效性时,利用登录信息能够成功申请登录凭证,且若根据预设调整规则中的第二预设算法对当前预设时间阈值进行调低,则基于调低后的预设时间阈值将失效的登录信息恢复有效性时,利用登录信息无法成功申请登录凭证。

具体的,预设调整规则可以为:(1)根据第二预设算法,将登录信息对应的预设时间阈值调低;(2)若在进行至少一次调低处理后,利用调低后的预设时间阈值将登录信息恢复有效性后,第一次出现无法成功申请到 登录凭证的现象,则停止调低处理,并记录第一次出现无法成功申请到登录凭证时对应的预设时间阈值(以下简称第一时间阈值),然后根据第一预设算法,将第一时间阈值进行至少一次调高处理,直至利用调高后的预设时间阈值将登录信息恢复有效性后,能够成功申请到登录凭证;(3)重复执行步骤(1)-(2),直至出现以下情况:若对调高后的预设时间阈值进行至少一次调低处理的过程中,利用每一次调低后的预设时间阈值将登录信息恢复有效性后,均可成功申请到登录凭证,但是当将至少一次调低处理中的最后一次调低处理后的预设时间阈值进行调低处理前,发现若对最后一次调低处理后的预设时间阈值进行调低处理,调低后的预设时间阈值将会小于等于记录的至少一个第一时间阈值中的最大值,即若进行调低处理,利用调低后的预设时间阈值恢复登录信息的有效性后,无法成功获得登录凭证,则此时爬虫程序确定不会再对该至少一次调低处理中的最后一次调低处理后的预设时间阈值进行调低处理,而将该至少一次调低处理中的最后一次调低处理后的预设时间阈值确定为最终的预设时间阈值,即最佳时间阈值。

由于将预设时间阈值大幅度调低,很可能会将原来的预设时间阈值快速调整为比实际恢复周期小的值,因此,第二预设算法的调整幅度较小。常用的方法为:在当前预设时间阈值的基础上减少一个固定值,例如在当前预设时间阈值的基础上减2分钟。

示例性的,若预设时间阈值为8小时,第二预设算法为在当前预设时间阈值的基础上减少0.5小时,则当失效的登录信息的失效时长大于8小时时,爬虫程序将该登录信息恢复为有效的登录信息。此时,若爬虫程序使用该登录信息可以成功获得登录凭证,则根据第二预设算法,将该预设时间阈值调低,即调低后的预设时间阈值为8-0.5=7.5小时。若在较长一段时间(例如一个月)后,该登录信息又由于某些原因由有效变为失效,则本次判断该登录信息是否可以恢复有效的时间为7.5小时,即失效时长大于7.5小时后,爬虫程序将该登录信息恢复为有效的登录信息。此时,若爬虫程序使用该登录信息仍然可以成功获得登录凭证,则再次根据第二预设算法,将该预设时间阈值调低,即调低后的预设时间阈值为7小时。

若将初始的预设时间阈值进行了6次调低,且每次调低后的预设时间阈值都没有过小,即利用每次调低后的预设时间阈值恢复登录信息的有效性后,均可成功申请登录凭证。但是进行第7次调低后,利用调低后的预设时间阈值恢复登录信息的有效性后,却没有成功申请到登录凭证,即预设时间阈值变为4.5小时时,比实际恢复周期小。因此,需要将第7次调低后的预设时间阈值,根据第一预设算法进行调高处理。若第一预设算法为将当前预设时间阈值乘以2,则进行调高处理后的预设时间阈值变为4.5*2=9小时。

利用9小时作为预设时间阈值可以在登录信息恢复有效性后,成功申请到登录凭证。此时,需根据第二预设算法将当前预设时间阈值进行调低处理。在将9小时调低至5小时的过程中,利用每一次调低后的预设时间阈值恢复登录信息的有效性后,均可成功申请到登录凭证。爬虫程序欲根据第二预设算法将5小时再次调低时,发现调低后的预设时间阈值会变为4.5小时,而之前确定4.5小时比实际恢复周期短,因此爬虫程序会将5小时设置为最终的预设时间阈值,而不会再进行后续调整。

由此可知,利用上述对预设时间阈值的调高和调低的方法,在对预设时间阈值进行若干次调整后,获得的预设时间阈值会更接近实际的恢复周期。

进一步的,对于永久失效的登录信息而言,无论失效时长为多少,都不会在网站服务器侧恢复至有效的登录信息。因此,当从爬虫程序将登录信息恢复为有效的登录信息起,若连续多次发生以下情况:在预设时间段内,登录信息由有效的登录信息变为失效的登录信,则爬虫程序确定该登录信息为永久失效的登录信息,并将其丢弃。

进一步的,依据上述方法实施例,本发明的另一个实施例还提供了一种管理网站登录信息的装置,如图2所示,该装置包括:获取单元21、判断单元22和恢复单元23。其中,

获取单元21,用于获取本地存储的失效的登录信息;

判断单元22,用于判断获取单元21获取的登录信息的失效时长是否大于登录信息对应的预设时间阈值;

恢复单元23,用于当判断单元22的判断结果为失效时长大于预设时间阈值时,将登录信息恢复为有效的登录信息。

本发明实施例提供的管理网站登录信息的装置,能够在爬虫程序确定某登录信息失效后,将其保存在本地,并对其进行检测,判断登录信息的失效时长是否大于该登录信息对应的预设时间阈值,当失效时长大于预设时间阈值时,将该登录信息恢复为有效的登录信息。在整个登录信息恢复有效性的过程中,爬虫程序无需丢弃失效的登录信息,也无需人工参与处理失效的登录信息,从而提高了管理网站登录信息的效率。

进一步的,如图3所示,获取单元21,包括:

遍历模块211,用于遍历本地存储的登录信息;

判断模块212,用于判断当前登录信息是否携带失效标记,失效标记是在爬虫程序确定登录信息失效时,为登录信息添加的标记;

确定模块213,用于当判断模块212的判断结果为当前登录信息携带失效标记时,确定当前登录信息为失效的登录信息。

进一步的,恢复单元23,用于将登录信息携带的失效标记更改为有效标记。

进一步的,如图3所示,判断单元22,包括:

获取模块221,用于从本地获取登录信息对应的起始失效时间点;

计算模块222,用于根据获取模块221获取的起始失效时间点,计算登录信息的失效时长;

查找模块223,用于从本地查找登录信息对应的预设时间阈值;

判断模块224,用于判断计算模块222获得的失效时长是否大于查找模块223查找的预设时间阈值。

进一步的,如图3所示,该装置还包括:

调整单元24,用于从登录信息恢复为有效的登录信息起,若在预设时间段内,登录信息由有效的登录信息变为失效的登录信息,则根据第一预设算法,将登录信息对应的预设时间阈值调高。

进一步的,调整单元24,还用于根据预设调整规则,对登录信息对应的预设时间阈值进行调整,获得最佳时间阈值;

其中,最佳时间阈值为基于当前预设时间阈值将失效的登录信息恢复有效性时,利用登录信息能够成功申请登录凭证,且若根据预设调整规则中的第二预设算法对当前预设时间阈值进行调低,则基于调低后的预设时间阈值将失效的登录信息恢复有效性时,利用登录信息无法成功申请登录凭证。

该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。

所述管理网站登录信息的装置包括处理器和存储器,上述获取单元、判断单元和恢复单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高爬虫程序管理网站登录信息的效率。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:

获取本地存储的失效的登录信息;

判断登录信息的失效时长是否大于登录信息对应的预设时间阈值;

若失效时长大于预设时间阈值,则将登录信息恢复为有效的登录信息。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序 产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质, 可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1