一种死链检测方法及装置制造方法

文档序号:7773982阅读:176来源:国知局
一种死链检测方法及装置制造方法
【专利摘要】本发明适用于网络【技术领域】,提供了一种死链检测方法及装置,包括:根据预设的死链条件,对目录或者站点下的网页地址url进行随机采样,所述死链条件包括目录死链条件和站点死链条件;对随机采样得到的url进行死链检测,得到检测结果;当所述检测结果中的url均为死链时,判断所述目录下的url均为死链或者所述站点下的url均为死链。本发明减少了检测量,解决了在互联网链接数量巨大的情况下,现有死链的检测方式难以快速有效地检测出海量的死链信息,使得大型网站或搜索引擎难以及时发现所提供的网页链接中存在死链的问题,提升了检测的效率。
【专利说明】-种死链检测方法及装置

【技术领域】
[0001] 本发明属于网络【技术领域】,尤其涉及一种死链检测方法及装置。

【背景技术】
[0002] 随着互联网的快速发展,网站越来越多,与此同时。当动态网站或网页的数据库的 路径变更时,之前的网络链接无法连接到目标站点,也就是造成死链,此时,当用户的输入 信息与死链的相关信息相匹配时,该死链将被提供给用户,造成用户获得了死链的情况,耗 费了用户的时间。
[0003] 然而,由于现有技术中死链的检测方式,是将单个站点下的所有网络链接进行检 测的,此时存在两个方面的问题,一方面是自身的机器、带宽成本很高的问题,另一方面是 被检测网站带来很大的访问压力的问题,因此在互联网链接数量巨大的情况下,现有技术 中死链的检测方式难以快速有效地检测出海量的死链信息,使得大型网站或搜索引擎难以 及时发现所提供的网页链接中存在死链。


【发明内容】

[0004] 本发明实施例的目的在于提供一种死链检测方法,旨在解决在互联网链接数量巨 大的情况下,现有死链的检测方式难以快速有效地检测出海量的死链信息,使得大型网站 或搜索引擎难以及时发现所提供的网页链接中存在死链的问题。
[0005] 本发明实施例是这样实现的,一种死链检测方法,包括:
[0006] 根据预设的死链条件,对目录或者站点下的网页地址url进行随机采样,所述死 链条件包括目录死链条件和站点死链条件;
[0007] 对随机采样得到的url进行死链检测,得到检测结果;
[0008] 当所述检测结果中的url均为死链时,判断所述目录下的url均为死链或者所述 站点下的url均为死链。
[0009] 本发明实施例的另一目的在于提供一种死链检测装置,包括:
[0010] 采样单元,用于根据预设的死链条件,对目录或者站点下的网页地址url进行随 机采样,所述死链条件包括目录死链条件和站点死链条件;
[0011] 检测单元,用于对随机采样得到的url进行死链检测,得到检测结果;
[0012] 判断单元,用于当所述检测结果中的url均为死链时,判断所述目录下的url均为 死链或者所述站点下的url均为死链。
[0013] 在本发明实施例中,根据预设的死链条件,对目录或者站点下的网页地址url进 行随机采样;对随机采样得到的url进行死链检测,得到检测结果;当所述检测结果中的 url均为死链时,判断所述目录下的url均为死链或者所述站点下的url均为死链,减少了 检测量,解决了在互联网链接数量巨大的情况下,现有死链的检测方式难以快速有效地检 测出海量的死链信息,使得大型网站或搜索引擎难以及时发现所提供的网页链接中存在死 链的问题,提升了检测的效率。

【专利附图】

【附图说明】
[0014] 图1是本发明实施例提供的死链检测方法的实现流程图;
[0015] 图2是本发明实施例提供的在实际应用中一种死链检测装置的实施流程图;
[0016] 图3是本发明实施例提供的死链检测装置的结构框图。

【具体实施方式】
[0017] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
[0018] 图1示出了本发明实施例提供的一种死链检测方法的实现流程,详述如下:
[0019] 在步骤S101中,根据预设的死链条件,对目录或站点下的网页地址url进行随机 采样,所述死链条件包括目录死链条件和站点死链条件;
[0020] 在本实施例中,目录死链条件为从一个目录(portal)中随机抽取N个url,N为大 于等于预设阈值的整数,经下载后若全部为死链的条件。其中,预设数量可以为用户自设, 也可以为系统默认,优选地,预设阈值为10。
[0021] 在本实施例中,站点死链条件为从一个站点中随机抽取N个不同的目录下的url, N为大于等于预设阈值的整数,再加上首页进行检测,经下载后若全部为死链条件。其中,预 设数量可以为用户自设,也可以为系统默认,优选地,预设阈值为10。
[0022] 在本实施例中,对目录或站点下的网页地址url进行随机采样,具体地,可在搜 索引擎、大型网站服务器端根据用户的搜索日志、搜索引擎爬虫的抓取日志,抽取出目录/ portal,站点列表,对目录或站点下的网页地址url进行随机采样,得到后续进行检测是否 为死链的样品url。
[0023] 其中,用户搜索日志,记录了用户每次在搜索引擎中的搜索行为,包括搜索的问 题,搜索引擎展现的结果,以及用户点击浏览了哪些url。
[0024] 爬虫日志,记录了搜索引擎在互联网上抓取到的大量数据,以及每个url的下载 状态。
[0025] 在本实施例中,当站点、目录的样本没有达到预设阀值时,还需要从url库中抽样 补充,最终得到每个目录/portal,站点需要检测的url列表。
[0026] 作为本发明的一个优选实施例,对目录或站点下的网页地址url进行随机采样, 包括:
[0027] 获取关注度高的目录或站点,根据预设的死链条件,对关注度高的目录或站点下 的网页地址url进行随机采样。
[0028] 在本实施例中,关注度高目录或站点表示点击率率或排名较前的目录或站点。可 在用户搜索日志或者爬虫日志中,对点击率率或排名较前的目录或站点进行随机采样,得 到具有代表性的url。
[0029] 在本实施例中,为便于说明,以搜索引擎为例,利用搜索引擎日常的抓取行为,获 取关注度高的目录或站点,根据经验,搜索引擎具有很高的数据热点效应,即在最近一段时 间内经常被展现、点击的数据,在未来一段时间内也会经常被展现、点击。这部分数据具有 质量高、数据量小的特点,如果它们是死链,对用户的伤害较大,是检测优先级最高的一部 分数据源。
[0030] 在本实施例中,优先对用户关注的搜索结果热点数据进行检测,以使后续可根据 死链条件对搜索引擎第一页的url进行死链检测,节省检测时间,提高死链检测效率和搜 索质量。
[0031] 作为本发明的一个优选实施例,当预设的死链条件为目录死链条件时,对目录下 的网页地址url进行随机采样。
[0032] 在本实施例中,当预设的死链条件为目录死链条件时,需要抽取该目录/portal 下的预设数量的url,预设数量可以为用户自设,也可以为系统默认,优选地,预设数量为 10。
[0033] 作为本发明的一个优选实施例,当预设的死链条件为站点死链条件时,对站点下 的不同目录的网页地址url进行随机采样,并获取所述站点的首页的url。
[0034] 在本实施例中,在站点下的不同目录的网页地址url进行随机采样,并且每个目 录下采样预设数量的url,并获取所述站点的首页的url,预设数量可以为用户自设,也可 以为系统默认,优选地,预设数量为10。
[0035] 在本实施例中,对站点下的不同目录的网页地址url进行随机采样,并获取所述 站点的首页的url,使得后续进行死链检测时,若检测结果中站点下的不同目录的url和站 点的首页的url均为死链,则表示该站点下的url均为死链。
[0036] 在步骤S102中,对随机采样得到的url进行死链检测,得到检测结果;
[0037] 在本实施例中,把待检测的url进行下载,得到他们的http状态码,据此判断是否 为死链。判断是否为死链为现在技术,在此不做赘述。
[0038] 在步骤S103中,当所述检测结果中的url均为死链时,表示所述目录下的url均 为死链或所述站点下的url均为死链。
[0039] 在本实施例中,检测结果中的url均为死链时,表示所述目录下的url均为死链或 所述站点下的url均为死链,例如,当预设的死链条件为站点死链条件时,对站点下的不同 目录的网页地址url进行随机采样,并获取所述站点的首页的url,此时,若检测结果中站 点下的不同目录的url和站点的首页的url均为死链时,表示该站点下的url均为死链。
[0040] 作为本发明的一个优选实施例,当所述检测结果中的url不均为死链时,获取死 链的数量,根据死链的数量和检测结果中url的数量,生成死链比例;
[0041] 当所述死链比例超过预设阀值时,判断检测结果符合预设的可疑死链规则,生成 待检测的URL列表,所述可疑死链规则为预设时间内其目录或站点的死链占检测结果中 url的比例超过预设阀值的规则。
[0042] 在本实施例中,获取预设时间内其目录或站点的死链的数量,以及检测结果中的 url的数量,根据死链的数量和url的数量得到死链占检测结果中url的比例,从而生成死 链比例。
[0043] 在本实施例中,当所述死链比例超过预设阀值时,判断检测结果符合预设的可疑 死链规则,预设阀值可以为用户自设,也可以为系统默认,优选地,预设阀值为80%。
[0044] 在本实施例中,因为搜索引擎的爬虫系统都是按照站点独立调度的,也即每个站 点每天都会下载url (除非站点主动通过robots文件明确告诉搜索引擎爬虫不要采集),对 于死链或不稳定的站点,其下载状态为死链的比例会非常高。当把一段时间内下载过的url 状态汇总到目录/portal、站点,若其目录/portal、站点的死链比例超过预设阀值时,贝lj认 为是符合可疑死链规则。
[0045] 在本实施例中,可生成待检测的URL列表,便于后续经过预设时间再次进行检测。 其中,预设时间可以为用户自设,也可以为系统默认,在此不做限制。
[0046] 参考图2,图2是本发明实施例提供的在实际应用中一种死链检测装置的实施流 程图。
[0047] 图3示出了本发明实施例提供的一种死链检测装置的结构框图,该装置可以运行 于的各种终端,包括但不限于服务器、计算机等。为了便于说明,仅示出了与本实施例相关 的部分。
[0048] 参照图3,该死链检测装置,包括:
[0049] 采样单元31,用于根据预设的死链条件,对目录或者站点下的网页地址url进行 随机采样,所述死链条件包括目录死链条件和站点死链条件;
[0050] 检测单元32,用于对随机采样得到的url进行死链检测,得到检测结果;
[0051] 判断单元33,用于当所述检测结果中的url均为死链时,判断所述目录下的url均 为死链或者所述站点下的url均为死链。
[0052] 进一步地,在该装置中,所述采样单元31,包括:
[0053] 获取子单元,用于获取关注度高的目录或者站点,根据预设的死链条件,对关注度 高的目录或者站点下的网页地址url进行随机采样。
[0054] 进一步地,在该装置中,所述采样单元31,还包括:
[0055] 第一采样子单元,用于当预设的死链条件为目录死链条件时,对目录下的网页地 址url进行随机采样。
[0056] 进一步地,在该装置中,所述采样单元31,还包括:
[0057] 第二采样子单元,用于当预设的死链条件为站点死链条件时,对站点下不同目录 的网页地址url进行随机采样,并获取所述站点的首页的url。
[0058] 进一步地,在该装置中,还包括:
[0059] 获取单元,用于当所述检测结果中的url不均为死链时,获取死链的数量,根据死 链的数量和检测结果中url的数量,生成死链比例;
[0060] 生成单元,用于当所述死链比例超过预设阀值时,判断检测结果符合预设的可疑 死链规则,生成待检测的URL列表,所述可疑死链规则为预设时间内其目录或站点的死链 占检测结果中url的比例超过预设阀值的规则。
[0061] 本发明实施例提供的装置可以应用在前述对应的方法实施例中,详情参见上述实 施例的描述,在此不再赘述。
[0062] 在本发明实施例中,根据预设的死链条件,对目录或者站点下的网页地址url进 行随机采样;对随机采样得到的url进行死链检测,得到检测结果;当所述检测结果中的 url均为死链时,判断所述目录下的url均为死链或者所述站点下的url均为死链,减少了 检测量,解决了在互联网链接数量巨大的情况下,现有死链的检测方式难以快速有效地检 测出海量的死链信息,使得大型网站或搜索引擎难以及时发现所提供的网页链接中存在死 链的问题,提升了检测的效率
[0063] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【权利要求】
1. 一种死链检测方法,其特征在于,包括: 根据预设的死链条件,对目录或者站点下的网页地址url进行随机采样,所述死链条 件包括目录死链条件和站点死链条件; 对随机采样得到的url进行死链检测,得到检测结果; 当所述检测结果中的url均为死链时,判断所述目录下的url均为死链或者所述站点 下的url均为死链。
2. 如权利要求1所述的方法,其特征在于,所述对目录或者站点下的网页地址url进行 随机米样,包括: 获取关注度高的目录或者站点,根据预设的死链条件,对关注度高的目录或者站点下 的网页地址url进行随机采样。
3. 如权利要求1或2所述的方法,其特征在于,所述对目录或者站点下的网页地址url 进行随机采样,还包括: 当预设的死链条件为目录死链条件时,对目录下的网页地址url进行随机采样。
4. 如权利要求1或2所述的方法,其特征在于,所述对目录或者站点下的网页地址url 进行随机采样,还包括: 当预设的死链条件为站点死链条件时,对站点下不同目录的网页地址url进行随机采 样,并获取所述站点的首页的url。
5. 如权利要求1所述的方法,其特征在于,还包括: 当所述检测结果中的url不均为死链时,获取死链的数量,根据死链的数量和检测结 果中url的数量,生成死链比例; 当所述死链比例超过预设阀值时,判断检测结果符合预设的可疑死链规则,生成待检 测的URL列表,所述可疑死链规则为预设时间内其目录或站点的死链占检测结果中url的 比例超过预设阀值的规则。
6. -种死链检测装置,其特征在于,包括: 采样单元,用于根据预设的死链条件,对目录或者站点下的网页地址url进行随机采 样,所述死链条件包括目录死链条件和站点死链条件; 检测单元,用于对随机采样得到的url进行死链检测,得到检测结果; 判断单元,用于当所述检测结果中的url均为死链时,判断所述目录下的url均为死链 或者所述站点下的url均为死链。
7. 如权利要求6所述的装置,其特征在于,所述采样单元,包括: 获取子单元,用于获取关注度高的目录或者站点,根据预设的死链条件,对关注度高的 目录或者站点下的网页地址url进行随机采样。
8. 如权利要求6或7所述的装置,其特征在于,所述采样单元,包括: 第一采样子单元,用于当预设的死链条件为目录死链条件时,对目录下的网页地址url 进行随机采样。
9. 如权利要求6或7所述的装置,其特征在于,所述采样单元,包括: 第二采样子单元,用于当预设的死链条件为站点死链条件时,对站点下不同目录的网 页地址url进行随机采样,并获取所述站点的首页的url。
10. 如权利要求6所述的装置,其特征在于,还包括: 获取单元,用于当所述检测结果中的url不均为死链时,获取死链的数量,根据死链的 数量和检测结果中url的数量,生成死链比例; 生成单元,用于当所述死链比例超过预设阀值时,判断检测结果符合预设的可疑死链 规则,生成待检测的URL列表,所述可疑死链规则为预设时间内其目录或站点的死链占检 测结果中url的比例超过预设阀值的规则。
【文档编号】H04L12/26GK104158697SQ201310493452
【公开日】2014年11月19日 申请日期:2013年10月18日 优先权日:2013年10月18日
【发明者】詹峰, 李晓堂 申请人:深圳信息职业技术学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1