钓鱼网页的检测方法和装置制造方法

文档序号:7806200阅读:257来源:国知局
钓鱼网页的检测方法和装置制造方法
【专利摘要】本发明公开了一种钓鱼网页的检测方法,包括:提取待检测网页的网页模板特征,并获取网页模板特征的第一摘要信息;确定第一摘要信息是否属于预设数据库中的第二摘要信息,第二摘要信息是根据目标网页的网页模板特征所获取的摘要信息;在确定第一摘要信息属于预设数据库中的第二摘要信息时,进一步确定待检测网页的域名和目标网页的域名是否一致;以及在确定待检测网页的域名和目标网页的域名不一致时,确定待检测网页是仿冒目标网页的钓鱼网页。本发明实施例的方法避免了钓鱼网页的域名具有时效性特点的问题,提高了检测的准确度,并且能够从根本上检测钓鱼网站,从而提高了可行性和可用性。本发明还公开了一种钓鱼网页的检测装置。
【专利说明】钓鱼网页的检测方法和装置

【技术领域】
[0001] 本发明涉及互联网【技术领域】,尤其涉及一种钓鱼网页的检测方法和装置。

【背景技术】
[0002] 随着互联网技术的快速发展,互联网中的黑色利益链组织已经形成,且发展快速。 随着杀毒技术的成熟,利用二进制木马病毒获利变得越来越难,黑色利益链组织开始将目 标转向钓鱼网页进行欺诈,由于钓鱼网页的成本低、获益快、传播快、反钓鱼技术不完善等, 使得各种钓鱼网页层出不穷。
[0003] 针对层出不穷的各种钓鱼网页,相关技术可采用以下两种方式进行防范:一种是 网络保护产品,例如,网购保镖,账号保护产品等,这些网络保护产品给用户提供一个安全 入口,使得用户从安全入口进行登录,但是这种方式存在的问题是,无法从根本上检测钓鱼 网站,只能给特定网页起到保护作用。另一种是收集钓鱼网页形成钓鱼网页库,当用户访问 某个网页时通过查询钓鱼网页库来判断用户访问的网页是否为钓鱼网页,但是这种方式存 在的问题是,钓鱼网页的时效性很短,一般几个小时,有些甚至不到一个小时,很多情况下 钓鱼网页还没入库就已经失效。


【发明内容】

[0004] 本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
[0005] 为此,本发明的第一个目的在于提出一种钓鱼网页的检测方法。该方法可以避免 钓鱼网页的域名具有时效性特点的问题,提高了检测的准确度,并且能够从根本上检测钓 鱼网站,从而提高了可行性和可用性。
[0006] 本发明的第二个目的在于提出一种钓鱼网页的检测装置。
[0007] 为了实现上述目的,本发明第一方面实施例的钓鱼网页的检测方法,包括:提取待 检测网页的网页模板特征,并获取所述网页模板特征的第一摘要信息;确定所述第一摘要 信息是否属于预设数据库中的第二摘要信息,所述第二摘要信息是根据目标网页的网页模 板特征所获取的摘要信息;在确定所述第一摘要信息属于预设数据库中的第二摘要信息 时,进一步确定所述待检测网页的域名和所述目标网页的域名是否一致;以及在确定所述 待检测网页的域名和所述目标网页的域名不一致时,确定所述待检测网页是仿冒所述目标 网页的钓鱼网页。
[0008] 本发明实施例的钓鱼网页的检测方法,可提取待检测网页的网页模板特征并获取 其第一摘要信息,并在确定第一摘要信息属于预设数据库中的第二摘要信息时,进一步确 定待检测网页的域名和目标网页的域名是否一致,当不一致时,确定待检测网页是仿冒目 标网页的钓鱼网页,避免了钓鱼网页的域名具有时效性特点的问题,提高了检测的准确度, 并且能够从根本上检测钓鱼网站,从而提高了可行性和可用性。
[0009] 为了实现上述目的,本发明第二方面实施例的钓鱼网页的检测装置,包括:获取模 块,用于提取待检测网页的网页模板特征,并获取所述网页模板特征的第一摘要信息;第一 确定模块,用于确定所述第一摘要信息是否属于预设数据库中的第二摘要信息,所述第二 摘要信息是根据目标网页的网页模板特征所获取的摘要信息;第二确定模块,用于在所述 第一确定模块确定所述第一摘要信息属于预设数据库中的第二摘要信息时,进一步确定所 述待检测网页的域名和所述目标网页的域名是否一致;以及第三确定模块,用于所述第二 确定模块确定所述待检测网页的域名和所述目标网页的域名不一致时,确定所述待检测网 页是仿冒所述目标网页的钓鱼网页。
[0010] 本发明实施例的钓鱼网页的检测装置,可通过获取模块提取待检测网页的网页模 板特征并获取其第一摘要信息,第二确定模块在第一确定模块确定第一摘要信息属于预设 数据库中的第二摘要信息时,进一步确定待检测网页的域名和目标网页的域名是否一致, 在不一致时,第三确定模块确定待检测网页是仿冒目标网页的钓鱼网页,避免了钓鱼网页 的域名具有时效性特点的问题,提高了检测的准确度,并且能够从根本上检测钓鱼网站,从 而提高了可行性和可用性。
[0011] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。

【专利附图】

【附图说明】
[0012] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解,其中,
[0013] 图1是根据本发明一个实施例的钓鱼网页的检测方法的流程图;
[0014] 图2是根据本发明另一个实施例的钓鱼网页的检测方法的流程图;
[0015] 图3是根据本发明又一个实施例的钓鱼网页的检测方法的流程图;
[0016] 图4是根据本发明再一个实施例的钓鱼网页的检测方法的流程图;
[0017] 图5是根据本发明一个实施例的钓鱼网页的检测装置的结构示意图;
[0018] 图6是根据本发明另一个实施例的钓鱼网页的检测装置的结构示意图。

【具体实施方式】
[0019] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考 附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反, 本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同 物。
[0020] 在本发明的描述中,需要理解的是,术语"第一"、"第二"等仅用于描述目的,而不 能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,"多个"的含义 是两个或两个以上。
[0021] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括 一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部 分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺 序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明 的实施例所属【技术领域】的技术人员所理解。
[0022] 下面参考附图描述根据本发明实施例的钓鱼网页的检测方法和装置。
[0023] 本发明提出了一种钓鱼网页的检测方法,包括:提取待检测网页的网页模板特征, 并获取网页模板特征的第一摘要信息;确定第一摘要信息是否属于预设数据库中的第二摘 要信息,第二摘要信息是根据目标网页的网页模板特征所获取的摘要信息;在确定第一摘 要信息属于预设数据库中的第二摘要信息时,进一步确定待检测网页的域名和目标网页的 域名是否一致;以及在确定待检测网页的域名和目标网页的域名不一致时,确定待检测网 页是仿冒目标网页的钓鱼网页。
[0024] 图1是根据本发明一个实施例的钓鱼网页的检测方法的流程图。
[0025] 如图1所示,该钓鱼网页的检测方法包括:
[0026] S101,提取待检测网页的网页模板特征,并获取网页模板特征的第一摘要信息。
[0027] 其中,在本发明的一个实施例中,待检测网页可以是用户登录页面。应当理解,目 前网页数量非常庞大,保护每个网页是不现实也是没必要的,钓鱼网站的最终目的是要盗 取用户的有用信息(如账号、密码等信息),由此可知,只需检测用户登录页面即可有效地 保护了用户信息,这样大大的缩减了保护范围,且将一个不收敛的问题变成了一个收敛的 问题,提高了可行性。
[0028] 此外,在本发明的一个实施例中,网页模板特征可包括网页标题、网页的描述信 息、网页的版权信息、网页的〈hl>〈h2Xh3Xh4>标签的内容信息、网页的<p>标签的内容信 息、网页的样式表信息、网页的表单信息、网页的导航信息、网页的标签框架信息、网页的显 示图标信息等中的至少一种。
[0029] 另外,第一摘要信息可以是HTML(Hyper Text Markup language,超文本标记语言) 文件的信息。应当理解,由于钓鱼网页的URL (Uniform Resource Locator,统一资源定位器) 均具有时效性,且钓鱼网页的页面模板会跟被仿冒的目标网页的模板基本相似,因此,判断 待检测网页是否是钓鱼网页时还需获取待检测网页对应的HTML文件信息,这样可有效地 对付自动生成的钓鱼网页识别和随机更新域名的钓鱼网站。
[0030] 也就是说,可先从待检测网页(即用户登录页面)中提取网页模板特征,之后可从 网页模板特征中获取网页中的HTML文件的信息。
[0031] S102,确定第一摘要信息是否属于预设数据库中的第二摘要信息,第二摘要信息 是根据目标网页的网页模板特征所获取的摘要信息。
[0032] 其中,在本发明的一个实施例中,第二摘要信息可以是HTML文件的信息。
[0033] 具体而言,可根据本地预设的数据库,确定第一摘要信息是否属于第二摘要信息; 和/或,可将第一摘要信息发送给云端,以使云端根据云端数据库确定第一摘要信息是否 属于预设数据库中的第二摘要信息。也就是说,本地的预设的数据库可存储一些热度比较 大的网页对应的第二摘要信息,可先通过本地引擎对本地预设的数据库进行扫描,如果本 地引擎根据第一摘要信息在本地预设的数据库中没有检测到对应的第二摘要信息,则可将 第一摘要信息发送给云端,云端根据云端数据库确定第一摘要信息是否属于预设数据库中 的第二摘要信息。由此,通过本地引擎和云端引擎双效结合,提高了可用性。
[0034] 进一步地,在本发明的一个实施例中,该钓鱼网页的检测方法还可以包括:建立预 设数据库。具体而言,可先获取目标网页,并判断目标网页的访问量是否超过预设访问量, 和/或,目标网页的仿冒次数是否超过预设仿冒次数。之后,在判断目标网页的访问量超过 预设访问量,和/或,目标网页的仿冒次数超过预设仿冒次数时,提取目标网页的网页模板 特征,并获取目标网页的网页模板特征的第二摘要信息以建立预设数据库。
[0035] 需要说明的是,在本发明的一个实施例中,在确定第一摘要信息不属于预设数据 库中的第二摘要信息时,可返回未知信息,并结束待检测网页是否是钓鱼网页的检测。之 后,可通过人工分析该待检测网页是否是钓鱼网页,若不是,则可提取该网页的网页模板特 征,并获取网页模板特征的第二摘要信息,并将其保存至预设数据库中。由此,可扩大和完 善预设数据库。
[0036] S103,在确定第一摘要信息属于预设数据库中的第二摘要信息时,进一步确定待 检测网页的域名和目标网页的域名是否一致。
[0037] S104,在确定待检测网页的域名和目标网页的域名不一致时,确定待检测网页是 仿冒目标网页的钓鱼网页。
[0038] 应当理解,在本发明的实施例中,在确定第一摘要信息属于预设数据库中的第二 摘要信息,并确定待检测网页的域名和目标网页的域名一致时,可确定该待检测网页是安 全网页,不是钓鱼网页。
[0039] 本发明实施例的钓鱼网页的检测方法,可提取待检测网页的网页模板特征并获取 其第一摘要信息,并在确定第一摘要信息属于预设数据库中的第二摘要信息时,进一步确 定待检测网页的域名和目标网页的域名是否一致,当不一致时,确定待检测网页是仿冒目 标网页的钓鱼网页,避免了钓鱼网页的域名具有时效性特点的问题,提高了检测的准确度, 并且能够从根本上检测钓鱼网站,从而提高了可行性和可用性。
[0040] 图2是根据本发明另一个实施例的钓鱼网页的检测方法的流程图。
[0041] 为了提升用户体验,在本发明的实施例中,在确定待检测网页是仿冒目标网页的 钓鱼网页之后,可向用户发送警告信息并提供目标网页。具体地,如图2所示,该钓鱼网页 的检测方法可以包括:
[0042] S201,提取待检测网页的网页模板特征,并获取网页模板特征的第一摘要信息。
[0043] S202,确定第一摘要信息是否属于预设数据库中的第二摘要信息,第二摘要信息 是根据目标网页的网页模板特征所获取的摘要信息。
[0044] S203,在确定第一摘要信息属于预设数据库中的第二摘要信息时,进一步确定待 检测网页的域名和目标网页的域名是否一致。
[0045] S204,在确定待检测网页的域名和目标网页的域名不一致时,确定待检测网页是 仿冒目标网页的钓鱼网页。
[0046] S205,向用户发送警告信息并提供目标网页。
[0047] 具体地,在确定待检测网页是仿冒目标网页的钓鱼网页之后,可向用户发送警告 信息,以提示用户正在打开或查看的网页为钓鱼网页,并将被仿冒的目标网页的正确网址 展现给用户,以便用户到目标网页去登录。
[0048] 本发明实施例的钓鱼网页的检测方法,在确定待检测网页是仿冒目标网页的钓鱼 网页之后,可向用户发送警告信息并提供目标网页,以便用户到目标网页去登录,提升了用 户体验。
[0049] 图3是根据本发明又一个实施例的钓鱼网页的检测方法的流程图。
[0050] 为了提高检测效率,提高检测准确度,在提取待检测网页的网页模板特征之前,还 可确定待检测网页的网址是否在白名单网址列表中,若在,则结束待检测网页是否是钓鱼 网页的检测。具体地,如图3所示,该钓鱼网页的检测方法可以包括:
[0051] S301,确定待检测网页的网址是否在白名单网址列表中。
[0052] 具体地,当用户打开或查看待检测网页时,可先获取待检测网页的网址,之后可判 断待检测网页的网址是否在白名单网址列表中。
[0053] S302,在确定待检测网页的网址不在白名单网址列表中时,提取待检测网页的网 页模板特征,并获取网页模板特征的第一摘要信息。
[0054] S303,确定第一摘要信息是否属于预设数据库中的第二摘要信息,第二摘要信息 是根据目标网页的网页模板特征所获取的摘要信息。
[0055] S304,在确定第一摘要信息属于预设数据库中的第二摘要信息时,进一步确定待 检测网页的域名和目标网页的域名是否一致。
[0056] S305,在确定待检测网页的域名和目标网页的域名不一致时,确定待检测网页是 仿冒目标网页的钓鱼网页。
[0057] S306,向用户发送警告信息并提供目标网页。
[0058] S307,在确定待检测网页的网址在白名单网址列表中时,结束待检测网页是否是 钓鱼网页的检测。
[0059] 具体地,在确定待检测网页的网址在白名单网址列表中时,可确定用户访问的待 检测网页是正常网页,可结束待检测网页是否是钓鱼网页的检测,省去了之后的检测过程。 由此,提高了检测效率,提高了检测准确度。
[0060] 本发明实施例的钓鱼网页的检测方法,在提取待检测网页的网页模板特征之前, 可确定待检测网页的网址是否在白名单网址列表中,若在,则可结束待检测网页是否是钓 鱼网页的检测,省去了之后的检测过程,提高了检测效率,并提高了检测准确度。
[0061] 图4是根据本发明再一个实施例的钓鱼网页的检测方法的流程图。
[0062] 为了进一步提高检测效率,在提取待检测网页的网页模板特征之前,还可确定待 检测网页中是否包含登录标签信息,若不包含,则可结束待检测网页是否是钓鱼网页的检 测。具体地,如图4所示,该钓鱼网页的检测方法可以包括 :
[0063] S401,确定待检测网页的网址是否在白名单网址列表中。
[0064] S402,在确定待检测网页的网址不在白名单网址列表中时,确定待检测网页中是 否包含登录标签信息。
[0065] 例如,可通过判断待检测网页中是否包含〈input type ='password'/>,以确定待 检测网页中是否包含登录标签信息。
[0066] S403,在确定待检测网页中包含登录标签信息时,提取待检测网页的网页模板特 征,并获取网页模板特征的第一摘要信息。
[0067] S404,确定第一摘要信息是否属于预设数据库中的第二摘要信息,第二摘要信息 是根据目标网页的网页模板特征所获取的摘要信息。
[0068] S405,在确定第一摘要信息属于预设数据库中的第二摘要信息时,进一步确定待 检测网页的域名和目标网页的域名是否一致。
[0069] S406,在确定待检测网页的域名和目标网页的域名不一致时,确定待检测网页是 仿冒目标网页的钓鱼网页。
[0070] S407,向用户发送警告信息并提供目标网页。
[0071] S408,在确定待检测网页的网址在白名单网址列表中,或,确定待检测网页中不包 含登录标签信息时,结束待检测网页是否是钓鱼网页的检测。
[0072] 具体地,在确定待检测网页中不包含登录标签信息时,可确定用户访问的待检测 网页不包含登录页面,即用户不需要输入有关自己的隐私信息(如账号、密码等信息)就可 访问网页,这样钓鱼网页对于用户来说危害会大大减小,此时可结束待检测网页是否是钓 鱼网页的检测,省去了之后的检测过程。由此,提高了检测效率。
[0073] 需要说明的是,在本发明的一个实施例中,步骤S401(即确定待检测网页的网址 是否在白名单网址列表中)是可选的。应当理解,在本发明的另一个实施例中,步骤S402 也可在步骤S401之前执行。也就是说,可先确定待检测网页中是否包含登录标签信息;若 包含,则再确定待检测网页的网址是否在白名单网址列表中。
[0074] 本发明实施例的钓鱼网页的检测方法,在提取待检测网页的网页模板特征之前, 可确定待检测网页的网址是否包含登录标签信息,若不包含,则可结束待检测网页是否是 钓鱼网页的检测,省去了之后的检测过程,进一步提高了检测效率。
[0075] 为了实现上述实施例,本发明的实施例还提出一种钓鱼网页的检测装置,包括:获 取模块,用于提取待检测网页的网页模板特征,并获取网页模板特征的第一摘要信息;第一 确定模块,用于确定第一摘要信息是否属于预设数据库中的第二摘要信息,第二摘要信息 是根据目标网页的网页模板特征所获取的摘要信息;第二确定模块,用于在第一确定模块 确定第一摘要信息属于预设数据库中的第二摘要信息时,进一步确定待检测网页的域名和 目标网页的域名是否一致;以及第三确定模块,用于第二确定模块确定待检测网页的域名 和目标网页的域名不一致时,确定待检测网页是仿冒目标网页的钓鱼网页。
[0076] 图5是根据本发明一个实施例的钓鱼网页的检测装置的结构示意图。
[0077] 如图5所示,该钓鱼网页的检测装置包括:获取模块10、第一确定模块20、第二确 定模块30和第三确定模块40。
[0078] 具体地,获取模块10可用于提取待检测网页的网页模板特征,并获取网页模板特 征的第一摘要信息。其中,在本发明的一个实施例中,待检测网页可以是用户登录页面。应 当理解,目前网页数量非常庞大,保护每个网页是不现实也是没必要的,钓鱼网站的最终目 的是要盗取用户的有用信息(如账号、密码等信息),由此可知,只需检测用户登录页面即 可有效地保护了用户信息,这样大大的缩减了保护范围,且将一个不收敛的问题变成了一 个收敛的问题,提高了可行性。
[0079] 此外,在本发明的一个实施例中,网页模板特征可包括网页标题、网页的描述信 息、网页的版权信息、网页的〈hl>〈h2Xh3Xh4>标签的内容信息、网页的<p>标签的内容信 息、网页的样式表信息、网页的表单信息、网页的导航信息、网页的标签框架信息、网页的显 示图标信息等中的至少一种。
[0080] 另外,第一摘要信息可以是HTML文件的信息。应当理解,由于钓鱼网页的URL均 具有时效性,且钓鱼网页的页面模板会跟被仿冒的目标网页的模板基本相似,因此,判断待 检测网页是否是钓鱼网页时还需获取待检测网页对应的HTML文件信息,这样可有效地对 付自动生成的钓鱼网页识别和随机更新域名的钓鱼网站。
[0081] 也就是说,获取模块10可先从待检测网页(即用户登录页面)中提取网页模板特 征,之后可从网页模板特征中获取网页中的HTML文件的信息。
[0082] 第一确定模块20可用于确定第一摘要信息是否属于预设数据库中的第二摘要信 息,第二摘要信息是根据目标网页的网页模板特征所获取的摘要信息。其中,在本发明的一 个实施例中,第二摘要信息可以是HTML文件的信息。
[0083] 具体而言,第一确定模块20可根据本地预设的数据库,确定第一摘要信息是否属 于第二摘要信息;和/或,可将第一摘要信息发送给云端,以使云端根据云端数据库确定第 一摘要信息是否属于预设数据库中的第二摘要信息。。也就是说,本地的预设的数据库可存 储一些热度比较大的网页对应的第二摘要信息,第一确定模块20可先通过本地引擎对本 地预设的数据库进行扫描,如果本地引擎根据第一摘要信息在本地预设的数据库中没有检 测到对应的第二摘要信息,则可将第一摘要信息发送给云端,云端根据云端数据库确定第 一摘要信息是否属于预设数据库中的第二摘要信息。由此,通过本地引擎和云端引擎双效 结合,提高了可用性。
[0084] 需要说明的是,在本发明的一个实施例中,在确定第一摘要信息不属于预设数据 库中的第二摘要信息时,可返回未知信息,并结束待检测网页是否是钓鱼网页的检测。之 后,可通过人工分析该待检测网页是否是钓鱼网页,若不是,则可提取该网页的网页模板特 征,并获取网页模板特征的第二摘要信息,并将其保存至预设数据库中。由此,可扩大和完 善预设数据库。
[0085] 第二确定模块30可用于在第一确定模块20确定第一摘要信息属于预设数据库中 的第二摘要信息时,进一步确定待检测网页的域名和目标网页的域名是否一致。第三确定 模块40可用于第二确定模块确定30待检测网页的域名和目标网页的域名不一致时,确定 待检测网页是仿冒目标网页的钓鱼网页。
[0086] 应当理解,在本发明的实施例中,在确定第一摘要信息属于预设数据库中的第二 摘要信息,并确定待检测网页的域名和目标网页的域名一致时,可确定该待检测网页是安 全网页,不是钓鱼网页。
[0087] 本发明实施例的钓鱼网页的检测装置,可通过获取模块提取待检测网页的网页模 板特征并获取其第一摘要信息,第二确定模块在第一确定模块确定第一摘要信息属于预设 数据库中的第二摘要信息时,进一步确定待检测网页的域名和目标网页的域名是否一致, 在不一致时,第三确定模块确定待检测网页是仿冒目标网页的钓鱼网页,避免了钓鱼网页 的域名具有时效性特点的问题,提高了检测的准确度,并且能够从根本上检测钓鱼网站,从 而提高了可行性和可用性。
[0088] 图6是根据本发明另一个实施例的钓鱼网页的检测装置的结构示意图。
[0089] 如图6所示,该钓鱼网页的检测装置可以包括:获取模块10、第一确定模块20、第 二确定模块30、第三确定模块40、发送模块50。
[0090] 具体地,发送模块50可用于在第三确定模块40确定待检测网页是仿冒目标网页 的钓鱼网页之后,向用户发送警告信息并提供目标网页。更具体地,发送模块50在第三确 定模块40确定待检测网页是仿冒目标网页的钓鱼网页之后,可向用户发送警告信息,以提 示用户正在打开或查看的网页为钓鱼网页,并将被仿冒的目标网页的正确网址展现给用 户,以便用户到目标网页去登录。由此,提升了用户体验。
[0091] 可选地,在本发明的一个实施例中,如图6所示,该钓鱼网页的检测装置还可以包 括第四确定模块60和退出模块70。第四确定模块60可用于在获取模块10提取待检测网 页的网页模板特征之前,确定待检测网页的网址是否在白名单网址列表中。退出模块70可 用于在第四确定模块60确定待检测网页的网址在白名单网址列表中时,结束待检测网页 是否是钓鱼网页的检测。
[0092] 更具体地,当用户打开或查看待检测网页时,第四确定模块60可先获取待检测网 页的网址,之后可判断待检测网页的网址是否在白名单网址列表中。退出模块70在第四确 定模块60确定待检测网页的网址在白名单网址列表中时,可确定用户访问的待检测网页 是正常网页,可结束待检测网页是否是钓鱼网页的检测,省去了之后的检测过程。由此,提 高了检测效率,并提高了检测准确度。
[0093] 可选地,在本发明的一个实施例中,如图6所示,该钓鱼网页的检测装置还可以包 括第五确定模块80,第五确定模块80可用于在获取模块10提取待检测网页的网页模板特 征之前,确定待检测网页中是否包含登录标签信息。其中,在本发明的一个实施例中,退出 模块70还可用于在第五确定模块80确定待检测网页中不包含登录标签信息时,结束待检 测网页是否是钓鱼网页的检测。
[0094] 例如,第五确定模块80可通过判断待检测网页中是否包含〈input type =' password' />,以确定待检测网页中是否包含登录标签信息。退出模块70在第五确定 模块80确定待检测网页中不包含登录标签信息时,可确定用户访问的待检测网页不包含 登录页面,即用户不需要输入有关自己的隐私信息(如账号、密码等信息)即可访问网页, 这样钓鱼网页对于用户来说危害会大大减小,此时可结束待检测网页是否是钓鱼网页的检 测,省去了之后的检测过程。由此,提高了检测效率。
[0095] 进一步地,在本发明的一个实施例中,如图6所示,该钓鱼网页的检测装置还可包 括建立模块90,建立模块90可用于建立预设数据库。具体而言,在本发明的实施例中,建立 模块90可包括获取单元91、判断单元92和建立单元93。获取单元91可用于获取目标网 页。判断单元92可用于判断目标网页的访问量是否超过预设访问量,和/或,目标网页的 仿冒次数是否超过预设仿冒次数。建立单元93可用于在判断单元92判断目标网页的访问 量超过预设访问量,和/或,目标网页的仿冒次数超过预设仿冒次数时,提取目标网页的网 页模板特征,并获取目标网页的网页模板特征的第二摘要信息以建立预设数据库。由此,根 据预设数据库方便确定第一摘要信息是否属于预设数据库中的第二摘要信息,提高了可用 性。
[0096] 在本发明的描述中,需要理解的是,术语"第一"、"第二"仅用于描述目的,而不能 理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有"第 一"、"第二"的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,"多个" 的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0097] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括 一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部 分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺 序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明 的实施例所属【技术领域】的技术人员所理解。
[0098] 在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是 用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以 供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指 令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置 或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传 播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使 用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个 布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读 存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光 盘只读存储器(⑶ROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其 他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必 要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器 中。
[0099] 应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述 实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件 或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下 列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路 的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场 可编程门阵列(FPGA)等。
[0100] 本【技术领域】的普通技术人员可以理解实现上述实施例方法携带的全部或部分步 骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介 质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0101] 此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以 是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模 块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如 果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机 可读取存储介质中。
[0102] 上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0103] 在本说明书的描述中,参考术语"一个实施例"、"一些实施例"、"示例"、"具体示 例"、或"一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特 点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不 一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何 的一个或多个实施例或示例中以合适的方式结合。
[0104] 尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不 脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本 发明的范围由权利要求及其等同物限定。
【权利要求】
1. 一种钓鱼网页的检测方法,其特征在于,包括: 提取待检测网页的网页模板特征,并获取所述网页模板特征的第一摘要信息; 确定所述第一摘要信息是否属于预设数据库中的第二摘要信息,所述第二摘要信息是 根据目标网页的网页模板特征所获取的摘要信息; 在确定所述第一摘要信息属于预设数据库中的第二摘要信息时,进一步确定所述待检 测网页的域名和所述目标网页的域名是否一致;以及 在确定所述待检测网页的域名和所述目标网页的域名不一致时,确定所述待检测网页 是仿冒所述目标网页的钓鱼网页。
2. 根据权利要求1所述的方法,其特征在于,所述待检测网页是用户登录页面。
3. 根据权利要求1所述的方法,其特征在于,所述第一摘要信息和所述第二摘要信息 是HTML文件的信息。
4. 根据权利要求1所述的方法,其特征在于,所述确定所述第一摘要信息是否属于预 设数据库中的第二摘要信息,包括: 根据本地预设的数据库,确定所述第一摘要信息是否属于第二摘要信息;和/或, 将所述第一摘要信息发送给云端,以使所述云端根据云端数据库确定所述第一摘要信 息是否属于预设数据库中的第二摘要信息。
5. 根据权利要求1所述的方法,其特征在于,在所述确定所述待检测网页是仿冒所述 目标网页的钓鱼网页之后,还包括: 向用户发送警告信息并提供所述目标网页。
6. 根据权利要求1或5所述的方法,其特征在于,在所述提取待检测网页的网页模板特 征之前,所述方法还包括: 确定所述待检测网页的网址是否在白名单网址列表中; 在确定所述待检测网页的网址在白名单网址列表中时,结束所述待检测网页是否是所 述钓鱼网页的检测。
7. 根据权利要求1或5所述的方法,其特征在于,在所述提取待检测网页的网页模板特 征之前,所述方法还包括: 确定所述待检测网页中是否包含登录标签信息; 在确定所述待检测网页中不包含登录标签信息时,结束所述待检测网页是否是所述钓 鱼网页的检测。
8. 根据权利要求1或5所述的方法,其特征在于,还包括:建立所述预设数据库,所述 建立所述预设数据库,包括: 获取所述目标网页,并判断所述目标网页的访问量是否超过预设访问量,和/或,所述 目标网页的仿冒次数是否超过预设仿冒次数; 在判断所述目标网页的访问量超过预设访问量,和/或,所述目标网页的仿冒次数超 过预设仿冒次数时,提取所述目标网页的网页模板特征,并获取所述目标网页的网页模板 特征的第二摘要信息以建立所述预设数据库。
9. 根据权利要求1或5所述的方法,其特征在于,所述网页模板特征包括网页标题、网 页的描述信息、网页的版权信息、网页的〈hl>〈h2Xh3Xh4>标签的内容信息、网页的<p>标 签的内容信息、网页的样式表信息、网页的表单信息、网页的导航信息、网页的标签框架信 息、网页的显示图标信息中的至少一种。
10. -种钓鱼网页的检测装置,其特征在于,包括: 获取模块,用于提取待检测网页的网页模板特征,并获取所述网页模板特征的第一摘 要信息; 第一确定模块,用于确定所述第一摘要信息是否属于预设数据库中的第二摘要信息, 所述第二摘要信息是根据目标网页的网页模板特征所获取的摘要信息; 第二确定模块,用于在所述第一确定模块确定所述第一摘要信息属于预设数据库中的 第二摘要信息时,进一步确定所述待检测网页的域名和所述目标网页的域名是否一致;以 及 第三确定模块,用于所述第二确定模块确定所述待检测网页的域名和所述目标网页的 域名不一致时,确定所述待检测网页是仿冒所述目标网页的钓鱼网页。
11. 根据权利要求10所述的装置,其特征在于,所述待检测网页是用户登录页面。
12. 根据权利要求10所述的装置,其特征在于,所述第一摘要信息和所述第二摘要信 息是HTML文件的信息。
13. 根据权利要求10所述的装置,其特征在于,所述第一确定模块具体用于: 根据本地预设的数据库,确定所述第一摘要信息是否属于第二摘要信息;和/或, 将所述第一摘要信息发送给云端,以使所述云端根据云端数据库确定所述第一摘要信 息是否属于预设数据库中的第二摘要信息。
14. 根据权利要求10所述的装置,其特征在于,还包括: 发送模块,用于在所述第三确定模块确定所述待检测网页是仿冒所述目标网页的钓鱼 网页之后,向用户发送警告信息并提供所述目标网页。
15. 根据权利要求10或14所述的装置,其特征在于,还包括: 第四确定模块,用于在所述获取模块提取所述待检测网页的网页模板特征之前,确定 所述待检测网页的网址是否在白名单网址列表中;以及 退出模块,用于在所述第四确定模块确定所述待检测网页的网址在白名单网址列表中 时,结束所述待检测网页是否是所述钓鱼网页的检测。
16. 根据权利要求10或14所述的装置,其特征在于,还包括: 第五确定模块,用于在所述获取模块提取所述待检测网页的网页模板特征之前,确定 所述待检测网页中是否包含登录标签信息;其中, 所述退出模块还用于在所述第五确定模块确定所述待检测网页中不包含登录标签信 息时,结束所述待检测网页是否是所述钓鱼网页的检测。
17. 根据权利要求10或14所述的装置,其特征在于,还包括:建立模块,用于检测所述 预设数据库,所述建立模块包括: 获取单元,用于获取所述目标网页; 判断单元,用于判断所述目标网页的访问量是否超过预设访问量,和/或,所述目标网 页的仿冒次数是否超过预设仿冒次数; 建立单元,用于在所述判断单元判断所述目标网页的访问量超过预设访问量,和/或, 所述目标网页的仿冒次数超过预设仿冒次数时,提取所述目标网页的网页模板特征,并获 取所述目标网页的网页模板特征的第二摘要信息以建立所述预设数据库。
18.根据权利要求10或14所述的装置,其特征在于,所述网页模板特征包括网页标题、 网页的描述信息、网页的版权信息、网页的〈hl>〈h2Xh3Xh4>标签的内容信息、网页的<p> 标签的内容信息、网页的样式表信息、网页的表单信息、网页的导航信息、网页的标签框架 信息、网页的显示图标信息中的至少一种。
【文档编号】H04L29/06GK104050257SQ201410265323
【公开日】2014年9月17日 申请日期:2014年6月13日 优先权日:2014年6月13日
【发明者】梅银明, 邹荣新, 刘军 申请人:百度国际科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1