钓鱼网站检测规则的自动生成方法及装置的制造方法
【技术领域】
[0001]本发明涉及互联网技术领域,特别是涉及一种钓鱼网站检测规则的自动生成方法及装置。
【背景技术】
[0002]钓鱼网站是指伪装的银行、电子商务等网站,黑客利用钓鱼网站可以窃取用户提交的银行帐号、密码等私密信息。因此,钓鱼网站的检测是及其重要的。
[0003]现有技术中,钓鱼网站的检测方法主要是通过获取URL(Uniform ResourceLocator,统一资源定位符)请求目标网站的页面内容,并对页面内容中的特征向量进行识别,从而判断该目标网站是否为钓鱼网站。例如,可以通过目标网站页面内容布局(如链接、图标和搜索栏的位置)与银行页面布局的相似度来判断目标网站是否为钓鱼网站。对于这种基于网站页面内容的检测方式,有些钓鱼网站却存在一定的攻防机制,即当钓鱼网站检测到某设备发送获取页面内容的请求时,钓鱼网站会通过该请求识别发送方的IP(Internet Protocol,网间协议)地址,并将该IP地址进行屏蔽,从而使得发送方无法获得钓鱼网站的页面内容,进而无法通过页面内容进行钓鱼网站的检测。
【发明内容】
[0004]有鉴于此,本发明提供一种钓鱼网站检测规则的自动生成方法及装置,能够自动生成关于URL的检测规则,从而解决现有技术中无法通过页面内容进行钓鱼网站检测的问题。
[0005]—方面,本发明提供了一种钓鱼网站检测规则的自动生成方法,所述方法包括:
[0006]获取已出库的统一资源定位符URL,所述已出库的URL为已知钓鱼网站的URL ;
[0007]将所述已出库的URL中域名字段内容删除,并保留路径字段内容;
[0008]将所述路径字段内容中关键字的参数值删除;
[0009]按照排序规则对所述路径字段内容中的各个关键字进行排序,获得包含检测特征的规则URL,以便后续通过所述规则URL对未知网站的URL进行检测。
[0010]另一方面,本发明提供了一种钓鱼网站检测规则的自动生成装置,所述装置包括:
[0011]获取单元,用于获取已出库的统一资源定位符URL,所述已出库的URL为已知钓鱼网站的URL ;
[0012]删除单元,用于将所述获取单元获取的所述已出库的URL中域名字段内容删除;
[0013]保留单元,用于保留所述删除单元获得的路径字段内容;
[0014]所述删除单元,还用于将所述保留单元保留的所述路径字段内容中关键字的参数值删除;
[0015]排序单元,用于按照排序规则对所述删除单元获得的所述路径字段内容中的各个关键字进行排序,获得包含检测特征的规则URL,以便后续通过所述规则URL对未知网站的URL进行检测。
[0016]借由上述技术方案,本发明提供的钓鱼网站检测规则的自动生成方法及装置,能够将已出库的URL中域名字段内容删除,并保留路径字段内容,然后将路径字段内容中的关键字的参数值删除,并对各个关键字进行排序,最终获得包含检测特征的规则URL。与现有技术中将页面内容作为检测钓鱼网站的规则相比,本发明仅通过对已知钓鱼网站的URL进行非共性内容删除,从而获得含有检测特征(即共性内容)的规则URL,进而在进行钓鱼网站的识别过程中,只需将规则URL与未知网站的URL进行对比即可,而无需获取未知网站的页面内容,由此避免了因无法获取页面内容而无法对未知网站进行检测的情况。
[0017]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0018]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0019]图1示出了本发明实施例提供的一种钓鱼网站检测规则的自动生成方法的流程图;
[0020]图2示出了本发明实施例提供的一种钓鱼网站检测规则的自动生成装置的组成框图;
[0021]图3示出了本发明实施例提供的另一种钓鱼网站检测规则的自动生成装置的组成框图。
【具体实施方式】
[0022]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0023]本发明实施例提供了一种钓鱼网站检测规则的自动生成方法,如图1所示,该方法包括:
[0024]101、获取已出库的URL。
[0025]其中,已出库的URL为已知钓鱼网站的URL,已知钓鱼网站为目前已经确定为钓鱼网站的网站。一般情况下,URL由协议字段、域名字段和路径字段组成,但有的URL中也包含端口号字段和文件名字段等。
[0026]在实际应用中,黑客开发的若干钓鱼网站的域名不相同,但是路径、文件格式等都是相似或者相同的,即不同钓鱼网站的URL存在共性因素和非共性因素。因此,钓鱼网站检测服务器可以删除URL中的非共性因素,保留共性因素,然后利用共性因素来作为检测钓鱼网站的检测规则,从而实现钓鱼网站的识别。其具体实现方式如步骤102-104。
[0027]102、将已出库的URL中域名字段内容删除,并保留路径字段内容。
[0028]由于一个域名一般只能对应一个网站,所以不同的钓鱼网站的域名是不同的,所以域名字段内容是非共性因素,需要将其删除,而不同钓鱼网站的URL中路径字段却存在相同特征(即共性因素),所以需要保留路径字段内容。
[0029]示例性的,若已出库的一个URL为“http://a.com/ ? src = bm”,则钓鱼网站检测服务器需要将“a.com”删除,保留“? src = bm,,,即处理后的URL变为“http:/// ? src=bm” (也可以将协议字段内容删除,即“:/// ? src = bm”)。
[0030]103、将路径字段内容中关键字的参数值删除。
[0031]在实际应用中,不同网站的URL中路径字段内容的关键字往往设置相同,但是由于是不同的网站,所以关键字的参数值不同。由此可知,路径字段内容中的各个关键字是钓鱼网站URL的共性因素,而关键字的具体取值(即参数值)是非共性因素。因此,钓鱼网站检测服务器可以将路径字段内容中关键字的参数值删除,保留共性因素关键字(即检测特征),便于后续对未知网站的URL进行特征检测。
[0032]示例性的,若已知钓鱼网站的一个URL为“http://a.com/ ? src = lm&ls =n72f234da92”,则将域名字段内容和关键字的参数删除之后,该URL变为“http:/// ? src=&ls =”。由此可知,“http:/// ? src = &ls =”中含有检测特征“src”和“ls”,可通过这些检测特征来检测未知网站的URL,从而判断该未知网站是否是钓鱼网站。
[0033]需要说明的是,上述路径字段内容中的关键字为query部分中的关键字,若路径字段内容中包含目录等路径,则需要保留。
[0034]104、按照排序规则对路径字段内容中的各个关键字进行排序,获得包含检测特征的规则URL,以便后续通过规则URL对未知网站的URL进行检测。
[0035]在实际应用中,由于路径字段内容中各个关键字的含义是固定的,所以即使改变各个关键字的排列顺序,具体的路径也不会改变。然而不同网站URL中路径字段内容的关键字的顺序往往存在差异,在这种情况下,当将经步骤101-103变化后的URL作为规则URL时,会将一些仅与规则URL路径字段内容中关键字的顺序不同而其他都相同的URL误认为是正常网站的URL。因此为了避免上述情况的发生,钓鱼网站检测服务器可以按照排序规则对路径字段内容中的各个关键字进行排序,从而获得包含检测特征的规则URL。
[00