一种网站钓鱼伪装识别方法与流程

文档序号：15567624发布日期：2018-09-29 03:42阅读：250来源：国知局

本申请涉及计算机网络领域，尤其涉及一种识别网站钓鱼伪装的方法。
背景技术：
：网络钓鱼攻击，它是发送假冒伪造的源自于银行或信誉度较高的知名机构团队的诈骗性垃圾短信、冒名邮件，来诱骗收件人吐露出私人敏感信息(诸如username、口令、账户id、password、atmpin码、信用卡信息等等)，是一种极其恶意的网络攻击方式常见的情况是仿冒支付交易平台、电商在线支付平台等，来诱惑网民不经意间登陆或注册钓鱼网站，而盗取网民的私人信息，以便获得更大盈利。最经典的网络钓鱼诈骗是将网民用户通过各种手段引诱其打开一个制作成与合法受保护网站相似度很高的钓鱼网站url链接地址，打开后通过该网名用户登录或注册来窃取该用户的私人信息。通常整个钓鱼攻击过程是不会让受害者警惕，而且极难追查，具有危害性大，隐蔽性强的特点，它是″社会工程学攻击″的一种表现形式i’网络信息呈爆炸式增长，群众对五花八门的各种信息数据往往难辨其真假，从而使得依托互联网环境发展起来的钓鱼攻击成为一种可行且非常可怕的攻击手段。目前，国内外针对网络钓鱼攻击防御技术的诸多研究其领域有：基于网站钓鱼者行为分析的研究，针对网站钓鱼攻击技术检测，终止钓鱼网站解析域名，黑白名单垃圾邮件过滤准则，钓鱼网站攻击追踪等。近年来，国际上的学者们对网络钓鱼的重视度关注度不断地提升，网络钓鱼防御术也取得了一系列突破。诸如url黑名单过滤机制、钓鱼网站检测技术、图像分割比对技术等，网络钓鱼攻击形式也从最初的假冒知名受保护网站方式发展成向多样化、多元化方式前进。诸如移动端网络钓鱼、面向qr码网络钓鱼、快速多次更替域名网络钓鱼等等，其攻击方式也已经从最初的发送大量垃圾e-mail或短信给网民受害者转变为一种新旧相互结合的多样性攻击方式，即有了目标网民发送假冒信息e-mail、合有欺诈网站的聊天内容信息、移动端url短信、恶意qr码或网页中种入通往钓鱼网站的超链接、虚假广告等多途径方向发展，其危害性逐步提高加重，防御难度也渐渐越来越大。。现如今，网络钓鱼攻击的特点如下所示：(1)钓鱼攻击具有强针对性、目标性(诸如：鱼叉式钓鱼和鲸钓)；(2)钓鱼攻击的技术手法极其变化莫测，已经发现多种新兴钓鱼方法(诸如：勒索软件、伪基站方法、javascript静默偷盗)；(3)钓鱼网站其传播途径更加多样化(诸如：搜索引擎方式、邮件方式、短信方式)；(4)网络钓鱼攻击的利润巨大化催生着其逐渐往产业化方向发展(例如：钓鱼工具包、钓鱼框架等)网络钓鱼攻击的研究是互联网诈骗领域里一个重要的方向。随着互联网被运用到我们生活的方方面面，互联网诈骗已经给我们的生活带来了严重的影响。互联网诈骗形式多样，网络钓鱼就是互联网诈骗中发展迅速的一种。因此研究网络钓鱼攻击行为是很有必要的。因此，面对正在网络环境中钓鱼网站的钓鱼伪装的机制，亟待一种识别方法，能够实时对网站进行马甲检测，并且避免网站误伤，增强识别网站钓鱼伪装的性能，特别地，如果需要识别网站数量较大时，以及需要识别检测的伪装id数据较多的情况下，增强识别网站钓鱼伪装的性能。发明中容本申请提供一种识别网站钓鱼伪装的方法，用以在能够实时对网站进行马甲检测，并且避免网站误伤，增强识别网站钓鱼伪装的性能，特别地，如果需要识别网站数量较大时，以及需要识别检测的伪装id数据较多的情况下，增强识别网站钓鱼伪装的性能。本申请还着重对基于网页源代码的网络钓鱼攻击行为进行了研究，尝试着去发现这些鱼网站中的一些规律现象。为了解决上述问题，本发明请求保护一种识别网站钓鱼伪装的方法，包括：构建伪装id数据库，以及多台服务器中安放所述伪装id数据库，所述伪装id数据库中包括伪装id数据；识别用户正在浏览的待识别网站，抓取网站中的特征数据用于分析；按照所获得的待识别网站的特征数据识别检测找出该数据映射所指的映射服务器；通过该数据映射所指的映射服务器中的伪装id数据库与正在识别网站相比较来识别用户正在浏览的待识别网站中是否有所述伪装id数据库中的伪装id数据；若用户正在浏览的待识别网站中有所述伪装id数据库中的伪装id数据，则识别正在网站为被钓鱼伪装的网站；具体地，所述映射服务器具有服务器id，所述特征数据包括网站聚类数据，所述依据网站的特征数据确定映射的映射服务器的步骤包括：按照预置的网站聚类数据与服务器id的映射关系，提取正在网站聚类数据映射的服务器id；将所述映射服务器id映射的服务器确定为映射服务器。具体地，所述特征数据包括网站的统一资源定位符，对上述的映射服务器而言，每一台映射服务器都有唯一所对应的数值id，通过上述网站的特征数据确定映射的服务器id的具体方法还包括：系统中置映射规则，通过预设映射规则将当前识别网站的统一资源定位符转换为数值；依据前述所获得的数值，按数值提取映射数值id的服务器，此外，还将该服务器用作映射服务器。具体地，网站的聚类划分数据包含有如下中容：网站的中容聚类数据、网站的属性聚类数据、网站的tag聚类数据和网站的类型聚类数据等。具体地，所述伪装id数据库具体的架设方法如下：系统中部已存在很多现有的伪装id数据，采用这些已有的伪装id数据搜索包含所述伪装id数据的网站为特征网站；对上述特征网站进行分析，解析出所述伪装id数据在特征网站中的排版，如果解析的结果显示网站排版存在非法钓鱼伪装，则从网站排版存在非法钓鱼伪装的网站中抽取包含所述伪装id数据的网站元素；依照网站元素构建的伪装规则，使用该伪装规则，将伪装规则假设到其他的特征网站中进行识别检测，并在识别检测的特征网站中获取与之前伪装id数据不同的伪装id数据；将所述伪装id数据形成伪装id数据库并存储于系统内存中。具体地，所述伪装id数据包括钓鱼伪装keyword和伪装统一资源定位符。具体地，所述解析出所述伪装id数据在特征网站中的排版还包括：识别所述伪装id数据在网站中的元素坐标，判断所述伪装id数据的元素坐标是否在预设阈值范围中，如果在预设阈值范围中，就认为所述伪装id数据在特征网站中的排版存在非法钓鱼伪装；和/或，识别所述伪装id数据的网站元素属性，如果经判断所述伪装id数据的网站元素属性后发现其属性设定为隐藏，就判定所述伪装id数据在特征网站中的排版存在非法钓鱼伪装具体地，所述根据网站元素构建伪装规则的方法为：在包含所述钓鱼伪装keyword和/或伪装统一资源定位符的网站元素中，抽取出伪装规则，所述伪装规则基于隐马尔可夫链建立。具体地，所述的方法，还包括：伪装id数据库需要按时更新，依照预设的频率更新所述伪装id数据库。由于中文网页格式有多种编码，常用的就有gb2312，gbk，utf-8等，导致在处理网页内容过程中会出现乱码而处理出错，因此需要统一编码格式。所以在涉及文本的读取和保存的地方，全部使用utf-8格式进行规范化。根据网站的建立信息得到的是信誉度，但是我们还不能确定网站的用途，因此通过对其内容的判定可以识别其目的，这样相对于只是用支持向量机算法来进行识别的稳定性和正确率有所提高并且，基于网络爬虫技术和浏览器中防钓鱼技术的实现，也有效保证了识别网站钓鱼伪装的安全性、可信度和准确度。附图说明被包括来提供对所公开主题的进一步认识的附图，将被并入此说明书并构成该说明书的一部分。附图也阐明了所公开主题的实现，以及连同详细描述一起用于解释所公开主题的实现原则。没有尝试对所公开主题的基本理解及其多种实践方式展示超过需要的结构细节。图1是本申请的一种识别网站钓鱼伪装的方法实施例的流程图；具体实施方式本发明的优点、特征以及达成所述目的的方法通过附图及后续的详细说明将会明确。传统的单纯基于url黑名单识别方式在今天海量的钓鱼网站面前显得力不从心，必须配合其他识别方式才能很好地工作。随后出现了许多新的识别方法，比如基于网页结构的识别方法，但是语言表达方式的多样性使得此种方法相当不可靠，几乎不可用。而基于图像识别的钓鱼网站识别方式衍生出多种识别方法，但是受制于图像识别本身的缺陷，其在识别时需要做到精确匹配，那么就要求钓鱼网站和被模仿的网站完全相似。因此对一大部分假冒购物网站就不能做到很好的识别，且工作时速度很慢。对于反钓鱼的方法目前比较流行的有：继续保留url黑名单匹配模块。由于域名所具有的标识性，其注册后的有效期比较长，在此期间域名的持有人一般不会发生变化，因此当一个url链接被标识钓鱼链接加入黑名单后，在其注册的过期时间到来之前都可认为其一直是用于钓鱼诈骗。在判别信誉度前对网页进行分姐。传统的识别方法要么是孤立地判别某个方面的特征，要么就是使用图形相似度判断。而只是用某方面的特征进行判断时很容易被针对性的绕过，使得检测的效果急剧下降。比如仅仅使用svm对网页特征进行二值计算，结果是误判率的急剧上升，到后期误判率就维持在了一个很高的水平。而使用图形相似度判断时需要将样本与模板进行匹配计算，在这个过程中如果两个图片的大小相差比较大，那么对结果的判定影响很大并且计算图片的相似度需要消耗大量的时间和存储空间。而且对一部分简要的单纯收集账户和密码的钓鱼网站几乎没有识别能力。本申请探索结合多种方式来进行钓鱼网站识别。在进行分组前需要建立聚类中也。先固定选取聚类中心，然后通过k-means算法重新计算各个组别的新的聚类中心。然后使用获得的新的聚类中心作为计算相似度的模板来与样本进行相似度计算，获取到样本的所属组别。获取到新的分组后，提取组别中所有成员的网页特征值作为训练值用于支持向量机的学习。参照图1，示出了本申请的一种识别网站钓鱼伪装的方法实施例的步骤流程图，具体可以包括如下步骤：步骤a、构建伪装id数据库，以及多台服务器中安放所述伪装id数据库，所述伪装id数据库中包括伪装id数据；举例说明，所述伪装id数据包括钓鱼伪装keyword和伪装统一资源定位符。如钓鱼伪装keyword″建行信贷″，伪装统一资源定位符″http://www.ccb.gov.cn″等。在本申请中可以通过以下子步骤构建伪装id数据库：步骤a1、系统中部已存在很多现有的伪装id数据，采用这些已有的伪装id数据搜索包含所述伪装id数据的网站为特征网站；步骤a2、对上述特征网站进行分析，解析出所述伪装id数据在特征网站中的排版，如果解析的结果显示网站排版存在非法钓鱼伪装，则从网站排版存在非法钓鱼伪装的网站中抽取包含所述伪装id数据的网站元素；步骤a3、依照网站元素构建的伪装规则，使用该伪装规则，将伪装规则架设到其他的特征网站中进行识别检测，并在识别检测的特征网站中获取与之前伪装id数据不同的伪装id数据；步骤a4、所述伪装id数据形成伪装id数据库并存储于系统内存中；钓鱼网站是具有团队性的恶意攻击性行为，这种行为可能是个人或团队，通过相同固有服务器针对某一固有官方受保护网站进行快速多次攻击的恶意网络犯罪行为。这类钓鱼攻击性行为特征多表现为目标性强，能够快速产生成千上万次攻击，攻击行为极为类似，攻击次数较多。使用svm算法在训练阶段进行样本特征有效性的选取，提取出每个组别有效的参数特征。访问目标链接后使用前面的步骤获取到目标网页，对其进行分组，然后提取对应分纪中的特征值与目标网页的特征属性进行svm识别。最终得出目标链接是否钓鱼网站。当发现排版存在非法钓鱼伪装时，从该排版存在非法钓鱼伪装的特征网站中提取包含所述所述钓鱼伪装keyword和/或伪装统一资源定位符的网站元素；然后从包含所述钓鱼伪装keyword和/或伪装统一资源定位符的网站元素中，抽象出隐马尔可夫链作为伪装规则。隐马尔科夫模型(hiddenmarkovmodels，hmm)是以马尔科夫链为基础演化得来的，但在具体应用中的问题往往比马尔科夫模型刻画的问题更加繁杂，观察到的事件不能与其相关状态对应，而通过采用观察概率分布之间的关系来对应，将这种模型称为隐马尔科夫模型。采用伪装规则在其他特征网站中进行识别检测，可以提取更多的伪装id数据，训练更多伪装规则，最终可形成针对全网伪装的伪装id数据库。由于挂伪装如今已形成一个产业链，所以相同的钓鱼伪装keyword和/或黑链统一资源定位符会大量出现在其他被钓鱼伪装的网站中。采用隐马尔可夫链作为伪装规则在网站中进行识别检测，以提取更多的伪装id数据，训练更多伪装规则，更适用于正在伪装产业化的情形，能更快更多地发现被钓鱼伪装的网站，有效提高识别网站钓鱼伪装的效率。为适用所需识别网站数量众多，并且，所需识别检测的伪装id数据较多的情形，在本申请实施例中，需要将所构建的伪装id数据库安放于到多台服务器中，如安放于到后台的10台服务器中，每台服务器中所安放于的伪装id数据库中容相同。在具体实现中，由于伪装id数据具有一定的时效性，可以按预设时间间隔发起对所述伪装id数据库的更新，具体可以通过重复上述子步骤s111-s114完成伪装id数据库的更新。步骤12、获取正在识别网站的特征数据；步骤13、依据所述网站的特征数据确定映射的映射服务器；在具体实现中，对于伪装id库所安放于的服务器，可以分别设置服务器id，所述id可以采用任一种规则和形式设置，比如，数字排序，字符排序等，本申请对此不作限制。作为本申请实施例具体应用的一种示例，所述特征数据可以包括网站聚类数据，在这种情况下，所述步骤103具体可以包括如下子步骤：子步骤s311、按照预置的网站聚类数据与服务器id的映射关系，提取正在网站聚类数据映射的服务器id；子步骤s312、将所述映射服务器id映射的服务器确定为映射服务器。在具体实现中，所述网站聚类数据可以为网站的中容聚类数据，例如，根据网站中容将网站分为游戏类、电影类、小说类、视频类、音乐类、购物类、邮箱类、生活类、银行类、旅游类等；预置上述各类网站中容分别与服务器id的映射如下表所示：网站中容分类信息服务器id游戏类abc参照上表，若获取到正在识别网站的中容聚类为游戏类，则确定映射服务器为aaaid的服务器，若获取到正在识别网站的中容聚类为旅游类，则确定映射服务器为kkkid的服务器。在具体应用中，所述网站聚类数据还可以是网站类型的聚类数据，例如，根据网站类型将网站分成：html型首页、flash型首页、导入首页、html型一级网站、html型网站中块映射的二级网站、html型网站中块中容映射的三级网站、通用一级网站、通用二级网站、列表一级网站、列表二级网站；预置上述各类网站类型分别与服务器id的映射如下表所示：参照上表，若获取到正在识别网站的类型为通用一级网站则确定映射服务器为777id的服务器，若获取到正在识别网站的类型为html型首页，则确定映射服务器为111id的服务器。在实际中，本领域技术人员采用任一种网站聚类数据均是可行的，例如，还可以采用网站的属性聚类数据，网站的tag聚类数据等，本申请实施例对此无需加以任何限制。在本申请的另一种优选实施例中，所述特征数据可以包括网站的统一资源定位符，所述映射服务器具有数值id，在这种情况下，所述步骤103具体可以包括如下子步骤：子步骤s321、采用预设算法将正在识别网站的统一资源定位符转换为数值；子步骤s322、按所述数值提取映射数值id的服务器为映射服务器。例如，架设正在伪装数据库安放于于n台服务器上，在获取到正在识别网站的统一资源定位符(统一资源定位符，网页地址)时，将该统一资源定位符作为输入，调用随机算法，如md5算法，获得某一字符串(如32字节的字符串)，然后将字符串采用某种映射规则映射到一数值，将该数值作为映射的服务器n的值，如获得的数值为2，即获得将要保存的服务器id为2，即可确定映射服务器为id2的服务器。当然，上述依据网站的特征数据确定映射的映射服务器的方法仅仅用作示例，本领域技术人员可以根据实际情况采用任一种方法，比如采用将网站的tag字符串转换为固定值的方法等，本申请对此无需加以限制。步骤14、采用所述映射服务器中的伪装id数据库与正在识别网站进行识别检测，判断正在识别网站中是否包含所述伪装id数据库中的伪装id数据，若是，则判定正在网站为被钓鱼伪装网站。在实际中，若正在识别网站中未包含所述伪装id数据库中的伪装id数据，则可判定正在网站未被钓鱼伪装。本发明实施例通过采用对伪装id数据库进行分布式处理和应用的架构，当存在多个网站的并发识别请求时，能有效分散服务器的识别压力，从而有效节省系统资源。需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴红英;张艳艳;高明月
技术所有人：尚谷科技（天津）有限公司;吴红英;张艳艳;高明月
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。