一种网页跳转方法及装置与流程

文档序号:20617841发布日期:2020-05-06 20:23阅读:154来源:国知局
一种网页跳转方法及装置与流程

本申请涉及计算机技术领域,具体而言,涉及一种网页跳转方法及装置。



背景技术:

在互联网成为人们生活中不可或缺的一部分的现在,在网页中存在许多广告信息,一般通过文字链接或者图片链接的形式存在于网页中,这之中存在某些非法网页的链接夹杂在其中。

而在现有技术中,对于非法网页的监测在监测到链接的目标网页是非法网站时,是通过跳转到一个临时页面,告知用户该链接的目标网页可能存在风险,让用户自行选择是否继续访问。这种方式无法避免用户因为好奇或其他目的选择继续访问,并且在对于某些目标网页是合法网页的链接存在误判的情况。



技术实现要素:

有鉴于此,本申请的目的在于提供一种网页跳转方法及装置,用于解决现有技术中如何提高网页跳转的安全性的问题。

第一方面,本申请实施例提供了一种网页跳转方法,应用于网页跳转系统,该方法包括:

所述网页跳转系统接收用户的网页点击指令,根据所述网页点击指令中携带的目标网页的资源地址,获取所述目标网页的网页内容;

所述网页跳转系统根据所述目标网页的资源地址和网页内容,确认所述目标网页的特征信息;

所述网页跳转系统将所述目标网页的特征信息输入网页辨别模型,得到该目标网页的非法概率值,判断该非法概率值是否超过预设阈值;

若所述非法概率值超过预设阈值,中断网页跳转。

根据第一方面,本申请实施例提供了第一方面的第一种可能的实施方案,其中,还包括:

若所述非法概率值未超过预设阈值,根据所述网页点击指令进行目标网页的跳转操作。

根据第一方面,本申请实施例提供了第一方面的第二种可能的实施方案,其中,构建所述网页辨别模型,包括:

获取多个样本网页,对所述样本网页的合法性进行标识,所述合法性包括合法和非法,并将所述样本网页分类为训练样本网页及测试样本网页;

根据所述样本网页的资源地址和网页内容,确认所述样本网页的特征信息;

以所述训练样本网页的特征信息作为输入,以该训练样本网页的合法性作为输出,对训练模型进行训练,得到待定训练模型;

以所述测试样本网页的特征信息对所述待定训练模型进行验证,验证通过后得到所述网页辨别模型。

根据第一方面,本申请实施例提供了第一方面的第三种可能的实施方案,其中,确认所述目标网页的特征信息,包括:

确认所述目标网页的资源地址的重定向次数,判断所述重定向次数是否超出预设次数;

若超出预设次数,将所述重定向次数添加到目标网页的特征信息中。

根据第一方面,本申请实施例提供了第一方面的第四种可能的实施方案,其中,在中断网页跳转之后,还包括:

所述网页跳转系统将该目标网页的资源地址存入非法网页库中。

第二方面,本申请实施例提供了一种网页跳转装置,应用于网页跳转系统,该装置包括:

获取模块,用于接收用户的网页点击指令,根据所述网页点击指令中携带的目标网页的资源地址,获取所述目标网页的网页内容;

处理模块,用于根据所述目标网页的资源地址和网页内容,确认所述目标网页的特征信息;

分析模块,用于将所述目标网页的特征信息输入网页辨别模型,得到该目标网页的非法概率值,判断该非法概率值是否超过预设阈值;若所述非法概率值超过预设阈值,中断网页跳转。

根据第二方面,本申请实施例提供了第二方面的第一种可能的实施方案,其中,所述分析模块还包括:

若所述非法概率值未超过预设阈值,根据所述网页点击指令进行目标网页的跳转操作。

根据第二方面,本申请实施例提供了第二方面的第二种可能的实施方案,其中,所述分析模块包括模型构建单元,用于获取多个样本网页,对所述样本网页的合法性进行标识,所述合法性包括合法和非法,并将所述样本网页分类为训练样本网页及测试样本网页;

根据所述样本网页的资源地址和网页内容,确认所述样本网页的特征信息;

以所述训练样本网页的特征信息作为输入,以该训练样本网页的合法性作为输出,对训练模型进行训练,得到待定训练模型;

以所述测试样本网页的特征信息对所述待定训练模型进行验证,验证通过后得到所述网页辨别模型。

第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面及其可能的实施方案中任一项所述的方法的步骤。

第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面及其可能的实施方案中任一项所述的方法的步骤。

本申请实施例提出的一种网页跳转方法及装置,通过对网页点击指令中携带的目标网页的资源地址以及根据该资源地址得到的目标网页的网页内容进行分析,确认目标网页的特征信息,在将目标网页的特征信息输入网页辨别模型,以得到目标网页的非法概率值,根据目标网页的非法概率值是否超过预设阈值,判断目标网页是否是非法网页,若是非法网页则直接中断网页跳转,在判断目标网页是非法网页的情况下,不进行任何网页跳转,有效地降低访问非法网页的风险,提高了网页跳转的安全性。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种网页跳转方法的流程示意图;

图2为本申请实施例提供的一种网页跳转方法的流程示意图;

图3为本申请实施例提供的一种网页跳转装置的结构示意图;

图4为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提供了一种网页跳转方法,应用于网页跳转系统,如图1所示,包括以下步骤:

步骤s101、上述网页跳转系统接收用户的网页点击指令,根据上述网页点击指令中携带的目标网页的资源地址,获取上述目标网页的网页内容;

步骤s102、上述网页跳转系统根据上述目标网页的资源地址和网页内容,确认上述目标网页的特征信息;

步骤s103、上述网页跳转系统将上述目标网页的特征信息输入网页辨别模型,得到该目标网页的非法概率值,判断该非法概率值是否超过预设阈值;若上述非法概率值超过预设阈值,中断网页跳转。

具体地,网页跳转系统在接收到用户的网页点击指令后,提取该网页点击指令对应的目标网页的url(uniformresourcelocator,统一资源定位符),也就是上述资源地址。通过使用爬虫工具来模拟浏览器对该目标网页的url对应的网页内容进行爬取。其中,网页内容包括该目标网页渲染前和渲染后的内容。

然后针对目标网页的url和网页内容要进行特征信息提取,特征信息包括url的层级深度和参数数量以及网页的meta节点数量、渲染前的dom(documentobjectmodel,文档对象模型)树最大层级、渲染前的dom树节点数量、渲染后的dom树最大层级、渲染后的dom树节点数量、渲染前的dom树同级内最大节点数量、渲染后的dom树同级内最大节点数量、同域链接数量、跨域链接数量、图片数量、不重复class的数量和不重复id的数量。特征信息的内容包括但不限于上述例举的内容,本申请对此不予限制。

将提取出的特征信息输入到网页辨别模型中进行分析,计算得到目标网页的非法概率值,该非法概率值在0到1之间,当非法概率值大于预设阈值,则判断目标网页是非法网页。预设阈值可以设定为0到1之间的任意值,优选地,预设阈值设定为0.5,预设阈值的具体取值本申请不予限制。

当判定目标网页是非法网页后,则中断用户对于目标网页的跳转,给用户的直接体验是用户对于该目标网页产生的网页跳转指令无效。

例如,网页跳转系统接收到用户的网页跳转指令,网页跳转系统利用爬虫工具模拟该网页跳转指令携带的目标网页a的url爬取到目标网页a的网页内容,并通过分析目标网页a的url和网页内容得到了目标网页a的特征信息,然后将目标网页a的特征信息输入到网页辨别模型中,网页辨别模型输出的非法概率值是0.73,预设阈值为0.5,该非法概率值超过预设阈值,判定该目标网页a为非法网页,中止网页跳转。

在一可选的实施例中,还包括:

若上述非法概率值未超过预设阈值,根据上述网页点击指令进行目标网页的跳转操作。

具体地,当上述非法概率值小于预设阈值,则判断目标网页是合法网页,则响应用户的网页跳转指令,为用户进行该网页跳转指令对应的跳转操作。

例如,网页跳转系统接收到用户的网页跳转指令,网页跳转系统利用爬虫工具模拟该网页跳转指令携带的目标网页b的url爬取到目标网页b的网页内容,并通过分析目标网页b的url和网页内容得到了目标网页b的特征信息,然后将目标网页b的特征信息输入到网页辨别模型中,网页辨别模型输出的非法概率值是0.1,预设阈值为0.5,该非法概率值小于预设阈值,判定该目标网页b为合法网页,为用户进行网页跳转操作,从用户发出网页跳转指令的网页跳转到目标网页b。

在一可选的实施例中,构建上述步骤s103中的网页辨别模型,如图2所示,包括:

步骤s201、获取多个样本网页,对上述样本网页的合法性进行标识,上述合法性包括合法和非法,并将上述样本网页分类为训练样本网页及测试样本网页;

步骤s202、根据上述样本网页的资源地址和网页内容,确认上述样本网页的特征信息;

步骤s203、以上述训练样本网页的特征信息作为输入,以该训练样本网页的合法性作为输出,对训练模型进行训练,得到待定训练模型;

步骤s204、以上述测试样本网页的特征信息对上述待定训练模型进行验证,验证通过后得到上述网页辨别模型。

具体地,样本网页都是已知的合法网页和非法网页,将样本网页分为训练样本网页和测试样本网页,训练样本网页中的合法网页和非法网页的数量可以是相同的,也可以为了进一步强化训练得到的模型对于非法网页的识别能力而提高非法网页的数量。

在进行训练前需要将所有样本网页都根据资源地址和网页内容进行特征信息提取。该样本网页的特征信息同样包括url的层级深度和参数数量以及网页的meta节点数量、渲染前的dom树最大层级、渲染前的dom树节点数量、渲染后的dom树最大层级、渲染后的dom树节点数量、渲染前的dom树同级内最大节点数量、渲染后的dom树同级内最大节点数量、同域链接数量、跨域链接数量、图片数量、不重复class的数量和不重复id的数量。

将各训练样本网页对应的特征信息根据训练样本网页的合法性分别输入到训练模型中进行训练,以训练样本网页是合法网页对应的输出为0且训练样本网页是非法网页对应的输出为1为训练目的对训练模型进行训练,得到待定训练模型。

由于训练得到的待定训练模型无法确定其准确度,所以需要通过模型运行测试来确认是否满足使用的要求。通过将测试样本网页的特征信息输入到待定训练模型中,得到测试样本网页的测试非法概率值,根据预设阈值得到测试结果,然后将测试结果与测试样本网页的合法性标识进行比对,若比对结果是测试结果与测试样本网页的合法性标识一致,则待定训练模型满足使用的要求,确定该待定训练模型为网页辨别模型。

具体地,当将测试样本网页中的合法网页的特征信息输入到待定训练模型中,待定训练模型输出的测试非法概率值小于预设阈值0.5,且将测试样本网页中的非法网页的特征信息输入到待定训练模型中,待定训练模型输出的测试非法概率值大于预设阈值0.5,则确认该待定模型为网页辨别模型。

需要注意的是测试样本网页与训练样本网页不能有相同的网页,否则会降低测试验证的可信度。

在一可选的实施例中,步骤s102、确认上述目标网页的特征信息,包括:

步骤1021、确认上述目标网页的资源地址的重定向次数,判断上述重定向次数是否超出预设次数;

步骤1022、若超出预设次数,将上述重定向次数添加到目标网页的特征信息中。

具体地,网页重定向是指在点击网页跳转的链接后,会通过至少一个中间地址依次跳转,最终跳转到目标网页。

网页跳转系统通过爬虫工具模拟浏览器来模拟目标网页的跳转,记录跳转到目标网页的重定向次数,若该重定向次数超出预设次数则将重定向次数也作为一个特征信息记录下来。其中预设次数优选为1。

由于许多非法网页通过多次重定向的跳转来掩盖自己最终落地页,所以若是出现多次重定向,那么,重定向次数也是判断目标网页是否合法的一种特征信息。

在一可选的实施例中,在步骤s103、中断网页跳转之后,还包括:

步骤1031、上述网页跳转系统将该目标网页的资源地址存入非法网页库中。

具体地,在判断出目标网页是非法网页后,网页跳转系统除了中断用户的网页跳转指令对应的网页跳转外,还将该目标网页的url存入非法网页库中,也就是加入黑名单,当再次接收到携带该目标网页的url的网页跳转指令时,无需进行特征信息分析和网页辨别模型,直接进行终端网页跳转操作。

本申请实施例还提供了一种网页跳转装置,应用于网页跳转系统,如图3所示,该装置包括:

获取模块30,用于接收用户的网页点击指令,根据上述网页点击指令中携带的目标网页的资源地址,获取上述目标网页的网页内容;

处理模块31,用于根据上述目标网页的资源地址和网页内容,确认上述目标网页的特征信息;

分析模块32,用于将上述目标网页的特征信息输入网页辨别模型,得到该目标网页的非法概率值,判断该非法概率值是否超过预设阈值;若上述非法概率值超过预设阈值,中断网页跳转。

在一可选的实施例中,上述分析模块32还包括:

若上述非法概率值未超过预设阈值,根据上述网页点击指令进行目标网页的跳转操作。

在一可选的实施例中,上述分析模块32包括模型构建单元321,用于获取多个样本网页,对上述样本网页的合法性进行标识,上述合法性包括合法和非法,并将上述样本网页分类为训练样本网页及测试样本网页;

根据上述样本网页的资源地址和网页内容,确认上述样本网页的特征信息;

以上述训练样本网页的特征信息作为输入,以该训练样本网页的合法性作为输出,对训练模型进行训练,得到待定训练模型;

以上述测试样本网页的特征信息对上述待定训练模型进行验证,验证通过后得到上述网页辨别模型。

对应于图1中的一种网页跳转方法,本申请实施例还提供了一种计算机设备400,如图4所示,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述一种网页跳转方法。

具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述一种网页跳转方法,解决了现有技术中如何提高网页跳转的安全性的问题。

对应于图1中的一种网页跳转方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述一种网页跳转方法的步骤。

具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述一种网页跳转方法,解决了现有技术中如何提高网页跳转的安全性的问题,本申请实施例提出的一种网页跳转方法及装置,通过对网页点击指令中携带的目标网页的资源地址以及根据该资源地址得到的目标网页的网页内容进行分析,确认目标网页的特征信息,在将目标网页的特征信息输入网页辨别模型,以得到目标网页的非法概率值,根据目标网页的非法概率值是否超过预设阈值,判断目标网页是否是非法网页,若是非法网页则直接中断网页跳转,在判断目标网页是非法网页的情况下,不进行任何网页跳转,有效地降低访问非法网页的风险,提高了网页跳转的安全性。

在本申请所提供的实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1