一种网页请求的区分方法及装置制造方法
【专利摘要】本申请公开了一种网页请求的区分方法及装置,该方法包括:接收网页请求;获取所述网页请求的URL字段、referer字段及所述网页请求的应答文件类型;获取所述网页请求的第一生成时间、所述referer字段指向的网页页面的最近一个网页请求的第二生成时间;依据所述第一时间及所述第二生成时间生成时间间隔;依据所述URL字段、所述时间间隔及所述应答文件类型,确定所述网页请求的属性值;其中,所述属性值为内嵌对象请求或容器对象请求。利用本申请提供的网页请求区分方法,可以实现将网页请求区分为容器对象请求或内嵌对象请求。
【专利说明】一种网页请求的区分方法及装置
【技术领域】
[0001]本申请涉及互联网访问【技术领域】,尤其是一种网页访问请求的区分方法及装置。【背景技术】
[0002]随着互联网的普及,越来越多的用户在日常工作生活中需要访问互联网网站中的网页内容。用户访问的网页通常是一个大页面,所述大页面中嵌入有多个小页面,另外,所述小页面中可能还嵌入有下一级小页面。其中所述嵌入有小页面的大页面被认为是网页容器对象,所述各个小的页面被认为是网页内嵌对象。
[0003]用户访问网页的过程为:通过点击浏览器生成访问网站的各个请求,网络中间设备接收并转发所述各个请求至网站服务器,同时会接收网站服务器返回的与所述各个请求相对应的页面对象。
[0004]所述网络中间设备接收的请求中包含有容器对象请求,也包含有内嵌对象请求。得到用户所需要访问的目标网页,需要依据所述这些请求的属性如容器对象请求或内嵌对象请求,将与该各个请求相对应的页面对象进行组合。因此,亟需一种区分方案对该网络设备接收到的各个请求的属性进行区分。
【发明内容】
[0005]有鉴于此,本申请提供了一种网页请求的区分方法及装置,用以对网络中间设备接收到的各个请求如容器对象请求或内嵌对象请求的属性进行区分。本申请提供的技术方案如下:
[0006]一种网页请求的区分方法,包括:
[0007]接收网页请求;
[0008]获取所述网页请求的URL字段、referer字段及所述网页请求的应答文件类型;
[0009]获取所述网页请求的第一生成时间、所述referer字段指向的网页页面的最近一个网页请求的第二生成时间;
[0010]依据所述第一时间及所述第二生成时间生成时间间隔;
[0011]依据所述URL字段、所述时间间隔及所述应答文件类型,确定所述网页请求的属性值;其中,所述属性值为内嵌对象请求或容器对象请求。
[0012]上述方法,优选的,所述依据所述URL字段、所述时间间隔及所述应答文件类型,确定所述网页请求的属性值,包括:
[0013]判断所述URL字段是否满足预设的字段格式标准,生成第一结果;
[0014]判断所述时间间隔是否小于等于预设时间间隔,生成第二结果;
[0015]依据所述第一结果及所述第二结果,确定所述网页请求的属性值;其中,所述属性值为内嵌对象请求或备选容器对象请求;
[0016]当所述网页请求为备选容器对象请求时,依据所述应答文件类型,确定所述备选容器对象请求的属性值;其中,所述属性值为内嵌对象请求或容器对象请求。[0017]上述方法,优选的,所述依据所述第一结果及所述第二结果,确定所述网页请求的属性值,包括:
[0018]当所述第一结果为是时,将所述网页请求的属性值确定为备选容器对象请求;
[0019]当所述第一结果为否且所述第二结果为是时,将所述网页请求的属性值确定为内嵌对象请求;
[0020]当所述第一结果为否且所述第二结果为否时,将所述网页请求的属性值确定为备选容器对象请求。
[0021]上述方法,优选的,在获取所述网页请求的referer字段之前,还包括:
[0022]判断所述网页请求的referer字段是否为空;
[0023]若是,将所述网页请求确定为备选容器对象请求,依据所述备选容器对象相对应的应答文件类型,确定所述备选容器对象请求的属性值,其中,所述属性值为内嵌对象请求或容器对象请求;
[0024]若否,执行所述获取所述网页请求的referer字段。
[0025]上述方法,优选的,所述依据所述备选容器对象相对应的应答文件类型,确定所述备选容器对象请求的属性值,包括:
[0026]判断所述备选容器对象相对应的应答文件类型是否为HTML文件类型,若是,将所述备选容器对象请求确定为容器对象请求;
[0027]若否,将所述备选容器对象请求确定为内嵌对象请求。
[0028]本申请还提供了一种网页请求的区分装置,包括:
[0029]接收单元,用于接收网页请求;
[0030]第一获取单元,用于获取所述网页请求的URL字段、referer字段及所述网页请求的应答文件类型;
[0031]第二获取单元,用于获取所述网页请求的第一生成时间、所述referer字段指向的网页页面的最近一个网页请求的第二生成时间;
[0032]生成单元,用于依据所述第一时间及所述第二生成时间生成时间间隔;
[0033]确定单元,用于依据所述URL字段、所述时间间隔及所述应答文件类型,确定所述网页请求的属性值;其中,所述属性值为内嵌对象请求或容器对象请求。
[0034]上述装置,优选的,所述确定单元包括:
[0035]第一判断子单元,用于判断所述URL字段是否满足预设的字段格式标准,生成第
一结果;
[0036]第二判断子单元,用于判断所述时间间隔是否小于等于预设时间间隔,生成第二结果;
[0037]第一确定子单元,用于依据所述第一结果及所述第二结果,确定所述网页请求的属性值;当所述网页请求为备选容器对象请求时,触发第二确定子单元;其中,所述属性值为内嵌对象请求或备选容器对象请求;
[0038]第二确定子单元,用于依据所述应答文件类型,确定所述备选容器对象请求的属性值;其中,所述属性值为内嵌对象请求或容器对象请求。
[0039]上述装置,优选的,所述第一确定子单元包括:
[0040]第一结果确定子单元,用于当所述第一结果为是时,将所述网页请求的属性值确定为备选容器对象请求;
[0041]第二结果确定子单元,用于当所述第一结果为否且所述第二结果为是时,将所述网页请求的属性值确定为内嵌对象请求;
[0042]第三结果确定子单元,用于当所述第一结果为否且所述第二结果为否时,将所述网页请求的属性值确定为备选容器对象请求。
[0043]上述装置,优选的,还包括:
[0044]第三判断单元,用于判断所述网页请求的referer字段是否为空,若是,触发第三确定单元,若否,触发第一获取单元;
[0045]第三确定单元,用于将所述网页请求确定为备选容器对象请求,触发第四确定单元;
[0046]第四确定单元,用于依据所述备选容器对象相对应的应答文件类型,确定所述备选容器对象请求的属性值,其中,所述属性值为内嵌对象请求或容器对象请求。
[0047]上述装置,优选的,所述第二确定子单元包括:
[0048]判断子单元,用于判断所述备选容器对象相对应的应答文件类型是否为HTML文件类型,若是,触发第一单元,若否,触发第二单元;
[0049]第一单元,用于将所述备选容器对象请求确定为容器对象请求;
[0050]第二单元,用于将所述备选容器对象请求确定为内嵌对象请求。
[0051]由以上的技术方案可知,本申请提供了一种网页请求的区分方法及装置,在接收到网页请求之后,通过获取该网页请求的URL字段、referer字段及该网页请求的应答文件类型,并获取该网页请求的第一生成时间、与referer字段指向的网页页面的最近一个网页请求的第二生成时间,进而依据第一时间及第二生成时间生成时间间隔,并依据URL字段、时间间隔及应答文件类型,确定该网页请求的属性值,而该属性值为内嵌对象请求或容器对象请求,从而实现了对接收到的网页请求属性值的区分。
【专利附图】
【附图说明】
[0052]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0053]图1为本申请提供的一种网页请求区分方法实施例一的流程图;
[0054]图2为本申请提供的一种网页请求区分方法实施例二的部分流程图;
[0055]图3为本申请提供的一种网页请求区分方法实施例三的流程图;
[0056]图4为本申请提供的一种网页请求区分方法实施例四的部分流程图;
[0057]图5为本申请提供的一种网页请求区分装置实施例五的结构示意图;
[0058]图6为本申请提供的一种网页请求区分装置实施例六的部分结构示意图;
[0059]图7为本申请提供的一种网页请求区分装置实施例七的结构示意图;
[0060]图8为本申请提供的一种网页请求区分装置实施例八的部分结构示意图;
[0061]图9为评价指标参数的含义图;
[0062]图10为三种识别方法识别容器对象请求的正确率结果图;[0063]图11为三种识别方法识别容器对象请求的召回率结果图;
[0064]图12为三种识别方法识别容器对象请求的F值结果图。
【具体实施方式】
[0065]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0066]请参阅图1,其示出了本申请提供的一种网页请求区分方法实施例一的流程图,本实施例可以包括:
[0067]步骤101:接收网页请求;
[0068]用户在访问网页过程中,用户点击浏览器后浏览器自动生成网页请求,接收所述网页请求,所述网页请求中可能是容器对象请求,也可能是内嵌对象请求。
[0069]步骤102:获取所述网页请求的URL字段、referer字段及所述网页请求的应答文件类型;
[0070]所述网页请求为基于HTTP协议的网页请求,所述网页请求中包含有URL字段,用于指定要访问的网页资源;还包含有referer字段,所述referer字段指向某一网页页面,用于表示所述某一网页页面与包含所述referer字段的网页请求存在关联。例如,网页请求 H_1 的 referer 字段为 http: //www.sina.com.cn/,表明 http: //www.sina.com.cn/ 指向的网页页面与所述网页请求H_1存在关联,即所述http://www.sina.com.cn/指向的网页页面发出的所述网页请求H_1。
[0071]需要说明的是,预设网络和浏览器使能所述网页请求中的referer字段。
[0072]当网页请求被发送至服务器,服务器返回与网页请求相对应的网页资源响应数据包,所述响应数据包内包含有应答文件。解析所述响应数据包,获取Content-Type字段,依据所述Content-Type字段确定网页请求的应答文件的类型。应答文件的类型有多种,如html、css、jpeg、js等。依据上述过程,解析与步骤101中接收的网页请求相对应的响应数据包,并确定所述网页请求的应答文件的类型。
[0073]例如:接收到一个网页请求,从所述网页请求中获取到的URL字段为“http://news.sina.com.cn/”,获取到的 referer 字段为 “http://www.sina.com.cn/”,获取到的与所述网页请求相对应的应答文件的类型为HTML类型。
[0074]步骤103:获取所述网页请求的第一生成时间、所述referer字段指向的网页页面的最近一个网页请求的第二生成时间。
[0075]网页请求中记录有该网页请求的生成时间。获取步骤101中接收的网页请求的生成时间,将所述生成时间作为第一生成时间。依据获取的所述referer字段查找对应的网页页面,并进一步查找所述网页页面发出的最近一个网页请求,并获取所述最近一个网页请求的生成时间,将所述生成时间作为第二生成时间。其中,所述第一生成时间与所述第二生成时间至少需要精确到秒。需要说明的是,所述最近一个网页请求即网页请求的生成时间,与步骤101中接收到的网页请求的生成时间间隔最短。
[0076]例如:步骤101中接收的网页请求为H_l,在所述H_1中获取生成时间Time_l为2013-11-19 11:31:22。步骤102中获取的referer字段指向的网页页面为A,所述网页A的最近一个网页请求为11_2,在所述H_2中获取生成时间Time_2为2013-11-19 11:31:23。
[0077]步骤104:依据所述第一时间及所述第二生成时间生成时间间隔。
[0078]计算步骤103中获取的所述第一时间与所述第二时间之间的时间间隔。例如,所述 Time_l 为 2013-11-19 11:31:22,所述 Time_2 为 2013-11-19 11:31:23,所述时间间隔为I秒。
[0079]步骤105:依据所述URL字段、所述时间间隔及所述应答文件类型,确定所述网页请求的属性值;其中,所述属性值为内嵌对象请求或容器对象请求。
[0080]判断所述URL字段是否符合预设的格式标准,判断所述时间间隔是否小于预设阈值,判断所述应答文件类型是否符合预设类型。依据判断结果确定所述网页请求属性的规则可以为:当三个判断的结果都为是时,将所述网页请求确定为容器对象请求,当三个判断的结果都为否时,将所述网页请求确定为内嵌对象请求;也可以当其中任意两个判断的结果为是时,将所述网页请求确定为容器对象请求;当其中任意两个判断的结果为否时,将所述网页请求确定为内嵌对象请求。当然,所述判断规则并不限定于上述几种方式,只要依据所述URL字段、所述时间间隔及所述应答文件类型,来确定所述网页请求的属性值的判断规则都属于本申请的保护范围。
[0081]另外,所述判断的次序也不做限定,即可以先判断所述URL字段、再判断所述时间间隔,最后判断所述应答文件的类型;也可以先判断所述时间间隔,再判断所述URL字段,最后判断所述应答文件的类型。当然,本申请并不限定于上述判断次序,只要依据所述URL字段、所述时间间隔及所述应答文件类型,来确定所述网页请求的属性值的判断次序都属于本申请的保护范围。
[0082]由以上技术方案可知,本申请提供了一种网页请求的区分方法,该方法包括:通过接收网页请求,获取所述网页请求的URL字段、referer字段及所述网页请求的应答文件类型,获取所述网页请求的第一生成时间、所述referer字段指向的网页页面的最近一个网页请求的第二生成时间,并依据所述第一时间及所述第二生成时间生成时间间隔,依据所述URL字段、所述时间间隔及所述应答文件类型,确定所述网页请求的属性值;其中,所述属性值为内嵌对象请求或容器对象请求,从而,实现了对接收到的网页请求属性值的区分。
[0083]需要说明的是,所述实施例一中的步骤102、103、104、105并不限定于上述执行步骤,可依据步骤105的判断过程及判断规则决定步骤102、103及104的执行过程,即:当依据URL字段进行确定时执行获取URL字段;当依据时间间隔进行确定时执行获取referer字段、步骤103及步骤104 ;当依据应答文件类型进行确定时执行获取应答文件类型。
[0084]请参阅图2,其示出了本申请提供的一种网页区分方法实施例二的部分流程图,实施例一中的步骤105可以包括:
[0085]步骤201:判断所述URL字段是否满足预设的字段格式标准,生成第一结果。
[0086]发明人通过研究发现,部分容器对象请求的URL字段具有一定的规律,如部分容器对象请求的URL字段由Host字段及“/”组成。其中,所述Host字段为网页请求请求头中的一个字段,用于表明所述网页请求要发送至的目的地址,例如=Host为“http://news,sina.com.cn,,,URL 为 “http://news.sina.com.cn/,,。
[0087]将字段格式标准预设为:Host字段后加上“/”。判断实施例一中步骤102中获取的所述URL字段是否符合所述预设字段格式标准,并生成第一结果。
[0088]步骤202:判断所述时间间隔是否小于等于预设时间间隔,生成第二结果。
[0089]依据实施例一中步骤102中获取的所述referer字段查找对应网页页面,并进一步查找所述网页页面的最近一个网页请求。发明人通过研究发现,若所述最近一个网页请求的生成时间与步骤101中接收到的所述网页请求的生成时间间隔小于一定阈值时,所述网页请求是内嵌对象请求。因此,依据所述规律,预先设定用于判断的时间间隔。优选的,可以设定为2秒。依据实施例一中步骤104生成的时间间隔,及所述预设时间间隔,获取第二结果。
[0090]例如:接收的网页请求为H_1的生成时间为2013-11-19 11:31:22,所述网页请求的referer字段指向网页页面A,所述网页页面A的最近一个网页请求为H_2,所述H_2中的生成时间为2013-11-19 11:31:23,两个生成时间的时间间隔为I秒,小于预设的时间间隔2秒。
[0091]步骤203:依据所述第一结果及所述第二结果,确定所述网页请求的属性值;其中,所述属性值为内嵌对象请求或备选容器对象请求。
[0092]所述确定过程可以为:先获取第一结果,当第一结果为是时,将所述网页请求确定为备选容器对象请求,当第一结果为否时再获取第二结果,当第二结果为是时,将所述网页请求确定为内嵌对象请求,当第二结果为否时,将所述网页请求确定为备选容器对象请求;也可以为先获取第二结果,当第二结果为否时,将所述网页请求确定为备选容器对象请求,当第二结果为是时再获取第一结果,当第一结果为否时,将所述网页请求确定为内嵌对象请求,当第一结果为是时,将所述网页请求确定为备选容器对象请求。
[0093] 由此可见,依据所述第一结果及所述第二结果确定所述网页请求的属性值的过程中,并不限定于第一结果与第二结果的先后顺序。但不管何种判断顺序,确定内嵌对象请求至少存在两个判断标准,确定备选容器对象请求至少存在一个判断标准。
[0094]步骤204:当所述网页请求为备选容器对象请求时,依据所述应答文件类型,确定所述备选容器对象请求的属性值;其中,所述属性值为内嵌对象请求或容器对象请求。
[0095]当依据所述步骤203中的确定规则将所述网页请求确定为备选容器对象请求时,依据实施例一中步骤102中获取的应答文件类型,确定所述备选容器对象请求的属性值。其中,所述确定过程可以包括:
[0096]判断所述备选容器对象相对应的应答文件类型是否为HTML文件类型,若是,将所述备选容器对象请求确定为容器对象请求;
[0097]若否,将所述备选容器对象请求确定为内嵌对象请求。
[0098]需要说明的是,发明人通过研究发现,容器对象请求的应答文件类型为HTML文件类型,则将HTML文件类型作为判断网页请求类型的标准。
[0099]由步骤203得出,确定备选容器对象至少存在一个判断标准,对备选容器对象请求的判断即应答文件的类型的判断得出,当判断结果为是时,将所述备选容器对象请求确定为容器对象请求,可以得出,确定容器对象请求也至少存在两个判断标准。
[0100]由以上的技术方案可知,本申请提供了一种网页请求的区分方法,该方法中,由所述URL字段获得第一结果,由所述时间间隔获得第二结果;依据所述第一结果及所述第二结果,确定所述网页请求为内嵌对象请求或备选容器对象请求;当所述网页请求为备选容器对象请求时,依据所述应答文件类型,确定所述备选容器对象请求为内嵌对象请求或容器对象请求。
[0101]将所述网页请求最终确定为容器对象请求或内嵌对象请求都至少存在两个判断标准,提高了网页请求的判断准确性。
[0102]本申请提供的网页请求的区分方法,需要能检测到一个网络区域范围内所有用户发送的网页请求,本申请的方法可以应用于该网络区域内的网关设备,如局域网出口网关设备。请参阅图3,其示出了本申请提供的一种网页请求区分方法实施例三的流程图,本实施例可以包括:
[0103]步骤301:接收网页请求;
[0104]用户访问的网页通常是一个大页面,所述大页面中嵌入有多个小页面,另外,所述小页面中可能还嵌入有下一级小页面。其中所述嵌入有小页面的大页面被认为是网页容器对象,所述各个小的页面被认为是网页内嵌对象。
[0105]所述网页请求由用户在浏览器中输入网站网址或点击超链接后生成,所述网页请求被发送至服务器,触发服务器返回与所述网页请求相对应的页面对象。其中,所述网页请求可能是容器对象请求,也可能是内嵌对象请求,分别用于请求网页中的容器对象或内嵌对象。
[0106]步骤302:获取所述网页请求的URL字段。
[0107]所述网页请求为基于HTTP协议传输的请求,在所述网页请求中包含有URL字段,用于指明所述网页请求要访问的网页资源地址。
[0108]步骤303:判断所述URL字段是否满足预设的字段格式标准,生成第一结果,当所述第一结果为是时,进入步骤304,当所述第一结果为否时,进入步骤305。
[0109]预设的字段格式标准为:H0ST字段加“/”。具体说明,请参阅实施例二中的步骤201。将步骤302中获取的所述URL字段与预设字段格式标准进行比对获得第一结果。依据所述第一结果决定进行步骤304或步骤305。
[0110]例如:当URL字段为“http://news.sina.com.cn/”时,符合预设字段格式标准,所述“news.sina.com.cn”部分为HOST字段,贝丨』进入步骤304 ;
[0111]当URL 字段为“http://php.weather, sina.com.cn/search.php?city=北京&dpc=l”时,所述“php.weather, sina.com.cn”部分为HOST字段,后面除“/”外还包含有“?” “ = ” 等字符,不符合预设的字段格式标准,则进入步骤305。
[0112]步骤304:将所述网页请求的属性值确定为备选容器对象请求,进入步骤308。
[0113]将URL字段符合预设字段格式标准的网页请求确定为备选容器对象请求,并进入步骤310进行应答文件类型的判断。
[0114]步骤305:获取referer字段、所述网页请求的第一生成时间、所述referer字段指向的网页页面的最近一个网页请求的第二生成时间,依据所述第一时间及所述第二生成时间生成时间间隔。
[0115]当步骤303中的第一结果为否时,即所述网页请求的URL字段不符合预设的字段格式标准,则进行本步骤。
[0116]网页请求的请求头中包含有referer字段,用于指向发出所述网页请求的网页页面。获取所述referer字段,依据所述referer字段获取所述referer字段指向的网页页面,并进一步获取所述网页页面发出的最近一个网页请求的生成时间。利用所述网页请求的生成时间及所述最近一个网页请求的生成时间计算获得时间间隔。具体说明,请参阅实施例一中的步骤102、103及104。例如,获得的时间间隔为I秒。
[0117]步骤306:判断所述时间间隔是否小于等于预设时间间隔,生成第二结果,当所述第二结果为是时,进入步骤307,当所述第二结果为否时,进入步骤304。
[0118]发明人通过研究发现,预设时间间隔为2秒,区分效果准确度较高。优选的,所述预设时间间隔为2秒。当然,所述预设时间间隔并不限定于上述2秒,用于区分所述网页请求的其他长度的时间间隔都在本申请的保护范围内。将步骤305中计算出的时间间隔与所述预设时间间隔进行比对,获得第二结果。依据第二结果决定进行步骤307将所述网页请求确定为内嵌对象请求或进行步骤304将所述网页请求确定为备选容器对象请求。
[0119]例如:预设时间间隔为2秒,计算出的时间间隔为I秒,进入步骤307 ;计算出的时间间隔为3秒,进入步骤304。
[0120]步骤307:将所述网页请求的属性值确定为内嵌对象请求,结束所述网页请求的区分过程。
[0121]步骤308:获取所述网页请求的应答文件类型,依据所述应答文件类型,确定所述备选容器对象请求的属性值;其中,所述属性值为内嵌对象请求或容器对象请求。
[0122]网页请求被发送至服务器,触发服务器返回与所述网页请求相对应的响应数据包,所述响应数据包中包含有响应首部及响应主体。其中:所述响应首部中包含有中包含有Content-Type字段,用于指明响应主体内容的编码类型,如HTML、CSS、JPEG、JS等;所述响应主体中包含有网页请求的应答文件。获取所述响应数据包响应首部中的Content-Type字段,依据所述Content-Type字段获取所述网页请求的应答文件的类型。
[0123]依据获取到的应答文件类型,确定所述备选容器对象请求的属性值。其中,所述确定过程可以包括:
[0124]判断所述备选容器对象相对应的应答文件类型是否为HTML文件类型,若是,将所述备选容器对象请求确定为容器对象请求;
[0125]若否,将所述备选容器对象请求确定为内嵌对象请求。
[0126]需要说明的是,发明人通过研究发现,容器对象请求的应答文件类型为HTML文件类型,则优选的,将HTML文件类型作为判断网页请求类型的标准。
[0127]例如,所述网页请求的应答文件类型为HTML,将所述网页请求确定为容器对象请求;所述网页请求的应答文件类型为JS,将所述网页请求确定为内嵌对象请求。
[0128]由以上的技术方案可知,本实施例提供了一种网页请求的区分方法,首先判断所述网页请求的URL字段是否满足预设的字段格式标准,若是,则将所述网页请求确定为备选容器对象请求,并进一步判断所述备选容器对象请求的应答文件类型是否符合预设的标准如HTML,若是,则将所述网页请求确定为容器对象请求,若否,则将所述网页请求确定为内嵌对象请求;当所述网页请求的URL字段不满足预设的字段格式标准时,进一步判断所述网页请求的时间间隔参数是否小于等于预设时间间隔阈值,若是,则将所述网页请求确定为内嵌对象请求,否则,将所述网页请求确定为备选容器对象请求,并进一步判断所述备选容器对象请求的应答文件类型是否满足预设的文件类型,若是,将所述网页请求确定为容器对象请求,否则,确定为内嵌对象请求。[0129]由此可见,本实施例中的网页区分方法不仅能实现对网页请求属性值的区分,而且区分过程中要经过多个判断标准的检测,即URL字段参数、时间间隔参数及应答文件类型参数。相较于现有技术中使用一种判断标准进行网页文件的区分,大大提高了区分结果的准确度。
[0130]网页请求中可能会出现referer字段为空的现象,通常为用户直接在浏览器中直接输入网站网址生成的容器对象请求。当接收到网页请求时,可以先进行referer字段是否为空的判断过程。请参阅图4,其示出了本申请提供的一种网页请求区分方法实施例四的部分流程示意图,本实施例在实施例三的步骤305之前还可以包括:
[0131]步骤401:判断所述网页请求的referer字段是否为空;若是,进入步骤402,若否,进入实施例三中的步骤305。
[0132]网页请求的请求头中包含有referer字段。
[0133]步骤402:将所述网页请求确定为备选容器对象请求,依据所述备选容器对象相对应的应答文件类型,确定所述备选容器对象请求的属性值,其中,所述属性值为内嵌对象请求或容器对象请求,结束网页请求的区分过程。
[0134]当所述网页请求中referer字段为空时,可直接将所述网页请求确定为备选容器对象请求,再依据所述备选容器对象请求的应答文件类型判断所述备选容器对象请求的属性值,所述判断过程请参阅实施例三中的步骤308,在此不作赘述。当依据所述判断过程确定所述网页请求的属性值后,结束所述网页请求的区分过程。
[0135]由以上的技术方案可知,本实施例提供的一种网页请求的区分方法,通过判断所述网页请求中的referer字段是否为空,当为空时,将所述网页请求确定为备选容器对象请求,依据所述备选容器对象相对应的应答文件类型,确定所述备选容器对象请求的属性值,其中,所述属性值为内嵌对象请求或容器对象请求。从而,实现了当所述网页请求的referer字段为空时,依据所述网页请求的应答文件类型对所述网页请求进行区分,提供了网页请求区分方法的可靠性。
[0136]请参阅图5,其示出了本申请提供的一种网页请求区分装置实施例五的结构示意图,本实施例可以包括:接收单元501、第一获取单元502、第二获取单元503、生成单元504及确定单元505。其中:
[0137]所述接收单元501,用于接收网页请求。
[0138]用户在访问网页过程中,用户点击浏览器后浏览器自动生成网页请求,接收所述网页请求,所述网页请求中可能是容器对象请求,也可能是内嵌对象请求。
[0139]所述第一获取单元502,用于获取所述网页请求的URL字段、referer字段及所述网页请求的应答文件类型。
[0140]所述网页请求为基于HTTP协议的网页请求,所述网页请求中包含有URL字段,用于指定要访问的网页资源;还包含有referer字段,所述referer字段指向某一网页页面,用于表示所述某一网页页面与包含所述referer字段的网页请求存在关联。例如,网页请求 H_1 的 referer 字段为 http: //www.sina.com.cn/,表明 http: //www.sina.com.cn/ 指向的网页页面与所述网页请求H_1存在关联,即所述http://www.sina.com.cn/指向的网页页面发出的所述网页请求H_1。
[0141]需要说明的是,预设网络和浏览器使能所述网页请求中的referer字段。[0142]当网页请求被发送至服务器,服务器返回与网页请求相对应的网页资源响应数据包,所述响应数据包内包含有应答文件。解析所述响应数据包,获取Content-Type字段,依据所述Content-Type字段确定网页请求的应答文件的类型。应答文件的类型有多种,如html、css、jpeg、js等。依据上述过程,所述第一获取单元502解析所述接收单元501接收的网页请求相对应的响应数据包,并确定所述网页请求的应答文件的类型。
[0143]例如:接收到一个网页请求,所述第一获取单元502从所述网页请求中获取到的URL 字段为 “http://news.sina.com.cn/,,,获取到的 referer 字段为 “http://www.sina.com.cn/”获取到的与所述网页请求相对应的应答文件的类型为HTML类型。
[0144]所述第二获取单元503,用于获取所述网页请求的第一生成时间、所述referer字段指向的网页页面的最近一个网页请求的第二生成时间。
[0145]网页请求中记录有该网页请求的生成时间。所述第二获取单元503获取所述接收单元501接收的网页请求的生成时间,将所述生成时间作为第一生成时间。所述第二获取单元503依据获取的所述referer字段确定网页页面,并进一步查找所述网页页面发出的最近一个网页请求,并获取所述最近一个网页请求的生成时间,将所述生成时间作为第二生成时间。其中,所述第一生成时间与所述第二生成时间至少需要精确到秒。需要说明的是,所述最近一个网页请求即网页请求的生成时间,与接收单元501接收到的网页请求的生成时间间隔最短。
[0146]例如:所述接收单元501接收的网页请求为H_l,在所述H_1中获取生成时间Time_l为2013-11-19 11:31:22。所述第一获取单元501获取的referer字段指向网页页面A,所述网页页面A发出的最近一个网页请求为H_2,在所述H_2中获取生成时间Time_2为 2013-11-19 11:31:23。
[0147]所述生成单元504,用于依据所述第一时间及所述第二生成时间生成时间间隔。
[0148]所述生成单元504计算所述第二获取单元503获取的所述第一时间与所述第二时间之间的时间间隔。例如,所述Time_l为2013-11-19 11:31:22,所述Time_2为2013-11-19 11:31:23,所述时间间隔为I秒。
[0149]所述确定单元505,用于依据所述URL字段、所述时间间隔及所述应答文件类型,确定所述网页请求的属性值;其中,所述属性值为内嵌对象请求或容器对象请求。
[0150]所述确定单元505分别与所述第一获取单元502及所述生成单元504相连,用户依据所述第一获取单元502获取的URL字段、所述应答文件类型及所述生成单元生成的时间间隔确定所述网页请求的属性值。判断所述URL字段是否符合预设的格式标准,判断所述时间间隔是否小于预设阈值,判断所述应答文件类型是否符合预设类型。依据判断结果确定所述网页请求属性的规则可以为:当三个判断的结果都为是时,将所述网页请求确定为容器对象请求,当三个判断的结果都为否时,将所述网页请求确定为内嵌对象请求;也可以当其中任意两个判断的结果为是时,将所述网页请求确定为容器对象请求;当其中任意两个判断的结果为否时,将所述网页请求确定为内嵌对象请求。当然,所述判断规则并不限定于上述几种方式,只要依据所述URL字段、所述时间间隔及所述应答文件类型,来确定所述网页请求的属性值的判断规则都属于本申请的保护范围。
[0151]另外,所述判断的次序也不做限定,即可以先判断所述URL字段、再判断所述时间间隔,最后判断所述应答文件的类型;也可以先判断所述时间间隔,再判断所述URL字段,最后判断所述应答文件的类型。当然,本申请并不限定于上述判断次序,只要依据所述URL字段、所述时间间隔及所述应答文件类型,来确定所述网页请求的属性值的判断次序都属于本申请的保护范围。
[0152]由以上技术方案可知,本申请提供了一种网页请求的区分装置,该装置通过接收网页请求,获取所述网页请求的URL字段、referer字段及所述网页请求的应答文件类型,获取所述网页请求的第一生成时间、所述referer字段指向的网页页面的最近一个网页请求的第二生成时间,并依据所述第一时间及所述第二生成时间生成时间间隔,依据所述URL字段、所述时间间隔及所述应答文件类型,确定所述网页请求的属性值;其中,所述属性值为内嵌对象请求或容器对象请求,从而,实现了对接收到的网页请求属性值的区分。
[0153]请参阅图6,其示出了本申请提供的一种网页区分装置实施例六的部分结构示意图,实施例五中确定单元505可以包括:第一判断子单元601、第二判断子单元602、第一确定子单元603及第二确定子单元604。其中:
[0154]所述第一判断子单元601,用于判断所述URL字段是否满足预设的字段格式标准,
生成第一结果。
[0155]发明人通过研究发现,部分容器对象请求的URL字段具有一定的规律,如部分容器对象请求的URL字段由Host字段及“/”组成。其中,所述Host字段为网页请求请求头中的一个字段,用于表明所述网页请求要发送至的目的地址,例如=Host为“http://news,sina.com.cn,,,URL 为 “http://news.sina.com.cn/,,。
[0156]将字段格式标准预设为:Host字段后加上“/”。所述第一判断子单元601判断实施例五中的第一获取单元502获取的所述URL字段是否符合所述预设字段格式标准,并生
成第一结果。
[0157]所述第二判断子单元602,用于判断所述时间间隔是否小于等于预设时间间隔,生
成第二结果。
[0158]所述第二判断子单元602依据实施例五中的第一获取单元502获取的所述referer字段查找与所述网页请求相对应的网页页面,并进一步查找所述网页页面发出的最近一个网页请求。发明人通过研究发现,若所述最近一个网页请求的生成时间与实施例五中接收单元501接收到的所述网页请求的生成时间间隔小于一定阈值时,所述网页请求是内嵌对象请求。因此,依据所述规律,预先设定用于判断的时间间隔。优选的,可以设定为2秒。依据实施例五中的生成单元504生成的时间间隔,及所述预设时间间隔,获取第二结果。
[0159]例如:接收单元501接收的网页请求为H_1的生成时间为2013-11-19 11:31:22,所述网页请求的referer字段指向网页页面A,所述网页页面A发出的最近一个网页请求为H_2,所述H_2中的生成时间为2013-11-19 11:31:23,两个生成时间的时间间隔为I秒,小于预设的时间间隔2秒。
[0160]所述第一确定子单元603,用于依据所述第一结果及所述第二结果,确定所述网页请求的属性值;其中,所述属性值为内嵌对象请求或备选容器对象请求。
[0161]所述确定过程可以为:先获取第一结果,当第一结果为是时,将所述网页请求确定为备选容器对象请求,当第一结果为否时再获取第二结果,当第二结果为是时,将所述网页请求确定为内嵌对象请求,当第二结果为否时,将所述网页请求确定为备选容器对象请求;也可以为先获取第二结果,当第二结果为否时,将所述网页请求确定为备选容器对象请求,当第二结果为是时再获取第一结果,当第一结果为否时,将所述网页请求确定为内嵌对象请求,当第一结果为是时,将所述网页请求确定为备选容器对象请求。
[0162]由此可见,依据所述第一结果及所述第二结果确定所述网页请求的属性值的过程中,并不限定于第一结果与第二结果的先后顺序。但不管何种判断顺序,确定内嵌对象请求至少存在两个判断标准,确定备选容器对象请求至少存在一个判断标准。
[0163]所述第二确定子单元604,用于当所述网页请求为备选容器对象请求时,依据所述应答文件类型,确定所述备选容器对象请求的属性值;其中,所述属性值为内嵌对象请求或容器对象请求。
[0164]当所述第一确定子单元603将所述网页请求确定为备选容器对象请求时,所述第二确定子单元604依据实施例五中第一获取单元502获取的应答文件类型,确定所述备选容器对象请求的属性值。其中,所述第二确定子单元可以包括:判断子单元、第一单元及第二单元。其中:
[0165]所述判断子单元,用于判断所述备选容器对象相对应的应答文件类型是否为HTML文件类型,若是,触发第一单元,若否,触发第二单元;
[0166]所述第一单元,用于将所述备选容器对象请求确定为容器对象请求;
[0167]所述第二单元,用于将所述备选容器对象请求确定为内嵌对象请求。
[0168]需要说明的是,发明人通过研究发现,容器对象请求的应答文件类型为HTML文件类型,则优选的,将HTML文件类型作为判断网页请求类型的标准。
[0169]由第一确定子单元603得出,确定备选容器对象至少存在一个判断标准,对备选容器对象请求的判断即应答文件的类型的判断得出,当判断结果为是时,将所述备选容器对象请求确定为容器对象请求,可以得出,确定容器对象请求也至少存在两个判断标准。
[0170]由以上的技术方案可知,本申请提供了一种网页请求的区分装置,该装置由所述URL字段获得第一结果,由所述时间间隔获得第二结果;依据所述第一结果及所述第二结果,确定所述网页请求为内嵌对象请求或备选容器对象请求;当所述网页请求为备选容器对象请求时,依据所述应答文件类型,确定所述备选容器对象请求为内嵌对象请求或容器对象请求。将所述网页请求最终确定为容器对象请求或内嵌对象请求都至少存在两个判断标准,提高了网页请求的判断准确性。
[0171]本申请提供的网页请求的区分方法,需要能检测到一个网络区域范围内所有用户发送的网页请求,本申请的方法可以应用于该网络区域内的网关设备,如局域网出口网关设备。请参阅图7,其示出了本申请提供的一种网页请求区分装置实施例七的结构示意图,本实施例可以包括:接收单元701、第一获取单元702、第一判断子单元703、第一结果确定子单元704、第二获取单元705、生成单元706、第二判断子单元707、第二结果确定子单元708、第三结果确定子单元709、第二确定子单元710。其中:
[0172]所述接收单元701,用于接收网页请求;
[0173]用户访问的网页通常是一个大页面,所述大页面中嵌入有多个小页面,另外,所述小页面中可能还嵌入有下一级小页面。其中所述嵌入有小页面的大页面被认为是网页容器对象,所述各个小的页面被认为是网页内嵌对象。
[0174]所述网页请求由用户在浏览器中输入网站网址或点击超链接后生成,所述网页请求被发送至服务器,触发服务器返回与所述网页请求相对应的页面对象。其中,所述网页请求可能是容器对象请求,也可能是内嵌对象请求,分别用于请求网页中的容器对象或内嵌对象。
[0175]所述第一获取单元702,用于获取所述网页请求的URL字段、referer字段及所述网页请求的应答文件类型。
[0176]所述网页请求为基于HTTP协议传输的请求,在所述网页请求中包含有URL字段,用于指明所述网页请求要访问的网页资源地址;也包含有referer字段,用于指向发出所述网页请求的页面对象所在的页面。
[0177]网页请求被发送至服务器,触发服务器返回与所述网页请求相对应的响应数据包,所述响应数据包中包含有响应首部及响应主体。其中:所述响应首部中包含有中包含有Content-Type字段,用于指明响应主体内容的编码类型,如HTML、CSS、JPEG、JS等;所述响应主体中包含有网页请求的应答文件。所述第一获取单元702获取所述响应数据包响应首部中的Content-Type字段,依据所述Content-Type字段获取所述网页请求的应答文件的类型。
[0178]所述第一判断子单元703,用于判断所述URL字段是否满足预设的字段格式标准,生成第一结果,当所述第一结果为是时,触发所述第一结果确定子单元704,当所述第一结果为否时,触发所述第二获取单元705。
[0179]预设的字段格式标准为:H0ST字段加“/”。具体说明,请参阅实施例六中的第一判断子单元601。将第一获取单元702获取的所述URL字段与预设字段格式标准进行比对获得第一结果。依据所述第一结果决定触发第一结果确定子单元704或触发第二获取单元705。
[0180]例如:当URL字段`为“http://news.sina.com.cn/”时,符合预设字段格式标准,所述“news.sina.com.cn”部分为HOST字段,则触发第一结果确定子单元704 ;
[0181]当 URL 字段为“http://php.weather, sina.com.cn/search.php?city=北京&dpc=l”时,所述“php.weather, sina.com.cn”部分为HOST字段,后面除“/”外还包含有“?” “ = ” 等字符,不符合预设的字段格式标准,则触发第二获取单元705。
[0182]所述第一结果确定子单元704,用于将所述网页请求的属性值确定为备选容器对象请求,触发第二确定子单元710。
[0183]将URL字段符合预设字段格式标准的网页请求确定为备选容器对象请求,并触发第二确定子单元710进行应答文件类型的判断。
[0184]所述第二获取单元705,用于获取所述网页请求的第一生成时间、所述referer字段指向的网页页面的最近一个网页请求的第二生成时间。所述生成单元706,用于依据所述第一时间及所述第二生成时间生成时间间隔。
[0185]所述第二获取单元705与所述第一获取单元702相连,依据所述第一获取单元702获取的所述referer字段,获取所述referer字段指向的网页页面,并进一步获取所述网页页面的最近一个网页请求的生成时间。所述生成单元706利用所述网页请求的生成时间及所述最近一个网页请求的生成时间计算获得时间间隔。例如,获得的时间间隔为I秒。
[0186]所述第二判断子单元707,用于判断所述时间间隔是否小于等于预设时间间隔,生成第二结果,当所述第二结果为是时,触发第二结果确定子单元708,当所述第二结果为否时,触发第三结果确定子单元709。
[0187]发明人通过研究发现,预设时间间隔为2秒,区分效果准确度较高。优选的,所述预设时间间隔为2秒。当然,所述预设时间间隔并不限定于上述2秒,用于区分所述网页请求的其他长度的时间间隔都在本申请的保护范围内。所述第二判断子单元707将生成单元706计算出的时间间隔与所述预设时间间隔进行比对,获得第二结果。依据第二结果决定触发第二结果确定子单元708将所述网页请求确定为内嵌对象请求或触发第二结果确定子单元709将所述网页请求确定为备选容器对象请求。
[0188]例如:预设时间间隔为2秒,计算出的时间间隔为I秒,触发第二结果确定子单元708 ;计算出的时间间隔为3秒,触发第二结果确定子单元709。
[0189]所述第二结果确定子单元708,用于将所述网页请求的属性值确定为内嵌对象请求,结束所述网页请求的区分过程。
[0190]所述第三结果确定子单元709,用于将所述网页请求的属性值确定为备选容器对象请求。需要说明的是,所述第一结果确定子单元704与所述第三结果确定子单元709结构功能相同。
[0191]所述第二确定子单元710:依据所述应答文件类型,确定所述备选容器对象请求的属性值;其中,所述属性值为内嵌对象请求或容器对象请求。
[0192]需要说明的是,所述第二确定子单元710与所述第一获取单元702相连,依据所述第一获取单元702获得的所述应答文件类型对所述网页请求进行属性值的确定。优选的,所述第二确定子单元710可以包括:
[0193]判断子单元,用于判断所述备选容器对象相对应的应答文件类型是否为HTML文件类型,若是,触发第一单元,若否,触发第二单元;
[0194]第一单元,用于将所述备选容器对象请求确定为容器对象请求;
[0195]第二单元,用于将所述备选容器对象请求确定为内嵌对象请求。
[0196]需要说明的是,发明人通过研究发现,容器对象请求的应答文件类型为HTML文件类型,则将HTML文件类型作为判断网页请求类型的标准。
[0197]例如,所述网页请求的应答文件类型为HTML,所述第二确定子单元710将所述网页请求确定为容器对象请求;所述网页请求的应答文件类型为JS,所述第二确定子单元710将所述网页请求确定为内嵌对象请求。
[0198]由以上的技术方案可知,本实施例提供了一种网页请求的区分装置,首先判断所述网页请求的URL字段是否满足预设的字段格式标准,若是,则将所述网页请求确定为备选容器对象请求,并进一步判断所述备选容器对象请求的应答文件类型是否符合预设的标准如HTML,若是,则将所述网页请求确定为容器对象请求,若否,则将所述网页请求确定为内嵌对象请求;当所述网页请求的URL字段不满足预设的字段格式标准时,进一步判断所述网页请求的时间间隔参数是否小于等于预设时间间隔阈值,若是,则将所述网页请求确定为内嵌对象请求,否则,将所述网页请求确定为备选容器对象请求,并进一步判断所述备选容器对象请求的应答文件类型是否满足预设的文件类型,若是,将所述网页请求确定为容器对象请求,否则,确定为内嵌对象请求。
[0199]由此可见,本实施例中的网页区分装置不仅能实现对网页请求属性值的区分,而且区分过程中要经过多个判断标准的检测,即URL字段参数、时间间隔参数及应答文件类型参数。相较于现有技术中使用一种判断标准进行网页文件的区分,大大提高了区分结果的准确度。
[0200]网页请求中可能会出现referer字段为空的现象,通常为用户直接在浏览器中直接输入网站网址生成的容器对象请求。当接收到网页请求时,可以先进行referer字段是否为空的判断过程。请参阅图8,其示出了本申请提供的一种网页请求区分装置实施例八的部分结构示意图,在实施例七的基础上还可以包括:第三判断单元801、第三确定单元802及第四确定单元803。其中:
[0201]所述第三判断单元,用于判断所述网页请求的referer字段是否为空;若是,触发所述第三确定单元802,若否,触发所述第一获取单元702。
[0202]网页请求的请求头中包含有referer字段。
[0203]所述第三确定单元802,用于将所述网页请求确定为备选容器对象请求;所述第四确定单元803,用于依据所述备选容器对象相对应的应答文件类型,确定所述备选容器对象请求的属性值,其中,所述属性值为内嵌对象请求或容器对象请求。
[0204]当所述网页请求中referer字段为空时,可直接将所述网页请求确定为备选容器对象请求,再依据所述备选容器对象请求的应答文件类型判断所述备选容器对象请求的属性值。优选的,所述第四确定单元可以包括:判断子单元,用于判断所述备选容器对象相对应的应答文件类型是否为HTML文件类型,若是,触发第一单元,若否,触发第二单元;第一单元,用于将所述备选容器对象请求确定为容器对象请求;第二单元,用于将所述备选容器对象请求确定为内嵌对象请求。
[0205]由以上的技术方案可知,本实施例提供的一种网页请求的区分装置,通过判断所述网页请求中的referer字段是否为空,当为空时,将所述网页请求确定为备选容器对象请求,依据所述备选容器对象相对应的应答文件类型,确定所述备选容器对象请求的属性值,其中,所述属性值为内嵌对象请求或容器对象请求。从而,实现了当所述网页请求的referer字段为空时,依据所述网页请求的应答文件类型对所述网页请求进行区分,提供了网页请求区分方法的可靠性。
[0206]为验证本发明技术方案的有效性,本发明人进行了如下实验。
[0207]将测量点布置于一个局域网的出口网关,该局域网内共有299个用户。用户的所有流量都会流经该出口网关,将所述流量镜像到测量服务器,实验时对镜像流量进行测量与分析。在机器设备(局域网内的上网机器设备)上安装Firefox浏览器与Firebug插件。由于安装时对Firefox浏览器进行了配置,Firebug插件对本机用户的测量结果非常准确,因此将Firebug的测量结果作为基线对本发明技术方案和传统的方案进行评价。
[0208]具体实验过程为,在Alexa流量排名网站选择T0P10的站点作为实验对象。对于每一个站点,使用Firefox浏览器访问所述站点的网站主页,然后随机点击页面链接,在访问和点击的同时记录下访问过页面的URL (共访问650个页面),这些都是真实的容器对象请求。将两种传统识别方法的识别结果与本发明记录的结果进行对比。两种传统识别方法分别为基于超时机制及基于文件类型的方法,其中:超时机制识别方法即判断待识别网页请求的生成时间与前一个页面发出的最近一个网页请求的生成时间的时间间隔是否超过预设阈值,若是,则将该待识别网页请求识别为容器对象请求,否则将其识别为内嵌对象请求;基于文件类型的识别方法为判断网页请求的请求文件类型是否为HTML类型,若是,将所述网页请求识别为容器对象请求,若否,将所述网页请求识别为内嵌对象请求。
[0209]在进行结果对比时,使用三个评价指标来总体评价上述三种不同方案,即正确率P、召回率R和F值。其中:所述正确率P用来评价识别出容器对象请求中有多少是真实的容器对象请求;所述召回率R用来评价真实的容器对象请求有多少被正确识别出来,所述F值用来综合评价识别的有效性,结合了正确率P与召回率R两个指标。请参阅图5,其示出了指标参数的含义。其中:所述TP表示所有真实的容器对象请求中被正确识别为容器对象请求的数目,所述FP表示所有内嵌对象请求中被错误识别为容器对象请求的数目,所述FN表示所有容器对象请求中被错误识别为内嵌对象请求的数目,所述TN表示所有真实的内嵌对象请求中被正确识别为内嵌对象请求的数目。现结合附图9说明所述三个指标的计算方法。正确率P=TP/ (TP+FP),召回率R=TP/ (TP+FN),F值=2PR/ (P+R)。本实验的测试结果如下:
[0210]请参阅图10,其示出了三种识别方法识别容器对象请求的正确率,其中折线1001表示本发明提出的识别方法,折线1002表示基于超时机制的识别方法,折线1003表示基于文件类型的识别方法。可以看出,本发明技术方案的正确率明显高于传统的技术方案,正确率平均可以达到97%,而基于超时机制和基于文件类型的方法分别只有65%和38%,而且识别效果不稳定。
[0211]请参阅图11,其示出了三种识别方法识别容器对象请求的召回率,其中折线1101表示基于文件类型的识别方法,折线1102表示本发明提出的识别方法,折线1103表示基于超时机制的识别方法。本发明技术方案的召回率可以达到95%,比起基于超时机制的方法有明显提高。虽然基于文件类型的方法可以做到100%,但是这种识别方法非常极端。因此下面的指标F值综合了正确率与召回率。
[0212]请参阅图12,其示出了三种识别方法识别容器对象请求的F值,其中折线1201表示本发明提出的识别方法,折线1202表示基于超时机制的识别方法,折线1203表示基于文件类型的识别方法。本发明技术方案的F值最好,平均可以达到96%,基于超时机制的方法只有74%,而基于文件类型的方法效果最差,仅有51%。
[0213]综合以上三个指标,可以看出本发明技术方案识别容器对象请求是最有效的。
[0214]需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0215]以上对本发明所提供的一种网页请求的区分方法及装置进行了详细介绍,对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
【权利要求】
1.一种网页请求的区分方法,其特征在于,包括: 接收网页请求; 获取所述网页请求的URL字段、referer字段及所述网页请求的应答文件类型;获取所述网页请求的第一生成时间、所述referer字段指向的网页页面的最近一个网页请求的第二生成时间; 依据所述第一时间及所述第二生成时间生成时间间隔; 依据所述URL字段、所述时间间隔及所述应答文件类型,确定所述网页请求的属性值;其中,所述属性值为内嵌对象请求或容器对象请求。
2.根据权利要求1所述的方法,其特征在于,所述依据所述URL字段、所述时间间隔及所述应答文件类型,确定所述网页请求的属性值,包括: 判断所述URL字段是否满足预设的字段格式标准,生成第一结果; 判断所述时间间隔是否小于等于预设时间间隔,生成第二结果; 依据所述第一结果及所述第二结果,确定所述网页请求的属性值;其中,所述属性值为内嵌对象请求或备选容器对象请求; 当所述网页请求为备选容器对象请求时,依据所述应答文件类型,确定所述备选容器对象请求的属性值;其中,所述属性值为内嵌对象请求或容器对象请求。
3.根据权利要求2所述的方法,其特征在于,所述依据所述第一结果及所述第二结果,确定所述网页请求的属性值,包括: 当所述第一结果为是时,将所述网页请求的属性值确定为备选容器对象请求; 当所述第一结果为否且所述第二结果为是时,将所述网页请求的属性值确定为内嵌对象请求; 当所述第一结果为否且所述第二结果为否时,将所述网页请求的属性值确定为备选容器对象请求。
4.根据权利要求1所述的方法,其特征在于,在获取所述网页请求的referer字段之前,还包括: 判断所述网页请求的referer字段是否为空; 若是,将所述网页请求确定为备选容器对象请求,依据所述备选容器对象相对应的应答文件类型,确定所述备选容器对象请求的属性值,其中,所述属性值为内嵌对象请求或容器对象请求; 若否,执行所述获取所述网页请求的referer字段。
5.根据权利要求2所述的方法,其特征在于,所述依据所述备选容器对象相对应的应答文件类型,确定所述备选容器对象请求的属性值,包括: 判断所述备选容器对象相对应的应答文件类型是否为HTML文件类型,若是,将所述备选容器对象请求确定为容器对象请求; 若否,将所述备选容器对象请求确定为内嵌对象请求。
6.一种网页请求的区分装置,其特征在于,包括: 接收单元,用于接收网页请求; 第一获取单元,用于获取所述网页请求的URL字段、referer字段及所述网页请求的应答文件类型;第二获取单元,用于获取所述网页请求的第一生成时间、所述referer字段指向的网页页面的最近一个网页请求的第二生成时间; 生成单元,用于依据所述第一时间及所述第二生成时间生成时间间隔; 确定单元,用于依据所述URL字段、所述时间间隔及所述应答文件类型,确定所述网页请求的属性值;其中,所述属性值为内嵌对象请求或容器对象请求。
7.根据权利要求6所述的装置,其特征在于,所述确定单元包括: 第一判断子单元,用于判断所述URL字段是否满足预设的字段格式标准,生成第一结果; 第二判断子单元,用于判断所述时间间隔是否小于等于预设时间间隔,生成第二结果; 第一确定子单元,用于依据所述第一结果及所述第二结果,确定所述网页请求的属性值;当所述网页请求为备选容器对象请求时,触发第二确定子单元;其中,所述属性值为内嵌对象请求或备选容器对象请求; 第二确定子单元,用于依据所述应答文件类型,确定所述备选容器对象请求的属性值;其中,所述属性值为内嵌对象请求或容器对象请求。
8.根据权利要求7所述的装置,其特征在于,所述第一确定子单元包括: 第一结果确定子单元,用于当所述第一结果为是时,将所述网页请求的属性值确定为备选容器对象请求;` 第二结果确定子单元,用于当所述第一结果为否且所述第二结果为是时,将所述网页请求的属性值确定为内嵌对象请求; 第三结果确定子单元,用于当所述第一结果为否且所述第二结果为否时,将所述网页请求的属性值确定为备选容器对象请求。
9.根据权利要求6所述的装置,其特征在于,还包括: 第三判断单元,用于判断所述网页请求的referer字段是否为空,若是,触发第三确定单元,若否,触发第一获取单元; 第三确定单元,用于将所述网页请求确定为备选容器对象请求,触发第四确定单元;第四确定单元,用于依据所述备选容器对象相对应的应答文件类型,确定所述备选容器对象请求的属性值,其中,所述属性值为内嵌对象请求或容器对象请求。
10.根据权利要求7所述的装置,其特征在于,所述第二确定子单元包括: 判断子单元,用于判断所述备选容器对象相对应的应答文件类型是否为HTML文件类型,若是,触发第一单元,若否,触发第二单元; 第一单元,用于将所述备选容器对象请求确定为容器对象请求; 第二单元,用于将所述备选容器对象请求确定为内嵌对象请求。
【文档编号】G06F17/30GK103729458SQ201410012326
【公开日】2014年4月16日 申请日期:2014年1月10日 优先权日:2014年1月10日
【发明者】徐翔, 张广兴 申请人:湖南神州祥网科技有限公司