本发明属于互联网领域,涉及一种https环境下用户行为分析的方法。
背景技术:
http用户访问请求报文数据一直以来是在互联网环境下用户行为分析主要数据来源,通过http报文,可以有效跟踪用户行为路径、内容和频率,从而分析互联网用户的行为习惯、行为预测,从而为企业、投资者等提供有力的决策依据,根据不同用户制订并执行详尽、有效的策略。
随着互联网的不断发展,承载的业务越来越多,特别是终端支付、金融理财等业务的发展,使得数据传输的安全性要求越来越高,因此很多应用/Web服务逐步将http切换为https,保证客户端与服务器间通信安全性,如天猫、淘宝、百度、京东、IOS APP等。
https在http的基础上加入了TLS/SSL协议,TSL/SSL依靠证书来验证服务器的身份,并为浏览器和服务器之间的通信加密。而原来基于http访问报文分析的方法已经无法抓取到用户真实的访问URL的全部数据,也就无法对用户的互联网行为进行深入分析。
目前主要有两种方式:
方案一:
通过分析https中仅能记录的host等有限信息粗略分析用户行为。这种方案,由于https数据中仅能明文获取用户访问请求的host信息,无法记录到用户访问该host下详细的path从而获取完整的URL,因此也就无法做到用户访问内容的深入分析,不能为决策提供有效的数据支撑。
方案二:
在客户端与用户访问的服务器之间架设Proxy代理,实现对https请求劫持。通过对https请求劫持,可以实现与http完全相同的分析效果,但无法实现对全网用户行为的分析能力,比较适合企业网络出口处架设Proxy代理,实现企业内部用户行为跟踪和分析,因此该方案存在Proxy代理服务器部署的技术限制、场景限制和成本限制。
技术实现要素:
针对上述问题,本发明通过建立互联网内容页面特征库、结合https可以获取的有限信息,基于大数据分析技术,对用户实际访问内容的准确计算,实现https下用户互联网行为分析。
本发明解决上述技术问题所采取的技术方案如下:
一种https环境下用户行为分析的方法,包括:
步骤1)对需要分析的互联网资源页面建立内容特征库,特征库由多个特征码组成,特征码包括:https请求URL的Host、页面大小、页面包含资源内容、资源内容大小、动态资源信息、内嵌URLs及数量之一或者组合;
步骤2)对用户访问互联网资源的https报文数据逐条分析,提取特征信息,以与特征码匹配分析;
步骤3)将提取特征信息的日志与内容特征库中的特征码匹配,还原用户真实访问行为,并做进一步的分析和统计。
优选的是,步骤1)中,针对需要分析的网站通过爬虫技术爬取所需要分析的每个网页,根据爬取网页的数据建立网页特征库。
优选的是,步骤2)中,提取的特征信息选自以下:
访问URL的Host/Domain;
https请求页面未缓存部分的总长度;
https请求页面中未缓存的图片或者CSS加载资源的数量;
页面加载的每一个资源对象的大小;
https请求发生的时间。
优选的是,步骤2)中,基于以上1个或多个特征信息组合形成一个或多个特征指纹,通过一定时间范围内用户访问https请求确定用户访问路径。
优选的是,步骤3)中将提取特征信息的日志与内容特征库中的特征码匹配具体选自以下的方法:
通过指纹组合唯一匹配;
如果无法通过指纹组合唯一匹配时,可以通过访问该网页时同时加载的资源或URL序列多条件匹配;
从页面中获取3-5个必定每次会加载的对象内容,同时获取这些对象内容的大小和host信息,依据每次加载页面访问对象序列的host信息和对象大小作为指纹信息进行匹配。
一种https环境下用户行为分析的系统,包括:
特征库建立单元,用于对需要分析的互联网资源页面建立内容特征库,特征库由多个特征码组成,特征码包括:https请求URL的Host、页面大小、页面包含资源内容、资源内容大小、动态资源信息、内嵌URLs及数量之一或者组合;
特征码匹配单元,用于对用户访问互联网资源的https报文数据逐条分析,提取特征信息,以与特征码匹配分析;
行为还原单元,用于将提取特征信息的日志与内容特征库中的特征码匹配,还原用户真实访问行为,并做进一步的分析和统计。
优选的是,所述特征库建立单元,针对需要分析的网站通过爬虫技术爬取所需要分析的每个网页,根据爬取网页的数据建立网页特征库。
优选的是,所述特征码匹配单元,提取的特征信息选自以下:
访问URL的Host/Domain;
https请求页面未缓存部分的总长度;
https请求页面中未缓存的图片或者CSS加载资源的数量;
页面加载的每一个资源对象的大小;
https请求发生的时间。
优选的是,所述特征码匹配单元,进一步用于基于以上1个或多个特征信息组合形成一个或多个特征指纹,通过一定时间范围内用户访问https请求确定用户访问路径。
优选的是,所述行为还原单元,将提取特征信息的日志与内容特征库中的特征码匹配具体选自以下的方法:
通过指纹组合唯一匹配;
如果无法通过指纹组合唯一匹配时,可以通过访问该网页时同时加载的资源或URL序列多条件匹配;
从页面中获取3-5个必定每次会加载的对象内容,同时获取这些对象内容的大小和host信息,依据每次加载页面访问对象序列的host信息和对象大小作为指纹信息进行匹配。
该方案主要由以下特点:
1、无需增加额外投资,包括改变网络结构或增加计算资源,基于现有的数据和设备即可完成;
2、还原用户行为后的数据分析和原有http日志基本相同,保护原有分析系统的投入;
3、用户行为还原的粒度可以根据实际业务需求确定,以减少特征库的开发和维护成本。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。其中,
图1是本发明https环境下用户行为分析的方法的流程示意图;
图2是本发明https环境下用户行为分析的系统的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一:
如图1所示,一种https环境下用户行为分析的方法,包括:
步骤1)对需要分析的互联网资源页面建立内容特征库,特征库由多个特征码组成,特征码包括:https请求URL的Host、页面大小、页面包含资源内容、资源内容大小、动态资源信息、内嵌URLs及数量之一或者组合;
步骤2)对用户访问互联网资源的https报文数据逐条分析,提取特征信息,以与特征码匹配分析;
步骤3)将提取特征信息的日志与内容特征库中的特征码匹配,还原用户真实访问行为,并做进一步的分析和统计。
本发明通过建立互联网内容页面特征库、结合https可以获取的有限信息,基于大数据分析技术,对用户实际访问内容的准确计算,实现https下用户互联网行为分析。
实施例二:
结合实施例对本发明进行继续描述,其中,优选的是,步骤2)中,提取的特征信息选自以下:
访问URL的Host/Domain;
https请求页面未缓存部分的总长度;
https请求页面中未缓存的图片或者CSS加载资源的数量;
页面加载的每一个资源对象的大小;
https请求发生的时间。
优选的是,步骤2)中,基于以上1个或多个特征信息组合形成一个或多个特征指纹,通过一定时间范围内用户访问https请求确定用户访问路径。
优选的是,步骤3)中将提取特征信息的日志与内容特征库中的特征码匹配具体选自以下的方法:
通过指纹组合唯一匹配;
如果无法通过指纹组合唯一匹配时,可以通过访问该网页时同时加载的资源或URL序列多条件匹配;
从页面中获取3-5个必定每次会加载的对象内容,同时获取这些对象内容的大小和host信息,依据每次加载页面访问对象序列的host信息和对象大小作为指纹信息进行匹配。
实施例三:
在一个实施例中,本发明主要包括以下的主要步骤:
1.对需要分析的互联网资源页面建立内容特征库
针对需要分析的网站通过爬虫技术爬取所需要分析的每个网页,根据爬取网页的数据建立网页特征库,特征库由多个特征码(指纹)组成,特征码包括但不限于https请求URL的Host、页面大小、页面包含资源内容、资源内容大小、动态资源信息、内嵌URLs及数量等。
2.对用户访问互联网资源的https报文数据逐条分析,提取特征信息,以与特征码/指纹匹配分析
https通过TLS/SSL加密通信通道时,通过抓取报文分析后仍然可以获得如下信息:
(1)访问URL的Host/Domain
(2)https请求页面未缓存部分的总长度
(3)https请求页面中未缓存的加载资源的数量,如图片、CSS等
(4)页面加载的每一个资源对象的大小
(5)https请求发生的时间
基于以上1个或多个组合形成一个或多个特征指纹,通过一定时间范围内用户访问https请求确定用户访问路径。
3.将提取特征信息的日志按一定算法与内容特征库匹配,还原用户真实访问行为,并做进一步的分析和统计。特征匹配算法主要包括以下方法:
(1)通过指纹组合唯一匹配;
(2)如果无法通过指纹组合唯一匹配时,可以通过访问该网页时同时加载的资源或URL序列多条件匹配,比如,一个页面加载时不仅仅加载该页面的内容,也加载了一些特定的图片,或发起一个特殊的新的https/http请求,此时都可以通过指纹组合+定义URL访问序列共同定位所访问的页面。
(3)从页面中获取3-5个必定每次会加载的对象内容(图片、媒体文件、css、js等),同时获取这些对象内容的大小和host信息,依据每次加载页面访问对象序列的host信息和对象大小作为指纹信息。
该方案主要由以下特点:
1、无需增加额外投资,包括改变网络结构或增加计算资源,基于现有的数据和设备即可完成;
2、还原用户行为后的数据分析和原有http日志基本相同,保护原有分析系统的投入;
3、用户行为还原的粒度可以根据实际业务需求确定,以减少特征库的开发和维护成本。
其中,所有采用相同或类似的算法实现基于https日志的用户行为分析方法均属于本专利的申请保护范围:
1.通过解析https请求中获取host、页面大小、页面包含对象大小、动态资源加载数量等信息作为指纹唯一定位https页面的方法;
2.多个https页面相同时,增加其他元素,如JS、图片、URL访问访序列、内容对象大小等唯一定位页面的方法;
3.通过网络爬虫技术构建Web页面特征库的方法。
实施例四:
与以上方法实施例相对应,本发明还提供了一种一种https环境下用户行为分析的系统,包括:
特征库建立单元,用于对需要分析的互联网资源页面建立内容特征库,特征库由多个特征码组成,特征码包括:https请求URL的Host、页面大小、页面包含资源内容、资源内容大小、动态资源信息、内嵌URLs及数量之一或者组合;
特征码匹配单元,用于对用户访问互联网资源的https报文数据逐条分析,提取特征信息,以与特征码匹配分析;
行为还原单元,用于将提取特征信息的日志与内容特征库中的特征码匹配,还原用户真实访问行为,并做进一步的分析和统计。
优选的是,所述特征库建立单元,针对需要分析的网站通过爬虫技术爬取所需要分析的每个网页,根据爬取网页的数据建立网页特征库。
优选的是,所述特征码匹配单元,提取的特征信息选自以下:
访问URL的Host/Domain;
https请求页面未缓存部分的总长度;
https请求页面中未缓存的图片或者CSS加载资源的数量;
页面加载的每一个资源对象的大小;
https请求发生的时间。
优选的是,所述特征码匹配单元,进一步用于基于以上1个或多个特征信息组合形成一个或多个特征指纹,通过一定时间范围内用户访问https请求确定用户访问路径。
优选的是,所述行为还原单元,将提取特征信息的日志与内容特征库中的特征码匹配具体选自以下的方法:
通过指纹组合唯一匹配;
如果无法通过指纹组合唯一匹配时,可以通过访问该网页时同时加载的资源或URL序列多条件匹配;
从页面中获取3-5个必定每次会加载的对象内容,同时获取这些对象内容的大小和host信息,依据每次加载页面访问对象序列的host信息和对象大小作为指纹信息进行匹配。
该方案主要由以下特点:
1、无需增加额外投资,包括改变网络结构或增加计算资源,基于现有的数据和设备即可完成;
2、还原用户行为后的数据分析和原有http日志基本相同,保护原有分析系统的投入;
3、用户行为还原的粒度可以根据实际业务需求确定,以减少特征库的开发和维护成本。
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。