本申请涉及互联网领域,具体而言,涉及一种网站页面间访问路径的确定方法及装置。
背景技术:
目前,在对网站数据进行分析时,通常需要获知用户在网站的指定的几个重要页面间最常使用的访问路径。例如,网站中有A、B、C、D四个重要页面,预期用户会按照A->B->C->D页面间的顺序进行访问(忽略中间访问了其它页面),而且A->B->C->D这个路径也跟网站的具体业务处理路径相符合。然而,用户在重要页面间真实的访问路径不一定与网站预期的访问路径相同,而相关技术中无法获知用户在网站上重要页面间的真实访问路径。
针对相关技术中无法获知用户在网站上重要页面间的真实访问路径的问题,目前尚未提出有效的解决方案。
技术实现要素:
本申请的主要目的在于提供一种网站页面间访问路径的确定方法及装置,以解决相关技术中无法获知用户在网站上重要页面间的真实访问路径的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种网站页面间访问路径的确定方法。该方法包括:获取访问日志,其中,访问日志为根据目标网站的访问信息生成的日志;根据访问日志获取网站页面的原始页面间原始访问路径;对原始页面间原始访问路径进行过滤处理,得到目标页面间原始访问路径;以及去除目标页面间原始访问路径中的环路,并根据访问日志在去除环路后的目标页面间原始访问路径中确定目标页面间目标访问路径。
进一步地,去除目标页面间原始访问路径中的环路,并根据访问日志在去除环路后的目标页面间原始访问路径中确定目标页面间目标访问路径包括:按照访问顺序遍历目标页面间原始访问路径,对目标页面间原始访问路径中的环路进行切分,得到目标页面间原始访问子路径集合;在目标页面间原始访问子路径集合中,删除包含在其他子路径中的子路径,得到删除后的目标页面间原始访问子路径集合;根据访问日志分别统计删除后的目标页面间原始访问子路径集合中每条目标页面间原始访问子路径 包含的会话数量;根据会话数量对删除后的目标页面间原始访问子路径集合中每条目标页面间原始访问子路径进行排序处理;以及从排序后的目标页面间原始访问子路径中确定目标页面间目标访问路径。
进一步地,对原始页面间原始访问路径进行过滤处理,得到目标页面间原始访问路径包括:确定预先设置的目标页面;从原始页面间原始访问路径中提取连续访问目标页面的路径,得到至少一条连续访问目标页面的路径;以及将至少一条连续访问目标页面的路径作为目标页面间原始访问路径。
进一步地,对原始页面间原始访问路径进行过滤处理,得到目标页面间原始访问路径包括:确定预先设置的目标页面;根据预先设置的目标页面对原始页面间原始访问路径中的非目标页面进行过滤处理;以及将过滤后的原始页面间原始访问路径作为目标页面间原始访问路径。
进一步地,在获取访问日志之前,该方法还包括:根据预设脚本代码采集针对目标网站的访问信息;发送目标网站的访问信息至目标地址;以及在目标地址上根据目标网站的访问信息生成访问日志。
进一步地,根据访问日志获取网站页面的原始页面间原始访问路径包括:获取预先设置的目标页面;确定访问日志中的所有会话;从访问日志中的所有会话中筛选访问过预先设置的目标页面的会话,得到目标会话;以及分别确定目标会话中对被访问页面的访问顺序,得到原始页面间原始访问路径。
为了实现上述目的,根据本申请的另一方面,提供了一种网站页面间访问路径的确定装置。该装置包括:第一获取单元,用于获取访问日志,其中,访问日志为根据目标网站的访问信息生成的日志;第二获取单元,用于根据访问日志获取网站页面的原始页面间原始访问路径;处理单元,用于对原始页面间原始访问路径进行过滤处理,得到目标页面间原始访问路径;以及确定单元,用于去除目标页面间原始访问路径中的环路,并根据访问日志在去除环路后的目标页面间原始访问路径中确定目标页面间目标访问路径。
进一步地,确定单元包括:切分模块,用于按照访问顺序遍历目标页面间原始访问路径,对目标页面间原始访问路径中的环路进行切分,得到目标页面间原始访问子路径集合;删除模块,用于在目标页面间原始访问子路径集合中,删除包含在其他子路径中的子路径,得到删除后的目标页面间原始访问子路径集合;统计模块,用于根据访问日志分别统计删除后的目标页面间原始访问子路径集合中每条目标页面间原始访问子路径包含的会话数量;第一处理模块,用于根据会话数量对删除后的目标页面间原始访问子路径集合中每条目标页面间原始访问子路径进行排序处理;以及第一确 定模块,用于从排序后的目标页面间原始访问子路径中确定目标页面间目标访问路径。
进一步地,处理单元包括:第二确定模块,用于确定预先设置的目标页面;提取模块,用于从原始页面间原始访问路径中提取连续访问目标页面的路径,得到至少一条连续访问目标页面的路径;以及第三确定模块,用于将至少一条连续访问目标页面的路径作为目标页面间原始访问路径。
进一步地,处理单元包括:第四确定模块,用于确定预先设置的目标页面;第二处理模块,用于根据预先设置的目标页面对原始页面间原始访问路径中的非目标页面进行过滤处理;以及第五确定模块,用于将过滤后的原始页面间原始访问路径作为目标页面间原始访问路径。
通过本申请,采用以下步骤:获取访问日志,其中,访问日志为根据目标网站的访问信息生成的日志;根据访问日志获取网站页面的原始页面间原始访问路径;对原始页面间原始访问路径进行过滤处理,得到目标页面间原始访问路径;以及去除目标页面间原始访问路径中的环路,并根据访问日志在去除环路后的目标页面间原始访问路径中确定目标页面间目标访问路径,解决了相关技术中无法获知用户在网站上重要页面间的真实访问路径的问题,解决了相关技术中无法获知用户在网站上重要页面间的真实访问路径的问题。通过收集用户在目标网站上的访问信息,找出访问指定页面的会话,去除会话中的非重要页面,然后对会话中包含的环进行切分,最后统计出目标页面间目标访问路径,进而达到了能够获知用户在网站上重要页面间的真实访问路径的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的网站页面间访问路径的确定方法的流程图;以及
图2是根据本申请实施例的网站页面间访问路径的确定装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例 仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请的实施例,提供了一种网站页面间访问路径的确定方法。
图1是根据本申请实施例的网站页面间访问路径的确定方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取访问日志,其中,访问日志为根据目标网站的访问信息生成的日志。
可选地,在本申请实施例提供的网站页面间访问路径的确定方法中,在获取访问日志之前,该方法还包括:根据预设脚本代码采集针对目标网站的访问信息;发送目标网站的访问信息至目标地址;以及在目标地址上根据目标网站的访问信息生成访问日志。
在目标网站上部署Tracker(JS脚本),部署完成之后,用户在该网站的所有访问数据都会被发送到指定服务器,在指定服务器上根据目标网站的访问信息生成访问日志,获取目标时间段内的访问日志,其中,目标时间是用户希望在具体哪段时间内确定网站页面间访问路径的时间。
步骤S102,根据访问日志获取网站页面的原始页面间原始访问路径。
可选地,在本申请实施例提供的网站页面间访问路径的确定方法中,根据访问日志获取网站页面的原始页面间原始访问路径包括:获取预先设置的目标页面;确定访问日志中的所有会话;从访问日志中的所有会话中筛选访问过预先设置的目标页面的会话,得到目标会话;以及分别确定目标会话中对被访问页面的访问顺序,得到原始页面间原始访问路径。
例如,预先设置的目标页面为客户想要统计的重要页面,如p1、p2、p3和p4四个页面,从访问日志中的所有会话中,筛选访问过所设重要页面的会话,并将其作为 目标会话。
分别确定上述得到的至少一个目标会话中每个目标会话中对被访问页面的访问顺序,得到原始页面间原始访问路径。例如,某个目标会话的访问路径为p5-p1-p3-p7-p6-p4-p1-p9-p3-p2-p8,即其为该目标会话的原始页面间原始访问路径。
步骤S103,对原始页面间原始访问路径进行过滤处理,得到目标页面间原始访问路径。
可选地,在本申请实施例提供的网站页面间访问路径的确定方法中,对原始页面间原始访问路径进行过滤处理,得到目标页面间原始访问路径包括:确定预先设置的目标页面;从原始页面间原始访问路径中提取连续访问目标页面的路径,得到至少一条连续访问目标页面的路径;以及将至少一条连续访问目标页面的路径作为目标页面间原始访问路径。
例如,预先设置的目标页面为客户想要统计的重要页面,如p1、p2、p3和p4四个目标页面,若用户只统计连续访问目标页面的路径,则根据p1、p2、p3和p4从p5-p1-p3-p7-p6-p4-p1-p9-p3-p2-p8中提取连续访问目标页面的路径,得到:p1-p3,p4-p1和p3-p2三条连续访问的访问路径,将p1-p3,p4-p1和p3-p2作为目标页面间原始访问路径。
可选地,在本申请实施例提供的网站页面间访问路径的确定方法中,对原始页面间原始访问路径进行过滤处理,得到目标页面间原始访问路径包括:确定预先设置的目标页面;根据预先设置的目标页面对原始页面间原始访问路径中的非目标页面进行过滤处理;以及将过滤后的原始页面间原始访问路径作为目标页面间原始访问路径。
例如,预先设置的目标页面为客户想要统计的重要页面,如p1、p2、p3和p4四个页面,若用户不要求只统计连续访问目标页面的路径,则根据p1、p2、p3和p4对p5-p1-p3-p7-p6-p4-p1-p9-p3-p2-p8中的非目标页面进行过滤处理,去除掉p5-p1-p3-p7-p6-p4-p1-p9-p3-p2-p8中非目标页面,处理后得到:p1-p3-p4-p1-p3-p2。将p1-p3-p4-p1-p3-p2作为目标页面间原始访问路径。
通过该步骤,可以根据用户需求只统计连续访问的访问路径或者统计所有访问目标页面的访问路径作为目标页面间原始访问路径。
步骤S104,去除目标页面间原始访问路径中的环路,并根据访问日志在去除环路后的目标页面间原始访问路径中确定目标页面间目标访问路径。
例如,去除p1-p3-p4-p1-p3-p2中的环路,并根据访问日志在去除环路后的目标页面间原始访问路径中确定目标页面间目标访问路径。
可选地,在本申请实施例提供的网站页面间访问路径的确定方法中,去除目标页面间原始访问路径中的环路,并根据访问日志在去除环路后的目标页面间原始访问路径中确定目标页面间目标访问路径包括:按照访问顺序遍历目标页面间原始访问路径,对目标页面间原始访问路径中的环路进行切分,得到目标页面间原始访问子路径集合;在目标页面间原始访问子路径集合中,删除包含在其他子路径中的子路径,得到删除后的目标页面间原始访问子路径集合;根据访问日志分别统计删除后的目标页面间原始访问子路径集合中每条目标页面间原始访问子路径包含的会话数量;根据会话数量对删除后的目标页面间原始访问子路径集合中每条目标页面间原始访问子路径进行排序处理;以及从排序后的目标页面间原始访问子路径中确定目标页面间目标访问路径。
具体地,对上述取出的路径p1-p3-p4-p1-p3-p2进行切分,切分的目的是从p1-p3-p4-p1-p3-p2路径中去除环路,从路径中第一个元素开始依次寻找最长无环路径,例如对p1-p3-p4-p1-p3-p2,先从第一个开始,找到p1-p3-p4,然后从第二个元素开始找得到p3-p4-p1,然后从第三个元素开始找得到p4-p1-p3-p2,一直找到路径的末尾。最后对得到的路径进行去重合并。即假设最终得到的路径中既有p4-p1-p3-p2又有p3-p2,由于前者包含后者,则将后者舍去,最终返回p1-p3-p4和p4-p1-p3-p2两条路径。再解析目标时间内访问日志中的所有访问信息,得到此段时间的所有访问路径,并统计各个路径包含的会话数量,根据会话数对各个路径进行排名,根据排名结果得到目标页面间目标访问路径。
综上所述,以上步骤通过在目标网站添加Tracker(预设脚本代码),收集用户在目标网站的访问信息,统计每个用户在网站中的访问行为,找出访问指定页面(重要页面)的会话,去除会话中的非重要页面,然后对会话中包含的环进行切分,最后统计出目标页面间目标访问路径,进而达到了能够获知用户在网站上重要页面间的真实访问路径的效果。
本申请实施例提供的网站页面间访问路径的确定方法,通过获取访问日志,其中,访问日志为根据目标网站的访问信息生成的日志;根据访问日志获取网站页面的原始页面间原始访问路径;对原始页面间原始访问路径进行过滤处理,得到目标页面间原始访问路径;以及去除目标页面间原始访问路径中的环路,并根据访问日志在去除环路后的目标页面间原始访问路径中确定目标页面间目标访问路径,解决了相关技术中无法获知用户在网站上重要页面间的真实访问路径的问题,解决了相关技术中无法获知用户在网站上重要页面间的真实访问路径的问题。通过收集用户在目标网站上的访问信息,找出访问指定页面的会话,去除会话中的非重要页面,然后对会话中包含的环进行切分,最后统计出目标页面间目标访问路径,进而达到了能够获知用户在网站上重要页面间的真实访问路径的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种网站页面间访问路径的确定装置,需要说明的是,本申请实施例的网站页面间访问路径的确定装置可以用于执行本申请实施例所提供的用于网站页面间访问路径的确定方法。以下对本申请实施例提供的网站页面间访问路径的确定装置进行介绍。
图2是根据本申请实施例的网站页面间访问路径的确定装置的示意图。如图2所示,该装置包括:第一获取单元10、第二获取单元20、处理单元30和确定单元40。
第一获取单元10,用于获取访问日志,其中,访问日志为根据目标网站的访问信息生成的日志。
第二获取单元20,用于根据访问日志获取网站页面的原始页面间原始访问路径。
处理单元30,用于对原始页面间原始访问路径进行过滤处理,得到目标页面间原始访问路径。
确定单元40,用于去除目标页面间原始访问路径中的环路,并根据访问日志在去除环路后的目标页面间原始访问路径中确定目标页面间目标访问路径。
本申请实施例提供的网站页面间访问路径的确定装置,通过第一获取单元10获取访问日志,其中,访问日志为根据目标网站的访问信息生成的日志;第二获取单元20根据访问日志获取网站页面的原始页面间原始访问路径;处理单元30对原始页面间原始访问路径进行过滤处理,得到目标页面间原始访问路径;以及确定单元40去除目标页面间原始访问路径中的环路,并根据访问日志在去除环路后的目标页面间原始访问路径中确定目标页面间目标访问路径,解决了相关技术中无法获知用户在网站上重要页面间的真实访问路径的问题,通过收集用户在目标网站上的访问信息(即统计每个用户在网站中的访问行为),找出访问指定页面的会话,去除会话中的非重要页面,然后对会话中包含的环进行切分,最后统计出目标页面间目标访问路径,进而达到了能够获知用户在网站上重要页面间的真实访问路径的效果。
可选地,在本申请实施例提供的网站页面间访问路径的确定装置中,确定单元40包括:切分模块,用于按照访问顺序遍历目标页面间原始访问路径,对目标页面间原始访问路径中的环路进行切分,得到目标页面间原始访问子路径集合;删除模块,用于在目标页面间原始访问子路径集合中,删除包含在其他子路径中的子路径,得到删除后的目标页面间原始访问子路径集合;统计模块,用于根据访问日志分别统计删除后的目标页面间原始访问子路径集合中每条目标页面间原始访问子路径包含的会话数 量;第一处理模块,用于根据会话数量对删除后的目标页面间原始访问子路径集合中每条目标页面间原始访问子路径进行排序处理;以及第一确定模块,用于从排序后的目标页面间原始访问子路径中确定目标页面间目标访问路径。
可选地,在本申请实施例提供的网站页面间访问路径的确定装置中,处理单元30包括:第二确定模块,用于确定预先设置的目标页面;提取模块,用于从原始页面间原始访问路径中提取连续访问目标页面的路径,得到至少一条连续访问目标页面的路径;以及第三确定模块,用于将至少一条连续访问目标页面的路径作为目标页面间原始访问路径。
可选地,在本申请实施例提供的网站页面间访问路径的确定装置中,处理单元30包括:第四确定模块,用于确定预先设置的目标页面;第二处理模块,用于根据预先设置的目标页面对原始页面间原始访问路径中的非目标页面进行过滤处理;以及第五确定模块,用于将过滤后的原始页面间原始访问路径作为目标页面间原始访问路径。
所述网站页面间访问路径的确定装置包括处理器和存储器,上述第一获取单元、第二获取单元、处理单元和确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元实现相应功能。上述第一预设条件、第二预设条件、预设切分规则、预设脚本代码等都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数确定网站页面间访问路径。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取访问日志,其中,访问日志为根据目标网站的访问信息生成的日志;从访问日志中确定访问过目标页面的所有会话,得到至少一个目标会话;分别确定每个目标会话中对被访问页面的访问顺序,得到原始页面间原始访问路径;按照第一预设条件对原始页面间原始访问路径进行处理,得到目标页面间原始访问路径;以及根据目标页面间原始访问路径确定目标页面间目标访问路径。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块 并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。