网站异常数据的识别方法及装置制造方法
【专利摘要】本发明公开了一种网站异常数据的识别方法及装置。其中,该方法包括:在通过每个网络渠道多次访问网页之后,获取每个网络渠道对应的多个访问停留时间;分别对每个网络渠道对应的多个访问停留时间进行统计计算,生成每个网络渠道的波动值;对各个网络渠道的波动值进行筛选处理,得到产生异常数据的网络渠道。通过本发明,能够提高确定发生异常流量数据的网络渠道的效率、减少了人力成本且准确性较好。
【专利说明】网站异常数据的识别方法及装置
【技术领域】
[0001]本发明涉及计算机互联网领域,具体而言,涉及一种网站异常数据的识别方法及
装直。
【背景技术】
[0002]随着互联网技术的发展,网民数量的急剧增加,互联网日益成为人们生活中最重要的媒体,互联网媒体数据的推广随之快速发展。媒体数据(例如广告)的推手越来越重视互联网媒体的广告投放,因为相对于传统广告,网络广告具有覆盖率广,精准度高,形式多样化的优点,而且可以借助于技术手段来实现智能化精准营销,通过对网民数据的追踪、挖掘、分析,可以对受众群体进行时间、地域、频次、兴趣、人口特征等方面的精准定向。网络广告在发行传播上的成本优势。相对于传统的纸质广告,网络广告在其传播过程中不需要任何其他材料等造成的成本问题,而且制作也相对方便快捷。同时相比较于电视广告,网络广告费用将会优惠很多,同时效果也很突出。
[0003]互联网的先进技术在给网络广告诸多优点的同时,也带来一些负面影响,点击作弊便是其中之一,点击作弊是伴着互联网的普及发展起来的,早期主要表现在通过一些自动运行的程序来“提高”网站的访问量,现在则是针对一些提供点击付费的广告网站,成为“网络赚钱”的手段。
[0004]对于广告主而言,如果某个广告渠道存在点击作弊,那就会造成该渠道的表面效果看起来很好,而实际真正有效的用户点击很少,如果该渠道是按点击付费,那就会造成广告花费的巨大损失。即使不是按点击付费,而是包天或包月结算,那这种虚假的营销效果,从长期来看也是对广告主营销费用的浪费。
[0005]目前通常采用人工判断的方法进行异常流量数据的分析,主要依靠的是个人经验和判断,由于数据量大,指标较多,很难快速的发现隐藏在海量数据中的异常情况,而且找到了异常数据,也没有非常有力的科学依据做支撑。
[0006]目前针对相关技术的通过人工来确定网络渠道发生异常流量数据的方案效率低、准确性差的问题,目前尚未提出有效的解决方案。
【发明内容】
[0007]针对相关技术的通过人工来确定网络渠道发生异常流量数据的方案效率低、准确性差的问题,目前尚未提出有效的解决方案,为此,本发明的主要目的在于提供一种网站异常数据的识别方法及装置,以解决上述问题。
[0008]为了实现上述目的,根据本发明的一个方面,提供了一种网站异常数据的识别方法,该方法包括:在通过每个网络渠道多次访问网页之后,获取每个网络渠道对应的多个访问停留时间;分别对每个网络渠道对应的多个访问停留时间进行统计计算,生成每个网络渠道的波动值;对各个网络渠道的波动值进行筛选处理,得到产生异常数据的网络渠道。
[0009]为了实现上述目的,根据本发明的另一方面,提供了一种网站异常数据的识别装置,该装置包括:获取模块,用于在通过每个网络渠道多次访问网页之后,获取每个网络渠道对应的多个访问停留时间;处理模块,用于分别对每个网络渠道对应的多个访问停留时间进行统计计算,生成每个网络渠道的波动值;筛选模块,用于对各个网络渠道的波动值进行筛选处理,得到产生异常数据的网络渠道。
[0010]通过本发明,采用在通过每个网络渠道多次访问网页之后,获取每个网络渠道对应的多个访问停留时间;分别对每个网络渠道对应的多个访问停留时间进行统计计算,生成每个网络渠道的波动值;对各个网络渠道的波动值进行筛选处理,得到产生异常数据的网络渠道,解决了相关技术的通过人工来确定网络渠道发生异常流量数据的方案效率低、准确性差的问题,进而实现了提高确定发生异常流量数据的网络渠道的效率、减少了人力成本且准确性较好的效果。
【专利附图】
【附图说明】
[0011]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0012]图1是根据本发明实施例的网站异常数据的识别方法的流程示意图;
[0013]图2是根据本发明实施例的网站异常数据的识别方法的详细流程示意;以及
[0014]图3是根据本发明实施例的网站异常数据的识别装置的结构示意图。
【具体实施方式】
[0015]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0016]实施例一:
[0017]在其最基本的配置中,图1是根据本发明实施例的网站异常数据的识别方法的流程示意图;图2是根据本发明实施例的网站异常数据的识别方法的详细流程示意。如图1所示,该网站异常数据的识别方法包括如下步骤:
[0018]步骤S10,在通过每个网络渠道多次访问网页之后,获取每个网络渠道对应的多个访问停留时间。具体的,该步骤中用户可以选择某一个网络渠道多次访问网页,每次访问当前网页时,系统记录每次访问过程中用户的停留时间,即该网页打开到关闭的延续时间,从而针对一个网络渠道会获取到访问当前网页的多个访问停留时间。
[0019]步骤S30,分别对每个网络渠道对应的多个访问停留时间进行统计计算,生成每个网络渠道的波动值。
[0020]步骤S50,对各个网络渠道的波动值进行筛选处理,得到产生异常数据的网络渠道。
[0021]本申请上述实施例通过对每个网络渠道发生访问网页的过程中,记录的每个网络渠道对应的所有访问时间,然后针对每个网络渠道进行访问停留时间的统计计算,根据计算结果进行筛选,从而筛选得到发生了异常数据的网络渠道,由于从自动化得从数据的统计学特征进行证明,即采用统计学的标准偏差概念来评估流量数据的异常,具有速度快,客观公正的优点,实现了对具有点击作弊嫌疑的渠道流量进行分析和识别,是一种可以从多角度共同验证流量数据是否异常的方法,避免了靠人工经验判断异常的片面性。由此可知,解决了相关技术的通过人工来确定网络渠道发生异常流量数据的方案效率低、准确性差的问题,进而实现了提高确定发生异常流量数据的网络渠道的效率、减少了人力成本且准确性较好的效果。
[0022]优选地,如图2所示,本申请上述实施例中,在步骤S30分别对每个网络渠道对应的多个访问停留时间进行统计计算,生成每个网络渠道的波动值之前,方法还可以包括如下步骤:
[0023]步骤S201,分别对每个网络渠道的流量数据进行汇总,获取每个网络渠道的网页访问量。
[0024]具体的,由于通过各个网络渠道对网站广告进行推送,推送的效果会不同,为了减少计算量,提高计算效率,上述步骤首先将来自各个媒体的网络渠道(以下简称Referer)访问网页时的流量数据进行汇总,即在数据库中对网页访问流量的数据按网络渠道Referer进行求和汇总,计算出各个网络渠道Referer的访问量总数。
[0025]步骤S202,对每个网络渠道的网页访问量进行排序。
[0026]步骤S203,对排序后的所有网络渠道进行筛选,得到预定数目的网络渠道。例如,该步骤可以按网页访问量从大到小的顺序对网络渠道进行排序,并将网页访问量总数前10%的Referer筛选出来,形成Referer集合R10。
[0027]步骤S204,将预定数目的网络渠道保存至临时数据表中,生成需要进行访问停留时间统计计算的网络渠道的集合。该步骤可是实现将步骤S303中RlO中每个网络渠道各自对应的所有访问的停留 时间都保存到临时数据表TableTemp中。
[0028]上述步骤S202和步骤S203实现了将每个网络渠道的网页访问量按照从大到小的顺序进行排序,然后选出网页访问流量最大的前a°/c^Referer,a的取值范围可以是1-100,可以根据网站流量的大小情况自行确定,优选的可以设置a=10,从而得到筛选后的网络渠道 Referer 集合 R10。
[0029]正常网民在点击某个网络渠道Referer的网络媒体数据进入媒体网站后,不同的网民在当前媒体网站的停留时间可以各不相同,即网民在媒体主网站停留的时间具有一定的波动性,需要说明的是,如果是点击作弊的流量,那它在网站停留的时间就几乎没有波动性,所以通过波动性的大小就可以判断流量是否存在异常。另外,此处也可以采用页面访问数作为指标来作为计算的基础。
[0030]优选地,本申请上述实施例中,步骤S30分别对每个网络渠道对应的多个访问停留时间进行统计计算,生成每个网络渠道的波动值的步骤包括如下步骤:
[0031]获取步骤S301:获取通过第一网络渠道多次访问网页时的访问停留时间,得到第一网络渠道对应的η个访问停留时间。上述步骤实现了在通过第一网络渠道多次访问网页之后,记录每次访问网页时的访问停留时间,获取第一网络渠道对应的多个访问停留时间。
[0032]第一计算步骤S302:根据第一网络渠道对应的η个访问停留时间计算得到第一网
络渠道对应的第一停留时间平均值氣具体的,该步骤可以针对上述步骤S304的TableTemp中记录的网络渠道集合RlO中的第一个网络渠道Referer进行停留时间汇总,计算得到第一个网络渠道对应的η个访问停留时间的平均值f。
[0033]第二计算步骤S303:根据如下公式计算得到第一网络渠道对应的波动值SD,[0034]
【权利要求】
1.一种网站异常数据的识别方法,其特征在于,包括:在通过每个网络渠道多次访问网页之后,获取所述每个网络渠道对应的多个访问停留时间;分别对所述每个网络渠道对应的多个访问停留时间进行统计计算,生成所述每个网络渠道的波动值;对各个网络渠道的波动值进行筛选处理,得到产生异常数据的网络渠道。
2.根据权利要求1所述的方法,其特征在于,在分别对所述每个网络渠道对应的多个访问停留时间进行统计计算,生成每个网络渠道的波动值之前,所述方法还包括:分别对每个网络渠道的流量数据进行汇总,获取每个网络渠道的网页访问量; 对每个网络渠道的网页访问量进行排序;对排序后的所有网络渠道进行筛选,得到预定数目的网络渠道;将所述预定数目的网络渠道保存至临时数据表中,生成需要进行访问停留时间统计计算的网络渠道的集合。
3.根据权利要求2所述的方法,其特征在于,分别对所述每个网络渠道对应的多个访问停留时间进行统计计算,生成所述每个网络渠道的波动值的步骤包括:获取步骤:获取通过所述第一网络渠道多次访问网页时的访问停留时间,得到所述第一网络渠道对应的η个访问停留时间;第一计算步骤:根据所述第一网络渠道对应的η个访问停留时间计算得到所述第一网络渠道对应的停留时间平均值島第二计算步骤:根据如下公式计算得到所述第一网络渠道对应的波动值SD,SD=: 一'~其中,所述Xi为所述第一网络渠道对应的i个访问停留时间,所述f为所述第一网络渠道对应的停留时间平均值,I < i < η,η为自然数;循环步骤,循环执行所述获取步骤、第一计算步骤和第二计算步骤,得到每个网络渠道对应的波动值。
4.根据权利要求3所述的方法,其特征在于,根据所述波动值进行筛选处理,得到产生异常数据的网络渠道的步骤包括:对各个网络渠道对应的波动值进行排序,得到网络渠道队列;按照预定标准值筛选所述网络渠道队列的波动值,得到所述产生异常数据的网络渠道。
5.根据权利要求4所述的方法,其特征在于,按照预定标准值筛选所述网络渠道队列的波动值,得到所述产生异常数据的网络渠道的步骤包括:提取所述网络渠道队列中预定数目的网络渠道作为所述产生异常数据的网络渠道。
6.一种网站异常数据的识别装置,其特征在于,包括:获取模块,用于在通过每个网络渠道多次访问网页之后,获取所述每个网络渠道对应的多个访问停留时间;处理模块,用于分别对所述每个网络渠道对应的多个访问停留时间进行统计计算,生成所述每个网络渠道的波动值;筛选模块,用于对各个网络渠道的波动值进行筛选处理,得到产生异常数据的网络渠道。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:汇总模块,用于分别对每个网络渠道的流量数据进行汇总,获取每个网络渠道的网页访问量;第一排序模块,用于对每个网络渠道的网页访问量进行排序;子筛选模块,用于对排序后的所有网络渠道进行筛选,得到预定数目的网络渠道;保存模块,用于将所述预定数目的网络渠道保存至临时数据表中,生成需要进行访问停留时间统计计算的网络渠道的集合。
8.根据权利要求7所述的装置,其特征在于,所述处理模块包括:子获取模块,用于获取通过所述第一网络渠道多次访问网页时的访问停留时间,得到所述第一网络渠道对应的η个访问停留时间;第一计算模块,用于根据所述第一网络渠道对应的η个访问停留时间计算得到所述第一网络渠道对应的停留时间平均值&第二计算模块,用于根据如下公式计算得到所述第一网络渠道对应的波动值SD,
9.根据权利要求8所述的装置,其特征在于,所述筛选模块包括:第二排序模块,用于对各个网络渠道对应的波动值进行排序,得到网络渠道队列;选择模块,用于按照预定标准值筛选所述网络渠道队列的波动值,得到所述产生异常数据的网络渠道。
10.根据权利要求9所述的装置,其特征在于,所述选择模块包括:提取模块,用于提取所述网络渠道队列中预定数目的网络渠道作为所述产生异常数据的网络渠道。
【文档编号】G06F17/30GK103605714SQ201310566714
【公开日】2014年2月26日 申请日期:2013年11月14日 优先权日:2013年11月14日
【发明者】张明波, 余德乐, 王静芬, 杨韬, 王晓群 申请人:北京国双科技有限公司