一种检测方法和检测设备与流程

文档序号:22388001发布日期:2020-09-29 17:51阅读:85来源:国知局
一种检测方法和检测设备与流程
本申请涉及检测技术,具体涉及一种检测方法和设备。
背景技术
:随着互联网技术的兴起,用户在通过社交网络、金融网络、电商网络进行用户相关行为如交友、理财、购物时,也不乏会遇上被群体欺诈用户欺诈的情况。其中,群体欺诈用户可以是这样一群用户:在网络中不法分子往往以群体的形式操纵大量的虚假帐号,通过关注热点的行为将部分虚拟账号推为表面上看似正常的用户,进而利用这些看似正常的用户(虚假用户)带来的大量访问和关注快速提高某些话题或不法用户的热度,以诱导正常用户对其进行访问、支持、购买等行为,以此达到欺诈目的并从中非法获利。目前,检测群体欺诈用户的方法通常包括有以下两种:第一种,基于对多个用户在一段时间内的用户行为的分析制定人工规则,并通过人工规则对用户是否是群体欺诈用户进行分析。第二种是一种基于用户热度的方法,当多个用户存在有对同一个用户的多次访问、关注等高危行为时,则认为该用户为一个具有较高概率的嫌疑成员(群体欺诈用户成员),与此高可疑用户有过关联行为的其他用户也具有较高的欺诈嫌疑,以此来度量用户是否是嫌疑成员,最后通过可疑用户的情况来判断由高概率的嫌疑用户构成的群组是否为疑似欺诈群组。前述第一种方法的人工规则通过由实际经验而得,与设定人工规则的维护人员的知识储备量有关,而往往个人的知识储备量较为有限,实现起来无法保证检测准确度。前述第二种方法过于复杂实现时需要较多的计算资源。技术实现要素:为解决现有存在的技术问题,本发明实施例提供一种检测方法和设备,至少在不耗费较多计算资源的情况下提高检测准确度。本发明实施例的技术方案是这样实现的:本发明实施例提供一种检测方法,所述方法包括:至少一次采集待检测数据,所述检测数据包括至少两个节点用户和节点用户之间的访问关系;在每次采集的待检测数据中,计算所述检测数据中各个节点用户的第一风险参数,所述第一风险参数表征为对在由所述各个节点用户构成的访问关系中存在异常用户的度量;计算在所述至少一个节点中的任意一个节点被预删除的情况下的第二风险参数,所述第二风险参数表征为对在由剩余节点用户构成的访问关系中存在异常用户的度量;依据第一风险参数和第二风险参数,确定在所采集次的待检测数据中各个节点用户的第一参数,所述第一参数表征为节点用户在所采集次的待检测数据中为异常节点用户的可能性。前述方案中,所述方法还包括:从同一拓扑关系中进行所述待检测数据的各次采集,所述同一拓扑关系至少包括具有相互访问关系的至少两个节点用户;依据每次采集的待检测数据中各个节点用户的第一参数,确定所述同一拓扑关系图中的至少两个节点用户的第一参考量,所述第一参考量表征为节点用户在所述同一拓扑关系中为异常节点用户的可能性。前述方案中,针对每次采集的待检测数据,确定所述待检测数据中的各个节点用户的特征数据;基于各个节点用户的特征数据,确定在所采集次的待检测数据中各个节点用户的第二参数,所述第二参数表征为基于特征数据而得到的节点用户在所采集次的待检测数据中为异常节点用户的可能性。前述方案中,每次采集的待检测数据从同一拓扑关系中得到;相应的,所述方法还包括:依据在各次采集的待检测数据中各个节点的第一参数和第二参数,确定在所述同一拓扑关系中的至少两个节点用户的第一参考量。前述方案中,所述方法包括:针对任意次采集的待检测数据中的各个节点;逐次计算被预删除一个节点的情况下剩余节点用户的第二风险参数;删除使得第二风险参数增大的节点用户;计算未被删除的节点用户的第一参数,其中未被删除的节点用户为在所采集次的待检测数据中需要被计算第一参数的节点用户。本发明实施例提供一种检测设备,所述设备包括:采集装置,用于至少一次采集待检测数据,所述检测数据包括至少两个节点用户和节点用户之间的访问关系;处理装置,用于在每次采集的待检测数据中,计算所述检测数据中各个节点用户的第一风险参数,所述第一风险参数表征为对在由所述各个节点用户构成的访问关系中存在异常用户的度量;计算在所述至少一个节点中的任意一个节点被预删除的情况下的第二风险参数,所述第二风险参数表征为对在由剩余节点用户构成的访问关系中存在异常用户的度量;依据第一风险参数和第二风险参数,确定在所采集次的待检测数据中各个节点用户的第一参数,所述第一参数表征为节点用户在所采集次的待检测数据中为异常节点用户的可能性。前述方案中,所述采集装置,还用于:从同一拓扑关系中进行所述待检测数据的各次采集,所述同一拓扑关系至少包括具有相互访问关系的至少两个节点用户;所述处理装置,还用于:依据每次采集的待检测数据中各个节点用户的第一参数,确定所述同一拓扑关系图中的至少两个节点用户的第一参考量,所述第一参考量表征为节点用户在所述同一拓扑关系中为异常节点用户的可能性。前述方案中,所述处理装置,还用于:针对每次采集的待检测数据,确定所述待检测数据中的各个节点用户的特征数据;基于各个节点用户的特征数据,确定在所采集次的待检测数据中各个节点用户的第二参数,所述第二参数表征为基于特征数据而得到的节点用户在所采集次的待检测数据中为异常节点用户的可能性。前述方案中,所述处理装置,还用于:依据在各次采集的待检测数据中各个节点的第一参数和第二参数,确定在所述同一拓扑关系中的至少两个节点用户的第一参考量;其中,所述采集装置每次采集的待检测数据从同一拓扑关系中得到。前述方案中,所述处理装置,还用于:针对任意次采集的待检测数据中的各个节点;逐次计算被预删除一个节点的情况下剩余节点用户的第二风险参数;删除使得第二风险参数增大的节点用户;计算未被删除的节点用户的第一参数,其中未被删除的节点用户为在所采集次的待检测数据中需要被计算第一参数的节点用户。本申请实施例提供的检测方法和设备,所述方法包括:至少一次采集待检测数据,所述检测数据包括至少两个节点用户和节点用户之间的访问关系;在每次采集的待检测数据中,计算所述检测数据中各个节点用户的第一风险参数,所述第一风险参数表征为对在由所述各个节点用户构成的访问关系中存在异常用户的度量;计算在所述至少一个节点中的任意一个节点被预删除的情况下的第二风险参数,所述第二风险参数表征为对在由剩余节点用户构成的访问关系中存在异常用户的度量;依据第一风险参数和第二风险参数,确定在所采集次的待检测数据中各个节点用户的第一参数,所述第一参数表征为节点用户在所采集次的待检测数据中为异常节点用户的可能性。本申请实施例的技术方案,与相关技术相比,无需维护人员的知识储备,也无需耗费较多的计算资源,可有效提高检测准确度。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例的网络拓扑结构的示意图;图2为本申请实施例的检测方法的流程示意图;图3为本申请实施例的检测原理示意图一;图4为本申请实施例建立的二叉树的示意图;图5为本申请实施例的检测原理示意图二;图6为本申请实施例的检测原理示意图三;图7为本申请实施例的检测设备的组成结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。在对本申请实施例做介绍之前,需要对本申请实施例可能会用到的一些常规概念进行说明:网络拓扑结构是指节点用户之间的物理布局,即用什么方式把网络中的节点用户之间的通信关系表示出来。通常,网络的拓扑结构包括以下几种:星型结构、环型结构、总线结构、分布式结构、树型结构、网状结构、蜂窝状结构等。本方案中仅需要知道哪个节点用户与哪个节点用户之间存在访问和/或被访问关系即可,至于网络节点用户之间采用哪种拓扑结构本申请实施例不做具体讨论。简单的网络拓扑结构(拓扑关系)如图1所示,该拓扑关系包括节点用户1~4(node1~node4),node1与node4具有互相访问的权利,node1可以访问node2,node2可以被node4访问,node2与node3具有互相访问的权利,node4可以被node3访问。本领域技术人员应该,在拓扑结构中存在有这样一个概念:节点的出度和入度,出度可以认为是访问其它节点用户(向外访问)的能力,入度可以认为是被其它节点用户访问(被访问)的能力。如果一个访问关系用一条边来表示,那么节点的入度指的进入该节点的边的条数(入边数);节点的出度是指从该节点出发的边的条数(出边数)。节点的度数指的是入边数和出边数的总和。在实际应用中,群体欺诈用户还包括诱导者用户和欺诈者用户。其中诱导者用户具有出度高(向外访问、关注行为频繁)、入度低(因本身没有价值,无法获得正常用户的关注)的特点,欺诈者用户则具有出度低(仅少量关注具有盈利效果的话题、事件和帐号)、入度高(获取关注和访问频繁)的特点,由此使得群体欺诈用户和正常用户的网络拓扑结构存在一定的差异性。其中,诱导者通过不断地对欺诈者进行访问使得欺诈者成为看似正常的用户,进而诱导正常用户对欺诈者进行访问、支持、购买等行为以实现获利。本领域技术人员应该理解,在拓扑结构中,与正常用户相比,群体欺诈用户的边密度通常较大。也即可以这样认为:某一网络拓扑结构或其局部结构中,节点用户的边密度越大,是群体欺诈用户的可能性越高。本方案中将群体欺诈用户视为异常节点用户。本申请实施例的方案在于从网络拓扑结构中检测出群体欺诈用户。本申请实施例的检测方法,至少用于对网络中存在的群体欺诈用户进行检测,如图2所示,所述方法包括:步骤201:至少一次采集(抽取)待检测数据,所述检测数据包括至少两个节点用户和节点用户之间的访问关系;此步骤中,采集(抽取)是对社交网络、金融网络、电商网络中的节点用户之间的访问和/或被访问关系形成的整个拓扑结构中的部分拓扑结构的采集(抽取)。由于整个拓扑结构较为庞大,本申请中通过采集部分拓扑结构的方式进行节点用户是否是异常用户的检测方案。本方案中,可以进行待检测数据的一次采集(抽取),也可以进行多次采集(抽取),优选为多次采集(抽取)待检测数据。可以理解,所采集(抽取)的节点用户的数量可以为三个、八个或更多,优选为所采集(抽取)的节点用户的数量为整个拓扑结构中节点用户总数量的一定百分比,如10%、20%等。步骤202:在每次采集的待检测数据中,计算所述检测数据中各个节点用户的第一风险参数,所述第一风险参数表征为对在由所述各个节点用户构成的访问关系中存在异常用户的度量;步骤203:计算在所述至少一个节点中的任意一个节点被预删除的情况下的第二风险参数,所述第二风险参数表征为在由剩余节点用户构成的访问关系中的边密度;可以理解,在本申请中,第一风险参数和第二风险参数为一个度量参数(量),用来度量由待检测数据中的所有节点用户构成的访问关系中是否存在异常用户、由剩余的所有节点用户构成的访问关系中是否存在异常用户。在具体实现上,风险参数(第一风险参数和第二风险参数)可以具体为节点的边密度和/或节点度数和的密度。关于节点的边密度和节点度数和的密度具体请参见后续说明。本方案中风险参数还可以由除节点的边密度和节点度数和的密度之外的其它能够度量存在有异常用户的风险的参数来担当,不仅仅限定于节点的边密度和节点度数和的密度。在实际应用中所有能够度量存在有异常用户的风险的参数均可作为本申请实施例中的风险参数,对此本申请不做一一举例。步骤204:依据第一风险参数和第二风险参数,确定在所采集次的待检测数据中各个节点用户的第一参数,所述第一参数表征为节点用户在所采集次的待检测数据中为异常节点用户的可能性。在步骤203~204中,针对每次采集的待检测数据,在待检测数据中的节点没有被预删除之前,计算第一风险参数;计算在任意一个节点用户被预删除的情况下由剩余节点用户构成的访问关系中的边密度,并依据第一风险参数和第二风险参数,得到所当前所采集的待检测数据中各个节点用户为异常节点用户的可能性。由此可见,本申请实施例的技术方案,仅需第一和第二风险参数即可确定节点用户是否为异常节点用户的可能性,与相关技术相比,无需维护人员的知识储备,也不需要较多的计算资源,易于实现,可有效提高检测准确度。在一个可选的实施例中,所述方法包括:从同一拓扑关系中进行所述待检测数据的各次采集,所述同一拓扑关系至少包括具有相互访问关系的至少两个节点用户;依据每次采集的待检测数据中各个节点用户的第一参数,确定所述同一拓扑关系图中的至少两个节点用户的第一参考量,所述第一参考量表征为节点用户在所述同一拓扑关系中为异常节点用户的可能性。前述的可选方案中,从同一网络拓扑结构中多次采集待检测数据,可以理解网络拓扑结构中包括的节点用户及其访问关系很多,如果将网络拓扑结构中的所有节点用户全部参与运算,是必会耗费更大的计算资源。本实施例中,从网络拓扑结构中采集出部分数据(待检测数据),待检测数据的计算量与整个拓扑结构相比要小得多,计算起来更加容易,且更能够保证检测准确度。考虑到对同一网络拓扑结构中的节点用户的计算准确性,需要对同一网络拓扑结构进行至少一次的采集如两次及以上进行采集,采集次数依据实际应用情况而定,此处不做具体限定。其中,因为本方案是以待检测数据为计算单位,待检测数据通常为拓扑结构中的部分结构,与相关技术中需要拓扑结构中的全部节点用户均需要参与运算的方式相比,计算量较小,无需耗费较多的计算资源,可有效节省计算资源。本领域技术人员应该而知,本方案中的采集为对同一网络拓扑结构中的节点用户及节点用户间的访问关系进行采集,多次采集的待检测数据中,可能包括有相同的节点用户,也可能包含有不相同的节点用户,可以理解如果采集的次数越多,则覆盖所述同一网络拓扑结构中的全部节点的可能性越大,也即该拓扑结构中的每个节点均被采集到的可能性越大。这种进行多次采集的方式,每次采集计算起来更加容易,不容易占用较多的计算资源。此外,本方案中,针对每次采集的待检测数据中各个节点用户的第一参数,可获得在同一拓扑关系中所有可能被采集到的节点用户在所述同一拓扑关系中为异常节点用户的可能性,这种计算方式在实际应用中易于实现,且通过对采集的待检测数据中的节点是异常节点用户的可能性来尽量计算同一拓扑关系中的各个节点用户的可能性,与相关技术中的将同一拓扑关系中的节点用户直接参与运算的方法相比,可明显提升检测准确度。前述的方案是从待检测数据中的节点用户的风险参数方面入手来确定节点是否是异常节点用户。本方案中还可以从节点用户的特征数据方面入手,如下述实施例所示:在一个可选的实施例中,针对每次采集的待检测数据,确定所述待检测数据中的各个节点用户的特征数据;基于各个节点用户的特征数据,确定在所采集次的待检测数据中各个节点用户的第二参数,所述第二参数表征为基于特征数据而得到的节点用户在所采集次的待检测数据中为异常节点用户的可能性。前述方案中,可以认为节点用户的第一参数是基于风险参数而得到的节点用户在所采集次的待检测数据中为异常节点用户的可能性。第二参数是基于节点用户的特征数据而得到的为异常节点用户的可能性。考虑到本方案中每次采集的待检测数据从同一拓扑关系中得到的,所述方法还包括:依据在各次采集的待检测数据中各个节点的第一参数和第二参数,确定在所述同一拓扑关系中的至少两个节点用户的第一参考量,所述第一参考量表征为节点用户在所述同一拓扑关系中为异常节点用户的可能性。前述方案中,基于从风险参数方面考虑得到的节点用户为异常节点用户的可能性和基于从特征数据方面考虑得到的节点用户为异常节点用户的可能性,将其进行综合,计算出同一拓扑关系中的至少两个节点用户在所述同一拓扑关系中异常节点用户的可能性。这种综合考虑得到的结果确定节点用户是否为异常节点用户的方法,与单一的从一个方面考虑得到的结果相比,可提高检测准确度,降低检测出错率。在一个可选的实施例中,针对任意次采集的待检测数据中的各个节点,所述步骤204可以进一步包括:逐次计算被预删除一个节点的情况下的第二风险参数;删除与第一风险参数相比使得第二风险参数增大的节点用户;计算未被删除的节点用户的第一参数,其中未被删除的节点用户为在所采集次的待检测数据中需要被计算第一参数的节点用户。在本可选方案中,使得第二风险参数增大的节点用户通常为正常用户,删除使得第二风险参数增大的节点实际上就是将正常用户删除,待检测数据中未被删除的节点用户通常是群体欺诈用户的可能性较大,计算未被删除的节点用户的第一参数。这种从风险参数入手的计算方式,风险参数的取值表征着节点用户在剩余节点构成的网络拓扑关系中的边密度情况,通常群体欺诈用户的边密度较大,这种基于群体欺诈用户的这一固有特性而确定是否为异常节点用户的技术方案,至少可提高检测准确性,降低检测出错率。可以理解,本申请实施例的技术方案可应用于对大型网络如对社交网络、金融网络、电商网络中的群体欺诈用户进行检测。社交网络如脸书、推特等网络。下面以对社交网络如脸书中的群体欺诈用户进行检测为例进行说明。在脸书的应用场景中,不同节点用户之间通过脸书账号进行访问和/或被访问,进而形成一拓扑结构。本应用场景下待检测数据从前述的拓扑结构中进行多次采集,该拓扑结构由于较为庞大,节点较多、访问关系较为复杂,其具体组成本文不做描述。本应用场景中,将节点的边密度作为风险参数(第一风险参数和第二风险参数),节点的边密度指的是一拓扑结构关系中各个节点的风险子参数之和与该拓扑结构关系中的节点总数的相除值。其中,节点的风险子参数为该节点是否存在边的概率与实际存在边的期望值之差。可以理解,该风险参数代表着该拓扑结构的边密度。本应用场景中以风险参数为节点的边密度为例进行说明,对风险参数为节点度数和的密度与风险参数为节点的边密度的方案类似,请参照理解。其中,节点度数和的密度为一拓扑结构关系中所有节点的度数和与该拓扑结构关系中节点总数的商。下面结合图3所示的原理图进行以下说明。step(步骤)1:对脸书账号间的访问数据进行第n次采集(抽取),n为大于等于1的正整数;本应用场景下,假定进行第n=1次采集,采集到的节点用户是脸书拓扑网络中的节点1~4和节点7~10共8个节点用户。其中,为便于描述,将节点1~4作为第一组节点用户,将节点7~10作为第二组节点用户。其中,节点1可访问第二组节点用户中的所有用户,节点2可访问第二组节点用户中的除了节点7之外的用户,节点3可访问第二组节点用户中的节点9和10,节点4可访问第二组节点用户中的节点10。相应地,节点7可被第一组节点用户中的所有用户访问,节点8可被第一组节点用户中的除了节点2之外的其它节点用户进行访问,节点9可被节点3和4访问,节点10可被节点4访问。由前述的内容可知,各节点的度数是:节点1和7的度数是4,节点2和8的度数是3,节点3和9的度数是2,节点4和10的度数是1。计算在所采集的待检测数据(包括节点1~4和节点7~10共8个节点用户,采集的待检测数据中的节点没有被预删除或删除的情况下)的风险参数(第一风险参数)。其中,待检测数据包括10条边和8个节点。待检测数据中的8个节点在理想情况下应该存在16条边,而实际存在10条边,则实际存在边的期望为10/16=5/8。节点1存在边(存在则取值为1;不存在则取值为0),则其风险子参数为(1-5/8)/16;节点2存在边(存在则取值为1;不存在则取值为0),则其风险子参数为(1-5/8)/16;依次类推计算各个节点(节点1~节点8)的各个风险子参数,然后将计算出的8个风险子参数相加再与处于节点总数8,得到第一风险参数。step2:基于采集结果构建同构图;可以理解,同构图为图论中的一个概念,其表示着在同一类型节点之间通过同一类型的边进行连接。通常,同一类型节点之间的连接指的是同一类型的节点之间的访问关系,例如手机与手机之间的访问,服务器与服务器之间的访问。同一类型的边,比如两个节点之间通过访问(被访问)关系进行通信、两个节点之间通过点赞的关系进行通信。本应用场景下,同构图为无向图,仅表示两个节点之间是否存在通信关系即可,无需区分该通信关系是哪个节点被访问、由哪个节点发起访问。以前述的节点7为例,同构图可表示为表1所示:表1节点边节点节点7存在边节点1节点7存在边节点2节点7存在边节点3节点7存在边节点4step3:根据节点度数建立二叉树;本应用场景中,根据节点度数的大小建立如图4所示的二叉树;节点度数大的节点用户作为父节点,节点度数小的节点用户作为子节点,且二叉树为优先树。step4:逐一预删除优先树中的一个节点,并在其中一个节点被预删除的情况下计算由剩下的节点用户构成的访问关系的第二风险参数;以前述的节点1~4和节点7~10为例,依次预删除(假定删除)节点7、节点2、节点8、节点3、节点9、节点4和节点10。计算在以上其中一个节点被预删除的情况下由在由剩余节点用户构成的同构图(网络拓扑关系)的边密度的情况。以删除节点7为例,节点7与其它节点(节点1~4)不存在边的连接关系了,节点7的风险子参数=(0-5/8)/16,节点2的风险子参数=(1-5/8)/16,依次类推计算出各个剩余节点的风险子参数,则由剩余节点用户构成的同构图中的边密度=8个节点的风险子参数之和/剩余节点总数(7);以删除节点10为例,节点10与节点1不存在边的连接关系了,节点10的风险子参数=(0-5/8)/16,节点7的风险子参数=(1-5/8)/16,,节点7的风险子参数=(1-5/8)/16,依次类推计算出各个剩余节点的风险子参数,则由剩余节点用户构成的同构图中的边密度=8个节点的风险子参数之和/剩余节点总数(7)。step5:删除与第一风险参数相比使第二风险参数增加的m个节点;本步骤中,m为大于等于1的正整数,为预设值如取值m=1,则在删除不同节点的情况下计算出来的第二风险参数不同,则本步骤为删除使得第二风险参数增加最大的m=1个节点;m为预设值如取值m=2,则本步骤为删除使得第二风险参数增加最大的1个节点和次大的1个节点。以此类推,依据计算出的第二风险参数,至到删除m个节点。以前述删除节点7和节点10为例,m=1,来看本步骤在实际情况下应该删除节点10、删除节点7还是同时删除节点7和10。可以这样理解,在没有节点被预删除的情况下,同构图中包括10条边和8个节点,则边密度可以近似为10/8。在节点7被预删除的情况下,由剩余节点构成的同构图中包括6条边和7个节点,则在节点7被预删除的情况下由剩余节点构成的边密度近似为6/7。在节点10被预删除的情况下,由剩余节点构成的同构图中包括9条边和7个节点,则在节点7被预删除的情况下由剩余节点构成的边密度近似为9/7。在被预删除的节点为节点7和节点10的情况下,节点10是那个在被预删除的情况下使得由剩余节点构成的访问关系的第二风险参数提升最高的节点,则删除节点10这个节点。从同构图中删掉节点用户10的脸书账号以及与其他账号互相访问形成的边。其中,在删除节点10的情况下,由剩余节点构成的访问关系的第二风险参数被提升,说明异常节点用户存在于剩余节点中,节点10是非异常用户即是安全的脸书账户。step6:输出未删除的剩余节点;在第n次待检测数据中,所输出的未输出的剩余节点即为第n次抽样数据中具有群体欺诈风险的账号群组。其中,在一次采样中可以认为被输出的剩余节点用户的第一参数为较高、如为80%、70%或100%,表示着在当前次采集的待检测数据中的疑似群体欺诈用户或高危群体欺诈用户为被输出的剩余节点用户或者被输出的剩余节点用户为群体欺诈用户。本领域技术人员应该而知,由于本方案从边密度角度出发对可能是群体欺诈用户进行筛选(检测),在一次采样过程所筛选出的节点用户(所输出的剩余节点用户)即可视为疑似群体欺诈用户或高危欺诈用户,该疑似群体欺诈用户或高危欺诈用户还可通过后续计算出的第一参考量而确定。step7:n=n+1,继续返回到step1执行,直至n=last,last为正整数是预先设定的允许n取的最大值。假定在前述的脸书应用场景中,脸书网络的拓扑结构中包括80个节点,预先设定每次随机采样8个节点及其访问关系,那么last将取值为80/10=10次,那么通过前述的方案,将输出10次未删除的剩余节点。由于10次采样可能采集到相同的节点用户,也可能采集到不同的节点用户,那么10次的输出也可能输出相同的结果或不同的结果。例如,在脸书网络的拓扑结构所包括的节点1~节点80中,节点用户7被采集到20次,在18次中其被输出,即在20次被采集中有18次被判断为是群体欺诈风险的账号。则节点用户7是群体欺诈风险的可能性(第一参考量)用概率表示为18/20。可以理解,当采集的次数越多,同一节点用户被采集的可能性越大,如果其是群体欺诈风险的账号,则将其判断为疑似群体欺诈用户或高危欺诈用户的概率就越高(被输出的可能性越大)。前述的方案是从待检测数据中的节点用户的风险参数方面入手来确定节点是否是异常节点用户,这种基于群体欺诈用户在拓扑结构中具有较大边密度的特性来检测的方法,至少可提高检测准确率,无需较大计算资源,工程上易于实现。此外还可以从节点用户的特征数据方面入手,来判断脸书账号是否是异常节点,本部分内容为通过传统的机器学习而得。具体的可结合图5所示的原理图进行说明:在脸书的应用场景中,在节点用户间通过脸书账号进行访问时,服务器会记录用户的行为数据,例如对节点账号对应的节点用户的姓名、性别、年龄等用户个人信息进行记录、还会对访问或被访问时间、访问或被访问次数、访问或被访问频率等与访问相关的信息进行记录。本应用场景中,以采集一次的待检测数据为例,在采集一次的待检测数据中,如采集前述的8个节点用户(节点1~4和节点7~10共8个节点用户)时,还会从服务器中读取各个节点用户的用户个人信息和与访问相关的信息。依据读取的这些信息生成一个矩阵,该矩阵的行数与节点用户的总数量相同,列数与节点用户的属性个数相同。可以理解,矩阵的每行代表一个节点用户的所有属性,矩阵的每列代表各个用户在各个属性上的取值。该矩阵表示的信息可视为节点用户的特征空间。从特征空间中至少随机抽取其中两种特征,例如年龄特征和访问频率,将所抽取的特征输入至预先训练好的分类器,分类器进行分类并输出可能是异常的用户,例如输出一个节点用户是异常节点用户的概率值(第二参数)。其中,本领域技术人员应该而知,分类器对正常用户和异常用户进行分类的原理大致是:将抽取的两个特征用二维坐标轴表示出来,例如横坐标代表访问频率,纵坐标代表年龄,按照采集的8个节点用户的访问频率和年龄,标出8个节点用户的坐标点。沿着垂直于横轴的方向做垂线,沿着垂直于纵轴的方向做垂线,随着垂线的增多,这些垂直于横轴和纵轴的垂线可将标识出的坐标点进行空间的划分。例如,垂直于横轴的第1个垂线可将8个节点用户分到2个空间中去,其中一个空间(该垂线的左侧)包括2个节点用户,另外一个空间(该垂线的右侧)包括6个节点用户。随着(垂直于横轴的)垂线的增多,被划分的空间增多,会存在有一个单独的节点用户被划分到一个单独空间中去的情况。可以理解,多次做垂线(被划分)的情况即为划分的空间被增加的情况,而正常用户的坐标点通常都密集地处于同一空间中,异常用户的坐标点通常都容易被划分出来。本方案中,将较早被划分到一个单独空间中的某个节点用户视为异常用户。如果将正常用户和异常用户的区分视为2种分类结果,分类器将输出这两种分类结果。其中,远离的坐标点代表的节点用户即可视为高危群体欺诈用户或疑似群体欺诈用户。通过如上的分类原理,可通过对节点用户的特征得到同一拓扑结构中的各个节点用户为异常用户的可能性,这种基于特征数据而得到的检测结果至少能够保证检测准确性。前述的方案是以一次采集到的待检测数据的特征数据进行的说明,本方案中可以在每次采集到待检测数据时,可以分别基于风险参数和特征数据进行检测结果的确定。也可以,在基于多次采集的待检测数据确定出检测结果的过程中,基于特征数据进行检测结果的确定,但基于特征数据进行检测结果的确定的过程可以对同一拓扑结构中的所有节点用户进行一并处理,无需进行多次采集。也就是说,本方案中基于特征数据进行检测结果的确定过程可以以采集的待检测数据为单位,也可以以同一拓扑关系中的所有节点用户为单位,对此本文不做具体限定。本应用场景中,考虑到前述的部分内容为通过从风险参数方面入手得到的节点用户为异常节点的可能性,另一部分内容为通过从节点用户的特征数据入手得到的节点用户为异常节点的可能性,本应用场景中,还可以同时从风险参数和特征参数这两个方面入手,将前面的检测两种结果进行综合得到最终的检测结果。如图6所示,将基于风险参数而得到的同一拓扑关系中的各个节点是异常用户的概率作为非线性模型的一个输入,将基于特征数据而得到的该同一拓扑关系中的各个节点是异常用户的概率作为非线性模型的另一个输入,这两个输入与非线性模型中的各自的权重进行运算如相乘运算,经过非线性模型的非线性处理,得到各个节点是异常用户的最终概率(第一参考量)。其中,非线性模型可以是任何合理的模型,如回归模型、贝叶斯模型、决策树等。非线性模型中的各个输入参数的权重参数可以预先训练好,并在使用时进行直接使用即可。本应用场景中权重参数可以为两个,其中一个权重参数(第一权重参数)对应于基于风险参数而得到的概率,另一权重参数(第二权重参数)对应于基于特征数据而得到的概率。考虑到本申请实施例基于风险参数而得到的概率更为健壮,则训练出的第一权重参数通常大于第二权重参数,例如第一权重参数为0.9、第二权重参数为0.1;还例如,第一权重参数为0.7,第二权重参数为0.3。前述的方案中,这种从风险参数和特征数据这两个方面综合考虑得到的结果确定节点用户是否为异常节点用户的方法,与单一的从一个方面考虑得到的结果相比,可提高检测准确度,降低检测出错率和漏检率。此外,本领域技术人员应该而知,本方案为一种非监督的方法(预先未知待检测数据的特性),与相关技术中有监督的方案相比,不但大大提高了图3、图5和图6中任一所示的模型的泛化能力,还解决了传统人工设定规则的方法无法适应快速衍变欺诈行为模式的问题,提高模型的可持续性。本申请实施例还提供一种检测设备,如图待7所示,所述设备包括:采集装置701,用于至少一次采集待检测数据,所述检测数据包括至少两个节点用户和节点用户之间的访问关系;处理装置702,用于在每次采集的待检测数据中,计算所述检测数据中各个节点用户的第一风险参数,所述第一风险参数表征为对在由所述各个节点用户构成的访问关系中存在异常用户的度量;计算在所述至少一个节点中的任意一个节点被预删除的情况下剩余节点用户的第二风险参数,所述第二风险参数表征为对在由剩余节点用户构成的访问关系中存在异常用户的度量;依据第一风险参数和第二风险参数,确定在所采集次的待检测数据中各个节点用户的第一参数,所述第一参数表征为节点用户在所采集次的待检测数据中为异常节点用户的可能性。其中,所述采集装置401,还用于:从同一拓扑关系中进行所述待检测数据的各次采集,所述同一拓扑关系至少包括具有相互访问关系的至少两个节点用户;所述处理装置702,还用于:依据每次采集的待检测数据中各个节点用户的第一参数,确定所述同一拓扑关系图中的至少两个节点用户的第一参考量,所述第一参考量表征为节点用户在所述同一拓扑关系中为异常节点用户的可能性。其中,所述处理装置702,还用于:针对每次采集的待检测数据,确定所述待检测数据中的各个节点用户的特征数据;基于各个节点用户的特征数据,确定在所采集次的待检测数据中各个节点用户的第二参数,所述第二参数表征为基于特征数据而得到的节点用户在所采集次的待检测数据中为异常节点用户的可能性。其中,所述处理装置702,还用于:依据在各次采集的待检测数据中各个节点的第一参数和第二参数,确定在所述同一拓扑关系中的至少两个节点用户的第一参考量;其中,所述采集装置每次采集的待检测数据从同一拓扑关系中得到。其中,所述处理装置702,还用于:针对任意次采集的待检测数据中的各个节点;逐次计算被预删除一个节点的情况下剩余节点用户的第二风险参数;删除使得第二风险参数增大的节点用户;计算未被删除的节点用户的第一参数,其中未被删除的节点用户为在所采集次的待检测数据中需要被计算第一参数的节点用户。需要说明的是,本申请实施例提供的检测设备,由于该检测设备解决问题的原理与前述的检测方法相似,因此,检测设备的实施过程及实施原理均可以参见前述检测方法的实施过程及实施原理描述,重复之处不再赘述。本申请实施例还提供一种存储介质,用于存储计算机程序,该计算机程序被执行时执行以下步骤:步骤201:至少一次采集待检测数据,所述检测数据包括至少两个节点用户和节点用户之间的访问关系;此步骤中,可以进行待检测数据的一次采集,也可以进行多次采集,优选为多次采集待检测数据。检测数据包括至少两个节点用户及其节点用户间的访问(包括被访问)关系。步骤202:在每次采集的待检测数据中,计算所述检测数据中各个节点用户的第一风险参数,所述第一风险参数表征为对在由所述各个节点用户构成的访问关系中存在异常用户的度量;步骤203:计算在所述至少一个节点中的任意一个节点被预删除的情况下剩余节点用户的第二风险参数,所述第二风险参数表征为对在由剩余节点用户构成的访问关系中存在异常用户的度量;步骤204:依据第一风险参数和第二风险参数,确定在所采集次的待检测数据中各个节点用户的第一参数,所述第一参数表征为节点用户在所采集次的待检测数据中为异常节点用户的可能性。存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中,非易失性存储器可以是只读存储器(rom,readonlymemory)、可编程只读存储器(prom,programmableread-onlymemory)、可擦除可编程只读存储器(eprom,erasableprogrammableread-onlymemory)、电可擦除可编程只读存储器(eeprom,electricallyerasableprogrammableread-onlymemory)、磁性随机存取存储器(fram,ferromagneticrandomaccessmemory)、快闪存储器(flashmemory)、磁表面存储器、光盘、或只读光盘(cd-rom,compactdiscread-onlymemory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram,randomaccessmemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram,staticrandomaccessmemory)、同步静态随机存取存储器(ssram,synchronousstaticrandomaccessmemory)、动态随机存取存储器(dram,dynamicrandomaccessmemory)、同步动态随机存取存储器(sdram,synchronousdynamicrandomaccessmemory)、双倍数据速率同步动态随机存取存储器(ddrsdram,doubledataratesynchronousdynamicrandomaccessmemory)、增强型同步动态随机存取存储器(esdram,enhancedsynchronousdynamicrandomaccessmemory)、同步连接动态随机存取存储器(sldram,synclinkdynamicrandomaccessmemory)、直接内存总线随机存取存储器(drram,directrambusrandomaccessmemory)。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本
技术领域
的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1