本申请涉及计算机技术领域,尤其涉及一种信息监控方法及装置。
背景技术:
随着网络技术的不断发展,网络服务商(如:网站)在接收用户提供的用户信息后,可以为用户提供各类丰富的网络服务。
目前,网络服务商所接收到的账户信息包含有不同类型的信息,如:用户在某商品网站上注册的账户信息,或者在某游戏网站上注册的账户信息。网络服务商会将用户提供的账户信息存储在网络服务器中。但是,用户所提供的用账户信息可能为恶意的账户信息(如:恶意的批量注册账户信息),这些恶意的账户信息会影响网络服务商的正常运行,造成不必要的资源浪费。
现有技术中,网络服务商会对接收到的账户信息进行识别与处理,通常,网络服务商将接收到的账户信息中,具有相同或相近的信息特征的账户信息提取出来,如,账户信息中的账户名相同或相似的前缀,再通过账户信息中的其他属性,量化账户信息是批量生成的可能性大小,如,账户信息中所包含的其他属性包括用户个人信息(如:用户姓名,用户电话),以及所包含的设备信息,如:网络之间互连的协议(Internet Protocol,IP)地址。其他属性相同的越多,则证明账户信息是批量生成的可能性越大,那么,该账户信息为恶意账户信息可能性也就越大,否则则可以认为该账户信息为正常账户信息。
例如:在某商品网站中,用户在该商品网站上注册账户信息,其中,注册的账户信息包括:luha001@163.com,luha002@163.com,luha003@163.com,luha004@163.com,luha005@163.com,这些账户信息有明显的相似性:前缀中的字母相同,且前缀中的数字成自增的规律性增长。这些账户信息很有可能是 恶意账户信息,那么,商品网站的服务器会对该用户所注册的包含上述邮箱的账户信息提取出来,统计出这些账户信息中所包含的其他属性(如:用户姓名,用户电话),将这些账户信息中所包含的其他属性进行比较,相同的属性越多,就说明该用户在该网站上所注册的账户信息为恶意账户信息的可能性越大。
但是,对于一些用户数量多的邮箱而言,每天新增数量较大,成百万的新增注册用户而言,即使有数量较多的相同模式的邮箱也属正常,必然需要借助其他账户信息,这样对账户信息进行识别的计算复杂度高,且容易出现误检,与此同时,账户信息中的设备信息(如:IP)稳定性较差,用户也可以使用某些网络设备更改IP,从而,会导致网络服务商在区分账户信息中正常账户信息和恶意账户信息准确率较低。
技术实现要素:
本申请实施例提供一种信息监控方法及装置,用以解决网络服务商在区分账户信息中正常账户信息和恶意账户信息准确率较低的问题。
本申请实施例提供的一种信息监控方法,包括:
确定特定时间段内接收到的各待识别账户的账户信息;
提取接收到的各账户信息中的字符特征;
根据提取出的字符特征,分别统计出所述特定时间段内具有相同的字符特征的账户数量;
根据预先建立的各字符特征对应的账户数量标准,以及统计出的所述特定时间段内具有相同的字符特征的账户数量,判断各账户信息是否为恶意信息。
本申请实施例提供的一种信息监控装置,包括:
接收模块,用于确定特定时间段内接收到的各待识别账户的账户信息;
提取模块,用于提取接收到的各账户信息中的字符特征;
统计模块,用于根据提取出的字符特征,分别统计出所述特定时间段内相同的字符特征的账户数量;
判断模块,用于根据预先建立的各字符特征对应的账户数量标准,以及统计出的所述特定时间段内具有相同的字符特征的账户数量,判断各账户信息是否为恶意信息。
本申请实施例提供一种信息监控方法及装置,该方法针对要监控的用户信息,首先网络服务器在确定特定时间段内接收到的各待识别账户的账户信息,提取接收到的各账户信息中的字符特征,根据提取出的字符特征,分别统计出特定时间段内具有相同的字符特征的账户数量,根据预先建立的各字符特征对应的账户数量标准,以及统计出的特定时间段内具有相同的字符特征的账户数量,判断各账户信息是否为恶意信息,因此,网络服务商在面对用户提供的账户信息时,可以有效的区分出正常账户信息和恶意账户信息,提升了区分正常账户信息和恶意账户信息的准确率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的信息监控方法的过程示意图;
图2为本申请实施例提供的信息监控装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的信息监控过程,具体包括以下步骤:
S101:确定特定时间段内接收到的各待识别账户的账户信息。
其中,所述的账户信息,包括但不限于用户在网页(或应用界面)上所填写的账户信息,所述特定时间段可以是当前时间段,也可以是过去的某一时间段。
在本申请实施例中,网络服务器接收用户注册的各账户信息并存储,当网络服务器接收到判断指令时,首先要确定特定时间段(如,过去的一天、过去的一小时等)内用户注册的各账户信息(其中,所述各账户信息即为各待识别账户的账户信息),再确定各待识别账户的账户信息,所述判断指令用于使网络服务器判断各待识别账户的账户信息是否为恶意信息。
S102:提取接收到的各账户信息中的字符特征。
其中,所述的字符特征,用以表征账户信息特征的信息,如账户信息的字符数量。
在本申请实施例中,网络服务器接收到特定时间段用户所提供的账户信息,在账户信息中提取出含有某一特征的信息。如:在当前时间段内,某一用户在某商品网站上注册该商品网站的账户,该商品网站的服务器会接收到该用户所注册的账户信息,并采用某一特定的特征提取方法(如:不用明确账户信息中的数字具体是多少,只需要标识数字的位置)在该用户所注册的账户信息中提取出含有相应特征的字符特征,如数字的数量。
S103:根据提取出的字符特征,分别统计出所述特定时间段内具有相同的字符特征的账户数量。
在本申请实施例中,在特定时间段内,网络服务器根据特定的特征提取方法(如:不用明确账户信息中的数字具体是多少,只需要标识数字的位置)在账户信息中提取出字符特征,将具有相同的字符特征归为同一类别,统计出该类别里所包含的字符特征对应的账户数量,并存储在网络服务器中。
如,假设在当前时间段内,某商品网站的服务器上接收到用户的账户信息(如:账户名)为:dafa123,dasa324,dafa897,dasa898,假设该特定的特征 提取方法为:不用明确指定信息中的数字具体是多少,只需要标识数字的位置,则上述账户信息的字符特征为:dafa^^^,dasa^^^,dafa^^^,dasa^^^,显然,dafa123的字符特征dafa^^^与dafa897的字符特征dafa^^^相同,dasa324的字符特征dasa^^^与dasa898的字符特征dasa^^^相同,因此,服务器将上述字符特征中,dafa123的字符特征dafa^^^和dafa897的字符特征dafa^^^归为第一类别,将dasa324的字符特征dasa^^^和dasa898的字符特征dasa^^^归为第二类别,显然,第一类别包含的字符特征对应的账户数量为2,第二类别包含的字符特征对应的账户数量为2,将统计出来的第一类别与第二类别对应的账户数量存储在网络服务器中。
S104:根据预先建立的各字符特征对应的账户数量标准,以及统计出的所述特定时间段内具有相同的字符特征的账户数量,判断各账户信息是否为恶意信息。
其中,所述各字符特征对应的账户数量标准,包括根据各字符特征对应的账户数量建立起来的衡量标准,如,字符特征对应的账户数量的均值。
在特定时间段内,网络服务器根据特定的特征提取方法统计出用户的账户信息中不同类别的字符特征对应的账户数量,在预先建立起来的各字符特征对应的账户数量标准(如,字符特征对应的账户数量的均值)中查找到与所述某一类别字符特征完全相同的字符特征类别,将该字符特征类别中的账户数量标准调取出来,进行比较判断。
延续上例,假设在预先建立起来的各字符特征对应的账户数量标准中,第一类别的字符特征对应的账户数量标准为3,第二类别的字符特征对应的账户数量标准为1,而网络服务器统计出来的第一类别的字符特征对应的账户数量为2,没有超出该类别对应的账户数量标准,则网络服务器会对第一类别的字符特征所对应的账户信息进行放行处理(即,不对该账户信息进行任何处理),网络服务器统计出来的第二类别的字符特征对应的账户数量为2,超出了该类别对应的账户数量标准,则网络服务器会对第二类别的字符特征对应的账户信 息进行风控处理(即,进行行为预警)。
通过上述步骤,在特定时间段内,网络服务器接收到各待识别账户的账户信息,账户信息通过特征提取方法提取出相应的字符特征,将具有相同的字符特征归为同一类别,分别统计出特定时间段内每一类别的字符特征对应的账户数量,对于每一类别的字符特征,在各字符特征对应的账户数量标准中找出所述每一类别对应的账户数量标准,由此判断出所述账户信息是否为恶意信息。因此,网络服务商在面对用户提供的账户信息时,可以有效的区分出正常账户信息和恶意账户信息,提升了区分正常账户信息和恶意账户信息的准确率。
为了更清楚的阐述本申请的所述信息监控方法,下面以所述账户信息包括账户名,所述特定时间段包括以预设的单位时间划分的时间长度的情况为例进行详细说明。
在实际应用中,用户会在某些商品网站上注册相应的账户信息,以此能够继续在商品网站上进行符合自己需要的操作,但是,用户注册的账户信息有可能是恶意的账户信息,故网络服务器在接收到所述用户的账户信息后,确定出账户信息中的账户名,根据预设的至少一个特征提取方法,分别从各账户名提取出字符特征。其中,所述预设的多个特征提取方法,包括账户名中的字符数量、字符类型、字符排序方式的任意组合。
如,用户在某商品网站注册了账户信息中的账户名包括:fawd2431,faad783,fawd 7972,faad442,luha8988,假设特征提取方法有八个,分别为:
方法一:模糊掉账户名中的所有数字,并保留被模糊掉的数字个数,其中,模糊掉指的是不用明确数字具体是多少;
方法二:模糊掉账户名中的所有数字,不用明确数字的个数,只需要标识出模糊掉的部分是数字;
方法三:模糊掉账户名中的所有字母,并保留被模糊掉的字母个数;
方法四:模糊掉账户名中的所有字母,不用明确字母的个数,只需要标识模糊掉的部分是字母;
方法五:模糊掉账户名中除指定位置之外的所有字符,不用明确数字的个数,只需要保留被模糊掉的非数字字符(包括字母字符和符号字符)的个数,其中,指定位置要为非数字字符;
方法六:模糊掉账户名中除指定位置之外的所有字符,不用明确模糊掉所有的字符个数,只需要标识被模糊掉的部分是数字还是非数字,其中,指定位置要为非数字字符;
方法七:模糊掉账户名中所有的字母组合,模糊掉账户名中所有的数字组合,只需要标识被模糊掉的部分是数字组合还是字母组合;
方法八:模糊掉账户名中的所有字符组合,不用明确被模糊掉的字符组合中的字符个数,只需要标识被模糊掉的是部分是字符组合,其中,所述字符组合指的是除起分割作用的分割字符之外的其他任意字符的组合。
这八个方法是并行存在的,账户名每根据一个特征提取方法就会提取出一个相应的字符特征,具体而言:
当上述账户名根据方法一所提取出来的字符特征为:fawd^^^^,faad^^^,fawd^^^^,faad^^^,luha^^^^;
当上述账户名根据方法二所提取出来的字符特征为:fawd^,faad^,fawd^,faad^,luha^;
当上述账户名根据方法三所提取出来的字符特征为:cccc2431,cccc783,cccc7972,cccc442,cccc8988;
当上述账户名根据方法四所提取出来的字符特征为:c2431,c783,c7972,c442,c8988;
当上述账户名根据方法五所提取出来的字符特征为:facc^,facc^,facc^,facc^,lucc^,其中,指定位置处为前两位非数字字符;
当上述账户名根据方法六所提取出来的字符特征为:fac^,fac^,fac^,fac^,luc^,其中,指定位置处为前两位非数字字符;
当上述账户名根据方法七所提取出来的字符特征为:c^,c^,c^,c^,c^;
当上述账户名根据方法八所提取出来的字符特征为:x,x,x,x,x。
上述中的“c”代表字母标识符,“^”代表数字标识符,“x”代表字符组合标识符。显然,上述5个账户名根据八个特征提取方法提取的字符特征共有22个。
在实际应用中,用户所注册的账户信息不仅限于上例中的5个,而是能够达到百级千级甚至万级,这里只以5个账户信息为例来说明该实施步骤的实施过程,当然,上述中的特征信息提取方法也不仅限于8个,可以根据需要来设定N个提取方法。
在本申请实施例中,在特定时间段内,根据特征提取方法提取出账户名中不同的字符特征,网络服务器将具有相同的字符特征归为同一类别,分别统计出每一类别中字符特征对应的账户数量,并将特定时间段内所统计出的每一类别中字符特征对应的账户数量存入到网络服务器中。
延用上例,用户在某商品网站注册了账户信息中的账户名仍包括:fawd2431,faad 783,fawd 7972,faad442,luha8988,假设特征提取方法只选择三个:分别是上例中的特征提取方法一,特征提取方法二和特征提取方法七,用户的账户名根据特征提取方法一所提取出来的字符特征为:fawd^^^^,faad^^^,fawd^^^^,faad^^^,luha^^^^;当上述账户名根据特征提取方法二所提取出来的字符特征为:fawd^,faad^,fawd^,faad^,luha^;账户名根据特征提取方法七所提取出来的字符特征为:c^,c^,c^,c^,c^,上述5个账户名根据上述三个特征提取方法提取的字符特征共有15个,在提取出的字符特征中,含有相同的字符特征,可将具有相同的字符特征归为同一类别,也即,上述的15个字符特征可分为7个类别,具体包括:fawd^^^^,faad^^^,luha^^^^,fawd^,faad^,luha^,c^。之后,网络服务器会统计出每一类别中字符特征对应的账户数量,具体地,类别“fawd^^^^”中包含的字符特征对应的账户数量为2,类别faad^^^中包含的字符特征对应的账户数量为2,类别luha^^^^中包含的字符特征对应的账户数量为1,类别fawd^中包含的字符特征对应的账户数量为 2,类别faad^中包含的字符特征对应的账户数量为2,类别luha^中包含的字符特征对应的账户数量为1,类别c^中包含的字符特征对应的账户数量为5,并将上述每一类别所包含的字符特征对应的账户数量存入到网络服务器中。
网络服务器统计出不同字符特征类别所包含的字符特征对应的账户数量,将各字符特征对应的账户数量与预先建立的各字符特征对应的账户数量标准做比较,因此,需要预先建立各字符特征对应的账户数量标准。
在本申请实施例中,预先建立各字符特征对应的账户数量标准,具体包括:预先根据在多个历史时间段内接收到的历史账户信息中的字符特征,将在所述各历史时间段内相同的字符特征进行归类,其中,所述历史时间段与所述特定时间段的时间长度相同,针对每一特征类别,分别统计出每个历史时间段内该特征类别的历史字符特征对应的账户数量,根据统计出的该特征类别在每一历史时间段内的历史字符特征对应的账户数量,确定该特征类别的字符特征对应的账户数量在所有历史时间段内的均值和标准差,根据该特征类别对应的账户数量的均值和标准差,确定出该特征类别对应的账户数量标准。
例如,假设设定4个历史时间段,每个历史时间段为一天,第一天接收到的各用户的历史账户信息数量为100(假设这100个历史账户信息的历史账户名均具有相同的字符特征),其中,以两个历史账户信息中包含的历史账户名:fawd2431,faw 783为例。沿用上述中的特征提取方法一和二,当上述账户名根据方法一所提取出的字符特征为:fawd^^^^,faw^^^;当上述账户名根据方法二所提取出的字符特征为:fawd^,faw^;上述“^”代表数字标识符。
其中,网络服务器将字符特征fawd^^^^作为第一类别,将字符特征faw^^^作为第二类别,将字符特征fawd^作为第三类别,将字符特征faw^作为第四类别,网络服务器将根据这100个账户名,统计出每一类别所包含字符特征对应的账户数量,也就是,网络服务器统计出来的每一类别的字符特征对应的账户总数量包括:第一类别包含字符特征对应的账户数量为70,第二类别包含字符特征对应的账户数量为30,第三类别包含字符特征对应的账户数量为60,第 四类别包含字符特征对应的账户数量为40。
假设第二天接收到的各用户的历史账户信息数量为100,其中,根据上述特征提取方法一提取出来的字符特征包括第一类别的字符特征对应的账户数量为60,第二类别的字符特征对应的账户数量为40,根据上述特征提取方法二提取出来的字符特征包括第三类别的字符特征对应的账户数量为50,第四类别的字符特征对应的账户数量为50。
假设第三天接收到的各用户的历史账户信息数量为100,其中,根据上述特征提取方法一提取出来的字符特征包括第一类别的字符特征对应的账户数量为50,第二类别的字符特征对应的账户数量为50,根据上述特征提取方法二提取出来的字符特征包括第三类别的字符特征对应的账户数量为40,第四类别的字符特征对应的账户数量为60。
假设第四天接收到的各用户的历史账户信息数量为100,其中,根据上述特征提取方法一提取出来的字符特征包括第一类别的字符特征对应的账户数量为80,第二类别的字符特征对应的账户数量为20,根据上述特征提取方法二提取出来的字符特征包括第三类别的字符特征对应的账户数量为50,第四类别的字符特征对应的账户数量为50。
网络服务器统计出这四天内每一类别每一天所对应的账户数量,即:每一字符特征在每一天都对应一定的账户数量。由正态分布可以模拟出,每一字符特征每天对应的账户数量的均值和标准差,即:第一类别字符特征每天对应的账户数量的均值为65,标准差为11,第二类别字符特征每天对应的账户数量的均值为35,标准差为11,第三类别字符特征每天对应的账户数量的均值为55,标准差为11,第四类别字符特征每天对应的账户数量的均值为45,标准差为11,假设在本示例中采用公式(μ+kσ)作为各字符特征对应的账户数量标准,其中μ表示类别字符特征每天对应的账户数量的均值,k表示异常指标系数,在申请示例中假设k为2,σ表示类别字符特征每天对应的账户数量的标准差,则第一类别字符特征对应的账户数量标准为87,第二类别字符特征 对应的账户数量标准为57,第三类别字符特征对应的账户数量标准为77,第四类别字符特征对应的账户数量标准为67,将上述得到的每一类别字符特征对应的账户数量标准的数值以及该类别字符特征对应的账户数量的均值和标准差存储在网络服务器的数据库中作为特征数量标准。
在本申请实施例中,在特定时间段内,网络服务器经过上述步骤已经根据特定的特征提取方法提取所有账户信息内账户名的字符特征,将具有相同的字符特征归为同一类别,统计出每一类别所包含的字符特征对应账户数量,与上述建立起来的各字符特征对应的账户数量标准做比较,判断所述的各账户信息是否为恶意信息,因此,判断所述各账户信息是否为恶意信息,具体包括:针对每一特征类别,判断特定时间段内该特征类别中的字符特征对应的账户数量是否大于该特征类别对应的账户数量标准,若是,则特定时间段内接收到的具有该特征类别中的字符特征对应的账户信息为恶意信息,否则,则特定时间段内接收到的具有该特征类别中的字符特征对应的账户信息为正常信息。
在将特定时间段内接收到的具有该特征类别中的字符特征对应的账户信息确定为恶意信息之前,针对每个字符特征对应的账户数量大于账户数量标准的特征类别,确定特定时间段内该特征类别中的字符特征对应的账户数量与该特征类别对应的账户数量的均值的差值,确定所述差值与该特征类别对应的账户数量的标准差的比值,在确定出的该比值中,确定出比值最大的特征类别,所述比值最大的特征类别所对应的账户信息为恶意信息。
上述恶意信息中对应的各账户信息中,在经过特征提取方法后,含有相同的字符特征,这些账户信息的字符特征被归为一组,字符特征对应的账户数量超过了账户数量标准,就说明这些账户信息的数量超过了日常与上述账户信息有相同字符特征的正常账户信息的数量,有可能是属于批量注册的恶意账户信息。
延续上例,假设当天网络服务器接收到用户注册的账户名数量为155,通过上述特征提取方法一提取出来的第一类别字符特征对应的账户数量为76,第 二类别字符特征对应的账户数量为79,通过上述特征提取方法二提取出来的第三类别字符特征对应的账户数量为77,第四类别字符特征对应的账户数量为78,根据上述建立起来的各字符特征对应的账户数量标准中可以清楚的看出,第一类别字符特征对应的账户数量小于该第一类别字符特征对应的账户数量标准,第二类别字符特征对应的账户数量大于该第二类别字符特征对应的账户数量标准,第三类别字符特征对应的账户数量等于该第三类别字符特征对应的账户数量标准,第四类别字符特征对应的账户数量大于该第四类别字符特征对应的账户数量标准。
因此,对于上述四个类别字符特征,第一类别字符特征和第三类别字符特征对应的账户数量没有超过账户数量标准,而第二类别字符特征和第四类别字符特征对应的账户数量超过了账户数量标准,因此,对于超过账户数量标准的第二类别字符特征和第四类别字符特征而言,第二类别字符特征对应的账户数量与历史第二类别字符特征对应的账户数量均值的差值为44,即:79-35=44,第四类别字符特征对应的账户数量与历史第四类别字符特征对应的账户数量均值的差值为33,即:78-45=33,第二类别字符特征对应的账户数量的差值与历史第二类别字符特征对应的账户数量的标准差的比值为4,第四类别字符特征对应的账户数量的差值与历史第四类别字符特征对应的账户数量的标准差的比值为3,显然,第二类别字符特征对应的账户数量的比值在这两个比值中最大,由此可以判断第二类别字符特征所对应的账户信息为恶意信息。
在上述示例中,判断出来第二类别所对应的账户信息为恶意信息,对此,对这些恶意信息进行相应的处理,即:将第二类别所对应的恶意信息移除,移除的数量为79,其中,统计出其它类别中包含该恶意信息的账户数量,并从每一类别中移除这些账户数量,假设第三类别的字符特征对应的账户数量为77,该第三类别中,恶意信息的账户数量为35,第四类别的字符特征对应的账户数量为78,该第四类别中,恶意信息的账户数量为44,因此,在每个类别中移除这些恶意信息的账户数量之后,第三类别的字符特征对应的账户数量为42, 第四类别的字符特征对应的账户数量为34,并重新计算并判断新的第一类别,第三类别,第四类别对应的账户数量是否超过账户数量标准,直到所有类别的字符特征对应的账户数量均不再有超过账户数量标准,剩下的字符特征对应的账户信息都是正常信息。
在实际应用中,网络服务器会存储特定时间段内的统计出来的每一类别的字符特征对应的账户数量,对于某一类别的字符特征对应的账户数量连续几天都超过该类别对应的的账户数量标准,如:第二类别对应的账户数量连续三天都超过第二类别对应的账户数量标准,那么网络服务器会对第二类别所对应的账户信息进行预警。
以上为本申请实施例提供的信息监控方法,基于同样的思路,本申请实施例还提供一种信息监控装置。
如图2所示,本申请实施例提供的一种信息监控装置包括:
接收模块201,用于确定特定时间段内接收到的各待识别账户的账户信息;
提取模块202,用于提取接收到的各账户信息中的字符特征;
统计模块203,用于根据提取出的字符特征,分别统计出所述特定时间段内相同的字符特征的账户数量;
判断模块204,用于根据预先建立的各字符特征对应的账户数量标准,以及统计出的所述特定时间段内具有相同的字符特征的账户数量,判断各账户信息是否为恶意信息。
在本申请实施例中,所述账户信息包括账户名;所述特定时间段包括以预设的单位时间划分的时间长度。
所述提取模块202,具体用于,确定各账户信息中的账户名,根据预设的至少一个特征提取方法,分别从各账户名提取出字符特征。
所述统计模块203,具体用于,将在所述特定时间段内所提取出的各字符特征中相同的字符特征进行归类,分别统计各特征类别中的字符特征对应的账户数量。
所述装置还包括:
预先建立模块205,具体用于,预先根据在多个历史时间段内接收到的历史账户信息中的字符特征,将在所述各历史时间段内相同的字符特征进行归类,其中,所述历史时间段与所述特定时间段的时间长度相同,针对每一特征类别,分别统计出每个历史时间段内该特征类别的历史字符特征对应的账户数量,根据统计出的该特征类别在每一历史时间段内的历史字符特征对应的账户数量,确定该特征类别的字符特征对应的账户数量在所有历史时间段内的均值和标准差,根据该特征类别对应的账户数量的均值和标准差,确定出该特征类别对应的账户数量标准。
所述判断模块204,具体用于,针对每一特征类别,判断特定时间段内该特征类别中的字符特征对应的账户数量是否大于该特征类别对应的账户数量标准,若是,则特定时间段内接收到的具有该特征类别中的字符特征对应的账户信息为恶意信息,否则,则特定时间段内接收到的具有该特征类别中的字符特征对应的账户信息为正常信息。
所述判断模块204,具体用于,针对每个特征类别,确定特定时间段内该特征类别中的字符特征对应的账户数量与该特征类别对应的账户数量的均值的差值,确定所述差值与该特征类别对应的账户数量的标准差的比值,在确定出的该比值中,确定出比值最大的特征类别。
所述装置还包括:
处理模块206,具体用于,当确定出所述特征类别的比值中最大的比值后,移除最大比值对应的账户信息,并重新统计各特征类别中的字符特征对应的账户数量,与预先建立的各字符特征对应的账户数量标准比对,直到各特征类别的字符特征对应的账户数量均小于各字符特征对应的账户数量标准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。