本发明涉及大数据风控技术领域,尤其涉及一种识别目标账号的方法及系统。
背景技术:
在网络直播平台上,总是存在一些目标账号,这些账号通常会进行薅羊毛,发目标广告,刷主播热度等危害直播平台的行为,造成对直播平台过多的资源占用,从而导致直播卡顿,因此,需要采用有效的方法将这些目标账号识别出来。
现有识别目标账号的方法包括:第一种是根据账号之间同步性行为进行聚类;第二种是通过一些规则,如ip、设备聚集性规则。上述两种方法都存在一些情况下的识别准确率较低,仍然无法解决直播卡顿的问题。
技术实现要素:
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的识别目标账号的方法及系统。
第一方面,本申请通过本申请的一实施例提供如下技术方案:
一种识别目标账号的方法,用于网络直播平台,所述方法包括:
获取预设时间段内在所述网络直播平台上的目标基础标识数据,其中,所述目标基础标识数据包括目标的ip地址信息、目标的设备标识信息、目标的账号信息和目标注册账号的手机号信息;
基于所述ip地址信息、设备标识信息、账号信息和手机号信息,建立账号与ip地址间关系,账号与设备标识间的关系以及账号与手机号间的关系;
基于所述账号与ip地址间关系,所述账号与设备标识间的关系以及所述账号与手机号间的关系,以所述ip地址、设备标识、账号和手机号为节点,建立关系图谱;
基于所述关系图谱以及所述关系图谱中已识别的黑产节点数量,确定所述账号的黑产连接度;
判断所述账号的黑产连接度是否大于第一阈值;其中,所述第一阈值基于所述关系图谱中已知目标账号的黑产连接度获得;
若所述账号的黑产连接度大于所述第一阈值,则将该账号识别为目标账号。
可选的,所述基于所述关系图谱以及所述关系图谱中已识别的黑产节点数量,确定所述账号的黑产连接度的表达式,包括:
其中,c(v)表示账号v的黑产连接度;n(v,k)表示账号v的第k度邻居中已识别的黑产节点数量,k=1,2,...,m,m表示账号v的最大邻居度数。
可选的,在所述判断所述账号的黑产连接度是否大于第一阈值之前,所述方法还包括:
基于所述关系图谱中已知目标账号的黑产连接度,确定第一阈值。
可选的,在基于所述关系图谱以及所述关系图谱中已识别的黑产节点数量,确定所述账号的黑产连接度之后,所述方法还包括:
判断所述账号的黑产连接度是否小于第二阈值;其中,所述第二阈值基于所述关系图谱中已知正常账号的黑产连接度获得,且所述第二阈值小于所述第一阈值;
若所述账号的黑产连接度小于所述第二阈值,则将该账号识别为正常账号。
可选的,所述方法还包括:
基于所述关系图谱,建立账号与ip地址的关系矩阵,账号与设备标识的关系矩阵以及账号与手机号的关系矩阵;
基于所述账号与ip地址的关系矩阵、所述账号与设备标识的关系矩阵以及所述账号与手机号的关系矩阵,获得账号与ip地址的路径矩阵、账号与设备标识的路径矩阵以及账号与手机号的路径矩阵;
基于所述账号与所述ip地址的路径矩阵、所述账号与设备标识的路径矩阵、所述账号与手机号间的路径矩阵,以及所述目标账号的数量和正常账号的数量,确定所述账号的异构网络恶意值;
判断所述账号的异构网络恶意值是否大于异构网络恶意阈值;
若所述账号的异构网络恶意值大于异构网络恶意阈值,则将该账号识别为目标账号。
可选的,所述基于所述账号与ip地址的关系矩阵、所述账号与设备标识的关系矩阵以及所述账号与手机号的关系矩阵,获得账号与ip地址的路径矩阵、账号与设备标识的路径矩阵以及账号与手机号的路径矩阵的表达式,包括:
a′=aat,b′=bbt,c′=cct,
其中,
a表示所述账号与ip地址的关系矩阵,a′表示所述账号与ip地址的路径矩阵,at为a的转置;
b表示所述账号与设备标识的关系矩阵,b′表示所述账号与设备标识的路径矩阵,bt为b的转置;
c表示所述账号与手机号的关系矩阵,c′表示所述账号与手机号的路径矩阵,ct为c的转置。
可选的,所述基于所述账号与所述ip地址的路径矩阵、所述账号与设备标识的路径矩阵、所述账号与手机号间的路径矩阵,以及所述目标账号的数量和正常账号的数量,确定所述账号的异构网络恶意值的表达式,包括:
其中,
g表示包含正常账号的集合,|g|是g集合中正常账号的数量;
e表示包含目标账号的集合,|e|是e集合中目标账号的数量;
sh表示第h个账号的异构网络恶意值,且sh对应的账号不属于g和e;
xi,j表示路径矩阵x中属于e的账号的关联度值,xi′,j′表示路径矩阵x中属于g的账号的关联度值,xh表示第h个账号与集合e的关联度值;
t表示权重系数0.5≤t≤2。
可选的,在将该账号识别为目标账号之后,所述方法还包括:
对所述目标账号进行屏蔽。
第二方面,本申请通过本申请的另一实施例提供一种识别目标账号的系统,所述系统包括:
数据获取模块,用于获取预设时间段内在所述网络直播平台上的目标基础标识数据,其中,所述目标基础标识数据包括目标的ip地址信息、目标的设备标识信息、目标的账号信息和目标注册账号的手机号信息;
关系建立模块,用于基于所述ip地址信息、设备标识信息、账号信息和手机号信息,建立账号与ip地址间关系,账号与设备标识间的关系以及账号与手机号间的关系;
图谱建立模块,用于基于所述账号与ip地址间关系,所述账号与设备标识间的关系以及所述账号与手机号间的关系,以所述ip地址、设备标识、账号和手机号为节点,建立关系图谱;
确定模块,用于基于所述关系图谱以及所述关系图谱中已识别的黑产节点数量,确定所述账号的黑产连接度;其中,所述第一阈值基于所述关系图谱中已知目标账号的黑产连接度获得;
判断模块,用于判断所述账号的黑产连接度是否大于第一阈值;
识别模块,用于若所述账号的黑产连接度大于所述第一阈值,则将该账号识别为目标账号。
本发明公开了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明公开了一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述方法的步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明的方法,用于网络直播平台,首先获取预设时间段内在所述网络直播平台上的目标基础标识数据,其中,所述目标基础标识数据包括目标的ip地址信息、目标的设备标识信息、目标的账号信息和目标注册账号的手机号信息;基于所述ip地址信息、设备标识信息、账号信息和手机号信息,建立账号与ip地址间关系,账号与设备标识间的关系以及账号与手机号间的关系;基于所述账号与ip地址间关系,所述账号与设备标识间的关系以及所述账号与手机号间的关系,以所述ip地址、设备标识、账号和手机号为节点,建立关系图谱;基于所述关系图谱以及所述关系图谱中已识别的黑产节点数量,确定所述账号的黑产连接度;判断所述账号的黑产连接度是否大于第一阈值;其中,所述第一阈值基于所述关系图谱中已知目标账号的黑产连接度获得;若所述账号的黑产连接度大于所述第一阈值,则将该账号识别为目标账号。由于基于网络直播平台上的目标基础标识数据,建立的关系图谱,而关系图谱中包含账号与ip地址间关系,账号与设备标识间的关系以及账号与手机号间关系,在关系图谱中自然也就包含了各节点的多度连接关系,可精确的建立账号之间的联系,因此,适用于账号之间不存在大量同步行为的情况,基于此,以及关系图谱中已识别的黑产节点数量,确定账号的黑产连接度,并基于账号的黑产连接度与阈值的关系来账号识别是否为目标账号。因此,上述方法即使账号之间不存在大量的同步行为也能够挖掘出异常的账号,可准确识别出更多的目标账号,对其进行屏蔽,从而避免目标账号占用过多的资源,造成直播卡顿。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一种实施例中的识别目标账号的方法流程图;
图2是本发明一种实施例中的关系图谱示意图;
图3是本发明另一种实施例中的识别目标账号的方法流程图;
图4是本发明另一种实施例中的提高网络直播流畅度的方法流程图;
图5是本发明一种实施例中的识别目标账号的系统构架图。
具体实施方式
本申请实施例通过提供一种识别目标账号的方法及系统,解决了现有的直播卡顿的技术问题。
本申请实施例的技术方案为解决上述技术问题,总体思路如下:
一种识别目标账号的方法,用于网络直播平台,获取预设时间段内在所述网络直播平台上的目标基础标识数据,其中,所述目标基础标识数据包括目标的ip地址信息、目标的设备标识信息、目标的账号信息和目标注册账号的手机号信息;基于所述ip地址信息、设备标识信息、账号信息和手机号信息,建立账号与ip地址间关系,账号与设备标识间的关系以及账号与手机号间的关系;基于所述账号与ip地址间关系,所述账号与设备标识间的关系以及所述账号与手机号间的关系,以所述ip地址、设备标识、账号和手机号为节点,建立关系图谱;基于所述关系图谱以及所述关系图谱中已识别的黑产节点数量,确定所述账号的黑产连接度;判断所述账号的黑产连接度是否大于第一阈值;其中,所述第一阈值基于所述关系图谱中已知目标账号的黑产连接度获得;若所述账号的黑产连接度大于所述第一阈值,则将该账号识别为目标账号。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
首先说明,本文中出现的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
网络直播平台都会存在一些目标账号,例如俗称的恶意账号,这些账号通常会进行薅羊毛、发目标广告、刷主播热度等危害直播平台的行为,例如,在直播时,发送目标广告,直播屏幕上会经常出现恶意的弹幕,造成直播卡顿。因此,作为直播平台的维护方,需要对这些目标账号进行挖掘识别。
现有的挖掘方法主要包括:
第一种是采用团伙的方式,即根据账号之间同步性行为进行聚类。该方法的局限性是:需要账号之间有大量的批量同步性行为,若不符合这样的条件,则很难挖掘出目标账号的团伙。
第二种是通过一些规则,如ip、设备聚集性规则。该方法的局限是:需要目标账号表现出比较明显的异常行为,若没有凸显这样的异常性,则也很难挖掘出异常的目标账号。
因此,当存在上述局限性时,对直播平台用户中的目标账号的挖掘准确性大大降低。本申请首先针对上述第一种局限性,基于直播平台的用户数据,建立了一个用户账号与其它用户信息的关系图谱,对恶意用户进行挖掘。采用关系图谱的好处是可以精确的建立账号之间的联系,即使账号之间不存在大量的同步行为也能够挖掘出异常的账号。
为此,本申请首先提供了一种识别目标账号的方法,以具体说明如何克服上述第一种局限性,提高直播平台上识别目标账号的准确性。
实施例一
本实施提供了一种识别目标账号的方法,用于网络直播平台,参见图1,所述方法包括:
s101、获取预设时间段内在所述网络直播平台上的目标基础标识数据,其中,所述目标基础标识数据包括目标的ip地址信息、目标的设备标识信息、目标的账号信息和目标注册账号的手机号信息;
s102、基于所述ip地址信息、设备标识信息、账号信息和手机号信息,建立账号与ip地址间关系,账号与设备标识间的关系以及账号与手机号间的关系;
s103、基于所述账号与ip地址间关系,所述账号与设备标识间的关系以及所述账号与手机号间的关系,以所述ip地址、设备标识、账号和手机号为节点,建立关系图谱;
s104、基于所述关系图谱以及所述关系图谱中已识别的黑产节点数量,确定所述账号的黑产连接度;
s105、判断所述账号的黑产连接度是否大于第一阈值;其中,所述第一阈值基于所述关系图谱中已知目标账号的黑产连接度获得;
s106、若所述账号的黑产连接度大于所述第一阈值,则将该账号识别为目标账号。
其中,该目标可以是参与直播互动的用户,也可以是参与直播互动的电子设备,如智能机器人等。
下面参照图1,对本实施中各步骤进行详细的解释说明。
首先,执行步骤s101,获取预设时间段内在所述网络直播平台上的目标基础标识数据,其中,所述目标基础标识数据包括目标的ip地址信息、目标的设备标识信息、目标的账号信息和目标注册账号的手机号信息。
需要说明的是,预设时间段可以是过去一周、一个月,目标基础标识数据包括观看直播的所有目标的ip信息、设备信息和目标昵称信息,其中,目标包括正常的观看直播的目标,也包括网络黑产目标。
具体的,ip地址信息包括在预设时间段内用户在直播平台上使用的所有ip;设备标识信息包括在预设时间段内用户在直播平台上使用的所有设备;账号信息包括预设时间段内在直播平台上有活跃的全部注册账号;手机号信息包括预设时间段内在直播平台上有活跃的用户在注册账号时填写的手机号。
在本实施例中,由于本发明的方法聚焦目标账号,因此,为了获得更准确的账号黑产连接度,需要建立账号与账号相关的用户信息之间的关系,进行分析。为此,本实施例中选取了ip地址、设备标识和手机号作为关系实体,与账号建立关系。
经过理论分析,选取ip地址、设备标识、账号和手机号作为关系实体,理论根据如下:
本发明实施例中,之所以选取ip地址,是因为黑产在发弹幕的时候需要使用网络,因此必定会使用ip地址。由于黑产账号通常是在一个网络环境下进行操作的,因此,黑产账号处于成本的考虑,必定会出现ip地址重复使用的情况,可见,ip地址信息是获得更准确的账号黑产连接度所必不可少的核心参数之一。
本发明实施例中,之所以选取设备标识,是因为黑产在发弹幕的时候需要设备作为操作载体,这里的设备包含电脑、手机等。由于成本的考虑,黑产必定会在同一个设备上重复登录同一账号,因此,账号与设备之间必定存在着必然联系。可见,设备标识也是获得更准确的账号黑产连接度所必不可少的核心参数之一。
本发明实施例中,之所以手机号,是因为用户注册时都会注册手机号,与账号进行绑定,而黑产为了成本考虑,不可能使用无限多的手机号进行账号注册,必定会出现一个手机号注册不同账号的情况。因此,可见,手机号也是获得更准确的账号黑产连接度所必不可少的核心参数之一。
基于此,本领域技术人员显然可以理解,在本发明实施例步骤s101中选取ip地址、设备标识、账号和手机号作为关系实体,均是是解决技术问题所必不可少的信息参数,并非人为主观因素的选取,而是为了解决技术问题必须对上述目标的ip地址信息、目标的设备标识信息、目标的账号信息和目标注册账号的手机号信息进行获取(也即符合自然规律的选取),以为下述s102提供数据基础。
接下来,执行s102,基于所述ip地址信息、设备标识信息、账号信息和手机号信息,建立账号与ip地址间关系,账号与设备标识间的关系以及账号与手机号间的关系。
由于所述ip地址信息、设备标识信息、账号信息和手机号信息中还包括了ip地址、设备标识、账号和手机号之间的联系,例如,账号注册时使用的手机号,用过的ip地址,用过的设备,则表示这些实体之间存在的关系。需要说明的是,由于这些数据是用户使用后留下来的痕迹,因此,这些数据中的实体之间的关系是客观存在的。
因此,作为一种具体实施方式,建立的账号与ip地址间关系,账号与设备标识间的关系以及账号与手机号间的关系,可以包括:
账号-设备:该关系表示账号在直播平台活动时使用过的设备;
账号-手机号:该关系表示账号在注册时填写并绑定的手机号码;
账号-ip地址:该关系表示账号在直播平台活动时使用过的ip地址。
需要说明的是,选择这些实体关系的原因是本实施例的方法聚焦的是目标账号,因此建立的关系都是以用户实体和其他实体的关系,这样对于检验账号是否是异常的更为直接。
接下来,执行s103、基于所述账号与ip地址间关系,所述账号与设备标识间的关系以及所述账号与手机号间的关系,以所述ip地址、设备标识、账号和手机号为节点,建立关系图谱;
基于s102中建立的实体关系,可以以ip地址、设备标识、账号和手机号为节点,建立关系图谱。在本实施例中,通过建立关系图谱,可以更好地量化节点,更加直观和简洁,从而减少计算量。
参见图2,在关系图谱中,如果两个实体之间存在s102中建立的实体关系中至少一种实体关系,那么实体对应的节点之间形成了一条边。如此,便将所有采集的ip地址、设备标识、账号和手机号以及它们之间的关系,都展示在关系图谱上。对于一个账号实体来说,与其连接的实体都称为其邻居,而根据邻居与账号的直接以及间接连接的关系,将邻居以度为单位进行阶梯定义,例如,直接连接的由于只有一次连接关系,称为该账号的1度邻居,间接连接至少包括两次连接关系,因此,称为该账号的2度、3度...以此类推。
接下来,执行s104,基于所述关系图谱以及所述关系图谱中已识别的黑产节点数量,确定所述账号的黑产连接度。
具体的,确定所述账号的黑产连接度的表达式,包括:
其中,c(v)表示账号v的黑产连接度;n(v,k)表示账号v的第k度邻居中已识别的黑产节点数量,k=1,2,...,m,m表示账号v的最大邻居度数。
需要说明的是,已识别的黑产节点指的是通过黑手机库、黑ip库和用户举报得到的目标账号、设备、ip地址以及手机号;
m是考虑的最大邻居度数,其取值不受限制,但一般取值不超过3,其原因是高于3之后计算邻居的计算量会非常大,并且对黑产连接度贡献非常小,因此为了提高计算效率,并保证识别准确率,取值不超过3。
上述公式中,2-(k-1)表示第i度传播权重。
第k度传播权重的定义原理如下:
该公式的基本原理是统计各度黑产邻居的数量,邻居数量越多说明与黑产账号的联系越紧密,账号本身的嫌疑程度越高。在关系图谱中,对于一个账号实体,对于不同度的邻居,采用不同的权重系数,其邻居的度数越高,表示该邻居与其关联度越低,因此,该邻居是否为黑产,对该账号的黑产连接度的贡献越小,且直接相连的邻居给予最高的权重刚好为1。总结起来,就是传播权重随着邻居的度数增长而逐渐降低,而2-(k-1)就是一种传播权重随着邻居的度数增长而呈指数形式降低的表达形式。
采用黑产连接度的方法进行计算的好处是可以直接通过已知的黑产信息和建立的关系图谱找到可疑账号,对于一些与黑产连接较为紧密的账号采用这样的方法就可以直接挖掘出来,相对而言十分方便。
根据上述公式,可计算关系图谱中所有账号节点的黑产连接度。
接下来,执行s105,判断所述账号的黑产连接度是否大于第一阈值。
其中,所述第一阈值基于所述关系图谱中已知目标账号的黑产连接度获得。
为了获得第一阈值,作为一种可选的实施方式,在所述判断所述账号的黑产连接度是否大于第一阈值之前,所述方法还包括:
基于所述关系图谱中已知目标账号的黑产连接度,确定第一阈值。
具体的,第一阈值的确定主要依赖于当前通过其他途径(规则、用户举报等)发现的目标账号,并按照前述方法计算这些已知目标账号的黑产连接度,并且从大到小排序,取99%分位数作为第一阈值。作为本领域的技术人员,该分位数可以根据对直播卡顿的程度的要求进行调整,对直播卡顿的程度的要求越高则分位数越高,而本发明实施例之所以选取99%分位数作为第一阈值,是因为本实施中为了将可能的目标账号尽可能的识别出来,也就是对直播卡顿的程度的要求较高,因此,选取了分位数较高的99%。
接下来,执行s106,若所述账号的黑产连接度大于所述第一阈值,则将该账号识别为目标账号。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
本实施例的方法,用于网络直播平台,首先获取预设时间段内在所述网络直播平台上的目标基础标识数据,其中,所述目标基础标识数据包括目标的ip地址信息、目标的设备标识信息、目标的账号信息和目标注册账号的手机号信息;基于所述ip地址信息、设备标识信息、账号信息和手机号信息,建立账号与ip地址间关系,账号与设备标识间的关系以及账号与手机号间的关系;基于所述账号与ip地址间关系,所述账号与设备标识间的关系以及所述账号与手机号间的关系,以所述ip地址、设备标识、账号和手机号为节点,建立关系图谱;基于所述关系图谱以及所述关系图谱中已识别的黑产节点数量,确定所述账号的黑产连接度;判断所述账号的黑产连接度是否大于第一阈值;其中,所述第一阈值基于所述关系图谱中已知目标账号的黑产连接度获得;若所述账号的黑产连接度大于所述第一阈值,则将该账号识别为目标账号。由于基于网络直播平台上的目标基础标识数据,建立的关系图谱,而关系图谱中包含账号与ip地址间关系,账号与设备标识间的关系以及账号与手机号间关系,在关系图谱中自然也就包含了各节点的多度连接关系,可精确的建立账号之间的联系,因此,适用于账号之间不存在大量同步行为的情况,基于此,以及关系图谱中已识别的黑产节点数量,确定账号的黑产连接度,并基于账号的黑产连接度与阈值的关系来账号识别是否为目标账号。因此,上述方法即使账号之间不存在大量的同步行为也能够挖掘出异常的账号,从而提高了目标账号识别的准确性。
实施例二
在实施例一中,对于所有的账号执行s101~s106步骤后,可以获得黑产连接度大于第一阈值的所有账号,形成目标账号集合。
在此基础上,在基于所述关系图谱以及所述关系图谱中已识别的黑产节点数量,确定所述账号的黑产连接度之后,所述方法还包括:
判断所述账号的黑产连接度是否小于第二阈值;其中,所述第二阈值基于所述关系图谱中已知正常账号的黑产连接度获得,且所述第二阈值小于所述第一阈值;
若所述账号的黑产连接度小于所述第二阈值,则将该账号识别为正常账号。
需要说明的是,第二阈值的确定主要依赖于直播平台的正常用户,正常用户可以选取的是充值用户,计算充值用户的黑产连接度并且从小到大排序,取99%分位数作为第二阈值。
因此,基于上述方法,可以获得由黑产连接度小于第二阈值的账号形成的正常账号集合。
虽然通过第二步阈值的方式能够找到一些目标账号,但是对于一些善于伪装自己的目标账号,其黑产连接度一般无法达到阈值。为此,本实施例提供另一种识别目标账号的方法,可对目标账号集合和正常账号集合外的账号进行识别。
参见图3,基于实施例一,所述方法执行以下步骤:
首先,执行s201,基于所述关系图谱,建立账号与ip地址的关系矩阵,账号与设备标识的关系矩阵以及账号与手机号的关系矩阵;
根据s103获得的关系图谱,其中有连接边的实体之间在关系矩阵中连接度值为1,否则为0。
具体关系矩阵为:
账号-设备矩阵a:矩阵a中,aij取值为1,则表示该账号i使用设备j;否则为0;
账号-手机号矩阵b:矩阵b中,bij取值为1,则表示账号i使用手机号j;
账号-ip矩阵c:矩阵c中,cij取值为1,则表示账号i使用ip地址j。
根据关系矩阵,生成异构网络的路径,以账号-设备矩阵a为例,可以形成路径矩阵aat,其中at是矩阵a的转置,表示异构网络的路径是账号->设备->账号。按照该方法还可以生成路径bbt和cct,分别表示的异构网络路径是账号->手机号->账号、账号->ip->账号。
接下来,执行s202,基于所述账号与ip地址的关系矩阵、所述账号与设备标识的关系矩阵以及所述账号与手机号的关系矩阵,获得账号与ip地址的路径矩阵、账号与设备标识的路径矩阵以及账号与手机号的路径矩阵;
作为一种可选的实施方式,所述基于所述账号与ip地址的关系矩阵、所述账号与设备标识的关系矩阵以及所述账号与手机号的关系矩阵,获得账号与ip地址的路径矩阵、账号与设备标识的路径矩阵以及账号与手机号的路径矩阵的表达式,包括:
a′=aat,b′=bbt,c′=cct,
其中,
a表示所述账号与ip地址的关系矩阵,a′表示所述账号与ip地址的路径矩阵,at为a的转置;
b表示所述账号与设备标识的关系矩阵,b′表示所述账号与设备标识的路径矩阵,bt为b的转置;
c表示所述账号与手机号的关系矩阵,c′表示所述账号与手机号的路径矩阵,ct为c的转置。
需要说明的是,在转换成路径矩阵后,路径矩阵中元素的值称为关联度值,关联度值表示账号与设备、手机号、ip地址的关联度。
接下来,执行s203,基于所述账号与所述ip地址的路径矩阵、所述账号与设备标识的路径矩阵、所述账号与手机号间的路径矩阵,以及所述目标账号的数量和正常账号的数量,确定所述账号的异构网络恶意值;
具体的,确定所述账号的异构网络恶意值的表达式,包括:
其中,
g表示包含正常账号的集合,|g|是g集合中正常账号的数量;
e表示包含目标账号的集合,|e|是e集合中目标账号的数量;
sh表示第h个账号的异构网络恶意值,且sh对应的账号不属于g和e;
xi,j表示路径矩阵x中属于e的账号的关联度值,xi′,j′表示路径矩阵x中属于g的账号的关联度值,xh表示第h个账号与集合e的关联度值;
t表示权重系数,0.5≤t≤2。该权重系数的作用是为了防止xi′,j′、xi,j和xh过大或者过小,而使得关联度的分布不均匀,绝大多数关联度会集中在两头。因此,权重系数与去除零之后的xi′,j′、xi,j和xh均值有关,xi′,j′、xi,j和xh均值越大则权重系数相应会变大,保证关联度的分布是比较均匀的、具有区分的,从而达到调节的目的,使异构网络恶意值计算结果更准确。
此外,由于t是根据xi′,j′、xi,j和xh均值来调节的,t越小,计算获得的关联度就越趋向于1,t越大,计算获得的关联度就越趋向于0,因此,太大或太小的t取值都会导致关联度的衡量失去意义。为此,在本实施例中,为了满足关联度的衡量要求,t在0.5-2范围内取值。
上述公式中,
其中,
而
接下来,执行s204,判断所述账号的异构网络恶意值是否大于异构网络恶意阈值;
其中,异构网络恶意阈值的选择取决于其他途径(规则、用户举报等)发现的目标账号,计算这些已知目标账号的异构网络恶意值并且从大到小排序,取99%分位数作为异构网络恶意阈值,作为本领域的技术人员,该分位数可以根据平台对目标账号的识别覆盖程度的要求,要求的覆盖程度越高则分位数越高,而本发明实施例之所以选取99%分位数作为异构网络恶意阈值,是因为本实施中为了将可能的目标账号尽可能的识别出来,也就是对覆盖程度的要求较高,因此,选取了分位数较高的99%。
s205、若所述账号的异构网络恶意值大于异构网络恶意阈值,则将该账号识别为目标账号。
该方法的原理是账号与账号之间的关联可以由关系图谱中的路径矩阵进行表示,其值是代表路径的矩阵对应元素。这样做的好处是能够通过路径方便的进行关联关系的计算,并且各个路径可以灵活选取。在完整的描述了上述两种识别目标账号的方法后,下面以一个实例来演示识别的过程。
假设采集的目标基础数据包括:
账号:u1、u2、u3、u4
ip地址:ip1、ip2
设备:d1、d2、d3
手机号:t1、t2、t3
其使用关系是:
账号-设备:u1-d1,u2-d2,u3-d1,u4-d3
账号-手机号:u1-t1,u2-t2,u3-t2,u4-t3
账号-ip:u1-ip1,u2-ip1,u3-ip2,u4-ip1。
于是账号-设备矩阵a、账号-手机号矩阵b、账号-ip矩阵c分别是:
生成关系图谱参见图2。
若已识别到的黑产节点是d1,计算各账号的黑产连接度:
c(u1)=1
c(u3)=1
c(u4)=0
设定黑产连接度第一阈值和第二阈值为0.8和0.1,于是可以得到目标账号群e和正常账号群g分别是:
e={u1,u3},g={u4}
需要说明的是,该实施例中第一阈值和第二阈值是根据前述的通过其他途径(规则、用户举报等)发现的目标账号和正常账号,计算这些已知目标账号和正常账号的黑产连接度值并且从大到小排序,取0.99分位数作为第一阈值和第二阈值。
对于无法确认的账号u2,需要进一步计算其异构网络恶意值:
由前面的计算,|e|=2,|g|=1,
取t=1,则:
取异构网络恶意阈值0.5,由于0.632>0.5,因此判断账号u2也是一个目标账号。
需要说明的是,该实施例中异构网络恶意阈值是根据前述的通过其他途径(规则、用户举报等)发现的目标账号,计算这些已知目标账号的异构网络恶意值并且从大到小排序,取0.5分位数作为第一阈值和第二阈值。
实施例三
基于与实施例一同样的发明构思,本实施例提供另一种提高网络直播流畅度的方法,用于网络直播平台,参见图4,所述方法包括:
s301、获取预设时间段内在所述网络直播平台上的目标基础标识数据,其中,所述目标基础标识数据包括目标的ip地址信息、目标的设备标识信息、目标的账号信息和目标注册账号的手机号信息;
s302、基于所述ip地址信息、设备标识信息、账号信息和手机号信息,建立账号与ip地址间关系,账号与设备标识间的关系以及账号与手机号间的关系;
s303、基于所述账号与ip地址间关系,所述账号与设备标识间的关系以及所述账号与手机号间的关系,以所述ip地址、设备标识、账号和手机号为节点,建立关系图谱;
s304、基于所述关系图谱以及所述关系图谱中已识别的黑产节点数量,确定所述账号的黑产连接度;
s305、判断所述账号的黑产连接度是否大于第一阈值;其中,所述第一阈值基于所述关系图谱中已知目标账号的黑产连接度获得;
s306、若所述账号的黑产连接度大于所述第一阈值,则将该账号识别为目标账号;
s307、对所述目标账号进行屏蔽。
在s307中,其具体屏蔽目标账号的方法有多种,举例来说,可以对目标账号通过服务器加入黑名单进行屏蔽,禁止提供服务,从而提高流畅度,大大地降低带宽,无须人工干预,从而避免卡顿的发生。其余的步骤的具体实施方式参见实施例一。
实施例四
基于与实施例一同样的发明构思,本实施例提供一种识别目标账号的系统,参见图5,所述系统包括:
数据获取模块,用于获取预设时间段内在所述网络直播平台上的目标基础标识数据,其中,所述目标基础标识数据包括目标的ip地址信息、目标的设备标识信息、目标的账号信息和目标注册账号的手机号信息;
关系建立模块,用于基于所述ip地址信息、设备标识信息、账号信息和手机号信息,建立账号与ip地址间关系,账号与设备标识间的关系以及账号与手机号间的关系;
图谱建立模块,用于基于所述账号与ip地址间关系,所述账号与设备标识间的关系以及所述账号与手机号间的关系,以所述ip地址、设备标识、账号和手机号为节点,建立关系图谱;
确定模块,用于基于所述关系图谱以及所述关系图谱中已识别的黑产节点数量,确定所述账号的黑产连接度;其中,所述第一阈值基于所述关系图谱中已知目标账号的黑产连接度获得;
判断模块,用于判断所述账号的黑产连接度是否大于第一阈值;
识别模块,用于若所述账号的黑产连接度大于所述第一阈值,则将该账号识别为目标账号。
由于本实施例所介绍的识别目标账号的系统为实现本申请实施例一种识别目标账号的方法所采用的系统,故而基于本申请实施例一中所介绍的识别目标账号的方法,本领域所属技术人员能够了解本实施例的系统的具体实施方式以及其各种变化形式,所以在此对于如何利用本中的系统实现实施例一中的方法不再详细介绍。只要本领域所属技术人员用于实现本申请实施例中识别目标账号的方法所采用的系统,都属于本申请所欲保护的范围。
基于与前述实施例中同样的发明构思,本发明实施例还提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文任一所述方法的步骤。
基于与前述实施例中同样的发明构思,本发明实施例还提供一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前文任一所述方法的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。