流量检测方法、装置、电子设备和存储介质与流程

文档序号:32619285发布日期:2022-12-20 22:13阅读:26来源:国知局
流量检测方法、装置、电子设备和存储介质与流程

1.本公开涉及计算机技术领域,具体为互联网、大数据等技术领域,尤其涉及流量检测方法、装置、电子设备和存储介质。


背景技术:

2.随着互联网技术的发展,访问各网站的流量数据中,出现了机器爬取、非正常用户团伙作弊等非正常用户行为的流量数据。如何从访问各网站的海量流量数据中,检测出非正常用户行为的异常流量数据,是亟待解决的问题。


技术实现要素:

3.本公开提供了一种流量检测方法、装置、电子设备和存储介质。
4.根据本公开的一方面,提供了一种流量检测方法,所述方法包括:获取待检测的业务流量数据、对应的检测维度以及统计指标;确定所述检测维度的多个维度值并确定所述统计指标的多个指标值;基于所述多个维度值以及所述多个指标值,对所述业务流量数据进行聚合,得到各所述维度值在所述多个指标值下的流量分布数据;确定各所述维度值在所述多个指标值下的流量分布数据之间的相关度,并基于所述相关度确定所述业务流量数据中的目标业务流量数据。
5.根据本公开的另一方面,提供了一种流量检测装置,所述装置包括:获取模块,用于获取待检测的业务流量数据、对应的检测维度以及统计指标;第一确定模块,用于确定所述检测维度的多个维度值并确定所述统计指标的多个指标值;聚合模块,用于基于所述多个维度值以及所述多个指标值,对所述业务流量数据进行聚合,得到各所述维度值在所述多个指标值下的流量分布数据;第二确定模块,用于确定各所述维度值在所述多个指标值下的流量分布数据之间的相关度,并基于所述相关度确定所述业务流量数据中的目标业务流量数据。
6.根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开的流量检测方法。
7.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开实施例公开的流量检测方法。
8.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开的流量检测方法的步骤。
9.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
10.附图用于更好地理解本方案,不构成对本公开的限定。其中:
11.图1是根据本公开第一实施例的流量检测方法的流程示意图;
12.图2是根据本公开第二实施例的流量检测方法的流程示意图;
13.图3是根据本公开第三实施例的流量检测方法的流程示意图;
14.图4是根据本公开第四实施例的流量检测方法的流程示意图;
15.图5是根据本公开第五实施例的流量检测装置的结构示意图;
16.图6是根据本公开第六实施例的流量检测装置的结构示意图;
17.图7是用来实现本公开实施例的流量检测方法的电子设备的框图。
具体实施方式
18.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
19.需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
20.本公开实施例提供一种流量检测方法、装置、电子设备、非瞬时计算机可读存储介质以及计算机程序产品。其中流量检测方法包括:获取待检测的业务流量数据、对应的检测维度以及统计指标;确定检测维度的多个维度值并确定统计指标的多个指标值;基于多个维度值以及多个指标值,对业务流量数据进行聚合,得到各维度值在多个指标值下的流量分布数据;确定各维度值在多个指标值下的流量分布数据之间的相关度,并基于相关度确定业务流量数据中的目标业务流量数据。由此,实现了从待检测的业务流量数据中检测出存在异常的目标业务流量数据,且通用性强,复杂度低,检测效率高。
21.其中,本公开提供的流量检测方法、装置、电子设备、非瞬时计算机可读存储介质以及计算机程序产品,涉及计算机技术领域,具体为互联网、大数据技术领域。
22.其中,互联网技术指在计算机技术的基础上开发建立的一种信息技术。互联网技术的普遍应用,是进入信息社会的标志。
23.下面参考附图描述本公开实施例的流量检测方法、装置、电子设备、非瞬时计算机可读存储介质以及计算机程序产品。
24.首先对本公开实施例提供的流量检测方法进行说明。
25.图1是根据本公开第一实施例的流量检测方法的流程示意图。其中,需要说明的是,本实施的流量检测方法,执行主体为流量检测装置,该流量检测装置可以由软件和/或硬件实现,该流量检测装置可以配置在电子设备中,该电子设备可以包括但不限于终端设备、服务器等,该实施例对电子设备不作具体限定。
26.如图1所示,该流量检测方法可以包括:
27.步骤101,获取待检测的业务流量数据、对应的检测维度以及统计指标。
28.其中,业务流量数据,为预设时间段内访问某个网站的流量数据,具体可以为预设时间段内某个网站的访问日志中包括的数据,比如某个网站的访问日志中包括的,该网站
的各访问请求对应的访问用户的用户标识、所使用设备的型号、所使用设备的ip(internet protocol,互联网协议)地址、访问时间、所使用的浏览器类型、所使用的浏览器的ja3指纹、所使用设备所在的地区、所使用设备的ip地址所处的ipc段等数据。其中,ipc段指c类ip地址,是指在ip地址的四段号码中,前三段号码为网络号码,剩下的一段号码为本地计算机的号码。ja3是一种对传输层安全应用程序进行指纹识别的方法,ja3指纹能够唯一标识对应的浏览器。其中,预设时间段可以根据需要设置,比如为1天、3天、7天、一个月等。
29.检测维度,为预先设置的对业务流量数据进行检测的维度,可以根据需要设置,比如可以设置为时间维度、用户维度、ip维度、ipc维度、ja3维度等,本公开对此不作限制。
30.统计指标,为用于对业务流量数据进行统计的指标,比如时序、地域、设备类型、ipc段、ja3、浏览器类型等指标。
31.其中,获取的检测维度或统计指标的数量可以为一个或多个,本公开对此不作限制。
32.需要说明的是,获取待检测的业务流量数据后,还可以先对业务流量数据进行数据清洗以及ip地址、设备类型等字段的提取和转换等标准化处理,再基于标准化处理后的业务流量数据进行后续处理,以提高流量检测的准确性。
33.步骤102,确定检测维度的多个维度值并确定统计指标的多个指标值。
34.其中,检测维度具有对应的多个维度值,比如时间维度的各维度值为各时间段、用户维度的各维度值为各用户标识、ip维度的各维度值为各ip地址、ipc维度的各维度值为各ipc段、ja3维度的各维度值为各ja3指纹等。其中,用户标识可以为用户所使用的应用账号、用户的身份证号等,本公开对此不作限制。
35.统计指标具有对应的多个指标值,比如时序指标的各指标值为各时间段、地域指标的各指标值为各区域、设备类型指标的各指标值为各设备型号、ipc段指标的各指标值为各具体的ipc段、ja3指标的各指标值为各ja3指纹、浏览器类型指标的各指标值为各浏览器类型及版本号等。
36.其中,时序指标的各时间段,可以用于统计业务流量数据中,访问时间处于对应时间段内的访问请求数、用户数和设备数等流量数据中的至少一种。比如,将一天以10分钟为间隔划分为24*60/10个时间段,“0:00至0:10分”的时间段,可以用于统计业务流量数据中,访问时间处于该时间段内的访问请求数,即对于某个网站,共有多少个访问请求处于该时间段内;或者“0:00至0:10分”的时间段,可以用于统计业务流量数据中,访问时间处于该时间段内的用户数,即对于某个网站,共有多少个用户在该时间段内访问该网站;或者“0:00至0:10分”的时间段,可以用于统计业务流量数据中,访问时间处于该时间段内的设备数,即对于某个网站,共有多少个设备在该时间段内访问该网站。
37.地域指标的各区域,可以用于统计业务流量数据中,位于对应区域中的访问请求数、用户数和设备数等流量数据中的至少一种。比如假设地域指标的各区域中包括“a省”,“a省”可以用于统计业务流量数据中位于a省的访问请求数,即对于某网站,共有多少访问请求对应的设备位于a省;或者“a省”可以用于统计业务流量数据中位于a省的用户数,即对于某网站,共有多少用户使用位于a省的设备访问该网站;或者“a省”可以用于统计业务流量数据中位于a省的设备数,即对于某网站,共有多少位于a省的设备访问该网站。
38.设备类型指标的各设备型号,可以用于统计业务流量数据中,使用对应设备型号
的设备访问某网站的访问请求数、用户数和设备数等流量数据中的至少一种。比如假设设备类型指标的各设备型号中包括“b型号”,“b型号”可以用于统计业务流量数据中,使用b型号的设备访问某网站的访问请求数,即对于该网站,共有多少个访问请求对应的设备为b型号;或者,“b型号”可以用于统计业务流量数据中,使用b型号的设备访问某网站的用户数,即共有多少用户使用b型号的设备访问该网站;或者,“b型号”可以用于统计业务流量数据中,使用b型号的设备访问某网站的设备数,即共有多少b型号的设备访问该网站。
39.ipc段指标的各具体的ipc段,可以用于统计业务流量数据中,访问某网站的设备的ip地址处于对应ipc段的访问请求数、用户数和设备数等流量数据中的至少一种。比如假设ipc段指标的各具体的ipc段中包括某ipc段,该ipc段可以用于统计业务流量数据中,访问某网站的设备的ip地址处于该ipc段的访问请求数,即对于该网站,共有多少访问请求对应的设备的ip地址处于该ipc段;或者,该ipc段可以用于统计业务流量数据中,访问某网站的设备的ip地址处于该ipc段的用户数,即共有多少用户使用ip地址处于该ipc段的设备访问该网站;或者,该ipc段可以用于统计业务流量数据中,访问某网站的设备的ip地址处于该ipc段的设备数,即访问该网站的设备中共有多少设备的ip地址处于该ipc段。
40.ja3指标的各ja3指纹,可以用于统计业务流量数据中,使用具有对应ja3指纹的浏览器访问某网站的访问请求数、用户数和设备数等流量数据中的至少一种。比如假设ja3指标的各ja3指纹中包括某ja3指纹,该ja3指纹可以用于统计业务流量数据中,使用具有该ja3指纹的浏览器访问某网站的访问请求数,即共有多少访问请求对应的浏览器的ja3指纹为该ja3指纹;或者,该ja3指纹可以用于统计业务流量数据中,使用具有该ja3指纹的浏览器访问某网站的用户数,即共有多少用户使用该ja3指纹的浏览器访问该网站;或者,该ja3指纹可以用于统计业务流量数据中,使用具有该ja3指纹的浏览器访问某网站的设备数,即共有多少设备使用具有该ja3指纹的浏览器访问该网站。
41.浏览器类型指标的各浏览器类型及版本号,可以用于统计业务流量数据中,使用具有对应浏览器类型及版本号的浏览器访问某网站的访问请求数、用户数和设备数等流量数据中的至少一种。比如假设浏览器类型指标的各浏览器类型及版本号中包括“c类型浏览器2.0版本”,该“c类型浏览器2.0版本”可以用于统计业务流量数据中,使用该c类型浏览器2.0版本访问某网站的访问请求数,即对于该网站,共有多少访问请求对应的浏览器为c类型浏览器2.0版本;或者,该“c类型浏览器2.0版本”可以用于统计业务流量数据中,使用该c类型浏览器2.0版本访问某网站的用户数,即共有多少用户使用c类型浏览器2.0版本的浏览器访问该网站;或者,该“c类型浏览器2.0版本”可以用于统计业务流量数据中,使用该c类型浏览器2.0版本访问某网站的设备数,即共有多少设备使用c类型浏览器2.0版本的浏览器访问该网站。
42.步骤103,基于多个维度值以及多个指标值,对业务流量数据进行聚合,得到各维度值在多个指标值下的流量分布数据。
43.在本公开的实施例中,可以利用数据引擎,基于多个维度值以及多个指标值,对业务流量数据进行聚合,得到各维度值在多个指标值下的流量分布数据。
44.其中,某个维度值在多个指标值下的流量分布数据,可以表示业务流量数据在该维度值及该多个指标值下的分布特征,可以包括该维度值在各指标值下的访问请求数、用户数、设备数等数据中的至少一个。比如,维度值为时间维度、统计指标为地域指标时,某个
维度值在各指标值下的流量分布数据,表示某个时间段内的业务流量数据在各个区域的分布特征,可以包括该时间段内在各个区域的访问请求数、用户数、设备数等数据中的至少一个。或者,比如维度值为用户维度、统计指标为ipc段指标时,某个维度值在各指标值下的流量分布数据,表示某个用户标识对应的业务流量数据在各个ipc段的分布特征,可以包括该用户标识对应的用户,使用ip地址处于各个ipc段的设备访问某网站的访问请求数。或者,比如维度为ipc维度、统计指标为时序指标时,某个维度值在各指标值下的流量分布数据,表示某个ipc段的业务流量数据在各个时间段的分布特征,可以包括ip地址处于该ipc段的设备,在各个时间段访问某网站的访问请求数等。其中,基于某个维度值和某个指标值对业务流量数据进行聚合,可以得到该维度值在该指标值下的访问请求数、用户数、设备数等数据中的至少一个。
45.另外,可以理解的是,各维度值在多个指标值下的流量分布数据,具体可以为特征矩阵的形式。其中,以m表示检测维度的维度值的数量,以n表示统计指标的指标值的数量,则特征矩阵的维度可以为m*n。即,特征矩阵的每一行对应一个维度值,每一列对应一个指标值,特征矩阵中的各元素表示所在行对应的维度,在所在列对应的指标值下的访问请求数、用户数或设备数等数据。
46.举例来说,以流量分布数据具体为设备数的分布为例,假设检测维度为时间维度,时间维度的多个维度值包括3个时间段,分别为“1月3日”、“1月2日”、“1月1日”,统计指标为地域指标,地域指标的多个指标值包括“a省”、“b省”和“c省”。则基于“1月3日”这一时间段、“a省”、“b省”和“c省”对业务流量数据进行聚合,可以得到“1月3日”这一时间段在“a省”、“b省”和“c省”这3个指标值下的流量分布数据,其中该流量分布数据中包括1月3日内访问某网站x的设备中位于a省中的设备数、位于b省的设备数和位于c省的设备数。其中,1月3日内访问某网站x的设备中位于a省中的设备数可以基于“1月3日”这一时间段和“a省”对业务流量数据进行聚合得到,1月3日内访问某网站x的设备中位于b省中的设备数可以基于“1月3日”这一时间段和“b省”对业务流量数据进行聚合得到,1月3日内访问某网站x的设备中位于c省中的设备数可以基于“1月3日”这一时间段和“c省”对业务流量数据进行聚合得到。类似的,基于“1月2日”这一时间段、“a省”、“b省”和“c省”对业务流量数据进行聚合,可以得到“1月2日”这一时间段在“a省”、“b省”和“c省”这3个指标值下的流量分布数据,其中该流量分布数据中包括1月2日内访问某网站x的设备中位于a省中的设备数、位于b省的设备数和位于c省的设备数;基于“1月1日”这一时间段、“a省”、“b省”和“c省”对业务流量数据进行聚合,可以得到“1月1日”这一时间段在“a省”、“b省”和“c省”这3个指标值下的流量分布数据,其中该流量分布数据中包括1月1日内访问某网站x的设备中位于a省中的设备数、位于b省的设备数和位于c省的设备数。
47.其中,“1月1日”这一时间段在“a省”、“b省”和“c省”这3个指标值下的流量分布数据、“1月2日”这一时间段在“a省”、“b省”和“c省”这3个指标值下的流量分布数据及“1月3日”这一时间段在“a省”、“b省”和“c省”这3个指标值下的流量分布数据,具体可以为特征矩阵的形式,该特征矩阵的维度为3*3。其中,第一行对应“1月1日”这一时间段、第二行对应“1月2日”这一时间段、第三行对应“1月3日”这一时间段,第一列对应“a省”这一指标值、第二列对应“b省”这一指标值、第三列对应“c省”这一指标值。以第一行为例,第一行表示1月1日在a省、b省和c省的流量分布数据,其中第一行第一列的元素表示1月1日内访问某网站x的
设备中位于a省中的设备数,第一行第二列的元素表示1月1日内访问某网站x的设备中位于b省中的设备数,第一行第三列的元素表示1月1日内访问某网站x的设备中位于c省中的设备数。
48.需要说明的是,本公开实施例中,基于各维度值和多个指标值对业务流量数据进行聚合时,多个指标值的排列顺序可以相同。比如上述示例中得到1月3日内访问某网站x的设备中位于a省中的设备数、位于b省的设备数和位于c省的设备数后,可以按照对应的设备数从小到大的顺序,将a省、b省和c省进行排列,比如排列顺序为b省、c省和a省,进而按照相同的排列顺序,统计1月2日内访问某网站x的设备中位于b省中的设备数、位于c省的设备数和位于a省的设备数,以及统计1月1日内访问某网站x的设备中位于b省中的设备数、位于c省的设备数和位于a省的设备数,从而得到各时间段在相同排列顺序的多个指标值下的流量分布数据,进而基于各时间段在相同排列顺序的多个指标值下的流量分布数据,执行后续步骤。
49.步骤104,确定各维度值在多个指标值下的流量分布数据之间的相关度,并基于相关度确定业务流量数据中的目标业务流量数据。
50.其中,目标业务流量数据,为需要从待检测的业务流量数据中确定出的业务流量数据,可以根据具体应用场景中的需求来确定目标业务流量数据为何种数据。比如本公开实施例中目标业务流量数据可以为存在异常的业务流量数据。
51.其中,可以采用皮尔逊相关系数、余弦距离等相似度确定方式,确定各维度值在多个指标值下的流量分布数据之间的相关度,本公开对此不作限制。
52.在本公开的实施例中,在各维度值在多个指标值下的流量分布数据具体为特征矩阵的形式的情况下,可以确定特征矩阵中每两个维度值对应的行向量之间的相关度,从而得到每两个维度值在多个指标值下的流量分布数据之间的相关度。
53.进而可以基于各维度值在多个指标值下的流量分布数据之间的相关度,从各维度值在多个指标值下的流量分布数据中,确定与其它流量分布数据之间的相关度满足设定条件的目标流量分布数据,进而基于目标流量分布数据确定业务流量数据中的目标业务流量数据。其中,设定条件可以根据具有应用场景进行设置,本公开对此不作限制。
54.举例来说,假设检测维度为时间维度,时间维度的多个维度值包括多个日期,统计指标为地域指标,地域指标的多个指标值包括多个区域。由于对于某个网站来说,业务流量数据在不同的日期下在各个区域的分布通常是稳定的,即不同的日期中位于各区域的访问请求数、用户数和设备数通常是稳定的,比如在当天及前3天内,访问某网站的设备中位于a省的设备数通常均大于位于b省的设备数。则基于多个日期和多个区域,对业务流量数据进行聚合,得到各日期在多个区域下的流量分布数据后,各日期在多个区域下的流量分布数据之间的相关度通常较高,与其它日期在多个区域下的流量分布数据之间的相关度较低的流量分布数据,则可能是机器爬虫或其它原因引起的异常流量数据。那么可以设置设定条件为目标流量分布数据与其它流量分布数据之间的相关度较低。从而本公开实施例中可以基于与其它日期在多个区域下的流量分布数据之间的相关度较低的流量分布数据,确定存在异常的目标业务流量数据。
55.需要说明的是,本公开实施例中示出的检测维度及统计指标,仅是示例性说明,不能理解为对本技术方案的限制。在实际应用中,本领域技术人员可以根据具有应用场景任
意设置该场景下的检测维度及统计指标,只需使得任意维度值在多个指标值下的流量分布数据具有实际意义即可,本公开对此不作限制。比如检测维度为时间维度、统计指标为地域指标时,任意维度值在多个指标值下的流量分布数据,表示某个时间段内的业务流量数据在各个区域的分布特征。或者,比如维度值为用户维度、统计指标为ipc段指标时,任意维度值在各指标值下的流量分布数据,表示某个用户标识对应的业务流量数据在各个ipc段的分布特征。或者,比如维度为ipc维度、统计指标为时序指标时,任意维度值在各指标值下的流量分布数据,表示某个ipc段的业务流量数据在各个时间段的分布特征等。
56.由于本公开实施例提供的流量检测方法,可以根据不同的应用场景,设置对应的检测维度以及统计指标,从而对于各种应用场景,均能实现基于对应的检测维度和统计指标,从业务流量数据中确定目标业务流量数据,应用范围广。且本公开实施例提供的流量检测方法,实现方式简单,复杂度低,从而能够实现快速从业务流量数据中检测出存在异常的目标业务流量数据。
57.综上,本公开实施例提供的流量检测方法,获取待检测的业务流量数据、对应的检测维度以及统计指标;确定检测维度的多个维度值并确定统计指标的多个指标值;基于多个维度值以及多个指标值,对业务流量数据进行聚合,得到各维度值在多个指标值下的流量分布数据;确定各维度值在多个指标值下的流量分布数据之间的相关度,并基于相关度确定业务流量数据中的目标业务流量数据。由此,实现了从待检测的业务流量数据中检测出存在异常的目标业务流量数据,且通用性强,复杂度低,流量检测效率高。
58.本公开实施例提供的流量检测方法,可以应用于在不同时间段的业务流量数据中某个时间段的流量数据存在异常的场景下,从不同时间段的业务流量数据中确定出目标业务流量数据。在该场景下检测维度为时间维度,检测维度的多个维度值为多个时间段。下面结合图2,针对本公开实施例提供的流量检测方法在上述场景中的实现过程进行说明。
59.图2是根据本公开第二实施例的流量检测方法的流程示意图。如图2所示,流量检测方法,可以包括以下步骤:
60.步骤201,获取待检测的业务流量数据、对应的检测维度以及统计指标,其中检测维度包括时间维度。
61.步骤202,确定时间维度的多个维度值并确定统计指标的多个指标值,其中,多个维度值包括业务流量数据所属的多个时间段。
62.其中,业务流量数据所属的多个时间段的时间单位,可以预先设置,比如设置为天,或者星期等,本公开对此不作限制。
63.在本公开的实施例中,可以基于待检测的业务流量数据所属的多个时间段,确定时间维度的多个时间段。比如,假设业务流量数据所属的多个时间段的时间单位为天,待检测的业务流量数据为1月1日至1月3日的业务流量数据,则可以确定时间维度的多个时间段包括“1月1日”、“1月2日”及“1月3日”这3个时间段。
64.其中,统计指标可以基于具体应用场景中,业务流量数据在多个维度值下的流量分布特性进行设置。
65.举例来说,以检测维度为时间维度为例,由于对于某个网站来说,业务流量数据在不同的日期下在各个区域的分布通常是稳定的,即不同的日期中位于各区域中的访问请求数、用户数和设备数通常是稳定的,比如在当天及前3天内,访问某网站的设备中位于a省的
设备数均大于位于b省的设备数,则可以设置统计指标为地域指标。
66.或者,以检测维度为时间维度为例,由于对于某个网站来说,业务流量数据在不同的日期下在各个设备类型的分布通常是稳定的,即不同的日期中使用各设备型号访问某网站的访问请求数、用户数和设备数通常是稳定的,比如在当天使用各设备类型的设备访问某网站的设备数,与前3天使用各设备类型的设备访问某网站的设备数相差不大,则可以设置统计指标为设备类型指标。
67.在本公开的实施例中,对于可以快速穷举对应的指标值的统计指标,可以基于穷举出的多个指标值,预先设置该统计指标的多个预设指标值,进而流量检测装置可以将该统计指标的多个预设指标值,确定为该统计指标的多个指标值。比如,对于地域指标,可以快速穷举对应的各区域,从而流量检测装置可以将穷举出的多个区域,确定为该地域指标的多个指标值。或者比如,对于时序指标,可以快速穷举对应的各时间段,比如以1分钟、10分钟或20分钟将一天划分为多个时间段,从而流量检测装置可以将穷举出的多个时间段,确定为该时序指标的多个指标值。
68.在本公开的实施例中,对于穷举出的对应指标值比较分散的统计指标,比如对于设备类型指标,可以穷举出的设备类型过多,且其中包括不常用的设备类型,使用用户较少,对于这样的统计指标,可以基于穷举出的多个指标值,预先设置该统计指标的多个预设指标值,进而流量检测装置可以采用以下方式,确定统计指标的多个指标值:
69.基于统计指标的多个预设指标值,对业务流量数据进行聚合,得到在多个预设指标值下的流量分布数据;基于各预设指标值下的流量分布数据以及业务流量数据,确定各预设指标值对应的流量覆盖率;将对应的流量覆盖率高于第四预设阈值的多个预设指标值,确定为统计指标的多个指标值。其中,第四预设阈值可以根据需要设置,比如可以设置为90%、95%等,本公开对此不作限制。
70.举例来说,以设备类型指标为例,可以对各设备类型去长尾,得到多个预设设备类型。从而流量检测装置可以基于设备类型指标对应的多个预设设备类型,对业务流量数据进行聚合,得到在多个预设设备类型下的访问请求数,即得到使用各预设设备类型的设备访问某网站的访问请求数,进而基于使用各预设设备类型的设备访问某网站的访问请求数,以及业务流量数据中访问该网站的总访问请求数,确定各预设设备类型对应的流量覆盖率,将对应的流量覆盖率高于95%的多个预设设备类型,确定为设备类型指标的多个指标值。
71.由此,对于穷举出的对应指标值比较分散的统计指标,可以确定各预设指标对应的流量覆盖率,进而基于各预设指标值对应的流量覆盖率,得到较少数量的指标值,从而减少流量检测过程中的计算量,且通过将对应的流量覆盖率较高的预设指标值确定为统计指标的多个指标值,能够提高流量检测的准确性。
72.步骤203,基于多个时间段以及多个指标值,对业务流量数据进行聚合,得到各时间段在多个指标值下的流量分布数据。
73.举例来说,以流量分布数据具体为设备数的分布为例,假设检测维度为时间维度,时间维度的多个维度值包括3个时间段,分别为“1月3日”、“1月2日”、“1月1日”,统计指标为地域指标,地域指标的多个指标值包括“a省”、“b省”和“c省”。则基于“1月3日”这一时间段、“a省”、“b省”和“c省”对业务流量数据进行聚合,可以得到“1月3日”这一时间段在“a省”、“b
省”和“c省”这3个指标值下的流量分布数据,其中该流量分布数据中包括1月3日内访问某网站x的设备中位于a省中的设备数、位于b省的设备数和位于c省的设备数。类似的,基于“1月2日”这一时间段、“a省”、“b省”和“c省”对业务流量数据进行聚合,可以得到“1月2日”这一时间段在“a省”、“b省”和“c省”这3个指标值下的流量分布数据,其中该流量分布数据中包括1月2日内访问某网站x的设备中位于a省中的设备数、位于b省的设备数和位于c省的设备数;基于“1月1日”这一时间段、“a省”、“b省”和“c省”对业务流量数据进行聚合,可以得到“1月1日”这一时间段在“a省”、“b省”和“c省”这3个指标值下的流量分布数据,其中该流量分布数据中包括1月1日内访问某网站x的设备中位于a省中的设备数、位于b省的设备数和位于c省的设备数。
74.由此,实现了在不同时间段的业务流量数据中某个时间段的流量数据存在异常的场景下,基于时间维度的多个时间段以及统计指标的多个指标值,对业务流量数据进行聚合,得到各时间段在统计指标的多个指标值下的流量分布数据,为该场景下从业务流量数据中确定目标业务流量数据奠定基础。
75.步骤204,确定多个时间段中的任意两个时间段在多个指标值下的流量分布数据之间的相关度。
76.在本公开的实施例中,将多个时间段中的任意一个时间段在多个指标值下的流量分布数据以特征向量的形式表示,可以采用以下公式(1)所示的皮尔逊相关系数的相似度确定方式,确定多个时间段中的任意两个时间段在多个指标值下的流量分布数据之间的相关度:
[0077][0078]
其中,x和y分别表示任意一个时间段在多个指标值下的流量分布数据对应的特征向量。ρ
x,y
表示x和y之间的相关系数。e表示数学期望或均值,e(xy)-e(x)e(y)表示x和y的协方差,表示x的标准差,表示y的标准差。其中,ρ
x,y
为-1到+1之间的数,0表示x和y无相关性,负值表示负相关,正值为正相关。
[0079]
步骤205,从各时间段在多个指标值下的流量分布数据中,确定与其它流量分布数据之间的相关度低于第一预设阈值的目标流量分布数据。
[0080]
其中,第一预设阈值,可以根据需要设置,本公开对此不作限制。
[0081]
步骤206,基于目标流量分布数据,确定业务流量数据中的目标业务流量数据。
[0082]
在本公开的实施例中,可以基于各时间段在多个指标值下的流量分布数据之间的相关度,从各时间段在多个指标值下的流量分布数据中,确定与其它流量分布数据之间的相关度满足设定条件的目标流量分布数据,进而基于目标流量分布数据确定业务流量数据中的目标业务流量数据。其中,设定条件可以根据具有应用场景进行设置,本公开对此不作限制。
[0083]
其中,以时间维度的多个时间段的时间单位为天为例,由于对于某个网站来说,业务流量数据在不同天内在同一统计指标的各指标值下的分布通常是稳定的,其中统计指标例如为地域指标、设备类型指标等,比如不同天内位于各区域的访问请求数、用户数和设备数通常是稳定的,不同天内使用各设备型号访问某网站的访问请求数、用户数和设备数通
常是稳定的。则基于多个时间段和多个指标值,对业务流量数据进行聚合,得到各时间段在多个指标值下的流量分布数据后,各时间段在多个指标值下的流量分布数据之间的相关度通常较高,与其它时间段在多个指标值下的流量分布数据之间的相关度较低的流量分布数据,则可能是机器爬虫或其它原因引起的异常流量数据。那么可以设置设定条件为目标流量分布数据与其它流量分布数据之间的相关度低于第一预设阈值。从而本公开实施例中流量检测装置可以将与其它时间段在多个区域下的流量分布数据之间的相关度第一预设阈值的流量分布数据确定为目标流量分布数据,进而基于目标流量分布数据,确定存在异常的目标业务流量数据。
[0084]
在本公开的实施例中,待检测的业务流量数据对应的统计指标的数量可以为多个,在这种情况下,对于多个统计指标中的同一统计指标,可以确定各维度值在同一统计指标的多个指标值下的流量分布数据之间的相关度,进而基于各维度值在各同一统计指标的多个指标值下的流量分布数据之间的相关度,确定业务流量数据中的目标业务流量数据。
[0085]
相应的,步骤204可以通过以下方式实现:对于多个统计指标中的同一统计指标,确定各时间段在同一统计指标的多个指标值下的流量分布数据之间的相关度,步骤205可以通过以下方式实现:从各时间段在各同一统计指标的多个指标值下的流量分布数据中,确定与其它流量分布数据之间的相关度低于第一预设阈值的目标流量分布数据。
[0086]
通过设置待检测的业务流量数据对应的统计指标的数量为多个,进而基于多个维度值和多个统计指标各自的多个指标值,对业务流量数据进行聚合,得到各维度值在各统计指标的多个指标值下的流量分布数据,再基于各维度值在各同一统计指标的多个指标值下的流量分布数据之间的相关度,确定业务流量数据中的目标业务流量数据,可以实现从多个角度来确定业务流量数据中的目标业务流量数据,从而提高流量检测的准确性。
[0087]
举例来说,假设已知某网站在2022年1月4日这一天总的访问量明显突增,则待检测的业务流量数据可以为1月1日至1月4日的业务流量数据,业务流量数据所属的多个时间段的时间单位为天,统计指标包括地域指标、浏览器类型指标、ja3指标,其中地域指标的区域包括34个,浏览器类型指标的浏览器类型包括21个,ja3指标的ja3指纹包括20个。基于“1月1日”、“1月2日”、“1月3日”、“1月4日”这四个时间段和地域指标的各区域,对业务流量数据进行聚合后,可以得到一个4*34维的特征矩阵,其中以第一行为例,第一行表示“1月1日”这一时间段在34个区域下的流量分布数据,其中该流量分布数据中可以包括1月1日内的访问请求中位于各区域的访问请求数;基于“1月1日”、“1月2日”、“1月3日”、“1月4日”这四个时间段和浏览器类型指标的各浏览器类型,对业务流量数据进行聚合后,可以得到一个4*21维的特征矩阵,其中以第一行为例,第一行表示“1月1日”这一时间段在21个浏览器类型下的流量分布数据,其中该流量分布数据中可以包括1月1内的访问请求中对应浏览器类型为各浏览器类型的访问请求数;基于“1月1日”、“1月2日”、“1月3日”、“1月4日”这四个时间段和ja3指标的各ja3指纹,对业务流量数据进行聚合后,可以得到一个4*20维的特征矩阵,其中以第一行为例,第一行表示“1月1日”这一时间段在20个ja3指纹下的流量分布数据,其中该流量分布数据中可以包括1月1内的访问请求中对应浏览器为各ja3指纹的访问请求数。
[0088]
进而对于该4*34维的特征矩阵,可以确定特征矩阵中每两个时间段对应的行向量之间的相关度,从而得到每两个时间段在地域指标的34个区域下的流量分布数据之间的相
关度。对于该4*21维的特征矩阵,可以确定特征矩阵中每两个时间段对应的行向量之间的相关度,从而得到每两个时间段在浏览器类型指标的21个浏览器类型下的流量分布数据之间的相关度。对于该4*20维的特征矩阵,可以确定特征矩阵中每两个时间段对应的行向量之间的相关度,从而得到每两个时间段在ja3指标的20个ja3指纹下的流量分布数据之间的相关度。
[0089]
假设“1月4日”这一时间段与其它时间段在地域指标的34个区域下的流量分布数据之间的相关度均低于第一预设阈值,则可以确定1月4日在地域指标的34个区域下的流量分布数据存在异常,并将该流量分布数据确定为目标业务流量数据。根据该目标业务流量数据,可以定位1月4日访问网络的业务流量数据中,异常的流量数据来自哪个区域,进而可以挖掘该异常的流量数据的特征用于后续的反作弊等处理。
[0090]
由此,本公开实施例提供的流量检测方法,通过确定多个时间段中的任意两个时间段在多个指标值下的流量分布数据之间的相关度,从各时间段在多个指标值下的流量分布数据中,确定与其它流量分布数据之间的相关度低于第一预设阈值的目标流量分布数据,进而基于目标流量分布数据,确定业务流量数据中的目标业务流量数据,实现了在不同时间段的业务流量数据中某个时间段的流量数据存在异常的场景下,从业务流量数据中确定目标业务流量数据,且实现方式简单,复杂度低,流量检测效率高。
[0091]
本公开实施例提供的流量检测方法,可以应用于在业务流量数据中存在非正常用户团伙作弊的流量数据的场景下,从业务流量数据中确定出目标业务流量数据。在该场景下,检测维度可以为在对应维度下包含较多用户的维度,比如用户维度、ip维度、ipc维度、ja3维度等维度。下面以检测维度为用户维度,检测维度的多个维度值为多个用户标识为例,结合图3,针对本公开实施例提供的流量检测方法在上述场景中的实现过程进行说明。
[0092]
图3是根据本公开第三实施例的流量检测方法的流程示意图。如图3所示,流量检测方法,可以包括以下步骤:
[0093]
步骤301,获取待检测的业务流量数据、对应的检测维度以及统计指标,其中检测维度包括用户维度。
[0094]
步骤302,确定用户维度的多个维度值并确定统计指标的多个指标值,多个维度值包括业务流量数据所包括的多个用户标识中满足预设条件的多个候选用户标识。
[0095]
其中,预设条件可以根据需要设置,比如设置为某个时间段内访问请求数超过设定阈值,其中设定阈值比如可以设置为1000、2000等,本公开对此不作限制。
[0096]
以预设条件为一天内访问请求数超过1000为例,可以将业务流量数据所包括的多个用户标识中,一天内访问请求数超过1000的用户标识确定为候选用户标识,从而确定用户维度的多个维度值。
[0097]
其中,统计指标可以基于具体应用场景中,业务流量数据在多个维度值下的流量分布特性进行设置。
[0098]
举例来说,以检测维度为用户维度为例,由于对于某个网站来说,作弊团伙中各用户的访问请求在ip池中各个ip地址的分布通常是一致的,即作弊团伙中不同的用户使用ip池中各ip地址来访问某网站的次数基本是一致的,则可以设置统计指标为ipc段指标。
[0099]
或者,以检测维度为用户维度为例,由于对于某个网站来说,作弊团伙中各用户的访问请求在各个访问接口的分布通常是一致的,即作弊团伙中不同的用户对各访问接口的
访问次数基本是一致的,则可以设置统计指标为访问接口指标,该指标的多个指标值包括各访问接口标识。
[0100]
或者,以检测维度为用户维度为例,由于对于某个网站来说,作弊团伙中各用户的访问请求在各个时间段的分布通常是一致的,即作弊团伙中不同的用户对网站的访问时间所在的时间段基本是一致的,则可以设置统计指标为时序指标,该指标的多个指标值包括各时间段。
[0101]
其中,确定统计指标的多个指标值的方式,可以参考上述实施例的描述,此处不再赘述。
[0102]
步骤303,基于多个候选用户标识以及多个指标值,对业务流量数据进行聚合,得到各候选用户标识在多个指标值下的流量分布数据。
[0103]
举例来说,以流量分布数据具体为访问请求数的分布为例,假设检测维度为用户维度,用户维度的多个维度值包括1000个候选用户标识,统计指标为ipc段指标,ipc段指标的多个指标值包括27个ipc段。则基于某个候选用户标识、27个ipc段对业务流量数据进行聚合,可以得到该候选用户标识在27个ipc段的流量分布数据,其中该流量分布数据表示该候选用户标识对应的业务流量数据在27个ipc段的分布特征,该流量分布数据中可以包括该候选用户标识对应的用户使用ip地址处于各ipc段的设备来访问网站的访问请求数。类似的,基于其它任意候选用户标识、27个ipc段对业务流量数据进行聚合,可以得到该其它任意候选用户标识在27个ipc段的流量分布数据。
[0104]
由此,实现了在业务流量数据中存在非正常用户团伙作弊的流量数据的场景下,基于用户维度的多个候选用户标识以及统计指标的多个指标值,对业务流量数据进行聚合,得到各候选用户标识在统计指标的多个指标值下的流量分布数据,为该场景下从业务流量数据中确定目标业务流量数据奠定基础。
[0105]
步骤304,确定多个候选用户标识中的任意两个候选用户标识在多个指标值下的流量分布数据之间的相关度。
[0106]
在本公开的实施例中,将多个候选用户标识中的任意一个候选用户标识在多个指标值下的流量分布数据以特征向量的形式表示,可以采用皮尔逊相关系数的相似度确定方式,确定多个候选用户标识中的任意两个候选用户标识在多个指标值下的流量分布数据之间的相关度。
[0107]
步骤305,基于任意两个候选用户标识在多个指标值下的流量分布数据之间的相关度,从多个候选用户标识中确定用户标识集合。
[0108]
其中,用户标识集合中任意用户标识与除该任意用户标识之外的其它用户标识,在多个指标值下的流量分布数据之间的相关度高于第二预设阈值。
[0109]
其中,第二预设阈值,可以根据需要设置,本公开对此不作限制。
[0110]
步骤306,基于用户标识集合,确定业务流量数据中的目标业务流量数据。
[0111]
在本公开的实施例中,可以基于各候选用户标识在多个指标值下的流量分布数据之间的相关度,从各候选用户标识中确定用户标识集合,其中,用户标识集合中任意用户标识与除该任意用户标识之外的其它用户标识在多个指标值下的流量分布数据之间的相关度满足设定条件,进而基于用户标识集合确定业务流量数据中的目标业务流量数据。其中,设定条件可以根据具有应用场景进行设置,本公开对此不作限制。
[0112]
可以理解的是,对于某个网站来说,作弊团伙中各用户在同一统计指标的各指标值下的分布通常是一致的,其中统计指标例如为ipc段指标、访问接口指标、时序指标等,比如作弊团伙中不同的用户对网站的访问时间所在的时间段基本是一致的,作弊团伙中各用户的访问请求在各个访问接口的分布通常是一致的,作弊团伙中各用户的访问请求在ip池中各个ip地址的分布通常是一致的。则基于多个候选用户标识和统计指标的多个指标值,对业务流量数据进行聚合,得到各候选用户标识在多个指标值下的流量分布数据后,属于同一作弊团伙的各候选用户标识在多个指标值下的流量分布数据之间的相关度通常较高。那么可以设置设定条件为,用户标识集合中任意用户标识,与用户标识集合中除该任意用户标识之外的其它用户标识之间的相关度高于第二预设阈值。从而本公开实施例中流量检测装置可以基于该设定条件从多个候选用户标识中确定用户标识集合,进而基于用户标识集合,确定业务流量数据中的非正常用户团伙作弊的目标业务流量数据。
[0113]
在本公开的实施例中,待检测的业务流量数据对应的统计指标的数量可以为多个,在这种情况下,对于多个统计指标中的同一统计指标,可以确定各维度值在同一统计指标的多个指标值下的流量分布数据之间的相关度,进而基于各维度值在各同一统计指标的多个指标值下的流量分布数据之间的相关度,确定业务流量数据中的目标业务流量数据。
[0114]
相应的,步骤304可以通过以下方式实现:对于多个统计指标中的同一统计指标,确定各候选用户标识在同一统计指标的多个指标值下的流量分布数据之间的相关度,步骤305可以通过以下方式实现:基于任意两个候选用户标识在各同一统计指标的多个指标值下的流量分布数据之间的相关度,从多个候选用户标识中确定用户标识集合。
[0115]
举例来说,假设待检测的业务流量数据为某天中全天的业务流量数据,业务流量数据所包括的多个用户标识中,在当天的访问请求数超过1000的用户标识为10000个,即用户维度的多个维度值包括10000个候选用户标识。统计指标包括ipc段指标、访问接口指标、时序指标,其中ipc段指标的去重后各ipc段包括27个,访问接口指标的各访问接口标识包括10个,时序指标的各时间段包括24*60=1440个。基于10000个候选用户标识和ipc段指标的各ipc段,对业务流量数据进行聚合后,可以得到一个10000*27维的特征矩阵,其中以第一行为例,第一行表示第一个候选用户标识在27个ipc段的流量分布数据,第一行的27个元素,表示该候选用户标识对应的用户,使用处于27个ipc段中各ipc段的设备来访问网站的访问请求数;基于10000个候选用户标识和访问接口指标的各访问接口标识,对业务流量数据进行聚合后,可以得到一个10000*10维的特征矩阵,其中以第一行为例,第一行表示第一个候选用户标识在10个访问接口标识的流量分布数据,第一行的10个元素,表示该候选用户标识对应的用户,对10个访问接口中各访问接口的访问请求数;基于10000个候选用户标识和时序指标的各时间段,对业务流量数据进行聚合后,可以得到一个10000*1440维的特征矩阵,其中以第一行为例,第一行表示第一个候选用户标识在1440个时间段的流量分布数据,第一行的1440个元素,表示该候选用户标识对应的用户,对网站的访问时间位于1440个时间段中各时间段的访问请求数。
[0116]
进而对于该10000*27维的特征矩阵,可以确定特征矩阵中每两个候选用户标识对应的行向量之间的相关度,从而得到每两个候选用户标识在ipc段指标的27个ipc段下的流量分布数据之间的相关度。对于该10000*10维的特征矩阵,可以确定特征矩阵中每两个候选用户标识对应的行向量之间的相关度,从而得到每两个候选用户标识在访问接口指标的
10个访问接口标识下的流量分布数据之间的相关度。对于该10000*1440维的特征矩阵,可以确定特征矩阵中每两个候选用户标识对应的行向量之间的相关度,从而得到每两个候选用户标识在时序指标的1440个时间段下的流量分布数据之间的相关度。
[0117]
假设10000个候选用户标识中存在满足如下条件的100个候选用户标识:该100个候选用户标识中每两个用户标识在ipc段指标的27个ipc段下的流量分布数据之间的相关度高于第二预设阈值,则可以确定该100个候选用户标识组合成用户标识集合,并将该用户标识集合中各用户标识对应的访问数据确定为目标业务流量数据。根据该目标业务流量数据,可以挖掘对应的作弊团伙的特征,从而用于后续的反作弊等处理。
[0118]
由此,本公开实施例提供的流量检测方法,确定多个候选用户标识中的任意两个候选用户标识在多个指标值下的流量分布数据之间的相关度,基于任意两个候选用户标识在多个指标值下的流量分布数据之间的相关度,从多个候选用户标识中确定用户标识集,基于用户标识集合,确定业务流量数据中的目标业务流量数据,实现了在业务流量数据中存在非正常用户团伙作弊的流量数据的场景下,从业务流量数据中确定目标业务流量数据,且实现方式简单,复杂度低,流量检测效率高。
[0119]
本公开实施例提供的流量检测方法,可以应用于在业务流量数据中存在非正常用户团伙作弊的流量数据,且已知某一个或多个作弊用户的场景下,从业务流量数据中确定出目标业务流量数据。在该场景下检测维度可以为用户维度、ip维度、ipc维度、ja3维度等维度。下面以检测维度为用户维度,检测维度的多个维度值包括指定用户标识比如已知作弊用户的标识,以及包括多个其它的用户标识为例,结合图4,针对本公开实施例提供的流量检测方法在上述场景中的实现过程进行说明。
[0120]
图4是根据本公开第四实施例的流量检测方法的流程示意图。如图4所示,流量检测方法,可以包括以下步骤:
[0121]
步骤401,获取待检测的业务流量数据、对应的检测维度以及统计指标,其中检测维度包括用户维度。
[0122]
步骤402,确定用户维度的多个维度值并确定统计指标的多个指标值,多个维度值包括业务流量数据所包括的多个用户标识中满足预设条件的多个候选用户标识、指定用户标识。
[0123]
步骤403,基于多个候选用户标识以及多个指标值,对业务流量数据进行聚合,得到各候选用户标识在多个指标值下的流量分布数据。
[0124]
步骤404,基于指定用户标识以及多个指标值,对业务流量数据进行聚合,得到指定用户标识在多个指标值下的流量分布数据。
[0125]
步骤405,确定指定用户标识与多个候选用户标识在多个指标值下的流量分布数据之间的相关度。
[0126]
其中,步骤401-405的具体实现过程及原理,可以参考上述实施例的描述,此处不再赘述。
[0127]
其中,步骤404和步骤405可以同时执行,也可以分先后执行,本公开对此不作限制。
[0128]
步骤406,从多个候选用户标识中确定目标用户标识,目标用户标识与指定用户标识在多个指标值下的流量分布数据之间的相关度高于第三预设阈值。
[0129]
其中,第三预设阈值,可以根据需要设置,本公开对此不作限制。
[0130]
步骤407,基于目标用户标识,确定业务流量数据中的目标业务流量数据。
[0131]
可以理解的是,对于某个网站来说,作弊团伙中各用户在同一统计指标的各指标值下的分布通常是一致的,其中统计指标例如为ipc段指标、访问接口指标、时序指标等,比如作弊团伙中不同的用户对网站的访问时间所在的时间段基本是一致的,作弊团伙中各用户的访问请求在各个访问接口的分布通常是一致的,作弊团伙中各用户的访问请求在ip池中各个ip地址的分布通常是一致的。则基于多个候选用户标识和统计指标的多个指标值,对业务流量数据进行聚合,得到各候选用户标识在多个指标值下的流量分布数据,以及基于指定用户标识以及多个指标值,对业务流量数据进行聚合,得到指定用户标识在多个指标值下的流量分布数据后,指定用户标识,以及与指定用户标识属于同一作弊团伙的各用户标识,在多个指标值下的流量分布数据之间的相关度通常较高。则可以将与指定用户标识在多个指标值下的流量分布数据之间的相关度高于第三预设阈值的用户标识,确定为与指定用户标识属于同一作弊团伙的目标用户标识,进而将该目标用户标识对应的访问数据确定为目标业务流量数据。
[0132]
由此,本公开实施例提供的流量检测方法,通过确定指定用户标识与多个候选用户标识在多个指标值下的流量分布数据之间的相关度,从多个候选用户标识中确定目标用户标识,目标用户标识与指定用户标识在多个指标值下的流量分布数据之间的相关度高于第三预设阈值,进而基于目标用户标识,确定业务流量数据中的目标业务流量数据,实现了在业务流量数据中存在非正常用户团伙作弊的流量数据且已知作弊用户的场景下,从业务流量数据中确定目标业务流量数据,且实现方式简单,复杂度低,流量检测效率高。
[0133]
需要说明的是,本公开实施例提供的流量检测方法,应用于在业务流量数据中存在非正常用户团伙作弊的流量数据的场景下,从业务流量数据中确定出目标业务流量数据时,在检测维度为ip维度、ipc维度、ja3维度等维度的情况下,从业务流量数据中确定出目标业务流量数据的过程,与在检测维度为用户维度的情况下,从业务流量数据中确定出目标业务流量数据的过程类似,下面进行简单说明,具体实现过程不再详细赘述。
[0134]
比如,在检测维度为ipc维度的情况下,由于对于某个网站来说,属于同一作弊团伙的各设备所处的ipc段对应的访问请求,在各个时间段的分布通常是一致的,即作弊团伙中ip地址处于不同ipc段的设备,对网站的访问时间所在的时间段基本是一致的,则可以设置统计指标为时序指标。
[0135]
流量检测装置在获取待检测的业务流量数据、对应的检测维度以及统计指标后,可以确定ipc维度的多个ipc段,比如该多个ipc段包括业务流量数据所包括的多个ipc段中,一天内访问请求数超过设定阈值的ipc段,并确定时序指标的多个指标值,比如将1天采用10分钟进行划分得到144个时间段,将该144个时间段作为多个指标值。进而可以基于多个ipc段以及多个指标值,对业务流量数据进行聚合,得到各ipc段在多个指标值下的流量分布数据。其中,在统计指标为时序指标、多个指标值包括多个时间段的情况下,某个ipc段在多个指标值下的流量分布数据,表示该ipc段对应的业务流量数据在各个时间段的分布特征,可以包括该ipc段对应的设备在各个时间段访问网站的访问请求数。
[0136]
进而,流量检测装置可以确定多个ipc段中的任意两个ipc段在多个指标值下的流量分布数据之间的相关度,基于任意两个ipc段在多个指标值下的流量分布数据之间的相
关度,从多个ipc段中确定ipc段集合。其中,ipc段集合中的任意ipc段与除该任意ipc段之外的其它ipc段,在多个指标值下的流量分布数据之间的相关度高于某个预设阈值。进而可以基于ipc段集合,确定业务流量数据中的目标业务流量数据。
[0137]
由此,实现了在业务流量数据中存在非正常用户团伙作弊的流量数据的场景下,从业务流量数据中确定目标业务流量数据,且实现方式简单,复杂度低,流量检测效率高。
[0138]
需要说明的是,上述应用场景仅是示例性说明,不能理解为对本技术方案的应用场景的限制。在实际应用中,本领域技术人员还可以根据需要在其它场景下应用本公开实施例提供的流量检测方法,比如在黑情报库生成、白情报库生成、线上误判召回等场景中均可以应用本公开实施例提供的流量检测方法,本公开对流量检测方法的应用场景不作限制。以线上误判召回场景为例,可以设置检测维度为用户维度、ip维度、ipc维度、ja3维度等,统计指标为时序指标,并给定一个维度值在时序指标的多个时间段下的流量分布数据,进而基于检测维度的多个维度值和统计指标的多个时间段对待检测的业务流量数据进行聚合,得到各维度值在多个时间段下的流量分布数据,再确定各维度值与给定维度值在多个时间段下的流量分布数据之间的相关度,从多个维度值中确定目标维度值,其中目标维度值与给定维度值在多个时间段下的流量分布数据之间的相关度较高,进而基于目标维度值,确定业务流量数据中的目标业务流量数据。其中,具体的实现过程本公开实施例中不再赘述。
[0139]
下面结合图5,对本公开提供的流量检测装置进行说明。
[0140]
图5是根据本公开第五实施例的流量检测装置的结构示意图。
[0141]
如图5所示,本公开提供的流量检测装置500,包括:获取模块501、第一确定模块502、聚合模块503以及第二确定模块504。
[0142]
其中,获取模块501,用于获取待检测的业务流量数据、对应的检测维度以及统计指标;
[0143]
第一确定模块502,用于确定检测维度的多个维度值并确定统计指标的多个指标值;
[0144]
聚合模块503,用于基于多个维度值以及多个指标值,对业务流量数据进行聚合,得到各维度值在多个指标值下的流量分布数据;
[0145]
第二确定模块504,用于确定各维度值在多个指标值下的流量分布数据之间的相关度,并基于相关度确定业务流量数据中的目标业务流量数据。
[0146]
需要说明的是,本实施例提供的流量检测装置500,可以执行前述实施例的流量检测方法。其中,流量检测装置500可以由软件和/或硬件实现,该流量检测装置500可以配置在电子设备中,该电子设备可以包括但不限于终端设备、服务器等,该实施例对电子设备不作具体限定。
[0147]
需要说明的是,前述对于流量检测方法的实施例的说明,也适用于本公开提供的流量检测装置,此处不再赘述。
[0148]
本公开实施例提供的流量检测装置,获取待检测的业务流量数据、对应的检测维度以及统计指标;确定检测维度的多个维度值并确定统计指标的多个指标值;基于多个维度值以及多个指标值,对业务流量数据进行聚合,得到各维度值在多个指标值下的流量分布数据;确定各维度值在多个指标值下的流量分布数据之间的相关度,并基于相关度确定
业务流量数据中的目标业务流量数据。由此,实现了从待检测的业务流量数据中检测出存在异常的目标业务流量数据,且通用性强,复杂度低,检测效率高。
[0149]
下面结合图6,对本公开提供的流量检测装置进行进一步说明。
[0150]
图6是根据本公开第六实施例的流量检测装置的结构示意图。
[0151]
如图6所示,本公开提供的流量检测装置600,包括:获取模块601、第一确定模块602、聚合模块603以及第二确定模块604。其中,图6中获取模块601、第一确定模块602、聚合模块603以及第二确定模块604与图5中获取模块501、第一确定模块502、聚合模块503以及第二确定模块504具有相同功能和结构。
[0152]
在本公开的实施中,检测维度包括时间维度,多个维度值,包括业务流量数据所属的多个时间段;聚合模块603,包括:
[0153]
第一聚合单元6031,用于基于多个时间段以及多个指标值,对业务流量数据进行聚合,得到各时间段在多个指标值下的流量分布数据。
[0154]
在本公开的实施中,第二确定模块604,包括:
[0155]
第一确定单元6041,用于确定多个时间段中的任意两个时间段在多个指标值下的流量分布数据之间的相关度;
[0156]
第二确定单元6042,用于从各时间段在多个指标值下的流量分布数据中,确定与其它流量分布数据之间的相关度低于第一预设阈值的目标流量分布数据;
[0157]
第三确定单元6043,用于基于目标流量分布数据,确定业务流量数据中的目标业务流量数据。
[0158]
在本公开的实施中,检测维度包括用户维度,多个维度值,包括业务流量数据所包括的多个用户标识中满足预设条件的多个候选用户标识;聚合模块603,包括:
[0159]
第二聚合单元,用于基于多个候选用户标识以及多个指标值,对业务流量数据进行聚合,得到各候选用户标识在多个指标值下的流量分布数据。
[0160]
在本公开的实施中,第二确定模块604,包括:
[0161]
第四确定单元,用于确定多个候选用户标识中的任意两个候选用户标识在多个指标值下的流量分布数据之间的相关度;
[0162]
第五确定单元,用于基于任意两个候选用户标识在多个指标值下的流量分布数据之间的相关度,从多个候选用户标识中确定用户标识集合,其中,用户标识集合中任意用户标识与除任意用户标识之外的其它用户标识在多个指标值下的流量分布数据之间的相关度高于第二预设阈值;
[0163]
第六确定单元,用于基于用户标识集合,确定业务流量数据中的目标业务流量数据。
[0164]
在本公开的实施中,多个维度值还包括指定用户标识;聚合模块603还包括:
[0165]
第三聚合单元,用于基于指定用户标识以及多个指标值,对业务流量数据进行聚合,得到指定用户标识在多个指标值下的流量分布数据;
[0166]
第二确定模块,包括:
[0167]
第七确定单元,用于确定指定用户标识与多个候选用户标识在多个指标值下的流量分布数据之间的相关度;
[0168]
第八确定单元,用于从多个候选用户标识中确定目标用户标识,目标用户标识与
指定用户标识在多个指标值下的流量分布数据之间的相关度高于第三预设阈值;
[0169]
第九确定单元,用于基于目标用户标识,确定业务流量数据中的目标业务流量数据。
[0170]
在本公开的实施中,第一确定模块602,包括:
[0171]
第四聚合单元,用于基于统计指标的多个预设指标值,对业务流量数据进行聚合,得到在多个预设指标值下的流量分布数据;
[0172]
获取单元,用于基于各预设指标值下的流量分布数据以及业务流量数据,获取各预设指标值对应的流量覆盖率;
[0173]
第十确定单元,用于将对应的流量覆盖率高于第四预设阈值的多个预设指标值,确定为统计指标的多个指标值。
[0174]
在本公开的实施中,统计指标的数量为多个;
[0175]
第二确定模块604,包括:
[0176]
第十一确定单元,用于对于多个统计指标中的同一统计指标,确定各维度值在同一统计指标的多个指标值下的流量分布数据之间的相关度;
[0177]
第十二确定单元,用于基于各维度值在各同一统计指标的多个指标值下的流量分布数据之间的相关度,确定业务流量数据中的目标业务流量数据。
[0178]
需要说明的是,前述对于流量检测方法的实施例的说明,也适用于本公开提供的流量检测装置,此处不再赘述。
[0179]
本公开实施例提供的流量检测装置,获取待检测的业务流量数据、对应的检测维度以及统计指标;确定检测维度的多个维度值并确定统计指标的多个指标值;基于多个维度值以及多个指标值,对业务流量数据进行聚合,得到各维度值在多个指标值下的流量分布数据;确定各维度值在多个指标值下的流量分布数据之间的相关度,并基于相关度确定业务流量数据中的目标业务流量数据。由此,实现了从待检测的业务流量数据中检测出存在异常的目标业务流量数据,且通用性强,复杂度低,检测效率高。
[0180]
基于上述实施例,本公开还提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开的流量检测方法。
[0181]
基于上述实施例,本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开实施例公开的流量检测方法。
[0182]
基于上述实施例,本公开还提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开的流量检测方法的步骤。
[0183]
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质和一种计算机程序产品。
[0184]
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限
制本文中描述的和/或者要求的本公开的实现。
[0185]
如图7所示,该电子设备700可以包括计算单元701,其可以根据存储在只读存储器(ro)702中的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序,来执行各种适当的动作和处理。在ram 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
[0186]
设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0187]
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如流量检测方法。例如,在一些实施例中,流量检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到ram 703并由计算单元701执行时,可以执行上文描述的流量检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行流量检测方法。
[0188]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0189]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0190]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom
或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0191]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0192]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、互联网和区块链网络。
[0193]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务("virtual private server",或简称"vps")中,存在的管理难度大,业务扩展性弱的缺陷。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0194]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0195]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1