异常流量检测模型的训练方法、系统及相关装置与流程

文档序号:30434357发布日期:2022-06-15 18:32阅读:98来源:国知局
异常流量检测模型的训练方法、系统及相关装置与流程

1.本发明涉及广告领域,尤其涉及异常流量检测模型的训练方法、系统及相关装置。


背景技术:

2.随着信息技术的不断发展,网络广告行业前景一片大好。在广告业务中,广告平台作为桥梁连接了提供广告服务的流量主与有广告投放需求的广告主。在各个广告平台当中,广告聚合平台承担着与上游广告平台和下游的流量主进行接洽、保证广告投放业务顺利运转的工作。在上游广告平台严厉打击流量作弊行为的背景下,广告聚合平台作为上游广告平台和流量主的之间的媒介,需要通过异常流量检测主动排查流量作弊行为。
3.目前,为了对异常流量进行检测,广告聚合平台通常依据广告聚合平台运营人员的历史经验,为多个广告统计参数,如:人均广告展示次数、广告点击率(click through rate,ctr)等人为设置阈值,若应用的广告统计参数超过阈值,即认定为出现异常流量。此种异常流量检测模型的训练方法很大程度上依赖运营人员的经验,成本较高,且准确率有限。


技术实现要素:

4.本技术提供了异常流量检测模型的训练方法、系统及相关装置。实施本技术实施例,广告聚合平台可以依据训练得到的异常流量检测模型进行异常流量检测,不再依赖运营人员的经验,降低了异常流量检测过程中的人力成本,提高了广告聚合平台进行异常流量检测的准确率。
5.第一方面,本技术实施例提供一种异常流量检测模型的训练方法。在该方法中,广告聚合平台接收电子设备发送的行为日志,行为日志包括与应用中的广告行为相关的行为数据。广告聚合平台统计应用在各个时间段的行为数据,得到第一统计数据。广告聚合平台接收上游广告平台发送的第二统计数据,第二统计数据包括上游广告平台删除电子设备发送的行为日志中的可疑行为数据后,统计应用在各个时间段的行为数据得到的数据。广告聚合平台依据第一统计数据和第二统计数据,得到训练数据,训练数据包括第一统计数据,和,第一差值,第一差值包括相同时间段对应的第一统计数据和第二统计数据的差值。广告聚合平台以训练数据作为输入,以应用未出现异常流量的结果为输出,训练得到异常流量检测模型。
6.通过上述方法,广告聚合平台可以得到异常流量检测模型。广告聚合平台后续可以依据该异常流量检测模型进行异常流量检测,不再依赖运营人员的经验,降低了异常流量检测过程中的人力成本,提高了广告聚合平台进行异常流量检测的准确率。
7.结合第一方面,在一些实施方式中,广告聚合平台以训练数据作为输入,以应用未出现异常流量的结果为输出,训练得到异常流量检测模型之后,广告聚合平台可以统计第一应用在第一时间段内的行为数据,得到第三统计数据。广告聚合平台接收上游广告平台发送的第四统计数据,第四统计数据是上游广告平台删除第一应用在第一时间段内的可疑
行为数据后统计得到的。广告聚合平台依据第三统计数据和第四统计数据,得到输入数据,输入数据包括第三统计数据,和,第三统计数据和第四统计数据的差值。广告聚合平台将输入数据输入异常流量检测模型。广告聚合平台响应于异常流量检测模型的输出结果,确定第一应用是否存在异常流量。其中,第一应用在第一时间段内的行为数据可以反映第一应用的实时广告投放活动的状态。
8.通过上述方法,广告聚合平台可以依据训练得到的异常流量检测模型进行异常流量检测。广告聚合平台可以响应于异常流量检测模型的输出结果,实时确定应用是否存在异常流量。
9.结合第一方面,在一些实施方式中,广告聚合平台以训练数据作为输入,以应用未出现异常流量的结果为输出,训练得到异常流量检测模型,具体可以实现为:广告聚合平台按不同的时间段将训练数据分为多个训练单元。广告聚合平台分别以训练单元作为输入,以应用未出现异常流量的结果为输出,训练得到多个异常流量检测模型。
10.由于应用的广告活动在不同时间段存在差异,可以理解的,通过上述方法,广告聚合平台可以更加准确地进行异常流量检测。
11.结合第一方面,在一些实施方式中,第一统计数据、第二统计数据均包括以下一项或多项:广告请求数、广告填充数、广告展示数、广告点击数、日常活跃数dau、广告点击率ctr、独立互联网协议ip数、人均广告播放次数。
12.结合第一方面,在一些实施方式中,广告聚合平台以训练数据作为输入,以应用未出现异常流量的结果为输出,训练得到异常流量检测模型,具体可以实现为:广告聚合平台按不同的时间段将训练数据分为多个训练单元。广告聚合平台分别以训练单元作为输入,以应用未出现异常流量的结果为输出,训练得到多个异常流量检测模型。
13.结合第一方面,在一些实施方式中,广告行为包括电子设备发送广告请求、电子设备接收广告、用户浏览或点击应用中的广告。行为数据包括应用标识、行为标识、电子设备标识,和时间信息。
14.结合第一方面,在一些实施方式中,第二统计数据还包括:上游广告平台统计得到的应用在各个时间段的广告投放收益。训练数据还包括应用在各个时间段的广告投放收益。
15.结合第一方面,在一些实施方式中,广告聚合平台响应于异常流量检测模型的输出结果,确定第一应用是否存在异常流量之后,若第一应用存在异常流量,广告聚合平台向第一应用对应的服务器发送第一告知消息,第一告知消息用于告知第一应用存在异常流量,和/或,若第一应用不存在异常流量,广告聚合平台向第一应用对应的服务器发送第一告知消息,第一告知消息用于告知第一应用不存在异常流量。
16.通过上述方法,广告聚合平台可以在进行异常流量检测之后向应用对应的服务器发送告知消息,以提醒运营人员对该应用的广告投放予以关注。
17.第二方面,本技术实施例提供一种电子设备,该电子设备包括存储器、处理器,存储器用于存储计算机程序,处理器用于调用计算机程序,使得电子设备执行如第一方面中任一可能的实现方式。
18.第三方面,本技术实施例提供一种包含指令的计算机程序产品,该计算机程序产品在电子设备上运行时,使得电子设备执行如第一方面中任一可能的实现方式。
19.第四方面,本技术实施例提供一种计算机可读存储介质,包括指令,当指令在电子设备上运行,使得电子设备执行如第一方面中任一可能的实现方式。
附图说明
20.为了说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
21.图1是本技术实施例提供的通信系统10的结构示意图;
22.图2是本技术实施例提供的广告聚合平台100的结构示意图;
23.图3是本技术实施例提供的异常流量检测模型的训练方法流程图。
具体实施方式
24.下面将结合附图对本技术实施例中的技术方案进行清楚、详尽地描述。其中,在本技术实施例的描述中,除非另有说明,“/”表示或的意思,例如,a/b可以表示a或b;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况,另外,在本技术实施例的描述中,“多个”是指两个或多于两个。
25.以下,术语“第一”、“第二”仅用于描述目的,而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本技术实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
26.下面对上述异常流量检测模型的训练方法、系统及相关装置的实现进行具体介绍。
27.首先介绍本技术实施例提供的通信系统10的结构示意图。
28.参考图1,图1示出了本技术实施例提供的通信系统10。如图1所示,广告投放业务的正常运转需要广告主对应的电子设备、用户侧的电子设备、上游广告平台,以及广告聚合平台四者的通力合作。其中:
29.广告主是具有广告投放需求的企业或个人,广告主对应的电子设备可用于广告主与上游广告平台进行通信。通信系统10可以包括一个或多个广告主对应的电子设备。
30.用户侧的电子设备可以为手机、平板电脑、笔记本电脑、可穿戴设备等电子设备。用户侧的电子设备可以运行流量主旗下包含广告位的应用。应用包括应用程序、小程序、网页等等。通信系统10可以包括一个或多个用户侧的电子设备。
31.广告平台是可以与广告主和流量主进行接洽的中介机构,广告平台的一种实现方式为服务器。广告平台包括上游广告平台和广告聚合平台,其中:上游广告平台可以分别与广告主和广告聚合平台进行接洽,广告聚合平台可以分别与上游广告平台和流量主进行接洽。通信系统10可以包括一个或多个上游广告平台。
32.示例性的,广告投放的过程如下:具有广告投放需求的广告主通过广告主对应的电子设备向上游广告平台发送广告投放请求,广告投放请求包括广告主希望展示的广告。上游广告平台接收并存储多个广告主的广告投放请求。上游广告平台生成上游广告平台软件开发工具包(software development kit,sdk),与上游广告平台达成合作的流量主可以
获取上游广告平台sdk,并将上游广告平台sdk内置于流量主旗下的应用当中。在运行流量主旗下的应用时,用户侧的电子设备可以通过该上游广告平台sdk向上游广告平台请求广告,并将上游广告平台返回的广告展示于流量主旗下的应用的广告位当中。
33.由于上游广告平台数量众多,流量主难以从中选择合适的上游广告平台,因此,为了实现利益最大化,目前而言,流量主大多通过用户侧的电子设备向广告聚合平台发送广告展示请求,广告展示请求用于请求广告聚合平台为流量主挑选合适的上游广告平台。广告聚合平台在众多上游广告平台当中搜集并确定一个或多个上游广告平台,并对确定的多个上游广告平台提供的上游广告平台sdk进行封装,得到广告聚合平台sdk。与广告聚合平台达成合作的流量主可以获取广告聚合平台sdk,并将广告聚合平台sdk内置于流量主旗下的应用当中。在运行流量主旗下的应用时,用户侧的电子设备可以通过该广告聚合平台sdk向广告聚合平台请求广告,并将广告聚合平台返回的广告展示于流量主旗下的应用的广告位当中,广告聚合平台返回的广告是确定的多个上游广告平台提供的广告,从而实现广告投放。
34.本技术实施例中,用户侧的电子设备可以分别通过广告聚合平台sdk及广告聚合平台sdk当中的上游广告平台sdk,向广告聚合平台与上游广告平台上报行为日志。
35.本技术实施例中,广告聚合平台可以获取用户侧的电子设备上报的行为日志并对上报的行为日志进行统计,得到第一统计数据集。广告聚合平台可以获取上游广告平台提供的第二统计数据集。广告聚合平台可以依据第一统计数据集和第二统计数据集得到模型训练数据集,模型训练数据集包括第一统计数据集当中的数据,和,相同时间段对应的第一统计数据集中数据和第二统计数据集中数据的差值,差值指示了第一统计数据集中数据的正常偏移范围。广告聚合平台可以依据模型训练数据集,训练得到异常流量检测模型。
36.本技术后续的方法实施例将对广告聚合平台执行上述步骤的过程进行具体介绍。
37.本技术实施例中,上游广告平台也可以获取用户侧的电子设备上报的行为日志,并对上报的行为日志进行处理,得到第二统计数据集。具体的,上游广告平台可以删除上报的行为日志中的可疑行为数据,并对删除可疑行为数据后的上报的行为日志进行统计,得到第二统计数据集。
38.在网络广告行业蓬勃发展的同时,广告展示所带来的丰厚收益也引诱了部分流量主实施流量作弊行为,导致广告投放的实际效果较差、广告投放报价虚高,给广告主造成了巨大的经济损失。在上游广告平台严厉打击流量作弊行为的背景下,广告聚合平台作为上游广告平台和流量主的之间的媒介,需要通过进行异常流量检测主动排查流量作弊行为。另外,由于缺乏广告投放经验的小微型流量主在接入广告时容易出现流量浪费问题,导致进而可能被上游广告平台误判为出现流量作弊行为,影响小微型流量主旗下应用的正常运营。因此,为了保障广告主和流量主的双边利益,广告聚合平台进行异常流量检测是十分必要的。除此之外,由于网络流量具有较大波动性及不可预测性,广告聚合平台进行异常流量检测,能够在应用的用户量剧增时提示运营人员对流量配置方案进行调整,以实现广告投放变现效果的最大化。
39.本技术提供异常流量检测模型的训练方法、系统及相关装置。在该方法中,
40.广告聚合平台可以获取用户侧的电子设备上报的行为日志并对上报的行为日志进行统计,得到第一统计数据集。广告聚合平台可以获取上游广告平台提供的第二统计数
据集,第二统计数据是上游广告平台删除上述电子设备上报的行为日志中的可疑行为数据后,对上报的行为日志进行统计得到的。广告聚合平台可以依据第一统计数据集和第二统计数据集,得到模型训练数据集,模型训练数据集包括第一统计数据集当中的数据,和,相同时间段对应的第一统计数据集中数据和第二统计数据集中数据的差值,差值指示了第一统计数据集中数据的正常偏移范围。广告聚合平台可以以模型训练数据集为输入,以应用未出现异常流量的结果为输出,训练得到异常流量检测模型。
41.在一些实施例中,第一应用是第一流量主旗下的应用。广告聚合平台可以获取用户侧的电子设备上报的行为日志,并对上报的行为日志进行统计,得到第三统计数据集。广告聚合平台可以获取上游广告平台发送的第四统计数据集,第四统计数据集是上游广告平台删除上述电子设备上报的行为日志中的可疑行为数据后,对上报的行为日志进行统计得到的。广告聚合平台可以依据第三统计数据集和第四统计数据集,得到将第一应用的实时统计数据集。之后,广告聚合平台可以将第一应用的实时统计数据集输入异常流量检测模型。响应于异常流量检测模型的输出结果,广告聚合平台可以确定第一应用是否存在异常流量。
42.实施该方法,广告聚合平台可以训练异常流量检测模型,并依据异常流量检测模型进行异常流量检测,不再依赖运营人员的经验,降低了异常流量检测过程中的人力成本,提高了广告聚合平台进行异常流量检测的准确率。
43.图2示出了本技术实施例提供的广告聚合平台100的结构示意图。
44.如图2所示,广告聚合平台100可以包括:网络设备处理器101、存储器102、通信接口103、发射器(tx)105、接收器(rx)106、耦合器107和天线108。这些部件可通过总线104或者其他方式连接,图2以通过总线连接为例。其中:
45.通信接口103可用于广告聚合平台100与其他通信设备,如上游广告平台、用户侧的电子设备等进行通信。具体的,通信接口103可以是3g通信接口、长期演进(lte)(4g)通信接口、5g通信接口、wlan通信接口、wan通信接口等等。不限于无线通信接口,广告聚合平台100还可以配置有线的通信接口103来支持有线通信。
46.本技术实施例中,广告聚合平台100可以通过接收器106接收用户侧的电子设备发送的广告展示请求。除此之外,接收器106还可用于广告聚合平台100接收用户侧的电子设备上传的行为日志。
47.在本技术的一些实施例中,发射器105和接收器106可看作一个无线调制解调器。发射器105可用于对处理器101输出的信号进行发射处理。接收器106可用于接收信号。在广告聚合平台100中,发射器105和接收器106的数量均可以是一个或者多个。天线108可用于将传输线中的电磁能转换成自由空间中的电磁波,或者将自由空间中的电磁波转换成传输线中的电磁能。耦合器107可用于将移动通信号分成多路,分配给多个的接收器106。可理解的,广告聚合平台100的天线108可以实现为大规模天线阵列。
48.存储器102与处理器101耦合,用于存储各种软件程序和/或多组指令。具体的,存储器102可包括高速随机存取的存储器,并且也可包括非易失性存储器,例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。
49.存储器102可以存储操作系统(下述简称系统),例如ucos、vxworks、rtlinux等嵌入式操作系统。存储器102还可以存储网络通信程序,该网络通信程序可用于与一个或多个
上游广告平台、一个或多个用户侧的电子设备进行通信。
50.在本技术实施例中,存储器102中可存储广告主希望展示的广告、用户侧的电子设备上报的行为日志、第一统计数据集、第二统计数据集,以及模型训练数据集等数据。
51.本技术实施例中,处理器101可用于读取和执行计算机可读指令。具体的,处理器101可用于调用存储于存储器102中的程序,例如本技术实施例提供的异常流量检测模型的训练方法在广告聚合平台100侧的实现程序,并执行该程序包含的指令。具体的,处理器101可以对用户侧的电子设备上报的行为日志进行处理,得到第一统计数据集。对于第一统计数据集与第二统计数据集当中应用标识和时间段标识相同的流量统计记录,处理器101可以计算各个数据项的差值,并将差值补充至第一统计数据集当中。处理器101可以依据补充后的第一统计数据集,得到模型训练数据集,并依据模型训练数据集训练得到异常流*量检测模型。
52.在一些实施例中,处理器101可以对用户侧的电子设备上报的行为日志进行处理,得到第一应用的实时流量统计记录,并将第一应用的实时流量统计记录输入异常流量检测模型。响应于模型输出的结果,处理器101可以确定第一应用是否存在异常流量。
53.需要说明的,图2所示的广告聚合平台100仅仅是本技术实施例的一种实现方式,实际应用中,广告聚合平台100还可以包括更多或更少的部件,这里不作限制。
54.图3示例性示出了本技术实施例提供的异常流量检测模型的训练方法流程图。
55.如图3所示,该方法可包括步骤s101~s107。步骤s101~s107的执行主体为广告聚合平台100,其中:
56.s101、获取用户侧的电子设备上报的行为日志。
57.用户侧的电子设备可以安装有流量主旗下应用。应用包括应用程序、小程序、网页等等。用户侧的电子设备运行流量主旗下的应用时,每检测到一次与广告投放相关的行为,用户侧的电子设备会生成一条行为记录,并将该行为记录存储于行为日志中。在一些实施例中,行为日志还可以被称为用户行为轨迹、流量日志等。行为日志中的任一条行为记录包括以下数据项:应用标识、行为标识、电子设备标识,以及时间信息。上述与广告投放相关的行为可以包括广告请求行为、广告填充行为、广告展示行为、广告点击行为,其中:广告请求行为是用户侧的电子设备通过广告聚合平台sdk向广告聚合平台100发送广告请求的行为。广告填充行为是用户侧的电子设备通过广告聚合平台sdk接收到广告聚合平台100返回的广告的行为。广告展示行为是用户侧的电子设备检测到用户浏览流量主旗下的应用展示的广告的行为。广告点击行为是用户侧的电子设备检测到用户点击流量主旗下的应用展示的广告的行为。上述时间信息可用于指示执行与广告投放相关的行为的时刻。
58.广告聚合平台100可以获取用户侧的电子设备通过广告聚合平台100的sdk上报的行为日志。在一些实施例中,用户侧的电子设备可以主动通过广告聚合平台100的sdk上报行为日志。在一些实施例中,广告聚合平台100可以以一定的时间间隔,通过广告聚合平台100的sdk向用户侧的电子设备发送请求,并接收到用户侧的电子设备返回的行为日志。本技术实施例对广告聚合平台100获取用户侧的电子设备上报的行为日志的方法不作限定。
59.广告聚合平台100可以与一个或多个流量主达成合作。对于任一个流量主旗下应用,广告聚合平台100可以获取一个或多个用户侧的电子设备上报的一篇或多篇行为日志。
60.s102、对上报的行为日志进行处理,得到第一统计数据集。
61.第一统计数据集包括多个应用的统计数据集,任一应用的统计数据集包括该应用的多条流量统计记录,流量统计记录反映了不同时间段内该应用的广告流量状态。一条流量统计记录包括应用标识、时间段标识,和,以下一项或多项统计数据项:广告请求数、广告填充数、广告展示数、广告点击数、日常活跃数(daily active user,dau)、广告点击率(click through rate,ctr)、独立互联网协议(internet protocol,ip)数、人均广告播放次数。
62.在一些实施例中,一条流量统计记录包括应用标识、时间段标识,以及dau、ctr、独立ip数、人均广告播放次数。
63.在一些实施例中,流量统计记录反映了一个小时时间段内应用的广告流量状态。
64.对于广告聚合平台100对上报的行为日志进行处理,得到第一统计数据集的过程,示例性的,以广告聚合平台生成第一应用的统计数据集中第一时间段对应的第一流量统计记录的过程为例:由于广告请求数、广告填充数、广告展示数、广告点击数分别对应广告请求行为、广告填充行为、广告展示行为、广告点击行为的数量,广告聚合平台可以在上报的行为日志中抽取应用标识为第一应用的标识,且,执行与广告投放相关的行为的时刻在第一时间段内的所有日志记录。广告聚合平台可以遍历上述所有日志记录,将行为标识为广告请求行为标识的日志记录数量确定为广告请求数,将行为标识为广告填充行为标识的日志记录数量确定为广告填充数,将行为标识为广告展示行为标识的日志记录数量确定为广告展示数,将行为标识为广告点击行为标识的日志记录数量确定为广告点击数。由于第一流量统计记录的dau为第一时间段内运行了第一应用的电子设备的数量,广告聚合平台可以基于抽取出来的每条日志记录中的电子设备标识,得到第一流量统计记录的dau。除此之外,第一流量统计记录的ctr的数值为第一流量统计记录的广告点击数与第一流量统计记录的广告展示数的比值。第一流量统计记录的独立ip数的数值为第一时间段内访问了第一应用的电子设备的独立ip地址数量。第一流量统计记录的人均广告播放次数的数值为第一流量统计记录的广告展示数与第一流量统计记录的dau的比值。
65.由于广告聚合平台100可以与众多流量主达成合作,用户侧的电子设备数量极为庞大,且任一个用户侧的电子设备可以上报多篇行为日志。因此,广告聚合平台100可以获取到的行为日志的数量级别是海量的。为了减小数据规模,在一些实施例中,在对上报的行为日志进行统计之前,广告聚合平台100可以首先对上报的行为日志进行数据过滤,将上报的行为日志中的明显无效数据和不合法数据进行删除。
66.在一些实施例中,广告聚合平台100得到第一统计数据集之后,广告聚合平台100可以将第一统计数据集保存至广告聚合平台100的数据仓库工具(hive)和巡检任务模块当中。
67.s103、获取上游广告平台提供的第二统计数据集。
68.上游广告平台作为一个独立的广告平台主体,也可以获取用户侧的电子设备上报的行为日志,并对上报的行为日志进行处理,得到第二统计数据集。广告聚合平台可以通过上游广告平台提供的sdk,获取第二统计数据集。
69.上游广告平台得到第二统计数据集的过程如下:由于上游广告平台直接与广告主进行接洽,为了保障广告主的利益,上游广告平台可以首先对上报的行为日志进行较为严格的可疑行为数据清理,删除上报的行为日志中的可疑行为数据。可疑行为数据是上游广
告平台怀疑由于异常流量而产生的数据。之后,上游广告平台可以对进行无效数据清理后的上报的行为日志进行统计,得到第二统计数据集。上游广告平台对上报的行为日志进行统计的过程可以参考上述广告聚合平台对上报的行为日志进行统计的过程。由于第二统计数据集是上游广告平台对进行可疑行为数据清理后的上报的行为日志进行统计得到的,因此,对于应用标识和时间段标识相同的流量统计记录,第一统计数据集和第二统计数据集中各个数据项的数据会存在一定的差异。
70.在一些实施例中,由于广告投放的实时收益由上游广告平台与广告主协商确定,流量主并不知晓,因此,第一统计数据集当中缺少与广告投放的实时收益有关的数据。在一些实施例中,上游广告平台在生成第二统计数据集时,会将与广告投放的实时收益有关的数据写入第二统计数据集。响应于流量主发送的广告展示请求,广告聚合平台100可以为流量主在众多上游广告平台当中搜集并确定一个或多个上游广告平台。广告聚合平台100可以获取上述一个或多个上游广告平台提供的第二统计数据集。
71.s104、依据第一统计数据集和第二统计数据集,得到模型训练数据集。
72.模型训练数据集包括多个应用的统计数据集,任一应用的统计数据集包括该应用的多条模型训练记录。
73.模型训练数据集中的模型训练记录与第一统计数据集中的流量统计记录存在一一对应的关系。任一条模型训练记录包括应用标识、时间段标识,以及以下一项或多项数据项:广告请求数、广告请求数差值、广告填充数、广告填充数差值、广告展示数、广告展示数差值、广告点击数、广告点击数差值、dau、dau差值、ctr、ctr差值、独立ip数、独立ip数差值、人均广告播放次数、以及人均广告播放次数差值。其中:
74.任一条模型训练记录中的应用标识、时间段标识、广告请求数、广告填充数、广告展示数、广告点击数、dau、ctr、独立ip数,和人均广告播放次数数据项当中的数据,与,该模型训练记录对应的第一统计数据集中的流量统计记录的数据相同。
75.任一条模型训练记录中的广告请求数差值、广告填充数差值、广告展示数差值、广告点击数差值、dau差值、ctr差值、独立ip数差值,以及人均广告播放次数差值数据项当中的数据,为第一统计数据集和第二统计数据集中应用标识、电子设备标识、时间段标识相同的流量统计记录针对各个数据项的差值数据。示例性的,对于广告请求数差值:广告聚合平台100可以计算第一统计数据集与第二统计数据集中应用标识和时间段标识相同的流量统计记录中广告请求数的差值。
76.在一些实施例中,任一条模型训练记录包括应用标识、时间段标识,以及dau、ctr、独立ip数、人均广告播放次数。
77.由于上游广告平台会对上报的行为日志进行可疑流量数据清理,因此上游广告平台生成的第二统计数据集当中的数据可能会和聚合广告平台生成的第一统计数据集当中的数据存在差异。由于可疑流量数据可能由用户不当操作,或由异常流量产生。示例性的,由用户不当操作产生的可疑行为数据可以是用户在第二时间段内针对相同电子设备上相同应用展示的广告进行重复点击而生成的多条行为记录,第二时间段可以是一个较短的时间段。对于任一应用,在正常流量的情形下,可疑流量数据一般由用户不当操作产生,且此时上述多个差值数据项的数值一般较小且较为稳定。在存在异常流量的情形下,可疑流量数据主要由异常流量产生,且此时上述多个差值数据项的数值可能会出现较大的波动。因
此,将上述多个差值数据项用于训练异常流量检测模型,有助于提高异常流量检测模型的检测准确度。
78.在一些实施例中,若第二统计数据集包括有与广告投放的实时收益有关的数据,在依据第一统计数据集和第二统计数据集,得到模型训练数据集的过程中,广告聚合平台100可以将第二统计数据集当中与广告投放的实际收益有关的数据补充至模型训练数据集。具体的,广告聚合平台100可以在所有模型训练记录中新增数据项,该数据项用于记录与广告投放的实时收益有关的数据。与广告投放的实时收益有关的数据可以是流量统计记录对应的时间段内的广告收入。
79.在一些实施例中,广告聚合平台100可以不执行上述步骤s103、s104,而是直接获取第一统计数据集和第二统计数据集中应用标识、电子设备标识、时间段标识相同的流量统计记录针对各个数据项的差值,并依据第一统计数据集和上述差值数据,得到模型训练数据集。
80.s105、依据模型训练数据集,训练得到异常流量检测模型。
81.广告聚合平台100可以依据模型训练数据集,训练得到异常流量检测模型。
82.在一些实施例中,由于广告投放的效果受到多重因素的影响,第一统计数据集和第二统计数据集当中的数据呈现出短时间内波动幅度较大的特点。因此,为了兼顾模型质量和投入成本,在依据模型训练数据集,训练得到异常流量检测模型之前,广告聚合平台100可以对模型训练数据集进行数据抽取。具体的:广告聚合平台100可以抽取模型训练数据集当中的时间段t1内的所有数据。在一些实施例中,时间段t1可以是30天前到当前时间的一个时间段。
83.在一些实施例中,在依据模型训练数据集,训练得到异常流量检测模型之前,广告聚合平台100可以对模型训练数据集当中的无效数据进行筛选。示例性的,广告聚合平台100可以删除近30日内日常活跃数(dau)不足200、广告展示数不足500次的应用对应的所有数据。在一些实施例中,广告聚合平台100可以删除近30日内广告请求数为非零值,且,广告展示数为零的应用对应的所有数据,以及近30日内广告展示数为非零值,且,广告点击数为零的应用对应的所有数据。
84.在一些实施例中,在依据模型训练数据集,训练得到异常流量检测模型之前,广告聚合平台100可以进行数据抽样。具体的,广告聚合平台100可以依据应用标识对应的应用的用户量级,对应用进行分类。广告聚合平台100可以在各个应用类中随机选择数个应用,并抽取选中的应用对应的模型训练记录进行汇总,得到模型训练数据集。在各个应用类中随机选择的应用的数量,由该应用类包含的应用数量在所有应用数量当中的占比决定。
85.对于广告聚合平台100依据模型训练数据集,训练得到异常流量检测模型的过程,具体的:广告聚合平台100可以将模型训练数据集作为输入,将应用不存在异常流量为输出来训练异常流量检测模型。
86.在一些实施例中,广告聚合平台100可以依据时间将模型训练数据集当中的数据分为多个单元,并针对每个单元分别训练模型,以降低一天内不同时段的数据分布不均给异常流量检测模型带来的影响。示例性的,广告聚合平台100可以将用于模型训练的样本按照一天内的不同时段平均分为12个单元,每个单元为2小时。广告聚合平台100可以针对每个单元分别训练模型。
87.在一些实施例中,异常流量检测模型是基于一类支持向量机(one class svm)算法设计的模型。
88.在一些实施例中,异常流量检测模型的内核采用python语言的scikit-lean库构建。
89.由于广告投放具有较强的时效性,在一些实施例中,广告聚合平台100可以定期进行一次异常流量检测模型的更新。具体的:广告聚合平台100每个月按照上述步骤s101~步骤s104训练得到异常流量检测模型,以适应广告投放过程中可能出现的变化。
90.s106、获取第一应用的实时统计数据集。
91.广告聚合平台100可以获取用户侧的电子设备上报的行为日志,并依据上报的行为日志得到第三统计数据集,第三统计数据集包括一条或多条应用标识为第一应用标识,且,时间段标识指示的时间段位于时间段t2内的一条或多条流量统计记录。时间段t2可以是一个预设的时间段,在一些实施例中,时间段t2可以是24小时前到当前时间的一个时间段。
92.广告聚合平台100可以获取上游广告平台提供的第四统计数据集,第四统计数据集是上游广告平台删除上述电子设备上报的行为日志中的可疑行为数据后,对上报的行为日志进行统计得到的。第四统计数据集包括应用标识为第一应用标识,且,时间段标识指示的时刻位于时间段t2内的一条或多条流量统计记录。
93.之后,广告聚合平台100可以依据第三统计数据集和第四统计数据集,得到第一应用的实时统计数据集。第一应用的实时统计数据集包括一条或多条第一应用的实时统计记录,任一条第一应用的实时统计记录包括应用标识、时间段标识,以及以下一项或多项数据项:广告请求数、广告请求数差值、广告填充数、广告填充数差值、广告展示数、广告展示数差值、广告点击数、广告点击数差值、dau、dau差值、ctr、ctr差值、独立ip数、独立ip数差值、人均广告播放次数、以及人均广告播放次数差值。广告聚合平台100得到第一应用的实时统计记录的过程可以参考前述步骤s104中的描述,此处不做赘述。
94.s107、将第一应用的实时统计数据集输入异常流量检测模型,响应于异常流量检测模型的输出结果,确定第一应用是否存在异常流量。
95.广告聚合平台100可以将第一应用的实时统计数据集输入先前训练好的异常流量检测模型。响应于异常流量检测模型的输出,广告聚合平台100可以确定第一应用是否存在异常流量。
96.由于上游广告平台可以进行异常流量检测,确定应用是否存在异常流量。并且上游广告平台会对确定存在异常流量的应用进行严格处罚,封禁该应用,甚至影响该应用对应的流量主旗下其他应用的广告投放,给流量主带来较大的损失。因此,在一些实施例中,若确定第一应用存在异常流量,广告聚合平台100可以向第一应用对应的服务器发送预警消息,预警消息可用于提示第一应用的运营人员出现异常流量。响应于该预警消息,第一应用的运营人员可以作出相应的措施,尽可能地减少流量主的损失。
97.步骤s101~步骤s107提供了一种异常流量检测模型的训练方法。在该方法中,广告聚合平台可以获取用户侧的电子设备上报的行为日志并对上报的行为日志进行统计,得到第一统计数据集。广告聚合平台可以获取上游广告平台提供的第二统计数据集,第二统计数据是上游广告平台删除上述电子设备上报的行为日志中的可疑行为数据后,对上报的
行为日志进行统计得到的。广告聚合平台可以依据第一统计数据集和第二统计数据集,得到模型训练数据集,模型训练数据集包括第一统计数据集当中的数据,和,相同时间段对应的第一统计数据集中数据和第二统计数据集中数据的差值,差值指示了第一统计数据集中数据的正常偏移范围。广告聚合平台可以以模型训练数据集为输入,以应用未出现异常流量的结果为输出,训练得到异常流量检测模型。
98.在一些实施例中,第一应用是第一流量主旗下的应用。广告聚合平台可以获取用户侧的电子设备上报的行为日志,并对上报的行为日志进行处理,得到第一应用的实时统计数据集。广告聚合平台可以将第一应用的实时统计数据集输入异常流量检测模型,响应于异常流量检测模型的输出结果,广告聚合平台可以确定第一应用是否存在异常流量。
99.实施该方法,广告聚合平台可以依据异常流量检测模型进行异常流量检测,不再依赖运营人员的经验,降低了异常流量检测过程中的人力成本,提高了广告聚合平台进行异常流量检测的准确率。
100.本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在电子设备上运行时,使得电子设备执行上述实施例中广告聚合平台100执行的相关步骤,以实现上述实施例中的异常流量检测模型的训练方法。
101.本技术实施例还提供一种计算机程序产品,当该计算机程序产品在电子设备上运行时,使得电子设备执行上述实施例中广告聚合平台100执行的相关步骤,以实现上述实施例中的异常流量检测模型的训练方法。
102.其中,本技术实施例提供的计算机可读存储介质、计算机程序产品、装置,均用于执行上文所提供的异常流量检测模型的训练方法。因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
103.以上所述,以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1