广告数据的统计方法、装置和计算机可读存储介质与流程

文档序号:18063815发布日期:2019-07-03 03:15阅读:267来源:国知局
广告数据的统计方法、装置和计算机可读存储介质与流程

本发明涉及互联网广告领域,具体涉及广告数据的统计方法、装置和计算机可读存储介质。



背景技术:

广告主,即投放互联网广告的商家通常希望能够直观地看到广告带来的收益以及自己为广告花费了多少,这就需要为他们提供广告的展现、点击、消费等相关数据。而广告数据的维度很多,因此,如何对广告数据进行合理的统计是需要解决的问题。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的广告数据的统计方法、装置和计算机可读存储介质。

依据本发明的一个方面,提供了一种广告数据的统计方法,包括:

确定待统计的广告数据,所述广告数据包括一个或多个维度;

对于每个维度,从计费数据库中读取该维度下待统计的广告数据到中间文件中;

对所述中间文件按统计表数据库的数量拆分为多个子文件;

对拆分后的各子文件中的数据进行排序处理,将各子文件数据的排序结果输出至各自对应的排序文件;

从物料数据库中读取广告物料数据,根据所述广告物料数据对各排序文件中的数据进行聚合处理;

将聚合处理后的各排序文件中的数据分别插入相应的各统计表数据库中的对应维度下的统计表中。

可选地,该方法还包括:在所述计费数据库中为各维度下已统计的广告数据添加统计完成标记。

可选地,所述确定待统计的广告数据包括:

按预设间隔判断所述计费数据库中是否存在未添加统计完成标记的广告数据;

若存在,判断未添加统计完成标记的广告数据是否存在对应的计费标记;

若存在计费标记,则确定相应未添加统计完成标记的广告数据为待统计的广告数据。

可选地,所述计费数据库中包括与各维度对应的展现表和点击消费表;

所述从计费数据库中读取该维度下待统计的广告数据到中间文件中包括:从与该维度对应的展现表中读取待统计的展现数据到中间文件中,以及从与该维度对应的点击消费表中读取待统计的点击消费数据到中间文件中。

可选地,所述展现数据为广告展现数量,点击消费数据为广告点击数量和广告消费金额,所述将聚合处理后的各排序文件中的数据分别插入相应的各统计表数据库中的对应维度下的统计表中包括:

对于聚合处理后的各排序文件中的数据,先将其中的展现数据插入所述统计表中,再将其中的点击消费数据插入所述统计表中;若其中的广告展现数量等于0,且广告点击数量大于0,则在将所述点击消费数据插入所述统计表中时,对所述统计表中对应的广告展现数量进行补齐处理。

可选地,所述维度包括多个层级,该方法还包括:将低层级维度下的统计表中的广告点击数量累加到高层级维度下的统计表中的广告点击数量中。

可选地,所述计费数据库有n个,n为正整数,所述从计费数据库中读取该维度下待统计的广告数据到中间文件中包括:

在内存中设置第一通道,在所述第一通道内设置第一协程和第二协程;

由所述第一协程创建一组包含n个协程的第一协程组,由所述第二协程创建一组包含n个协程的第二协程组;

由所述第一协程组中的各协程分别从各计费数据库中与该维度对应的展现表中读取待统计的展现数据到中间文件中,以及由所述第二协程组中的各协程分别从各计费数据库中与该维度对应的点击消费表中读取待统计的点击消费数据到中间文件中。

可选地,所述统计表数据库有m个,m为正整数,所述对所述中间文件按统计表数据库的数量拆分为多个子文件包括:

由所述第一协程和第二协程创建一组包含m个协程的第三协程组,由所述第三协程组中的各协程将所述中间文件中的展现数据和点击消费数据分别按m取模后写入m个子文件中。

可选地,所述对拆分后的各子文件中的数据进行排序处理包括:

由所述第一协程创建一组包含m个协程的第五协程组,由所述第二协程创建一组包含m个协程的第六协程组;由所述第五协程组中的各协程分别对所述m个子文件中的展现数据进行排序,以及由所述第六协程组中的各协程分别对所述m个子文件中的点击消费数据进行排序。

可选地,所述统计表数据库有m个,m为正整数,所述从物料数据库中读取广告物料数据,根据所述广告物料数据对各排序文件中的数据进行聚合处理包括:

在内存中设置第二通道,在所述第二通道内设置包含l*m个协程的第七协程组,l为正整数;

在内存中设置第三通道,在所述第三通道内设置包含2l*m个协程的第八协程组;

由所述第七协程组将排序文件中的数据按预设数量分批打包输出至第三通道;

由所述第八协程组从物料数据库中读取广告物料数据,根据所述广告物料数据对所述第七协程组发送的各批数据进行聚合处理。

可选地,所述广告物料数据包括如下的一种或多种:

广告标题,广告描述信息,广告主的用户名,广告主公司名称。

可选地,从物料数据库中读取广告物料数据包括:

判断缓存中是否存在待读取的广告物料数据,若有则直接从所述缓存中读取相应的广告物料数据,若没有,在从所述物料数据库读取相应的广告物料数据后,将读取的广告物料数据写入所述缓存中。

可选地,该方法还包括:

提供前端页面,响应于前端页面发送的统计报表查询请求,从所述统计表数据库的相应的统计表中查询出相应的数据,生成统计报表并返回给所述前端页面进行展示。

依据本发明的另一方面,提供了一种广告数据的统计装置,包括:

确定单元,适于确定待统计的广告数据,所述广告数据包括一个或多个维度;

读取单元,适于对于每个维度,从计费数据库中读取该维度下待统计的广告数据到中间文件中;

拆分单元,适于对所述中间文件按统计表数据库的数量拆分为多个子文件;

排序单元,适于对拆分后的各子文件中的数据进行排序处理,将各子文件数据的排序结果输出至各自对应的排序文件;

聚合单元,适于从物料数据库中读取广告物料数据,根据所述广告物料数据对各排序文件中的数据进行聚合处理;

统计单元,适于将聚合处理后的各排序文件中的数据分别插入相应的各统计表数据库中的对应维度下的统计表中。

可选地,该装置还包括:

标记单元,适于在所述计费数据库中为各维度下已统计的广告数据添加统计完成标记。

可选地,所述确定单元,适于按预设间隔判断所述计费数据库中是否存在未添加统计完成标记的广告数据,若存在,判断未添加统计完成标记的广告数据是否存在对应的计费标记,若存在计费标记,则确定相应未添加统计完成标记的广告数据为待统计的广告数据。

可选地,所述计费数据库中包括与各维度对应的展现表和点击消费表;

所述读取单元,适于从与该维度对应的展现表中读取待统计的展现数据到中间文件中,以及从与该维度对应的点击消费表中读取待统计的点击消费数据到中间文件中。

可选地,所述展现数据为广告展现数量,点击消费数据为广告点击数量和广告消费金额;

所述统计单元,适于对于聚合处理后的各排序文件中的数据,先将其中的展现数据插入所述统计表中,再将其中的点击消费数据插入所述统计表中;若其中的广告展现数量等于0,且广告点击数量大于0,则在将所述点击消费数据插入所述统计表中时,对所述统计表中对应的广告展现数量进行补齐处理。

可选地,所述维度包括多个层级;

所述统计单元,还适于将低层级维度下的统计表中的广告点击数量累加到高层级维度下的统计表中的广告点击数量中。

可选地,所述计费数据库有n个,n为正整数;

所述读取单元,适于在内存中设置第一通道,在所述第一通道内设置第一协程和第二协程,由所述第一协程创建一组包含n个协程的第一协程组,由所述第二协程创建一组包含n个协程的第二协程组,由所述第一协程组中的各协程分别从各计费数据库中与该维度对应的展现表中读取待统计的展现数据到中间文件中,以及由所述第二协程组中的各协程分别从各计费数据库中与该维度对应的点击消费表中读取待统计的点击消费数据到中间文件中。

可选地,所述统计表数据库有m个,m为正整数;

所述拆分单元,适于由所述第一协程和第二协程创建一组包含m个协程的第三协程组,由所述第三协程组中的各协程将所述中间文件中的展现数据和点击消费数据分别按m取模后写入m个子文件中。

可选地,所述排序单元,适于由所述第一协程创建一组包含m个协程的第五协程组,由所述第二协程创建一组包含m个协程的第六协程组;由所述第五协程组中的各协程分别对所述m个子文件中的展现数据进行排序,以及由所述第六协程组中的各协程分别对所述m个子文件中的点击消费数据进行排序。

可选地,所述统计表数据库有m个,m为正整数;

所述聚合单元,适于在内存中设置第二通道,在所述第二通道内设置包含l*m个协程的第七协程组,l为正整数;在内存中设置第三通道,在所述第三通道内设置包含2l*m个协程的第八协程组;由所述第七协程组将排序文件中的数据按预设数量分批打包输出至第三通道;由所述第八协程组从物料数据库中读取广告物料数据,根据所述广告物料数据对所述第七协程组发送的各批数据进行聚合处理。

可选地,所述广告物料数据包括如下的一种或多种:

广告标题,广告描述信息,广告主的用户名,广告主公司名称。

可选地,所述聚合单元,适于判断缓存中是否存在待读取的广告物料数据,若有则直接从所述缓存中读取相应的广告物料数据,若没有,在从所述物料数据库读取相应的广告物料数据后,将读取的广告物料数据写入所述缓存中。

可选地,该装置还包括:

展示单元,适于提供前端页面,响应于前端页面发送的统计报表查询请求,从所述统计表数据库的相应的统计表中查询出相应的数据,生成统计报表并返回给所述前端页面进行展示。

依据本发明的又一方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一项所述的方法。

由上述可知,本发明的技术方案,通过确定待统计的包含一个或多个维度的广告数据,对每个维度,从计费数据库中读取该维度下待统计的广告数据到中间文件中,进行拆分、排序处理得到多个排序文件,之后读取广告物料数据与排序文件中的数据进行聚合,最后将聚合处理后的各排序文件中的数据分别插入相应的各统计表数据库中的对应维度下的统计表中。该技术方案能够获取计费数据库中的已计费广告数据,并行处理,并利用物料数据库中的广告物料数据使得数据更完善,最终生成的统计表丰富饱满,能够为广告主、数据分析人员提供完备的数据参考。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明一个实施例的一种广告数据的统计方法的流程示意图;

图2示出了根据本发明一个实施例的一种广告数据的统计装置的结构示意图;

图3示出了根据本发明一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的一种广告数据的统计方法的流程示意图。如图1所示,该方法包括:

步骤s110,确定待统计的广告数据,广告数据包括一个或多个维度。

例如,维度可以包括用户维度、用户渠道维度、推广计划维度、推广组维度、创意维度、关键词维度、省份维度、城市维度等等,可以看出,维度也可以包括多层级,例如省份维度就是城市维度的高层级。

步骤s120,对于每个维度,从计费数据库中读取该维度下待统计的广告数据到中间文件中。

这里,读取的待统计的广告数据可以是已经完成计费的数据,这样的数据是与计费相关,也就是关系到需要向广告主收多少钱,因此广告主比较关心。而未完成计费的数据虽然也会在计费数据库中保存,但是通常都是因为尚未完成计费步骤,相当于未完成对广告主的全部服务,因此可以不做统计。

步骤s130,对中间文件按统计表数据库的数量拆分为多个子文件。

由于广告数据量很大,用于保存统计结果的统计表数据库的数量也很多,为了实现并行处理,在本步骤中将中间文件按统计表数据库的数量拆分为多个子文件,例如有8个统计表数据库,那么就拆分出8个子文件。

步骤s140,对拆分后的各子文件中的数据进行排序处理,将各子文件数据的排序结果输出至各自对应的排序文件。这里的排序是为了使之后聚合后的数据插入统计表时效率更高。

步骤s150,从物料数据库中读取广告物料数据,根据广告物料数据对各排序文件中的数据进行聚合处理。

关于广告主的相关信息、商品的相关信息由于一般与数据分析无关(通常都是以id代替),通常是保存在物料数据库中,此时为了使统计表可视化后展现的内容更丰富,因此进行聚合处理,扩展了统计表中的内容。

步骤s160,将聚合处理后的各排序文件中的数据分别插入相应的各统计表数据库中的对应维度下的统计表中。

可见,图1所示的方法,通过确定待统计的包含一个或多个维度的广告数据,对每个维度,从计费数据库中读取该维度下待统计的广告数据到中间文件中,进行拆分、排序处理得到多个排序文件,之后读取广告物料数据与排序文件中的数据进行聚合,最后将聚合处理后的各排序文件中的数据分别插入相应的各统计表数据库中的对应维度下的统计表中。该技术方案能够获取计费数据库中的已计费广告数据,并行处理,并利用物料数据库中的广告物料数据使得数据更完善,最终生成的统计表丰富饱满,能够为广告主、数据分析人员提供完备的数据参考。

在本发明的一个实施例中,上述方法还包括:在计费数据库中为各维度下已统计的广告数据添加统计完成标记。

在本实施例中,对已统计的广告数据添加了标记后,下次就不会对这些广告数据进行重复统计了。

在本发明的一个实施例中,上述方法中,确定待统计的广告数据包括:按预设间隔判断计费数据库中是否存在未添加统计完成标记的广告数据;若存在,判断未添加统计完成标记的广告数据是否存在对应的计费标记;若存在计费标记,则确定相应未添加统计完成标记的广告数据为待统计的广告数据。

在本实施例中示出了根据统计完成标记和计费标记确定待统计的广告数据的具体过程,例如,凌晨2点进行广告数据的统计工作,也就是每天的这个时间,去计费数据库中获取未添加统计完成标记的广告数据,如果这些数据已经被计费,也就是添加了计费标记,则需要进行统计,如果未添加计费标记则说明计费操作还没有完成,则不对其进行统计。

在本发明的一个实施例中,上述方法中,计费数据库中包括与各维度对应的展现表和点击消费表;从计费数据库中读取该维度下待统计的广告数据到中间文件中包括:从与该维度对应的展现表中读取待统计的展现数据到中间文件中,以及从与该维度对应的点击消费表中读取待统计的点击消费数据到中间文件中。

在互联网广告领域展现、点击是计费的重要参考,例如搜索广告通常按点击数量计费,展现广告按展现数量和点击数量计费,等等。这里的展现表和点击消费表是事实表,也就是记录了展现行为和点击行为以及消费的事实数据,也就是广告主通常最关心的一些数据。

具体地,在本发明的一个实施例中,上述方法中,展现数据为广告展现数量,点击消费数据为广告点击数量和广告消费金额,将聚合处理后的各排序文件中的数据分别插入相应的各统计表数据库中的对应维度下的统计表中包括:对于聚合处理后的各排序文件中的数据,先将其中的展现数据插入统计表中,再将其中的点击消费数据插入统计表中;若其中的广告展现数量等于0,且广告点击数量大于0,则在将点击消费数据插入统计表中时,对统计表中对应的广告展现数量进行补齐处理。

理论上来讲,一次展现并不一定对应于一次点击,但是一次点击必然对应于一次展现(这是显然的,必然需要一个可点击的对象)。但是在数据的收集过程中,可能会出现遗漏的情况,也就会造成广告点击数量大于0,但是广告展现数量等于0的情况,显然这是因为没有收集到相应的广告展现事实而造成的遗漏,因此在本实施例中对这种情况下的广告展现数量进行了补齐处理。

需要说明的是,广告展现数量可以小于广告点击数量,例如用户在一个页面停留时,点击了广告却不小心关闭了广告对应的页面,此时又点击了广告,这时广告展现数量为1,广告点击数量为2。

而本实施例中先将展现数据插入统计表中,再将其中的点击消费数据插入统计表中,正是出于可能需要对展现数据进行修改的考虑。这样补齐后的数据也能避免广告主在看到统计报表时产生不必要的疑惑。

在本发明的一个实施例中,上述方法中,维度包括多个层级,该方法还包括:将低层级维度下的统计表中的广告点击数量累加到高层级维度下的统计表中的广告点击数量中。

例如,省级维度和城市维度就是一个很明显的例子,省级维度的统计表需要将其省内各城市维度统计表中的广告点击数量进行累加,得到该省维度统计表中的广告总点击数量。

在本发明的一个实施例中,上述方法中,计费数据库有n个,n为正整数,从计费数据库中读取该维度下待统计的广告数据到中间文件中包括:在内存中设置第一通道,在第一通道内设置第一协程和第二协程;由第一协程创建一组包含n个协程的第一协程组,由第二协程创建一组包含n个协程的第二协程组;由第一协程组中的各协程分别从各计费数据库中与该维度对应的展现表中读取待统计的展现数据到中间文件中,以及由第二协程组中的各协程分别从各计费数据库中与该维度对应的点击消费表中读取待统计的点击消费数据到中间文件中。

在本实施例中给出了实践中底层实现的一个示例,在本例中采用轻量级的协程来实施各项操作,并预先在内存中建立好第一通道。第一协程和第二协程分别对应于展现表和点击消费表,这就是设置两个而非其他数量协程的意义。而计费数据库可能有多个,为了实现并行处理,第一协程和第二协程可以用于创建相应的第一协程组和第二协程组,分别包含n个协程,分别读取n个数据库中的广告数据到中间文件中。

类似地,在本发明的一个实施例中,上述方法中,统计表数据库有m个,m为正整数,对中间文件按统计表数据库的数量拆分为多个子文件包括:由第一协程和第二协程创建一组包含m个协程的第三协程组,由第三协程组中的各协程将中间文件中的展现数据和点击消费数据分别按m取模后写入m个子文件中。

在本实施例中依然考虑并行处理,例如统计表数据库有8个则进行userid(用户id,对应于一条广告数据)%8(按8取模)的路由策略,这样就将中间文件进行了合理化的拆分。

在本发明的一个实施例中,上述方法中,对拆分后的各子文件中的数据进行排序处理包括:由第一协程创建一组包含m个协程的第五协程组,由第二协程创建一组包含m个协程的第六协程组;由第五协程组中的各协程分别对m个子文件中的展现数据进行排序,以及由第六协程组中的各协程分别对m个子文件中的点击消费数据进行排序。

同样地,由用户展现数据和点击消费数据分为两组,因此需要创建两个协程组,分别包含m个协程。排序的过程可以采用现有技术中的算法,在此不再赘述。

在本发明的一个实施例中,上述方法中,统计表数据库有m个,m为正整数,从物料数据库中读取广告物料数据,根据广告物料数据对各排序文件中的数据进行聚合处理包括:在内存中设置第二通道,在第二通道内设置包含l*m个协程的第七协程组,l为正整数;在内存中设置第三通道,在第三通道内设置包含2l*m个协程的第八协程组;由第七协程组将排序文件中的数据按预设数量分批打包输出至第三通道;由第八协程组从物料数据库中读取广告物料数据,根据广告物料数据对第七协程组发送的各批数据进行聚合处理。

聚合过程是一个需要对统计表内容进行极大丰富的过程,因此在并行处理的基础上,可以由多个协程(l个)对应于一个统计表数据库。其中,每批数据可以是1000条。具体来说,在本发明的一个实施例中,上述方法中,广告物料数据包括如下的一种或多种:广告标题,广告描述信息,广告主的用户名,广告主公司名称。

在本发明的一个实施例中,上述方法中,从物料数据库中读取广告物料数据包括:判断缓存中是否存在待读取的广告物料数据,若有则直接从缓存中读取相应的广告物料数据,若没有,在从物料数据库读取相应的广告物料数据后,将读取的广告物料数据写入缓存中。

可以看出,由于广告数据量大,广告物料数据在聚合时需要反复使用,而频繁读取广告物料数据会带来资源的无谓消耗,因此在本实施例中,通过缓存机制缓存读取的广告物料数据以在后续反复利用,在统计完成后进行清空。

在本发明的一个实施例中,上述方法还包括:提供前端页面,响应于前端页面发送的统计报表查询请求,从统计表数据库的相应的统计表中查询出相应的数据,生成统计报表并返回给前端页面进行展示。

生成的统计表保存在统计表数据库中,但是用户例如广告主通常每次只关心一段时间内的统计情况,因此在本实施例中提供了前端页面,用户可以选择时间段,从而根据统计表生成相应的统计报表进行可视化展示。

图2示出了根据本发明一个实施例的一种广告数据的统计装置的结构示意图,如图2所示,广告数据的统计装置200包括:

确定单元210,适于确定待统计的广告数据,广告数据包括一个或多个维度。

例如,维度可以包括用户维度、用户渠道维度、推广计划维度、推广组维度、创意维度、关键词维度、省份维度、城市维度等等,可以看出,维度也可以包括多层级,例如省份维度就是城市维度的高层级。

读取单元220,适于对于每个维度,从计费数据库中读取该维度下待统计的广告数据到中间文件中。

这里,读取的待统计的广告数据可以是已经完成计费的数据,这样的数据是与计费相关,也就是关系到需要向广告主收多少钱,因此广告主比较关心。而未完成计费的数据虽然也会在计费数据库中保存,但是通常都是因为尚未完成计费步骤,相当于未完成对广告主的全部服务,因此可以不做统计。

拆分单元230,适于对中间文件按统计表数据库的数量拆分为多个子文件。

由于广告数据量很大,用于保存统计结果的统计表数据库的数量也很多,为了实现并行处理,在本步骤中将中间文件按统计表数据库的数量拆分为多个子文件,例如有8个统计表数据库,那么就拆分出8个子文件。

排序单元240,适于对拆分后的各子文件中的数据进行排序处理,将各子文件数据的排序结果输出至各自对应的排序文件。这里的排序是为了使之后聚合后的数据插入统计表时效率更高。

聚合单元250,适于从物料数据库中读取广告物料数据,根据广告物料数据对各排序文件中的数据进行聚合处理。

关于广告主的相关信息、商品的相关信息由于一般与数据分析无关(通常都是以id代替),通常是保存在物料数据库中,此时为了使统计表可视化后展现的内容更丰富,因此进行聚合处理,扩展了统计表中的内容。

统计单元260,适于将聚合处理后的各排序文件中的数据分别插入相应的各统计表数据库中的对应维度下的统计表中。

可见,图2所示的装置,通过各单元的相互配合,确定待统计的包含一个或多个维度的广告数据,对每个维度,从计费数据库中读取该维度下待统计的广告数据到中间文件中,进行拆分、排序处理得到多个排序文件,之后读取广告物料数据与排序文件中的数据进行聚合,最后将聚合处理后的各排序文件中的数据分别插入相应的各统计表数据库中的对应维度下的统计表中。该技术方案能够获取计费数据库中的已计费广告数据,并行处理,并利用物料数据库中的广告物料数据使得数据更完善,最终生成的统计表丰富饱满,能够为广告主、数据分析人员提供完备的数据参考。

在本发明的一个实施例中,上述装置还包括:标记单元(图未示),适于在计费数据库中为各维度下已统计的广告数据添加统计完成标记。

在本实施例中,对已统计的广告数据添加了标记后,下次就不会对这些广告数据进行重复统计了。

在本发明的一个实施例中,上述装置中,确定单元210,适于按预设间隔判断计费数据库中是否存在未添加统计完成标记的广告数据,若存在,判断未添加统计完成标记的广告数据是否存在对应的计费标记,若存在计费标记,则确定相应未添加统计完成标记的广告数据为待统计的广告数据。

在本实施例中示出了根据统计完成标记和计费标记确定待统计的广告数据的具体过程,例如,凌晨2点进行广告数据的统计工作,也就是每天的这个时间,去计费数据库中获取未添加统计完成标记的广告数据,如果这些数据已经被计费,也就是添加了计费标记,则需要进行统计,如果未添加计费标记则说明计费操作还没有完成,则不对其进行统计。

在本发明的一个实施例中,上述装置中,计费数据库中包括与各维度对应的展现表和点击消费表;读取单元220,适于从与该维度对应的展现表中读取待统计的展现数据到中间文件中,以及从与该维度对应的点击消费表中读取待统计的点击消费数据到中间文件中。

在互联网广告领域展现、点击是计费的重要参考,例如搜索广告通常按点击数量计费,展现广告按展现数量和点击数量计费,等等。这里的展现表和点击消费表是事实表,也就是记录了展现行为和点击行为以及消费的事实数据,也就是广告主通常最关心的一些数据。

具体地,在本发明的一个实施例中,上述装置中,展现数据为广告展现数量,点击消费数据为广告点击数量和广告消费金额;统计单元260,适于对于聚合处理后的各排序文件中的数据,先将其中的展现数据插入统计表中,再将其中的点击消费数据插入统计表中;若其中的广告展现数量等于0,且广告点击数量大于0,则在将点击消费数据插入统计表中时,对统计表中对应的广告展现数量进行补齐处理。

理论上来讲,一次展现并不一定对应于一次点击,但是一次点击必然对应于一次展现(这是显然的,必然需要一个可点击的对象)。但是在数据的收集过程中,可能会出现遗漏的情况,也就会造成广告点击数量大于0,但是广告展现数量等于0的情况,显然这是因为没有收集到相应的广告展现事实而造成的遗漏,因此在本实施例中对这种情况下的广告展现数量进行了补齐处理。

需要说明的是,广告展现数量可以小于广告点击数量,例如用户在一个页面停留时,点击了广告却不小心关闭了广告对应的页面,此时又点击了广告,这时广告展现数量为1,广告点击数量为2。

而本实施例中先将展现数据插入统计表中,再将其中的点击消费数据插入统计表中,正是出于可能需要对展现数据进行修改的考虑。这样补齐后的数据也能避免广告主在看到统计报表时产生不必要的疑惑。

在本发明的一个实施例中,上述装置中,维度包括多个层级;统计单元260,还适于将低层级维度下的统计表中的广告点击数量累加到高层级维度下的统计表中的广告点击数量中。

例如,省级维度和城市维度就是一个很明显的例子,省级维度的统计表需要将其省内各城市维度统计表中的广告点击数量进行累加,得到该省维度统计表中的广告总点击数量。

在本发明的一个实施例中,上述装置中,计费数据库有n个,n为正整数;读取单元220,适于在内存中设置第一通道,在第一通道内设置第一协程和第二协程,由第一协程创建一组包含n个协程的第一协程组,由第二协程创建一组包含n个协程的第二协程组,由第一协程组中的各协程分别从各计费数据库中与该维度对应的展现表中读取待统计的展现数据到中间文件中,以及由第二协程组中的各协程分别从各计费数据库中与该维度对应的点击消费表中读取待统计的点击消费数据到中间文件中。

在本实施例中给出了实践中底层实现的一个示例,在本例中采用轻量级的协程来实施各项操作,并预先在内存中建立好第一通道。第一协程和第二协程分别对应于展现表和点击消费表,这就是设置两个而非其他数量协程的意义。而计费数据库可能有多个,为了实现并行处理,第一协程和第二协程可以用于创建相应的第一协程组和第二协程组,分别包含n个协程,分别读取n个数据库中的广告数据到中间文件中。

类似地,在本发明的一个实施例中,上述装置中,统计表数据库有m个,m为正整数;拆分单元230,适于由第一协程和第二协程创建一组包含m个协程的第三协程组,由第三协程组中的各协程将中间文件中的展现数据和点击消费数据分别按m取模后写入m个子文件中。

在本实施例中依然考虑并行处理,例如统计表数据库有8个则进行userid(用户id,对应于一条广告数据)%8(按8取模)的路由策略,这样就将中间文件进行了合理化的拆分。

在本发明的一个实施例中,上述装置中,排序单元240,适于由第一协程创建一组包含m个协程的第五协程组,由第二协程创建一组包含m个协程的第六协程组;由第五协程组中的各协程分别对m个子文件中的展现数据进行排序,以及由第六协程组中的各协程分别对m个子文件中的点击消费数据进行排序。

同样地,由用户展现数据和点击消费数据分为两组,因此需要创建两个协程组,分别包含m个协程。排序的过程可以采用现有技术中的算法,在此不再赘述。

在本发明的一个实施例中,上述装置中,统计表数据库有m个,m为正整数;聚合单元250,适于在内存中设置第二通道,在第二通道内设置包含l*m个协程的第七协程组,l为正整数;在内存中设置第三通道,在第三通道内设置包含2l*m个协程的第八协程组;由第七协程组将排序文件中的数据按预设数量分批打包输出至第三通道;由第八协程组从物料数据库中读取广告物料数据,根据广告物料数据对第七协程组发送的各批数据进行聚合处理。

聚合过程是一个需要对统计表内容进行极大丰富的过程,因此在并行处理的基础上,可以由多个协程(l个)对应于一个统计表数据库。其中,每批数据可以是1000条。具体来说,在本发明的一个实施例中,上述装置中,广告物料数据包括如下的一种或多种:广告标题,广告描述信息,广告主的用户名,广告主公司名称。

在本发明的一个实施例中,上述装置中,聚合单元250,适于判断缓存中是否存在待读取的广告物料数据,若有则直接从缓存中读取相应的广告物料数据,若没有,在从物料数据库读取相应的广告物料数据后,将读取的广告物料数据写入缓存中。

可以看出,由于广告数据量大,广告物料数据在聚合时需要反复使用,而频繁读取广告物料数据会带来资源的无谓消耗,因此在本实施例中,通过缓存机制缓存读取的广告物料数据以在后续反复利用,在统计完成后进行清空。

在本发明的一个实施例中,上述装置还包括:展示单元(图未示),适于提供前端页面,响应于前端页面发送的统计报表查询请求,从统计表数据库的相应的统计表中查询出相应的数据,生成统计报表并返回给前端页面进行展示。

生成的统计表保存在统计表数据库中,但是用户例如广告主通常每次只关心一段时间内的统计情况,因此在本实施例中提供了前端页面,用户可以选择时间段,从而根据统计表生成相应的统计报表进行可视化展示。

综上所述,本发明的技术方案,确定待统计的包含一个或多个维度的广告数据,对每个维度,从计费数据库中读取该维度下待统计的广告数据到中间文件中,进行拆分、排序处理得到多个排序文件,之后读取广告物料数据与排序文件中的数据进行聚合,最后将聚合处理后的各排序文件中的数据分别插入相应的各统计表数据库中的对应维度下的统计表中。该技术方案能够获取计费数据库中的已计费广告数据,并行处理,并利用物料数据库中的广告物料数据使得数据更完善,最终生成的统计表丰富饱满,能够为广告主、数据分析人员提供完备的数据参考。

需要说明的是:

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的广告数据的统计装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

图3示出了根据本发明一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质300存储有用于执行根据本发明的方法步骤的计算机可读程序代码310,例如可以被电子设备的处理器读取的程序代码,当这些程序代码由电子设备运行时,导致该电子设备执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的程序代码可以执行上述任一实施例中示出的方法。程序代码可以以适当形式进行压缩。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明的实施例公开了a1、一种广告数据的统计方法,包括:

确定待统计的广告数据,所述广告数据包括一个或多个维度;

对于每个维度,从计费数据库中读取该维度下待统计的广告数据到中间文件中;

对所述中间文件按统计表数据库的数量拆分为多个子文件;

对拆分后的各子文件中的数据进行排序处理,将各子文件数据的排序结果输出至各自对应的排序文件;

从物料数据库中读取广告物料数据,根据所述广告物料数据对各排序文件中的数据进行聚合处理;

将聚合处理后的各排序文件中的数据分别插入相应的各统计表数据库中的对应维度下的统计表中。

a2、如a1所述的方法,其中,该方法还包括:在所述计费数据库中为各维度下已统计的广告数据添加统计完成标记。

a3、如a2所述的方法,其中,所述确定待统计的广告数据包括:

按预设间隔判断所述计费数据库中是否存在未添加统计完成标记的广告数据;

若存在,判断未添加统计完成标记的广告数据是否存在对应的计费标记;

若存在计费标记,则确定相应未添加统计完成标记的广告数据为待统计的广告数据。

a4、如a1所述的方法,其中,所述计费数据库中包括与各维度对应的展现表和点击消费表;

所述从计费数据库中读取该维度下待统计的广告数据到中间文件中包括:从与该维度对应的展现表中读取待统计的展现数据到中间文件中,以及从与该维度对应的点击消费表中读取待统计的点击消费数据到中间文件中。

a5、如a4所述的方法,其中,所述展现数据为广告展现数量,点击消费数据为广告点击数量和广告消费金额,所述将聚合处理后的各排序文件中的数据分别插入相应的各统计表数据库中的对应维度下的统计表中包括:

对于聚合处理后的各排序文件中的数据,先将其中的展现数据插入所述统计表中,再将其中的点击消费数据插入所述统计表中;若其中的广告展现数量等于0,且广告点击数量大于0,则在将所述点击消费数据插入所述统计表中时,对所述统计表中对应的广告展现数量进行补齐处理。

a6、如a5所述的方法,其中,所述维度包括多个层级,该方法还包括:将低层级维度下的统计表中的广告点击数量累加到高层级维度下的统计表中的广告点击数量中。

a7、如a4所述的方法,其中,所述计费数据库有n个,n为正整数,所述从计费数据库中读取该维度下待统计的广告数据到中间文件中包括:

在内存中设置第一通道,在所述第一通道内设置第一协程和第二协程;

由所述第一协程创建一组包含n个协程的第一协程组,由所述第二协程创建一组包含n个协程的第二协程组;

由所述第一协程组中的各协程分别从各计费数据库中与该维度对应的展现表中读取待统计的展现数据到中间文件中,以及由所述第二协程组中的各协程分别从各计费数据库中与该维度对应的点击消费表中读取待统计的点击消费数据到中间文件中。

a8、如a7所述的方法,其中,所述统计表数据库有m个,m为正整数,所述对所述中间文件按统计表数据库的数量拆分为多个子文件包括:

由所述第一协程和第二协程创建一组包含m个协程的第三协程组,由所述第三协程组中的各协程将所述中间文件中的展现数据和点击消费数据分别按m取模后写入m个子文件中。

a9、如a8所述的方法,其中,所述对拆分后的各子文件中的数据进行排序处理包括:

由所述第一协程创建一组包含m个协程的第五协程组,由所述第二协程创建一组包含m个协程的第六协程组;由所述第五协程组中的各协程分别对所述m个子文件中的展现数据进行排序,以及由所述第六协程组中的各协程分别对所述m个子文件中的点击消费数据进行排序。

a10、如a1所述的方法,其中,所述统计表数据库有m个,m为正整数,所述从物料数据库中读取广告物料数据,根据所述广告物料数据对各排序文件中的数据进行聚合处理包括:

在内存中设置第二通道,在所述第二通道内设置包含l*m个协程的第七协程组,l为正整数;

在内存中设置第三通道,在所述第三通道内设置包含2l*m个协程的第八协程组;

由所述第七协程组将排序文件中的数据按预设数量分批打包输出至第三通道;

由所述第八协程组从物料数据库中读取广告物料数据,根据所述广告物料数据对所述第七协程组发送的各批数据进行聚合处理。

a11、如a1所述的方法,其中,所述广告物料数据包括如下的一种或多种:

广告标题,广告描述信息,广告主的用户名,广告主公司名称。

a12、如a1所述的方法,其中,从物料数据库中读取广告物料数据包括:

判断缓存中是否存在待读取的广告物料数据,若有则直接从所述缓存中读取相应的广告物料数据,若没有,在从所述物料数据库读取相应的广告物料数据后,将读取的广告物料数据写入所述缓存中。

a13、如a1-a12中任一项所述的方法,其中,该方法还包括:

提供前端页面,响应于前端页面发送的统计报表查询请求,从所述统计表数据库的相应的统计表中查询出相应的数据,生成统计报表并返回给所述前端页面进行展示。

本发明的实施例还公开了b14、一种广告数据的统计装置,包括:

确定单元,适于确定待统计的广告数据,所述广告数据包括一个或多个维度;

读取单元,适于对于每个维度,从计费数据库中读取该维度下待统计的广告数据到中间文件中;

拆分单元,适于对所述中间文件按统计表数据库的数量拆分为多个子文件;

排序单元,适于对拆分后的各子文件中的数据进行排序处理,将各子文件数据的排序结果输出至各自对应的排序文件;

聚合单元,适于从物料数据库中读取广告物料数据,根据所述广告物料数据对各排序文件中的数据进行聚合处理;

统计单元,适于将聚合处理后的各排序文件中的数据分别插入相应的各统计表数据库中的对应维度下的统计表中。

b15、如b14所述的装置,其中,该装置还包括:

标记单元,适于在所述计费数据库中为各维度下已统计的广告数据添加统计完成标记。

b16、如b15所述的装置,其中,

所述确定单元,适于按预设间隔判断所述计费数据库中是否存在未添加统计完成标记的广告数据,若存在,判断未添加统计完成标记的广告数据是否存在对应的计费标记,若存在计费标记,则确定相应未添加统计完成标记的广告数据为待统计的广告数据。

b17、如b14所述的装置,其中,所述计费数据库中包括与各维度对应的展现表和点击消费表;

所述读取单元,适于从与该维度对应的展现表中读取待统计的展现数据到中间文件中,以及从与该维度对应的点击消费表中读取待统计的点击消费数据到中间文件中。

b18、如b17所述的装置,其中,所述展现数据为广告展现数量,点击消费数据为广告点击数量和广告消费金额;

所述统计单元,适于对于聚合处理后的各排序文件中的数据,先将其中的展现数据插入所述统计表中,再将其中的点击消费数据插入所述统计表中;若其中的广告展现数量等于0,且广告点击数量大于0,则在将所述点击消费数据插入所述统计表中时,对所述统计表中对应的广告展现数量进行补齐处理。

b19、如b18所述的装置,其中,所述维度包括多个层级;

所述统计单元,还适于将低层级维度下的统计表中的广告点击数量累加到高层级维度下的统计表中的广告点击数量中。

b20、如b17所述的装置,其中,所述计费数据库有n个,n为正整数;

所述读取单元,适于在内存中设置第一通道,在所述第一通道内设置第一协程和第二协程,由所述第一协程创建一组包含n个协程的第一协程组,由所述第二协程创建一组包含n个协程的第二协程组,由所述第一协程组中的各协程分别从各计费数据库中与该维度对应的展现表中读取待统计的展现数据到中间文件中,以及由所述第二协程组中的各协程分别从各计费数据库中与该维度对应的点击消费表中读取待统计的点击消费数据到中间文件中。

b21、如b20所述的装置,其中,所述统计表数据库有m个,m为正整数;

所述拆分单元,适于由所述第一协程和第二协程创建一组包含m个协程的第三协程组,由所述第三协程组中的各协程将所述中间文件中的展现数据和点击消费数据分别按m取模后写入m个子文件中。

b22、如b21所述的装置,其中,

所述排序单元,适于由所述第一协程创建一组包含m个协程的第五协程组,由所述第二协程创建一组包含m个协程的第六协程组;由所述第五协程组中的各协程分别对所述m个子文件中的展现数据进行排序,以及由所述第六协程组中的各协程分别对所述m个子文件中的点击消费数据进行排序。

b23、如b14所述的装置,其中,所述统计表数据库有m个,m为正整数;

所述聚合单元,适于在内存中设置第二通道,在所述第二通道内设置包含l*m个协程的第七协程组,l为正整数;在内存中设置第三通道,在所述第三通道内设置包含2l*m个协程的第八协程组;由所述第七协程组将排序文件中的数据按预设数量分批打包输出至第三通道;由所述第八协程组从物料数据库中读取广告物料数据,根据所述广告物料数据对所述第七协程组发送的各批数据进行聚合处理。

b24、如b14所述的装置,其中,所述广告物料数据包括如下的一种或多种:

广告标题,广告描述信息,广告主的用户名,广告主公司名称。

b25、如b14所述的装置,其中,

所述聚合单元,适于判断缓存中是否存在待读取的广告物料数据,若有则直接从所述缓存中读取相应的广告物料数据,若没有,在从所述物料数据库读取相应的广告物料数据后,将读取的广告物料数据写入所述缓存中。

b26、如b14-b25中任一项所述的装置,其中,该装置还包括:

展示单元,适于提供前端页面,响应于前端页面发送的统计报表查询请求,从所述统计表数据库的相应的统计表中查询出相应的数据,生成统计报表并返回给所述前端页面进行展示。

本发明的实施例还公开了c27、一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如a1-a13中任一项所述的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1