专利名称:用于为点击流量评分的系统的制作方法
技术领域:
本说明书总地涉及欺骗检测,更具体但非唯一地涉及在线广告中的点击欺骗检测。
背景技术:
用来开发和分发因特网内容的强大工具的可得性已经带来了通过因特网提供的信息、产品和服务的增加,以及使用因特网的客户的数目和类型的急剧增长。随着客户流量的增加,通过因特网来推广其商品和服务的广告主的数目也急剧增长了。
广告主可以付款给发布者以在网页、搜索引擎、浏览器或其他在线媒体上容宿或赞助其广告。发布者可以通过“按点击”的方式来向广告主收费,这意味着发布者可在每次广告主的广告之一被点击时向广告主收费。然而,“按点击”付款模型可能易于遭到点击欺骗。例如,某个脚本或其他软件代理可被配置为反复地点击广告,虚假地抬高按点击付款额,从而导致广告主由于大量欺骗性点击被收费。
为了解决点击欺骗的可能性,基于点击的广告模型可以采用点击欺骗检测系统来识别“有效”或合法的点击。发布者随后可以仅就有效点击向广告主收费。然而,可能并不存在用来判定点击是否有效的标准方法。此外,仅仅将点击指派到一个二元类别(例如,有效或无效)可能不能充分或准确地考虑到常常表征着点击质量的概率性判定。因此,可能导致频繁的误分类。此外,虽然两个点击可能被宣称为有效的,但这些点击仍可包括重大差异。基于点击的特性,一个点击可能是确定有效的,而另一个可能属于边界情况。仅仅是将每个点击宣称为有效则可能并没有考虑到为每个点击分类时的相对置信度(confidence)。
发明内容
公开了一种用于通过为对赞助广告的点击评分来衡量点击流量质量的系统。所公开的系统可以过滤与对赞助广告的点击相关联的点击数据。该系统可生成表示在确定点击的质量时的置信度的点击得分。系统还可生成与点击得分相关联的置信度区间。由所公开的系统生成的点击得分可使得广告主和发布者能够区分合法点击和欺骗性点击。
该系统可包括用于生成过滤器输出数据的多个过滤器。过滤器输出数据可表明这多个过滤器中的哪些响应于点击数据而记了分。输出数据还可包括对应于这多个过滤器的合成过滤器得分。这多个过滤器可包括一个或多个确定性过滤器(definitive filter)。确定性过滤器可被配置为在点击数据以合理水平的置信度暗示点击是欺骗性的时记分(fire)。该系统可将点击得分与一个或多个阈值相比较以获得点击分类。
本领域的技术人员在查阅以下的附图和详细描述后,将清楚看到其他系统、方法、特征和优点。希望所有这种额外的系统、方法、特征和优点都包括在此描述之内、在本发明的范围之内并且受所附权利要求的保护。
参考以下附图提供非限制性且非穷尽性的描述。附图中的组件一定是按比例的,实际重点在于说明本发明的原理。另外,在附图中,相似的标号在不同图中指代相应的部件。
图1是用于自适应点击流量评分的系统的一般体系结构的框图。
图2是示出在用于自适应点击流量评分的系统中用于为用户点击评分的过程的流程图。
图3是包括过滤逻辑和一个或多个评分算法的用于自适应点击流量评分的系统的视图的框图。
图4是示出用户点击广告的意图与用于自适应点击流量评分的系统中的点击得分之间的关系的框图。
图5是示出在图1的系统或其他用于自适应点击流量评分的系统中用于为用户点击评分的过程的流程图。
图6是示出在用于自适应点击流量评分的系统中用于向点击得分应用阈值的过程的流程图。
图7是示出在用于自适应点击流量评分的系统中用于向点击得分应用上阈值和下阈值的过程的流程图。
图8是实现用于自适应点击流量评分的系统的计算机系统的框图。
具体实施例方式 一种系统和方法(总称为一种系统)总地涉及基于经过滤的点击数据的点击流量评分。这里描述的原理可以用许多不同的形式来实现。所公开的系统和方法可使得发布者和/或广告主能够有效地识别不可信的或无效的点击和/或有效点击。所公开的系统和方法可以提供表示对点击的有效性的相对置信度的点击得分。点击得分可用于确定点击的质量。这样,所公开的系统和方法可使得发布者能够实现通用的基于点击的广告定价模型。为了说明起见,该系统被描述为用于网络环境中,但该系统也可以在网络环境外工作。
图1示出了用于自适应点击流量评分的系统的一般体系结构100。体系结构100可包括用户客户端系统110、发布者120、广告主130、广告网络140、以及点击流量评分系统150。用户客户端系统110可以搜索、浏览或以其他方式访问由发布者120经由通信网络160提供的内容,其中包括广告内容。发布者120可以在例如网页上容宿由广告主130提供的广告内容。发布者120还可以响应于用户在搜索引擎处的查询而显示由广告主提供的广告内容。体系结构100的组件可以是分开的,或者可以实现在单个服务器或其他具备网络能力的系统上,或者可以由服务器或具备网络能力的系统的组合来实现。体系结构100的组件可包括或经由通信网络160访问一个或多个用于存储数据、参数、统计信息、程序、网页、搜索列表项、广告内容或与广告、点击流量评分或其他系统有关的其他信息的数据库。
通信网络160可以是任何私有或公共通信网络或者网络的组合。通信网络160可被配置为将诸如服务器、系统、数据库或其他具备网络能力的设备之类的一个计算设备耦合到另一个设备,从而使得设备之间能够进行数据通信。通信网络160一般可能能够采用任何形式的计算机可读介质来将信息从一个计算设备传输到另一个。通信网络160可包括无线网络、有线网络、局域网(LAN)、广域网(WAN)、直接连接(例如通过通用串行总线(USB)端口)中的一种或多种,并且可包括构成因特网的一组互连网络。通信网络160可实现任何可用来在计算设备之间传播信息的通信方法。
发布者可以就例如在网页、搜索引擎、浏览器或其他在线发布媒体上容宿广告内容而向广告主130收费。例如,发布者120可以通过按点击的方式来向广告主130收费,即在每次由发布者120容宿的广告被用户选择时向广告主130收费。用户客户端系统110可以通过点击广告来选择广告。
用户客户端系统110可利用标准浏览器应用经由因特网连接到发布者120。基于浏览器的实现方式使得无论用户客户端系统110的下层平台如何系统特征都可以被访问。例如,用户客户端系统110可以是桌面型计算机、膝上型计算机、手持式计算机、蜂窝电话、移动消息传递设备、具备网络能力的电视、数字视频记录器(例如TIVO)、机动车或其他具备网络能力的用户客户端系统110,其可以使用多种硬件和/或软件包。用户客户端系统110可以利用独立应用(例如,经由因特网的浏览器、经由无线网络的移动设备、或其他应用)连接到发布者120,该独立应用可能是依赖于平台的也可能是独立于平台的。也可用其他方法来实现用户客户端系统110。
来自用户客户端系统110的对广告的选择或点击可能并不总是真实的。点击或者对同一广告的一系列多个点击可能源自某个自动化的脚本,而不是源自潜在的客户。
点击流量评分系统150可生成点击得分以及与该点击得分相关联的置信度区间,以衡量点击的质量。点击得分和置信度区间可以提供一种使用连续刻度的评分机制,而不是像二元机制那样例如只将点击识别为有效/无效类别。连续刻度的范围可以是从1到N,从零到无穷,或者可以包括其他数值范围。点击流量评分系统150可以部分基于用户点击数据来点击得分和置信度区间。发布者120或者监视和收集与用户点击有关的数据的其他系统可以获得用户点击数据并经由通信网络160将用户点击数据发送到点击流量评分系统150。
点击流量评分系统150可以经由通信网络160将点击得分和置信度区间发送到发布者120、广告主130和/或广告网络140。广告网络140可充当发布者120和广告主130之间的中介。发布者120、广告主130和/或广告网络140可以利用点击得分和置信度区间来实现通用广告定价模型。例如,为每个点击向广告主收取的费用可以是点击得分的函数,其中随着点击得分增大,费用逐渐增大,该定价模型可包括分层定价模型,其中不同范围的点击得分对应于不同的定价层。
图2示出了在用于自适应点击流量评分的系统(例如点击流量评分系统150)中用于为用户点击评分的过程200的流程图。过程200可通过监视和/或搜集与用户点击相关联的信息来获得与该点击相关联的用户点击数据(动作202)。用户点击数据可包括指引URL(referring URL)、cookie数据、IP地址、地理位置、点击是否是响应于查询而作出的、点击是否是由自动化脚本作出的、或者其他点击特性。过程200可以汇编用户点击数据。作为替换或附加,过程200可以接收由另外的点击监视过程汇编的用户点击数据。
过程200可以对用户点击数据进行过滤(动作204)。过程200可以将用户点击数据应用到过滤逻辑以生成过滤器输出数据。过滤逻辑可包括一个或多个过滤器。过滤器可以是被设计来识别特定种类的无效流量的函数。过滤器输出数据可表明哪些过滤器响应于用户点击数据而记了分。过滤器输出数据还可包括过滤器得分。
过滤器可以是决定性过滤器(deterministic filter),例如对于自身宣称的机器人为“1”而对于其他则为“0”的二元函数。在此示例中,如果函数的值不是“0”,则可以说过滤器对某个点击记分。
过滤器也可以是概率性过滤器。例如,过滤器可以判定在某段时间中特定的广告被特定客户端瞄准的频率是否大于该广告的平均点击数。在此示例中,如果客户端对于特定广告产生比平均值多两次的点击,则过滤器可考虑历史分析或统计来判定高于平均的点击数表示随机波动还是欺骗性攻击。例如,根据历史分析,可以获知产生比平均值多两次的点击的客户端在百分之六十(60%)的情况下是欺骗性的,而在百分之四十(40%)的情况下只是正常波动的结果。在此情况下,如果完美点击的得分为1,则过滤器可以将点击的得分记为0.4,其中置信度区间为(0.3,0.5),对应于90%的置信度水平。
过滤器得分可包括二元输出,表示例如相应的过滤器是否记了分。过滤器得分可包括分数(fractional number)、范围或其他数值表示,表示例如经过滤的数据对应于有效点击或无效点击的可能性。
过滤逻辑可包括检查特定点击特性的过滤器。例如,过滤逻辑可包括自动化脚本过滤器。这种过滤器可在点击源自已知的自动化脚本而不是源自例如合法用户搜索时记分。过滤器还可包括黑名单,其中包括从诸如交互广告局之类的各种代理或机构获得的名单。
过滤逻辑还可包括IP地址过滤器。IP地址过滤器可在点击所源自的IP地址暗示点击无效时记分。IP地址过滤器可包括例如将点击所源自的IP地址与坏IP地址或“列入黑名单的”IP地址的名单或数据库比较的算法、查找功能或其他处理技术。IP地址过滤器所提供的过滤器得分可以是简单的“1”或“0”,表示过滤器是否记了分并且因此点击是有效的还是无效的。
IP地址过滤器还可输出分数过滤器得分或其他数值过滤器得分,表示在认为来自某个IP地址的点击流量有效或无效时的置信度。例如,可能已知代理服务器X包含百分之七十(70%)的有效流量和百分之三十(30%)的无效流量。在此示例中,如果完美点击的得分为1,则对于来自代理服务器X的点击,过滤器可提供0.7的得分。
作为替换或附加,过滤逻辑可包括与一个或多个地理位置相对应的过滤器。地理位置过滤器可提供这样一种过滤器得分,该过滤器得分可表示基于点击所源自的地理位置而宣称点击无效的置信度水平。可通过分析IP地址、实现各种地理编码技术或通过其他地理定位方法来识别用户的地理位置。地理位置过滤器可包括或者可访问与所识别的地理位置相关联的数据,例如统计或推断数据,该数据表明对于给定的位置,点击有效或无效的可能性。
过滤逻辑还可包括在某个点击拥有或缺乏某些特性时记分的其他过滤器。过程200可关注的点击特性的类型,即,所使用的过滤器的类型,可以适应于发布者或广告主的要求。过程200所过滤的特性的类型也可从其他信息来源获得,例如从因特网广告局或者其他协会或机构所制定的标准获得。
当某个过滤器或过滤器的组合记分时,过程200可以利用统计数据来确定过滤器得分,该统计数据包括响应于用户点击数据而记分的过滤器或过滤器组合的转化率。令S为点击的群体,并且令s表示S的元素。元素s可包括一个或多个点击特性,其中包括IP地址、指引URL、cookie数据或其他点击特性。令F为S的子集,对于该子集,过滤器或过滤器组合记分。F可被表达为关于S的二元函数,即,在过滤器或过滤器组合对其记分的S的子集上F(s)=1,在其他情况下F(s)=0。于是,有效度,或者说过滤器或过滤器组合的得分可以通过比率
来估计,其中s属于点击的集合S,并且分子表示在点击处于F中的情况下有效点击的概率,而分母表示在整个空间S上有效点击的概率。良好的子集F,即在误分类度最低的情况下有效地识别无效点击的子集可具有接近于零的比率。子集F可对应于过滤器或过滤器的组合。
当点击引起了广告主所定义的期望动作时,点击则引起了转化,或者可“被转化”。广告主可以将转化定义为点击引起实际购买。作为替换或附加,当点击使得用户将某个物品添加到“购物车”中时,点击则引起了转化,而不论用户最终购买该物品与否。换言之,转化标准可由广告主来确定并且对于不同的广告主可以是不同的。
通过假设转化和F在给定有效性的情况下是条件独立的,利用所观察、汇编或收集的统计点击转化数据,可以估计比率
。两个事件A和B在给定第三事件C的情况下是条件独立的,如果A的发生不改变B发生的概率且反之亦然的话。换言之,如果已知某个点击是有效的,则转化的发生不会改变点击落在子集F内的概率,反之亦然。即,当限制到集合{F(s)=1}时,有效点击的转化率可能不会变化。基于对于条件独立性的这个假设,比率
可用作
的度量。
还可利用以下假设来估计比率
1、F的支持很可能构成S的一小部分。换言之,Pr(s收敛)≈Pr(s收敛|F(s)=0)。因此
可被估计为
2.点击转化对于每个点击可被建模为独立Bernoulli试验,即,对于每个点击,可能存在一个样本空间{转化,未转化},以及相关联的概率ps和1-ps。概率ps可以是点击s被转化的可能性。对于S的任何子集A,Pr(s收敛|A)可以是在s在A中的情况下所有ps的平均值。
对于子集F,令PD为Pr(s转化|F(s)=1)并且PC为Pr(s转化|F(s)=0)。于是比率
可以估计出子集F在识别无效点击方面的有效性。
也可对应于子集F的过滤器得分。
例如,当子集F对应于响应于用户点击数据而记分的过滤器的组合时,比率
也可对应于下面论述的点击得分。子集F的比率
越小(即,PC大于PD),过程200在判定落在子集F内(或者使得对应于子集F的过滤器记分)的点击可能无效时的置信度就越大。在子集F对应于响应于点击而记分的过滤器的组合的情况下,比率
越小,则使得过滤器组合记分的点击无效的置信度越大。PD和PC的值可以从样本数据获得。样本数据可以包括C(因此PC)和D(因此PD)的经验值或者以统计方式汇编的值。
过程200可分析包括过滤器得分在内的过滤器输出数据来生成点击得分(动作206)。如上所述,过滤器输出数据可包括由构成过滤逻辑的过滤器生成的多个过滤器得分。过程200可以将过滤器输出数据应用到一个或多个评分算法,以计算出点击得分。评分算法可以利用多种技术来计算点击得分。
评分算法可以监视哪些过滤器响应于用户点击数据而记分。评分算法可以基于与响应于用户点击数据而记分的过滤器的组合相对应的过滤器得分来确定点击得分。例如,用户点击数据可使得某个过滤器组合记分。可以通过把经该组合过滤的点击的集合上的转化率与整体转化率相比较,例如通过对于子集F计算比率
,来计算点击得分。在此示例中,子集F可以是与响应于用户点击数据而记分的过滤器的组合相对应的点击的集合。评分算法可以使用包括记了分的过滤器的各种组合的转化率在内的统计数据来计算比率
。包括转化率在内的统计数据可被存储在可经由通信网络(例如通信网络160)来访问的数据库上。包括转化率在内的统计数据还可由发布者、广告主或者广告网络提供。
评分算法也可以对过滤器得分取平均或者进行总计来获得点击得分。评分算法可以向过滤器得分应用权重,以使得来自不同过滤器的结果对连续得分的影响不同。评分算法还可以将点击得分设定为等于或基本等于具有最大量值的过滤器得分。
评分算法可以是根据神经网络或其他学习或模式识别算法生成来计算点击得分的算法。例如,评分算法可以是根据这样的神经网络生成的该神经网络已被在包括点击转化率、转化计数和其他点击转化统计信息在内的与点击流量有关的已知数据以及与监视到的过去点击的假阳性或假阴性有关的数据上进行了训练。
过程200可以生成与点击得分相关联的置信度区间(动作208)。过程200可以将点击得分和/或过滤器输出数据应用到评分算法以生成置信度区间。用于计算点击得分的算法可以与用于计算置信度区间的算法相同或不同。
过程200可以生成与子集F的PD、PC和/或比率
相关联的置信度区间。子集F可对应于响应于用户点击数据而记了分的过滤器的组合。过程200可以使用Fieller定理来为
生成近似置信度区间。
对于给定的置信度水平,例如1-α,过程可以生成
形式的
的置信度区间。给定
和
的样本数据,以及1-α的置信度水平,可以获得PD和PC的水平
上的置信度区间分别为
和
。PD和PC可以是独立的,因此比率
可以以1-α的置信度水平处于区间
中。
点击得分和/或置信度区间可以被发送到发布者、广告主、广告网络或者其他用于计算广告费用的系统。点击得分可以提供对在认为点击有效或无效时的置信度的指示。发布者、广告主或其他系统可以使用置信度信息来调整广告费用结构以适应于每个点击或点击集合的相对可信度。置信度区间可以向发布者、广告主或其他系统提供额外的有关信息,包括点击得分的强度、误差裕量或其他特性。
图3示出了包括过滤逻辑302和一个或多个评分算法304的点击流量评分系统300的视图。点击流量评分系统300可接收包括与要评分的点击有关的信息的用户点击数据306。点击流量评分系统300可以从发布者获得用户点击数据306。点击流量评分系统300还可包括点击监视系统,用于监视用户点击并提取与用户点击相关联的用户点击数据306。用户点击数据306可包括指引URL、cookie数据、IP地址、地理位置、点击是否是响应于查询而作出的、点击是否是由自动化脚本作出的、或者其他点击特性。
过滤逻辑302可包括一个或多个过滤器308,用于处理用户点击数据306。点击流量评分系统300可以将用户点击数据306传递到过滤逻辑302。过滤逻辑302可以基于用户点击数据306生成过滤器输出数据。过滤器输出数据可包括表明哪些过滤器组合响应于用户点击数据而记了分的信息。过滤器输出数据还可包括与由各过滤器308或由各过滤器308的组合生成的输出相对应的过滤器得分。
点击流量评分系统300可将过滤器输出数据应用到评分算法304,以生成点击得分310和置信度区间312。评分算法304还可生成一个或多个点击分类314。点击得分310可以是落在连续数值范围内的数值,并且可表示在确定点击的可信度时的相对置信度。置信度区间312对应于点击得分,并且可提供与点击有关的额外置信度数据。
点击分类314可包括基于过滤器输出数据、点击得分和/或置信度区间被指派给点击的一个或多个分类。点击分类314可以表明点击是有效的还是无效的。评分算法304可以向点击得分或置信度区间应用一个或多个阈值以将点击分类为有效或无效的。评分算法304可包括模式识别算法,用于识别过滤器输出数据中的模式并且根据所识别的模式来为点击分类。作为替换或附加,评分算法304可以是根据神经网络(包括已受训练的神经网络)生成的算法。
点击得分310、置信度区间312和点击分类314中的一个或多个可以被在线发布者、广告网络或其他系统用来判定应当就哪些点击向广告主收费。在提供点击得分310时,系统200可使得发布者或其他系统能够实现更健壮或通用的定价模型。例如,广告主按点击支付的费用可以是点击得分310的函数。因此,按点击的费用可以根据由点击得分指示出的相对置信度而变化。
图4示出了图示用户点击广告的意图与评分系统(例如点击流量评分系统150)生成的点击得分之间的关系的图400。用户的意图可包括良性意图402(例如,感兴趣的客户)和恶性意图404(例如,自动化脚本)。用户点击数据可包括与用户的点击有关的信息。所公开的系统和方法可基于用户点击数据,例如通过上述的过程200,来生成点击得分。点击得分可以被计算为落在某个数值范围内的数值。在图400中,点击得分更高则对应于对点击是高质量点击的置信度更高。点击得分更低则对应于对点击是高质量点击的置信度更低,或者换句话说,点击得分更低则对应于对点击是低质量点击的置信度更高。
高质量分布曲线406表示与以良性用户意图402作出的点击相对应的点击得分的示例性分布。低质量分布曲线408表示与以恶性或欺骗性用户意图404作出的点击相对应的点击得分的示例性分布曲线。高质量分布曲线406和低质量分布曲线408之间的大差异表示点击得分可以有效且准确地反映用户意图,同时捕捉到确定点击质量时的相对置信度。与落在高质量分布曲线406内的点击得分相对应的两个点击可以各自被识别为有效的。然而,确定高质量分布曲线406上点击得分所在的点可以表明有效性识别的置信度或强度。
此外,提供点击得分可以使得发布者或其他系统能够区分并从而以不同的方式对待“边缘情况”(close call)点击和“明显有效”的点击。“边缘情况”点击可对应于落在分布曲线406和408的重叠部分410内的点击。“确定有效”点击可对应于落在分布曲线406的大部分内的点击。
图5示出了在用于自适应点击流量评分的系统(例如点击流量评分系统150)中用于为用户点击评分的过程500。过程500可获得用户点击数据(动作502)。过程500可从发布者获得用户点击数据。过程500还可包括点击监视步骤,用于监视用户点击并提取与用户点击相关联的用户点击数据。用户点击数据可包括指引URL、cookie数据、IP地址、地理位置、点击是否是响应于查询而作出的、点击是否是由自动化脚本作出的、或者其他点击特性。
过程500可以过滤用户点击数据以获得过滤器输出数据(动作504)。过程500可检查一个或多个确定性过滤器是否记了分(动作506)。如果一个或多个确定性过滤器已记分,则过程500可以将点击标记为无效的(动作508)。确定性过滤器可以是在点击包括暗示着对点击可能无效的置信度水平很高的某个特性或某个特性组合时记分的过滤器。
例如,在点击源自已知的自动化脚本时可记分的自动化脚本过滤器可被设定为确定性过滤器。源自已知的自动化脚本的点击的有效性可能是可疑的。因此,当自动化脚本过滤器记分时,过程500甚至在计算点击得分之前就可以有信心地宣称点击是无效的。
确定性过滤器还可包括过滤器的组合。在此情况下,过程500可以在过滤器的某个组合记分时宣称点击无效。换言之,点击可包括若干个可疑的点击特性,其中每一个可能不能独自确定无效,但是累积效果是确定无效。
上述的确定性过滤器可被表征为“否定式”确定性过滤器,即,当它们记分时,点击被宣称为无效的。过程500还可以采用“肯定式”确定性过滤器。可能存在某些点击特性,这些点击特性一旦被检测到就暗示着可以以较高水平的置信度来宣称点击有效。
当没有确定性过滤器已记分时,过程500可以着手生成点击得分(动作510)和置信度区间(动作512)。当该过程根据动作508宣称某个点击无效时,该过程仍可计算点击得分和与点击得分相关联的置信度区间。点击分类“无效”和/或点击得分和置信度区间可被发送到发布者、广告主、广告网络或其他系统。点击分类可提供可被发布者或其他系统用来配置广告费用结构的额外信息。
图6示出了在用于自适应点击流量评分的系统(例如点击流量评分系统150)中用于向点击得分应用阈值的过程600。过程600可获得与一个或多个点击相关联的用户点击数据(动作602)。过程600可从发布者获得用户点击数据。过程600还可包括点击监视步骤,用于监视用户点击并提取与用户点击相关联的用户点击数据。用户点击数据可包括指引URL、cookie数据、IP地址、地理位置、点击是否是响应于查询而作出的、点击是否是由自动化脚本作出的、或者其他点击特性。
过程600可以将用户点击数据应用到过滤逻辑以获得过滤器输出数据(动作604)。过滤器输出数据可包括过滤器得分。过程600可基于过滤器输出数据来生成点击得分和置信度区间(动作606和608)。
过程600可将点击得分与阈值相比较(动作610)。该阈值可以是有有效性阈值。如果点击得分超过有效性阈值,过程600则可将点击分类为“有效”(动作612)。否则,过程600可将点击分类为“无效”(动作614)。
过程600可将点击得分置信度区间的高端点与阈值相比较。该阈值可以是有效性阈值。如果点击得分置信度区间的高端点超过有效性阈值,过程600则可将点击分类为“有效”(动作612)。否则,过程600可将点击分类为“无效”(动作614)。
有效/无效分类以及点击得分和置信度区间可被发送到发布者、广告网络、广告主或其他系统。用于区分有效点击和无效点击的阈值可以是基于统计数据来计算或推断的,或者可以是根据发布者、广告主、广告网络或其他系统的需要或要求来手工设定的。
图7示出了在用于自适应点击流量评分的系统(例如点击流量评分系统150)中用于向点击得分应用上阈值和下阈值的过程。与图6所示的过程600类似,过程700可获得用户点击数据(动作702)并且可将用户点击得分应用到过滤逻辑以获得过滤器输出数据(动作704)。过程700可从发布者获得用户点击数据。过程700还可包括点击监视步骤,用于监视用户点击并提取与用户点击相关联的用户点击数据。用户点击数据可包括指引URL、cookie数据、IP地址、地理位置、点击是否是响应于查询而作出的、点击是否是由自动化脚本作出的、或者其他点击特性。过程700可基于过滤器输出数据来生成点击得分(动作706)和置信度区间(动作708)。
过程700可将点击得分与上得分阈值和下得分阈值相比较(动作710)。当点击得分超过上点击阈值时,过程700可将点击分类为“有效”(动作712)。当点击得分低于下点击阈值时,过程700可将点击分类为“无效”(动作714)。当点击得分既不大于上点击阈值也不小于下点击阈值时,点击可以处于“灰色区域”中。过程700可以向发布者、广告网络、广告主或其他系统提供点击得分和置信度区间。作为对点击得分和置信度区间的附加或者取代点击得分和置信度区间,有效/无效分类可被提供给发布者、广告网络、广告主或其他系统。
过程700也可以使用点击得分的置信度区间的端点来与得分阈值比较。例如,如果点击得分置信度区间的上端点低于下点击阈值,则点击可被标记为“无效”。
上点击阈值和下点击阈值可由例如发布者、广告网络、广告主或其他系统来手工设定。作为替换或附加,上点击阈值和下点击阈值可以从发布者或其他系统提供的统计数据中获得。过程700对于不同的过滤器或过滤器组合可使用不同的上阈值和下阈值。例如,过程700可识别响应于用户点击数据而记了分的过滤器或过滤器组合,并且调整上阈值和下阈值以适应于该过滤器或过滤器组合。上阈值和下阈值可以是从经验或统计数据推断的值。上阈值和下阈值也可以是通过学习或通过受训练的算法(例如神经网络)计算出的。
所公开的方法、过程、程序和/或指令可被编码在承载信号的介质、诸如存储器之类的计算机可读介质中,被编程在某个设备内(例如一个或多个集成电路上),或者被控制器或计算机处理。如果方法是通过软件来执行的,则软件可位于一存在于通信接口上或者与通信接口相连接的存储器或者任何其他类型的非易失性或易失性存储器中。存储器可包括用于实现逻辑功能的可执行指令的有序列表。逻辑功能可以通过数字电路、通过源代码、通过模拟电路、或通过模拟源(例如通过模拟的电信号、音频信号或视频信号而发生的模拟源)来实现。软件可以被包含在任何计算机可读或信号承载介质中,以供指令可执行系统、装置或设备使用或结合指令可执行系统、装置或设备使用。这种系统可包括基于计算机的系统、包含处理器的系统、或者可以从也可执行指令的指令可执行系统、装置或设备选择性地取得指令的其他系统。
图8示出了实现点击流量评分系统800的计算机系统,该系统包括与存储器804相耦合的处理器802。处理器802可执行存储在存储器804上的指令以为点击流量评分。点击流量评分系统800可经由通信网络812与发布者806、广告主808和/或广告网络810通信。
存储器804可存储与点击相关联的用户点击数据814。用户点击数据814可包括指引URL、cookie数据、IP地址、地理位置、点击是否是响应于查询而作出的、点击是否是由自动化脚本作出的、或者其他点击特性。可通过监视和/或搜集与点击相关联的信息来获得用户点击数据814。处理器802可执行存储在存储器804上的点击过滤器程序816。点击过滤器程序816可将用户点击数据814应用到一个或多个过滤器以生成过滤器输出数据818。过滤器输出数据818可包括一个或多个过滤器得分820。过滤器输出数据818可包括响应于用户点击数据814而记了分的过滤器的标识822。
处理器802可执行存储在存储器804上的点击评分程序824。点击评分程序824可基于过滤器输出数据818来生成点击得分826和置信度区间828。点击得分826可以是表示可用在确定点击质量时的置信度的数值。点击评分程序824可以部分地基于置信度水平830来确定置信度区间828和点击得分826。点击评分程序824可包括默认的置信度水平,例如默认为95%。点击评分程序824可调节置信度水平830以适应发布者806、广告主808或广告网络810的需要或要求。
点击评分程序824还可将存储在存储器804上的阈值832-836应用到点击得分826和/或置信度区间828以生成点击分类838。点击分类838可包括与点击是有效还是无效有效的信息。阈值832-836可以是有效性阈值832、上点击阈值834和/或下点击阈值836。
从前述可见,点击流量评分系统通过利用点击得分来为点击评分,可以提供一种经改进的对点击质量的确定。点击得分可使得发布者或其他系统能够以更高的置信度来判定点击是否可能是真实的并且可向有关广告主收费。在提供点击得分时,点击流量评分系统还可使得发布者、广告主、广告网络和/或其他系统能够例如通过分层定价模型来调节广告定价模型以适应于广告主和发布者的需要或要求。
虽然实现方式的选定方面、特征或组件被示为存储在存储器中,但系统的全部或一部分(包括与点击流量评分系统一致的方法和/或用于执行这种方法的指令)可被存储在其他计算机可读介质上、分布在其他计算机可读介质上、或者被从其他计算机可读介质中读取,所述其他计算机可读介质例如是次存储设备(例如硬盘、软盘和CD-ROM);从网络接收的信号;或者当前已知的或以后开发的其他形式的ROM或RAM。
点击流量评分系统150的特定组件可包括额外的或不同的组件。处理器可实现为微处理器、微控制器、专用集成电路(ASIC)、分立逻辑、或者其他类型的电路或逻辑的组合。类似地,存储器可以是DRAM、SRAM、闪存、或者任何其他类型的存储器。参数(例如,流行度排名)、数据库和其他数据结构可被单独存储和管理、可被结合到单个存储器或数据库中、或者可以按照许多不同的方式来在逻辑和物理上加以组织。程序或指令集可以是单个程序的部分、分开的程序、或者分布在若干个存储器和处理器上。
“计算机可读介质”、“机器可读介质”、“传播信号”介质和/或“信号承载介质”可包括任何包含、存储、传输、传播或传送软件以供指令可执行系统、装置或设备使用或结合指令可执行系统、装置或设备使用的手段。计算机可读介质可以选择性地是但不限于是电子的、磁的、光的、电磁的、红外的或半导体的系统、装置、设备或程序介质。机器可读介质的示例的非穷尽性列表可包括具有一条或多条导线的电连接“电子的”、便携式磁盘或光盘、易失性存储器(例如随机访问存储器“RAM”(电子的))、只读存储器“ROM”(电子的)、可擦除可编程只读存储器(EPROM或闪存)(电子的)、或者光纤(光的)。计算机可读介质还可包括其上印着软件的有形介质,因为软件可被电子存储为图像或其他格式(例如,通过光学扫描),然后被汇编、和/或解释、或者以其他方式处理。经处理的介质随后可被存储在计算机和/或机器存储器中。
虽然已经描述了本发明的各种实施例,但是对于本领域的普通技术人员来说很明显的,在本发明的范围内可以实现许多其他实施例和实现方式。因此,本发明仅受所附权利要求及其等同物的限制。
权利要求
1.一种用于为用户点击评分的方法,包括
获得与所述用户点击相关联的用户点击数据;
将所述用户点击数据应用到多个过滤器;
识别过滤器组合,其中该过滤器组合包括来自所述多个过滤器中的响应于所述用户点击数据而记了分的过滤器;
根据所述用户点击数据和所述多个过滤器中的响应于所述用户点击数据而记了分的过滤器的标识,生成点击得分;和
生成与所述点击得分相关联的置信度区间。
2.如权利要求1所述的方法,其中,生成点击得分的步骤包括
生成过滤器输出数据,其中该过滤器输出数据是根据所述用户点击数据而生成的;和
将所述过滤器输出数据应用到评分算法以生成所述点击得分。
3.如权利要求1所述的方法,其中,所述多个过滤器包括在所述用户点击是由自动化脚本作出的时记分的自动化脚本过滤器。
4.如权利要求1所述的方法,其中,所述多个过滤器包括确定性过滤器。
5.如权利要求1所述的方法,其中,生成点击得分的步骤还包括
获得包括与所述过滤器组合相关联的点击转化率的第一转化数据;
获得包括与所述多个过滤器相关联的点击转化率的第二转化数据;和
将所述第一转化数据与所述第二转化数据相比较。
6.如权利要求5所述的方法,其中,将所述第一转化数据与所述第二转化数据相比较的步骤包括确定所述第一转化数据与所述第二转化数据的比率。
7.如权利要求1所述的方法,还包括
将所述点击得分与阈值相比较;和
当所述点击得分超过所述阈值时,将所述点击分类为有效的。
8.如权利要求7所述的方法,其中,所述点击得分表明对所述用户点击分类的置信度。
9.如权利要求1所述的方法,还包括基于所述点击得分来实现广告定价方案。
10.如权利要求1所述的方法,其中,所述定价方案是分层定价方案。
11.一种用于为用户点击评分的点击流量评分系统,包括
处理器;和
与所述处理器相耦合的存储器,该存储器包括
提供与所述用户点击有关的信息的用户点击数据;
点击过滤器程序,包括使所述处理器进行以下操作的指令
将所述用户点击数据应用到多个过滤器;和
基于所述用户点击数据来生成过滤器输出数据;以及
评分程序,包括使所述处理器将所述过滤器输出数据应用到评分算法以基于所述过滤器输出数据来生成点击得分的指令。
12.如权利要求11所述的系统,其中,所述评分程序还包括使所述处理器基于所述过滤器输出数据来生成置信度区间的指令。
13.如权利要求11所述的系统,其中,所述评分程序还包括使所述处理器识别过滤器组合的指令,其中所述过滤器组合包括响应于所述用户点击数据而记了分的过滤器。
14.如权利要求13所述的系统,其中,所述评分程序还包括使所述处理器进行以下操作的指令
获得包括与所述过滤器组合相关联的点击转化率的第一转化数据;
获得包括与所述多个过滤器相关联的点击转化率的第二转化数据;和
将所述第一转化数据与所述第二转化数据相比较。
15.如权利要求11所述的系统,其中,所述多个过滤器包括对应于第一点击特性的第一过滤器,并且所述第一过滤器在所述用户点击包括所述第一点击特性时记分。
16.如权利要求13所述的系统,其中,所述多个过滤器包括确定性过滤器。
17.如权利要求16所述的系统,其中,所述点击评分程序还包括使所述处理器在所述确定性过滤器记分时将所述用户点击分类为无效的指令。
18.一种产品,包括
计算机可读介质;和
存储在所述计算机可读介质上的可编程指令,这些可编程指令使点击流量评分系统中的处理器
获得与用户点击相关联的用户点击数据;
将所述用户点击数据应用到生成过滤器输出数据的多个过滤器,其中,所述过滤器输出数据包括所述多个过滤器中响应于所述用户点击数据而记了分的过滤器的标识;和
将所述过滤器输出数据应用到评分算法,该评分算法生成点击得分和与该点击得分相关联的置信度区间,其中,所述点击得分表示所述用户点击的质量。
19.如权利要求18所述的产品,其中,存储在所述计算机可读介质上的可编程指令使所述处理器
将所述点击得分与上阈值和下阈值相比较;
当所述点击得分低于所述下阈值时将所述用户点击分类为无效的;和
当所述点击得分超过所述上阈值时将所述点击得分分类为有效的。
20.如权利要求18所述的产品,其中,所述多个过滤器包括确定性过滤器。
21.如权利要求20所述的产品,其中,存储在所述计算机可读介质上的可编程指令使所述处理器;
判定所述用户点击数据是否使所述确定性过滤器记分;和
当所述确定性过滤器记分时将所述用户点击分类为无效的。
22.如权利要求18所述的产品,其中,所述置信度区间是根据置信度水平生成的。
23.如权利要求18所述的产品,其中,所述评分算法是神经网络。
24.如权利要求18所述的产品,其中,所述评分算法在连续的数值范围上生成点击得分。
全文摘要
公开了一种用于通过为对赞助广告进行的点击评分来衡量点击流量质量的系统。由所公开的系统生成的点击得分可使得广告主和发布者能够区分合法点击和欺骗性点击。所公开的系统可过滤与对赞助广告进行的点击相关联的点击数据。该系统可生成可表示在确定点击质量时的置信度的点击得分。该系统还可生成与该点击得分相关联的置信度区间。
文档编号G06F17/00GK101657809SQ200880009914
公开日2010年2月24日 申请日期2008年4月1日 优先权日2007年4月25日
发明者鲍里斯·克洛特斯, 理查德·T·周, 艾普尔·M·戴赛 申请人:雅虎公司