使用深度网络对概念术语评分的制作方法
【专利说明】
【背景技术】
[0001]互联网资源(例如,网页、图像、文本文档、多媒体内容)可以包括描述任何各种各样概念的内容。
【发明内容】
[0002]本说明书涉及使用深度网络识别与资源相关的概念术语。
[0003]在一般性方面1,一种由一个或多个计算机执行的方法,所述方法包括:接收包括资源的多个特征的输入,其中每个特征是资源的相应属性的值;使用相应嵌入函数处理每个特征,以生成一个或多个数值;处理数值,以生成资源的特征的替选表示,其中处理所述数值包括将一个或多个非线性变换应用到所述数值;以及处理输入的替选表示,以生成预定概念术语组中的每个概念术语的相应相关性分值,其中每个相应相关性分值测量对应概念术语与资源的预测相关性。
[0004]根据方面I的方面2,其中,每个嵌入函数特定于相应特征类型的特征,其中,每个嵌入函数接收相应类型的特征,并且将变换应用到特征,根据嵌入函数参数组将特征映射到数值表示。
[0005]根据方面I或2中的任何一个的方面3,进一步包括:响应于接收将要进行在线广告拍卖以选择用于包括在资源的特定呈现中的一个或多个广告的指示,获得资源的多个特征。
[0006]根据方面I至3中的任何一个的方面4,进一步包括:基于相关性分值选择概念术语中的一个或多个作为在选择参与在线广告拍卖的候选广告时使用的广告关键字。
[0007]根据方面I至4中的任何一个的方面5,进一步包括:过滤与资源不是相同语言的概念术语。
[0008]根据方面I至5中的任何一个的方面6,进一步包括:过滤具有超过阈值的词频逆文档频率(TF-1DF)分值的概念术语。
[0009]根据方面I至6中的任何一个的方面7,其中,所述数值是浮点值。
[0010]根据方面I至7中的任何一个的方面8,其中,所述数值是量化整数值,并且其中,量化整数值的编码表示浮点值。
[0011]在一般性方面9中,一种用于训练系统预测预定概念术语组中的每一个与资源的相关性的计算机实现的方法,其中,所述系统包括嵌入函数层、一个或多个神经网络层和分类器,其中,所述方法包括:获得识别训练资源的数据和用于每个训练资源的一个或多个相应关联概念术语;对于每个训练资源指定用于分类器生成的相应预测输出的输出标准;以及基于每个训练资源的相应特征和指定的输出标准来训练嵌入函数层、神经网络层和分类器,其中每个特征是资源的相应属性的值。
[0012]根据方面9的方面10,其中,指定输出标准包括:对于每个训练资源,指定为与训练资源相关联的概念术语生成的相关性分值应超过为多个概念术语中与训练资源不相关联的其他概念术语的随机样本生成的相关性分值。
[0013]根据方面9或10中的任何一个的方面11,进一步包括:获得识别用户查看的训练资源的数据;获得识别用户在查看训练资源的阈值时间窗口内选择的第一资源中的广告的数据;以及将在第一资源中放置广告所使用的关键字与用户查看的训练资源相关联作为概念术语。
[0014]这些方面的其他实施例包括相应的计算机系统、装置和在一个或多个计算机存储设备上记录的计算机程序,每个都被配置为执行方法的动作。
[0015]在本说明书中描述的主题的特定实施例可以实现为达到下述优点中的一个或多个。深度网络可以有效并可靠地用于预测与资源相关的概念术语。一旦训练完,深度网络可以用于预测新资源(即,深度网络先前未知的资源)的相关概念术语。深度网络可以由此利用机器学习方案更快更有效地处理新数据资源。例如,深度网络可以用于选择与资源相关的关键字(例如,广告关键字)。使用深度网络来选择关键字可以导致更相关的搜索结果(例如,广告)被包括在资源中,例如,通过增加为参与将一个或多个结果(例如,广告)放置到资源中进行的在线内容选择过程(例如,广告拍卖)选择的结果(例如,广告)与资源的相关性。
[0016]在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。本主题的其它特征,方面和优点将从说明书、附图和权利要求变得显而易见。
【附图说明】
[0017]图1是示例概念术语评分系统的框图。
[0018]图2是用于对概念术语评分的示例过程的流程图。
[0019]图3是训练概念术语评分系统的示例过程的流程图。
[0020]在各个附图中,相同的参考标号和标记指示相同的元素。
【具体实施方式】
[0021]图1是示例概念术语评分系统100的框图。概念术语评分系统100是在一个或多个位置的一个或多个计算机上被实现为计算机程序的系统的示例,其中可以实现下面描述的系统、组件和技术。
[0022]概念术语评分系统100接收输入,并且基于接收的输入生成预测输出。具体地,输入是资源的一组特征,并且概念术语评分系统100基于输入生成的输出是一组概念术语中的每一个的相应分值。该组概念术语是预定的,并且表示已经被确定为与系统相关的或资源集合的概念。为概念术语生成的分值是概念术语的每一个与资源的相关程度的预测。例如,概念术语可以是用于选择参与在线广告拍卖的广告的关键字。
[0023]资源的特征是资源的相应属性的值,其以某种方式表征资源,并且可以包括多个相应明确区分的特征类型的特征。特定类型的特征是从特征类型的可能活动特征元素的词汇表选择的一个或多个活动特征元素的列表,即令牌或令牌值对的列表。例如,令牌可以是自然语言,例如英语,特征类型的词汇表可以是自然语言中已知的词。特征类型的词汇表可以重叠或不重叠,并且给定特征类型的列表可以有序或无序。
[0024]例如,概念术语评分系统100可以从特征数据存储102接收特征120。例如,特征120可以是响应于接收将要进行在线广告拍卖以选择将被包括在资源的特定呈现中的一个或多个广告的指示而已经从特定资源提取的各种特征类型的特征。例如,资源的特征可以包括任何下述的:资源的统一资源定位符(URL)、资源的域名、资源的发布者的标识符、由识别与资源相关的类别或实体类型的概念评分系统100获得的数据、资源中出现最频繁的术语等。资源的特征也可以包括从汇总资源的内容或效用的其它系统或服务获得的特征,例如,尝试识别资源中的最重要术语的系统,识别与资源相关的实体的系统等。
[0025]概念术语评分系统100使用接收的输入特性来预测输出。输出可以存储在评分的概念术语数据存储114中或用于一些直接的目的。具体地,输出是分值的向量,其包括概念术语组中的每一个的相应分值。在在线广告的上下文中,例如,在输入特征是将要对其进行在线广告拍卖的资源的特征的情况下,概念术语评分系统100可以生成用于概念术语组中的每一个的分值,所述概念术语可以用作用于选择参与拍卖的广告的广告关键字。
[0026]概念术语评分系统100包括深度网络106和分类器112。深度网络使用一组机器学习算法,其尝试通过使用由一个或多个非线性变换构成的体系结构对数据中的结构或抽象建模或模拟。具体地,深度网络是机器学习系统,其包括输入和输出层之间的一个或多个隐藏层。每个隐藏层根据参数组对从深度网络中的先前层接收的输入应用相应的非线性变换,并且将非线性变换的结果提供给深度网络中的下一层。隐藏层提供抽象的水平,从而增加深度网络的建模能力。深度网络106包括一组嵌入函数108和一个或多个隐藏人工神经网络层110,每一个都具有相应的一组参数。每个嵌入函数108接收相应类型的相应特征,并且根据参数组对特征应用变换,其将特征映射到数值表示。例如,嵌入函数108可以对特征120应用变换,以将特征映射到浮点表示122。下面将参照图2更加详细地描述嵌入函数。
[0027]神经网络层110的初始层接收嵌入函数生成的输入特征的浮点表示作为输入,并且神经网络层110每个对浮点表示应用一个或多个相应的非线性变换,以生成输入的替选表示。替选表示是通过对输入的初始数值表示应用一个或多个非线性变换生成的输入的数值表示,例如,通过嵌入函数108生成的表示。例如,神经网络层110可以从自嵌入函数108接收的特征120的浮点表示122生成替选表示124。每个神经网络层是人工节点的集合,其接收输入并且从输入计算输出,即,根据参数组通过对输入应用非线性变换从输入计算输出。输出随后被馈送到其他神经网络层或深度网络的其它组件。代替或除神经网络层110,深度网络106可以包括另一组层,其在嵌