可搜索索引的制作方法

文档序号:9326885阅读:695来源:国知局
可搜索索引的制作方法
【专利说明】可搜索索引
【背景技术】
[0001] 推荐系统可以具有分离的信息检索和机器学习的排名阶段。信息检索阶段基于各 种信号从语料库选择文档(视频、广告、音乐、文本文档等)并且机器学习的系统对信息检 索系统的输出进行排名。例如,当用户录入查询"猫"时,上下文信息检索系统可以从所有 可用的广告中选择包含词语"猫"的候选广告集。此候选广告集继而可以基于机器学习的 模型被排名,该机器学习的模型已经被训练以基于各种特征(诸如,用户的类型、用户的位 置、一天中进行查询的时间等)来预测广告被用户点入(Click through)的可能性。信息 检索工具是计算上高效的,但是仅可以产生向用户最佳推荐的项目的粗略估计。机器学习 的模型能够产生更精确的推荐,但是与信息检索工具相比经常在计算上更密集。此外,因为 信息检索工具较不准确,因此其可以使用机器学习的模型从考虑中排除可能另外排名高的 某些候选。

【发明内容】

[0002] 根据本公开主题的实现方式,来自机器学习的模型的多个规则可以由计算机化的 机器学习系统生成并接收,每个规则包含成果、一个或多个特征以及由机器学习的模型针 对该一个或多个特征和成果预测的成果概率。针对基于令牌的索引的条目可以针对多个规 则中的每个规则被生成并且可以包含基于规则的一个或多个特征、规则的成果和规则的成 果概率的一个或多个令牌。查询可以被接收并且对应于该查询的令牌的子集可以被标识。 基于令牌的索引可以被搜索以基于令牌的子集获得多个成果概率。成果可以基于多个成果 概率被选择并且可以被提供给用户。选定成果的子集可以被排名。例如,数百视频(成果) 可以通过概率排名并且前二十可以从最高概率到最低概率被显示给用户。
[0003] 根据本公开的系统和技术可以基于作为机器学习系统的产品的模型的规则和结 果生成或修改一个或多个索引。生成或修改的索引可以被用于基于搜索技术来提供结果。 本公开主题的附加特性、优点和实现方式可以通过考虑以下【具体实施方式】、附图和权利要 求书进行阐述或者变得容易理解。此外,应当理解以上
【发明内容】
和以下【具体实施方式】包括 各种示例并且旨在提供进一步的解释而不是限制权利要求书的范围。
【附图说明】
[0004] 为提供对本公开主题的进一步理解而包括的附图并入在本说明书中并且构成本 说明书的一部分。附图还图示了本公开主题的各实现方式,并且与【具体实施方式】一起用于 解释本公开主题的各实现方式的原理。并未试图示出比对于本公开主题以及在其中可实践 本公开主题的各种方法的基本理解所必需的更为详细的结构细节。
[0005] 图1示出了根据本公开主题的一个实现方式的用于经由基于令牌的索引提供成 果/成果概率的示例图示。
[0006] 图2a示出了根据本公开主题的一个实现方式的生成基于令牌的索引的示例过 程。
[0007] 图2b示出了根据本公开主题的一个实现方式的基于成果概率针对成果搜索基于 令牌的索引的示例过程。
[0008] 图3示出了根据本公开主题的一个实现方式的计算机。
[0009] 图4示出了根据本公开主题的一个实现方式的网络配置。
【具体实施方式】
[0010] 根据本公开主题的各实现方式,可搜索索引可以基于从机器学习的模型推导的规 则来生成。通过此方式,机器学习的模型的卓越智能和逻辑可以被体现在易于可搜索的索 引中。标准信息检索工具可以用于使用该索引高效地检索数据。这通过消除在信息检索阶 段另外可能被机器学习的模型高评分的候选的损失而比具有分离的信息检索和机器学习 排名阶段的系统相比更为有利。总之,根据本公开主题的实现方式更多候选可以被更精确 地排名。
[0011] 本公开的技术可以被应用于使用有监督的学习数据(诸如标记的示例)生成的 机器学习的模型。该标记的示例可以被输入机器学习系统并且机器学习系统的输出可以 是包含响应于标记的数据而生成的权重的机器学习的模型。该标记的示例可以包含成果 (outcome)以及与特定实例相关联的属性两者。应当理解,权重和成果可以是无单位数值、 百分比、出现计数或者其他定量。机器学习系统可以接收标记的数据(例如,标记的示例) 以开发包含响应于有监督的标记的数据而生成的权重的机器学习的模型。一个或多个规则 可以由机器学习的模型创建。
[0012] 规则可以包括成果、特征集和概率。例如,规则:
[0013] (keyword :car, video :carmaker_l)->. 03
[0014] 指示当用户在搜索引擎提交搜索关键字"车(car) "(特征)并且该用户被呈现以 关于Carmaker_l的视频(成果)时,存在3%的概率用户将选择该视频以查看它(概率)。
[0015] 可搜索索引中的条目可以包括文档和可搜索令牌。机器学习的基于令牌的索引中 的令牌可以被称为索引的令牌。索引的令牌可以包括关键字或者可以不包括关键字。例如, 索引可以包括包含关键字"车"的一个令牌以及不包括关键字但涉及诸如位置、语言和浏览 器设置之类的其他特征的其他令牌。通常,特征可以包括关于用户已知的任何信息,诸如由 用户提交的查询文本、由用户设置的浏览器配置等。同样,特征可以是通用状态信息,诸如 一天中的时间、地理位置等。例如,网页可以被索引以产生如下条目:
[0016] web_page_l:[text:boxcar, 4. 0], [image:train,2. 0]
[0017] 这指示网站的网页("web_page_l",文档)包括文本串"boxcar"四次以及两个火 车(train)的图像。
[0018] 根据本公开主题的一个实现方式,标准基于规则的机器学习的模型可以被分解成 具有权重的文档和令牌集。例如,以下规则指示将搜索关键字"车"录入搜索引擎的用户将 选择关于特定车企(carmaker)的视频的可能性:
[0019] (keyword :car, video :carmaker_l)->. 03
[0020] (keyword :car, video :carmaker_2)->. 05
[0021] 这些规则可以被变换成包括对应于每个视频的可搜索令牌的集合的条目,诸如:
[0022] carmaker_l : [keyword :car, . 03]
[0023] carmaker_2 : [keyword :car, . 05]
[0024] 条目可以包括成果(诸如"carmaker_l")、令牌(诸如keyword :car)和权重(诸 如3%)。令牌可以基于机器学习的规则中的特征的出现。权重可以对应于成果将基于某 些特征(这里表示为令牌)的出现而出现的概率。
[0025] 由于实现方式的数据具有与标准web搜索信息检索问题相同的结果,因此可以 使用标准web搜索和其他信息检索技术,诸如反向索引(inverted indices)和倒排列表
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1