背景技术:
1、本说明书涉及使用神经网络来执行信息检索。
2、神经网络是采用一层或多层非线性单元来预测针对接收到的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作对网络中的下一层——即,下一隐藏层或输出层——的输入。网络的每个层根据相应参数集的当前值从接收到的输入生成输出。
技术实现思路
1、本说明书描述了一种被实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统,该系统响应于接收到的查询而执行信息检索任务以检索资源集合内的信息。
2、该系统的实施方式解决了响应于查询而针对目标高效地搜索图数据存储结构的问题。图由保存信息的节点以及定义节点之间的关系的节点之间的链接来定义。该系统的实施方式能够通过经由链接高效地遍历通过节点的路径来标识目标,以标识特定信息存储位置。
3、所描述的技术可以被用于搜索任何类型的信息;它们不依赖于数据的种类。目标可以是软目标或近似目标。在搜索过程期间不需要人为干预。
4、作为一个示例,该系统可以从一个或多个网站的集合检索信息,其中每个资源表示一个或多个网站中的网页或一个或多个网站中的网页的一部分。在该场境中,高效地遍历通过节点的路径导致减少的通信带宽(因为需要检索更少的网页)和快速的,即低延时的搜索。
5、可以实现本说明书中描述的主题的特定实施例,以便实现以下附加优点中的一个或多个。
6、所描述的技术的实施方式提供了在搜索图存储结构时较低的存储器和计算要求的技术优点。这是通过使用导航策略神经网络来处理尤其是节点处的信息的嵌入以生成来自该节点的传出链接的分数来实现的,然后使用该分数来选择要跟随的链接中的一个。
7、通过使用神经网络以通过导航通过资源集合来生成对查询的响应,所描述的技术即使在传统信息检索技术失败的情况下也可以生成对各种查询的有效响应。例如,所描述的技术可以通过搜索可能无法由互联网搜索引擎有效搜索到的资源集合来生成对查询的有效响应。例如,资源集合可以是对互联网搜索引擎不可访问的一个或多个带防火墙的网站。作为另一示例,资源集合可以是尚未被互联网搜索引擎索引的一个或多个网站(并且,因此,互联网搜索引擎不能从未索引的网站生成标识页面的结果)。作为另一示例,资源集合可以是被频繁地更新并且因此具有与它们最后被互联网搜索引擎爬取时的内容显著不同的内容的一个或多个网站。作为另一示例,所描述的技术可以用于补充互联网搜索引擎或其他信息检索系统,例如,通过使用信息检索系统来找到集合相对于查询的正确附近,并且然后使用所描述的技术来找到从由信息检索系统标识的当前资源开始的期望目标。
8、在一般实施方式中,所描述的系统可以处理包括非结构化数据的资源,例如自然语言的文本。即使当图模式随时间变化时,系统的实施方式也可以有效地操作。
9、在附图和下面的描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求,主题的其他特征、方面和优点将变得显而易见。
1.一种由一个或多个计算机执行的方法,所述方法包括:
2.根据权利要求1所述的方法,其中,所述资源集合包括一个或多个网站,并且其中所述集合中的每个资源表示所述一个或多个网站中的网页的至少一部分。
3.根据权利要求2所述的方法,其中,对于所述导航迭代中的至少一个,截至所述导航迭代的所述当前资源表示特定网页的一部分,并且来自截至所述导航迭代的所述当前资源的所述多个传出链接包括(i)到所述特定网页的一个或多个其他部分中的每个部分的相应链接以及(ii)到所述集合中的其他网页的一个或多个超链接。
4.根据权利要求2或3中的任一项所述的方法,其中,所述查询是通过互联网搜索引擎提交的,并且其中(i)所述一个或多个网站尚未被所述互联网搜索引擎索引,或者(ii)自所述一个或多个网站已经被所述互联网搜索引擎索引以来,所述一个或多个网站中的所述网页中的一个或多个网页的内容已经改变。
5.根据权利要求2至4中的任一项所述的方法,其中,所述一个或多个网站对搜索引擎爬虫不可访问。
6.根据任一前述权利要求所述的方法,其中,所述查询是从客户端设备接收的,并且其中,所述方法还包括:
7.根据任一前述权利要求所述的方法,其中,对所述查询的所述响应包括到在所述最后一次导航迭代之后的所述当前资源的链接。
8.根据任一前述权利要求所述的方法,其中对所述查询的所述响应包括(i)来自在所述最后一次导航迭代之后的所述当前资源的内容、(ii)来自在所述最后一次导航迭代之后的所述当前资源的所述内容的概要、或(iii)两者。
9.根据任一前述权利要求所述的方法,其中,所述资源编码器神经网络包括自注意力神经网络,所述自注意力神经网络被配置为处理来自所述资源的文本词元以生成所述文本词元中的每个文本词元的相应词元嵌入。
10.根据任一前述权利要求所述的方法,其中,基于所述传出链接的所述相应分数来选择所述传出链接中的一个包括:
11.根据任一前述权利要求所述的方法,还包括:
12.根据权利要求11所述的方法,其中,确定已经满足终止标准包括:
13.根据权利要求11所述的方法,其中,确定已经满足终止标准包括:
14.根据任一前述权利要求所述的方法,其中,使用导航策略神经网络至少从所述传出链接的所述嵌入、所述当前资源的所述嵌入和所述查询的所述嵌入生成每个传出链接的相应分数包括:
15.根据权利要求14所述的方法,其中,所述导航输入还包括截至任何先前导航迭代的所述当前资源的相应嵌入。
16.根据任一前述权利要求所述的方法,其中,生成每个传出链接的相应嵌入包括:
17.根据权利要求16所述的方法,其中,至少从(i)由所述传出链接所链接到的所述相应其他资源的内容、(ii)对应于所述传出链接的所述当前资源中的文本、或(iii)两者来生成所述相应嵌入包括:
18.根据权利要求16或权利要求17所述的方法,其中,至少从(i)由所述传出链接所链接到的所述相应其他资源的内容、(ii)对应于所述传出链接的所述当前资源中的文本、或(iii)两者来生成所述相应嵌入包括使用所述资源编码器神经网络来处理(i)、(ii)或(iii)。
19.根据任一前述权利要求所述的方法,其中,标识资源集合中的当前资源包括:
20.根据任一前述权利要求所述的方法,还包括:
21.一种训练根据任一前述权利要求所述的导航策略神经网络和查询编码器神经网络的方法,所述方法包括:
22.根据权利要求21所述的方法,其中,在第一图导航任务上至少预先训练所述导航策略神经网络包括通过对奖励的强化学习来预先训练所述导航策略神经网络,所述奖励度量所述第一图导航任务是否成功完成。
23.根据权利要求21至22中的任一项所述的方法,其中,所述第一图导航任务的每个实例要求从所述实例的源资源开始在对应阈值数量的导航迭代内到达所述实例的目标资源。
24.根据权利要求23所述的方法,其中,所述任务的不同实例具有不同的对应阈值。
25.根据权利要求21至24中的任一项所述的方法,其中,在第一图导航任务上至少预先训练所述导航策略神经网络包括预先训练所述资源编码器神经网络。
26.一种系统,包括:
27.一种或多种计算机可读存储介质,所述计算机可读存储介质存储指令,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1至25中的任一项所述的方法的相应操作。