查询方法、装置、电子设备及存储介质与流程

文档序号:24641424发布日期:2021-04-09 20:54阅读:68来源:国知局
查询方法、装置、电子设备及存储介质与流程

本发明涉及文本处理领域,尤其涉及一种查询方法、装置、电子设备及存储介质。



背景技术:

在计算机上进行查询时,通常采用词嵌入方法来计算待查询词语的特征向量以及候选词语的特征向量,然后根据词语的特征向量计算待查询词语与候选词语之间的语义相关度,最终根据所述语义相关度确定查询结果。

现有技术中已经有多种词嵌入方法,如谷歌公司提出的基于word2vec的词嵌入方法、谷歌公司提出的transformer模型以及bert模型。

现有技术中的词嵌入方法虽然在性能上有极大提升,但这些方法均只考虑文本的特性,而没有考虑文本所附带的其他特性。

例如,在空间数据应用的场景下,每个空间对象不仅包含文本描述信息,也包含位置信息。在某些情况下文本的语义可能会受所处空间位置的影响。

如,一用户在搜索系统中搜索“a公园”,搜索系统返回的候选结果包括“a花园”和“a体育场”两个相距较远的地点时,从文本语义看结果“a花园”与搜索词“a公园”更为接近,但该用户发起搜索时可能正在a体育场附近,其真正的意向是寻找去a体育场的路,这时仅根据文本语义来判定搜索词与候选结果之间的相似度会使得搜索结果出现偏差。

从上述例子中可以看出,在空间数据应用的场景下,要得到正确的查询结果需要将文本信息与位置信息相结合。

在现有技术中,在处理空间数据时将文本信息与位置信息分开处理,无法在空间数据的文本信息与位置信息之间建立准确的关联;现有的词向量编码模型不能展现出词与位置信息之间的关联,即使在bert模型中增加一个空间位置向量,在进行模型训练时也可能会丢失位置信息,使模型无法获得空间位置的隐含语义;现有的词向量编码模型全部是基于文本自身来训练的,只能提取文本信息进行学习,无法学习到位置信息对词的影响。



技术实现要素:

针对现有技术存在的问题,本发明实施例提供一种查询方法、装置、电子设备及存储介质。

第一方面,本发明实施例提供一种查询方法,包括:

根据用户发起查询请求时的位置信息,确定与所述查询请求对应的空间区域;

根据所述查询请求的文本描述信息,在所述空间区域内查找与所述查询请求相对应的候选查询结果集合;

根据预先设置的词与词嵌入向量之间的映射关系,确定所述查询请求的文本描述信息的特征向量以及所述候选查询结果集合中各个候选查询结果的特征向量;其中,所述词嵌入向量反映了词与词所在文本中其他词之间的关联度以及词与空间区域之间的关联度;所述特征向量是根据所述文本描述信息或所述候选查询结果中所包含的词的词嵌入向量得到的;

根据所述候选查询结果集合中各个候选查询结果的特征向量与所述查询请求的文本描述信息的特征向量之间的距离,为所述候选查询结果集合中的各个候选查询结果排序并返回给用户。

上述技术方案中,在所述根据用户发起查询请求时的位置信息,确定与所述查询请求对应的空间区域的步骤之前,方法还包括:

获取样本空间数据,所述样本空间数据包括位置信息以及文本描述信息;

根据所述位置信息以及文本描述信息,为所述文本描述信息中的各个词生成对应的词嵌入向量;

建立词与对应的词嵌入向量之间的映射关系。

上述技术方案中,所述根据所述位置信息以及文本描述信息,为所述文本描述信息中的各个词生成对应的词嵌入向量,具体包括:

结合所述位置信息,通过四叉树划分的方式为所述文本描述信息中的各个词确定词所在的空间子区域;根据所述文本描述信息中的各个词所在的空间子区域,得到各个词各自对应的空间位置编码向量以及空间影响力向量;其中,所述空间子区域是索引空间分割后的结果;

根据所述文本描述信息中各个词的空间位置编码向量以及空间影响力向量,对所述文本描述信息中的各个词进行空间融合,得到包含有词与不同空间子区域关联程度的空间融合后向量;

对所述空间子区域进行聚集,将聚集后空间子区域内的词替换为该词的空间融合后向量;根据聚集后空间子区域内的词的空间融合后向量以及所述词的空间影响力向量,计算词的空间注意力值,得到词的空间注意力向量;所述空间注意力向量用于突出空间位置的影响力;

根据所述词的空间注意力向量、词的影响力向量以及词的区域向量,得到对应的词嵌入向量;其中,词的影响力向量由词的空间注意力向量以及词的空间影响力向量生成;词的区域向量是指四叉树划分后的子空间区域所对应的编码向量。

上述技术方案中,所述根据所述文本描述信息中各个词的空间位置编码向量以及空间影响力向量,对所述文本描述信息中的各个词进行空间融合,得到用于反映一个词与不同空间子区域关联程度的空间融合后向量,具体包括:

将所述文本描述信息中各个词的空间位置编码向量以及空间影响力向量输入词空间融合模型,得到所述文本描述信息中各个词的空间融合后向量;其中,

所述词空间融合模型包括一维卷积层以及前馈神经网络;其中,

所述一维卷积层通过卷积核函数提取所述空间位置编码向量中的有效特征,并根据所述空间影响力向量消除空间影响力低于预设阈值的空间子区域;

所述前馈神经网络包括输入层、隐藏层和输出层,其中,所述隐藏层只有一个,所述输出层为所述输入层所要预测的第一词设置第一词的倒排四叉树编码;所述前馈神经网络的目标函数用于实现位置信息与文本描述信息的融合判定。

上述技术方案中,所述对所述空间子区域进行聚集,将聚集后空间子区域内的词替换为该词的空间融合后向量,具体包括:

通过空间注意力模型的卷积层部分对所述空间子区域进行聚集,将聚集后空间子区域内的词替换为该词的空间融合后向量;其中,所述空间注意力模型的卷积层部分包括多个依次堆叠的卷积层,所述卷积层用于实现空间子区域的聚集以及聚集后空间子区域与词的集合之间的关联;

相应的,所述根据聚集后空间子区域内的词的空间融合后向量以及所述词的空间影响力向量,计算词的空间注意力值,得到词的空间注意力向量,具体包括:

将所述根据聚集后空间子区域内的词的空间融合后向量输入所述空间注意力模型的空间注意力层部分,由所述空间注意力层部分结合所述词的空间影响力向量计算词的空间注意力值,得到词的空间注意力向量;其中,所述空间注意力模型的空间注意力层部分,所述空间注意力层部分堆叠有多个空间注意力层,所述空间注意力层用于突出聚集后空间子区域内的词的空间融合后向量中空间位置的影响力。

上述技术方案中,所述根据所述词的空间注意力向量、词的影响力向量以及词的区域向量,得到对应的词嵌入向量,具体包括:

将词的空间注意力向量、词的影响力向量以及词的区域向量作为bert模型的输入数据,对bert模型进行masklm任务的训练,masklm任务训练结束后,bert模型输出用于反映词与空间区域之间关联度的词空间关联度向量;

根据所述词空间关联度向量,为预设空间子区域集合内的词设定第一标签,然后在预设空间子区域内按照预设的比例随机选词,将所选取的词替换为所述预设空间子区域集合外的词并为替换后的词设定第二标签;在所述预设空间子区域内随机选取两个词,根据比较结果确定词向量的cls标记,最终输入所述bert模型,所述bert模型输出词嵌入向量;其中,

所述预设空间子区域集合为所述预设空间子区域及其相邻空间子区域的集合。

上述技术方案中,所述根据预先设置的词与词嵌入向量之间的映射关系,确定所述查询请求的文本描述信息的特征向量以及所述候选查询结果集合中各个候选查询结果的特征向量,具体包括:

对所述查询请求的文本描述信息进行分词操作,根据预先设置的词与词嵌入向量之间的映射关系,为所述分词操作得到的所述文本描述信息中的词确定对应的词嵌入向量,根据所述文本描述信息中的各个词的词嵌入向量确定所述文本描述信息的特征向量;

对所述候选查询结果集合中各个候选查询结果进行分词操作,根据预先设置的词与词嵌入向量之间的映射关系,为所述分词操作得到的各个候选查询结果中的词确定对应的词嵌入向量,根据各个候选查询结果中的各个词的词嵌入向量确定所述候选查询结果集合中各个候选查询结果的特征向量。

第二方面,本发明实施例提供一种查询装置,包括:

空间区域确定模块,用于根据用户发起查询请求时的位置信息,确定与所述查询请求对应的空间区域;

候选查询结果集合确定模块,用于根据所述查询请求的文本描述信息,在所述空间区域内查找与所述查询请求相对应的候选查询结果集合;

特征向量确定模块,用于根据预先设置的词与词嵌入向量之间的映射关系,确定所述查询请求的文本描述信息的特征向量以及所述候选查询结果集合中各个候选查询结果的特征向量;其中,所述词嵌入向量反映了词与词所在文本中其他词之间的关联度以及词与空间区域之间的关联度;所述特征向量是根据所述文本描述信息或所述候选查询结果中所包含的词的词嵌入向量得到的;

距离计算及排序模块,用于根据所述候选查询结果集合中各个候选查询结果的特征向量与所述查询请求的文本描述信息的特征向量之间的距离,为所述候选查询结果集合中的各个候选查询结果排序并返回给用户。

第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明第一方面实施例所述查询方法的步骤。

第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面实施例所述查询方法的步骤。

本发明实施例提供的查询方法、装置、电子设备及存储介质在进行查询操作时,根据查询请求的位置信息查找特定空间区域内的候选结果集合,然后将查询请求的结合了文本信息与位置信息的特征向量与候选结果集合的结合了文本信息与位置信息的特征向量进行比较,从而在候选结果集合中确定查询结果。由于在查询时不再仅仅根据文本信息进行查询,而是增添了位置信息,因此查询结果更为准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的查询方法的流程图;

图2为一个实施例中采用四叉树索引样本空间数据的示意图;

图3为本发明实施例提供的查询方法中所涉及的词空间融合模型的结构示意图;

图4为本发明实施例提供的查询方法中所涉及的空间注意力模型的示意图;

图5为本发明实施例提供的查询方法中所涉及的空间注意力模型中的卷积层所要完成的操作的流程图;

图6为本发明实施例提供的查询方法中所涉及的空间注意力模型中的空间注意力层的结构示意图;

图7为本发明实施例提供的查询方法中所涉及的空间注意力模型中的空间注意力层进行词向量合并的示意图;

图8为本发明实施例提供的查询方法中所涉及的空间注意力模型中的空间注意力层所要完成的操作的流程图;

图9为本发明实施例提供的查询方法中所采用的bert模型的结构示意图;

图10为本发明实施例提供的查询方法中所采用的bert模型输入层的输入数据的示意图;

图11为本发明实施例提供的查询方法中通过bert模型中的空间文本预测任务来削弱无关的词空间关联性的流程图;

图12为本发明实施例提供的查询装置的示意图;

图13为本发明实施例提供的查询方法所涉及的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例提供的查询方法的流程图,如图1所示,本发明实施例提供的查询方法包括:

步骤101、根据用户发起查询请求时的位置信息,确定与所述查询请求对应的空间区域。

在本发明实施例中,用户发起查询请求时,用户所处的位置就是用户发起查询请求时的位置信息。位置信息可以是经纬度坐标信息。位置信息可通过用户的具有定位功能的终端设备得到,如可移动的智能终端设备,包括智能手机、智能手表、平板电脑、笔记本电脑等。用户的终端设备通过诸如gps定位模块、北斗定位模块等卫星定位模块获得用户在发起查询请求时的位置信息。

在本发明实施例中,用户发起查询请求时,用户所输入的查询内容被称为文本描述信息。如用户在搜索框内所输入的“a公园”就是查询请求的文本描述信息。

在与位置信息相关的查询操作中,一般用户希望的查询结果是与用户当前所在位置相邻近的查询结果。例如,用户查询“人民公园”,全国各地有成百上千个“人民公园”,如果用户没有在“人民公园”这个关键词之前添加特定的限定词,如“上海人民公园”,那么居住在嘉兴的用户一般所希望查找的“人民公园”是与他距离最近的人民公园,如“嘉兴人民公园”。因此,在本步骤中,根据用户发起查询请求时的位置信息确定所属的空间区域。

空间区域的划分可以是预先设置的,如按照四叉树划分的方式对空间区域进行划分,在本发明实施例中不对空间区域的划分方法进行限制。

空间区域具有彼此之间相互区分的标识符,如用编号唯一地标记一个空间区域。所述标识符还可以采用其他类型的表示方式,如将地名与编号相结合、将邮政编码作为空间区域的标识符等,在本发明实施例中不对空间区域的表示方式进行限定。

根据已设置的空间区域划分结果,将查询请求的位置信息与空间区域的划分结果进行比较,可确定与查询请求对应的空间区域。如根据经纬度坐标信息查找对应的空间区域。

步骤102、根据所述查询请求的文本描述信息,在所述空间区域内查找与所述查询请求相对应的候选查询结果集合。

在之前的步骤中,已经根据查询请求中的位置信息确定了其所属的空间区域,在本步骤中,在查询请求所对应的空间区域内,根据查询请求的文本描述信息中所包含的词,查找与所述查询请求相对应的候选查询结果集合。

具体的说,可将文本描述信息中所包含的词作为关键字,通过模糊匹配的方式在特定的空间区域内查找候选查询结果。由于候选查询结果一般有多个,因此可生成候选查询结果集合。

例如,用户在嘉兴市发起查找“人民公园”的查询请求,则该查询请求对应嘉兴市的空间区域内,与该查询请求相对应的候选查询结果是嘉兴市区域内与“人民公园”相关的结果,而不是上海市或成都市区域内的与“人民公园”相关的结果。

所述候选查询结果为空间数据,它不仅包括文本描述信息,也包括位置信息。如一个候选结果不仅包括“人民公园”这一文本描述信息,还包括该公园的经纬度坐标信息。

步骤103、根据预先设置的词与词嵌入向量之间的映射关系,确定所述查询请求的文本描述信息的特征向量以及所述候选查询结果集合中各个候选查询结果的特征向量。

在本发明实施例中,所述词嵌入向量反映了词与词所在文本中其他词之间的关联度以及词与空间区域之间的关联度;所述特征向量是根据所述文本描述信息或所述候选查询结果中所包含的词的词嵌入向量得到的。

在本发明实施例中,词与词嵌入向量之间的映射关系可以用如下的方式表示:{词,词嵌入向量}。根据词与词嵌入向量之间的映射关系,可为词查找到对应的词嵌入向量。

词与词嵌入向量之间的映射关系可以用数据库的方式存储,如redis数据库,其中以词作为key值,以词嵌入向量作为value值。

在本发明实施例中,词与词嵌入向量之间的映射关系是基于样本空间数据预先生成的,在本发明的其他实施例中,将对如何根据样本空间数据生成词与词嵌入向量之间的映射关系的过程做详细描述。

本步骤的实现过程具体包括:

对所述查询请求的文本描述信息进行分词操作,根据预先设置的词与词嵌入向量之间的映射关系,为所述分词操作得到的所述文本描述信息中的词确定对应的词嵌入向量,根据所述文本描述信息中的各个词的词嵌入向量确定所述文本描述信息的特征向量;

对所述候选查询结果集合中各个候选查询结果进行分词操作,根据预先设置的词与词嵌入向量之间的映射关系,为所述分词操作得到的各个候选查询结果中的词确定对应的词嵌入向量,根据各个候选查询结果中的各个词的词嵌入向量确定所述候选查询结果集合中各个候选查询结果的特征向量。

在上述实现过程中,分词操作是本领域技术人员的公知常识,在本发明实施例中,不对分词操作的实现细节做进一步描述。

在得到查询请求的文本描述信息或候选查询结果中各个词的词向量后,可由单个词的词向量进一步得到整个文本描述信息或候选查询结果的特征向量。例如,对文本描述信息或候选查询结果中所包含的所有词的词向量做加权平均计算,从而得到整个文本描述信息或候选查询结果的特征向量。也可采用其他的计算方法来计算整个文本描述信息或候选查询结果的特征向量,在本发明实施例中对此不做限定。

步骤104、根据所述候选查询结果集合中各个候选查询结果的特征向量与所述查询请求的文本描述信息的特征向量之间的距离,为所述候选查询结果集合中的各个候选查询结果排序并返回给用户。

在本发明实施例中,计算距离值时可采用计算余弦距离的方法。假设vq为查询请求的文本描述信息的特征向量,vr为某一候选结果的特征向量,则余弦距离的计算公式如下:

d=cos_sine(vq,vr);

其中,cos_sine是余弦距离计算函数。

在计算得到距离值后,对候选结果进行倒序排序,排序靠前的候选结果与用户的查询请求关系更为密切,是用户所需要的查询结果的可能性更高,可将排序后的候选结果输出给用户,供用户进行选择。

本发明实施例提供的查询方法在进行查询操作时,根据查询请求的位置信息查找特定空间区域内的候选结果集合,然后将查询请求的结合了文本信息与位置信息的特征向量与候选结果集合的结合了文本信息与位置信息的特征向量进行比较,从而在候选结果集合中确定查询结果。由于在查询时不再仅仅根据文本信息进行查询,而是增添了位置信息,因此查询结果更为准确。

基于上述任一实施例,在本发明实施例中,在步骤101之前,方法还包括:

获取样本空间数据,所述样本空间数据包括位置信息以及文本描述信息;

根据所述位置信息以及文本描述信息,为所述文本描述信息中的各个词生成对应的词嵌入向量;

建立词与对应的词嵌入向量之间的映射关系。

在本发明前一实施例中,所述词与词嵌入向量之间的映射关系是预先设置的,在本发明实施例中,根据样本空间数据生成词与词嵌入向量之间的映射关系。

所述样本空间数据是作为样本的空间数据,而空间数据是包含了位置信息的数据,空间数据一般包括文本描述信息,位置信息。文本描述信息主要涉及文本的内容,如“人民公园”这四个字就属于文本描述信息。位置信息,顾名思义,用于表示空间位置,通常以经纬度坐标数据的方式来表示。如“人民公园”的经纬度坐标是“东经121.473221,北纬31.232229”,那么该坐标值就是“人民公园”的位置信息。

从上述举例说明可以看出,地图中的地名就是较为典型的空间数据。

空间数据的格式可以是data=<p,t>,其中p为空间数据的位置信息,而t为空间数据的文本描述信息。

在获得一定数量的样本空间数据后,根据样本空间数据的位置信息以及文本描述信息,为所述文本描述信息中的各个词生成对应的词嵌入向量。具体包括:

步骤s1、结合所述位置信息,通过四叉树划分的方式为所述文本描述信息中的各个词确定词所在的空间子区域;根据所述文本描述信息中的各个词所在的空间子区域,得到各个词各自对应的空间位置编码向量以及空间影响力向量;其中,所述空间子区域是索引空间分割后的结果;

步骤s2、根据所述文本描述信息中各个词的空间位置编码向量以及空间影响力向量,对所述文本描述信息中的各个词进行空间融合,得到包含有词与不同空间子区域关联程度的空间融合后向量;

步骤s3、对所述空间子区域进行聚集,将聚集后空间子区域内的词替换为该词的空间融合后向量;根据聚集后空间子区域内的词的空间融合后向量以及所述词的空间影响力向量,计算词的空间注意力值,得到词的空间注意力向量;所述空间注意力向量用于突出空间位置的影响力;

步骤s4、根据所述词的空间注意力向量、词的影响力向量以及词的区域向量,得到对应的词嵌入向量;其中,词的影响力向量由词的空间注意力向量以及词的空间影响力向量生成;词的区域向量是指四叉树划分后的子空间区域所对应的编码向量。

本发明实施例提供的查询方法根据样本空间数据中所包含的位置信息以及文本描述信息,通过对文本描述信息中的词进行空间位置编码、空间影响力编码、词融合、注意力计算等多个操作,得到了词所对应的词嵌入向量,从而生成词与词嵌入向量之间的映射关系,为后续的查询操作奠定了良好的基础。

基于上述任一实施例,在本发明实施例中,所述步骤s1具体包括:

首先对空间数据中的文本描述信息进行分词操作,得到文本描述信息所包含的各个词。

接着,根据所述词与空间数据的位置信息之间的关联关系,为所述词进行编码,得到空间位置编码向量。

为词进行编码的目的是在样本空间数据的词与位置信息之间建立关联。在本发明实施例中,基于空间文本索引的编码方式来构建词的空间位置编码向量。

具体的说,首先采用四叉树来索引样本空间数据,四叉树会将索引空间划分成不同的子空间。图2为一个实施例中采用四叉树索引样本空间数据的示意图。在该实施例中,根据样本空间数据的分布特点采用四叉树将索引空间分为10个子区域,使得每个子区域内的样本空间数据都包含一个关键词集合。如图2所示,所得到的10个子区域的编号分别为0、4、5、6、7、8、9、10、11、12(在图2中之所以没有编号1、2和3,是因为按照z-order排序的规则,如果0号子区域被划分成4块,则相应的子区域的编号为0,1,2,3)。

根据一个子区域内的样本空间数据所包含的关键词集合可以得到更小范围内的子区域所包含的词的集合。基于空间区域编码方法设置一种向量表示,由于该向量能够描述样本空间数据的词与位置信息之间的关联,因此在本发明实施例中被称为空间位置编码向量。

具体的说,在进行编码时,每个空间位置编码向量中的值按空间区域的z-order编号由低到高排序,如果该子区域包含对应的词则填1,不包含则填0。例如,在图2所示的子区域分布图中,假设只有子区域0、9、12包含“饭店”这个词,那“饭店”这个词的向量表示为:

bvec<饭店>=<1,0,0,0,0,0,0,0,0,1,0,0,1>;

该向量为13维,分别对应编号从0至12的子区域,虽然在图2所示的实施例中并没有划分出编号为1、2、3的子区域,但为了向量表示与计算的方便,在上述向量中还是包含了编号为1、2、3的子区域所对应的维度。

通过上述基于空间文本索引的编码方式所构建的词的空间位置编码向量,能够描述一个空间子区域是否包括某一词,因而可以建立词与位置信息的简单关联,实现了文本信息到位置信息的直观映射,保留了文本和位置信息。

参照上述的编码方式,对所有词进行编码,将编码结果组合为一个base_word的矩阵,该矩阵的每一行都是一个词的空间位置编码向量,矩阵的行数取决于空间数据的文本描述信息中所包含的词的数量。

最后,根据空间数据在各个子区域内的分布,还可以计算出空间数据中的词在每个空间子区域的影响力。

所述影响力可以用影响力因子表示,所述影响力因子的计算公式为:

ce=numword/numall;

其中,numword表示在一个子区域内包含词word的空间数据的数量,而numall表示一个子区域内所有空间数据的数量。

基于影响力因子,可进一步得到词的空间影响力向量。一个词对应一个空间影响力向量,空间影响力向量的列对应词所处的子区域,而列存储的是该词对于列所对应子区域的影响力因子。

多个词的空间影响力向量可形成空间影响力矩阵ce_word,该矩阵的行对应于一个词,列对应词所处的子区域,而对于包含某一词的子区域所对应的列存储的是该词对于该子区域的影响力因子。

从影响力因子的计算公式可以看出,某子区域中包含某个词的数量越多,则该词对该子区域的影响力就越大。

例如,在影响力矩阵ce_word中,词“饭店”所对应行的数据会有如下形式:

ce_word[i]=<0.121,0,0,0,0,0,0,0,0,0.456,0,0,0.238>

样本空间数据中的其他词也会有类似的形式。

本发明实施例提供的查询方法实现了词的空间位置编码向量以及空间影响力向量的生成。

基于上述任一实施例,在本发明实施例中,所述步骤s2具体包括:

将所述文本描述信息中各个词的空间位置编码向量以及空间影响力向量输入词空间融合模型,得到所述文本描述信息中各个词的空间融合后向量。

在之前的步骤中,为空间数据中的词生成了空间位置编码向量。空间位置编码向量能够描述一个空间子区域是否包括某一词,建立了词和空间位置的简单关联。为了进一步了解空间子区域与词之间的关联程度,在本发明实施例中,采用一种词空间融合模型(ws2vec:wordspatialtovector)来学习词在空间位置上的关联关系。

图3为词空间融合模型的结构示意图,如图3所示,该词空间融合模型可以分为两部分,第一部分是一个一维卷积层,第二部分是类似word2vec模型的一个只包含输入层、隐藏层和输出层的前馈神经网络。

一维卷积层的作用是通过卷积核函数来提取空间位置编码向量中的有效特征,并且通过卷积运算建立同一个词在不同区域的关联。

具体的说,卷积核函数的表达式如下:

core(xi)=f(xi-j,…,xi-1,xi,xi+1,…,xi+j)g(ce_word[word,i],2j+1);

其中,i为词的空间位置编码向量中的列坐标,即词所对应的子区域编码,j则是卷积核长度系数,从上式可以看出一维卷积的长度为2j+1;函数f()是卷积核计算函数,xi为参与卷积运算的编码值。

通过卷积核函数所提取的空间位置编码向量中的有效特征可以用wi表示。

在本发明实施例中,采用一维卷积可以将多个空间位置编码向量的列的值一起考虑,从而建立同一个词在不同子区域上的关系,其中j的值可根据实际情况选定。

一维卷积层还可以将影响力过低的子区域予以消除,即进行过滤操作。具体的说,从词的空间影响力矩阵中得到某一词的在各个空间子区域的影响力分布,将该影响力分布的值与参与卷积运算的编码值进行向量乘法,并设置影响力阈值θ。把那些影响力过低的区域清除,即把值小于θ的空间词向量的列的值置为0,以此来消除噪声,去除影响力低的空间子区域对词空间位置关联的影响。相应的计算公式为:

ce_word[word,i]xi>θ;

其中,word表示某一词;i为词的空间位置编码向量中的列坐标;xi为参与卷积运算的编码值。

通过上述过滤操作,由空间位置编码向量中的有效特征wi得到前馈神经网络的输入词向量xi。

在本发明实施例所涉及的词空间融合模型中,前馈神经网络包括输入层、隐藏层和输出层;其中,隐藏层只有一个。

具体的说,根据一维卷积层输出的向量将空间数据的文本描述信息表示为词的空间位置编码向量的集合,同时随机剔除其中一个词作为标签数据,再将剩余的向量输入前馈神经网络进行训练。

例如,经过一维卷积层的处理,得到多个词“中央饭店、饭菜、很、好吃”的空间位置编码向量;然后随机剔除“饭菜”这个词,并将“饭菜”这个词的z-order编码作为前馈神经网络输出的结果,再将其他剩余词的空间位置编码向量输入到网络中进行学习,用其他剩余的词来预测“饭菜”这个词。通过这一训练过程,可以学习到“饭菜”这个词与其他输入词之间的关联,包括文本的关联和空间位置的关联。

为了能够建立词和空间位置的紧密关联,与现有的word2vec模型相比,所述词空间融合模型的输出层被加以改造。输出层将不使用word2vec模型的哈夫曼树编码,而是使用基于空间倒排索引的编码,为每个词建立一个空间索引,且该索引只包含叶节点的z-order编码。

例如,在前述实施例中所描述的词“饭店”的例子,基于空间倒排索引的编码为该词所建立的空间索引的表示方式为:

rvec<饭店>=<0,9,12>。

通过前馈神经网络的训练,建立词和空间位置、同一个词和不同空间位置之间的联系,根据word2vec的思想,隐藏层的权重矩阵就是所求的结果。

为了在训练前馈神经网络时能够学习到空间位置的信息,对word2vec的目标函数和优化函数做如下改进。首先,设前馈神经网络的目标函数δ为:

其中w为所求的词,其属于词集合t,i为空间倒排索引的编码下标,lw则为空间倒排索引编码的长度减去1的值;在公式中的σ是针对输出层空间编码的极大似然函数,其形式如下:

如上式所示,采用word2vec极大似然函数的思想,将diw表示为每个单词对应的z-order编码,为了描述空间特性和防止出现负值,本方案使用sigmod函数将z-order编码值映射进[0,1]之间,从而保持了空间位置的差异性;即为中间隐藏层的输出结果,也是要优化的对象;则表示词w的编码子向量,即<0>,<0,9>,<0,9,12>;有了这些参数后可以计算极大似然函数的值。

目标函数中的τ函数用于计算词所对应区域大小与总区域大小的比值,用来作为调节极大似然函数值的权重参数,如果比值越大则说明词的区域影响力越大,越需要进一步优化得到精确的结果,其计算公式如下:

其中为词w所属i区域的面积,而为包含词w的所有面积之和。

通过对目标函数计算公式的描述可以看出,目标函数融合了极大似然函数与z-order编码的特性,实现了位置信息与文本描述信息的融合判定。

有了前述的目标函数后,只要使用随机梯度上升法,通过调节隐藏层节点的参数权重,使目标函数达到最大值,当目标函数达到最大值时,词空间融合模型中的中间隐藏层的权重就是所要求的词空间融合后的向量。在本发明实施例中,也将基于词空间融合模型所得到的向量称为空间融合后向量。

下面结合本发明实施例提供的词空间融合模型,对如何为空间数据中的词与位置信息建立精确联系的过程做进一步说明。

步骤s21、利用词空间融合模型中的一维卷积层对词所对应的空间位置编码向量进行卷积运算,从而提取词所对应的空间位置编码向量中的有效特征,并且建立同一个词在不同空间子区域的关联。

作为一种可选的实现方式,在步骤s21中还包括对卷积运算的结果进行过滤操作,以消除噪声,去除影响力低的空间子区域对词空间位置关联的影响。

步骤s22、根据词所对应的空间位置编码向量,构建前馈神经网络的标签,即生成每个词的倒排四叉树编码。

步骤s23、对词空间融合模型中的前馈神经网络进行初始化,包括初始化所述前馈神经网络中各层节点的权重矩阵,以及按照前馈神经网络的输入层预测的词在相应的输出层位置设置该词的倒排四叉树编码。

步骤s24、进行前馈神经网络的训练,使用前述的目标函数进行权重参数的优化。

在本步骤中,将步骤s21的输出结果作为前馈神经网络的训练数据。

步骤s25、当目标函数达到最大值后,训练结束,将前馈神经网络的中间隐藏层的权重矩阵作为词空间融合后的向量并输出。

本发明实施例提供的查询方法通过词空间融合模型实现了空间数据中的词与空间位置之间的精确关联。

基于上述任一实施例,在本发明实施例中,所述步骤s3具体包括:

通过空间注意力模型的卷积层部分对所述空间子区域进行聚集,将聚集后空间子区域内的词替换为该词的空间融合后向量;其中,所述空间注意力模型的卷积层部分包括多个依次堆叠的卷积层,所述卷积层用于实现空间子区域的聚集以及聚集后空间子区域与词的集合之间的关联;

将所述根据聚集后空间子区域内的词的空间融合后向量输入所述空间注意力模型的空间注意力层部分,由所述空间注意力层部分结合所述词的空间影响力向量计算词的空间注意力值,得到词的空间注意力向量;其中,所述空间注意力模型的空间注意力层部分,所述空间注意力层部分堆叠有多个空间注意力层,所述空间注意力层用于突出聚集后空间子区域内的词的空间融合后向量中空间位置的影响力。

在之前的步骤s2中,词空间融合模型实现了空间数据中的词与空间位置之间的精确关联。为了关注到位置信息对词所对应的向量的影响,在本发明实施例中,采用了空间注意力(spatial-attention)模型。

图4为空间注意力模型的示意图,如图4所示,空间注意力模型包括两个部分,第一部分是卷积层,第二部分是空间注意力层。

空间注意力模型的卷积层部分中包括有多个卷积层,这些卷积层依次堆叠。卷积层部分的作用主要是用来构建空间注意力层的训练输入数据。具体的说,在卷积层中使用卷积核函数将多个区域聚集,提炼出聚集区域后的文本集合,将这个文本集合作为空间注意力层的输入。

在空间注意力模型中选用卷积层是因为卷积层可以最大限度地让不同的空间子区域相互关联,保证词的空间关联性不会被遗漏。以图2为例,图2中的子区域10的相邻子区域包括子区域8、子区域9以及子区域11,而子区域9的相邻子区域是子区域0、子区域8、子区域10、子区域11、子区域12以及子区域6,通过子区域10只能建立子区域8到子区域10、子区域9和子区域11的关系,但是通过子区域9还可以额外建立子区域8和子区域0、子区域11、子区域12以及子区域6的关系。

卷积层部分使用多层卷积堆叠是为了扩大子区域关联的范围。卷积是在不断降维的,通过一个卷积层的卷积运算可以囊括一定范围的区域,而在后续的卷积层再运行卷积运算,就能够囊括进更广的区域,从而建立更广泛的关联,使空间注意力层在运算时能识别出更精确的词空间关联。

图5为空间注意力模型中的卷积层所要完成的操作的流程图,如图5所示,卷积层所要完成的操作包括:

步骤s31、将四叉树划分后的空间区域和样本空间数据作为卷积层的输入,并根据四叉树划分后的空间区域设置卷积核函数。

由于四叉树划分往往是不规则的,所以以每个子区域为中心,把该子区域周围相邻的最多8个子区域不论大小都包括在卷积核函数的窗口中,形成一种不规则的卷积核函数。例如,以图2中的子区域0为中心的话,则其核函数窗口中会包含编号为0、4、6、8、9、12这几个子区域。

步骤s32、对空间数据进行预处理,所述预处理包括:提取每个子区域中的样本空间数据的词,根据所述词构建出子区域内的词集合。

步骤s33、按照从左往右的顺序逐行扫描四叉树划分后的空间子区域,在扫描过程中利用步骤s31设定的卷积核函数进行卷积运算,得到聚集后的空间子区域。

与一般的卷积计算方法不同,本步骤中的卷积运算计算的是空间子区域的z-order编码,通过卷积运算将最多九个子区域(当前扫描的子区域以及周围相邻的最多8个子区域)映射为一个新的空间子区域,该新的空间子区域就是聚集后的空间子区域。

步骤s34、根据卷积运算结果构建聚集后的空间子区域的词集合。

根据步骤s31设定的卷积核函数的窗口,可提取窗口内所有空间子区域的空间数据的词,将这些词组合为一个词集合,将其与步骤s33计算出来的聚集后的子区域进行关联,得到聚集后的子区域的词集合。

步骤s35、将聚集后的空间子区域以及与聚集后空间子区域的词集合作为下一个卷积层的输入或输出层的输入。

由于卷积层有多个,如果当前卷积层之后还有卷积层,那么当前卷积层生成的聚集后的子区域以及与聚集后子区域的词集合可作为下一个卷积层的输入,如果当前卷积层是最后一个卷积层,那么当前卷积层生成的聚集后的子区域以及与聚集后子区域的词集合可作为输出层的输入。

步骤s36、判断卷积层的运算是否结束,如果尚未结束,执行步骤s32,以进行下一个卷积层的计算,否则执行步骤s37。

在本步骤中,判断卷积层的运算是否结束可根据预先设置的卷积层数确定。

步骤s37、将当前空间子区域所对应的词集合中的词都换成前述词空间融合模型生成的空间融合后向量,然后输出关于当前空间子区域的矩阵,该矩阵中的每一个当前空间子区域所对应的空间融合后向量的集合都作为一个整体文本输入到空间注意力(spatial-attention)层。

在之前的步骤中,通过卷积层实现空间子区域的聚集。在本步骤中,当前空间子区域为已经经过数次聚集的空间子区域,当前空间子区域的词集合是由聚集后的空间子区域中的词所构建的集合。

将当前空间子区域所对应的词集合中的词都换成之前词空间融合模型生成的与词相对应的空间融合后向量,从而可以用这些向量组成一个输入矩阵am,其中m为所对应的子区域编码。

将当前空间子区域所对应的空间融合后向量集合作为一个整体文本输入到空间注意力层,可以最大限度地实现

词的空间位置关联。

空间注意力模型的空间注意力层部分堆叠有多个空间注意力层,这些空间注意力层用于突出词所对应的词向量中空间位置的影响力,从而编码出融合位置信息的更精确的词向量。

图6为空间注意力层的结构示意图,如图6所示,空间注意力层与现有技术中常见的注意力层主要有两点不同:第一,空间注意力层的输入不再是一句话或一段话,而是在卷积层部分计算出来的词所对应的词向量的集合,以此作为attention计算的原料,图中a1m即表示空间区域am所对应矩阵的第一行,即第一个词的向量,这么做可以充分考虑一定空间范围内词的关联性。第二,在计算注意力(attention)值时引入了空间影响力矩阵,使注意力值的计算过程中能够关注位置信息。其中,注意力值的计算公式如下:

其中,公式的前一个括号内的是现有技术中的注意力计算方法,而公式的后一个括号内的是使用词空间影响力矩阵构建的权重参数,其中word是指当前节点对应的词,即word就是该节点输入的词,i是向量下标。

从上式可以看出空间影响力越大则权重系数越大,而空间影响力越小则权重系数越小,且空间影响力系数为0时是最小的,因此,通过这一步运算就可以放大有空间影响力的attention权重的值,即αi,同时缩小无空间影响力的attention权重的值,从而达到对位置信息的关注。

由于不同的子区域可能会具有相同的词,因此在每个子区域的文本数据都运算完成后,需要将相同词的词向量进行相加合并,得出最终的结果;图7为本发明实施例提供的查询方法中所涉及的空间注意力模型中的空间注意力层进行词向量合并的示意图,如图7所示,每一个spatial-attention层都会进行每个空间子区域的注意力计算,最后将计算结果汇总到词向量合并层,将同一个词的向量相加求和得出结果后,再作为下一个spatial-attention层的输入进行同样的运算,循环往复直至所有空间注意力层都计算完毕。

图8为空间注意力模型中的空间注意力层所要完成的操作的流程图,如图8所示,空间注意力层所要完成的操作包括:

步骤s301、接收卷积层的输出结果,并初始化空间注意力层,包括初始化q、k、v三个权重矩阵,并加载空间影响力矩阵。

步骤s302、进行数据格式化处理,主要包括:提取空间子区域所对应的词的词向量,作为空间注意力层的输入。

步骤s303、对词逐个进行空间注意力运算,计算出相应的注意力值,组成输出的词向量。

在本步骤中,对词进行空间注意力运算可参照前述的注意力值计算公式进行运算。

步骤s304、汇总各个子区域的计算结果,将相同词的向量相加求和,作为当前空间注意力层的计算结果进行输出。

步骤s305、判定空间注意力层是否全部计算完毕,如果是则转步骤s306,否则将该层的输出作为下一个空间注意力层的输入,重新执行步骤s302。

在本步骤,判断空间注意力层的计算是否结束可根据预先设置的空间注意力层数确定。

步骤s306、输出计算好的词向量,此时的词向量经过空间注意力运算,已经放大了有效的空间位置的影响。

在本发明实施例中,将空间注意力模型最终输出的词向量称为空间注意力向量。

本发明实施例提供的查询方法通过注意力机制放大了位置信息在词的空间注意力向量中的影响。

基于上述任一实施例,在本发明实施例中,所述步骤s4具体包括:

将词的空间注意力向量、词的影响力向量以及词的区域向量作为bert模型的输入数据,对bert模型进行masklm任务的训练,masklm任务训练结束后,bert模型输出用于反映词与空间区域之间关联度的词空间关联度向量;

根据所述词空间关联度向量,为预设空间子区域集合内的词设定第一标签,然后在预设空间子区域内按照预设的比例随机选词,将所选取的词替换为所述预设空间子区域集合外的词并为替换后的词设定第二标签;在所述预设空间子区域内随机选取两个词,根据比较结果确定词向量的cls标记,最终输入所述bert模型,所述bert模型输出词嵌入向量;其中,

所述预设空间子区域集合为所述预设空间子区域及其相邻空间子区域的集合。

在完成空间注意力运算之后,本发明实施例中使用bert(bidirectionalencoderrepresentationsfromtransformers)预训练模型来编码词向量,通过bert的双向transformer连接机制,可以更全面的建立词与空间位置的关联,这是因为bert模型在训练时可以读到整个文本完整的上下文信息。

图9为本发明实施例中所采用的bert模型的结构示意图,如图9所示,bert模型分为3个部分,即输入层、transformer编码层和输出层。

现有技术中的bert模型只针对文本进行训练,因此其输入层的输入数据由词向量、词的位置向量和词所属文本的标记向量相加而成。在本发明实施例中,bert模型需要进行位置信息隐含语义的学习,因此bert模型输入层的输入数据包括词向量、词的影响力向量以及词的区域向量。图10为bert模型输入层的输入数据的示意图。其中的词向量是指空间注意力(spatial-attention)模型所输出的包含有空间位置关联信息的向量,即前述的空间注意力向量。词向量中的e[cls]和e[seq]分别代表词组序列的开始与结束标记,即这两个标记之间的词都属于同一个句子。词的影响力向量是指能够区分词的空间影响力敏感程度的向量,该向量可由词的空间注意力向量以及词的空间影响力向量生成。词的区域向量是指四叉树划分后的子空间区域所对应的编码向量,例如,词的区域向量ea表示四叉树划分后的子空间区域a的编码向量。

在本发明实施例中,采用区域向量替换了词所属文本的标记向量,这是因为需要考虑不同区域中的同一个词的关联性。

在计算词的影响力向量时,采用空间注意力向量ei乘以词所对应的空间影响力向量自己的内积的计算方式,这样做可以有效的区分出空间影响力敏感和非敏感的词,其计算公式如下:

其中,ce_word[word]表示当前词word在矩阵ce_word中的行向量。

在改进bert模型的输入后,使用bert模型进行masklm基础任务的训练,通过这个任务来训练得出词的关联性,因为输入的词向量经过空间注意力模型编码,已经包含了空间位置的关联信息,所以masklm任务输出的编码已经是学习了词与空间之间关联的编码向量。在本发明实施例中,将bert模型所生成的向量称为词空间关联度向量。

但是masklm任务可能会出现语义的过度解读,将空间关联性很小的词学习为空间关联性很强的词,针对这个问题,本发明实施例通过面向空间位置的bert训练任务—spatialtextprediction(空间文本预测)—来削弱无关的词空间关联性。图11为通过bert模型中的空间文本预测任务来削弱无关的词空间关联性的流程图,如图11所示,包括以下步骤:

步骤s41、以bert模型所生成的词空间关联度向量为输入,逐行扫描四叉树划分后的子空间区域,将每个子空间区域作为中心,选择与其相邻的最多8个子区域作为任务计算的基本单位。

本步骤的操作与空间注意力模型中卷积层所完成的操作相类似,因此不在此处重复说明。

步骤s42、对所选取区域内的每个子区域内的所有词打上标签,表示这些词属于同一个区域。

步骤s43、在子区域所对应的词集合中随机选取一定比例的词进行替换,将其替换为距离较远的子区域集合中的词,并打上标签,表示这些词与该子区域内原有的词不属于同一个子区域。

在本发明实施例中,随机选取词的比例可以是30%,在本发明其他实施例中,也可以是其他的比例值。

步骤s44、对同一个子区域内的词进行随机两两组合,如果所选取的两个词都来自于该子区域,则在词向量的cls标记中填0,否则填1,将其输入bert模型进行编码。

在本步骤中,认为相距较远的空间子区域内的词的关联性应该较低,因此使用距离较远的空间子区域的词并标记为不与当前子区域的词相关,就是为了利用空间位置较远的特性,来降低词空间关联性,减少此空间关联性过度计算的出现概率。

步骤s45、bert模型所输出的词向量就是所要求取的词嵌入向量。

本发明实施例提供的查询方法通过bert模型实现了词嵌入向量的生成。

基于上述任一实施例,图12为本发明实施例提供的查询装置的示意图,如图12所示,本发明实施例提供的查询装置,包括:

空间区域确定模块1201,用于根据用户发起查询请求时的位置信息,确定与所述查询请求对应的空间区域;

候选查询结果集合确定模块1202,用于根据所述查询请求的文本描述信息,在所述空间区域内查找与所述查询请求相对应的候选查询结果集合;

特征向量确定模块1203,用于根据预先设置的词与词嵌入向量之间的映射关系,确定所述查询请求的文本描述信息的特征向量以及所述候选查询结果集合中各个候选查询结果的特征向量;其中,所述词嵌入向量反映了词与词所在文本中其他词之间的关联度以及词与空间区域之间的关联度;所述特征向量是根据所述文本描述信息或所述候选查询结果中所包含的词的词嵌入向量得到的;

距离计算及排序模块1204,用于根据所述候选查询结果集合中各个候选查询结果的特征向量与所述查询请求的文本描述信息的特征向量之间的距离,为所述候选查询结果集合中的各个候选查询结果排序并返回给用户。

本发明实施例提供的查询装置在进行查询操作时,根据查询请求的位置信息查找特定空间区域内的候选结果集合,然后将查询请求的结合了文本信息与位置信息的特征向量与候选结果集合的结合了文本信息与位置信息的特征向量进行比较,从而在候选结果集合中确定查询结果。由于在查询时不再仅仅根据文本信息进行查询,而是增添了位置信息,因此查询结果更为准确。

图13为本发明实施例提供的查询方法所涉及的电子设备的实体结构示意图,如图13所示,该电子设备可以包括:处理器(processor)1310、通信接口(communicationsinterface)1320、存储器(memory)1330和通信总线1340,其中,处理器1310,通信接口1320,存储器1330通过通信总线1340完成相互间的通信。处理器1310可以调用存储器1330中的逻辑指令,以执行如下方法:根据用户发起查询请求时的位置信息,确定与所述查询请求对应的空间区域;根据所述查询请求的文本描述信息,在所述空间区域内查找与所述查询请求相对应的候选查询结果集合;根据预先设置的词与词嵌入向量之间的映射关系,确定所述查询请求的文本描述信息的特征向量以及所述候选查询结果集合中各个候选查询结果的特征向量;其中,所述词嵌入向量反映了词与词所在文本中其他词之间的关联度以及词与空间区域之间的关联度;所述特征向量是根据所述文本描述信息或所述候选查询结果中所包含的词的词嵌入向量得到的;根据所述候选查询结果集合中各个候选查询结果的特征向量与所述查询请求的文本描述信息的特征向量之间的距离,为所述候选查询结果集合中的各个候选查询结果排序并返回给用户。

需要说明的是,本实施例中的电子设备在具体实现时可以为服务器,也可以为pc机,还可以为其他设备,只要其结构中包括如图13所示的处理器1310、通信接口1320、存储器1330和通信总线1340,其中处理器1310,通信接口1320,存储器1330通过通信总线1340完成相互间的通信,且处理器1310可以调用存储器1330中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。

此外,上述的存储器1330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:根据用户发起查询请求时的位置信息,确定与所述查询请求对应的空间区域;根据所述查询请求的文本描述信息,在所述空间区域内查找与所述查询请求相对应的候选查询结果集合;根据预先设置的词与词嵌入向量之间的映射关系,确定所述查询请求的文本描述信息的特征向量以及所述候选查询结果集合中各个候选查询结果的特征向量;其中,所述词嵌入向量反映了词与词所在文本中其他词之间的关联度以及词与空间区域之间的关联度;所述特征向量是根据所述文本描述信息或所述候选查询结果中所包含的词的词嵌入向量得到的;根据所述候选查询结果集合中各个候选查询结果的特征向量与所述查询请求的文本描述信息的特征向量之间的距离,为所述候选查询结果集合中的各个候选查询结果排序并返回给用户。

另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:根据用户发起查询请求时的位置信息,确定与所述查询请求对应的空间区域;根据所述查询请求的文本描述信息,在所述空间区域内查找与所述查询请求相对应的候选查询结果集合;根据预先设置的词与词嵌入向量之间的映射关系,确定所述查询请求的文本描述信息的特征向量以及所述候选查询结果集合中各个候选查询结果的特征向量;其中,所述词嵌入向量反映了词与词所在文本中其他词之间的关联度以及词与空间区域之间的关联度;所述特征向量是根据所述文本描述信息或所述候选查询结果中所包含的词的词嵌入向量得到的;根据所述候选查询结果集合中各个候选查询结果的特征向量与所述查询请求的文本描述信息的特征向量之间的距离,为所述候选查询结果集合中的各个候选查询结果排序并返回给用户。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1