信息处理方法和装置与流程

文档序号：21037518发布日期：2020-06-09 20:30阅读：来源：国知局

技术特征：

1.一种信息处理方法，所述方法包括：

获取待处理的词组合，其中，所述待处理的词组合包括实体，以及该实体的属性；

在预设结构化数据集合中，确定出与所述待处理的词组合对应的知识类型，并确定属于所述知识类型的属性作为候选属性，其中，所述候选属性包括至少两个；

基于至少两个所述候选属性与所述待处理的词组合的相似度，确定出所述待处理的词组合中的属性所对应的候选属性。

2.根据权利要求1所述的方法，其中，所述待处理的词组合还包括与所述属性的属性值；

所述在预设结构化数据集合中，确定出与所述待处理的词组合对应的知识类型，包括：

在预设结构化数据集合中，确定所述实体的概念的知识类型和所述属性值的概念的知识类型，其中，所述实体的知识类型和所述属性值的知识类型均为至少一个。

3.根据权利要求1所述的方法，其中，所述在预设结构化数据集合中，确定出与所述待处理的词组合对应的知识类型，包括：

对所述实体进行上位处理，得到所述实体的上位词；

在预设结构化数据集合中，确定所述实体的上位词所对应的知识类型，并将该知识类型作为与所述待处理的词组合对应的知识类型。

4.根据权利要求3所述的方法，其中，所述待处理的词组合还包括与所述属性的属性值；

所述方法还包括：

对所述属性值进行上位处理，得到所述属性值的上位词；以及

所述确定所述实体的上位词所对应的知识类型，并将该知识类型作为与所述待处理的词组合对应的知识类型，包括：

确定所述实体的上位词所对应的知识类型，并确定所述属性值的上位词所对应的知识类型；

将所述实体的上位词所对应的知识类型，和所述属性值的上位词所对应的知识类型，作为与所述待处理的词组合对应的知识类型。

5.根据权利要求2或4所述的方法，其中，在所述基于至少两个所述候选属性与所述待处理的词组合的相似度，确定出所述待处理的词组合中的属性所对应的候选属性之前，所述方法还包括：

对于所述待处理的词组合中的实体、属性和属性值中的至少两者中的每一者，确定该者的特征，其中，所述至少两者中的每一者的特征包括至少两种；

对于所述至少两者中各者的特征进行融合，将融合结果作为所述待处理的词组合的特征；以及

所述基于至少两个所述候选属性与所述待处理的词组合的相似度，确定出所述待处理的词组合中的属性所对应的候选属性，包括：

对所述待处理的词组合的特征与至少两个所述候选属性的特征之间的相似度进行排序；

将得到的相似度序列中，最高的相似度所对应的候选属性作为待处理的词组合中的属性所对应的候选属性。

6.根据权利要求5所述的方法，其中，所述对所述待处理的词组合的特征与至少两个所述候选属性的特征之间的相似度进行排序，包括：

将所述待处理的词组合的特征与至少两个所述候选属性的特征，输入预先训练的排序模型，以通过所述预先训练的排序模型，对所述待处理的词组合的特征与所述至少两个所述候选属性的特征之间的相似度进行排序。

7.根据权利要求5或6所述的方法，其中，所述方法还包括：

对于所述待处理的词组合中的实体、属性和属性值中的至少一者中的每一者，确定该者的特征，其中，至少一者中的每一者的特征包括杰卡德特征和词袋特征的融合特征；

对于所述至少两者中各者的特征进行融合，得到目标融合特征；

确定所述目标融合特征与各个所确定的候选属性的特征之间的相似度；

按照相似度由大到小的顺序，从各个所确定的候选属性中，选取预设数量或者预设比例的候选属性作为所述至少两个所述候选属性。

8.根据权利要求6所述的方法，其中，所述预先训练的排序模型可以通过如下步骤训练得到：

获取样本集，其中，所述样本集包括正样本和负样本，所述正样本包括正样本词组合和属性样本，所述负样本包括负样本词组合和属性样本，正样本词组合的特征与属性样本的特征的相似度，大于负样本词组合的特征与属性样本的特征的相似度；

将所述样本集中的多个样本组成的样本序列输入待训练的排序模型，预测出所述样本序列的样本中的特征之间的相似度的排序结果；

基于预测出的排序结果训练所述待训练的排序模型，得到所述预先训练的排序模型。

9.根据权利要求8所述的方法，其中，所述获取样本集，包括：

将与所述预设结构化数据集合中，属于所述知识类型且与目标属性对应的词组合，作为所述正样本词组合，其中，所述目标属性为所述待处理的词组合中的属性所对应的候选属性；

将与所述预设结构化数据集合中，属于所述知识类型且不与所述目标属性对应的词组合，作为所述负样本词组合。

10.一种信息处理装置，所述装置包括：

获取单元，被配置成获取待处理的词组合，其中，所述待处理的词组合包括实体，以及该实体的属性；

候选确定单元，被配置成在预设结构化数据集合中，确定出与所述待处理的词组合对应的知识类型，并确定属于所述知识类型的属性作为候选属性，其中，所述候选属性包括至少两个；

属性确定单元，被配置成基于至少两个所述候选属性与所述待处理的词组合的相似度，确定出所述待处理的词组合中的属性所对应的候选属性。

11.根据权利要求10所述的装置，其中，所述待处理的词组合还包括与所述属性的属性值；

所述候选确定单元，被配置成按照如下方式执行所述在预设结构化数据集合中，确定出与所述待处理的词组合对应的知识类型：

12.根据权利要求10所述的装置，其中，所述候选确定单元，被配置成按照如下方式执行所述在预设结构化数据集合中，确定出与所述待处理的词组合对应的知识类型：

对所述实体进行上位处理，得到所述实体的上位词；

在预设结构化数据集合中，确定所述实体的上位词所对应的知识类型，并将该知识类型作为与所述待处理的词组合对应的知识类型。

13.根据权利要求12所述的装置，其中，所述待处理的词组合还包括与所述属性的属性值；

所述装置还包括：

上位单元，被配置成对所述属性值进行上位处理，得到所述属性值的上位词；以及

所述候选确定单元，被配置成按照如下方式执行所述确定所述实体的上位词所对应的知识类型，并将该知识类型作为与所述待处理的词组合对应的知识类型：

确定所述实体的上位词所对应的知识类型，并确定所述属性值的上位词所对应的知识类型；

将所述实体的上位词所对应的知识类型，和所述属性值的上位词所对应的知识类型，作为与所述待处理的词组合对应的知识类型。

14.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。

技术总结
本申请实施例公开了信息处理方法和装置。该方法的一具体实施方式包括：获取待处理的词组合，其中，该待处理的词组合包括实体，以及该实体的属性；在预设结构化数据集合中，确定出与该待处理的词组合对应的知识类型，并确定属于该知识类型的属性作为候选属性，其中，该候选属性包括至少两个；基于至少两个该候选属性与该待处理的词组合的相似度，确定出该待处理的词组合中的属性所对应的候选属性。本申请实施例能够在预设结构化数据集合中，快速而准确地确定出与词组合中的属性对应的候选属性，从而有助于实现将陌生的词组合自动关联到结构化的数据中，避免了人力的消耗，并提高了关联的效率和准确度。

技术研发人员：李千;王赵煜;史亚冰;梁海金;蒋烨;张扬;朱勇
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2020.01.14
技术公布日：2020.06.09

完整全部详细技术资料下载

当前第2页1 2