实体关联关系的分析方法及相关装置与流程

文档序号:18755684发布日期:2019-09-24 22:18阅读:339来源:国知局
实体关联关系的分析方法及相关装置与流程

本发明涉及文本分析技术领域,尤其涉及一种实体关联关系的分析方法及相关装置。



背景技术:

文本情感分析主要是为了反映社交媒体中,用户关于某些事件、人物、企业、产品等的情感倾向性。实体情感分析是指分析文本中关于某些实体的情感倾向性,而非整个文本的倾向性,这样的好处是使得情感对象的分析粒度更加清晰。而在实体情感分析中,更为重要的是获知文本中实体和属性的关联关系,即判断出文本中的每个属性(如内饰、发动机等)所关联的实体(如宝马、奔驰、奥迪等)。

现有方案一般主要依赖于人工提取特征进行传统的机器学习分类算法。具体的,人工选择文本中实体和属性之间的词语,并提取该词语的特征输入至分类器,由分类器进行关联关系的分析,得到文本中实体和属性之间的关联关系的测试结果。

由人工选择词语并提取词语的特征,会使得特征提取过程带有很强的主观性,会影响文本中实体和属性之间的关联关系的测试结果的准确性。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的实体关联关系的分析方法及相关装置。

一种实体关联关系的分析方法,包括:

获取待预测文本;

对所述待预测文本进行分词处理,得到所述待预测文本的词性序列;

获得所述待预测文本的词性序列中的每一个分词的向量;

利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中实体和对应属性间的关联关系的预测结果;其中,所述实体关联关系的预测模型基于第一原理构建得到;所述第一原理包括:迭代更新所述神经网络算法中的参数,直至利用更新参数后的神经网络算法对训练文本的特征向量进行预测而得到的预测结果等同于人工标注结果;所述训练文本的特征向量,依据所述训练文本的词性序列的每一个分词的向量得到。

可选地,所述获得所述待预测文本的词性序列中的每一个分词的向量,包括:获得所述待预测文本的词性序列中的每一个分词的词向量;

或者,所述获得所述待预测文本的词性序列中的每一个分词的向量,包括:获得所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量;组合所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量,得到所述待预测文本的词性序列中的每一个分词的向量。

可选地,所述利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中目标实体和对应属性间的关联关系的预测结果,包括:

对第一矩阵进行序列关系的网络表征,得到第二矩阵;其中,所述第一矩阵包括:所述待预测文本的词性序列中的每一个分词的向量;

依据所述第二矩阵中每个位置的数值对应的权重,对所述第二矩阵进行加权平均处理,得到特征向量;

采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述待预测文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值。

可选地,所述实体关联关系的预测模型的构建过程,包括:

对训练文本进行分词处理,得到所述训练文本的词性序列;

获得所述训练文本的词性序列中的每一个分词的向量;

对第三矩阵进行序列关系的网络表征,得到第四矩阵;其中,所述第三矩阵包括:所述训练文本的词性序列中的每一个分词的向量;

依据所述第四矩阵中每个位置的数值对应的权重,对所述第四矩阵进行加权平均处理,得到特征向量;

采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述训练文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值;

将所述概率输出向量与所述训练文本的人工标注类别进行交叉熵运算,获得损失函数;

优化所述损失函数,并根据所述优化后的损失函数更新第一参数,直至利用更新后的参数得到的特征向量对所述训练文本进行预测得到的概率输出向量与所述训练文本的人工标注类别等同为止;其中,所述第一参数包括所述softmax函数以及所述训练文本的词性序列中的每一个分词的向量;

将所述更新后的第二参数作为实体关联关系的预测模型中的参数;其中,所述第二参数包括:所述softmax函数。

一种实体关联关系的分析装置,包括:

获取单元,用于获取待预测文本;

分词单元,用于对所述待预测文本进行分词处理,得到所述待预测文本的词性序列;

生成单元,用于获得所述待预测文本的词性序列中的每一个分词的向量;

预测单元,用于利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中目标实体和对应属性间的关联关系的预测结果;其中,所述实体关联关系的预测模型基于第一原理构建得到;所述第一原理包括:迭代更新所述神经网络算法中的参数,使利用更新参数后的神经网络算法对训练文本的特征向量进行预测,预测得到的预测结果等同于人工标注结果;所述训练文本的特征向量,依据所述训练文本的词性序列的每一个分词的向量得到。

可选地,所述生成单元,包括:

第一获得单元,用于获得所述待预测文本的词性序列中的每一个分词的词向量;

或者,包括:第二获得单元,用于获得所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量;并组合所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量,得到所述待预测文本的词性序列中的每一个分词的向量。

可选地,所述预测单元,包括:

第三获得单元,用于对第一矩阵进行序列关系的网络表征,得到第二矩阵;其中,所述第一矩阵包括:所述待预测文本的词性序列中的每一个分词的向量;

第四获得单元,用于依据所述第二矩阵中每个位置的数值对应的权重,对所述第二矩阵进行加权平均处理,得到特征向量;

预测子单元,用于采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述训练文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值。

可选地,所述分词单元,还用于对训练文本进行分词处理,得到所述训练文本的词性序列;

所述生成单元还用于获得所述训练文本的词性序列中的每一个分词的向量;

所述第三获得单元,还用于对第三矩阵进行序列关系的网络表征,得到第四矩阵;其中,所述第三矩阵包括:所述训练文本的词性序列中的每一个分词的向量;

所述第四获得单元,还用于依据所述第四矩阵中每个位置的数值对应的权重,对所述第四矩阵进行加权平均处理,得到特征向量;

所述预测子单元,还用于采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述训练文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值;

还包括:比较单元,用于将所述概率输出向量与所述训练文本的人工标注类别进行交叉熵运算,获得损失函数;

优化单元,用于优化所述损失函数;

更新单元,用于根据所述优化后的损失函数更新第一参数,直至利用更新后的参数得到的特征向量对所述训练文本进行预测得到的概率输出向量与所述训练文本的人工标注类别等同为止;其中,所述第一参数包括所述softmax函数以及所述训练文本的词性序列中的每一个分词的向量;

构建单元,用于将所述更新后的第二参数作为实体关联关系的预测模型中的参数;其中,所述第二参数包括:所述softmax函数。

一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上述任一项所述的实体关联关系的分析方法。

一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行如上述任一项所述的实体关联关系的分析方法。

借由上述技术方案,本发明提供的实体关联关系的分析方法及相关装置中,对待预测文本进行分词处理得到所述待预测文本的词性序列后,再得到所述待预测文本的词性序列中的每一个分词的向量,由实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,即可得到所述待预测文本中实体和对应属性间的关联关系的预测结果。由于在上述过程中,对待预测文本是进行分词处理得到词性序列,并得到词性序列中的每一个分词的向量,并不是由人工选词并提取词语特征,解决了由于人工选词且提供词语特征而导致的影响实体和属性之间的关联关系的测试结果的准确性的问题。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例公开的实体关联关系的预测模型的构建过程的流程图;

图2示出了本发明实施例公开的步骤s102的具体执行方式的流程图;

图3示出了本发明实施例公开的实体关联关系的分析方法的流程图;

图4示出了本发明实施例公开的步骤s303的具体执行方式的流程图;

图5示出了本发明实施例公开的步骤s304的具体执行方式的流程图;

图6示出了本发明实施例公开的实体关联关系的分析装置的结构示意图;

图7示出了本发明实施例公开的生成单元的结构示意图;

图8示出了本发明实施例公开的预测单元的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例中,需要采用实体关联关系的预测模型对待预测文本进行预测。因此,在执行本申请实施例公开的实体关联关系的分析方法之前,需要先构建所述实体关联关系的预测模型。

参见图1,所述实体关联关系的预测模型的构建过程,包括:

s101、对训练文本进行分词处理,得到所述训练文本的词性序列。

其中,准备训练文档,该训练文档中至少包括一个训练文本。训练文本为用户关于某些事件、人物、企业以及产品等的评价语句。

针对训练文档中的每一个训练文本,采用开源工具软件,如ltp(哈工大语言技术平台,languagetechnologyplatform)进行分词,并获取相应分词的词性序列,其中,所述词性序列包括分词序列、词性结果和依存关系序列。所述分词序列包括对训练文本进行分词后而得到的各个分词;所述词性结果包括各个分词的词性。所述依存关系序列为所述训练文本进行分词后而得到的各个分词之间的关联关系。

例如:训练文本为奔驰的前脸威武霸气,则对其进行分词处理得到的分词序列为[奔驰,的,前,脸,威武,霸气,。];词性结果为[nz,u,nd,n,a,a,wp];词性结果为[n,n,v,a,n],在得到的词性结果中,n代表generalnoun,名词;v代表verb,动词;a代表adjective,形容词;依存关系序列为[att,rad,att,sbv,hed,coo,wp],得到的依存关系序列中,att代表attribute,定中关系;rad代表rightadjunct,右附加关系;sbv代表,hed代表head,核心关系,coo代表coordinate,并列关系,wp代表punctuation,标点符号。

s102、获得所述训练文本的词性序列中的每一个分词的向量。

其中,所述训练文本的词性序列中的每一个分词,需要采用特征向量的方式来表达。因此,需要针对所述训练文本的词性序列中的每一个分词,获得该分词的向量。所述训练文本包括实体和该实体的属性,对所述训练文本进行分词处理后的词性序列中也包括对应实体的分词和对应实体的属性的分词。

还需要说明的是,针对每一个训练文本,在获得其词性序列中的每一个分词的向量之前,还需要确定其分词长度不能过大。因此,统计训练文档中每一个训练文本的分词长度,判断训练文档中是否存在超长的离群长度文本。具体的,计算训练文本的分词长度的均值的标准差,超长的离群长度文本即为分词长度是否超过所述均值的标准差几个倍数以外的训练文本。可以根据实际情况,来设定具体的倍数要求。

若判断出训练文档中不存在超长的离群长度文本,则将所述训练文档中长度最长的训练文本的分词的长度作为所述训练文档的词性序列的长度,再获得训练文本的词性序列中的每一个分词。若判断出训练文档中存在超长的离群长度文本,则将所述训练文档中除超长的离群长度文本以外而剩余的训练文本中,长度最长的训练文本的分词的长度作为所述训练文档的词性序列的长度。并且,依据所述训练文档的词性序列的长度截取所述训练文档中的超长的离群长度文本。具体的,与所述训练文本中的目标实体为中心,向前、后分别扩展直至分词长度至所述训练文档的词性序列的长度为止,再获得训练文本还行截取操作后的文本的词性序列中每一个分词的向量。

例如:训练文档中存在10条训练文本,每一条训练文本的分词长度不等,但最长的一条训练文本的分词长度为50,那么取50为所述训练文档的词性序列的长度。若训练文档中存有一条训练文本,其分词长度有1000,那么该训练文本即为超长的离群长度文本。

可选地,步骤s102的一种实现方式中,该步骤包括:

获得所述训练文本的词性序列中的每一个分词的词向量。

其中,对于所述训练文本的词性序列中的每一个分词,分别在词向量模型进行筛查,获取当前分词在词向量模型中的词向量。

使用开源工具软件对文本库中每条文本句子进行分词,并使用词向量模型进行词向量训练,即生成词向量模型。所述文本库包括行业语料库和通用语料库,所述通用语料库指脱离行业个性化的文本库。词向量模型的作用是将词映射到一定纬度的空间内,能表征词与词之间的相似性。同时,词向量模型中包含了出现在语料库中的低频长尾词(低频长尾词指在全部词汇中出现频率低于某个阈值的词汇),统一记为unk(unknownkeyword,未知关键字),unk在词向量模型中共有唯一的词向量。

若所述训练文本的词性序列中的某个分词,在所述词向量模型中没有对应的词向量,那么该分词的词向量即使用unk词向量。

可选地,步骤s102的另一种实现方式中,参见图2,该步骤包括:

s1022、获得所述训练文本的词性序列中的每一个分词的词向量、以及所述训练文本的词性序列中的每一个分词的词性向量和/或词包向量。

训练文本的词性序列中的每一个分词,其词性的不同,也会导致实体和对应属性间的关联关系的预测结果的不同。因此,还可以获得所述训练文本的词性序列中的每一个分词的词性向量。

具体的,对词性进行一定维数的随机向量,比如词性共有5种[a,b,c,d,e],那么可以用随机向量va表示a,同理,用随机向量vb表示b,va、vb的维数可以任意指定。针对所述训练文本的词性序列中的每一个分词,可以根据其词性得到对应的词性向量。

同理,分词所属的词包也会影响对实体和对应属性间的关联关系的预测结果的判断,尤其是训练文本的词性序列中的某一个分词并没有在所述词向量模型中找到对应的词向量,通过分词的词包向量,能够能为全面的反映分词。因此,还可以获得所述训练文本的词性序列中的每一个分词的词包向量。

具体的,将所述训练文本的词性序列中的每一个分词和行业领域词包的所属关系,进行编码,得到所述训练文本的词性序列中的每一个分词的词包向量。例如:判断所述训练文本的词性序列中的每一个分词是否在实体词包里,是否在评价语词包里。将判断结果进行编码,得到所述训练文本的词性序列中的每一个分词的词包向量。

1023、组合所述训练文本的词性序列中的每一个分词的词向量、以及所述训练文本的词性序列中每一个分词的词性向量和/或词包向量,得到所述所述训练文本的词性序列中的每一个分词的向量。

其中,针对所述训练文本的词性序列中的每一个分词,分别将其词向量、词性向量和/或词包向量进行拼接组合,形成该分词的向量。

s103、对第三矩阵进行序列关系的网络表征,得到第四矩阵。

其中,组合所述训练文本的词性序列中每一个分词的向量,得到所述第三矩阵。再利用双向的bi-lstm(long-shorttermmemory)对所述第三矩阵进行一次序列关系的网络表征,得到所述第四矩阵。

s104、依据所述第四矩阵中每个位置的数值对应的权重,对所述第四矩阵进行加权平均处理,得到特征向量。

具体的,结合神经网络算法attention机制归一化,赋予所述第四矩阵每个位置以不同的权重。具体的,有些分词不需要太关注,权重弱化,有些分词则应该强化关注。然后对所述第四矩阵中每个位置的数值做加权平均,得到特征向量。

s105、采用softmax函数处理所述特征向量,得到概率输出向量。

其中,所述概率输出向量是一个二维向量,包括两个类别的概率值,每个类别的概率值用于表示对应实体的分词和对应属性的分词之间的关联关系属于对应类别的概率。具体的,两个类别中,一个类别是配对,表明对应实体的分词和对应属性的分词具有关联关系;一个类别是不配对,表明对应实体的分词和对应属性的分词不具有关联关系。

在采用softmax函数处理所述特征向量之前,还需要得到训练样本的词性序列中的正样本和负样本。具体的,人工输入训练文本的词性序列中的对应实体的分词和属于该实体、且对应属性的分词。将对应实体的分词和属于该实体、且对应属性的分词进行组合,形成正样本。再将所述训练文本中每一个对应实体的分词和属于每一个实体、且对应属性的分词进行交叉组合,得到负样本集合,再选择所述负样本集合中的部分或全部的负样本。

例如:训练文本为:相中gs8内饰,听说小毛病多。相中欧蓝德质量但看不中他的内饰。该训练文本中,第一个实体为gs8,对应属性为内饰,第二个实体为欧蓝德,对应属性为质量。组合第一个实体和对应属性得到的正样本为:gs8,内饰。组合第二个实体和对应属性得到的正样本为:欧蓝德,质量。将第一个实体、第二个实体、第一个实体对应的属性、以及第二个实体对应的属性交叉组合,得到的负样本集合包括:gs8,质量和欧蓝德,内饰。

针对每一个样本(包括正样本和负样本),采用softmax函数处理所述特征向量,分别对应每一个样本的概率输出向量,该概率输出向量中的两种类别的概率值,可以分别表明每一个样本中包括的实体和属性之间的关联关系是配对和不配对的概率值。

还需要说明的是,对于所述训练文本中的词性序列中的每一个分词,在对应实体的分词和对应属性的分词两侧,添加特殊标识符号,该符号作为特殊索引,用于指示实体和属性所在位置。如“<e1>奔驰<\e1>的<e2>前脸<\e2>威武霸气”,特殊标识为<e1><\e1><e2><\e2>标识对应实体的分词和对应属性的分词。

在采用softmax函数处理所述特征向量,得到概率输出向量的过程中,需要通过识别添加的所述特殊标识符号,来确定出所述训练文本中的词性序列中每一个样本的对应实体的分词和对应属性的分词。

s106、将所述概率输出向量与所述训练文本的人工标注类别进行交叉熵运算,获得损失函数。

其中,对训练文档中的每一个训练文本,人工识别训练文本中实体和属性的关联关系,得到所述训练文本的人工标注类别。

将所述概率输出向量与所述训练文本的人工标注类别进行交叉熵运算,得到的所述损失函数用于表明所述概率输出向量和所述训练文本的人工标注类别的差异。

s107、优化所述损失函数,并根据所述优化后的损失函数更新第一参数,直至利用更新后的参数得到的特征向量对所述训练文本进行预测得到的概率输出向量与所述训练文本的人工标注类别基本同为止。

其中,所述第一参数包括所述bi-lstm、所述神经网络算法的attention机制、所述softmax函数以及所述训练文本的词性序列中的每一个分词的向量。

具体的,通过随机梯度下降法或者adam优化算法等,可以实现对所述损失函数进行优化,得到优化后的损失函数,依据所述优化后的损失函数逐层递推得到更新后的参数。

还需要说明的是,本步骤中,等同的含义是:站在本领域技术人员的角度来看,概率输出向量与训练文本的人工标注类别相比可以当成是等同的。

s108、将所述更新后的第二参数作为实体关联关系的预测模型中的参数;其中,所述第二参数包括:所述bi-lstm、所述softmax函数以及所述神经网络算法的attention机制。

基于由上述实施例的方法构建得到的实体关联关系的预测模型,可对待预测文本进行实体关联关系的分析。具体的,参见图3,所述实体关联关系的分析方法,包括:

s301、获取待预测文本。

其中,所述待预测文本为用户关于某些事件、人物、企业以及产品等的评价语句。获取该待预测文本,以分析对该文本关于文本中的目标实体的情感倾向性。

s302、对所述待预测文本进行分词处理,得到所述待预测文本的词性序列。

针对待预测文本,同样采用开源工具软件进行分词处理,并获取相应分词的词性序列。本步骤的具体执行过程可参见对应图1的实施例中,步骤s101的内容,此处不再赘述。

s303、获得所述待预测文本的词性序列中的每一个分词的向量。

可选地,步骤s303的一种实现方式中,该步骤包括:

获得所述待预测文本的词性序列中的每一个分词的词向量。

可选地,步骤s303的另一种实现方式中,参见图4,该步骤包括:

s3031、获得所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量。

s3032、组合所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量,得到所述待预测文本的词性序列中的每一个分词的向量。

其中,上述两个实现方式的具体内容,可以参见对应图1的实施例中,步骤s102的具体实现方式的内容,此处不再赘述。

s304、利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中实体和对应属性间的关联关系的预测结果;其中,所述实体关联关系的预测模型基于第一原理构建得到;所述第一原理包括:迭代更新所述神经网络算法中的参数,直至利用更新参数后的神经网络算法对训练文本的特征向量进行预测而得到的预测结果等同于人工标注结果;所述训练文本的特征向量,依据所述训练文本的词性序列的每一个分词的向量得到。

本实施例公开的实体关联关系的分析方法中,对待预测文本进行分词处理得到所述待预测文本的词性序列后,再得到所述待预测文本的词性序列中的每一个分词的向量,由实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,即可得到所述待预测文本中实体和对应属性间的关联关系的预测结果。由于在上述过程中,对待预测文本是进行分词处理得到词性序列,并得到词性序列中的每一个分词的向量,并不是由人工选词并提取词语特征,解决了由于人工选词且提供词语特征而导致的影响实体和属性之间的关联关系的测试结果的准确性的问题。

可选地,本申请的另一实施例中,参见图5,步骤s304包括:

s3041、对第一矩阵进行序列关系的网络表征,得到第二矩阵;其中,所述第一矩阵包括:所述待预测文本的词性序列中的每一个分词的向量。

其中,本步骤的具体实现方式,可参见对应图1的实施例中,步骤s103的内容,此处不再赘述。

s3042、依据所述第二矩阵中每个位置的数值对应的权重,对所述第二矩阵进行加权平均处理,得到特征向量。

其中,本步骤的具体实现方式,可参见对应图1的实施例中,步骤s104的内容,此处不再赘述。

s3043、采用softmax函数处理所述特征向量,得到概率输出向量。

所述概率输出向量包括:所述待预测文本中目标实体和对应属性之间的关联关系在两种类别下的概率值。

其中,本步骤的具体实现方式,可参见对应图1的实施例中,步骤s105的内容,此处不再赘述。

本申请另一实施例还公开了一种实体关联关系的分析装置,其包括的各个单元的具体工作过程可参见对应图3的实施例内容。具体的,参见图6,所述实体关联关系的分析装置包括:

获取单元601,用于获取待预测文本。

分词单元602,用于对所述待预测文本进行分词处理,得到所述待预测文本的词性序列。

生成单元603,用于获得所述待预测文本的词性序列中的每一个分词的向量。

可选地,本申请的另一实施例中,生成单元603,参见图7,包括:

第一获得单元6031,用于获得所述待预测文本的词性序列中的每一个分词的词向量。

或者,生成单元603包括:第二获得单元6032,用于得所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量;并组合所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量,得到所述待预测文本的词性序列中的每一个分词的向量。

其中,本实施例公开的生成单元603中的各个单元的具体工作过程可参见上述对应图4的实施例的内容,此处不再赘述。

预测单元604,用于利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中目标实体和对应属性间的关联关系的预测结果;其中,所述实体关联关系的预测模型基于第一原理构建得到;所述第一原理包括:迭代更新所述神经网络算法中的参数,使利用更新参数后的神经网络算法对训练文本的特征向量进行预测,预测得到的预测结果等同于人工标注结果;所述训练文本的特征向量,依据所述训练文本的词性序列的每一个分词的向量得到。

可选地,本申请的另一实施例中,预测单元604,如图8所示,包括:

第三获得单元6041,用于对第一矩阵进行序列关系的网络表征,得到第二矩阵;其中,所述第一矩阵包括:所述待预测文本的词性序列中的每一个分词的向量。

第四获得单元6042,用于依据所述第二矩阵中每个位置的数值对应的权重,对所述第二矩阵进行加权平均处理,得到特征向量。

预测子单元6043,用于采用softmax函数处理所述特征向量,得到概率输出向量,其中,所述概率输出向量包括:所述训练文本中目标实体和对应属性之间的关联关系在两种类别下的概率值。

其中,本实施例公开的预测单元604中的各个单元的具体工作过程可参见上述对应图5的实施例的内容,此处不再赘述。

本实施例中,对待预测文本,由分词单元进行分词处理得到词性序列,并由生成单元得到词性序列中的每一个分词的向量,并不是由人工选词并提取词语特征,解决了由于人工选词且提供词语特征而导致的影响实体和属性之间的关联关系的测试结果的准确性的问题。

可选地,本申请的另一实施例中,所述实体关联关系的分析装置还可以对训练文本进行预测,得到实体关联关系的预测模型。

具体的:分词单元602,还用于对训练文本进行分词处理,得到所述训练文本的词性序列。

生成单元603,还用于获得所述训练文本的词性序列中的每一个分词的向量。

第三获得单元6041,还用于对第三矩阵进行序列关系的网络表征,得到第四矩阵;其中,所述第三矩阵包括:所述训练文本的词性序列中的每一个分词的向量。

第四获得单元6042,还用于依据所述第四矩阵中每个位置的数值对应的权重,对所述第四矩阵进行加权平均处理,得到特征向量。

预测子单元6043,还用于采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述训练文本中目标实体和对应属性之间的关联关系在两种类别下的概率值。

并且,所述实体关联关系的分析装置还包括:比较单元,用于将所述概率输出向量与所述训练文本的人工标注类别进行交叉熵运算,获得损失函数。

优化单元,用于优化所述损失函数。

更新单元,用于根据所述优化后的损失函数更新第一参数,直至利用更新后的参数得到的特征向量对所述训练文本进行预测得到的概率输出向量与所述训练文本的人工标注类别基本等同为止;其中,所述第一参数包括所述softmax函数以及所述训练文本的词性序列中的每一个分词的向量。

构建单元,用于将所述更新后的第二参数作为实体关联关系的预测模型中的参数;其中,所述第二参数包括:所述softmax函数。

其中,上述实施例中的各个单元的具体工作过程可参见上述对应图1的实施例的内容,此处不再赘述。

所述实体关联关系的分析装置包括处理器和存储器,上述的获取单元、分词单元、生成单元和预测单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现待预测文本中实体和对应属性之间的关联关系的分析过程,以得到所述待预测文本中实体和对应属性之间的关联关系的预测结果。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述实体关联关系的分析方法。

本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述实体关联关系的分析方法。

本发明实施例提供了一种设备,本文中的设备可以是服务器、pc、pad、手机等。设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:

一种实体关联关系的分析方法,包括:

获取待预测文本;

对所述待预测文本进行分词处理,得到所述待预测文本的词性序列;

获得所述待预测文本的词性序列中的每一个分词的向量;

利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中实体和对应属性间的关联关系的预测结果;其中,所述实体关联关系的预测模型基于第一原理构建得到;所述第一原理包括:迭代更新所述神经网络算法中的参数,直至利用更新参数后的神经网络算法对训练文本的特征向量进行预测而得到的预测结果等同于人工标注结果;所述训练文本的特征向量,依据所述训练文本的词性序列的每一个分词的向量得到。

可选地,所述获得所述待预测文本的词性序列中的每一个分词的向量,包括:获得所述待预测文本的词性序列中的每一个分词的词向量;

或者,所述获得所述待预测文本的词性序列中的每一个分词的向量,包括:获得所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量;组合所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量,得到所述待预测文本的词性序列中的每一个分词的向量。

可选地,所述利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中目标实体和对应属性间的关联关系的预测结果,包括:

对第一矩阵进行序列关系的网络表征,得到第二矩阵;其中,所述第一矩阵包括:所述待预测文本的词性序列中的每一个分词的向量;

依据所述第二矩阵中每个位置的数值对应的权重,对所述第二矩阵进行加权平均处理,得到特征向量;

采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述待预测文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值。

可选地,述实体关联关系的预测模型的构建过程,包括:

对训练文本进行分词处理,得到所述训练文本的词性序列;

获得所述训练文本的词性序列中的每一个分词的向量;

对第三矩阵进行序列关系的网络表征,得到第四矩阵;其中,所述第三矩阵包括:所述训练文本的词性序列中的每一个分词的向量;

依据所述第四矩阵中每个位置的数值对应的权重,对所述第四矩阵进行加权平均处理,得到特征向量;

采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述训练文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值;

将所述概率输出向量与所述训练文本的人工标注类别进行交叉熵运算,获得损失函数;

优化所述损失函数,并根据所述优化后的损失函数更新第一参数,直至利用更新后的参数得到的特征向量对所述训练文本进行预测得到的概率输出向量与所述训练文本的人工标注类别等同为止;其中,所述第一参数包括所述softmax函数以及所述训练文本的词性序列中的每一个分词的向量;

将所述更新后的第二参数作为实体关联关系的预测模型中的参数;其中,所述第二参数包括:所述softmax函数。

本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:

一种实体关联关系的分析方法,包括:

获取待预测文本;

对所述待预测文本进行分词处理,得到所述待预测文本的词性序列;

获得所述待预测文本的词性序列中的每一个分词的向量;

利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中实体和对应属性间的关联关系的预测结果;其中,所述实体关联关系的预测模型基于第一原理构建得到;所述第一原理包括:迭代更新所述神经网络算法中的参数,直至利用更新参数后的神经网络算法对训练文本的特征向量进行预测而得到的预测结果等同于人工标注结果;所述训练文本的特征向量,依据所述训练文本的词性序列的每一个分词的向量得到。

可选地,所述获得所述待预测文本的词性序列中的每一个分词的向量,包括:获得所述待预测文本的词性序列中的每一个分词的词向量;

或者,所述获得所述待预测文本的词性序列中的每一个分词的向量,包括:获得所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量;组合所述待预测文本的词性序列中的每一个分词的词向量、以及所述待预测文本的词性序列中每一个分词的词性向量和/或词包向量,得到所述待预测文本的词性序列中的每一个分词的向量。

可选地,所述利用实体关联关系的预测模型对所述待预测文本的词性序列中的每一个分词的向量进行预测,得到所述待预测文本中目标实体和对应属性间的关联关系的预测结果,包括:

对第一矩阵进行序列关系的网络表征,得到第二矩阵;其中,所述第一矩阵包括:所述待预测文本的词性序列中的每一个分词的向量;

依据所述第二矩阵中每个位置的数值对应的权重,对所述第二矩阵进行加权平均处理,得到特征向量;

采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述待预测文本中目标实体和对应属性之间的关联关系在两种类别下的概率值。

可选地,述实体关联关系的预测模型的构建过程,包括:

对训练文本进行分词处理,得到所述训练文本的词性序列;

获得所述训练文本的词性序列中的每一个分词的向量;

对第三矩阵进行序列关系的网络表征,得到第四矩阵;其中,所述第三矩阵包括:所述训练文本的词性序列中的每一个分词的向量;

依据所述第四矩阵中每个位置的数值对应的权重,对所述第四矩阵进行加权平均处理,得到特征向量;

采用softmax函数处理所述特征向量,得到概率输出向量;其中,所述概率输出向量包括:所述训练文本中目标实体和对应属性之间的关联关系在预设种类别下的概率值;

将所述概率输出向量与所述训练文本的人工标注类别进行交叉熵运算,获得损失函数;

优化所述损失函数,并根据所述优化后的损失函数更新第一参数,直至利用更新后的参数得到的特征向量对所述训练文本进行预测得到的概率输出向量与所述训练文本的人工标注类别等同为止;其中,所述第一参数包括所述softmax函数以及所述训练文本的词性序列中的每一个分词的向量;

将所述更新后的第二参数作为实体关联关系的预测模型中的参数;其中,所述第二参数包括:所述softmax函数。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1