一种基于远程监督的信息分类方法及系统与流程

文档序号:28375202发布日期:2022-01-07 21:35阅读:153来源:国知局
一种基于远程监督的信息分类方法及系统与流程

1.本技术涉及自然语言处理领域,尤其涉及一种基于远程监督的信息分类方法及系统。


背景技术:

2.远程监督算法是将文本与大规模知识图谱进行实体对齐,利用知识图谱已有的实体关系对文本进行标注。
3.然而,利用远程监督算法在进行数据分类过程中可能会引入大量的噪声数据,如:在建模时会将不是表达某种关系的句子当做表达这种关系的句子,或者将表达某种关系的句子当做不表达这种关系的句子,从而引入噪声数据。


技术实现要素:

4.有鉴于此,本技术提供一种基于远程监督的信息分类方法及系统,其具体方案如下:
5.一种基于远程监督的信息分类方法,包括:
6.确定句子中的实体词语对,以及所述实体词语对中的每个实体词语在所述句子中的位置;
7.将所述实体词语对及每个所述实体词语在所述句子中的位置输入至卷积神经网络模型;
8.基于所述实体词语对中的每个实体词语在所述句子中的位置提取所述句子中的多个特征信息;
9.基于所述句子中的多个特征信息确定所述实体词语对的语义关系。
10.进一步的,所述基于所述实体词语对中的每个实体词语在所述句子中的位置提取所述句子中的多个特征信息,包括:
11.将所述实体词语对中的每个实体词语所在的位置作为所述句子的分界点;
12.以所述句子的分界点为基准,将所述句子分为n+1段分句,所述实体词语对中的实体词语为n个,n为大于1的正整数;
13.获取所述n+1段分句对应的n+1个特征信息,将其作为所述句子的特征信息。
14.进一步的,所述确定句子中的实体词语对,包括:
15.确定句子集,所述句子集中包括不少于一个句子;
16.确定所述句子集中的实体词语对,所述句子集中的实体词语对为从所述句子集中的任意一个句子中均能够提取出的实体词语。
17.进一步的,所述基于所述句子中的多个特征信息确定所述实体词语对的语义关系,包括:
18.确定所述句子集中每个句子的第一权重信息;
19.基于所述句子集中每个句子中的多个特征信息,以及,所述句子集中每个句子的
权重信息确定所述句子集中不少于一个句子的多个特征信息中每个特征信息的第二权重信息;
20.基于所述第二权重信息确定所述实体词语对的语义关系。
21.进一步的,所述基于所述句子中的多个特征信息确定所述实体词语对的语义关系,包括:
22.基于预先训练的分类器以及所述句子中的多个特征信息确定所述实体词语对的语义关系。
23.进一步的,还包括:预先训练分类器,
24.其中,所述预先训练分类器,包括:
25.确定所述训练语料库中句子的实体词语对;
26.基于知识图谱中实体对的对应关系确定所述训练语料库中句子的实体词语对的关联关系;
27.提取所述训练语料库中的句子的文本特征,基于所述文本特征及所述训练语料库中句子的实体词语对的关联关系确定所述实体对的特征向量;
28.基于所述实体对的特征向量训练所述分类器。
29.一种基于远程监督的信息分类系统,包括:
30.第一确定单元,用于确定句子中的实体词语对,以及所述实体词语对中的每个实体词语在所述句子中的位置;
31.输入单元,用于将所述实体词语对及每个所述实体词语在所述句子中的位置输入至卷积神经网络模型;
32.提取单元,用于基于所述实体词语对中的每个实体词语在所述句子中的位置提取所述句子中的多个特征信息;
33.第二确定单元,用于基于所述句子中的多个特征信息确定所述实体词语对的语义关系。
34.进一步的,所述提取单元用于:
35.将所述实体词语对中的每个实体词语作为所述句子的分界点;以所述句子的分界点为基准,将所述句子分为n+1段分句,所述实体词语对中的实体词语为n个,n为大于1的正整数;获取所述n+1段分句对应的n+1个特征信息,将其作为所述句子的特征信息。
36.进一步的,所述第一确定单元用于:
37.确定句子集,所述句子集中包括不少于一个句子;确定所述句子集中的实体词语对,所述句子集中的实体词语对为从所述句子集中的任意一个句子中均能够提取出的实体词语。
38.进一步的,所述第二确定单元用于:
39.确定所述句子集中每个句子的第一权重信息;基于所述句子集中每个句子中的多个特征信息,以及,所述句子集中每个句子的权重信息确定所述句子集中不少于一个句子的多个特征信息中每个特征信息的第二权重信息;基于所述第二权重信息确定所述实体词语对的语义关系。
40.从上述技术方案可以看出,本技术公开的基于远程监督的信息分类方法及系统,确定句子中的实体词语对,以及实体词语对中的每个实体词语在句子中的位置,将实体词
语对以及每个实体词语在句子中的位置输入至卷积神经网络模型,基于实体词语对中的每个实体词语在句子中的位置提取句子中的多个特征信息,基于句子中的多个特征信息确定实体词语对的语义关系。本方案中在将实体词语对及每个实体词语在句子中的位置输入至卷积神经网络模型后,在该模型中,基于每个实体词语在句子中的位置提取句子的多个特征信息进行池化,以更好的确定两个实体词语间的结构化信息,便于精确分类,提高对句子中实体对之间关系确定的精确度,避免引入噪声数据。
附图说明
41.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
42.图1为本技术实施例公开的一种基于远程监督的信息分类方法的流程图;
43.图2为本技术实施例公开的一种基于远程监督的信息分类方法的流程图;
44.图3为本技术实施例公开的一种卷积神经网络模型的示意图;
45.图4为本技术实施例公开的一种基于远程监督的信息分类方法的流程图;
46.图5为本技术实施例公开的一种信息抽取架构的示意图;
47.图6为本技术实施例公开的一种基于远程监督的信息分类系统的结构示意图。
具体实施方式
48.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
49.本技术公开了一种基于远程监督的信息分类方法,其流程图如图1所示,包括:
50.步骤s11、确定句子中的实体词语对,以及实体词语对中的每个实体词语在句子中的位置;
51.步骤s12、将实体词语对及每个实体词语在句子中的位置输入至卷积神经网络模型;
52.步骤s13、基于实体词语对中的每个实体词语在句子中的位置提取句子中的多个特征信息;
53.步骤s14、基于句子中的多个特征信息确定实体词语对的语义关系。
54.远程监督算法即将文本与大规模知识图谱进行实体对齐,利用知识图谱已有的实体间关系对文本进行标注,如:如果从知识图谱中可获取三元组r(e1,e2),其中,e1、e2表示两个实体,r表示e1和e2之间的关系,由于e1和e2同时出现在句子s中,则句子s表达了实体e1和实体e2之间的关系r。
55.其中,实体是指独立存在且具有某种区别性的事物,如:一个人,一种动物,一个国家,一种植物等;关系即在知识图谱上,表现形式是一个将节点映射到布尔值的函数,其中,节点如:实体、语义类、属性值等。
56.在基于远程监督算法对句子中的实体对进行关系分类时,由于假设过于肯定,难免引入大量的噪声数据,数据结构过程依赖于ner等nlp工具,中间过程出错会导致错误传播问题。
57.为了解决这一问题,本方案中,在进行模型测试时,不仅基于句子中的实体对进行分析,还基于句子中的实体对中每个实体在句子中的位置进行分析,以便于获取多个不同的特征信息,从而提高对句子分析的精确度,以达到对实体对的关系精确分类的目的。
58.本方案中,首先确定句子中是否存在实体词语对,如果存在,则确定实体词语对,并确定实体词语对中每个实体词语在句子中的位置。若实体词语对中包括2个实体词语,则需要确定这2个实体词语在一个句子中分别在的位置;若实体词语对中包括3个实体词语,则需要确定这3个实体词语在一个句子中分别在的位置。
59.其中,实体词语对是基于知识图谱确定的,基于知识图谱能够确定多个实体词语对,当有句子需要进行分析时,需要首先确定句子中存在的实体,若句子中存在的实体为至少2个,则从知识图谱中查找该句子中存在的至少2个实体是否为实体词语对,若是,则需要继续进行后续分析,如:确定是实体词语对的至少2个实体在句子中的位置。
60.在确定实体词语对及实体词语对中每个实体词语在句子中的位置后,将实体词语对以及实体词语对中每个实体词语在句子中的位置作为卷积神经网络模型的输入,将其输入至卷积神经网络模型的输入层。
61.在卷积神经网络模型的卷积层进行特征的提取,而在池化层,并非直接选取一个最大特征,而是选取多个特征信息,以选取的多个特征信息未基础确定实体词语对的语义关系。选取多个特征信息能够使得基于卷积神经网络模型对句子的分析更为精确,从而保证最终得到的句子中的实体词语对的语义关系更为明确,避免出现最终确定的实体词语对的关系错误的情况发生。
62.本实施例公开的基于远程监督的信息分类方法,确定句子中的实体词语对,以及实体词语对中的每个实体词语在句子中的位置,将实体词语对以及每个实体词语在句子中的位置输入至卷积神经网络模型,基于实体词语对中的每个实体词语在句子中的位置提取句子中的多个特征信息,基于句子中的多个特征信息确定实体词语对的语义关系。本方案中在将实体词语对及每个实体词语在句子中的位置输入至卷积神经网络模型后,在该模型中,基于每个实体词语在句子中的位置提取句子的多个特征信息进行池化,以更好的确定两个实体词语间的结构化信息,便于精确分类,提高对句子中实体对之间关系确定的精确度,避免引入噪声数据。
63.本实施例公开了一种基于远程监督的信息分类方法,其流程图如图2所示,包括:
64.步骤s21、确定句子中的实体词语对,以及实体词语对中的每个实体词语正在句子中的位置;
65.步骤s22、将实体词语对及每个实体词语在句子中的位置输入至卷积神经网络模型;
66.步骤s23、将实体词语中的每个实体词语所在的位置作为句子的分界点;
67.步骤s24、以句子的分界点为基准,将句子分为n+1段分句,实体词语对中的实体词语为n个,n为大于1的正整数;
68.步骤s25、获取n+1段分句对应的n+1个特征信息,将其作为句子的特征信息;
69.步骤s26、基于句子中的多个特征信息确定实体词语对的语义关系。
70.在将实体词语对以及实体词语对中每个实体词语在句子中的位置输入至卷积神经网络模型的输入层之后,在卷积层提取句子的特征信息,之后在池化层获取多个最大特征信息,以保证分析的准确性。
71.具体的,可通过piecewise max-pooling把句子分成几部分,即以实体词语对中的每个实体词语为分界点划分句子,即:实体词语对中有n个实体词语,则句子中存在n个分界点,将句子分成n+1段。
72.如:句子中存在一个实体词语对,该实体词语对中包括2个实体词语,则将句子以这2个实体词语所在的位置为分界点划分成3段,即句子中第一个实体词语之前的部分为第一分句,第一个实体词语与第二个实体词语之间的部分为第二分句,第二个实体词语之后的部分为第三分句。
73.其中,第一分句与第三分句可能存在,也可能不存在,如:第一个实体词语为该句子的第一个词语,则第一分句是不存在的,若第二个实体词语为该句子的最后一个词语,则第三分句是不存在的。
74.将句子以实体词语对中的每个实体词语所在位置为分界点划分成多段分句,每一段分句提取一个最大特征信息,以得到该句子的多个最大特征信息,将获得的所有的最大特征信息作为该句子的特征信息,通过该句子的特征信息进行实体词语对的语义关系的分析。
75.如图3所示,输入层输入的是实体词语及每个实体词语在句子中的位置,在卷积层以每个实体词语所在的位置为分界线将句子分成三部分,其中,c1,c2,c3是不同卷积核的结果,然后都分成三段进行池化,对每一段读取一个max pooling,最终基于这3段的max pooling输出一个向量,用于表示实体词语对的语义关系。
76.相比于传统的max-pooling,一个句子只能得到一个特征值,本方案能够更加充分有效的得到句子特征信息,从而减少确定错误关系的情况。
77.进一步的,确定句子中的实体词语对,包括:
78.确定句子集,句子集中包括不少于一个句子;确定句子集中的实体词语对,句子集中的实体词语对为从句子集中的任意一个句子中均能够提取处的实体词语。
79.在对实体词语对的关系仅分析的过程中,可能会存在多个句子中同时存在同一个实体词语对,当多个句子中同时存在同一个实体词语对时,将这多个句子确定为一个句子集,在进行实体词语对的关系确定的过程中,提取句子的多个特征信息,其实际是对句子集中的每个句子均提取多个特征信息。
80.例如:测试集中有10个句子中均出现了同一个实体词语对,该实体词语对中有2个实体词语,则将这10个句子中每个句子都提取3个特征信息,10个句子就会提取出30个与该实体词语对相关的特征信息,通过对着30个特征信息进行分析确定该实体词语对的语义关系。
81.进一步的,还可以包括:
82.确定句子集中每个句子的第一权重信息,基于句子集中每个句子中的多个特征信息,以及,句子集中每个句子的权重信息确定句子集中不少于一个句子的多个特征信息中每个特征信息的第二权重信息,基于第二权重信息确定实体词语对的语义关系。
83.当通过一个句子集中的多个句子确定一个实体词语对的语义关系时,需要确定这个句子集中每个句子所占的权重,当某个句子所占的权重较大时,该句子的多个特征信息在所有句子的所有特征信息中所占的权重也会较大;当某个句子所占的权重较小时,该句子的多个特征信息在所有句子的所有特征信息中所占的权重也会较小。因此,在通过一个句子集中的多个句子共同确定一个实体词语对的语义关系时,需要确定每个句子所占的权重,以确定每个特征信息所占的权重,从而在进行语义关系的分析时,能够基于所有特征信息中每个特征信息的权重进行分析。
84.本实施例公开的基于远程监督的信息分类方法,确定句子中的实体词语对,以及实体词语对中的每个实体词语在句子中的位置,将实体词语对以及每个实体词语在句子中的位置输入至卷积神经网络模型,基于实体词语对中的每个实体词语在句子中的位置提取句子中的多个特征信息,基于句子中的多个特征信息确定实体词语对的语义关系。本方案中在将实体词语对及每个实体词语在句子中的位置输入至卷积神经网络模型后,在该模型中,基于每个实体词语在句子中的位置提取句子的多个特征信息进行池化,以更好的确定两个实体词语间的结构化信息,便于精确分类,提高对句子中实体对之间关系确定的精确度,避免引入噪声数据。
85.本实施例公开了一种基于远程监督的信息分类方法,其流程图如图4所示,包括:
86.步骤s41、确定句子中的实体词语对,以及实体词语对中的每个实体词语在句子中的位置;
87.步骤s42、将实体词语对及每个实体词语在句子中的位置输入至卷积神经网络模型;
88.步骤s43、基于实体词语对中的每个实体词语在句子中的位置提取句子中的多个特征信息;
89.步骤s44、基于预先训练的分类器以及句子中的多个特征信息确定实体词语对的语义关系。
90.预先进行分类器的训练,以便于能够基于训练好的分类器进行实体词语对的语义关系的分类确定。
91.具体的,确定训练语料库中句子的实体词语对,基于知识图谱中实体对对的对应关系确定训练语料库中句子的实体词语对的关联关系,提取训练语料库中的句子的文本特征,基于文本特征及训练语料库中句子的实体词语对的关联关系确定实体对的特征向量,基于实体对的特征向量训练分类器。
92.在训练阶段,用命名实体识别工具,把训练语料库中句子的实体识别出来,如果多个句子包含了两个特定实体,而且这两个实体是知识图谱中的实体对,对应有一种特定关系,则基于远程监督的假设,认为该多个句子都表达了这种特定关系。因此,从该多个句子中提取文本特征,拼接成一个向量,作为该特定关系的特征向量,用于训练分类器,该特征向量至少包括:(关系,实体1,实体2)。
93.在训练阶段,其目标函数为:
94.[0095][0096]
其中,m=m1,m2,...,m
t
表示训练数据中的t个句子集baes,每个句自己都有一个关系标签;表示第i个句子集内有qi个句子;yi表示的是关系类别,表示的是第i个句子集中的第j个句子,qi是每个句子集中包含的句子个数,其主要是通过多样例学习的方法选取每个句子集中置信度最高的样例作为正样例进行训练。
[0097]
基于注意力机制的卷积神经网络模型采用了pcnn方法作为基准系统,多样例学习的方法缓解了噪声数据较多的问题,如图5所示,其中,m1,m2,m3,

,mc表示的是两个实体词语对应的训练句子集合,ri表示的是句子mi经过cnn编码池化后的向量,ai表示的是训练句子样例的权重,该框架首先通过cnn编码后得到句子向量ri,再经过计算ri与关系r向量的相似度来赋予ri在整个句子集合中的权重,其计算公式如下:
[0098]ei
=xiar,
[0099][0100]
其中,xi表示的是句子的向量化表示,a是匹配的参数,k表示的关系的数量,最后在各句子加权取和后通过softmax分类器得到分类结果。
[0101]
正是因为加入远程监督式实体抽取,其不需要人工标注的数据,使用知识图谱提供的数据从海量文本中启发式的标注数据,之后再从这些数据中抽取特征、训练分类器,优化了其中数据标注和特征使用两方面的内容。
[0102]
进一步的,在从知识图谱中获取数据之前,可以首先:进行信息检索,即首先确定当前用户的相关信息,基于当前用户的相关信息与结果文档的内容相似性来对文档的用户相关性进行判断,进而确定与当前用户相关性更高的数据进行分类器的训练。其中,用户的相关信息可以为:用户的输入词汇中频率较高的词汇的所属类型,或者,用户的兴趣爱好等。
[0103]
另外,在对句子中的实体词语对的语义关系进行确定之后,还可以通过结构化自然语言表述的语义知识,并整合来自海量文本中的不同语义知识,构建大规模知识库。
[0104]
每一段文本内所包含的语义可以描述为其中的一组实体以及这些实体相互之间的关联和交互,因此抽取文本中的实体和它们之间的语义关系也就成为了理解文本意义的基础。信息抽取可通过抽取实体和实体之间的语义关系,表示这些语义关系承载的信息,并基于这些信息进行计算和推理来有效的理解一段文本所承载的语义。
[0105]
本实施例公开的基于远程监督的信息分类方法,确定句子中的实体词语对,以及实体词语对中的每个实体词语在句子中的位置,将实体词语对以及每个实体词语在句子中的位置输入至卷积神经网络模型,基于实体词语对中的每个实体词语在句子中的位置提取句子中的多个特征信息,基于句子中的多个特征信息确定实体词语对的语义关系。本方案中在将实体词语对及每个实体词语在句子中的位置输入至卷积神经网络模型后,在该模型中,基于每个实体词语在句子中的位置提取句子的多个特征信息进行池化,以更好的确定两个实体词语间的结构化信息,便于精确分类,提高对句子中实体对之间关系确定的精确度,避免引入噪声数据。
[0106]
本实施例公开了一种基于远程监督的信息分类系统,其结构示意图如图6所示,包
括:
[0107]
第一确定单元61,输入单元62,提取单元63及第二确定单元64。
[0108]
其中,第一确定单元61用于确定句子中的实体词语对,以及实体词语对中的每个实体词语在句子中的位置;
[0109]
输入单元62用于将实体词语对及每个实体词语在句子中的位置输入至卷积神经网络模型;
[0110]
提取单元63用于基于实体词语对中的每个实体词语在句子中的位置提取句子中的多个特征信息;
[0111]
第二确定单元64用于基于句子中的多个特征信息确定实体词语对的语义关系。
[0112]
远程监督算法即将文本与大规模知识图谱进行实体对齐,利用知识图谱已有的实体间关系对文本进行标注,如:如果从知识图谱中可获取三元组r(e1,e2),其中,e1、e2表示两个实体,r表示e1和e2之间的关系,由于e1和e2同时出现在句子s中,则句子s表达了实体e1和实体e2之间的关系r。
[0113]
其中,实体是指独立存在且具有某种区别性的事物,如:一个人,一种动物,一个国家,一种植物等;关系即在知识图谱上,表现形式是一个将节点映射到布尔值的函数,其中,节点如:实体、语义类、属性值等。
[0114]
在基于远程监督算法对句子中的实体对进行关系分类时,由于假设过于肯定,难免引入大量的噪声数据,数据结构过程依赖于ner等nlp工具,中间过程出错会导致错误传播问题。
[0115]
为了解决这一问题,本方案中,在进行模型测试时,不仅基于句子中的实体对进行分析,还基于句子中的实体对中每个实体在句子中的位置进行分析,以便于获取多个不同的特征信息,从而提高对句子分析的精确度,以达到对实体对的关系精确分类的目的。
[0116]
本方案中,首先确定句子中是否存在实体词语对,如果存在,则确定实体词语对,并确定实体词语对中每个实体词语在句子中的位置。若实体词语对中包括2个实体词语,则需要确定这2个实体词语在一个句子中分别在的位置;若实体词语对中包括3个实体词语,则需要确定这3个实体词语在一个句子中分别在的位置。
[0117]
其中,实体词语对是基于知识图谱确定的,基于知识图谱能够确定多个实体词语对,当有句子需要进行分析时,需要首先确定句子中存在的实体,若句子中存在的实体为至少2个,则从知识图谱中查找该句子中存在的至少2个实体是否为实体词语对,若是,则需要继续进行后续分析,如:确定是实体词语对的至少2个实体在句子中的位置。
[0118]
在确定实体词语对及实体词语对中每个实体词语在句子中的位置后,将实体词语对以及实体词语对中每个实体词语在句子中的位置作为卷积神经网络模型的输入,将其输入至卷积神经网络模型的输入层。
[0119]
在卷积神经网络模型的卷积层进行特征的提取,而在池化层,并非直接选取一个最大特征,而是选取多个特征信息,以选取的多个特征信息未基础确定实体词语对的语义关系。选取多个特征信息能够使得基于卷积神经网络模型对句子的分析更为精确,从而保证最终得到的句子中的实体词语对的语义关系更为明确,避免出现最终确定的实体词语对的关系错误的情况发生。
[0120]
进一步的,提取单元用于:将实体词语对中的每个实体词语所在的位置作为句子
的分界点;以句子的分界点为基准,将句子分为n+1段分句,实体词语对中的实体词语为n个,n为大于1的正整数;获取n+1段分句对应的n+1个特征信息,将其作为句子的特征信息。
[0121]
在将实体词语对以及实体词语对中每个实体词语在句子中的位置输入至卷积神经网络模型的输入层之后,在卷积层提取句子的特征信息,之后在池化层获取多个最大特征信息,以保证分析的准确性。
[0122]
具体的,可通过piecewise max-pooling把句子分成几部分,即以实体词语对中的每个实体词语为分界点划分句子,即:实体词语对中有n个实体词语,则句子中存在n个分界点,将句子分成n+1段。
[0123]
如:句子中存在一个实体词语对,该实体词语对中包括2个实体词语,则将句子以这2个实体词语所在的位置为分界点划分成3段,即句子中第一个实体词语之前的部分为第一分句,第一个实体词语与第二个实体词语之间的部分为第二分句,第二个实体词语之后的部分为第三分句。
[0124]
其中,第一分句与第三分句可能存在,也可能不存在,如:第一个实体词语为该句子的第一个词语,则第一分句是不存在的,若第二个实体词语为该句子的最后一个词语,则第三分句是不存在的。
[0125]
将句子以实体词语对中的每个实体词语所在位置为分界点划分成多段分句,每一段分句提取一个最大特征信息,以得到该句子的多个最大特征信息,将获得的所有的最大特征信息作为该句子的特征信息,通过该句子的特征信息进行实体词语对的语义关系的分析。
[0126]
如图3所示,输入层输入的是实体词语及每个实体词语在句子中的位置,在卷积层以每个实体词语所在的位置为分界线将句子分成三部分,其中,c1,c2,c3是不同卷积核的结果,然后都分成三段进行池化,对每一段读取一个max pooling,最终基于这3段的max pooling输出一个向量,用于表示实体词语对的语义关系。
[0127]
相比于传统的max-pooling,一个句子只能得到一个特征值,本方案能够更加充分有效的得到句子特征信息,从而减少确定错误关系的情况。
[0128]
进一步的,确定句子中的实体词语对,包括:
[0129]
确定句子集,句子集中包括不少于一个句子;确定句子集中的实体词语对,句子集中的实体词语对为从句子集中的任意一个句子中均能够提取处的实体词语。
[0130]
在对实体词语对的关系仅分析的过程中,可能会存在多个句子中同时存在同一个实体词语对,当多个句子中同时存在同一个实体词语对时,将这多个句子确定为一个句子集,在进行实体词语对的关系确定的过程中,提取句子的多个特征信息,其实际是对句子集中的每个句子均提取多个特征信息。
[0131]
例如:测试集中有10个句子中均出现了同一个实体词语对,该实体词语对中有2个实体词语,则将这10个句子中每个句子都提取3个特征信息,10个句子就会提取出30个与该实体词语对相关的特征信息,通过对着30个特征信息进行分析确定该实体词语对的语义关系。
[0132]
进一步的,还可以包括:
[0133]
确定句子集中每个句子的第一权重信息,基于句子集中每个句子中的多个特征信息,以及,句子集中每个句子的权重信息确定句子集中不少于一个句子的多个特征信息中
每个特征信息的第二权重信息,基于第二权重信息确定实体词语对的语义关系。
[0134]
当通过一个句子集中的多个句子确定一个实体词语对的语义关系时,需要确定这个句子集中每个句子所占的权重,当某个句子所占的权重较大时,该句子的多个特征信息在所有句子的所有特征信息中所占的权重也会较大;当某个句子所占的权重较小时,该句子的多个特征信息在所有句子的所有特征信息中所占的权重也会较小。因此,在通过一个句子集中的多个句子共同确定一个实体词语对的语义关系时,需要确定每个句子所占的权重,以确定每个特征信息所占的权重,从而在进行语义关系的分析时,能够基于所有特征信息中每个特征信息的权重进行分析。
[0135]
进一步的,第二确定单元用于:基于预先训练的分类器以及句子中的多个特征信息确定实体词语对的语义关系。
[0136]
预先进行分类器的训练,以便于能够基于训练好的分类器进行实体词语对的语义关系的分类确定。
[0137]
具体的,确定训练语料库中句子的实体词语对,基于知识图谱中实体对对的对应关系确定训练语料库中句子的实体词语对的关联关系,提取训练语料库中的句子的文本特征,基于文本特征及训练语料库中句子的实体词语对的关联关系确定实体对的特征向量,基于实体对的特征向量训练分类器。
[0138]
在训练阶段,用命名实体识别工具,把训练语料库中句子的实体识别出来,如果多个句子包含了两个特定实体,而且这两个实体是知识图谱中的实体对,对应有一种特定关系,则基于远程监督的假设,认为该多个句子都表达了这种特定关系。因此,从该多个句子中提取文本特征,拼接成一个向量,作为该特定关系的特征向量,用于训练分类器,该特征向量至少包括:(关系,实体1,实体2)。
[0139]
在训练阶段,其目标函数为:
[0140][0141][0142]
其中,m=m1,m2,...,m
t
表示训练数据中的t个句子集bags,每个句自己都有一个关系标签;表示第i个句子集内有qi个句子;yi表示的是关系类别,表示的是第i个句子集中的第j个句子,qi是每个句子集中包含的句子个数,其主要是通过多样例学习的方法选取每个句子集中置信度最高的样例作为正样例进行训练。
[0143]
基于注意力机制的卷积神经网络模型采用了pcnn方法作为基准系统,多样例学习的方法缓解了噪声数据较多的问题,如图5所示,其中,m1,m2,m3,

,mc表示的是两个实体词语对应的训练句子集合,ri表示的是句子mi经过cnn编码池化后的向量,ai表示的是训练句子样例的权重,该框架首先通过cnn编码后得到句子向量ri,再经过计算ri与关系r向量的相似度来赋予ri在整个句子集合中的权重,其计算公式如下:
[0144]ei
=xiar,
[0145][0146]
其中,xi表示的是句子的向量化表示,a是匹配的参数,k表示的关系的数量,最后
在各句子加权取和后通过softmax分类器得到分类结果。
[0147]
正是因为加入远程监督式实体抽取,其不需要人工标注的数据,使用知识图谱提供的数据从海量文本中启发式的标注数据,之后再从这些数据中抽取特征、训练分类器,优化了其中数据标注和特征使用两方面的内容。
[0148]
进一步的,在从知识图谱中获取数据之前,可以首先:进行信息检索,即首先确定当前用户的相关信息,基于当前用户的相关信息与结果文档的内容相似性来对文档的用户相关性进行判断,进而确定与当前用户相关性更高的数据进行分类器的训练。其中,用户的相关信息可以为:用户的输入词汇中频率较高的词汇的所属类型,或者,用户的兴趣爱好等。
[0149]
另外,在对句子中的实体词语对的语义关系进行确定之后,还可以通过结构化自然语言表述的语义知识,并整合来自海量文本中的不同语义知识,构建大规模知识库。
[0150]
每一段文本内所包含的语义可以描述为其中的一组实体以及这些实体相互之间的关联和交互,因此抽取文本中的实体和它们之间的语义关系也就成为了理解文本意义的基础。信息抽取可通过抽取实体和实体之间的语义关系,表示这些语义关系承载的信息,并基于这些信息进行计算和推理来有效的理解一段文本所承载的语义。
[0151]
本实施例公开的基于远程监督的信息分类系统,确定句子中的实体词语对,以及实体词语对中的每个实体词语在句子中的位置,将实体词语对以及每个实体词语在句子中的位置输入至卷积神经网络模型,基于实体词语对中的每个实体词语在句子中的位置提取句子中的多个特征信息,基于句子中的多个特征信息确定实体词语对的语义关系。本方案中在将实体词语对及每个实体词语在句子中的位置输入至卷积神经网络模型后,在该模型中,基于每个实体词语在句子中的位置提取句子的多个特征信息进行池化,以更好的确定两个实体词语间的结构化信息,便于精确分类,提高对句子中实体对之间关系确定的精确度,避免引入噪声数据。
[0152]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0153]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0154]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0155]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的
一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1