一种文本实体关系抽取方法、系统、设备及介质与流程

文档序号:32610466发布日期:2022-12-20 19:42阅读:54来源:国知局
一种文本实体关系抽取方法、系统、设备及介质与流程

1.本发明涉及能源电力分类领域,具体涉及一种文本实体关系抽取方法、系统、设备及介质。


背景技术:

2.实体关系抽取是知识图谱构建的重要环节,通过关系将实体(概念)联系起来,才能形成网状的知识结构。随着深度学习的发展,基于神经网络的实体关系抽取方法取得了明显进步,但神经网络训练时间复杂度较高,而且能源电力行业文本实体关系模式相对固定,需要执行效率较高且适用于工业界的实体关系抽取方法。
3.现有技术基于神经网络的实体关系抽取方法取得了明显进步,但神经网络训练时间复杂度较高,实体关系抽取的效率和精度较低,不满足能源电力行业的要求。


技术实现要素:

4.为了解决现有技术基于神经网络的实体关系抽取方法取得了明显进步,但神经网络训练时间复杂度较高,实体关系抽取的效率和精度较低,不满足能源电力行业要求的问题,本发明提出了一种文本实体关系抽取方法,包括:
5.将待分类的能源电力文档语料采用词向量处理工具进行处理,得到所述待分类的能源电力文档语料的特征向量;
6.将所述特征向量输入预先训练好的支持向量机分类模型中,计算得到所述特征向量的决策函数,当所述决策函数的绝对值在所述设定范围时,得到所述待分类的能源电力文档语料的类别;
7.当所述决策函数的绝对值不在所述设定范围时,将不在设定范围的决策函数对应的特征向量采用预先训练好的knn分类器进行二次分类,得到所述待分类的能源电力文档语料的类别;
8.其中,支持向量机分类模型是基于标注了类别的能源电力文档语料对应的特征向量集合对支持向量机进行训练得到的;
9.knn分类器是基于标记了类别的不满足设定范围的决策函数对应的特征向量训练得到的。
10.可选的,所述将待分类的能源电力文档语料采用词向量处理工具进行处理,得到所述待分类的能源电力文档语料的特征向量,包括:
11.利于汇编语言中的分词工具对能源电力文档语料进行分词、词性标注、词性提取,并清楚去掉乱码、符号、无意义的内容,得到分词和n-gram组合词语;
12.对所述分词和n-gram组合词语分别进行词嵌入操作形成指定维度的词嵌入特征向量;
13.将所有分词和n-gram组合词语的词嵌入特征向量叠加求均值,并将所述均值作为所述待分类的能源电力文档语料的特征向量。
14.可选的,所述支持向量机分类模型的训练包括:
15.获取多个能源电力文档语料的特征向量和所述能源电力文档语料的类型;
16.将所述能源电力文档语料的特征向量和所述能源电力文档语料的类型构建数据集,将所述数据集按照设定比例划分为测试集和训练集;
17.将所述训练集中的能源电力文档语料的特征向量作为输入,将所述能源电力文档语料的类型作为输出对所述支持向量机分类模型进行训练;
18.采用所述测试集对训练后的支持向量机分类模型进行检测,将通过检测后的支持向量机模型作为训练好的支持向量机分类模型。
19.可选的,所述将所述训练集中的能源电力文档语料的特征向量作为输入,将所述能源电力文档语料的类型作为输出对所述支持向量机分类模型进行训练,包括:
20.支持向量机将所述训练集中的每一个能源电力文档语料的特征向量和对应的类型作为一个样本;
21.采用高斯核函数计算任意两个样本之间的欧式距离;
22.基于所述任意两个样本点之间的欧式距离和所述任意两个样本,引入拉格朗日乘数法,得到所述样本对应的拉格朗日乘子;
23.对所述样本对应的拉格朗日乘子求偏导函数得到最优解;
24.将所述最优解作为分类决策函数。
25.可选的,所述高斯核函数如下式所示:
[0026][0027]
式中,k(xi,yi)为高斯函数,(xi,yi)为训练样本,i为文本特征量的编号,xi∈rd,yi为xi的类别标记,σ为函数的宽度参数。
[0028]
可选的,所述最优分割超平面如下式所示:
[0029][0030]
式中,g(x)为分类决策函数,xi表示分类器的支持向量,b为判别函数的偏置项,n为文本特征量的数量。
[0031]
可选的,对所述支持向量机分类模型的训练,还包括:
[0032]
s1当训练集中的特征向量的类型数量大于2时,进入s2;
[0033]
s2从所有类型中选择一个类型作为正类,其他类型为负类对特征向量进行标记后进入s3;
[0034]
s3采用标记类型的特征向量对一个支持向量机分类模型进行训练,得到一个训练好的支持向量机分类模型;
[0035]
s4判断所述其他类型数量是否大于2,若大于2,则将所述其他类型作为所有类型返回s2,否则,进入s5;
[0036]
s5判断所述其他类型数量是否等于2,若等于2,则将2个类型作为所有类型返回s2,否则进入s6;
[0037]
s6结束。
[0038]
可选的,所述当所述决策函数的绝对值在所述设定范围时,得到所述待分类的能源电力文档语料的类别,包括:
[0039]
若所述决策函数大于零,则所述待分类的能源电力文档语料为正类别,否则所述待分类的能源电力文档语料为负类别。
[0040]
可选的,所述knn分类器的训练包括:
[0041]
将所有绝对值不在所述设定范围内的决策函数对应的特征向量和所述特征向量的类型构成训练集;
[0042]
将所述训练集中的特征向量作为knn分类器的输入,将所述训练集中的特征向量对应的类型作为输出,对所述knn分类器进行训练,得到训练好的knn分类器。
[0043]
可选的,所述将不在设定范围的决策函数对应的特征向量采用预先训练好的knn分类器进行二次分类,得到所述待分类的能源电力文档语料的类别,包括:
[0044]
将不在设定范围的决策函数对应的特征向量作为一个测试样本;
[0045]
计算所述测试样本到所述训练集中每个特征向量的欧氏距离;
[0046]
按照欧式距离由小到大,选择前k个特征向量,并将所述k个特征向量对应的类型进行统计,将数量最大的类型作为所述测试样本对应的待分类的能源电力文档语料的类别。
[0047]
可选的,所述欧氏距离按下式计算:
[0048][0049]
式中,为训练集中的样本类别,为测试样本与训练集中的特征向量的欧式距离,xi为第i个测试样本,yi为训练集中的特征向量,i和l为测试样本数量。
[0050]
再一方面本发明还提供了一种文本实体关系抽取系统,包括:
[0051]
向量计算模块,用于将待分类的能源电力文档语料采用词向量处理工具进行处理,得到所述待分类的能源电力文档语料的特征向量;
[0052]
类别确定模块,用于将所述特征向量输入预先训练好的支持向量机分类模型中,计算得到所述特征向量的决策函数,当所述决策函数的绝对值在所述设定范围时,得到所述待分类的能源电力文档语料的类别;
[0053]
二次分类模块,用于当所述决策函数的绝对值不在所述设定范围时,将不在设定范围的决策函数对应的特征向量采用预先训练好的knn分类器进行二次分类,得到所述待分类的能源电力文档语料的类别;
[0054]
其中,支持向量机分类模型是基于标注了类别的能源电力文档语料对应的特征向量集合对支持向量机进行训练得到的;
[0055]
knn分类器是基于标记了类别的不满足设定范围的决策函数对应的特征向量训练得到的。
[0056]
可选的,所述向量计算模块,包括:
[0057]
分词子模块,用于利于汇编语言中的分词工具对能源电力文档语料进行分词、词性标注、词性提取,并清楚去掉乱码、符号、无意义的内容,得到分词和n-gram组合词语;
[0058]
嵌入操作子模块,用于对所述分词和n-gram组合词语分别进行词嵌入操作形成指定维度的词嵌入特征向量;
[0059]
特征向量确定子模块,用于将所有分词和n-gram组合词语的词嵌入特征向量叠加求均值,并将所述均值作为所述待分类的能源电力文档语料的特征向量。
[0060]
可选的,还包括训练模块,用于:
[0061]
获取多个能源电力文档语料的特征向量和所述能源电力文档语料的类型;
[0062]
将所述能源电力文档语料的特征向量和所述能源电力文档语料的类型构建数据集,将所述数据集按照设定比例划分为测试集和训练集;
[0063]
将所述训练集中的能源电力文档语料的特征向量作为输入,将所述能源电力文档语料的类型作为输出对所述支持向量机分类模型进行训练;
[0064]
采用所述测试集对训练后的支持向量机分类模型进行检测,将通过检测后的支持向量机模型作为训练好的支持向量机分类模型。
[0065]
再一方面,本技术还提供了一种计算设备,包括:一个或多个处理器;
[0066]
处理器,用于执行一个或多个程序;
[0067]
当所述一个或多个程序被所述一个或多个处理器执行时,实现如上述所述的一种文本实体关系抽取方法。
[0068]
再一方面,本技术还提供了一种计算机可读存储介质,其上存有计算机程序,所述计算机程序被执行时,实现如上述所述的一种文本实体关系抽取方法。
[0069]
与现有技术相比,本发明的有益效果为:
[0070]
本发明提出了一种文本实体关系抽取方法,包括:将待分类的能源电力文档语料采用词向量处理工具进行处理,得到所述待分类的能源电力文档语料的特征向量;将所述特征向量输入预先训练好的支持向量机分类模型中,计算得到所述特征向量的决策函数,若所述决策函数的绝对值在所述设定范围,则得到所述待分类的能源电力文档语料的类别;否则,将不在设定范围的决策函数对应的特征向量采用预先训练好的knn分类器进行二次分类,得到所述待分类的能源电力文档语料的类别;其中,支持向量机分类模型是基于标注了类别的能源电力文档语料对应的特征向量集合对支持向量机进行训练得到的;knn分类器是基于标记了类别的不满足设定范围的决策函数对应的特征向量训练得到的。本发明融合了支持向量机分类模型和knn分类器,兼顾了实体关系抽取的效率和精度。
附图说明
[0071]
图1为本发明的一种文本实体关系抽取方法流程图;
[0072]
图2为本发明的fasttext模型示意图;
[0073]
图3为本发明的svm分类样本分布示意图;
[0074]
图4为本发明的基于svm与knn模型的实体关系抽取流程图。
具体实施方式
[0075]
本发明提出一种文本的实体关系抽取方法,该方法融合了支持向量机(svm)、k-近邻(knn)等机器学习算法,兼顾实体关系抽取的效率和精度。
[0076]
实施例1:
[0077]
一种文本实体关系抽取方法,如图1所示,包括:
[0078]
s1:将待分类的能源电力文档语料采用词向量处理工具进行处理,得到所述待分
类的能源电力文档语料的特征向量;
[0079]
s2:将所述特征向量输入预先训练好的支持向量机分类模型中,计算得到所述特征向量的决策函数,当所述决策函数的绝对值在所述设定范围时,得到所述待分类的能源电力文档语料的类别;
[0080]
s3:当所述决策函数的绝对值不在所述设定范围时,将不在设定范围的决策函数对应的特征向量采用预先训练好的knn分类器进行二次分类,得到所述待分类的能源电力文档语料的类别;
[0081]
其中,支持向量机分类模型是基于标注了类别的能源电力文档语料对应的特征向量集合对支持向量机进行训练得到的;
[0082]
knn分类器是基于标记了类别的不满足设定范围的决策函数对应的特征向量训练得到的。
[0083]
下面对各步骤做详细介绍:
[0084]
s1:将待分类的能源电力文档语料采用词向量处理工具进行处理,得到所述待分类的能源电力文档语料的特征向量,具体包括:
[0085]
利于汇编语言中的分词工具对能源电力文档语料进行分词、词性标注、词性提取,并清楚去掉乱码、符号、无意义的内容,得到分词和n-gram组合词语;
[0086]
对所述分词和n-gram组合词语分别进行词嵌入操作形成指定维度的词嵌入特征向量;
[0087]
将所有分词和n-gram组合词语的词嵌入特征向量叠加求均值,并将所述均值作为所述待分类的能源电力文档语料的特征向量。
[0088]
这里来的词向量处理工具以词向量和文本分类工具fasttext为例做详细介绍:
[0089]
a:基于fasttext模型对语料进行预处理,生成能源电力文本特征向量:
[0090]
fasttext是一款词向量和文本分类工具,如图2所示,输入一段文本,输出文本属于不同类别的概率,包含三层:输入层、隐含层、输出层,fasttext在保持高精度的情况下加快了训练速度和测试速度。本发明主要利用该fasttext模型工具生成能源电力文档语料的特征向量,如图4所示。
[0091]
步骤1:利用python内置的jieba分词工具对能源电力文档语料进行分词、词性标注、词性提取,并清理去掉乱码、符号、无意义内容,得到分词和n-gram组合词语。
[0092]
n-gram组合词产生方式如下:
[0093]
将能源电力文档语料内容按照字节顺序进行大小为n的滑动窗口操作,最终形成长度为n的字节片段序列,例如,“数字化支撑新型电力系统”,相应的4-gram特征为:“数字化支字化支撑化支撑新支撑新型撑新型电新型电力型电力系电力系统”。
[0094]
步骤2:fasttext模型输入分词和n-gram组合词语,进行词嵌入操作(embedding),使用一个one-hot编码向量(1
×
v维向量,v是词汇量)乘以词嵌入存放矩阵,将单词或者词组映射为低维空间实数域上的向量,形成指定维度的词嵌入特征向量。
[0095]
步骤3:将能源电力文档语料视为一个由词构成的集合,叠加构成能源电力文档语料的所有词及n-gram的词嵌入特征向量,则能源电力文档语料可以用输入层的词嵌入特征向量求和后的均值表示。
[0096][0097]
其中w(i)表示每个词的词嵌入特征向量,h
doc
表示文档向量。
[0098]
步骤4:fasttext模型输出使用分层softmax方法计算分类标签,通过使用哈夫曼(huffman)算法建立用于表征类别的树形结构,替代标准softmax,频繁出现类别的树形结构的深度要比不频繁出现类别的树形结构的深度要小,降低了算法时间复杂度。
[0099]
使用fasttext模型进行文本分类的同时也会产生词的嵌入特征向量,即可得到能源电力文档语料的向量表示。
[0100]
在s2之前还包括对支持向量机分类模型的训练,具体步骤如下:
[0101]
b:训练支持向量机(svm)分类模型,利用该支持向量机分类模型对测试文本集进行分类。
[0102]
步骤1:本发明将实体关系抽取视为分类问题,将步骤a中生成的能源电力文档特征向量集合,划分为训练集和测试集。
[0103]
步骤2:人工标注训练集样本类别,并用于训练生成svm分类模型。
[0104]
针对文本向量的训练样本(xi,yi),i=1,

,n,xi∈rd,yi∈{-1,+1},其中yi表示xi的类别标记,yi=1表示xi属于正类,yi=-1表示xi属于负类。svm寻找能够将训练样本正确划分为两类且使分类间隔最大的超平面h:ω
t
x+b=0,约束条件是样本点到决策边界的距离大于等于1。求解两个分类间隔边界的距离d最大,可以转化为一个等价的二次凸优化问题。
[0105][0106]
其中,表示间隔边界距离,yi(ω
t
x+b)表示样本点到平面h的距离,ω、b分别为超平面的法向量和截距。
[0107]
引入拉格朗日乘数法,上述的svm优化问题可转化为求解如下的对偶问题:
[0108]
最大化:
[0109][0110]
αi为训练样本对应的拉格朗日乘子,k()为核函数。
[0111]
使满足:αi∈[0,c],i=1,2,

,n
[0112]
其中,αi为每个训练样本对应的拉格朗日乘子,c为惩罚因子,k(xi,xj)为核函数,针对能源电力文本数据集线性不可分的情况,本发明采用高斯核函数:
[0113]
[0114]
通过求对偶问题(1)的解αi,再求偏导函数可得最优解进而获得最优分割超平面:
[0115][0116]
其中,xi表示此分类器的支持向量,b为判别函数的偏置项,g(x)=0表示超平面h,g(x)即为分类决策函数,yi=1或yi=-1。
[0117]
对n(n≥3)类的训练样本,每两类样本训练一个分类器。具体包括:
[0118]
s1当训练集中的特征向量的类型数量大于2时,进入s2;
[0119]
s2从所有类型中选择一个类型作为正类,其他类型为负类对特征向量进行标记后进入s3;
[0120]
s3采用标记类型的特征向量对一个支持向量机分类模型进行训练,得到一个训练好的支持向量机分类模型;
[0121]
s4判断所述其他类型数量是否大于2,若大于2,则将所述其他类型作为所有类型返回s2,否则,进入s5;
[0122]
s5判断所述其他类型数量是否等于2,若等于2,则将2个类型作为所有类型返回s2,否则进入s6;
[0123]
s6结束。
[0124]
svm多用于二分类,即两类样本训练一个二分类器;对于多分类来说,先进行二分类,确定一个类别,然后选择一类再进行二分类,依次循环。
[0125]
例如:能源电力文档语料,按照内容所属研究领域划分为化石能源与非化石能源,化石能源属于正类,非化石能源属于负类,而非化石能源进一步分类为新能源与非新能源,这里新能源属于正类,非新能源属于负类,以此类推可以再次进行分类,直到划分满足要求的多个类别。
[0126]
步骤3:基于训练生成的svm分类器对文本数据集进行分类预测。
[0127]
s2:将所述特征向量输入预先训练好的支持向量机分类模型中,计算得到所述特征向量的决策函数,当所述决策函数的绝对值在所述设定范围时,得到所述待分类的能源电力文档语料的类别,具体包括:
[0128]
若所述决策函数大于零,则所述待分类的能源电力文档语料为正类别,否则所述待分类的能源电力文档语料为负类别。
[0129]
在测试时计算每个待测样本的所有分类器决策函数值,采用如下投票方法进行分类判别:
[0130]
若g(x)≥1,待测样本被判为正类的投票数加1;若g(x)≤-1,待测样本被判为负类的投票数加1。最后取最大投票数所对应的类别作为该待测样本的最终类别。
[0131]
在s3之前还包括:
[0132]
c.判别确定区域样本集合与模糊区域样本集。
[0133]
svm对分布在超平面h附近区域的样本的分类效果较差,尤其是能源电力文本类别增加且文本特征区分度相对较低时,各类别的最佳边界往往难以确定。
[0134]
步骤1:若决策函数g(x)≥1或g(x)≤-1,待测样本为确定类别的样本即为确定样本集。
[0135]
步骤2:若决策函数-1<g(x)<1,个别样本点出现在间隔带里面,我们认为两分类面h1和h2之间的间隔带为模型区域如图3所示,这使得出现少数正类(负类)待测样本越过超平面而让其属于负类(正类)投票增加的情况,可能造成误判。
[0136]
本发明我们将符合-1<g(x)<1的能源电力文档特征向量集合视为模糊集合,利用knn方法进一步二次分类。
[0137]
在s3之前还包括对knn分类器的训练,具体包括:
[0138]
将所有绝对值不在所述设定范围内的决策函数对应的特征向量和所述特征向量的类型构成训练集;
[0139]
将所述训练集中的特征向量作为knn分类器的输入,将所述训练集中的特征向量对应的类型作为输出,对所述knn分类器进行训练,得到训练好的knn分类器。
[0140]
s3当所述决策函数的绝对值不在所述设定范围时,将不在设定范围的决策函数对应的特征向量采用预先训练好的knn分类器进行二次分类,得到所述待分类的能源电力文档语料的类别,具体包括:
[0141]
将不在设定范围的决策函数对应的特征向量作为一个测试样本;
[0142]
计算所述测试样本到所述训练集中每个特征向量的欧氏距离;
[0143]
按照欧式距离由小到大,选择前k个特征向量,并将所述k个特征向量对应的类型进行统计,将数量最大的类型作为所述测试样本对应的待分类的能源电力文档语料的类别。
[0144]
所述欧氏距离按下式计算:
[0145][0146]
式中,为训练集中的样本类别,为测试样本与训练集中的特征向量的欧式距离,xi为第i个测试样本,yi为训练集中的特征向量,i和l为测试样本数量。
[0147]
详细步骤如下:
[0148]
d:对模糊区域样本使用knn(k近邻)分类器进行二次分类获取关系类别。
[0149]
步骤1:将步骤c中模糊区域文本样本分为训练集与测试集,标记训练集中的样本类别,计算测试样本点与训练集中的每个对象的欧式距离。
[0150][0151]
式中,为训练集中的样本类别,为测试样本与训练集中的特征向量的欧式距离,xi为第i个测试样本,yi为训练集中的特征向量,i和l为测试样本数量。
[0152]
步骤2:按照欧式距离的递增关系进行排序,选取距离测试样本最小的k0点(本文选取k0=4),确定k0点所在类别的出现频率,每个测试样本的预判类别即为与其最近邻的k0个训练样本中多数样本所对应的类别。
[0153]
步骤3:统计测试样本的k0个最近邻样本,其中多数样本对应的类别即为knn分类器对该待测样本的分类结果。
[0154]
e:生成实体关系抽取结果:
[0155]
基于前述步骤的文本分类方法为一个实体关系的分类模型,依据文本分类结果识别“实体-关系-实体”三元组,实现普通名词实体关系抽取。
[0156]
本发明基于机器学习方法抽取能源电力行业文本实体关系,实现对实体关系抽取的效率与精度的统筹考虑。svm-knn分类方法性能优于svm方法,算法复杂度比knn分类方法低。
[0157]
实施例2:
[0158]
本发明还提供了一种文本实体关系抽取系统,包括:
[0159]
向量计算模块,用于将待分类的能源电力文档语料采用词向量处理工具进行处理,得到所述待分类的能源电力文档语料的特征向量;
[0160]
类别确定模块,用于将所述特征向量输入预先训练好的支持向量机分类模型中,计算得到所述特征向量的决策函数,当所述决策函数的绝对值在所述设定范围时,得到所述待分类的能源电力文档语料的类别;
[0161]
二次分类模块,用于当所述决策函数的绝对值不在所述设定范围时,将不在设定范围的决策函数对应的特征向量采用预先训练好的knn分类器进行二次分类,得到所述待分类的能源电力文档语料的类别;
[0162]
其中,支持向量机分类模型是基于标注了类别的能源电力文档语料对应的特征向量集合对支持向量机进行训练得到的;
[0163]
knn分类器是基于标记了类别的不满足设定范围的决策函数对应的特征向量训练得到的。
[0164]
可选的,所述向量计算模块,包括:
[0165]
分词子模块,用于利于汇编语言中的分词工具对能源电力文档语料进行分词、词性标注、词性提取,并清楚去掉乱码、符号、无意义的内容,得到分词和n-gram组合词语;
[0166]
嵌入操作子模块,用于对所述分词和n-gram组合词语分别进行词嵌入操作形成指定维度的词嵌入特征向量;
[0167]
特征向量确定子模块,用于将所有分词和n-gram组合词语的词嵌入特征向量叠加求均值,并将所述均值作为所述待分类的能源电力文档语料的特征向量。
[0168]
可选的,还包括训练模块,用于:
[0169]
获取多个能源电力文档语料的特征向量和所述能源电力文档语料的类型;
[0170]
将所述能源电力文档语料的特征向量和所述能源电力文档语料的类型构建数据集,将所述数据集按照设定比例划分为测试集和训练集;
[0171]
将所述训练集中的能源电力文档语料的特征向量作为输入,将所述能源电力文档语料的类型作为输出对所述支持向量机分类模型进行训练;
[0172]
采用所述测试集对训练后的支持向量机分类模型进行检测,将通过检测后的支持向量机模型作为训练好的支持向量机分类模型。
[0173]
训练模块具体用于:
[0174]
支持向量机将所述训练集中的每一个能源电力文档语料的特征向量和对应的类型作为一个样本;
[0175]
采用高斯核函数计算任意两个样本之间的欧式距离;
[0176]
基于所述任意两个样本点之间的欧式距离和所述任意两个样本,引入拉格朗日乘数法,得到所述样本对应的拉格朗日乘子;
[0177]
对所述样本对应的拉格朗日乘子求偏导函数得到最优解;
[0178]
将所述最优解作为分类决策函数。
[0179]
可选的,所述高斯核函数如下式所示:
[0180][0181]
式中,k(xi,yi)为高斯函数,(xi,yi)为训练样本,i为文本特征量的编号,xi∈rd,yi为xi的类别标记,σ为函数的宽度参数。
[0182]
可选的,所述最优分割超平面如下式所示:
[0183][0184]
式中,g(x)为分类决策函数,xi表示分类器的支持向量,b为判别函数的偏置项,n为文本特征量的数量。
[0185]
训练模块还用于:
[0186]
s1当训练集中的特征向量的类型数量大于2时,进入s2;
[0187]
s2从所有类型中选择一个类型作为正类,其他类型为负类对特征向量进行标记后进入s3;
[0188]
s3采用标记类型的特征向量对一个支持向量机分类模型进行训练,得到一个训练好的支持向量机分类模型;
[0189]
s4判断所述其他类型数量是否大于2,若大于2,则将所述其他类型作为所有类型返回s2,否则,进入s5;
[0190]
s5判断所述其他类型数量是否等于2,若等于2,则将2个类型作为所有类型返回s2,否则进入s6;
[0191]
s6结束。
[0192]
类别确定模块对类型的判断具体包括:
[0193]
若所述决策函数大于零,则所述待分类的能源电力文档语料为正类别,否则所述待分类的能源电力文档语料为负类别。
[0194]
一种文本实体关系抽取系统还包括knn分类器训练模块,用于对knn分类器进行训练。
[0195]
knn分类器训练模块具体用于:
[0196]
将所有绝对值不在所述设定范围内的决策函数对应的特征向量和所述特征向量的类型构成训练集;
[0197]
将所述训练集中的特征向量作为knn分类器的输入,将所述训练集中的特征向量对应的类型作为输出,对所述knn分类器进行训练,得到训练好的knn分类器。
[0198]
二次分类模块具体用于:
[0199]
将不在设定范围的决策函数对应的特征向量作为一个测试样本;
[0200]
计算所述测试样本到所述训练集中每个特征向量的欧氏距离;
[0201]
按照欧式距离由小到大,选择前k个特征向量,并将所述k个特征向量对应的类型进行统计,将数量最大的类型作为所述测试样本对应的待分类的能源电力文档语料的类别。
[0202]
其中欧氏距离按下式计算:
[0203][0204]
式中,为训练集中的样本类别,为测试样本与训练集中的特征向量的欧式距离,xi为第i个测试样本,yi为训练集中的特征向量,i和l为测试样本数量。
[0205]
实施例3:
[0206]
基于同一种发明构思,本发明还提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor、dsp)、专用集成电路(application specificintegrated circuit,asic)、现成可编程门阵列(field-programmable gatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能,以实现上述实施例中一种文本实体关系抽取方法的步骤。
[0207]
实施例4:
[0208]
基于同一种发明构思,本发明还提供了一种存储介质,具体为计算机可读存储介质(memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中一种文本实体关系抽取方法的步骤。
[0209]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0210]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0211]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0212]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0213]
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在发明待批的本发明的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1