一种质量问题分析报告的实体关系抽取方法及系统与流程

文档序号:34106264发布日期:2023-05-10 20:11阅读:54来源:国知局
一种质量问题分析报告的实体关系抽取方法及系统与流程

本发明涉及关系抽取,尤其涉及一种质量问题分析报告的实体关系抽取方法及系统。


背景技术:

1、关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节,能够从非结构化文本中抽取实体对间的语义关系,实现语义理解与解析,相应的研究成果广泛应用于文本摘要、智能问答和知识图谱等技术领域。

2、传统的关系抽取方法主要为基于特征向量与核函数的方法。其中基于特征向量的关系抽取方法的核心是利用词、词性序列、上下文、依存句法、句法树等构建特征工程提取数据的显式直观特征,通过启发式的方法选取特征集合,使用多层次的语言特征构造向量,关系抽取的速度较快。由于很难找出适合关系抽取任务的新特征,该类方法性能难以提升,因此方法的应用有局限性。基于核函数的关系抽取方法不需要人为构造显性的特征空间,直接文本的字符串或者句法分析的树结构作为输入,是利用卷积核、树核等核函数计算方式,自动提取数据的隐式高维特征,通过计算输入实例之间的相似度训练分类模型。基于核函数的方法可以利用文本的长距离特征,从而在理论上具有高维特征空间,关系抽取的结果优于基于特征向量的方法。但是由于核函数方法利用隐性方式表示特征,从而可能引入噪声信息,不利于判断特征有效性。

3、随着近年来深度学习的崛起,深度学习也逐渐应用于实体关系抽取任务中。深度学习的关系抽取任务能避免方法中人工特征选择等步骤,减少并改善特征抽取过程中的误差积累问题。对比传统方法,深度学习的关系抽取方法依靠大量数据集进行算法模型的训练,关系抽取模型的准确率较传统方法有较大的提升。但是,模型对样本数据集具有依赖性,当样本量越充足时,模型的学习和关系表达能力越强,关系抽取也越精准。但是在一些存在样本不均衡特性的领域,比如制造领域,现有关系抽取模型很难得到精准应用,且不具备跨领域泛化能力。因此,在样本不均衡的情况下现有关系抽取模型的能力不足、精度不高,无法满足实际工程应用需要。


技术实现思路

1、鉴于上述的分析,本发明实施例旨在提供一种质量问题分析报告的实体关系抽取方法,用以解决现有样本不均衡时关系抽取准确率低的问题。

2、一方面,本发明实施例提供了一种质量问题分析报告的实体关系抽取方法,包括如下步骤:

3、从质量问题分析报告中提取待推理信息,对待推理信息进行预处理后,传入实体关系抽取模型,推理出实体关系;

4、实体关系抽取模型是基于历史质量问题分析报告构建训练集和测试集,对pcnn模型进行迭代训练和测试,直至模型准确率不小于阈值而得到;其中,训练时根据各关系类别的样本权重更新训练集,根据训练集中各训练样本的训练结果动态更新各关系类别标签;测试时根据测试集中各测试样本的验证结果计算模型准确率,若模型准确率小于阈值,更新各关系类别的样本权重后再次训练和测试。

5、基于上述方法的进一步改进,对待推理信息进行预处理,包括:

6、按句对待推理信息进行分词处理,去除其中的停用词,得到每一语句的分词结果;

7、根据每一语句的分词结果识别出其中的实体,去除实体数量小于2的语句及其分词结果,剩下的每一语句的分词结果作为一条待推理数据。

8、基于上述方法的进一步改进,根据各关系类别的样本权重更新训练集,包括:

9、初次训练时,各关系类别的样本权重为1,直接获取训练集,否则,各关系类别的样本权重为上一次训练和测试结束后更新的各关系类别的样本权重,将当前训练集中各关系类别的样本数量分别乘以对应的样本权重,得到各关系类别的新样本数量;根据随机排列组合方法,将当前训练集中各关系类别的样本数量扩充至对应的新样本数量,得到最新训练集。

10、基于上述方法的进一步改进,根据训练集中各训练样本的训练结果动态更新各关系类别标签,采用如下公式:

11、

12、其中,lablei为在当前训练结果中当前训练样本第i个关系类别的动态标签值,i=1,2,...,k,k为关系类别总个数,ε为超参数,detecti为在当前训练结果中当前训练样本被预测出的关系类别,pspos为被预测出的关系类别对应的概率。

13、基于上述方法的进一步改进,更新各关系类别的样本权重,包括:

14、根据当前训练集中各关系类别的样本数量,得到各关系类别的初始样本权重;

15、根据测试集中各测试样本的验证结果,统计测试集中各关系类别的样本中被预测错误的样本数量,计算各关系类别的样本权重调节因子;

16、各关系类别的初始样本权重分别乘以对应的样本权重调节因子,得到各关系类别更新后的样本权重。

17、基于上述方法的进一步改进,根据当前训练集中各关系类别的样本数量,得到各关系类别的初始样本权重,通过下式计算得到:

18、

19、其中,wi≥0(i=1,2,…,k)为当前训练集中第i个关系类别的初始样本权重,k为关系类别数,xmax为当前训练集中样本数量最多的关系类别的样本数量,xi为第i个关系类别的样本数量。

20、基于上述方法的进一步改进,测试集中各关系类别的样本中被预测错误的样本数量包括:负样本被预测为正样本的样本数量、正样本被预测为负样本的样本数量和被漏判的样本数量。

21、基于上述方法的进一步改进,各关系类别的样本权重调节因子,通过下式计算得到:

22、

23、其中,si≥0(i=1,2,…,k)为当前训练集中第i个关系类别的样本权重调节因子,k为关系类别数,yri为测试集中第i个关系类别的样本中被预测错误的样本数量,yi为测试集中第i个关系类别的样本数量。

24、基于上述方法的进一步改进,pcnn模型包括输入映射层、卷积层、分段最大池化和全连接层。

25、另一方面,本发明实施例提供了一种质量问题分析报告的实体关系抽取系统,包括:

26、关系抽取模块,用于从质量问题分析报告中提取待推理信息,对待推理信息进行预处理后,传入实体关系抽取模型,推理出实体关系;

27、模型生成模块,用于获取实体关系抽取模型,实体关系抽取模型是基于历史质量问题分析报告构建训练集和测试集,对pcnn模型进行迭代训练和测试,直至模型准确率不小于阈值而得到;其中,训练时根据各关系类别的样本权重更新训练集,根据训练集中各训练样本的训练结果动态更新各关系类别标签;测试时根据测试集中各测试样本的验证结果计算模型准确率,若模型准确率小于阈值,更新各关系类别的样本权重后再次训练和测试。

28、与现有技术相比,本发明至少可实现如下有益效果之一:

29、1、考虑到网络模型对于正样本的推理值包含类内信息,将实时的类间精度差异信息引入标签平滑,缓解类间精度差异过大,利用网络的实时推理信息自适应补全不同关系类别的类内信息,强化了对类内信息的识别,充分学习和提取不同类别的关键特征,提高样本不均衡条件下关系抽取的准确率。

30、2、对于样本不充足的关系类别,在样本集中增加权重因子,依据抽取结果,对于漏检和误检的关系类别,加大权重因子的的值,以扩充模型训练时该类关系在样本集中的占比,修正样本集分布,解决样本不均衡的问题,提高样本不充足的关系类别抽取的准确率,降低样本不均衡的类别之间关系抽取准确率的差距,保证每类关系都能被准确抽取。

31、本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1