基于事件自动抽取的矿山事件知识图谱构建方法及装置

文档序号:36934755发布日期:2024-02-02 22:01阅读:49来源:国知局
基于事件自动抽取的矿山事件知识图谱构建方法及装置

本说明书涉及知识图谱,尤其涉及一种基于事件自动抽取的矿山事件知识图谱构建方法及装置。


背景技术:

1、知识图谱(knowledge graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。

2、由于当前的矿山事故事件多以非结构化的文本形式呈现,要实现对其中的知识的应用,就不可避免地应用事件抽取。然而当前矿山领域的中文事件抽取还处于空白阶段,矿山事故事件触发词、事件元素、元素角色都还没有具体的标准。且由于缺少相应的事故标准数据集,当基于人工批注构建事故标准数据集时仅人工进行事故标准数据集的构建时,效率低且准确率难以保证,进而使得当前进行矿山事件知识图谱构建时的事件抽取准确率低,难以发现矿山所暴露的问题,影响了矿山安全作业与风险防控的工作。


技术实现思路

1、为了解决上述技术问题,本说明书一个或多个实施例提供了一种基于事件自动抽取的矿山事件知识图谱构建方法及装置。

2、本说明书一个或多个实施例采用下述技术方案:

3、本说明书一个或多个实施例提供一种基于事件自动抽取的矿山事件知识图谱构建方法,方法包括:

4、基于公开新闻网站爬取矿山事故事件文本数据,对所述矿山事故事件文本数据进行预处理,以对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集;

5、基于bert预训练的动态多池化卷积神经网络模型,获取所述标注文本数据集中各数据的词汇级信息,并对所述词汇级信息进行标识获得词汇级特征向量;

6、根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量,并拼接所述词汇级特征向量与句子级特征向量获得特征向量;

7、将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果;

8、对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱。

9、可选地,在本说明书一个或多个实施例中,对所述矿山事故事件文本数据进行预处理,具体包括:

10、获取各所述矿山事故事件文本数据的数据格式,以基于所述数据格式将所述矿山事故时间文本数据划分到不同的文本数据集;

11、基于所述bert预训练模型的输入格式确定所述文本数据集中的待转换数据集,以对所述待转换数据集进行数据转换,获得符合格式的第一文本数据;

12、对各所述第一文本数据基于摘要算法进行数据去重处理,获得去重后的第二文本数据;

13、确定所述第二文本数据中的中文字符占比,若确定所述中文字符占比小于预设占比阈值,则对所述第二文本数据进行删除,获得处理后的矿山事故事件文本数据。

14、可选地,在本说明书一个或多个实施例中,所述对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集,具体包括:

15、获取各所述处理后的矿山事故事件文本数据的摘要数据,以基于自动化算法确定所述摘要数据所对应的自动化标注;其中,所述自动化标注包括:事件类型标注、事件元素标注;

16、将所述各所述处理后的矿山事故事件文本数据与所述对应的自动化标注上传到所述众包平台;

17、基于所述众包平台的人工经验对各所述处理后的矿山事故事件文本数据所对应的自动化标注进行校验,获得矿山事故事件的标注文本数据集。

18、可选地,在本说明书一个或多个实施例中,所述基于bert预训练的动态多池化卷积神经网络模型,获取所述标注文本数据集中各数据的词汇级信息,并对所述词汇级信息进行标识获得词汇级特征向量,具体包括:

19、将所述标注文本数据集中各数据作为输入文本,以将所述输入文本基于词汇单元进行转换获得词汇级序列数据;其中,所述词汇单元为token级单元;

20、基于所述bert预训练模型的预设标记算法对所述词汇级序列数据进行拆分,获得所述标注文本数据集中各数据的子单词;其中,所述预设标记算法为:wordpiecetokenization;

21、基于所述bert预训练模型的嵌入层确定对各所述子单词进行映射,获得各所述子单词所对应的词汇级特征向量;其中,所述映射向量包含所述子单词的语义信息。

22、可选地,在本说明书一个或多个实施例中,所述根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量,并拼接所述词汇级特征向量与句子级特征向量获得特征向量,具体包括:

23、根据所述词汇级特征向量确定待分类的候选事件触发词与候选事件元素的位置,以基于所述候选事件触发词与所述候选事件元素的位置,进行动态化句子切分获得句子级信息;

24、基于动态多池化卷积神经网络模型的嵌入层对所述句子级信息进行映射获得句子级特征向量;

25、基于全连接层对所述词汇级特征向量与所述句子级特征向量进行拼接,获得特征向量;其中,所述特征向量为,l为词汇级特征向量,p为句子级特征向量。

26、可选地,在本说明书一个或多个实施例中,将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果,具体包括:

27、确定第一softmax分类器中事件触发词的分类计算公式;其中,所述分类计算公式为:,表示转移矩阵,表示整个网络的最终输出,v表示所述特征向量;

28、基于所述分类计算公式确定所述特征向量的分类结果,并基于softmax函数计算当前待分类的候选事件触发词分类结果中,概率最高的事件类型为所述矿山事故事件的事件分类结果;

29、基于第二softmax分类器对所述事件分类结果的事件元素进行分类,确定所述事件分类结果所对应的事件元素角色,为所述矿山事故事件的元素分类结果;

30、根据所述事件分类结果与所述元素分类结果,确定所述矿山事故事件抽取结果;

31、所述根据所述事件分类结果与所述元素分类结果,确定所述矿山事故事件抽取结果之后,所述方法还包括:

32、基于crf层确定所述矿山事故事件抽取结果的预测输出标签。

33、可选地,在本说明书一个或多个实施例中,对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,具体包括:

34、基于所述矿山事故事件抽取结果进行事件标识,以获取所述矿山事故事件的事件真实性标识与事件共指标识;

35、若基于所述事件真实性标识确定所述特征向量所对应的矿山事故事件为非真实事件,则对所述矿山事故事件抽取结果中该矿山事故事件进行删除;

36、若基于所述事件共指性标识,确定特征向量所对应的矿山事故事件为同一事故事件,则对所述特征向量所对应的处理后的矿山事故事件文本数据进行数据合并。

37、可选地,在本说明书一个或多个实施例中,所述根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量之前,所述方法还包括:

38、确定所述动态多池化卷积神经网络模型的目标函数,以基于所述目标函数对所述动态多池化卷积神经网络模型进行迭代优化;其中,所述目标函数为:

39、;

40、其中,θ表示影响事件类型的参数,i表示第i个事件类型,m表示事件类型的总量,x表示输入的特征,y表示要预测的目标,j(θ)表示极大似然估计。

41、可选地,在本说明书一个或多个实施例中,所述对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱,具体包括:

42、获取所述处理后的矿山事故事件抽取结果中各矿山事故事件的事件触发词,作为所述矿山事件知识图谱的事件节点;

43、基于各所述事件节点所对应的特征向量,确定所述矿山事件知识图谱的事件节点的事件关系,以基于所述事件关系确定所述矿山事件知识图谱的边;

44、对所述事件节点与所述矿山事件知识图谱的边,获得所述矿山事件知识图谱。

45、本说明书一个或多个实施例提供一种基于事件自动抽取的矿山事件知识图谱构建装置,装置包括:

46、数据标注单元,用于基于公开新闻网站爬取矿山事故事件文本数据,对所述矿山事故事件文本数据进行预处理,以对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集;

47、第一向量提取单元,用于基于bert预训练的动态多池化卷积神经网络模型,获取所述标注文本数据集中各数据的词汇级信息,并对所述词汇级信息进行标识获得词汇级特征向量;

48、第二向量提取单元,用于根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量,并拼接所述词汇级特征向量与句子级特征向量获得特征向量;

49、抽取单元,用于将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果;

50、映射单元,用于对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱。

51、本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:

52、基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集,基于众包半自动化的方式进行标注即降低了仅基于人工经验进行手动标注带来的高人力成本以及高时间成本,也避免了仅基于自动化算法进行标注时容易脱离人工经验的问题,且解决了现有技术中缺乏矿山事故标准数据集导致的事假抽取准确率低的问题。此外通过基于bert预训练的动态多池化卷积神经网络模型分别获取词汇级特征向量与句子级特征向量,实现了在损失最重要信息的前提下捕获到更多的事件信息,增加了知识图谱构建的可靠性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1