基于深度学习的轨道交通事件知识图谱构建方法与流程

文档序号:22042489发布日期:2020-08-28 18:17阅读:452来源:国知局
基于深度学习的轨道交通事件知识图谱构建方法与流程

本发明属于人工智能领域的一个重要方向,具体涉及一种基于深度学习的轨道交通事件知识图谱构建方法。



背景技术:

随着互联网技术的快速发展,众多行业与新兴的人工智能技术深度融合,取得了显著的成果。城市轨道交通作为城市现代化的标配,在推动城市经济发展中发挥着重要功效。轨道交通建设工程属于复杂的工程,具有规模庞大,建设工期长,投入资金巨大等特点。在轨道交通建设工程中前期的设计规划阶段是后期工程的基础,只有完备初期设计规划才能保障后期建设。然而在轨道交通工程的设计规划阶段,所参照的设计规范标准种类繁杂且各规范条目信息量巨大,且整个轨道交通建设工程的信息化程度较低,从而造成了在设计规划阶段查询某规范内容的困难。并且在设计阶段对设计人员专业能力有着极高的要求,使得设计工作极具挑战。因此需要借助知识图谱,来表示轨道交通设计规范知识,促进轨道交通建设工程的信息化。

目前大多数知识图谱是以实体为核心的实体知识图谱,但实体信息脱离具体的语境,存在语义信息的片面性。相比实体,事件更能清晰的表达语义信息。在轨道交通设计标准的规范条目中多包含有事件表达。因此采用事件知识图谱的形式来表达设计规范。相较于传统的知识图谱的构建方法,大多数自动化程度低,耗时耗力,因此提出基于深度学习的构建轨道交通事件知识图谱的方法,提升自动化程度,减轻工作量。



技术实现要素:

本发明旨在是提供一种基于深度学习的轨道交通事件知识图谱构建方法。通过事件知识图谱来表示规范,使得所表示的内容的语义更丰富,精确。利用深度学习解决了传统构建图谱技术中自动化程度低,耗时耗力的问题。

本发明所采用的技术方案为,采用事件触发词词典匹配模式加人工标注方式构建轨道交通事件识别模型训练数据;采用bert-bilstm-crf算法训练规范事件识别模型,从轨道交通设计规范文本中自动抽取规范条目事件;采用word2vec模型,余弦相似度聚类,逻辑回归二分类模型来对事件识别模型输出的事件进行事件统一;采用snowball算法来构建事件关系模型的训练数据;采用bert-bilstm-attention-softmax算法训练关系识别模型,自动抽取事件之间的关系,形成轨道交通事件知识图谱。事件知识图谱构建过程包括以下步骤:

步骤1,对原始文本采用事件触发词词典匹配和人工标注方式,来构建事件识别模型的训练数据。

步骤2,对轨道交通设计规范事件抽取训练集进行预处理,将训练集中的文本以规范条目划分,并对文本进行词性标注。

步骤3,将步骤2处理的文本使用bert-bilstm-crf算法训练轨道交通设计规范事件识别模型。

步骤4,对原始文本采用snowball算法,来构建事件关系训练数据。

步骤5,将步骤4生成的轨道交通设计规范事件关系抽取训练集进行预处理,将训练集中的文本以事件对形式划分。

步骤6,将步骤5处理的文本使用bert-bilstm-attention-softmax算法训练关系识别模型。

步骤7,对轨道交通设计规范进行预处理,以规范条目划分。

步骤8,将步骤7预处理过的轨道交通规范文本输入步骤3生成的事件识别模型中,抽取规范中的事件,事件包含事件触发词和事件元素。

步骤9,将步骤8中识别出来的事件,进行事件统一。

步骤10,将步骤9中识别出来的事件,存入事件数据库中。

步骤11,将步骤9中识别出来的事件以“事件元素-关系-事件触发词”的三元组的形式存入图数据库。

步骤12,从步骤10中生成的事件数据库中取出事件,组成事件对,输入步骤6生成的事件关系识别模型中,抽取规范中事件间的关系。

步骤13,将步骤10中的事件对和步骤12中抽取出的事件关系以“事件触发词-关系-事件触发词”的三元组形式存入图数据库。

步骤1中,事件由事件触发词和事件元素所组成;因事件触发词大多是具有固定的词汇,因此采用词典匹配的方式来加速人工标注,构建模型训练数据;词典的扩展可以借助同义词林。

步骤3中,使用bert-bilstm-crf算法训练事件识别模型,整个模型由三个部分组成,分别是bert层,bilstm层,crf层。bert预训练模型用来获取包含规范的上下文特征信息的字向量,bilstm层用于特征提取,利用整个文本的序列信息,crf层用来学习句子的约束条件,过滤错误的预测序列。

步骤4中,利用半监督snowball算法来构建事件关系识别模型训练集。snowball算法具体步骤如下:

步骤4.1,人工标注少量的事件关系,形成事件关系表;每一种事件关系对于一个事件关系表。

步骤4.2,使用现有的事件关系表,匹配原文中包含事件关系表中的事件的原句,并生成模板;模板的格式为五元组形式,分别为<left>,事件1类型,<middle>,事件2类型,<right>;len为可任意设定长度,<left>为事件1左边len个词汇的向量表示,<middle>为事件1和事件2间的词汇向量表示,<right>为事件右边len个词汇的向量表示;事件1类型为数值限定事件,事件2类型为数值限定事件。

步骤4.3,对生成的模板采用聚类,将相似度大于阈值0.7的模板聚为一类,利用平均的方法生成新的模板,加入用来存储模板规则库;。由步骤4.2可知模板的格式可记为e1,e2分别表示模板p的事件1类型和事件2类型,表示e1左边3个词汇长度的向量表示,表示e1,e2之间词汇的向量表示,表示e2右边三个词汇长度的向量表示。模板间的相似度计算,示例如下,模板1:模板2:若满足条件e1=e1'&&e2=e'2,即满足模板p1的事件1类型e1与模板p2的事件1类型e'1相同且模板p1的事件2类型e2与模板p2的事件2类型e'2相同,则模板p1与模板p2的相似度可由计算得,μ1μ2μ3为权重,因对模板间相似度计算结果影响较大,可设置μ2>μ1>μ3;若不满足条件e1=e1'&&e2=e'2,则模板p1与模板p2的相似度可记为0。

步骤4.4,首先利用步骤3中训练的事件识别模型扫描原文本,识别出文本中的包含的事件类型,然后利用步骤4.3中生成的规则库中模板对原文本进行匹配,匹配得到的文本转换为模板的五元组形式;

步骤4.5,将步骤4.4生成的新模板与规则库中的模板进行相似度计算,相似度小于阈值0.7的舍弃,相似度大于阈值0.7的模板中的事件加入事件关系表中;

步骤4.6,重复执行步骤4.2~4.5,直至原文本处理结束。

步骤6中,使用bert-bilstm-attention-softmax算法训练关系识别模型。整个模型由四个部分组成,分别是bert层,bilstm层,attention层,softmax层。bert预训练模型用来获取包含规范的上下文特征信息的字向量,bilstm层用于特征提取,利用整个文本的序列信息,attention层用来计算注意力概率以突出关键词汇在文本中的重要程度,softmax层用来生成各种关系类别的概率,取最大的类别概率为模型预测类别。

步骤9中,在规范文本中存在代指同一事件的文本;为避免在事件数据库中会造成大量冗余信息;采用事件统一处理算法,事件统一处理算法具体步骤如下:

步骤9.1,利用轨道交通原文本,训练word2vec模型;

步骤9.2,利用步骤9.1生成的word2vec模型,输入轨道交通事件,生成事件向量;

步骤9.3,利用余弦函数值计算事件之间的相似度,根据相似度值大于0.8的事件聚为一类;余弦函数如下所示:

步骤9.4,将步骤9.3产生新的事件,全部事件两者任意组合,计算事件对间的相似度;

步骤9.5,将事件对与事件相似度输入到以训练好的逻辑回归二分类模型中,判别事件的相似。逻辑回归数学模型如下:

步骤9.6,依据步骤9.5的分类结果,若事件间相似,则舍弃一个事件,若事件间不相似,则将两个事件都保存。

本发明的有益效果是:

本发明针对轨道交通建设设计阶段工程信息繁杂,传统知识图谱的缺陷和构建图谱工作量大的问题,提出了一种基于深度学习的构建轨道交通事件知识图谱的方法。采用事件触发词词典匹配模式加人工标注方式构建轨道交通事件识别模型训练数据;采用bert-bilstm-crf算法训练规范事件识别模型,从轨道交通设计规范文本中自动抽取规范条目事件;采用word2vec模型,余弦相似度聚类,逻辑回归二分类模型来对事件识别模型输出的事件进行事件统一;采用snowball算法来构建事件关系模型的训练数据;采用bert-bilstm-attention-softmax算法训练关系识别模型,自动抽取事件之间的关系,形成轨道交通事件知识图谱。提升了轨道交通建设设计工程信息化,减少了构建图谱的工作量。

附图说明

图1为本发明一种基于深度学习的构建轨道交通事件知识图谱的方法总流程图;

图2为本发明一种基于深度学习的轨道交通事件知识图谱构建方法在采用词典匹配和人工标注构建事件训练数据集的过程;

图3为本发明一种基于深度学习的轨道交通事件知识图谱构建方法基于bert-bilstm-crf算法构建规范事件识别模型的过程;

图4为本发明一种基于深度学习的轨道交通事件知识图谱构建方法采用word2vec模型,余弦相似度聚类,逻辑回归二分类模型来对事件识别模型输出的事件进行事件统一的过程;

图5为本发明一种基于深度学习的轨道交通事件知识图谱构建方法采用snowball算法来构建事件关系模型的训练数据的过程;

图6为本发明一种基于深度学习的轨道交通事件知识图谱构建方法基于bert-bilstm-attention-softmax算法构建关系识别模型的过程。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图1,本发明基于深度学习的轨道交通事件知识图谱构建方法,具体包括以下步骤:

步骤1,如图2所示,对原始文本采用事件触发词词典匹配和人工标注方式,来构建事件识别模型的训练数据。标注训练集算法的伪代码如下:

步骤2,对轨道交通设计规范事件抽取训练集进行预处理,将训练集中的文本以规范条目划分,并对文本进行词性标注。

步骤3,如图3所示,将步骤2处理的文本使用bert-bilstm-crf算法训练轨道交通设计规范事件识别模型。构建事件识别模型的伪代码如下:

步骤4,如图5所示,对原始文本采用半监督snowball算法来构建事件关系识别模型训练集。snowball算法具体步骤如下:

步骤4.1,人工标注少量的事件关系,形成事件关系表;每一种事件关系对于一个事件关系表。

步骤4.2,使用现有的事件关系表,匹配原文中包含事件关系表中的事件的原句,并生成模板;模板的格式为五元组形式,分别为<left>,事件1类型,<middle>,事件2类型,<right>;len为可任意设定长度,<left>为事件1左边len个词汇的向量表示,<middle>为事件1和事件2间的词汇向量表示,<right>为事件右边len个词汇的向量表示;事件1类型为数值限定事件,事件2类型为数值限定事件。

步骤4.3,对生成的模板采用聚类,将相似度大于阈值0.7的模板聚为一类,利用平均的方法生成新的模板,加入用来存储模板规则库;。由步骤4.2可知模板的格式可记为e1,e2分别表示模板p的事件1类型和事件2类型,表示e1左边3个词汇长度的向量表示,表示e1,e2之间词汇的向量表示,表示e2右边三个词汇长度的向量表示。模板间的相似度计算,示例如下,模板1:模板2:若满足条件e1=e1'&&e2=e'2,即满足模板p1的事件1类型e1与模板p2的事件1类型e'1相同且模板p1的事件2类型e2与模板p2的事件2类型e'2相同,则模板p1与模板p2的相似度可由计算得,μ1μ2μ3为权重,因对模板间相似度计算结果影响较大,可设置μ2>μ1>μ3;若不满足条件e1=e1'&&e2=e'2,则模板p1与模板p2的相似度可记为0。

步骤4.4,首先利用步骤3中训练的事件识别模型扫描原文本,识别出文本中的包含的事件类型,然后利用步骤4.3中生成的规则库中模板对原文本进行匹配,匹配得到的文本转换为模板的五元组形式;

步骤4.5,将步骤4.4生成的新模板与规则库中的模板进行相似度计算,相似度小于阈值0.7的舍弃,相似度大于阈值0.7的模板中的事件加入事件关系表中;

步骤4.6,重复执行步骤4.2~4.5,直至原文本处理结束。

步骤5,将步骤4生成的轨道交通设计规范事件关系抽取训练集进行预处理,将文本以事件对形式划分。

步骤6,将步骤5处理的文本使用bert-bilstm-attention-softmax算法训练关系识别模型。构建事件关系识别模型的伪代码如下,如图6所示:

步骤7,对轨道交通设计规范进行预处理,以规范条目划分。

步骤8,将步骤7预处理过的轨道交通规范文本输入步骤3生成的事件识别模型中,抽取规范中的事件,事件包含事件触发词和事件元素。

步骤9,将步骤8中识别出来的事件,如图4所示,进行事件统一。在规范文本中存在代指同一事件的文本,;为避免在事件数据库中会造成大量冗余信息;采用事件统一处理算法,事件统一处理算法具体步骤如下:

步骤9.1,利用轨道交通原文本,训练word2vec模型;

步骤9.2,利用步骤9.1生成的word2vec模型,输入轨道交通事件,生成事件向量;

步骤9.3,利用余弦函数值计算事件之间的相似度,根据相似度值大于0.8的事件聚为一类;余弦函数如下所示:

步骤9.4,将步骤9.3产生新的事件,全部事件两者任意组合,计算事件对间的相似度;

步骤9.5,将事件对与事件相似度输入到以训练好的逻辑回归二分类模型中,判别事件的相似。逻辑回归数学模型如下:

步骤9.6,依据步骤9.5的分类结果,若事件间相似,则舍弃一个事件,若事件间不相似,则将两个事件都保存。

步骤10,将步骤9中识别出来的事件,存入事件数据库中。

步骤11,将步骤9中识别出来的事件以“事件元素-关系-事件触发词”的三元组的形式存入图数据库。例如,“轨道中心道床面作为应急疏散通道”以<轨道中心道床面,主体,作为>和<应急疏散通道,客体,作为>存入图数据库。

步骤12,从步骤10中生成的事件数据库中取出事件,组成事件对,输入步骤6生成的事件关系识别模型中,抽取规范中事件间的关系。

步骤13,将步骤10中的事件对和步骤12中抽取出的事件关系以“事件触发词-关系-事件触发词”的三元组形式存入图数据库。例如“轨道中心道床面作为应急疏散通道”和“列车端部车辆应设置专用端门和配置下车设施”间的事件关系以<作为,条件关系,设置>存入图数据库。

本发明采用事件触发词词典匹配模式加人工标注方式构建轨道交通事件识别模型训练数据;采用bert-bilstm-crf算法训练规范事件识别模型,从轨道交通设计规范文本中自动抽取规范条目事件;采用word2vec模型,余弦相似度聚类,逻辑回归二分类模型来对事件识别模型输出的事件进行事件统一;采用snowball算法来构建事件关系模型的训练数据;采用bert-bilstm-attention-softmax算法训练关系识别模型,自动抽取事件之间的关系,形成轨道交通事件知识图谱。提升了轨道交通建设设计工程信息化,减少了构建图谱的工作量。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1