一种油田安全标准知识数据挖掘方法及其系统与流程

文档序号：36657322发布日期：2024-01-06 23:45阅读：31来源：国知局

本发明涉及数据挖掘，特别涉及一种油田安全标准知识数据挖掘方法及其系统。

背景技术：

1、标准数字化转型已成为新时代我国重点产业发展的战略任务，对增强我国产业发展安全、参与全球市场竞争具有重要意义。

2、石油天然气工业发展至今，已形成从石油勘探、开发、油气集输、储运等十几个专业的工业体系。随着我国石油天然气工业的迅速发展，企业规模不断增长，油气勘探开发难度也不断加大，油田企业的安全形势比较严重，面临的挑战和竞争前所未有，同时暴露出的安全、健康、环境问题也愈来愈多，在石油天然气勘探开发面临的对象、要求的技术条件、新工艺、新技术应用等方面的安全与环保问题日益突出。

3、油田安全及环保问题是油田生产当中的两个重要的问题，社会也非常的关注，油田的相关部门正加强对两个方面问题的认识程度，利用正确的策略，并且采取有效的方法，油田的安全环保专业日常检查包括重大风险源、重点要害部位、直接作业环节等现场管理情况，重点突出海上、井控、硫化氢、危险化学品、环境保护以及人员密集场所等环节安全环保质量措施落实情况；检查各单位对承包商、承运商等安全环保质量监管情况，检查承包商现场施工管理情况。在检查时存在以下难点：

4、一是油田现行标准法规数量庞大，数字化程度不高。胜利油田在用标准系统包括标准动态管理系统、标准制修订系统、胜利油田标准查询系统、技术监督管理平台等，各平台的历史标准数据独立存储，标准规范和格式也不统一，对标准的统一使用和集中管理带来不便。

5、二是标准获取方式较为传统落后，人为主观活动对标准使用的不确定性风险较大。油田安全风险点多、分布广、作业现场分散，油田企业环保安全管理是一项典型的知识密集型工作，但这些知识分散存储在各种资料中，如标准规范、施工组织设计方案、安全技术方案、事故调查报告以及其他各种技术及管理资料等。在油田环保安全管理过程中需要大量的专业领域知识的支持，这些资料由于数据量大、种类繁多、来源广泛，很难快速准确地从中获取到有价值的知识。但是，我国尚缺少统一的标准语义知识库，各行业标准统一集成能力较差。因此需要一种油田行业安全标准知识的数据挖掘方法。

技术实现思路

1、为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

2、本发明提出了一种油田安全标准知识数据挖掘方法，其改进之处在于，包括：

3、(1)根据油田领域专业词汇及行业标准术语构建油田领域标准本体数据库；

4、(2)对所述油田领域标准本体数据库中数据信息基于双向长短时记忆网络模型获得实体抽取语料；

5、(3)提取所述实体抽取语料至深度神经网络实体关系抽取模型，进行关系抽取并输出油田语义关系；

6、(4)通过输出的油田语义和空间关系信息三元组完成实体空间关系知识数据挖掘的构建。

7、优选的，所述步骤(1)包括获取包含油田领域知识的文本语料库，包括但不限于油田标准数据、技术规范数据、专业论文数据、油田相关的标准术语数据及其油田专业词汇数据，并对所有数据进行预处理，根据所述数据构建油田领域标准本体数据库。

8、进一步的，所述数据进行预处理的方法包括去除停用词、标点符号以及拼写错误。

9、优选的，所述步骤(2)包括

10、(2-1)对油田领域标准本体数据库的原始语料原始语料进行实体标注生成标注后的文件，采用bio三位标注方法对文件标注，生成数据集；

11、(2-2)按照1：3的比例划分数据集为训练集和测试集，对训练集生成词表和标签表缓存文件，并对文本进行等长切分，每隔50个字为一组；

12、(2-3)进行数据预处理，挑选词频最高的前50个字，将其余无关词汇、数词和用于扩展对齐的词用斜杠代替；

13、(2-4)通过bilstm网络训练数据集中每个字的输出特征向量，通过crf层结合维特比解码确定句子最优输出标签序列，并确定命名实体；

14、(2-5)利用训练好的双向长短时记忆网络模型模型提取油田领域标准本体数据库的剩余语料中的实体获得实体抽取语料。

15、优选的，所述步骤(3)包括

16、(3-1)使用预训练语言模型对所述实体抽取语料中文本进行预训练，使用层叠指针网络对实体之间的关系进行抽取；

17、(3-2)抽取中使用注意力机制计算实体之间的相似度，选择相似度最高的实体作为关系的输出；

18、(3-3)将实体之间的关系与相应的标准语义关系进行匹配，得到语义关系词典。

19、优选的，所述步骤(4)包括

20、(4-1)输出的所述油田语义对含有油田领城标准本位数据库中油田实体的初始词典对所述多条语料进行分词，分别得到每条语料对应的分词结果；其中，油田实体为预先确定的标准实体；

21、(4-2)基于每条语料对应的分词结果以及所述油田领城标准本位数据库中油田实体的目标词根，对所述多条语料进行分类，得到每条语料的类别。

22、进一步的，所述提取所述实体抽取语料至深度神经网络实体关系抽取模型包括

23、(5-1)所述实体抽取语料文本经过bert编码得到序列表示，判断预测句子中存在的关系集合；

24、(5-2)对每个关系进行两次独立的序列标注操作，分别提取语义和语料，采用bio标注方式标注；

25、(5-3)在标注过程中对每个token向量加入了关系向量，识别在特定关系下的实体；

26、(5-4)针对某一类关系提取除了句子中所有可能的语义和语料后，使用一个全局关联矩阵mn×n来确定正确的语料。

27、优选的，优化所述基于双向长短时记忆网络模型，包括

28、设定优化后的学习率η，当时间步为零时初始化vt和gt中的每个元素，给定超参数0≤β1＜1，时间步的小批量随机梯度的指数加权移动平均：

29、vt＝β1vt-1+(1-β1)gt；

30、其中，小批量随机梯度gt；给定超参数0≤β2＜1，将小批量随机梯度按元素平方后的项gt·gt做指数加权移动平均得到gt；

31、gt＝β2gt-1+(1-β2)gt·gt；

32、对变量vt和gt偏差修正：

33、

34、

35、使用偏差修正后的变量和将模型参数中每个元素的学习率通过按元素运行重新调整：

36、

37、其中，∈是为了维持数值稳定的常数，使用g′t迭代自变量：

38、wt＝wt-1-g′t；

39、迭代直至相似性大于0.9且预测最大时输出结果。

40、进一步的，将优化后记忆网络模型的学习率和预测带入所述记忆网络模型中，将预处理后的数据送入网络中，逐层进行前向计算，直至输出层，将当前网络输出与标准文献比较，并计算相似性；根据链式法则，采用如下公式逐层计算出相似性关于各层的梯度：

41、

42、

43、其中，l是相似性函数，相似性函数对于激活函数的梯度(wg0，wg1，wg2)，权重梯度(δ1，δ2，δ3)；

44、根据反向过程得到权重的梯度，更新权重：

45、w′1＝w1-ηwg1；

46、其中，权重的梯度wg1，学习率η；比较权重保留并输出结果。

47、本发明还提供另一种采用权利要求1～9任一项所述的方法进行的油田安全标准知识数据挖掘系统，其特征在于，所述系统包括

48、获取模块，用于获取油田领域专业词汇及行业标准术语构建油田领域标准本体数据库；

49、抽取模块，用于对所述油田领域标准本体数据库中数据信息基于双向长短时记忆网络模型获得实体抽取语料；

50、输出模块，用于提取所述实体抽取语料至深度神经网络实体关系抽取模型，进行关系抽取并输出油田语义关系；

51、构建模块，用于通过输出的油田语义和空间关系信息三元组完成实体空间关系知识数据挖掘的构建。

52、本发明实施例提供的技术方案可以包括以下有益效果：

53、本发明通过对各类油田信息与数据挖掘，统一集成标准语义知识库和各行业标准能力，为挖掘知识本体实体知识大数据的潜在价值等重大问题提供决策服务。

54、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：齐静静,黄珊,苏雪松,王凯月,延伟,董辉,任成,王芫芫,王逸飞,杨欣欣
技术所有人：中国石油化工股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。