金矿宏观知识体系自动化构建技术方法与流程

文档序号:41479379发布日期:2025-04-01 19:04阅读:16来源:国知局
金矿宏观知识体系自动化构建技术方法与流程

本技术涉及自然语言处理,具体而言,涉及金矿宏观知识体系自动化构建技术方法。


背景技术:

1、随着全球矿产资源的不断开发和利用,金矿勘探和开发的复杂性和挑战性也在不断增加。传统的找矿方法主要依赖于地质勘探和经验积累,这些方法不仅效率低下,而且难以适应现代找矿工作的需求。近年来,信息技术和数据驱动的方法逐渐在找矿领域崭露头角,成为当前研究的热点。通过利用大数据、人工智能和知识图谱等技术,研究人员能够更加精准地进行矿产资源的勘探与开发。

2、金矿作为一种重要的矿产资源,其勘探和开发工作具有极高的经济价值和战略意义。然而,金矿资源的分布复杂,矿床类型多样,勘探难度大。知识图谱作为一种语义化的知识表示方式,能够将复杂的专业知识结构化、系统化地呈现出来,从而为公众提供一个全面、直观的知识平台。因此,如何对金矿领域的知识图谱进行构建成为了不容小觑的技术问题。


技术实现思路

1、有鉴于此,本技术的目的在于提供金矿宏观知识体系自动化构建技术方法,对于金矿领域的文本来说,目标模型可以更好地识别出关键实体和关系,从而提高了实体和关系抽取的精度,提高了构建出的金矿领域知识图谱的准确性。

2、第一方面,本技术实施例提供了一种金矿宏观知识体系自动化构建技术方法,所述方法包括:

3、获取金矿领域的文献数据集,并从所述文献数据集中提取出目标语料;

4、将所述目标语料输入到目标模型中,对所述目标语料进行三元组抽取,得到所述目标语料对应的初始三元组;其中,所述初始三元组包括金矿领域的实体、属性及关系,所述目标模型中的预训练模型是基于金矿领域文本数据进行领域微调的,目标模型中的联合抽取模型包括领域注意力层和注意力权重层;

5、对所述初始三元组中的实体进行消融,得到目标三元组,并将所述目标三元组进行发布并转入图数据库,以形成金矿领域的知识图谱。

6、进一步的,所述从所述文献数据集中提取出目标语料,包括:

7、利用预设筛选条件对所述文献数据集进行筛选,确定出多个候选文献;

8、针对于每个候选文献,对该候选文献进行内容提取,得到该候选文献对应的文本内容,并对所述文本内容进行文本处理,以得到该候选文献对应的目标语料。

9、进一步的,通过下述步骤对所述目标模型中的预训练模型进行领域微调:

10、获取所述金矿领域文本数据,定义原始预训练模型的微调任务,并基于所述文本数据和所述微调任务对所述原始预训练模型进行微调,得到所述预训练模型;

11、或者,

12、利用所述金矿领域文本数据训练金矿领域的词嵌入模型,并将所述词嵌入模型与所述原始预训练模型进行拼接或加权平均,以得到所述预训练模型;

13、或者,

14、利用所述金矿领域文本数据构建自定义词汇表,并将所述自定义词汇表添加到所述原始预训练模型的分词器中,以得到所述预训练模型;

15、或者,

16、利用所述金矿领域文本数据对所述原始预训练模型进行继续预训练,以得到所述预训练模型。

17、进一步的,所述将所述目标语料输入到目标模型中,对所述目标语料进行三元组抽取,得到所述目标语料对应的初始三元组,包括:

18、将所述目标语料输入到所述目标模型的预训练模型中,对多条目标语料进行编码,得到文本特征;

19、将所述文本特征分别输入到所述联合抽取模型的领域注意力层以及注意力权重层中,以调整每个文本特征的权重,得到加权后的文本特征;

20、将所述加权后的文本特征输入到所述目标模型的分区层中,生成实体分区的第一特征、关系分区的第二特征以及共享分区的第三特征;

21、将所述第一特征、所述第二特征和所述第三特征分别输入到所述目标模型的实体内存、关系内存以及共享内存中,得到实体特征、关系特征以及共享特征,并对所述实体特征、所述关系特征以及所述共享特征进行联合编码,得到目标特征;

22、将所述目标特征分别输入到所述目标模型的命名实体识别处理层和关系抽取处理层中,进行所述目标语料对应的初始三元组。

23、进一步的,通过下述步骤对所述初始三元组中的实体进行消融:

24、针对于所述初始三元组中的每个实体,从知识库中提取出与该实体相匹配的候选实体,并为每个候选实体提取对应的实体特征;

25、将每个候选实体以及每个候选实体对应的实体特征输入到分数预测模型中,得到每个实体特征对应的实体分数,并利用多个候选实体中实体分数最高的候选实体作为该实体的消融结果,以得到所述目标三元组。

26、第二方面,本技术实施例还提供了一种金矿宏观知识体系自动化构建装置,所述构建装置包括:

27、语料提取模块,用于获取金矿领域的文献数据集,并从所述文献数据集中提取出目标语料;

28、三元组抽取模块,用于将所述目标语料输入到目标模型中,对所述目标语料进行三元组抽取,得到所述目标语料对应的初始三元组;其中,所述初始三元组包括金矿领域的实体、实体类型及关系,所述目标模型中的预训练模型是基于金矿领域文本数据进行领域微调的,所述目标模型中的联合抽取模型还包括领域注意力层和注意力权重层;

29、知识图谱生成模块,用于对所述初始三元组中的实体进行消融,得到目标三元组,并将所述目标三元组进行发布并转入图数据库,以形成金矿领域的知识图谱。

30、进一步的,所述语料提取模块在用于从所述文献数据集中提取出目标语料时,所述语料提取模块还用于:

31、利用预设筛选条件对所述文献数据集进行筛选,确定出多个候选文献;

32、针对于每个候选文献,对该候选文献进行内容提取,得到该候选文献对应的文本内容,并对所述文本内容进行文本处理,以得到该候选文献对应的目标语料。

33、进一步的,所述构建装置还包括模型微调模块,所述模型微调模块用于通过下述步骤对所述目标模型中的预训练模型进行领域微调:

34、获取所述金矿领域文本数据,定义原始预训练模型的微调任务,并基于所述文本数据和所述微调任务对所述原始预训练模型进行微调,得到所述预训练模型;

35、或者,

36、利用所述金矿领域文本数据训练金矿领域的词嵌入模型,并将所述词嵌入模型与所述原始预训练模型进行拼接或加权平均,以得到所述预训练模型;

37、或者,

38、利用所述金矿领域文本数据构建自定义词汇表,并将所述自定义词汇表添加到所述原始预训练模型的分词器中,以得到所述预训练模型;

39、或者,

40、利用所述金矿领域文本数据对所述原始预训练模型进行继续预训练,以得到所述预训练模型。

41、第三方面,本技术实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的金矿宏观知识体系自动化构建技术方法的步骤。

42、第四方面,本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的金矿宏观知识体系自动化构建技术方法的步骤。

43、本技术实施例所提供的一种金矿宏观知识体系自动化构建技术方法,首先,获取金矿领域的文献数据集,并从所述文献数据集中提取出目标语料;然后,将所述目标语料输入到目标模型中,对所述目标语料进行三元组抽取,得到所述目标语料对应的初始三元组;其中,所述初始三元组包括金矿领域的实体、实体类型及关系,所述目标模型中的预训练模型是基于金矿领域文本数据进行领域微调的,所述目标模型中的联合抽取模型包括领域注意力层和注意力权重层;最后,对所述初始三元组中的实体进行消融,得到目标三元组,并将所述目标三元组进行发布并转入图数据库,以形成金矿领域的知识图谱。

44、本技术实施例所提供的方法,首先对获取用于构建知识图谱的金矿文献数据集,并提取出对应的目标语料,然后利用目标模型对目标语料进行三元组抽取,再对抽取出的实体进行消融,最后进行金矿知识图谱的构建。本技术所采用的目标模型是基于金矿领域文本数据进行领域微调的,以提升目标模型对领域特定任务的适应能力。并且实体与关系的联合抽取模型中还引入了领域注意力层和注意力权重层,对于金矿领域的文本来说,目标模型可以更好地识别出关键实体和关系,从而提高了实体和关系抽取的精度,提高了构建出的金矿领域知识图谱的准确性。

45、为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1