文本要素提取方法、装置、电子设备及存储介质与流程

文档序号:36408610发布日期:2023-12-16 17:39阅读:51来源:国知局
文本要素提取方法与流程

本技术涉及计算机技术,尤其涉及一种文本要素提取方法、装置、电子设备及存储介质。


背景技术:

1、在当前的技术背景下,文本要素提取是自然语言处理(nlp)的重要任务之一,它涉及到从文本中提取特定的信息,例如关键词、短语、名称实体等。这项任务在许多应用中都非常重要,例如信息检索、文本摘要、情感分析等。

2、目前,已有的文本要素提取方法主要可以分为三大类:基于规则的方法、基于机器学习的方法和基于大语言模型的方法。但是,上述现有方案都存在一些显著的缺点:

3、例如,基于规则的方法需要大量的人工努力来定义规则和模式,这不仅消耗时间和资源,而且在处理复杂和多变的文本时,效果可能会受到限制。再例如,基于机器学习的方法虽然可以自动适应各种文本和任务,但是它需要大量的标注数据来训练模型,而且训练和使用模型需要大量的计算资源。这在处理长文本和大量要素的场景下,可能会导致效率低下,资源消耗大。还例如,基于大语言模型的方法,虽然在文本理解和生成方面表现相对出色,但其使用需要大量的计算资源和时间。对于直接使用大模型提取要素,由于模型的输入长度限制和每次只能提取少量要素的问题,当文本较长、要素较多时,需要将文本分段后,分段送入大模型尝试提取每个要素。这样的处理方式无疑提取过程效率低下,资源消耗大。


技术实现思路

1、本技术提供一种文本要素提取方法、装置、电子设备及存储介质,用以解决相关技术中的文本要素提取方案存在提取效率低下和资源消耗量大的问题,实现提升文本要素的提取效率并降低资源消耗的技术效果。

2、一方面,本技术提供一种文本要素提取方法,所述方法包括:

3、获取目标文本和所述目标文本的待提取要素信息;

4、根据所述目标文本的段落分布信息对所述目标文本进行切分处理,得到所述目标文本对应的多个文本段落或者多个句子;

5、采用预先训练得到的要素定位模型和所述待提取要素信息,从多个所述文本段落或者多个所述句子中提取得到所述目标文本的目标要素,其中,所述要素定位模型用于确定所述待提取要素信息与多个所述文本段落或者多个所述句子的相关性。

6、一种可选的实施方式,采用预先训练得到的要素定位模型和所述待提取要素信息,从多个所述文本段落或者多个所述句子中提取得到所述目标文本的目标要素,包括:

7、将多个所述文本段落或者多个所述句子、所述待提取要素信息输入至所述要素定位模型,以采用所述要素定位模型确定所述待提取要素信息与多个所述文本段落或者多个所述句子的相关性;

8、根据所述待提取要素与多个所述文本段落或者多个所述句子的相关性,对多个所述文本段落或者多个所述句子排序处理,得到排序结果;

9、根据所述排序结果,从多个所述文本段落或者多个所述句子中提取得到所述目标文本的目标要素。

10、一种可选的实施方式,在获取目标文本和所述目标文本的待提取要素信息之前,所述方法还包括:

11、对多篇长文本分别进行遍历,以提取得到每篇所述长文本的文本要素;

12、根据每篇所述长文本和每篇所述长文本的文本要素,构建得到正样本文本和负样本文本;

13、分别对所述正样本文本和负样本文本进行分词处理,以得到分词结果;

14、通过对所述分词结果进行词频统计,以得到与所述文本要素关联的目标提取关键词;

15、基于所述正样本文本、所述负样本文本、所述文本要素以及所述文本要素关联的目标提取关键词,构建得到与所述文本要素对应的要素定位模型。

16、一种可选的实施方式,对多篇长文本分别进行遍历,以提取得到每篇所述长文本的文本要素,包括:

17、将每篇所述长文本按照段落分布信息进行切分处理,得到每篇所述长文本对应的多个文本段落或者多个句子;

18、遍历每篇所述长文本对应的多个文本段落或者多个句子,以提取得到每篇所述长文本的文本要素。

19、一种可选的实施方式,根据每篇所述长文本和每篇所述长文本的文本要素,构建得到正样本文本和负样本文本,包括:

20、将提取得到的所述文本要素的所述长文本,作为所述正样本文本;

21、将未提取得到所述文本要素的所述长文本,作为所述负样本文本。

22、另一方面,本技术提供一种文本要素提取装置,所述装置包括:

23、获取模块,用于获取目标文本和所述目标文本的待提取要素信息;

24、切分模块,用于根据所述目标文本的段落分布信息对所述目标文本进行切分处理,得到所述目标文本对应的多个文本段落或者多个句子;

25、提取模块,用于采用预先训练得到的要素定位模型和所述待提取要素信息,从多个所述文本段落或者多个所述句子中提取得到所述目标文本的目标要素,其中,所述要素定位模型用于确定所述待提取要素信息与多个所述文本段落或者多个所述句子的相关性。

26、一种可选的实施方式,所述提取模块,包括:

27、确定单元,用于将多个所述文本段落或者多个所述句子、所述待提取要素信息输入至所述要素定位模型,以采用所述要素定位模型确定所述待提取要素信息与多个所述文本段落或者多个所述句子的相关性;

28、排序单元,用于根据所述待提取要素与多个所述文本段落或者多个所述句子的相关性,对多个所述文本段落或者多个所述句子排序处理,得到排序结果;

29、提取单元,用于根据所述排序结果,从多个所述文本段落或者多个所述句子中提取得到所述目标文本的目标要素。

30、一种可选的实施方式,所述装置还包括:

31、遍历模块,用于对多篇长文本分别进行遍历,以提取得到每篇所述长文本的文本要素;

32、样本构建模块,用于根据每篇所述长文本和每篇所述长文本的文本要素,构建得到正样本文本和负样本文本;

33、分词模块,用于分别对所述正样本文本和负样本文本进行分词处理,以得到分词结果;

34、统计模块,用于通过对所述分词结果进行词频统计,以得到与所述文本要素关联的目标提取关键词;

35、模型构建模块,用于基于所述正样本文本、所述负样本文本、所述文本要素以及所述文本要素关联的目标提取关键词,构建得到与所述文本要素对应的要素定位模型。

36、另一方面,本技术提供一种电子设备,包括:处理器,以及与上述处理器连接的存储器;上述存储器存储计算机执行指令;上述处理器执行上述存储器存储的计算机执行指令,以实现如任一项上述的方法。

37、另一方面,本技术提供一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机执行指令,上述计算机执行指令被处理器执行时用于实现如任一项上述的方法。

38、另一方面,本技术提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现任一项上述的方法。

39、本技术提供的文本要素提取方法、装置、电子设备及存储介质,通过获取目标文本和目标文本的待提取要素信息;根据目标文本的段落分布信息对目标文本进行切分处理,得到目标文本对应的多个文本段落或者多个句子;采用预先训练得到的要素定位模型和待提取要素信息,从多个文本段落或者多个句子中提取得到目标文本的目标要素,该要素定位模型用于确定待提取要素信息与多个文本段落或者多个句子的相关性。

40、通过上述实施例,只需简单的数据输入,以及采用预训练得到用于确定待提取要素信息与多个文本段落或者多个句子的相关性的要素定位模型,即可以实现以较低的资源消耗完成大量文本要素的提取工作。可以解决相关技术中的文本要素提取方案存在提取效率低下和资源消耗量大的问题,实现提升文本要素的提取效率并降低资源消耗的技术效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1