信息提取方法及字段划选方法与流程

文档序号:40573191发布日期:2025-01-03 11:35阅读:33来源:国知局
信息提取方法及字段划选方法与流程

本说明书实施例涉及信息处理,特别涉及信息提取方法及字段划选方法。


背景技术:

1、随着互联网和计算机技术的发展,信息抽取任务在多数业务场景中得以应用,信息抽取任务的执行可以实现在大量数据中抽取具有代表性和特定特征的子集,以便后续使用子集进行分析和处理。现有技术中,信息抽取任务的执行大多数依赖随机抽样或者算法实现,在随机抽样策略中,往往伴随着抽取结果代表性不足的问题,从而会严重影响分析准确性。而抽取算法则可以通过配置算子的方式保证抽取结果的代表性,但是抽取算法在处理大规模数据时,非常依赖计算设备的硬件性能,计算复杂度较高的情形下,很容易导致抽取时间变长,并且效率较低。此外,无论是随机抽样还是抽取算法,在面临同一词在不同场景具有不同含义的情形下,例如“基本面”在股票投资场景表示财务状况、盈利能力、市场竞争力等,在宏观经济场景表示gdp增长率、通货膨胀率、失业率等,此时算法无法实现一词在多含义上的平衡,进而会导致抽取结果在某个维度上存在偏差,因此亟需一种有效的方案以解决上述问题。


技术实现思路

1、有鉴于此,本说明书实施例提供了信息提取方法。本说明书一个或者多个实施例同时涉及信息提取装置,字段划选方法,字段划选装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序产品,以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面,提供了一种信息提取方法,包括:

3、根据业务查询信息展示包含业务样例文档的字段划选页面,并确定所述业务查询信息对应的查询字段;

4、响应于通过所述字段划选页面提交的划选指令,在所述业务样例文档中确定与所述查询字段具有关联关系的划选字段;

5、根据所述查询字段在业务文档库中召回候选文档段落集,并将所述查询字段和所述划选字段输入至大语言模型;

6、通过所述大语言模型在所述候选文档段落集中召回目标文档段落,并利用所述大语言模型参照所述划选字段在所述目标文档段落中提取所述业务查询信息关联的目标信息。

7、根据本说明书实施例的第二方面,提供了一种字段划选方法,应用于客户端,包括:

8、接收针对目标业务提交的业务查询信息,并确定所述业务查询信息对应的查询字段;

9、根据所述业务查询信息确定业务样例文档,并通过字段划选页面展示所述业务样例文档;

10、响应于通过所述字段划选页面提交的划选指令,在所述业务样例文档中确定与所述查询字段具有关联关系的划选字段;

11、基于所述划选字段和所述查询字段执行所述目标业务关联的信息提取任务。

12、根据本说明书实施例的第三方面,提供了另一种信息提取方法,包括:

13、确定与业务查询信息中的查询字段具有关联关系的划选字段;

14、根据所述查询字段在业务文档库中召回候选文档段落集;

15、将所述查询字段和所述划选字段输入至大语言模型,通过所述大语言模型在所述候选文档段落集中召回目标文档段落;

16、利用所述大语言模型,参照所述划选字段在所述目标文档段落中提取所述业务查询信息关联的目标信息。

17、根据本说明书实施例的第四方面,提供了一种信息提取装置,包括:

18、划选模块,被配置为根据业务查询信息展示包含业务样例文档的字段划选页面,并确定所述业务查询信息对应的查询字段;

19、确定模块,被配置为根据业务查询信息展示包含业务样例文档的字段划选页面,并确定所述业务查询信息对应的查询字段;

20、输入模块,被配置为根据所述查询字段在业务文档库中召回候选文档段落集,并将所述查询字段和所述划选字段输入至大语言模型;

21、提取模块,被配置为通过所述大语言模型在所述候选文档段落集中召回目标文档段落,并利用所述大语言模型参照所述划选字段在所述目标文档段落中提取所述业务查询信息关联的目标信息。

22、根据本说明书实施例的第五方面,提供了一种字段划选装置,应用于客户端,包括:

23、接收信息模块,被配置为接收针对目标业务提交的业务查询信息,并确定所述业务查询信息对应的查询字段;

24、确定文档模块,被配置为根据所述业务查询信息确定业务样例文档,并通过字段划选页面展示所述业务样例文档;

25、划选字段模块,被配置为响应于通过所述字段划选页面提交的划选指令,在所述业务样例文档中确定与所述查询字段具有关联关系的划选字段;

26、执行任务模块,被配置为基于所述划选字段和所述查询字段执行所述目标业务关联的信息提取任务。

27、根据本说明书实施例的第六方面,提供了另一种信息提取装置,包括:

28、确定字段模块,被配置为确定与业务查询信息中的查询字段具有关联关系的划选字段;

29、召回文档模块,被配置为根据所述查询字段在业务文档库中召回候选文档段落集;

30、输入模型模块,被配置为将所述查询字段和所述划选字段输入至大语言模型,通过所述大语言模型在所述候选文档段落集中召回目标文档段落;

31、提取信息模块,被配置为利用所述大语言模型,参照所述划选字段在所述目标文档段落中提取所述业务查询信息关联的目标信息。

32、根据本说明书实施例的第七方面,提供了一种计算设备,包括:

33、存储器和处理器;

34、所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述信息提取方法或字段划选方法的步骤。

35、根据本说明书实施例的第八方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述信息提取方法或字段划选方法的步骤。

36、根据本说明书实施例的第九方面,提供了一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现上述信息提取方法或字段划选方法的步骤。

37、本实施例提供的信息抽取方法,为了能够保证信息抽取结果的代表性,同时提高信息抽取效率以及平衡各关键指标的权重,可以向用户展示包含业务样例文档的字段划选页面,同时确定用户提交的业务查询信息对应的查询字段;在此基础上,可以响应于通过字段划选页面提交的划选指令,在业务样例文档中确定与查询字段具有关联关系的划选字段;实现用户可以通过字段划选页面自定义被抽取字段的关联关系,进而实现覆盖更广泛的抽取范围。因此可以根据查询字段在业务文档库中召回候选文档段落集,以初步得到关联业务查询信息的文档段落。而后可以将查询字段和划选字段输入至大语言模型,实现通过大语言模型在候选文档段落集中召回目标文档段落,进而深度得到关联业务查询信息的文档段落(多个)。最后即可利用大语言模型参照划选字段在目标文档段落中提取业务查询信息关联的目标信息。实现在进行信息抽取时,不仅可以基于业务查询信息出发完成,还能够通过划选字段和查询字段之间的关联关系得到字段表征不同但是含义相同的目标文档段落,从而可以快速且精准抽取到目标信息,以便下游业务进行分析和处理,有效的提高了信息抽取效率和抽取准确度,且可以避免信息抽取不平衡带来的影响。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1