信息抽取方法、信息抽取装置、电子设备及可读存储介质与流程

文档序号:35912628发布日期:2023-10-29 17:29阅读:36来源:国知局
信息抽取方法、信息抽取装置、电子设备及可读存储介质与流程

本公开涉及信息提取和金融领域,具体地涉及一种信息抽取方法、信息抽取装置、电子设备、计算机可读存储介质和程序产品。


背景技术:

1、作为自然语言处理领域的一个重要分支,信息抽取的主要功能是从自然语言文本中抽取出特定的事实信息,以通过自动化的方式帮助人们在海量的信息中迅速找到自己真正需要的信息,应对信息爆炸带来的挑战。其中,信息实体抽取作为信息抽取中最有实用价值的一项技术,其主要任务是识别出文本中出现的专有名称和有意义的数量短语并加以归类。

2、然而,基于正则表达式的相关技术进行信息抽取,其抽取内容的准确率较低,而且计算机进行信息抽取所使用的时间较长。


技术实现思路

1、鉴于上述问题,本公开提供了提高抽取内容准确度的信息抽取方法、信息抽取装置、电子设备、计算机可读存储介质和程序产品。

2、根据本公开的第一个方面,提供了一种信息抽取方法,包括:

3、获取待抽取的目标文本信息和待抽取的多个关键信息;

4、在上述目标文本信息满足预设长度的情况下,基于预设分割规则对上述目标文本信息进行重叠式分割处理,得到多个文本信息片段;

5、针对每个上述关键信息,根据多个上述文本信息片段和与上述关键信息对应的类型特征,生成与上述关键信息对应的输入特征;

6、将上述输入特征输入关键信息预测模型,输出与上述关键信息对应的位置信息;

7、基于上述位置信息,从上述输入特征中提取与上述关键信息对应的文本内容。

8、根据本公开的实施例,根据多个上述文本信息片段和与上述关键信息对应的类型特征,生成与上述关键信息对应的输入特征,包括:

9、基于预设拼接规则,根据多个上述文本信息片段和上述关键信息,生成中间拼接信息;

10、根据上述中间拼接信息和上述类型特征进行拼接,得到目标拼接信息;

11、对上述目标拼接信息进行转换处理,得到字符串信息,其中,上述字符串信息表征上述输入特征。

12、根据本公开的实施例,基于预设拼接规则,根据多个上述文本信息片段和上述关键信息,生成中间拼接信息,包括:

13、针对每个上述文本信息片段,对上述文本信息片段与上述关键信息进行拼接,得到初始拼接信息;

14、对多个上述初始拼接信息进行拼接处理,得到上述中间拼接信息。

15、根据本公开的实施例,上述基于预设分割规则对上述目标文本信息进行重叠式分割处理,得到多个文本信息片段,包括:

16、对上述目标文本信息进行分割处理,得到多个上述文本信息片段,其中,相邻两个文本信息片段之间具有预设字符数的重叠区域。

17、根据本公开的实施例,上述关键信息预测模型是通过如下方式训练得到的:

18、获取训练文本信息和与上述训练文本信息对应的多个标签信息,其中,上述标签信息包括标签关键信息以及标签位置信息;

19、在上述训练文本信息满足上述预设长度的情况下,基于上述预设分割规则对上述训练文本信息进行重叠式分割处理,得到多个训练信息片段;

20、针对每个上述训练信息片段,对与上述训练信息片段对应的标签位置信息进行更新,得到更新后的标签信息,其中,上述更新后的标签信息包括上述标签关键信息以及更新后的标签位置信息;

21、根据多个上述训练信息片段和与每个上述训练信息片段对应的更新后的标签信息,生成目标训练集,其中,上述目标训练集包括多个目标训练样本和标签向量;

22、利用上述目标训练集训练初始信息预测模型,得到经训练的上述关键信息预测模型。

23、根据本公开的实施例,根据多个上述训练信息片段和与每个上述训练信息片段对应的更新后的标签信息,生成目标训练集,包括:

24、对每个上述更新后的标签信息进行转换,得到多个标签编码热向量;

25、针对每个上述标签关键信息,根据多个上述训练信息片段和与上述标签关键信息对应的更新后的标签信息进行拼接处理,得到第一训练拼接信息;

26、根据上述第一训练拼接信息和与上述标签关键信息对应的类型特征向量,生成一个与上述标签关键信息对应的上述目标训练样本。

27、根据本公开的实施例,对每个上述更新后的标签信息进行转换,得到多个标签编码热向量,包括:

28、针对每个上述更新后的标签信息,对上述更新后的标签信息进行转换处理,得到标签字符串信息;

29、对上述标签字符串信息进行向量转换处理,得到上述标签编码热向量。

30、根据本公开的实施例,利用上述目标训练集训练初始信息预测模型,得到经训练的上述关键信息预测模型,包括:

31、针对每个上述目标训练样本,将上述目标训练样本输入上述初始信息预测模型,输出预测位置向量;

32、基于二分类损失函数,根据上述预测位置向量和与上述目标训练样本对应的标签向量计算损失结果;

33、根据上述损失结果迭代地调整上述初始信息预测模型的模型参数,得到上述关键信息预测模型。

34、本公开的第二方面提供了一种信息抽取装置,包括:

35、获取模块,用于获取待抽取的目标文本信息和待抽取的多个关键信息;

36、分割模块,用于在上述目标文本信息满足预设长度的情况下,基于预设分割规则对上述目标文本信息进行重叠式分割处理,得到多个文本信息片段;

37、生成模块,用于针对每个上述关键信息,根据多个上述文本信息片段和与上述关键信息对应的类型特征,生成与上述关键信息对应的输入特征;

38、预测模块,用于将上述输入特征输入关键信息预测模型,输出与上述关键信息对应的位置信息;

39、提取模块,用于基于上述位置信息,从上述输入特征中提取与上述关键信息对应的文本内容。

40、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述信息抽取方法。

41、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述信息抽取方法。

42、本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述信息抽取方法。

43、根据本公开的实施例,通过对超过预设长度的目标文本信息进行重叠式分割能够避免所提取的与关键信息对应的文本内容被截断,根据分割后的多个文本信息片段与关键信息对应的类型特征生成关键信息预测模型的输入特征,从而预测得到该关键信息的位置信息,基于位置信息即可提取到与该关键信息对应的文本内容,类型特征的使用能够有效区分同一个输入特征下不同关键信息的特征,从而提高了信息抽取的准确率,提高了计算机的信息提取速度。



技术特征:

1.一种信息抽取方法,包括:

2.根据权利要求1所述的方法,其中,根据多个所述文本信息片段和与所述关键信息对应的类型特征,生成与所述关键信息对应的输入特征,包括:

3.根据权利要求2所述的方法,其中,基于预设拼接规则,根据多个所述文本信息片段和所述关键信息,生成中间拼接信息,包括:

4.根据权利要求1所述的方法,其中,所述基于预设分割规则对所述目标文本信息进行重叠式分割处理,得到多个文本信息片段,包括:

5.根据权利要求1所述的方法,其中,所述关键信息预测模型是通过如下方式训练得到的:

6.根据权利要求5所述的方法,其中,根据多个所述训练信息片段和与每个所述训练信息片段对应的更新后的标签信息,生成目标训练集,包括:

7.根据权利要求6所述的方法,其中,对每个所述更新后的标签信息进行转换,得到多个标签编码热向量,包括:

8.根据权利要求5所述的方法,其中,利用所述目标训练集训练初始信息预测模型,得到经训练的所述关键信息预测模型,包括:

9.一种信息抽取装置,包括:

10.一种电子设备,包括:

11.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~8中任一项所述的方法。

12.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~8中任一项所述的方法。


技术总结
本公开提供了一种信息抽取方法、信息抽取装置、电子设备及可读存储介质,可以应用于信息提取和金融技术领域。该方法包括获取待抽取的目标文本信息和待抽取的多个关键信息;在目标文本信息满足预设长度的情况下,基于预设分割规则对目标文本信息进行重叠式分割处理,得到多个文本信息片段;针对每个关键信息,根据多个文本信息片段和与关键信息对应的类型特征,生成与关键信息对应的输入特征;将输入特征输入关键信息预测模型,输出与关键信息对应的位置信息;基于位置信息,从输入特征中提取与关键信息对应的文本内容。

技术研发人员:卢健
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1