一种文本内容提取方法及装置与流程

文档序号:36809221发布日期:2024-01-23 12:40阅读:47来源:国知局
一种文本内容提取方法及装置与流程

本技术涉及数据处理,尤其是涉及一种文本内容提取方法及装置。


背景技术:

1、用户在浏览文本的过程中,可能期望于从文本中提取出部分内容进行分享或另外保存。但是,现有的提取方式通常是通过识别文字的方式,实现文本内容的读取,在这种情况下,用户需自主定位所需内容的位置,以实现内容的准确提取。

2、目前,为了便于用户进行文本内容的提取,通常可以结合于用户所输入的关键词,通过匹配关键词的方式找到用户所需的文本内容,但是,在一些情况下,用户所需的内容与用户所提供的关键词之间存在出入,即,用户所给出的关键词为文本中出现词汇的同义词等其他语义相似的词汇,这种情况下,无法准确地从文本中提取出用户所需的内容,致使内容提取结果的准确性较差。


技术实现思路

1、有鉴于此,本技术的目的在于提供一种文本内容提取方法及装置,可以在提取文件内容的过程中,结合于每个文本token所具有的阅读语义,实现文本内容的准确提取,以此,可以提高内容提取结果的准确性。

2、本技术实施例提供了一种文本内容提取方法,所述文本内容提取方法包括:

3、通过识别待读取文本的文本格式,确定所述待读取文本所适用的文本读取方式;

4、当所述文本读取方式为多模型联合读取时,通过逐字读取所述待读取文本,获得所述待读取文本的离散结构化数据;其中,所述离散结构化数据包括从所述待读取文本中读取出的多个文本token;

5、通过语义分析模型,逐一对所述离散结构化数据中的每个文本token进行矩阵编码,并在矩阵编码过程中将每个文本token的阅读语义,添加至每个文本token的token编码矩阵中,整合得到所述待读取文本的逻辑结构化数据;

6、基于所述逻辑结构化数据和内容提取需求,确定所述待读取文本的内容提取方式;

7、当所述内容提取方式为模型提取时,通过大语言识别模型,基于所述逻辑结构化数据和所述内容提取需求,生成满足所述内容提取需求的文本提取结果。

8、在一种可能的实施方式中,所述当所述文本读取方式为多模型联合读取时,通过逐字读取所述待读取文本,获得所述待读取文本的离散结构化数据,包括:

9、当所述文本读取方式为多模型联合读取时,将所述待读取文本转换为图片格式,得到所述待读取文本的图片文本;

10、利用ocr技术对所述图片文本进行识别,确定出所述待读取文本中每个文字在所述待读取文本中所具有的文字属性数据;

11、拼接每个文字的文字属性数据,得到所述待读取文本的离散结构化数据。

12、在一种可能的实施方式中,所述通过语义分析模型,逐一对所述离散结构化数据中的每个文本token进行矩阵编码,并在矩阵编码过程中将每个文本token的阅读语义,添加至每个文本token的token编码矩阵中,整合得到所述待读取文本的逻辑结构化数据,包括:

13、通过语义分析模型,逐一对所述离散结构化数据中的每个文本token进行矩阵编码,得到每个文本token的token编码矩阵;

14、针对于每个文本token,通过多层神经元网络,利用该文本token的token编码矩阵,确定出与该文本token相匹配的阅读语义的语义表示矩阵;

15、将与该文本token的语义表示矩阵添加至该文本token的token编码矩阵中,得到该文本token的语义编码矩阵;

16、拼接每个文本token的语义编码矩阵,整合得到所述待读取文本的逻辑结构化数据。

17、在一种可能的实施方式中,所述针对于每个文本token,通过多层神经元网络,利用该文本token的token编码矩阵,确定出与该文本token相匹配的阅读语义的语义表示矩阵,包括:

18、针对于每个文本token,通过多层神经元网络,结合在所述待读取文本中该文本token所具有的上下文信息,利用该文本token的token编码矩阵搜索预设词语表,预测得到表示出该文本token的阅读语义的语义表示矩阵。

19、在一种可能的实施方式中,所述基于所述逻辑结构化数据和内容提取需求,确定所述待读取文本的内容提取方式,包括:

20、通过匹配所述逻辑结构化数据和所述内容提取需求,确定在所述逻辑结构化数据中是否存在满足所述内容提取需求的文本提取结果;

21、若否,确定所述待读取文本的内容提取方式为模型提取;

22、若是,确定所述待读取文本的内容提取方式为文本关键词匹配。

23、在一种可能的实施方式中,所述文本内容提取方法还包括:

24、当所述内容提取方式为文本关键词匹配时,从所述内容提取需求中解析出提取关键词;

25、将所述逻辑结构化数据中标注有所述提取关键词的文本数据,确定为满足所述内容提取需求的文本提取结果。

26、在一种可能的实施方式中,所述当所述内容提取方式为模型提取时,通过大语言识别模型,基于所述逻辑结构化数据和所述内容提取需求,生成满足所述内容提取需求的文本提取结果,包括:

27、结合所述逻辑结构化数据和所述内容提取需求,生成文本提示数据;其中,所述文本提示数据中包括多个提示token;

28、逐一对所述文本提示数据中的每个提示token进行矩阵编码,得到所述文本提示数据的提示编码矩阵;

29、利用多层神经元网络,基于所述提示编码矩阵,通过确定预设词语表中每个候选单词与所述提示编码矩阵之间的概率分布,预测出与所述提示编码矩阵匹配的多个目标单词;

30、拼接预测出的多个目标单词,生成满足所述内容提取需求的文本提取结果。

31、在一种可能的实施方式中,通过终端设备提供图形用户界面,所述图形用户界面中显示有功能选择区;通过以下步骤获取所述待读取文本:

32、响应针对于所述功能选择区中文件读取控件执行的第一触发操作,在所述图形用户界面中显示文件上传区域以及进度提示区域;

33、响应于在所述文件上传区域中执行的文件上传操作,将用户在所述文件上传区域中上传的文件,确定为待读取文件,并在所述进度提示区域中实时显示文件读取进度。

34、本技术实施例还提供了一种文本内容提取装置,所述文本内容提取装置包括:

35、读取方式识别模块,用于通过识别待读取文本的文本格式,确定所述待读取文本所适用的文本读取方式;

36、文本读取模块,用于当所述文本读取方式为多模型联合读取时,通过逐字读取所述待读取文本,获得所述待读取文本的离散结构化数据;其中,所述离散结构化数据包括从所述待读取文本中读取出的多个文本token;

37、语义添加模块,用于通过语义分析模型,逐一对所述离散结构化数据中的每个文本token进行矩阵编码,并在矩阵编码过程中将每个文本token的阅读语义,添加至每个文本token的token编码矩阵中,整合得到所述待读取文本的逻辑结构化数据;

38、提取方式识别模块,用于基于所述逻辑结构化数据和内容提取需求,确定所述待读取文本的内容提取方式;

39、结果生成模块,用于当所述内容提取方式为模型提取时,通过大语言识别模型,基于所述逻辑结构化数据和所述内容提取需求,生成满足所述内容提取需求的文本提取结果。

40、在一种可能的实施方式中,所述文本读取模块在用于当所述文本读取方式为多模型联合读取时,通过逐字读取所述待读取文本,获得所述待读取文本的离散结构化数据,所述文本读取模块用于:

41、当所述文本读取方式为多模型联合读取时,将所述待读取文本转换为图片格式,得到所述待读取文本的图片文本;

42、利用ocr技术对所述图片文本进行识别,确定出所述待读取文本中每个文字在所述待读取文本中所具有的文字属性数据;

43、拼接每个文字的文字属性数据,得到所述待读取文本的离散结构化数据。

44、在一种可能的实施方式中,所述语义添加模块在用于通过语义分析模型,逐一对所述离散结构化数据中的每个文本token进行矩阵编码,并在矩阵编码过程中将每个文本token的阅读语义,添加至每个文本token的token编码矩阵中,整合得到所述待读取文本的逻辑结构化数据时,所述语义添加模块用于:

45、通过语义分析模型,逐一对所述离散结构化数据中的每个文本token进行矩阵编码,得到每个文本token的token编码矩阵;

46、针对于每个文本token,通过多层神经元网络,利用该文本token的token编码矩阵,确定出与该文本token相匹配的阅读语义的语义表示矩阵;

47、将与该文本token的语义表示矩阵添加至该文本token的token编码矩阵中,得到该文本token的语义编码矩阵;

48、拼接每个文本token的语义编码矩阵,整合得到所述待读取文本的逻辑结构化数据。

49、在一种可能的实施方式中,所述语义添加模块在用于针对于每个文本token,通过多层神经元网络,利用该文本token的token编码矩阵,确定出与该文本token相匹配的阅读语义的语义表示矩阵,所述语义添加模块用于:

50、针对于每个文本token,通过多层神经元网络,结合在所述待读取文本中该文本token所具有的上下文信息,利用该文本token的token编码矩阵搜索预设词语表,预测得到表示出该文本token的阅读语义的语义表示矩阵。

51、在一种可能的实施方式中,所述提取方式识别模块在用于基于所述逻辑结构化数据和内容提取需求,确定所述待读取文本的内容提取方式时,所述提取方式识别模块用于:

52、通过匹配所述逻辑结构化数据和所述内容提取需求,确定在所述逻辑结构化数据中是否存在满足所述内容提取需求的文本提取结果;

53、若否,确定所述待读取文本的内容提取方式为模型提取;

54、若是,确定所述待读取文本的内容提取方式为文本关键词匹配。

55、在一种可能的实施方式中,所述文本内容提取装置还包括关键词匹配模块,所述关键词匹配模块用于:

56、当所述内容提取方式为文本关键词匹配时,从所述内容提取需求中解析出提取关键词;

57、将所述逻辑结构化数据中标注有所述提取关键词的文本数据,确定为满足所述内容提取需求的文本提取结果。

58、在一种可能的实施方式中,所述结果生成模块在用于当所述内容提取方式为模型提取时,通过大语言识别模型,基于所述逻辑结构化数据和所述内容提取需求,生成满足所述内容提取需求的文本提取结果时,所述结果生成模块用于:

59、结合所述逻辑结构化数据和所述内容提取需求,生成文本提示数据;其中,所述文本提示数据中包括多个提示token;

60、逐一对所述文本提示数据中的每个提示token进行矩阵编码,得到所述文本提示数据的提示编码矩阵;

61、利用多层神经元网络,基于所述提示编码矩阵,通过确定预设词语表中每个候选单词与所述提示编码矩阵之间的概率分布,预测出与所述提示编码矩阵匹配的多个目标单词;

62、拼接预测出的多个目标单词,生成满足所述内容提取需求的文本提取结果。

63、在一种可能的实施方式中,通过终端设备提供图形用户界面,所述图形用户界面中显示有功能选择区;所述文本内容提取装置还包括文本上传模块,所述文本上传模块用于通过以下步骤获取所述待读取文本:

64、响应针对于所述功能选择区中文件读取控件执行的第一触发操作,在所述图形用户界面中显示文件上传区域以及进度提示区域;

65、响应于在所述文件上传区域中执行的文件上传操作,将用户在所述文件上传区域中上传的文件,确定为待读取文件,并在所述进度提示区域中实时显示文件读取进度。

66、在一种可能的实施方式中,通过终端设备提供图形用户界面,所述图形用户界面中显示有功能选择区;所述文本内容提取装置还包括需求配置模块,所述需求配置模块用于通过以下步骤配置所述内容提取需求:

67、响应针对于所述功能选择区中文件提取控件执行的第二触发操作,在所述图形用户界面中显示需求配置区域以及进度提示区域;

68、响应于在所述需求配置区域中执行的需求配置操作,完成所述内容提取需求的配置,并在所述进度提示区域中实时显示需求配置进度。

69、本技术实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的文本内容提取方法的步骤。

70、本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的文本内容提取方法的步骤。

71、本技术实施例提供的文本内容提取方法及装置,通过识别待读取文本的文本格式,确定待读取文本所适用的文本读取方式;当文本读取方式为多模型联合读取时,通过逐字读取待读取文本,获得待读取文本的离散结构化数据;其中,离散结构化数据包括从待读取文本中读取出的多个文本token;通过语义分析模型,逐一对离散结构化数据中的每个文本token进行矩阵编码,并在矩阵编码过程中将每个文本token的阅读语义,添加至每个文本token的token编码矩阵中,整合得到待读取文本的逻辑结构化数据;基于逻辑结构化数据和内容提取需求,确定所述待读取文本的内容提取方式;当内容提取方式为模型提取时,通过大语言识别模型,基于逻辑结构化数据和内容提取需求,生成满足内容提取需求的文本提取结果。这样,可以结合于待读取文本所涉及的每个文本token的阅读语义,实现文本内容的准确提取,以此,可以提高内容提取结果的准确性;同时,还能够在提取时,结合用户的内容提取需求,选择合适的内容提取方式,进而,在能够保证提取内容准确性的同时,还能够保证文本内容的提取效率。

72、为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1