基于语言模型进行文本解析的方法及装置与流程

文档序号:37367076发布日期:2024-03-22 10:20阅读:18来源:国知局
基于语言模型进行文本解析的方法及装置与流程

本技术涉及机器学习,尤其涉及一种基于语言模型进行文本解析的方法、装置、电子设备及可读存储介质。


背景技术:

1、随着互联网的发展,大数据产业在互联网的发展中发挥着重要的作用。它涵盖了数据收集、存储、分析、挖掘、个性化推荐、智能决策、数据安全等方面,通过充分利用和挖掘大数据的价值,为企业和组织提供了更多的商业机会和创新空间。同时,大数据产业也面临着数据安全和隐私保护等挑战,如何合法合规地收集、处理和应用个人信息应当引起企业更多的重视。

2、为了帮助企业实现数据资产全生命周期的合法合规,规避相关法律风险,需要一套更高效率的自动化的合规检测方案,其中,如何高效的进行自动化文本解析,是亟待解决的问题。


技术实现思路

1、本技术提供一种基于语言模型进行文本解析的方法,所述语言模型为用于基于输入的问题文本生成答案文本的预训练模型;其中,所述问题文本包含问题内容和文本片段;所述文本片段包含与所述问题内容对应的答案内容;所述答案文本,为针对包含的与所述答案内容进行了标记的所述问题文本;所述方法包括:

2、获取待解析的目标文本片段;

3、构建用于从所述目标文本片段中提取所述目标文本片段包含的指定内容的提示文本;其中,所述提示文本包含所述目标文本片段和作为所述问题内容的解析指令;所述解析指令用于指示所述语言模型提取所述目标文本片段中包含的指定内容;

4、将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述目标文本片段中包含的所述指定内容进行标记,并至少输出标记完成的所述目标文本片段。

5、可选的,将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述目标文本片段中包含的所述指定内容进行标记,包括:

6、将所述提示文本输入所述语言模型,以由所述语言模型针对所述提示文本中包含的解析指令进行遮盖,并进一步针对未进行遮盖的目标文本片段中包含的所述指定内容进行标记。

7、可选的,所述提示文本中包含作为所述问题内容的多个解析指令;

8、将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述目标文本片段中包含的所述指定内容进行标记,并至少输出标记完成的所述目标文本片段,包括:

9、将所述提示文本输入所述语言模型,以由所述语言模型分别基于所述多个解析指令分别针对所述目标文本片段中包含的所述指定内容进行标记;

10、分别计算与所述多个解析指令对应的指令评分;其中,所述指令评分表示所述语言模型基于所述解析指令针对所述目标文本片段中包含的所述指定内容进行标记得到的所述标记结果的置信度;

11、从所述多个解析指令中确定出所述指令评分最高的目标解析指令,并输出所述语言模型基于所述目标解析指令针对所述目标文本片段中包含的所述指定内容进行标记,得到的标记完成的所述目标文本片段。

12、可选的,所述语言模型基于所述解析指令针对所述目标文本片段中包含的所述指定内容进行标记,包括:

13、所述语言模型基于所述解析指令计算所述目标文本片段中每一个字符与所述指定内容相关的概率;

14、确定所述每一个字符与所述指定内容相关的概率是否大于预设的相关度阈值,并基于确定结果对所述目标文本片段中包含的所述概率大于预设的相关度阈值的字符进行打标处理。

15、可选的,基于确定结果对所述目标文本片段中包含的所述概率大于预设的相关度阈值的字符进行打标处理,包括:

16、基于确定结果对所述目标文本片段中的每一个字符分别进行编码,以生成编码序列,并针对所述编码序列中包含的与所述概率大于预设的相关度阈值的字符对应的编码字符进行打标处理。

17、可选的,基于确定结果对所述目标文本片段中的每一个字符分别进行编码,以生成编码序列,包括:

18、基于确定结果对所述目标文本片段中的每一个字符分别进行二值化编码,以生成编码序列;其中,所述编码序列中包括与所述概率大于预设的相关度阈值的字符对应的第一编码字符;以及,与所述概率不大于所述预设的相关度阈值的字符对应的第二编码字符;

19、针对所述编码序列中包含的与所述相关概率大于预设的相关度阈值的字符对应的编码字符进行打标处理,包括:

20、针对所述编码序列中包含的与所述第一编码字符进行打标处理。

21、可选的,所述输出标记完成的所述目标文本片段,包括:

22、将所述编码序列还原成所述目标文本片段,并对还原出的所述目标文本片段中包含的与所述第一编码字符位置对应的字符进行打标处理,并输出标记完成的所述目标文本片段。

23、可选的,分别计算与所述多个解析指令对应的指令评分,包括:

24、确定所述语言模型基于所述多个解析指令中的目标解析指令计算出的所述目标文本片段中每一个字符与所述指定内容相关的概率中,大于所述预设的相关度阈值的概率集合;

25、计算所述概率集合中的概率的平均值,以作为与所述目标解析指令对应的指令评分。

26、可选的,所述待解析的目标文本片段包括需要进行合规检测的文本片段;所述目标文本片段包含的指定内容包括与所述目标文本片段的合规风险相关的文本片段;

27、所述方法还包括:

28、基于所述语言模型输出的标记了与所述目标文本片段的合规风险相关的文本片段,进行合规风险检查。

29、本技术还提供一种基于语言模型进行文本解析的方法,所述语言模型为用于基于输入的问题文本生成答案文本的预训练模型;其中,所述问题文本包含问题内容和文本片段;所述文本片段包含与所述问题内容对应的答案内容;所述答案文本,为针对包含的与所述答案内容进行了标记的问题文本;所述方法包括:

30、获取待解析的目标文本片段;

31、构建用于针对所述目标文本片段中包含的与指定内容相关的描述进行分类的提示文本;其中,所述提示文本包含所述目标文本片段和作为所述问题内容的解析指令;所述解析指令用于指示所述语言模型针对所述目标文本片段中包含的与指定内容相关的描述进行分类;

32、将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述解析指令中包含的与指定内容相关的描述对应的分类结果进行标记,并至少输出标记完成的所述解析指令。

33、可选的,将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述解析指令中包含的与指定内容相关的描述对应的分类结果进行标记,包括:

34、将所述提示文本输入所述语言模型,以由所述语言模型针对所述提示文本中包含的目标文本片段进行遮盖,并进一步针对未进行遮盖的解析指令中解析指令中包含的与指定内容相关的描述对应的分类结果进行标记。

35、可选的,所述提示文本中包含作为所述问题内容的多个解析指令;

36、将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述解析指令中包含的与指定内容相关的描述对应的分类结果进行标记,并至少输出标记完成的所述解析指令,包括:

37、将所述提示文本输入所述语言模型,以由所述语言模型分别基于所述多个解析指令分别针对所述解析指令中包含的与指定内容相关的描述对应的分类结果进行标记;

38、分别计算与所述多个解析指令对应的指令评分;其中,所述指令评分表示所述语言模型基于所述解析指令针对所述解析指令中包含的与指定内容相关的描述对应的分类结果进行标记得到的所述标记结果的置信度;

39、从所述多个解析指令中确定出所述指令评分最高的目标解析指令,并输出所述语言模型基于所述目标解析指令针对所述目标解析指令中包含的与指定内容相关的描述对应的分类结果进行标记,得到的标记完成的所述目标解析指令。

40、可选的,所述语言模型基于所述解析指令针对所述解析指令中包含的与指定内容相关的描述对应的分类结果进行标记,包括:

41、所述语言模型基于所述解析指令计算所述解析指令中包含的与指定内容相关的描述对应的分类结果中每一个字符,与所述指定内容相关的概率;

42、确定所述每一个字符与所述指定内容相关的概率是否大于预设的相关度阈值,并基于确定结果对所述解析指令中包含的所述概率大于预设的相关度阈值的字符进行打标处理。

43、可选的,基于确定结果对所述目标文本片段中包含的所述概率大于预设的相关度阈值的字符进行打标处理,包括:

44、基于确定结果对所述解析指令中的每一个字符分别进行编码,以生成编码序列,并针对所述编码序列中包含的与所述概率大于预设的相关度阈值的字符对应的编码字符进行打标处理。

45、可选的,基于确定结果对所述目标文本片段中的每一个字符分别进行编码,以生成编码序列,包括:

46、基于确定结果对所述解析指令中的每一个字符分别进行二值化编码,以生成编码序列;其中,所述编码序列中包括与所述概率大于预设的相关度阈值的字符对应的第一编码字符;以及,与所述概率不大于所述预设的相关度阈值的字符对应的第二编码字符;

47、针对所述编码序列中包含的与所述相关概率大于预设的相关度阈值的字符对应的编码字符进行打标处理,包括:

48、针对所述编码序列中包含的与所述第一编码字符进行打标处理。

49、可选的,所述输出标记完成的所述解析指令,包括:

50、将所述编码序列还原成所述解析指令,并对还原出的所述解析指令中包含的与所述第一编码字符位置对应的字符进行打标处理,并输出标记完成的所述解析指令。

51、可选的,分别计算与所述多个解析指令对应的指令评分,包括:

52、确定所述语言模型基于所述多个解析指令中的目标解析指令计算出的所述解析指令中每一个字符与所述指定内容相关的概率中,大于所述预设的相关度阈值的概率集合;

53、计算所述概率集合中的概率的平均值,以作为与所述目标解析指令对应的指令评分。

54、本技术还提供一种基于语言模型进行文本解析的方法,所述语言模型为用于基于输入的问题文本生成答案文本的预训练模型;其中,所述问题文本包含问题内容和文本片段;所述文本片段中包含与所述问题内容对应的答案内容;所述答案文本,为针对包含的所述答案内容进行了标记的所述问题文本;所述方法包括:

55、获取待解析的目标文本片段;

56、构建对所述目标文本片段进行文本解析的提示文本;其中,所述提示文本包含所述目标文本片段和作为所述问题内容的解析指令;

57、将所述提示文本输入所述语言模型,以由所述语言模型针对所述解析指令进行指令解析,并基于所述指令解析结果确定针对所述目标文本片段进行文本解析的解析任务类型;

58、如果所述解析任务类型为从所述目标文本片段中提取指定内容的提取任务,所述语言模型针对所述目标文本片段中包含的所述指定内容进行标记,并至少输出标记完成的所述目标文本片段;

59、如果所述解析任务类型为针对所述目标文本片段中包含的与指定内容相关的描述的分类任务,所述语言模型针对所述解析指令中包含的与所述分类任务对应的分类结果进行标记,并至少输出标记完成的所述解析指令。

60、本技术还提供一种基于语言模型进行文本解析的装置,所述语言模型为用于基于输入的问题文本生成答案文本的预训练模型;其中,所述问题文本包含问题内容和文本片段;所述文本片段包含与所述问题内容对应的答案内容;所述答案文本,为针对包含的与所述答案内容进行了标记的所述问题文本;所述装置包括:

61、文本片段获取单元,用于获取待解析的目标文本片段;

62、提示文本构建单元,用于构建用于从所述目标文本片段中提取所述目标文本片段包含的指定内容的提示文本;其中,所述提示文本包含所述目标文本片段和作为所述问题内容的解析指令;所述解析指令用于指示所述语言模型提取所述目标文本片段中包含的指定内容;

63、文本提取单元,将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述目标文本片段中包含的所述指定内容进行标记,并至少输出标记完成的所述目标文本片段。

64、本技术还提供一种基于语言模型进行文本解析的装置,所述语言模型为用于基于输入的问题文本生成答案文本的预训练模型;其中,所述问题文本包含问题内容和文本片段;所述文本片段包含与所述问题内容对应的答案内容;所述答案文本,为针对包含的与所述答案内容进行了标记的问题文本;所述装置包括:

65、文本片段获取单元,用于获取待解析的目标文本片段;

66、提示文本构建单元,用于构建用于针对所述目标文本片段中包含的与指定内容相关的描述进行分类的提示文本;其中,所述提示文本包含所述目标文本片段和作为所述问题内容的解析指令;所述解析指令用于指示所述语言模型针对所述目标文本片段中包含的与指定内容相关的描述进行分类;

67、文本分类单元,用于将所述提示文本输入所述语言模型,以由所述语言模型基于所述解析指令针对所述解析指令中包含的与指定内容相关的描述对应的分类结果进行标记,并至少输出标记完成的所述解析指令。

68、本技术还提供一种基于语言模型进行文本解析的装置,所述语言模型为用于基于输入的问题文本生成答案文本的预训练模型;其中,所述问题文本包含问题内容和文本片段;所述文本片段中包含与所述问题内容对应的答案内容;所述答案文本,为针对包含的所述答案内容进行了标记的所述问题文本;所述装置包括:

69、文本片段获取单元,用于获取待解析的目标文本片段;

70、提示文本构建单元,用于构建对所述目标文本片段进行文本解析的提示文本;其中,所述提示文本包含所述目标文本片段和作为所述问题内容的解析指令;

71、文本解析单元,用于将所述提示文本输入所述语言模型,以由所述语言模型针对所述解析指令进行指令解析,并基于所述指令解析结果确定针对所述目标文本片段进行文本解析的解析任务类型;

72、文本提取子单元,用于如果所述解析任务类型为从所述目标文本片段中提取指定内容的提取任务,所述语言模型针对所述目标文本片段中包含的所述指定内容进行标记,并至少输出标记完成的所述目标文本片段;

73、文本分类子单元,用于如果所述解析任务类型为针对所述目标文本片段中包含的与指定内容相关的描述的分类任务,所述语言模型针对所述解析指令中包含的与所述分类任务对应的分类结果进行标记,并至少输出标记完成的所述解析指令。

74、本技术还提供一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;

75、所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行上述方法。

76、本技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现上述方法。

77、在以上实施例记载的方案中,可以跨场景的利用已经预训练完成的用于基于输入的问题文本生成答案文本的语言模型,针对文本内容进行文本解析,并根据文本解析结果从文本片段中提取指定内容,或者对文本片段中包含的与指定内容相关的描述作为分类目标进行分类,从而可以利用预训练的语言模型的泛化能力,在不需要增加额外的训练样本对语言模型在文本解析场景中进行微调的情况下,来实现文本内容的自动解析。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1