一种文本切分方法、装置、存储介质以及电子设备与流程

文档序号:40714129发布日期:2025-01-17 12:42阅读:13来源:国知局
一种文本切分方法、装置、存储介质以及电子设备与流程

本发明涉及人工智能以及医疗健康领域,特别涉及一种文本切分方法、装置、存储介质以及电子设备。


背景技术:

1、检索增强生成(rag)是大模型的应用之一,是大模型落地的最主要的方式。传统的rag的基本范式是,用户上传的文件,进行解析,然后分块,存入向量数据库。当用户提出一个问题,则会将问题与向量数据库中的文本进行匹配,得到相关的上下文,然后和用户的问题一起组成prompt,输入给大模型,大模型根据相关的上下文和问题生成回复。在这个流程中,在大模型能力相同的情况下,上下文的好坏,完全决定了大模型的回复准确率,所以分块是整个rag环节的重中之重。对文本进行切分的方法可以支持疾病辅助诊断、健康管理、远程会诊等功能。现有的硬切方式主要是给定预定切块大小和预定重复块大小对待切分文本进行硬切处理,但是这种暴力的切割方式,容易导致句子的连贯性被破坏,产生歧义。


技术实现思路

1、有鉴于此,本发明提供了一种文本切分方法、装置、存储介质以及电子设备,主要目的在于解决目前存在采用传统方法进行文本切分容易造成句子连贯性被破坏,产生歧义的问题。

2、为解决上述问题,本申请提供一种文本切分方法,包括:

3、获取待切分文本;

4、基于所述待切分文本的文本类型确定用于对所述待切分文本进行切分操作的初始切块方式;

5、采用所述初始切块方式对所述待切分文本进行数据切分处理,得到与所述待切分文本对应的各初始数据块;

6、至少采用动态调整切分块长度的方法对各所述初始数据块进行数据切分处理,得到与所述待切分文本对应的各目标数据块。

7、可选的,所述基于所述待切分文本的文本类型确定用于对所述待切分文本进行切分操作的初始切块方式,具体包括:

8、当所述待切分文本的文本类型为第一文本类型时,将采用预设段落提取方法和预设标识符进行切分操作的方式确定为初始切块方式;

9、当所述待切分文本的文本类型为第二文本类型时,将逐行切分方式确定为所述初始切块方式;

10、所述第一文本类型包括word类型和txt类型;

11、所述第二文本类型包括excel类型和csv类型。

12、可选的,所述采用所述初始切块方式对所述待切分文本进行数据切分处理,得到与所述待切分文本对应的各初始数据块,具体包括:

13、当所述待切分文本的文本类型为第一文本类型时,对所述待切分文本中的标识符进行识别,得到各第一标识符以及各第二标识符;

14、基于各所述第一标识符和各所述第二标识符对所述待切分文本进行切分处理,得到各所述初始数据块。

15、可选的,所述采用所述初始切块方式对所述待切分文本进行数据切分处理,得到与所述待切分文本对应的各初始数据块,还包括:

16、当所述待切分文本的文本类型为第二文本类型时,对单元格内的换行标识符进行识别,得到若干换行标识符;

17、对所述待切分文本的各所述换行标识符进行符号转换,得到第一文本;

18、对所述第一文本的行头和各分行分别进行切分处理,得到各所述初始数据块。

19、可选的,所述至少采用动态调整切分块长度的方法对各所述初始数据块进行数据切分处理,得到与所述待切分文本对应的各目标数据块,具体包括:

20、针对首个目标数据块,确定第一重复块长度和第一切分块长度;

21、基于所述第一重复块长度和所述第一切分块长度从首个初始数据块开始进行数据提取,得到首个目标数据块;

22、针对非首个目标数据块,基于前一个目标数据块中的数据对切分得到前一个所述目标数据块的切分块长度和切分得到前一个所述目标数据块的重复块长度进行动态调整,得到第二重复块长度和第二切分块长度;

23、采用所述第二重复块长度和所述第二切分块长度对剩余初始数据块进行数据提取,得到所述非首个目标数据块。

24、可选的,所述方法还包括:

25、当目标初始数据块的长度大于第一切分块长度或者所述目标初始数据块的长度大于第二切分块长度时,将所述目标初始数据块确定为所述目标数据块;

26、当所述目标初始数据块的长度大于第一重复块长度并且所述目标初始数据块的长度小于或者等于第一切分块长度时,将所述目标初始数据块确定为所述目标数据块;

27、当所述目标初始数据块的长度大于所述第二重复块长度并且所述目标初始数据块的长度小于或者等于第二切分块长度时,将所述目标初始数据块确定为所述目标数据块。

28、可选的,所述至少采用动态调整切分块长度的方法对各所述初始数据块进行数据切分处理,得到与所述待切分文本对应的各目标数据块,还包括:

29、对各所述初始数据块中的行头数据块进行识别,得到行头长度;

30、基于预定切分块长度和所述行头长度进行减法运算处理,得到第三切分块长度;

31、基于所述第三切分长度采用轮巡行头数据块和各所述初始数据块中的分行数据块的方式进行数据切分处理,得到各所述目标数据块。

32、为解决上述问题本申请提供一种文本切分装置,包括:

33、获取模块,用于获取待切分文本;

34、确定模块,用于基于所述待切分文本的文本类型确定用于对所述待切分文本进行切分操作的初始切块方式;

35、第一切分模块,用于采用所述初始切块方式对所述待切分文本进行数据切分处理,得到与所述待切分文本对应的各初始数据块;

36、第二切分模块,用于至少采用动态调整切分块长度的方法对各所述初始数据块进行数据切分处理,得到与所述待切分文本对应的各目标数据块。

37、为解决上述问题本申请提供一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述所述文本切分方法的步骤。

38、为解决上述问题本申请提供一种电子设备,其特征在于,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述所述文本切分方法的步骤。

39、本申请中的有益效果:本申请针对不同的文本类型,采用动态调整切分块长度的方法或者采用动态调整切分块长度和动态调整重复块长度的方法对各所述初始数据块进行数据切分处理,得到与所述待切分文本对应的各目标数据块,可以让原来的初始数据块保证每一个块都是完整的内容,可以让切块的结果不易出现歧义。

40、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。



技术特征:

1.一种文本切分方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述基于所述待切分文本的文本类型确定用于对所述待切分文本进行切分操作的初始切块方式,具体包括:

3.如权利要求2所述的方法,其特征在于,所述采用所述初始切块方式对所述待切分文本进行数据切分处理,得到与所述待切分文本对应的各初始数据块,具体包括:

4.如权利要求2所述的方法,其特征在于,所述采用所述初始切块方式对所述待切分文本进行数据切分处理,得到与所述待切分文本对应的各初始数据块,还包括:

5.如权利要求3所述的方法,其特征在于,所述至少采用动态调整切分块长度的方法对各所述初始数据块进行数据切分处理,得到与所述待切分文本对应的各目标数据块,具体包括:

6.如权利要求5所述的方法,其特征在于,所述方法还包括:

7.如权利要求4所述的方法,其特征在于,所述至少采用动态调整切分块长度的方法对各所述初始数据块进行数据切分处理,得到与所述待切分文本对应的各目标数据块,还包括:

8.一种文本切分装置,其特征在于,包括:

9.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-7任一项所述文本切分方法的步骤。

10.一种电子设备,其特征在于,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述权利要求1-7任一项所述文本切分方法的步骤。


技术总结
本申请公开了一种文本切分方法、装置、存储介质以及电子设备。涉及人工智能技术领域以及医疗健康领域,方法包括:获取待切分文本;基于待切分文本的文本类型确定用于对待切分文本进行切分操作的初始切块方式;采用初始切块方式对待切分文本进行数据切分处理,得到与待切分文本对应的各初始数据块;至少采用动态调整切分块长度的方法对各初始数据块进行数据切分处理,得到与待切分文本对应的各目标数据块。本申请针对不同的文本类型,采用动态调整切分块长度的方法或者采用动态调整切分块长度和动态调整重复块长度的方法对各初始数据块进行数据切分处理,可以保证原来的初始数据块每一个块的内容都是完整的,可以让切块的结果不易出现歧义。

技术研发人员:曹壹臻
受保护的技术使用者:平安国际融资租赁有限公司
技术研发日:
技术公布日:2025/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1