一种文档切分方法、装置、设备及介质与流程

文档序号:37151445发布日期:2024-02-26 17:06阅读:17来源:国知局
一种文档切分方法、装置、设备及介质与流程

本申请涉及人工智能领域,尤其是涉及一种文档切分方法、装置、设备及介质。


背景技术:

1、随着人工智能技术的发展,各种各样的智能产品,如智能客服、智能机器人等得到广泛的应用,此类智能产品可以与用户进行对话,例如,通过语音或者文字的方式,接收用户提出的问题,并给出相应的答复。

2、在具备对话功能的智能产品中,通常存在文档切分的问题,因为对话功能所使用的语言模型对输入的字符是有限制的,所以语言模型在进行学习训练时,针对一个字数较多的长文档,就需要先对长文档进行切分,然后将切分后的文档片读输入语言模型进行学习,同时,对长文档切分时,需要保证切分尽量不破坏原文的连贯性。

3、目前,在对文档进行切分时,通常是根据字数和段落进行切分,此种切分方式,一方面现有技术还无法做到正确识别章节或者段落,因为通过换行符或者标点符号识别章节或者段落,在实际操作中总能找到例外的情况;另一方面,切分的质量难以保证,容易将相互关联的内容切分到不同的文档片段中,例如,文档中包括问答对的情况,将问题和答案切分到不同的文档片段中,导致对文档片段的索引,可以找到问题,但是找不到问题对应的答案。

4、因此,在文本处理过程中,如何将原始的长文档,按照要求切分成规定大小的文档片段,且在切分过程中,尽量保证相关联内容被切分到同一文档片段中成为一个难题。需要重新设计一种文档切分的方法,以解决上述难题。


技术实现思路

1、本申请实施例提供一种文档切分方法、装置、设备及介质,用以将文档切分为规定大小的文档片段,同时保证切分结果的语义完整,提高切分质量。

2、第一方面,本申请实施例提供一种文档切分方法,包括:

3、获取待切分的原始文档;

4、基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,所述文本块内包含的字符数量小于第一预设阈值;

5、针对获得的每个文本块,执行以下操作进行二次切分,得到多个文档片段:提取所述文本块的语义特征,并基于所述语义特征,将所述文本块切分为文档片段;

6、将所述多个文档片段作为对所述原始文档的切分结果。

7、在一种可能的实施方式中,本申请实施例提供的上述方法中,所述将所述多个文档片段作为对所述原始文档的切分结果,包括:

8、将所述多个文档片段,依照预先记录的顺序排列,得到排列结果,所述预先记录的顺序为初次切分后所述多个文本块在所述原始文档中的位置顺序;

9、按照预先设定的文档片段长度要求,将所述排列结果中部分相邻的文档片段合并为一个目标文档片段,得到至少一个目标文档片段;

10、将合并得到的目标文档片段和未合并的文档片段,作为对所述原始文档的切分结果。

11、在一种可能的实施方式中,本申请实施例提供的上述方法中,对获得的多个文本块进行二次切分时,采用所述预先记录的顺序进行二次切分。

12、在一种可能的实施方式中,本申请实施例提供的上述方法中,所述基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,包括:

13、在确定所述原始文档包含的字符数量大于第二预设阈值时,基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,其中,所述第二预设阈值大于或等于所述第一预设阈值。

14、第二方面,本申请实施例提供一种文档切分装置,包括:

15、获取单元,用于获取待切分的原始文档;

16、第一切分单元,用于基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,所述文本块内包含的字符数量小于第一预设阈值;

17、第二切分单元,用于针对获得的每个文本块,执行以下操作进行二次切分,得到多个文档片段:提取所述文本块的语义特征,并基于所述语义特征,将所述文本块切分为文档片段;

18、处理单元,用于将所述多个文档片段作为对所述原始文档的切分结果。

19、在一种可能的实施方式中,本申请实施例提供的上述装置中,所述处理单元,具体用于:

20、将所述多个文档片段,依照预先记录的顺序排列,得到排列结果,所述预先记录的顺序为初次切分后所述多个文本块在所述原始文档中的位置顺序;

21、按照预先设定的文档片段长度要求,将所述排列结果中部分相邻的文档片段合并为一个目标文档片段,得到至少一个目标文档片段;

22、将合并得到的目标文档片段和未合并的文档片段,作为对所述原始文档的切分结果。

23、在一种可能的实施方式中,本申请实施例提供的上述装置中,所述第二切分单元对获得的多个文本块进行二次切分时,采用所述预先记录的顺序进行二次切分。

24、在一种可能的实施方式中,本申请实施例提供的上述装置中,所述第一切分单元,具体用于:

25、在确定所述原始文档包含的字符数量大于第二预设阈值时,基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,其中,所述第二预设阈值大于或等于所述第一预设阈值。

26、第三方面,本申请实施例提供一种电子设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程序指令被处理器执行时实现如本申请实施例第一方面所提供的方法。

27、第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现如本申请实施例第一方面所提供的方法。

28、本申请实施例提供的文档切分方法、装置、设备及介质,获取待切分的原始文档之后,首先基于预设切分方式,对原始文档进行初次切分,获得多个文本块,然后针对获得的每个文本块,进行二次切分,得到多个文档片段,具体对文本块进行二次切分时,提取文本块的语义特征,并基于语义特征,对文本块进行切分,以将文本块切分为语义完整的文档片段,与现有技术根据字数和段落的切分方式相比,通过两次切分,可以将文档切分为规定大小的文档片段,同时在二次切分时,基于文本块的语义特征进行切分,能够保证切分结果的语义完整,提高切分质量。

29、本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。



技术特征:

1.一种文档切分方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述多个文档片段作为对所述原始文档的切分结果,包括:

3.根据权利要求2所述的方法,其特征在于,对获得的多个文本块进行二次切分时,采用所述预先记录的顺序进行二次切分。

4.根据权利要求1或2所述的方法,其特征在于,所述基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,包括:

5.一种文档切分装置,其特征在于,包括:

6.根据权利要求5所述的装置,其特征在于,所述处理单元,具体用于:

7.根据权利要求6所述的装置,其特征在于,所述第二切分单元对获得的多个文本块进行二次切分时,采用所述预先记录的顺序进行二次切分。

8.根据权利要求5或6所述的装置,其特征在于,所述第一切分单元,具体用于:

9.一种电子设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-4中任一项所述的方法。

10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-4中任一项所述的方法。


技术总结
本申请实施例涉及一种文档切分方法、装置、设备及介质,用以将文档切分为规定大小的文档片段,同时保证切分结果的语义完整,提高切分质量。所述方法包括:获取待切分的原始文档;基于预设切分方式,对所述原始文档进行初次切分,获得多个文本块,所述文本块内包含的字符数量小于第一预设阈值;针对获得的每个文本块,执行以下操作进行二次切分,得到多个文档片段:提取所述文本块的语义特征,并基于所述语义特征,将所述文本块切分为文档片段;将所述多个文档片段作为对所述原始文档的切分结果。

技术研发人员:黄毅,陈都,张大成,韩堃,樊扬
受保护的技术使用者:北京猎户星空科技有限公司
技术研发日:
技术公布日:2024/2/25
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1