文档切分方法、电子设备及计算机可读存储介质与流程

文档序号:37313374发布日期:2024-03-13 21:04阅读:20来源:国知局
文档切分方法、电子设备及计算机可读存储介质与流程

本申请涉及文档切分,具体涉及一种文档切分方法、电子设备及计算机可读存储介质。


背景技术:

1、随着移动互联网和内容领域的快速发展,对文档内容的阅读及理解需求越来越强烈。现有技术中,常常会利用一些软件对文档进行切分来进行阅读理解,但在现有技术领域,文档切分往往按照字数进行切分,切分形成的段落往往语义不完整,影响用户阅读体验。


技术实现思路

1、为了解决上述问题,本申请提出了一种文档切分方法、电子设备及计算机可读存储介质,以提升用户的阅读体验。

2、为解决上述技术问题,本申请采用的一个技术方案是:提供一种文档切分方法,该文档切分方法包括:基于输入文档的段落对输入文档进行切分,以获取多个文档段落;分别获取每一个文档段落的字数和/或语义信息;基于字数和/或语义信息对每一个文档段落进行调整,以使调整后形成的多个文档段落均满足预设长度要求。

3、其中,基于字数和/或语义信息对每一个文档段落进行调整的步骤包括:响应于某一文档段落的字数大于第一预设字数阈值,则对文档段落进行切分;响应于某一文档段落的字数小于或等于第二预设字数阈值,则将文档段落与相邻的下一文档段落进行合并,其中,第二预设字数阈值小于第一预设字数阈值。

4、其中,对文档段落进行切分的步骤包括:对文档段落进行分句标识检索;响应于文档段落检索到分句标识,将分句标识所处的位置作为切分位置将文档段落进行切分。

5、其中,对文档段落进行分句标识检索的步骤包括:从文档段落的中间位置分别向文档段落的段首及段尾进行分句标识检索;获取与中间位置距离最近的分句标识所处的位置。

6、其中,对文档段落进行切分的步骤还包括:响应于文档段落无法检索到分句标识,则基于预设长度阈值或基础语义对文档段落进行切分。

7、其中,响应于某一文档段落的字数小于或等于第二预设字数阈值,则将文档段落与相邻的下一文档段落进行合并的步骤,包括:响应于某一文档段落的字数小于第二预设字数阈值,且与之相邻的下一文档段落对应语义信息的与该文档信息的语义信息的相关度大于或等于第一预设相关度阈值,则文档段落与下一文档段落进行合并。

8、其中,基于字数和/或语义信息对每一个文档段落进行调整的步骤,还包括:响应于不相邻的两个文档段落的语义信息的相关度大于第二预设相关度阈值,则在两个文档段落进行合并。

9、其中,基于字数和/或语义信息对每一个文档段落进行调整的步骤包括:基于每一文档段落的语义信息进行段落内的语义信息的相关度分析,以将多个文档段落切分为多个子段落;对相邻的子段落进行语义相关度分析,响应于相邻的子段落的语义相关度大于第三预设相关度阈值,则合并相邻的子段落。

10、其中,基于每一文档段落的语义信息进行段落内的语义信息的相关度分析的步骤,包括:对每一文档段落的相邻的句段进行语义信息的相关度分析;响应于相邻的句段的相关度小于第四预设相关度阈值,则基于相邻的句段的分句位置对文档段落进行切分。

11、其中,多个文档段落显示于交互界面,交互界面还设有菜单按钮,且交互界面在菜单按钮被触发后显示若干菜单选项,以供用户选择,文档切分方法还包括:响应于用户对某一文档段落选择的菜单选项为切分操作,获取用户的切分位置,对文档段落进行切分操作;响应于用户对某两个文档段落选择的菜单选项为拼接操作,获取用户选择两个文档段落,对两个文档段落进行拼接操作。

12、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种电子设备,该电子设备包括处理器以及与处理器连接的存储器,其中,存储器中存储有程序数据,处理器执行存储器存储的程序数据,以执行实现上述任一项的文档切分方法。

13、为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,其内部存储有程序指令,程序指令被执行以实现上述任一项的文档切分方法。

14、本申请的有益效果是:区别于现有技术的情况,本申请的文档切分可以基于输入文档的段落对输入文档进行切分,以获取多个文档段落;分别获取每一个文档段落的字数和/或语义信息;基于字数和/或语义信息对每一个文档段落进行调整,以使调整后形成的多个文档段落均满足预设长度要求,因此,通过上述方式,本申请的文档切分方法能够将输入的文档切分为多个语义完整且长度适中的多个文档段落,提升用户的阅读体验。



技术特征:

1.一种文档切分方法,其特征在于,包括:

2.根据权利要求1所述的文档切分方法,其特征在于,所述基于所述字数和/或所述语义信息对每一个所述文档段落进行调整的步骤,包括:

3.根据权利要求2所述的文档切分方法,其特征在于,所述对所述文档段落进行切分的步骤,包括:

4.根据权利要求3所述的文档切分方法,其特征在于,所述对所述文档段落进行分句标识检索的步骤,包括:

5.根据权利要求3所述的文档切分方法,其特征在于,所述对所述文档段落进行切分的步骤,还包括:

6.根据权利要求2所述的文档切分方法,其特征在于,所述响应于某一所述文档段落的字数小于或等于第二预设字数阈值,则将所述文档段落与相邻的下一所述文档段落进行合并的步骤,包括:

7.根据权利要求2所述的文档切分方法,其特征在于,所述基于所述字数和/或所述语义信息对每一个所述文档段落进行调整的步骤,还包括:

8.根据权利要求1所述的文档切分方法,其特征在于,所述基于所述字数和/或所述语义信息对每一个所述文档段落进行调整的步骤,包括:

9.根据权利要求8所述的文档切分方法,其特征在于,所述基于每一所述文档段落的语义信息进行段落内的语义信息的相关度分析的步骤,包括:

10.根据权利要求1所述的文档切分方法,其特征在于,所述多个文档段落显示于交互界面,所述交互界面还设有菜单按钮,且所述交互界面在所述菜单按钮被触发后显示若干菜单选项,以供用户选择,所述文档切分方法还包括:

11.一种电子设备,其特征在于,所述电子设备包括处理器以及与所述处理器连接的存储器,其中,所述存储器中存储有程序数据,所述处理器执行所述存储器存储的所述程序数据,以执行实现权利要求1-10任一项所述的文档切分方法。

12.一种计算机可读存储介质,其特征在于,其内部存储有程序指令,所述程序指令被执行以实现权利要求1-10任一项所述的文档切分方法。


技术总结
本申请公开了一种文档切分方法、电子设备及计算机可读存储介质。该文档切分方法包括:基于输入文档的段落对输入文档进行切分,以获取多个文档段落;分别获取每一个文档段落的字数和/或语义信息;基于字数和/或语义信息对每一个文档段落进行调整,以使调整后形成的多个文档段落均满足预设长度要求。通过上述方式,本申请的文档切分方法能够将输入的文档切分为多个语义完整且长度适中的多个文档段落,提升用户的阅读体验。

技术研发人员:张顺,范家宇,李翠珍,程丽媛,曹帅,丁瑞,闫争龙,何杰
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:
技术公布日:2024/3/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1