文本处理方法及装置、文本处理模型的训练方法及装置与流程

文档序号:35972216发布日期:2023-11-09 13:29阅读:27来源:国知局
文本处理方法及装置、文本处理模型的训练方法及装置与流程

本申请属于计算机,具体涉及一种文本处理方法及装置、文本处理模型的训练方法及装置。


背景技术:

1、通过终端设备例如手机中的笔记、便签、备忘录等文字处理应用进行内容创作例如文字、图文编辑,是用户日常生活和办公场景不可或缺的应用场景。用户希望通过排版使创作的内容更加美观、结构更加清晰,进而提升内容的阅读感受与信息获取效率。

2、通常,用户可在文字处理软件中手动对所创作的内容进行排版,但是由于终端设备的屏幕小等原因,导致操作繁琐。


技术实现思路

1、本申请实施例的目的是提供一种文本处理方法及装置、文本处理模型的训练方法及装置,能够解决现有技术中用户对内容进行排版时操作繁琐的问题。

2、第一方面,本申请实施例提供了一种文本处理方法,该方法包括:

3、获取待处理文本;

4、利用训练后的文本处理模型,确定所述待处理文本在各个文本层级分别对应的文本内容;

5、根据各个所述文本层级分别对应的文本样式,对所述待处理文本在各个所述文本层级分别对应的文本内容进行排版处理,获得目标文本。

6、第二方面,本申请实施例提供了一种文本处理模型的训练方法,该方法包括:

7、获取样本文本和所述样本文本的标注信息;所述标注信息包括第一标注信息、第二标注信息和第三标注信息,所述第一标注信息为所述样本文本是否能够进行结构化处理的判定结果,所述第二标注信息为所述样本文本在各个所述文本层级分别对应的文本内容,所述第三标注信息为所述样本文本的文本主题;

8、根据待训练的文本处理模型中的文本结构判断网络输出的所述样本文本是否能够进行结构化处理的判定结果与所述第一标注信息之间的差异,构建第一损失;

9、根据待训练的文本处理模型中的文本结构生成网络输出的所述样本文本在各个所述文本层级分别对应的文本内容与所述第二标注信息之间的差异,构建第二损失;

10、利用待训练的文本处理模型中的文本主题识别网络输出的所述样本文本的文本主题与所述第三标注信息之间的差异,构建第三损失;

11、基于所述第一损失、所述第二损失和所述第三损失更新待训练的文本处理模型的网络参数。

12、第三方面,本申请实施例提供了一种文本处理装置,该装置包括:

13、第一获取模块,用于获取待处理文本;

14、确定模块,用于利用训练后的文本处理模型,确定所述待处理文本在各个文本层级分别对应的文本内容;

15、排版模块,用于根据各个所述文本层级分别对应的文本样式,对所述待处理文本在各个所述文本层级分别对应的文本内容进行排版处理,获得目标文本。

16、第四方面,本申请实施例提供了一种文本处理模型的训练装置,该装置包括:

17、第二获取模块,用于获取样本文本和所述样本文本的标注信息;所述标注信息包括第一标注信息、第二标注信息和第三标注信息,所述第一标注信息为所述样本文本是否能够进行结构化处理的判定结果,所述第二标注信息为所述样本文本在各个所述文本层级分别对应的文本内容,所述第三标注信息为所述样本文本的文本主题;

18、第一构建模块,用于根据待训练的文本处理模型中的文本结构判断网络输出的所述样本文本是否能够进行结构化处理的判定结果与所述第一标注信息之间的差异,构建第一损失;

19、第二构建模块,用于根据待训练的文本处理模型中的文本结构生成网络输出的所述样本文本在各个所述文本层级分别对应的文本内容与所述第二标注信息之间的差异,构建第二损失;

20、第三构建模块,用于利用待训练的文本处理模型中的文本主题识别网络输出的所述样本文本的文本主题与所述第三标注信息之间的差异,构建第三损失;

21、更新模块,用于基于所述第一损失、所述第二损失和所述第三损失更新待训练的文本处理模型的网络参数。

22、第五方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面或第二方面所述的方法的步骤。

23、第六方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面或第二方面所述的方法的步骤。

24、第七方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面或第二方面所述的方法。

25、第八方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面或第二方面所述的方法。

26、在本申请实施例中,在获取待处理文本之后,利用训练后的文本处理模型,确定出待处理文本在各个文本层级分别对应的文本内容,根据各个文本层级分别对应的文本样式,对待处理文本在各个文本层级分别对应的文本内容进行排版处理,获得目标文本。这样,通过训练后的文本处理模型可对待处理文本在各个文本层级分别对应的文本内容进行排版处理,避免了用户手动排版的操作繁琐。



技术特征:

1.一种文本处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述利用训练后的文本处理模型,确定所述待处理文本在各个文本层级分别对应的文本内容,包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述文本处理模型的训练方式包括:

5.根据权利要求4所述的方法,其特征在于,所述标注信息还包括第三标注信息,所述第三标注信息为所述样本文本的文本主题;

6.一种文本处理模型的训练方法,其特征在于,所述方法包括:

7.一种文本处理装置,其特征在于,所述装置包括:

8.一种文本处理模型的训练装置,其特征在于,

9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-5任一项所述的文本处理方法的步骤或者权利要求6所述的文本处理模型的训练方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-5任一项所述的文本处理方法的步骤或者权利要求6所述的文本处理模型的训练方法的步骤。


技术总结
本申请公开了一种文本处理方法及装置、文本处理模型的训练方法及装置,该方法包括:获取待处理文本;利用训练后的文本处理模型,确定所述待处理文本在各个文本层级分别对应的文本内容;根据各个所述文本层级分别对应的文本样式,对所述待处理文本在各个所述文本层级分别对应的文本内容进行排版处理,获得目标文本。

技术研发人员:彭思文
受保护的技术使用者:维沃移动通信有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1