一种语料提取及清洗方法、装置、设备及存储介质与流程

文档序号:37054361发布日期:2024-02-20 20:57阅读:14来源:国知局
一种语料提取及清洗方法、装置、设备及存储介质与流程

本申请实施例涉及文本处理领域,尤其涉及一种语料提取及清洗方法、装置、设备及存储介质。


背景技术:

1、目前,文本数据的处理主要包含两部分,数据提取和数据清洗。数据提取是指从目标对象中提取文本,目标对象的来源可以是多方面的,例如网页、数据库以及文本文档等。当数据被提取出来,通常需要进行数据清洗以去除文本中的噪音和格式化数据。然而,现有技术中的数据提取与数据清洗方法,存在着准确率低以及效率低下的技术问题。


技术实现思路

1、本发明实施例提供了一种语料提取及清洗方法、装置、设备及存储介质,能够提高对数据进行提取和清洗时的效率以及准确率,解决了现有技术中的数据提取与数据清洗方法,存在着准确率低以及效率低下的技术问题。

2、第一方面,本发明实施例提供了一种语料提取及清洗方法,包括:

3、获取待处理的目标文档,遍历目标文档中的每一个文档页面;

4、对于当前所遍历的目标文档页面,判断所述目标文档页面是否从预设文件转换而来;

5、若否,对所述目标文档页面的文本进行提取以及过滤,得到与所述目标文档页面相对应的第一文本;

6、在遍历完每一个所述文档页面后,对与所述文档页面相对应的第一文本进行清洗,得到与所述文档页面相对应的第二文本;

7、对所述第二文本进行切分,得到多个文本段落。

8、第二方面,本发明实施例提供了一种语料提取及清洗装置,包括:

9、文档页面遍历模块,用于获取待处理的目标文档,遍历目标文档中的每一个文档页面;

10、文件来源确定模块,用于对于当前所遍历的目标文档页面,判断所述目标文档页面是否从预设文件转换而来;

11、提取过滤模块,用于若所述目标文档页面并非从预设文件转换而来,对所述目标文档页面的文本进行提取以及过滤,得到与所述目标文档页面相对应的第一文本;

12、文本清洗模块,用于在遍历完每一个所述文档页面后,对与所述文档页面相对应的第一文本进行清洗,得到与所述文档页面相对应的第二文本;

13、文本切分模块,用于对所述第二文本进行切分,得到多个文本段落。

14、第三方面,本发明实施例提供了一种语料提取及清洗设备,所述语料提取及清洗设备包括处理器以及存储器;

15、所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;

16、所述处理器用于根据所述计算机程序中的指令执行如第一方面所述的一种语料提取及清洗方法。

17、第四方面,本发明实施例提供了一种存储计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的一种语料提取及清洗方法。

18、上述,本发明实施例提供了一种语料提取及清洗方法、装置、设备及存储介质,本发明实施例在获取待处理的目标文档后,需要遍历目标文档中的每一个文档页面,且对于当前所遍历到的目标文档页面,判断目标文档页面是否从预设文件转换而来。若否,则对目标文档页面的文本进行提取以及过滤,得到与目标文档页面相对应的第一文本。后续在遍历完每一个文档页面后,对与文档页面相对应的第一文本进行清洗,得到与文档页面相对应的第二文本;最后再对第二文本进行切分,得到多个文本段落。本发明实施例能够准确地提取出文档页面中的文本,并通过对文本进行细致的清洗和过滤,能够有效过滤掉文本中的噪音数据,大大提高了数据清洗的效率和准确度,解决了现有技术中的数据提取与数据清洗方法,存在着准确率低以及效率低下的技术问题。



技术特征:

1.一种语料提取及清洗方法,其特征在于,包括:

2.根据权利要求1所述的一种语料提取及清洗方法,其特征在于,所述判断所述目标文档页面是否从预设文件转换而来,包括:

3.根据权利要求2所述的一种语料提取及清洗方法,其特征在于,所述判断所述目标文档页面是否满足预设条件,包括:

4.根据权利要求1所述的一种语料提取及清洗方法,其特征在于,所述对所述目标文档页面的文本进行提取以及过滤,得到与所述目标文档页面相对应的第一文本,包括:

5.根据权利要求4所述的一种语料提取及清洗方法,其特征在于,所述确定所述目标文档页面的文本内容分布形式,包括:

6.根据权利要求5所述的一种语料提取及清洗方法,其特征在于,根据所述文本内容分布形式,提取所述目标文档页面的文本,包括:

7.根据权利要求4所述的一种语料提取及清洗方法,其特征在于,所述对所述目标文档页面的文本进行过滤,得到与所述目标文档页面相对应的第一文本,包括:

8.根据权利要求1所述的一种语料提取及清洗方法,其特征在于,在遍历完每一个所述文档页面后,对与所述文档页面相对应的第一文本进行清洗之前,还包括:

9.根据权利要求8所述的一种语料提取及清洗方法,其特征在于,所述在与所述文档页面相对应的第一文本中,过滤所述文档页面的页眉和页脚,包括:

10.根据权利要求1所述的一种语料提取及清洗方法,其特征在于,所述对与所述文档页面相对应的第一文本进行清洗,得到与所述文档页面相对应的第二文本,包括:

11.一种语料提取及清洗装置,其特征在于,包括:

12.一种语料提取及清洗设备,其特征在于,所述语料提取及清洗设备包括处理器以及存储器;

13.一种存储计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-10中任一项所述的一种语料提取及清洗方法。


技术总结
本发明实施例公开了一种语料提取及清洗方法、装置、设备及存储介质,本发明实施例在获取待处理的目标文档后,需要遍历目标文档中的每一个文档页面,且对于当前所遍历到的目标文档页面,判断目标文档页面是否从预设文件转换而来。若否,则对目标文档页面的文本进行提取以及过滤,得到与目标文档页面相对应的第一文本。后续在遍历完每一个文档页面后,对与文档页面相对应的第一文本进行清洗,得到与文档页面相对应的第二文本;最后再对第二文本进行切分,得到多个文本段落。本发明实施例能够有效过滤掉文本中的噪音数据,大大提高了数据清洗的效率和准确度,解决了现有技术中的数据提取与数据清洗方法,存在着准确率低以及效率低下的技术问题。

技术研发人员:肖罗霖,吴志伟,宋迎杰,李镇江
受保护的技术使用者:佳都科技集团股份有限公司
技术研发日:
技术公布日:2024/2/19
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1