本发明涉及计算机领域,尤其涉及一种视频文本处理方法、装置和电子设备。
背景技术:
1、随着大数据时代的到来,数据来源多样化,数据量也急剧增长,需要进行数据集成来整合不同来源的数据,并且需要进行数据清洗来提高数据的质量和准确性。传统的数据预处理技术和算法主要针对大规模、多样化的综合文本数据,而没有专门针对短视频文本数据处理的设计和优化,同时伴随短视频数量的爆炸式增长,短视频文本数量较多,而且出现很多二次创作相似文本,这很大程度影响了数据质量。然而现有的数据预处理技术和算法无法有效处理短视频文本,这就导致了视频文本质量低,以及视频文本相似度高的问题。
技术实现思路
1、有鉴于此,本发明实施例提供了一种视频文本处理方法、装置和电子设备,可以实现提高视频文本数据的质量并降低相似度。
2、第一方面,本发明实施例提供了一种视频文本处理方法,所述方法包括:
3、获取待处理视频数据的第一文本数据集,所述第一文本数据集包括多个第一文本;
4、对所述第一文本进行去重处理以获取第二文本;
5、对所述第二文本进行过滤处理以获取第三文本;
6、根据所述第三文本获取目标文本。
7、在一些实施例中,所述获取待处理视频数据的第一文本数据集包括:
8、获取所述待处理视频数据的视频帧;
9、通过图像识别获取所述视频帧对应的第一本文;
10、根据各视频帧对应的第一文本生成所述第一文本数据集。
11、在一些实施例中,所述对所述第一文本进行去重处理以获取第二文本具体为:
12、通过哈希去重和/或相似度去重对所述第一文本进行去重处理以获取第二文本。
13、在一些实施例中,所述对所述第二文本进行过滤处理以获取第三文本包括:
14、基于第一类过滤方式和/或第二类过滤方式对所述第二文本进行过滤处理以获取第三文本。
15、在一些实施例中,基于第一类过滤方式对所述第二文本进行过滤处理以获取第三文本包括以下至少一种:
16、根据文本长度对所述第二文本进行过滤处理;
17、根据重复子串对所述第二文本进行过滤处理;
18、根据特殊字符对所述第二文本进行过滤处理;
19、根据敏感字符对所述第二文本进行过滤处理;
20、根据语种对所述第二文本进行过滤处理。
21、在一些实施例中,基于第二类过滤方式对所述第二文本进行过滤处理以获取第三文本包括:
22、获取参考文本;
23、根据所述参考文本基于第二类过滤方式对所述第二文本进行过滤处理以获取第三文本。
24、在一些实施例中,根据所述参考文本基于第二类过滤方式对所述第二文本进行过滤处理以获取第三文本包括:
25、确定所述参考文本与所述第二文本的相似度;
26、根据所述参考文本与所述第二文本的相似度对所述第二文本进行过滤处理以获取第三文本。
27、在一些实施例中,根据所述参考文本基于第二类过滤方式对所述第二文本进行过滤处理以获取第三文本还包括:
28、确定所述参考文本与所述第二文本的对齐度;
29、根据所述参考文本与所述第二文本的对齐度对所述第二文本进行过滤处理以获取第三文本。
30、第二方面,本发明实施例提供了一种视频文本处理装置,所述装置包括:
31、文本数据获取模块,用于获取待处理视频数据的第一文本数据集,所述第一文本数据集包括多个第一文本;
32、去重模块,用于对所述第一文本进行去重处理以获取第二文本;
33、过滤模块,用于对所述第二文本进行过滤处理以获取第三文本;
34、目标文本获取模块,用于根据所述第三文本获取目标文本。
35、第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
36、本发明实施例的技术方案通过获取待处理视频数据的第一文本数据集,所述第一文本数据集包括多个第一文本;对所述第一文本进行去重处理以获取第二文本;对所述第二文本进行过滤处理以获取第三文本;根据所述第三文本获取目标文本。由此,对视频文本进行多次处理,实现提高视频文本数据的质量并降低相似度。
1.一种视频文本处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取待处理视频数据的第一文本数据集包括:
3.根据权利要求1所述的方法,其特征在于,所述对所述第一文本进行去重处理以获取第二文本具体为:
4.根据权利要求1所述的方法,其特征在于,所述对所述第二文本进行过滤处理以获取第三文本包括:
5.根据权利要求4所述的方法,其特征在于,基于第一类过滤方式对所述第二文本进行过滤处理以获取第三文本包括以下至少一种:
6.根据权利要求4所述的方法,其特征在于,基于第二类过滤方式对所述第二文本进行过滤处理以获取第三文本包括:
7.根据权利要求6所述的方法,其特征在于,根据所述参考文本基于第二类过滤方式对所述第二文本进行过滤处理以获取第三文本包括:
8.根据权利要求6所述的方法,其特征在于,根据所述参考文本基于第二类过滤方式对所述第二文本进行过滤处理以获取第三文本还包括:
9.一种视频文本处理装置,其特征在于,所述装置包括:
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-8中任一项所述的方法。