本申请涉及多媒体处理,特别涉及一种音画同步方法、音画同步装置、电子设备、计算机可读存储介质。
背景技术:
1、音画不同步是音视频播放过程中经常会遇到的问题,音画不同步对用户的观看体验影响较大,因此,有必要对音视频文件进行音画同步检测,并针对音画不同步的情况进行音画同步校准。在相关技术中,通常采用人工方式检测音画不同步的音视频文件,并人为进行相应的校准。这种方式的处理效率较为低下,且无法确保校准的准确性。
技术实现思路
1、本申请提供一种音画同步方法、音画同步装置、电子设备、计算机可读存储介质,可以提高音视频文件的音画同步检测效率和校准效率,并提高校准的准确性。
2、第一方面,本申请提供了一种音画同步方法,该音画同步方法包括:对待处理的音频文件进行语音识别,得到所述音频文件的第一时间戳,所述第一时间戳用于表征静音与非静音的分界时刻;对与所述音频文件对应的视频文件进行图像识别,得到所述视频文件的第二时间戳,所述第二时间戳用于表征所述视频文件中目标对象发音与目标对象静音的分界时刻;基于所述第一时间戳和所述第二时间戳,确定所述音频文件与所述视频文件的偏移类型;根据所述偏移类型,将所述音频文件与所述视频文件进行音画同步校准,得到目标文件。
3、第二方面,本申请提供了一种音画同步装置,该音画同步装置包括:第一识别模块,用于对待处理的音频文件进行语音识别,得到所述音频文件的第一时间戳,所述第一时间戳用于表征静音与非静音的分界时刻;第二识别模块,用于对与所述音频文件对应的视频文件进行图像识别,得到所述视频文件的第二时间戳,所述第二时间戳用于表征所述视频文件中目标对象发音与目标对象静音的分界时刻;确定模块,用于基于所述第一时间戳和所述第二时间戳,确定所述音频文件与所述视频文件的偏移类型;同步模块,用于根据所述偏移类型,将所述音频文件与所述视频文件进行音画同步校准,得到目标文件。
4、第三方面,本申请提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的音画同步方法。
5、第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的音画同步方法。
6、本申请所提供的实施例,对待处理的音频文件进行语音识别,可以得到音频文件的第一时间戳,从而可以通过第一时间戳表征静音与非静音的分界时刻;对与音频文件对应的视频文件进行图像识别,可以得到视频文件的第二时间戳,从而可以通过第二时间戳表征视频文件中目标对象发音与目标对象静音的分界时刻;基于第一时间戳和第二时间戳,可以快捷地检测出是否存在音画不同步问题,相较于人工方式而言,可以提高音视频文件的音画同步检测效率,并且,还能针对音画不同步情况确定出相应的偏移类型,为后续音画同步校准提供依据,便于提高校准效率和校准准确性;针对不同的偏移类型,可以采用相应的方式将音频文件与视频文件进行音画同步校准,从而得到准确性较高的目标文件。
7、应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
1.一种音画同步方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一时间戳和所述第二时间戳,确定所述音频文件与所述视频文件的偏移类型,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据多个所述偏移时间,确定所述偏移类型,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述偏移类型,将所述音频文件与所述视频文件进行音画同步校准,得到目标文件,包括:
5.根据权利要求2所述的方法,其特征在于,所述根据多个所述偏移时间,确定所述偏移类型,包括:
6.根据权利要求5所述的方法,其特征在于,所述音频文件包括多个音频片段,相邻两个所述音频片段由所述第一时间戳分割,所述视频文件包括多个视频片段,相邻两个所述视频片段由所述第二时间戳分割;
7.根据权利要求1所述的方法,其特征在于,所述对待处理的音频文件进行语音识别,得到所述音频文件的第一时间戳,包括:
8.一种音画同步装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的音画同步方法。