音画同步方法、音画同步装置、电子设备及存储介质与流程

文档序号：37515516发布日期：2024-04-01 14:25阅读：16来源：国知局

本申请涉及多媒体处理，特别涉及一种音画同步方法、音画同步装置、电子设备、计算机可读存储介质。

背景技术：

1、音画不同步是音视频播放过程中经常会遇到的问题，音画不同步对用户的观看体验影响较大，因此，有必要对音视频文件进行音画同步检测，并针对音画不同步的情况进行音画同步校准。在相关技术中，通常采用人工方式检测音画不同步的音视频文件，并人为进行相应的校准。这种方式的处理效率较为低下，且无法确保校准的准确性。

技术实现思路

1、本申请提供一种音画同步方法、音画同步装置、电子设备、计算机可读存储介质，可以提高音视频文件的音画同步检测效率和校准效率，并提高校准的准确性。

2、第一方面，本申请提供了一种音画同步方法，该音画同步方法包括：对待处理的音频文件进行语音识别，得到所述音频文件的第一时间戳，所述第一时间戳用于表征静音与非静音的分界时刻；对与所述音频文件对应的视频文件进行图像识别，得到所述视频文件的第二时间戳，所述第二时间戳用于表征所述视频文件中目标对象发音与目标对象静音的分界时刻；基于所述第一时间戳和所述第二时间戳，确定所述音频文件与所述视频文件的偏移类型；根据所述偏移类型，将所述音频文件与所述视频文件进行音画同步校准，得到目标文件。

3、第二方面，本申请提供了一种音画同步装置，该音画同步装置包括：第一识别模块，用于对待处理的音频文件进行语音识别，得到所述音频文件的第一时间戳，所述第一时间戳用于表征静音与非静音的分界时刻；第二识别模块，用于对与所述音频文件对应的视频文件进行图像识别，得到所述视频文件的第二时间戳，所述第二时间戳用于表征所述视频文件中目标对象发音与目标对象静音的分界时刻；确定模块，用于基于所述第一时间戳和所述第二时间戳，确定所述音频文件与所述视频文件的偏移类型；同步模块，用于根据所述偏移类型，将所述音频文件与所述视频文件进行音画同步校准，得到目标文件。

4、第三方面，本申请提供了一种电子设备，该电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的音画同步方法。

5、第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器/处理核执行时实现上述的音画同步方法。

6、本申请所提供的实施例，对待处理的音频文件进行语音识别，可以得到音频文件的第一时间戳，从而可以通过第一时间戳表征静音与非静音的分界时刻；对与音频文件对应的视频文件进行图像识别，可以得到视频文件的第二时间戳，从而可以通过第二时间戳表征视频文件中目标对象发音与目标对象静音的分界时刻；基于第一时间戳和第二时间戳，可以快捷地检测出是否存在音画不同步问题，相较于人工方式而言，可以提高音视频文件的音画同步检测效率，并且，还能针对音画不同步情况确定出相应的偏移类型，为后续音画同步校准提供依据，便于提高校准效率和校准准确性；针对不同的偏移类型，可以采用相应的方式将音频文件与视频文件进行音画同步校准，从而得到准确性较高的目标文件。

7、应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种音画同步方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一时间戳和所述第二时间戳，确定所述音频文件与所述视频文件的偏移类型，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据多个所述偏移时间，确定所述偏移类型，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述偏移类型，将所述音频文件与所述视频文件进行音画同步校准，得到目标文件，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据多个所述偏移时间，确定所述偏移类型，包括：

6.根据权利要求5所述的方法，其特征在于，所述音频文件包括多个音频片段，相邻两个所述音频片段由所述第一时间戳分割，所述视频文件包括多个视频片段，相邻两个所述视频片段由所述第二时间戳分割；

7.根据权利要求1所述的方法，其特征在于，所述对待处理的音频文件进行语音识别，得到所述音频文件的第一时间戳，包括：

8.一种音画同步装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的音画同步方法。

技术总结
本申请提供了一种音画同步方法、音画同步装置、电子设备及存储介质，属于多媒体处理技术领域。该方法包括：对待处理的音频文件进行语音识别，得到音频文件的第一时间戳，第一时间戳用于表征静音与非静音的分界时刻；对与音频文件对应的视频文件进行图像识别，得到视频文件的第二时间戳，第二时间戳用于表征视频文件中目标对象发音与目标对象静音的分界时刻；基于第一时间戳和第二时间戳，确定音频文件与视频文件的偏移类型；根据偏移类型，将音频文件与视频文件进行音画同步校准，得到目标文件。根据本申请的实施例可以提高音视频文件的音画同步检测效率和校准效率，并提高校准的准确性。

技术研发人员：刘涛,张磊,周健
受保护的技术使用者：北京中关村科金技术有限公司
技术研发日：
技术公布日：2024/3/31

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘涛,张磊,周健
技术所有人：北京中关村科金技术有限公司
我是此专利的发明人

上一篇：动物干细胞外泌体的分离纯化方法及其应用与流程
上一篇：基于动态DNA编码和量子随机行走的彩色图像加密方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。