一种分布式音视频处理系统的制作方法

文档序号:34556263发布日期:2023-06-28 07:56阅读:23来源:国知局

本发明涉及分布式音视频处理,具体是一种分布式音视频处理系统。


背景技术:

1、音视频被广泛应用在在线教育、视频会议以及科学研究等领域,音视频数据的实时处理和传输非常重要。然而,由于音视频数据量大、带宽限制和传输延迟等问题,单个服务器难以满足对音视频数据的实时处理和传输需求。因此,分布式音视频处理系统逐渐成为一种重要的技术方案。

2、分布式音视频处理系统能够将音视频数据分割成多个小数据段进行处理,并将处理结果进行合并。这种系统可以利用多台服务器的处理能力,大大提高了音视频数据的处理效率和传输速度。但是,由于音视频数据的实时性和时序性,使得每个数据段的时间戳的一致性和完整性非常重要。如果时间戳不一致,可能会导致音视频数据的错位和失真;如果数据段不完整,可能会导致丢失关键信息,影响音视频数据的质量。

3、为此,本发明提出一种分布式音视频处理系统。


技术实现思路

1、本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种分布式音视频处理系统,该系统保证了每个分配到分布式处理节点的每个数据段起始位置和终点位置的时间戳的一致性,从而保证了分布式处理节点处理数据段的完整性。

2、为实现上述目的,本发明提出一种分布式音视频处理系统,包括口型匹配模型训练模块、音视频数据收集模块、音视频分割模块以及分布式处理模块;其中,各个模块之间通过有线和/或无线网络方式连接;

3、其中,所述口型匹配模型训练模块主要用于预先训练出对测试人员说话的视频数据和音频数据分别进行拼音识别的模型;

4、所述口型匹配模型训练模块训练出对测试人员说话的视频数据和音频数据分别进行拼音识别的模型包括以下步骤:

5、步骤s1:预先收集拼音集合;所述拼音集合包括所有表示汉字读音的拼音;

6、步骤s2:音频捕捉设备和视频捕捉设备在若干测试人员根据拼音集合中的每个拼音进行朗读时,同步收集音频数据和视频数据,并将音频数据和视频数据进行标注;

7、步骤s3:对每个音频数据进行特征提取,获得音频数据的音频特征向量,并训练出根据音频特征向量识别对应拼音的机器学习模型;将该机器学习模型标记为m1;

8、步骤s4:使用目标识别算法识别视频数据的每帧图像中的人体嘴部,并截取每帧图像中的人体嘴部图像,按照视频中每帧图像的帧顺序,将人体嘴部图像按视频数据的帧率组合为口型动作视频;

9、步骤s5:根据口型动作视频,输入至动作识别神经网络模型中,对动作识别神经网络模型进行训练,获得根据口型动作视频识别对应拼音的动作识别神经网络模型m2;

10、对动作识别神经网络模型进行训练的方式为:

11、所述动作识别神经网络模型以口型动作视频作为输入,以预测的标注为输出,以口型动作视频的真实标注为预测目标,以预测的标注与真实标注的预测准确率作为训练目标;对动作识别神经网络模型进行训练,直至预测准确率达到预设的准确率阈值时,停止训练;将该动作识别神经网络模型标记为m2;

12、所述口型匹配模型训练模块将机器学习模型m1和动作识别神经网络模型m2发送至音视频分割模块;

13、其中,所述音视频数据收集模块主要用于收集待处理的音视频数据;

14、所述音视频数据收集模块收集待处理的音视频数据的方式为:

15、通过音频捕获设备和视频捕获设备,对待捕获的音频和视频画面进行捕获,获得对应的音频数据和视频数据,并获取音频数据的采样率以及视频数据的帧率;

16、将音频数据、视频数据、音频数据的采样率以及视频数据的帧率标记为待处理的音视频数据;

17、所述音视频数据收集模块将待处理的音视频数据发送至音视频分割模块;

18、其中,所述音视频分割模块主要用于根据音视频数据中音频与视频的匹配情况,对待处理的音视频进行分割,获得若干音视频段;

19、所述音视频分割模块对待处理的音视频进行分割,获得若干音视频段包括以下步骤:

20、步骤p1:数据处理后台根据参考时钟,将音频数据和视频数据的起始位置打上相同的初始时间戳;将音频数据的采样率标记为v,将视频数据的帧率标记为f,并定义变量i,其中i=1;

21、步骤p2:根据实际经验预设帧采样周期t,对视频数据每隔帧采样周

22、期t依次进行采样;

23、对于每次采样获得帧对应的图像,使用目标识别算法识别图像中是否存在人的嘴部,若存在人的嘴部,则获取该帧的上一帧或下一帧图像,并通过图像比对技术判断嘴部的口型在当前帧、当前帧的上一帧与当前帧的下一帧中是否一致,若口型一致,则重复执行步骤p2;若口型存在至少一帧不一致,则转至步骤p3;

24、步骤p3:从视频数据的当前帧的位置与上一轮帧采样周期采样的帧的位置的帧区间,采用二分法进行查找出匹配帧,其中匹配帧是指在所述帧区间中首次出现人嘴部,且嘴部在该帧的上一帧、该帧以及该帧的下一帧内出现口型不一致的帧,将匹配帧在视频数据的所有帧中的位置标记为pi,并将i更新为i+1;

25、步骤p4:计算第pi帧在视频数据中的视频时长yi,其中视频时长yi的计算公式为,预设误差时间阈值w;

26、查找音频数据中的匹配采样点位置ci,其中,匹配采样点位置ci的计算公式为ci=(yi-w)*v;

27、步骤p5:将音频数据从匹配采样点位置ci,视频数据从第pi帧位置进行口型匹配,获得音频数据中口型匹配位置ki;

28、其中,所述口型匹配的方式为:

29、预先设置拼音匹配数量n以及语速周期x1;基于语速周期x1计算出视频遍历周期x2,其中视频遍历周期x2=x1*f;基于语速周期x1计算出音频遍历周期x3,其中音频遍历周期x3的计算公式为x3=x1*v;语速周期x1为视频人员说的每个字的语速,在正常情况下,视频数据和音频数据中读出每个字的时间是一致的;

30、对视频数据从第pi帧开始,以视频遍历周期x2帧为周期,截取出n段长度为x2的视频数据,并在每个截取的视频数据中,获取每帧图像中的嘴部图像并将嘴部图像组成口型匹配视频,使用动作识别神经网络模型m2从口型匹配视频中识别出拼音,共识别出n个拼音,将n个拼音按口型匹配视频的顺序进行排序;

31、预先设置匹配次数阈值r;

32、对音频数据从匹配采样点位置ci开始,对后续音频数据以音频遍历周期x3个采样点为周期进行截取,获得若干音频段,并对若干音频段数据进行特征提取,再使用机器学习模型m1识别音频段中的拼音,直至识别的所有拼音中按顺序匹配到根据口型匹配视频识别出的n个拼音或遍历的音频段的数量大于匹配次数阈值r时,停止遍历;若遍历的采样点数量大于匹配次数阈值r,则向数据处理后台发送音视频异常预警信号;若按顺序匹配到根据口型匹配视频识别出的n个拼音,则获取n个拼音中第一个拼音对应音频段的第一个采样点的位置;则该第一个采样点为音频数据中口型匹配位置ki;

33、步骤p6:若i=1,则将音频数据从起始位置到口型匹配位置ki的音频段分割,将视频数据从起始位置到第pi帧的视频段进行分割;

34、若i>1,则将音频数据从口型匹配位置k(i-1)到口型匹配位置ki的音频段分割,将视频数据从帧p(i-1)到帧pi的视频段进行分割;并继续执行步骤p2;

35、步骤p7:将音频段和视频段按截取的顺序进行组合,依次获得组合后的音视频段;即将第i段音频段与第i段视频段组合为第i段音视频段;

36、所述音视频分割模块将所有音视频段发送至分布式处理模块;

37、其中,所述分布式处理模块主要用于对音视频段进行分布式处理节点的分配;

38、所述分布式处理模块对音视频段进行分布式处理节点的分配的方式为:

39、将第i个音视频段中的音频和视频分别在开始位置打上相同的时间戳;该时间戳的计算方式为初始时间戳加上视频时长yi;

40、将音视频段按视频时长yi从大到小进行排序;

41、获得每个分布式处理节点的当前剩余算力,并将当前剩余算力按从大到小进行排序;进一步说明的是,本领域人员应当了解剩余算力的计算原理以及含义,因此本发明对此不做过多赘述,例如cpu剩余算力可以通过cpu使用率和cpu核心数计算得出,假设有n个cpu核心,当前cpu使用率为p,那么剩余cpu算力可以表示为:(1-p)*n;

42、将音视频段按顺序依次发送至对应顺序的分布式处理节点中。

43、与现有技术相比,本发明的有益效果是:

44、本发明通过预先训练出针对人员说话的视频数据和音频数据分别进行拼音识别的动作识别神经网络模型以及机器学习模型,对完整的视频数据按帧采样周期t进行遍历,识别视频图像中是否出现人的嘴部,并对人的嘴部判断口型是否一致,在口型不一致时,判断为视频人员说话,通过周期性采样和口型一致的判断,提高了对匹配音频和视频的分割点的检索效率;

45、本发明通过从视频数据的口型不一致的节点开始,获取音频数据的匹配采样点位置,并识别视频数据中视频人员口型表达的拼音与音频数据中表达的拼音顺序的一致性,在一致的情况下,将音频与视频在对应位置进行分割,并基于分割顺序获得音视频段,保证了每个音视频段起始位置和终点位置的时间戳的一致性,从而保证了分配到分布式处理节点的每个数据段的完整性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1