本发明涉及通信网络,特别是一种基于多尺度压缩和时序分析的图像数据传输系统及方法。
背景技术:
1、随着互联网技术的迅猛发展,视频图像数据传输已成为网络通信中的一个重要组成部分。高效的视频传输系统对于实时监控、远程教育、视频会议等应用至关重要。图像视频传输包括了如下步骤:(1)源编码:将原始图像数据进行压缩,压缩的目的是减少传输所需的数据量,其中起核心作用的是编码算法的效率;(2)数据传输:通过网络(如局域网、互联网或无线网络)发送数据,不同传输策略决定了传输数据的完整性以及效率;(3)解码与恢复:将传输的压缩图像数据进行还原,错误矫正,转换为原始图像数据,其中最关键的是恢复为原始图像数据的准确度。
2、由于图像数据的分辨率日益增高以及有限的传输带宽,因此现有的视频数据传输方法也就存在许多缺陷。比如目前的图像视频传输系统存在如下问题:(1)现有的视频数据压缩编码算法会导致过度压缩的问题,进而导致视频质量显著下降,特别是在低带宽环境下,这往往会损失大量细节。(2)现有压缩算法往往无法平衡压缩率和解压缩时的计算复杂性,过小的压缩率会导致大量的传输成本、过大的压缩率会导致解压缩复杂性过高,进而限制在资源受限的设备上的应用性能。(3)当前的视频数据传输往往无法完全适应网络状况的动态变化,这可能在网络状况不稳定时导致视频传输中断或质量问题。(4)现有的视频解码过程效率低,其过程中的错误可能因压缩算法的缺陷而被放大,导致图像质量下降。
3、例如,公告号为cn117808907a的中国发明专利就公开了一种基于混合transformer与cnn的图像压缩感知重建方法及系统,根据采样率构建混合transformer与cnn的图像压缩感知重建模型,包括采样子网,初始重建子网和深度重建子网;所述采样子网用于对图像进行特征提取,得到测量值;所述初始重建子网用于从测量值到原始信号的初始重建;所述深度重建子网用于基于初始重建后图像进行深度重建;根据设置的网络损失函数及训练数据对构建的图像压缩感知重建模型进行训练;基于训练好的图像压缩感知重建模型进行图像压缩感知重建。
4、例如,公告号为cn116029953a的中国发明专利就公开了一种基于自监督学习和transformer的无参考图像质量评价方法,使用有监督对比学习方法在大规模未标记图像质量评价数据集kadis上进行自监督训练,从而学习到不同失真类型和级别失真图像的退化特征;结合cnn和transformer特性设计多流主干网络结构,用以提取图像对应的失真特征;设计了分块注意力模块,将退化特征和失真特征进行融合,得到最终的失真图像质量特征,用以图像客观得分的回归预测。
5、但是上述方法在复杂场景下的压缩效率和视频质量平衡上存在一定局限。本发明利用深度学习技术,实现了更高的压缩率和压缩效率,同时更好地保留了视频原始特征,减少了压缩失真。
技术实现思路
1、本发明的第一个目的是提供一种高效的视频数据压缩算法,其能平衡压缩率与压缩效率之间的关系,在传统视频压缩技术中,多采用手工设计的算法来预测和编码视频帧之间的差异,而本发明利用深度学习技术在压缩时不仅极大程度保留原始特征并且压缩率高在传输时节省带宽,在压缩恢复算法时也能以较小的失真率复原原始数据。为了实现上述目的,提出了以下技术方案:
2、一种基于多尺度压缩和时序分析的图像数据传输方法,包括以下步骤:
3、s1:发送端对传输的视频数据进行预处理得到预处理后的视频帧;
4、s2:利用cnn和基于transformer的分层注意力模型对所述视频帧进行特征提取,得到输出特征图,通过对所述输出特征图进行多通道编码减少所述视频帧的语义信息的损失;
5、s3:通过局部运动补偿和全局运动补偿对视频帧之间的信息进行建模,获取多尺度信息,对所述多尺度信息进行处理得到压缩后的视频数据;
6、s4:通过建立长短时记忆网络模型选择时机将所述压缩后的视频数据发送至视频接收方,所述接收方利用和发送端压缩时相同的神经网络参数对所述视频数据进行恢复。
7、优选的,预处理具体包括以下步骤:
8、采用小波去噪的方式对有噪声的图像数据进行去噪处理;通过向上采样的方法增加分辨率低的图像数据的像素点,通过lanczos重采样技术保证分辨率高的图像数据分辨率。
9、优选的,所述cnn处理具体包括以下步骤:
10、使用大小为3x h x w的卷积层对所述视频帧进行特征提取,得到所述视频帧的输出特征图在当前位置的输出值;
11、将所述输出值送入大小为n x h x w的maxpooling层进行池化,得到池化表示;
12、将所述池化表示输入一个由两个激活函数relu以及两个大小为n x k x 1的卷积层组成的残差层,通过将所述图像帧链接到所述输出值上减少梯度消失,提取关键视觉特征。
13、优选的,所述分层注意力模型的建立具体包括以下步骤:
14、将输出特征图划分为多个不重叠的独立窗口;
15、对所述独立窗口进行独立计算自注意力分数及图像像素的相关性计算;
16、通过对所述独立窗口的独立计算自注意力分数及图像像素的相关性进行交互表达得到所述视频帧的语义信息。
17、优选的,所述多通道编码处理具体包括以下步骤:
18、将输出特征图直接与多通道编码的输出连接;
19、将输出特征图经过n个resblock模块并与多通道编码的输出连接;
20、将输出特征图经过swin transformer和一个激活函数sigmoid,与多通道编码的输出连接,同时采用快速卷积与反卷积策略降低计算复杂度。
21、优选的,所述快速卷积与反卷积策略的计算公式为:
22、v=atgwgt⊙btxba
23、其中,⊙表示哈达玛积,v是m×m的输出块,w是k×k的权重,x是p×p的输入块,a、b和g是变换矩阵。
24、优选的,所述局部运动补偿处理具体包括以下步骤:
25、从所述视频帧的上一个帧中提取多尺度信息;
26、将所述多尺度信息进行对齐,采用lucas-kanade光流算法估计运动矢量;
27、通过所述运动矢量将所述多尺度信息进行特征变形,形成对应视频帧的局部上下文,得到经过局部补偿后的视频帧。
28、优选的,所述全局补偿处理具体包括以下步骤:
29、根据所述多尺度信息计算得到中间特征,将多尺度信息与中间特征计算相似度分数然后与注意力分数进行拼接产生全局运动补偿编码。
30、优选的,所述长短时记忆网络模型的建立具体包括以下步骤:
31、捕获网络流量数据,将所述流量数据打上与时间相关的标签;
32、通过对所述流量数据预处理确定流量数据的季节性周期,然后将所述流量数据分割成长为n的小段,每一个段包括一个完整的季节性周期,得到流量数据集;
33、使用聚类算法识别所述流量数据集为k个不同群组;
34、对于所述k个不同群组,使用长短期记忆力网络分别训练一个预测模型。
35、基于相同的构思,还提出了一种基于多尺度压缩和时序分析的图像数据传输系统,包括视频预处理模块、特征提取模块、变换编码模块、运动补偿模块、解码和后处理模块;
36、所述视频预处理模块通过对视频帧进行去噪、调整分辨率和色彩空间转换,得到预处理后的视频帧;
37、所述特征提取模块接收所述视频帧,利用cnn与transformer模型架构来分析视频帧,提取关键视觉特征;
38、所述变换编码模块接收所述视觉特征进行压缩;
39、所述运动补偿模块接收压缩后的视觉特征,经过运动矢量估计和注意力拼接预测所述视频帧之间的变化;
40、所述解码和后处理模块将压缩后的视觉特征恢复为图像帧数据。
41、视频预处理模块主要功能是优化视频数据,为后续的压缩流程做准备。预处理过程包括去噪、调整分辨率、色彩空间转换。并且在本发明中为了减少分割的帧质量无法保证,因此对帧进行排序或选择性地丢弃某些帧以减少冗余,从而提高压缩效率。
42、特征提取模块利用卷积神经网络(cnn)与transformer模型架构来分析视频帧,提取关键视觉特征。这些特征被用于后续的数据压缩过程。其可以识别出视频中的重要对象和区域,并且使得这些区域在压缩时可以得到更多的保留,从而保证视频质量。
43、变换编码模块利用编解码器模型对上一步提取到的特征进行高能量信息集中展示,不仅使得数据压缩效率更高也使得丢弃的关键信息更少。
44、运动补偿模块设计了新的相邻帧之间运动的估计方法,来预测帧间的变化,目的是仅仅对变化的地方进行编码,从而减少了一些不变冗余部分的编码与传输。
45、解码和后处理模块利用编码的相同方法进行解码,并且还包括锐化、去块效应、颜色校正措施,这些处理有助于提高解压视频的视觉质量。
46、与现有技术相比,本发明的有益效果:
47、本发明的方法利用深度学习技术在压缩时不仅极大程度保留原始特征并且压缩率高在传输时节省带宽,在压缩恢复算法时也能以较小的失真率复原原始数据。一方面利用高效的客户与服务器数据传输提高效率,一方面利用机器学习选择网络最通畅的时间进行发送减少数据丢失从而避免重传的开销。