本发明属于视频图像处理,具体涉及一种基于深度强化学习的帧间图像错误隐藏方法。
背景技术:
1、帧间图像错误隐藏是一种处理视频传输或存储过程中丢失或损坏帧的方法,通过利用相邻帧的信息来重建缺失或损坏的帧,从而保证视频的连续性和画面质量。该技术能够有效减少传输错误对视频体验的影响,确保流畅的视觉效果。帧间图像错误隐藏技术广泛应用于视频通信、流媒体传输、和存储等领域,通过修复视频帧中的丢失或损坏部分,确保视频的连续性和视觉质量。
2、帧间图像错误隐藏方法可以根据其实现原理和应用领域进行分类:(1) 基于复制和插值的帧间图像错误隐藏方法,通过复制或插值周围帧的像素来填补受损帧的缺失区域。这种方法简单直接,计算效率高,适用于静态或简单动态场景,能够快速恢复图像信息。然而,它容易引入图像模糊和伪影,特别是在复杂背景和动态变化较大的场景中表现有限。(2) 基于运动补偿的帧间图像错误隐藏方法,利用帧间运动信息,找到最佳匹配的块并进行补偿,能够精确恢复运动中的受损区域,有效避免运动模糊。然而,对于复杂运动和非线性运动的适应性有限,可能会出现块效应和伪影问题,需要较强的运动预测和补偿能力。(3) 基于深度学习的帧间图像错误隐藏方法,利用卷积神经网络等模型学习和预测受损帧中缺失区域的像素值,能够处理复杂的图像特征和运动模式,具有较强的泛化能力。这种方法在处理复杂场景和大范围运动时表现优异,但训练和推理过程复杂,需要大量标记数据和高计算资源支持。
技术实现思路
1、本发明的目的在于提出一种基于深度强化学习的帧间图像错误隐藏方法,不断优化 q 网络的训练,模型能够逐步学习并优化在复杂图像场景下的恢复策略,从而有效减少帧间图像错误的影响,再利用 q 网络来学习不同恢复操作的长期回报,以提高图像恢复的准确性和效率。
2、本发明采取的技术方案是:
3、一种基于深度强化学习的帧间图像错误隐藏方法,包括以下步骤:
4、步骤一:帧间图像预处理与初始化:
5、s101,帧间图像预处理:去噪、增强对比度和归一化操作,以改善图像质量,提升恢复操作的效果;
6、s102,初始化深度 q 网络(deep q-network, dqn)的主网络和目标网络,并定义网络结构和参数,同时将主网络和目标网络设为相同的初始权重;创建并初始化经验回放池,用于存储训练过程中的经验样本;设置超参数,包括学习率( α)、折扣因子( γ)、值、探索概率、经验回放池大小;
7、步骤二:dqn 模型训练:
8、s201,定义状态和动作空间:
9、定义状态 s t 为当前受损帧及其前后帧的信息组合,通常表示为三个连续帧的拼接图像:
10、;
11、其中, i t是受损帧,表示帧 t 的图像信息, i t-1和 i t+1分别是前后帧;
12、定义动作空间 a,每个动作代表一种恢复操作,包括高斯滤波、块匹配和运动补
13、偿、全变分图像修复:
14、;
15、s202,定义奖励函数;
16、s203,q值计算:
17、q函数近似:使用q函数q( s t , a t)来评估在状态 s t 执行动作 a t的价值,该函数通过深度神经网络(dqn)进行近似;
18、s204,q值更新;
19、s205,经验回放和参数更新;
20、步骤三:帧间图像错误隐藏操作:
21、根据选择的动作 a t 执行相应的图像恢复操作:对于高斯滤波,利用前后帧的信息,通过加权平均滤波恢复受损区域;对于块匹配和运动补偿,在前一帧中寻找最佳匹配块并进行补偿;对于全变分图像修复,通过优化恢复受损区域的像素值。
22、进一步的,在步骤s202中,所述奖励函数 r t( s t , a t)基于执行动作 a t之后的图像的相似性和质量进行定义,表达式为:
23、;
24、其中,是恢复后的图像,表示结构相似性指数,衡量恢复图像与原始图像之间的结构相似性,表示边缘清晰度,可以通过边缘检测算法(如 sobel 算子)计算,表示颜色保真度,可以通过比较色彩直方图或颜色分布的相似性来计算;参数 α、β、γ 根据具体需求和优化目标进行调整,以平衡不同指标对奖励函数的贡献。这种奖励函数结合了多个图像质量评估因素,能够更全面地评估图像恢复的效果。
25、进一步的,在步骤s204中,q值更新方法为:
26、使用贝尔曼方程来计算目标q值,公式为:
27、;
28、再根据目标q值更新当前的q值;
29、其中, y t表示计算的目标 q 值; r t表示当前状态 s t 下,采取动作 a t 后获得的即时奖励; s t+1表示执行动作 a t 后到达的下一状态; λ 表示折扣因子,取值范围为 [0,1],用于权衡未来奖励和即时奖励,较小的 λ 值使得模型更关注即时奖励,较大的 λ 值使得模型更关注长期回报;表示目标网络 q 在状态 s t+1 和动作 a t下的 q 值,参数为 θ,表示学习率,控制参数更新的步长。
30、进一步的,在步骤s205中,经验回放和参数更新方法为:
31、将经验样本( s t , a t, r t, s t+1 )存储到经验回放池d中,从经验回放池中随机抽取小批量样本进行训练,计算目标q值并通过最小化损失函数来更新网络参数;
32、损失函数表示为:
33、;
34、通过最小化该损失函数,使用梯度下降法更新 q 网络的参数 θ,从而使得q 网络的预测值更接近目标 q 值;
35、梯度更新:
36、;
37、表示损失函数 l( θ) 对参数 θ 的梯度。
38、进一步的,在步骤三中,帧间图像错误隐藏操作方法为:
39、根据 q 网络计算当前状态 s t 下所有可能动作的 q 值,并选择 q 值最大的动作:
40、 a t = argmax a∈ a q( s t ,a t; θ)
41、然后根据选择的动作 a t 执行相应的图像恢复操作:
42、(1)高斯滤波:对于每个像素 ( x,y),采用前后帧的信息进行加权平均:
43、;
44、其中, wt-1 和 wt+1 为权重;
45、(2)块匹配和运动补偿
46、块匹配和运动补偿通过在前后帧中寻找最佳匹配块并进行运动补偿来恢复受损区域:
47、块匹配:假设块大小为 n × n,在前一帧 中寻找与当前帧 i t 受损块最匹配的块:
48、;
49、其中,ssd 是块间的差异度量,选择 ssd 最小的块;
50、运动补偿:将最小 ssd 对应的块用于恢复:
51、;
52、 其中和 是块匹配过程中找到的最佳偏移量;
53、(3) 全变分的图像修复
54、基于全变分(total variation, tv)的图像修复是一种常用的图像修复技术,它通过最小化图像梯度的总变分,来平滑图像并保留边缘特征。
55、初始化:将 i tfilled 初始化为前后帧的加权平均值:
56、;
57、迭代优化:使用梯度下降法最小化目标函数,更新 i tfilled 的值:
58、;
59、在每次迭代后,确保已知区域的像素值保持不变。
60、本发明的有益效果:
61、本发明通过深度强化学习模型实现了高效的帧间图像错误隐藏,显著提升了图像恢复的精度和速度,基于 q 网络的学习能力,使系统能够根据不同的图像损伤程度和复杂度动态调整恢复策略,提升了系统的自适应性和适应性。