图像拼接方法、模型训练方法、装置、电子设备及介质与流程

文档序号:37223368发布日期:2024-03-05 15:23阅读:24来源:国知局
图像拼接方法、模型训练方法、装置、电子设备及介质与流程

本技术涉及图像处理,尤其涉及一种图像拼接方法、模型训练方法、装置、电子设备及介质。


背景技术:

1、电子屏幕对学生的视力和注意力有负面影响,因此很多智能辅助学习工具难以被广泛接受。相比之下,扫描笔因其便携和无副作用等特点逐渐受到学生的欢迎。然而,扫描笔的关键在于内部的功能算法,其中图像序列拼接算法是最核心的部分。

2、现有技术方案主要有两种思路来解决扫描笔场景中的图像拼接问题。一种思路是将扫描图像进行二值化,然后通过特征匹配的方式进行拼接。然而,由于二值化的局限性和对扫描笔参数等因素的考虑不足,这种方法得到的结果可能不够准确。另一种思路是利用特征点进行图像配准,并进行重叠区域的处理。然而,针对包含文字的图像,由于匹配不准确和序列校正错误的累积问题,以及边界处理对后续文字识别效果产生影响。


技术实现思路

1、本技术提供一种图像拼接方法、模型训练方法、装置、电子设备及介质,用以解决如何准确地进行扫描笔图像拼接的问题。

2、第一方面,本技术提供一种图像拼接方法,所述方法包括:

3、获取待拼接的图像序列;

4、将所述图像序列输入训练好的神经网络模型,以输出所述图像序列对应的透视变换矩阵和每个图像帧的偏移量,所述透视变换矩阵用于描述图像在透视变换中的变换关系,所述偏移量用于调整每个图像帧在拼接过程中的位置;

5、根据所述透视变换矩阵和所述偏移量,对所述图像序列中的每个图像帧进行拼接,以生成最终的拼接图像。

6、在本技术的一实施例中,所述方法还包括:

7、将获取到的合成数据和对应的标签作为训练数据,对所述神经网络按照预设的目标函数和训练策略进行训练;

8、其中,所述目标函数用于衡量所述神经网络模型的预测结果与所述标签之间的差异,所述训练策略是基于输入的图像序列与输出的透视变换矩阵和偏移量,对所述透视变换矩阵采用部分到整体的逐步训练方式。

9、在本技术的一实施例中,所述将获取到的合成数据和对应的标签作为训练数据的步骤包括:

10、选择不同语种、字体和大小的文本样本,与不同光照和背景进行融合,以生成所述合成数据。

11、在本技术的一实施例中,所述将获取到的合成数据和对应的标签作为训练数据的步骤还包括:

12、获取至少包括连续两个图像帧的图像序列;

13、对每个图像帧进行多样化处理,以生成多样化数据作为所述合成数据,其中所述多样化处理包括以下任一或其组合:

14、对每个图像帧进行质量变换,所述质量变换包括模糊、图像压缩以及对比度调整;

15、根据需求选择不同的路径形式,所述路径形式包括直线型、斜线型以及曲线型;

16、根据需求设置不同速度条件下的笔迹移动像素数量;

17、调整每个图像帧的握笔姿态,所述握笔姿态包括旋转角度和俯仰角度的变化。

18、在本技术的一实施例中,所述目标函数包括赋予预设权重的第一损失函数、第二损失函数、第三损失函数以及第四损失函数,其中所述第一损失函数表示预测的透视校正图和标签图之间的均方误差损失;所述第二损失函数表示预测的偏移量与标签对应的偏移量之间的差的绝对值损失;所述第三损失函数表示进行拼接后的图像与标签图之间的均方误差损失;所述第四损失函数表示预测空白区域的位置与实际位置之间的差的绝对值损失。

19、在本技术的一实施例中,所述训练顺序包括:

20、利用所述训练数据中只包含特定变换的图像序列,固定投影向量来训练与所述特定变换所对应的部分参数;

21、待收敛后,加入剩余参数进行整体训练,并对整体透视变换矩阵进行微调以得到优化后的透视变换矩阵,其中所述剩余参数是指除所述特定变换所对应的部分参数以外的其他参数;

22、根据所述目标函数,最小化优化后的透视变换矩阵和标签对应的真实透视变换矩阵之间的差异,以优化所述神经网络模型的参数。

23、第二方面,本技术还提供一种模型训练方法,所述方法包括:

24、将获取到的合成数据和对应的标签作为训练数据;

25、将所述训练数据输入预设的神经网络模型并对其进行训练,以得到训练好的神经网络模型,其中训练好的所述神经网络模型能输出待拼接的图像序列所对应的透视变换矩阵和每个图像帧的偏移量,所述透视变换矩阵用于描述图像在透视变换中的变换关系,所述偏移量用于调整每个图像帧在拼接过程中的位置,所述透视变换矩阵和所述偏移量用于对所述图像序列中的每个图像帧进行拼接,以生成最终的拼接图像。

26、第三方面,本技术还提供一种图像拼接装置,所述装置包括:

27、获取模块,用于获取待拼接的图像序列;

28、预测模块,用于将所述图像序列输入训练好的神经网络模型,以输出所述图像序列对应的透视变换矩阵和每个图像帧的偏移量,所述透视变换矩阵用于描述图像在透视变换中的变换关系,所述偏移量用于调整每个图像帧在拼接过程中的位置;

29、拼接模块,用于根据所述透视变换矩阵和所述偏移量,对所述图像序列中的每个图像帧进行拼接,以生成最终的拼接图像。

30、第四方面,本技术还提供一种模型训练装置,所述装置包括:

31、获取模块,用于将获取到的合成数据和对应的标签作为训练数据;

32、训练模块,用于将所述训练数据输入预设的神经网络模型并对其进行训练,以得到训练好的神经网络模型,其中训练好的所述神经网络模型能输出待拼接的图像序列所对应的透视变换矩阵和每个图像帧的偏移量,所述透视变换矩阵用于描述图像在透视变换中的变换关系,所述偏移量用于调整每个图像帧在拼接过程中的位置,所述透视变换矩阵和所述偏移量用于对所述图像序列中的每个图像帧进行拼接,以生成最终的拼接图像。

33、第五方面,本技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任一项所述的图像拼接方法或如第二方面中任一项所述的模型训练方法的步骤。

34、第六方面,本技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面中任一项所述的图像拼接方法或如第二方面中任一项所述的模型训练方法的步骤。

35、本技术提供的一种图像拼接方法、模型训练方法、装置、电子设备及介质,该方法通过获取待拼接的图像序列,并将图像序列输入一个已经训练好的神经网络模型,以输出每个图像帧对应的透视变换矩阵和偏移量。最后根据输出的透视变换矩阵和偏移量,对图像序列中的每个图像帧进行拼接,生成最终的拼接图像。

36、因此,本技术利用训练好的神经网络模型准确地计算每个图像帧的透视变换矩阵和偏移量,从而实现了高质量的图像拼接,能够有效处理扫描笔在扫描过程中产生的多个图像帧,并将它们无缝拼接成一个完整的图像。这样可以提高图像拼接的精度和效率,并为扫描笔的应用提供更加稳定和可靠的图像拼接功能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1