本发明涉及深度学习与模式识别领域,尤其涉及一种脱机书写者识别方法、装置、电子设备及介质。
背景技术:
1、手写笔迹作为一种独特的行为生物特征,广泛存在于日常生活中,如手写签名、个人笔记、法律文件等。每个人的书写风格在细节上具有独特性,这使得手写笔迹在身份识别、司法鉴定、金融安全等领域发挥着至关重要的作用。随着数字化时代的到来,在线(联机)手写笔迹的应用越来越普及。然而,由于实体手写文件的存在,脱机书写笔迹存在着广泛的应用。因此,辨别出手写笔迹的书写者,即脱机书写者识别技术,仍然是一个重要且具有挑战性的课题。
2、目前,大部分脱机书写者识别方法集中于处理整页或整句的书写数据,已经实现了较高的识别率。然而,在单词级别的脱机书写者识别中,由于单个单词图片上有效的笔迹量较少,难以充分地捕捉书写者独特的书写风格,限制了识别模型的准确性。
技术实现思路
1、为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种基于滑动窗口局部注意力与全局残差建模的脱机书写者识别方法、装置、电子设备及介质。
2、本发明所采用的第一技术方案是:
3、一种脱机书写者识别方法,包括以下步骤:
4、获取手写单词图像数据;
5、将手写图像转化为灰度图像,对灰度图像进行二值化处理,将处理后的图像尺寸调整为预设大小,并构建训练集;
6、构建笔迹识别模型,采用训练集对笔迹识别模型进行训练;其中笔迹识别模型包括局部建模模块、恒等分支和全局模块,所述局部建模模块用于捕捉局部特征,所述恒等分支用于提取全局特征,所述全局模块用于整合局部和全局特征;
7、将待识别的手写图像输入训练后的笔迹识别模型,获得模型最后分类层的结果,并进行softmax概率计算,取概率最大的书写者作为识别结果。
8、进一步地,所述将手写图像转化为灰度图像,对灰度图像进行二值化处理,将处理后的图像尺寸调整为预设大小,并构建训练集,包括:
9、将手写图像转化为灰度图像,并使用高斯滤波器去除图像中的噪声;
10、使用otsu算法对去噪后的图像进行自适应的二值化处理,获得二值笔迹图:
11、将二值笔迹图调整为预设大小后,结合标签数据构建成训练集。
12、进一步地,所述将二值笔迹图调整为预设大小,包括:
13、首先保持二值笔迹图原始长宽比进行缩放,然后对二值笔迹图左右或上下两边使用白色像素进行填充,以达到预设大小。
14、进一步地,所述局部建模模块中采用了swin transformer模型中的窗口自注意力机制和滑动窗口自注意力机制,对单词笔迹进行分块,并通过在单词笔迹块之间计算(滑动)窗口自注意力来学习局部风格特征;
15、所述恒等分支将分块后的输入直接加入到局部建模模块提取的局部特征中,将全局特征通过残差的方式进行相加,以引入全局的书写风格依赖;在局部特征和全局特征融合后,送入全局模块中进行深度整合;最后将整合的特征输入到分类头进行书写者身份的分类,以完成识别。
16、进一步地,所述局部建模模块包括多个swin transformer层;所述swintransformer层包括多个swin transformer块;
17、所述swin transformer块包括窗口多头自注意力机制、滑动窗口多头自注意力机制和前馈网络;
18、在窗口多头自注意力机制中,输入特征序列被划分为多个不重叠窗口,而多头自注意力则在每个窗口间分别计算,在此基础上,对每个窗口进行半个窗口长度的滑动便得到了滑动窗口多头自注意力机制,使上一层相邻的不重合窗口之间引入连接,增大了感受野;最后特征经过一个由多层感知机组成的前馈网络成为输出,进入下一个swintransformer层进一步提取特征。
19、进一步地,所述恒等分支包括分块嵌入层、平均池化和全连接层;使用分块嵌入层将整个图像切割成块状,然后进行平均池化压缩空间维度,最后通过全连接层进行向量维度映射,以提取和整合全局特征。
20、进一步地,所述将待识别的手写图像输入训练后的笔迹识别模型,获得模型最后分类层的结果,并进行softmax概率计算,取概率最大的书写者作为识别结果,包括:
21、将待识别的手写图像输入训练后的笔迹识别模型,模型的分类层输出一个向量,该向量的维度等同于训练集中的书写者数量,每个元素对应一个特定书写者的原始得分;
22、根据输出的向量进行softmax概率计算,选择概率最高的类别作为最终的识别结果,即将该手写图像归属于概率最大的书写者。
23、本发明所采用的第二技术方案是:
24、一种脱机书写者识别装置,包括:
25、数据采集模块,用于获取手写单词图像数据;
26、图像处理模块,用于将手写图像转化为灰度图像,对灰度图像进行二值化处理,将处理后的图像尺寸调整为预设大小,并构建训练集;
27、模型构建模块,用于构建笔迹识别模型,采用训练集对笔迹识别模型进行训练;其中笔迹识别模型包括局部建模模块、恒等分支和全局模块,所述局部建模模块用于捕捉局部特征,所述恒等分支用于提取全局特征,所述全局模块用于整合局部和全局特征;
28、笔迹识别模块,用于将待识别的手写图像输入训练后的笔迹识别模型,获得模型最后分类层的结果,并进行softmax概率计算,取概率最大的书写者作为识别结果。
29、本发明所采用的第三技术方案是:
30、一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行,以实现如上所述的一种脱机书写者识别方法。
31、本发明所采用的第四技术方案是:
32、一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的一种脱机书写者识别方法。
33、本发明所采用的第五技术方案是:
34、一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的一种脱机书写者识别方法。
35、本发明的有益效果是:本发明的笔迹识别模型中,局部建模模块通过(滑动)窗口多头自注意力机制细致地捕捉字母笔画之间的局部依赖性,恒等分支则通过全局平均池化和全连接层提取全局特征,全局模块则将局部和全局特征进行整合,形成一个具有更强鲁棒性的书写风格表征,能够有效地从有限的书写笔迹中提取稳健的特征表示,达到远超其他方法的识别精度。另外,本发明首次在该领域利用了滑动窗口局部注意力,并综合建模局部和全局书写风格特征,为领域内的后续工作提供了新思路。