基于多模态联合预训练方式的签名鉴别方法及系统与流程

文档序号:35234335发布日期:2023-08-25 02:23阅读:21来源:国知局
基于多模态联合预训练方式的签名鉴别方法及系统与流程

本发明涉及计算机信息处理,具体是一种基于多模态数据联合预训练方式的手写电子签名鉴别方法。


背景技术:

1、随着社会数字化进程的不断发展,电子签署在社会中占有越来越重要的地位。笔迹数据作为签署人特有的主动行为生物特征,其他人难以仿冒,与个人身份有效关联,是签署人显意识与潜意识的复合信息载体,可以通过数字建模成为个人画像的维度之一,从而实现数字身份认证。目前笔迹数据已经实现了技术向市场的转化,基于笔迹生物特征识别技术形成的原笔迹电子签名产品已广泛应用于金融、政务、司法、公共安全、民生等众多领域中。

2、在实际应用中,常规的电子签名笔迹鉴别方法通常是将笔迹鉴别任务当作一个简单的二分类问题处理,例如,公开号cn111985319a,名称“签名识别方法及设备”的中国发明专利申请,提供一种签名识别方法及设备,将动态数据采样点转化为静态图像,并且通过低二通道图像对单字符内的笔画顺序进行编码,通过第三通道图像笔画中数据点的顺序进行编码,通过将丰富的时序信息编码至静态图像,提高动态签名的分类准确率。还提出笔画预处理方式,坐标对齐可以减少因为签名风格,签名字体大小,硬件设备等外界因素对签名识别造成的影响,去除冗余点可以减少因为设备因为采样等原因带来的误差,去除部分噪声,保留更加有用的数据点,提高模型的泛化能力和鲁棒性。

3、但由于不同签署人签署的签名笔迹在形态、风格及习惯上的差异分布范围较广,因此要想获得较高的鉴别准确率就需要采集大量不同签署人的正仿写签名笔迹样本学习分类模型。但是,数据获取阶段去采集得到大量不同签署人的正仿写签名样本数据是非常难的,特别是收集高仿真条件下的仿写签名数据。此外,在当前时代背景下的实际应用中,以离线纸质手写签名图像作为鉴定媒介的场景甚至比在线签名序列还要多,因此跨模态签名数据的比对也是未来趋势之一,但跨模态签名数据的比对是非常具有挑战性的技术难题。


技术实现思路

1、本发明针对现有技术存在的上述缺陷并结合实际应用场景,提出了一种基于多模态数据联合预训练方式的电子签名笔迹鉴别方法。

2、本发明解决上述技术问题的技术方案是,提出一种基于多模态数据联合预训练方式的电子签名笔迹鉴别方法,包括:数据采集模块收集并采集手写电子文本序列数据、不同签署人的正写签名序列数据及对应仿写签名序列数据,并同步标注签名序列数据的相应身份真伪标签信息,获取签名序列数据的坐标,压力,时间以及抬笔状态等多维度特征信息;数据预处理模块分别对文本及签名序列数据进行预处理,获取用作训练多模态数据联合预训练模型的文本序列和文本图像数据,以及用作微调和测试签名序列和签名图像特征提取模型的签名序列与签名图像数据;文本序列和文本图像联合预训练模块通过文本图像和文本序列预训练分别构建文本图像编、解码器和文本序列编、解码器;将有真伪标签的签名序列数据基于文本序列预训练编码器进行微调训练得到签名序列特征提取器,将对应的签名图像数据基于文本图像预训练编码器进行微调训练得到签名图像特征提取器;将留样签名通过对应模态的特征提取器提取特征获得留样特征,根据待测试签名样本选择对应模态的签名特征提取器提取相应样本特征,与留样特征进行比对确定是否与留样签名一致。

3、进一步地,数据预处理模块对文本序列数据预处理包含:对手写文本序列数据通过笔画点坐标位置或抬笔状态进行拆分,将手写文本序列数据拆分为多个与签名序列数据近似长度(如二字或三字签名序列)的文本序列数据;或对手写文本序列数据进行单字拆分,将拆分得到的单字序列进行两个字或者三个字的拼字得到与签名序列数据近似长度的文本序列数据;对文本序列数据进行质量筛选、序列修复和重采样,同时对拆分或合并的文本序列数据进行拟合,获取运动模型参数(t_0、θ_s、θ_e、d、σ、μ),对每个参数加入一个随机均匀分布的扰动因子进行文本序列数据增强,以获取更多更丰富的文本序列数据,同时根据文本序列数据特征进行签名图像绘制,将文本序列数据转为文本图像数据。

4、进一步地,签名序列数据预处理包含:对签名序列数据进行质量筛选、序列修复和重采样后,同时根据签名序列数据特征进行签名图像绘制,将签名序列数据转为签名图像数据。

5、进一步地,文本图像预训练,将文本图像划分为图像块patch,对文本图像块列表进行随机打乱且部分块进行0值化掩码和标记,送入文本图像编码器进行编码提取特征向量表示,解码器结合特征向量表示及图像掩码标记信息进行文本图像的重建恢复,计算还原出的文本图像与原始输入的文本图片像素均方误差损失;文本序列预训练,将文本序列进行等比例区域划分为序列段span,对文本序列段span列表进行随机打乱且部分段进行0值化掩码和标记,送入文本序列编码器进行编码提取特征向量表示,解码器结合特征向量表示及序列掩码标记信息进行文本序列的重建恢复,计算文本序列点位特征值均方误差损失。

6、进一步地,多模态数据联合预训练包括:构建多模态数据的联合预训练损失关系:

7、total_loss = α*image_loss + β*sequence_loss + γ*mixed_loss,对多模态数据联合预训练模型进行训练,使得联合预训练损失值total_loss最小,其中α,β及γ分别代表不同损失的权重。

8、进一步地,通过多模态数据联合预训练后的文本图像编码器提取签名图像特征,将提取后的图像特征向量进行映射及分类,分别对签名数据对应签署人身份类别及真伪类别进行分类训练,得到签名图像特征提取模型;通过多模态数据联合预训练后的序列图像编码器提取签名序列特征,将提取后的签名特征向量进行映射及分类,分别对签名数据对应签署人身份类别及真伪类别进行分类训练,得到签名序列特征提取模型。

9、进一步地,如留样签名和待检测签名模态均为序列数据,利用签名序列特征提取器分别提取特征向量后比对,若留样签名和待检测签名数据模态均为图像,利用签名图像特征提取器分别提取特征向量后比对,如留样签名和待检测签名为不同模态,将签名序列特征转化为图像数据后通过图像特征提取器提取特征向量后比对,两者距离小于预定阈值表示为相同身份签署。

10、第二方面,本发明还提出一种基于手写电子文本的多模态数据联合预训练方法,其特征在于,收集手写电子文本序列数据,采集正写签名及仿写签名序列数据,并同步标注签名序列数据相应身份真伪标签信息,并提取各序列数据特征信息;根据序列数据特征信息对文本及签名序列数据进行预处理,获取文本序列和文本图像数据,以及签名序列与签名图像数据;构建包含文本序列预训练模块及文本图像预训练模块的多模态数据联合预训练模型,利用文本序列数据和文本图像数据训练多模态数据联合预训练模型,获得文本序列预训练编码器和文本图像预训练编码器;将有真伪标签的签名序列数据或签名图像数据基于文本序列预训练编码器或文本图像预训练编码器进行分类微调训练得到签名序列特征提取器或签名图像特征提取器;通过多模态数据联合预训练后的文本图像编码器提取签名图像的特征表示,将提取后的签名图像特征向量进行映射及分类,分别对签名数据对应签署人身份类别及真伪类别进行多任务联合分类训练,得到签名图像特征提取模型;通过多模态数据联合预训练后的序列图像编码器提取签名序列的特征表示,将提取后的签名特征向量进行映射及分类,分别对签名数据对应签署人身份类别及真伪类别进行多任务联合分类训练,得到签名序列特征提取模型

11、第三方面:本发明还提出一种基于多模态数据联合预训练的签名鉴别系统,包括:数据采集模块、数据预处理模块、文本序列和文本图像联合预训练模块、签名序列和签名图像特征提取模型微调模块、留样检材测试比对模块,数据采集模块,用于收集手写电子文本序列数据,采集不同签署人的正写签名序列数据及对应仿写签名序列数据,并同步标注签名序列数据相应身份真伪标签信息,同时提取各序列数据的特征信息,数据预处理模块,根据序列数据的特征信息对文本及签名序列数据进行预处理,获取用作多模态数据联合预训练模型的文本序列数据和文本图像数据,以及用作签名序列和签名图像特征提取模型微调和测试的签名序列数据和签名图像数据;文本序列和文本图像联合预训练模块,采用文本图像和文本序列数据对文本图像预训练编、解码器和文本序列预训练编解码器进行多模态联合预训练,同时将有真伪标签的签名序列数据基于文本序列预训练编码器进行微调训练得到签名序列特征提取器,将对应的签名图像数据基于文本图像预训练编码器进行微调训练得到签名图像特征提取器;签名序列特征提取器用于提取签名序列的特征向量,签名图像特征提取器用于提取签名图像的特征向量。

12、本发明不仅能改善少样本数据在大模型上容易训练过拟合的问题,且为了能够进一步扩充训练数据,对于预训练模型中的训练数据的获取条件限制较为宽松,多种形式的手写电子文本序列通过数据处理后都可以用来作为训练样本,同时还采用sigmalognormal和拆拼字等数据增强的方法进一步丰富样本的多样性。此外,本发明中的多模态联合预训练方式可以同时获得签名图像特征提取器和签名序列特征提取器,测试时也可以根据测试样本模态选择对应模态的特征提取器进行单模态或跨模态比对。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1