本发明属于图像数据处理技术,尤其是涉及一种基于多层级笔画序列特征提取的手绘草图识别方法。
背景技术:
1、手绘草图是一种将人类社会联系起来的艺术形式和信息交流媒介。它拥有便利性,高效性和易理解的特点,超越了语言障碍。与专业的素描、工程制图、漫画和油画等其他相关表现形式不同,手绘草图不需要培训,也不需要特殊设备。因此,手绘草图不受年龄、种族、语言、地理或国界的限制。它可以被视为大脑对外部世界的抽象认知,可以被用于辅助工程制图等领域帮助提高设计的效率。
2、手绘草图是高度抽象且图像稀疏的,传统的数字图像处理方法识别效率和精度低,如何从稀疏的背景中有效提取出草图的有效信息和绘制逻辑,提高草图识别的精度和效率,是非常有学术和工程价值的问题。
技术实现思路
1、为解决背景技术中提到的问题,本发明提出了一种基于多层级笔画序列特征提取的手绘草图识别方法,采取了如下的技术方案:
2、一种基于多层级笔画序列特征提取的手绘草图识别方法,包含如下步骤:
3、步骤1:通过记录绘图者在画板上的手绘草图的关键点坐标大批量得到草图笔画序列,并采用rdp(ramer-douglas-peucker)算法对草图关键点进行稀疏采样获得最终的草图笔画序列数据集;
4、步骤2:采用bigru序列网络对草图关键点序列进行特征提取并映射到高维笔画语义特征;
5、步骤3:将经过bigru网络编码后的深度草图序列局部时间步特征输入多层的自注意力transformer模型以建模关键点之间的长距离依赖关系,形成笔画级别特征,得到笔画序列的输出;
6、步骤4:将经过transformer的笔画序列输出进行平均池化求取平均值,并经过一个全连接层和softmax函数得到最终的草图多分类问题结果。
7、进一步的,所述步骤1中,采用绘图板对绘画者的绘制轨迹进行记录,通过记录绘图者在画板上的手绘草图的关键点坐标大批量得到草图笔画序列,并采用rdp算法对草图序列进行稀疏采样,距离阈值为2,并采用填充或截断的方式使序列长度固定为100,每个草图的保存形式为100*4的矩阵。
8、进一步的,所述步骤1中,序列数据存储表示为{(xi,yi,si,ti),0<i<n},其中(xi,yi)是笔画的坐标信息,n是所有关键点的数量,si和ti代表绘制动作,若si=1,ti=0,则表示该绘制点与下一个点相连,即连续绘制操作;若si=0,ti=1,则表示该绘制点与下一个点不相连,即停止绘制。
9、进一步的,所述步骤2中,将数据集采用10:1比例分别作为训练集和验证集进行划分,其中验证集仅作为监测模型训练进度,不参与模型训练参数的调整,采用4层的双向rnn网络bigru对草图关键点序列同时进行点级的特征提取,将其映射为高维的笔画语义特征,即100*512的二维张量。
10、进一步的,所述步骤2中,优化器采用adam,学习率大小、权重衰减分别设置为1e-4、3e-4,每10轮学习率减少为原本的将笔画信息s={s1,s2,…,sn}输入一个4层的隐藏层维度为256的双向rnn网络编码为并加上一个维度为100*512可训练的位置编码矩阵tspos,对于每一个位置i的草图序列表示如公式1所示:
11、
12、进一步的,所述步骤3中,创建多层标准transformer encoder,将bigru编码后的深度草图点级别序列特征输入transformer,建立笔画之间的长距离依赖关系,以聚合全局草图笔画关系,其中输入维度与rnn网络输出的编码维度相同,transformer包含多头自注意力机制和前向线性层。
13、进一步的,所述步骤3中,创建3层标准transformer encoder建立笔画之间的长距离依赖关系,其中输入维度与rnn网络输出的编码维度相同为512,每一层transformer包含8个多头自注意力机制和维度为1024的前向线性层,对于每一个位置的草图序列经过相同的线性变换得到三个维度为100*512的q,k,v特征矩阵,则自注意力的计算方法如公
14、式2所示:
15、
16、进一步的,所述步骤4中,将transformer输出的二维张量基于序列长度进行全局平均池化,求得平均后的二维张量并输入全连接层和softmax函数对其进行最终的结果分类。
17、进一步的,所述步骤4中,将transformer输出的100*512二维张量基于序列长度进行全局平均池化,求得平均后的维度为1*512的二维张量并输入全连接层,其中全连接层的维度与分类类别数保持一致,并使用softmax函数对输出进行归一化,使输出结果的和为1,
18、每一类的输出范围为[0,1],表示最终的结果类别的概率。
19、本发明的有益效果是:充分利用了rnn的局部时序建模能力提取关键点级别的特征,并利用自注意力模型的长距离依赖建模能力聚合笔画级别特征,且充分利用了草图关键点的时序信息,解决了草图图像的稀疏性问题,通过深度学习模型算法实现了抽象的草图识别。
1.一种基于多层级笔画序列特征提取的手绘草图识别方法,其特征在于,包含如下步骤:
2.根据权利要求1中所述的基于多层级笔画序列特征提取的手绘草图识别方法,其特征在于,所述步骤1中,采用绘图板对绘画者的绘制轨迹进行记录,通过记录绘图者在画板上的手绘草图的关键点坐标大批量得到草图笔画序列,并采用rdp算法对草图序列进行稀疏采样,距离阈值为2,并采用填充或截断的方式使序列长度固定为100,每个草图的保存形式为100*4的矩阵。
3.根据权利要求2中所述的基于多层级笔画序列特征提取的手绘草图识别方法,其特征在于,所述步骤1中,序列数据存储表示为{(xi,yi,si,ti),0<i<n},其中(xi,yi)是笔画的坐标信息,n是所有关键点的数量,si和ti代表绘制动作,若si=1,ti=0,则表示该绘制点与下一个点相连,即连续绘制操作;若si=0,ti=1,则表示该绘制点与下一个点不相连,即停止绘制。
4.根据权利要求1中所述的基于多层级笔画序列特征提取的手绘草图识别方法,其特征在于,所述步骤2中,将数据集采用10:1比例分别作为训练集和验证集进行划分,其中验证集仅作为监测模型训练进度,不参与模型训练参数的调整,采用4层的双向rnn网络bigru对草图关键点序列同时进行点级的特征提取,将其映射为高维的笔画语义特征,即100*512的二维张量。
5.根据权利要求4中所述的基于多层级笔画序列特征提取的手绘草图识别方法,其特征在于,所述步骤2中,优化器采用adam,学习率大小、权重衰减分别设置为1e-4、3e-4,每10轮学习率减少为原本的将笔画信息s={s1,s2,…,sn}输入一个4层的隐藏层维度为256的双向rnn网络编码为并加上一个维度为100*512可训练的位置编码矩阵tspos,对于每一个位置i的草图序列表示如公式1所示:
6.根据权利要求1中所述的基于多层级笔画序列特征提取的手绘草图识别方法,其特征在于,所述步骤3中,创建多层标准transformer encoder,将bigru编码后的深度草图点级别序列特征输入transformer,建立笔画之间的长距离依赖关系,以聚合全局草图笔画关系,其中输入维度与rnn网络输出的编码维度相同,transformer包含多头自注意力机制和前向线性层。
7.根据权利要求6中所述的基于多层级笔画序列特征提取的手绘草图识别方法,其特征在于,所述步骤3中,创建3层标准transformer encoder建立笔画之间的长距离依赖关系,其中输入维度与rnn网络输出的编码维度相同为512,每一层transformer包含8个多头自注意力机制和维度为1024的前向线性层,对于每一个位置的草图序列经过相同的线性变换得到三个维度为100*512的q,k,v特征矩阵,则自注意力的计算方法如公式2所示:
8.根据权利要求1中所述的基于多层级笔画序列特征提取的手绘草图识别方法,其特征在于,所述步骤4中,将transformer输出的二维张量基于序列长度进行全局平均池化,求得平均后的二维张量并输入全连接层和softmax函数对其进行最终的结果分类。
9.根据权利要求8中所述的基于多层级笔画序列特征提取的手绘草图识别方法,其特征在于,所述步骤4中,将transformer输出的100*512二维张量基于序列长度进行全局平均池化,求得平均后的维度为1*512的二维张量并输入全连接层,其中全连接层的维度与分类类别数保持一致,并使用softmax函数对输出进行归一化,使输出结果的和为1,每一类的输出范围为[0,1],表示最终的结果类别的概率。