一种解决行人属性识别训练数据样本分布不均衡的方法与流程

文档序号:33192440发布日期:2023-02-04 09:09阅读:52来源:国知局

1.本发明属于视频处理和图像智能分析技术领域,面向监控视频下的目标智能分析的应用场景,从行人属性识别和结构化的模型训练出发,提出了一种解决多属性数据集训练数据样本分布不均衡的方法,用以避免深度学习模型训练过程中可能产生的过拟合、欠拟合等常见问题,同时提高对目标多种属性识别的准确率。


背景技术:

2.目前对于监控视频图像的智能分析、人脸识别、行人属性识别基本采用了神经网络的方法。而在深度学习中,训练数据样本不均衡是常见问题。样本不均衡是指不同类别的数据量差别较大,利用不均衡样本训练出来的模型泛化能力差并且容易发生过拟合。
3.数据集样本不均衡的本质原因是模型在训练时优化的目标函数和人们在测试时使用的评价标准不一致。而对于行人属性识别来说,数据集需要对行人的年龄、性别、发型、穿着、附属物等一系列特征进行标注,难免会存在很多不常见的属性,例如绿色头发、紫色上衣、黄色高跟鞋等属性,同时由于季节变化,目标的属性的占比也会不尽相同,因此,数据集样本不均衡对于行人属性识别来说是需要重点解决的关键问题。
4.对于数据集样本不均衡的问题,常见方法主要对数据本身和算法两方面进行改进。数据解决该问题的思路就是重采样,最简单的处理不平衡的样本集算法是随机采样,一般分为过采样(over-sampling)和欠采样(under-sampling)。算法改进的方法则是通过改变模型训练中的目标函数(如代价函数敏感学习中不同类别有不同的权重)来矫正这种不平衡性。如果样本数目极其不平衡的时候,也可以把问题场景,转化为单类学习(one-class learning)、异常检测(anomaly detection)。然而,针对行人多属性识别的需求,上述两种方式不能有效地满足兼顾多属性识别的问题。


技术实现要素:

5.本发明的目的在于克服现存的行人属性训练数据样本分布不均衡的问题,提供解决行人属性识别训练数据样本分布不均衡的方法,该方法在行人属性识别的应用需求场景下,能够有效解决模型训练过程中数据样本分布不均衡的问题,提高训练模型的属性识别的准确率和泛化能力。
6.本发明的技术方案如下:
7.一种解决行人属性识别训练数据样本分布不均衡的方法,其特征在于,包括以下步骤:
8.(1)采集应用场景下的行人属性识别数据集,对数据集进行统一整理和标注,梳理数据集涉及的行人属性类别,并对各个类别的数据分布进行统计,将数据集按比例合理分为训练集、验证集和测试集;
9.(2)不采用任何加权方法对数据集进行训练,并观察数据集在验证集和测试集上的训练结果;
10.(3)在步骤(1)和步骤(2)获取训练模型的基础上,循环进行以下步骤,实现对数据分布的合理加权:
11.(31)采用因子分析、主成分分析、ahp层次法、优序图法、熵值法、critic权重法、独立性权重法、信息量权重法中的一种或几种,综合分析数据分布情况以及模型训练的验证结果;
12.(32)对效果较差的类采用focal losss损失函数进行类内的数据加权;
13.(33)对类间分布不均匀的情况采用wmmc方法进行类间数据的加权,同时最大化类均值间的平均距离,最小化类内样本与类中心的平均距离;
14.(34)基于梯度掩码的方法对行人属性数据集进行联合训练;
15.(4)通过步骤(3)对行人属性识别模型的循环迭代训练和优化,生成性能较好的行人属性识别模型;
16.(5)将步骤(4)得到的模型应用于至少3类实际场景,对识别结果和加权效果进行统计分析;
17.(6)对模型再进行小范围调优,生成完备的行人属性识别模型。
18.本发明具有以下有益效果:
19.(1)可以有效解决在行人属性识别多属性分类过程中遇到的数据样本不均衡的问题;
20.(2)可以有效提高模型的泛化能力,使得模型对于不同视频监控场景的适应性有所提高;
21.(3)可以有效提高模型对于行人不同属性识别的能力和准确率,减少因为数据分布的不均衡带来的误识别。
具体实施方式
22.针对行人属性识别的问题,本发明提出使用类内加权的方法进行缓解负样本过多的问题;使用类间加权的方法缓解不同类别之间分布不均衡的问题;采用梯度掩码层对梯度回传进行控制来将多个拥有不同标签空间的数据集进行联合训练。
23.对于同一类属性的正负样本来说,正样本的获取代价很大,通常是需要标定的,数量也是有限的,负样本则可以从无关图像中不断裁剪进行获取;另外,正样本如果被分错,代价也很大,而识别时少过滤掉一点误检影响可能不大。因此为了缓解负样本过多的问题,采用类内加权的方法,采用focal losss损失函数,进一步对比较难分类的样本加大损失权重,使模型对分错的样本更加重视,从而使得模型快速收敛,且获得更好的性能表现。
24.对于不同的属性,还存在属性的分布不均衡的问题,这也是行人属性识别特有的问题,此时可以采用wmmc方法,该方法引入加权函数,以样本在分类识别中的重要程度为原则,分别定义加权类内分布及类间分布,使得距离类中心较近的点在最佳投影方向所起的作用较大,距离类中心较远的点起的作用较小,从而降低距离类内中心较远的个别点对投影方向的影响;类间加权使得相距较近的类在取得最佳投影方向时所起的作用较大,相距较远的类起的作用较小,从而更容易区分投影后相距较近的类。
25.对于不同的样本来说,大多数对抗样本构造技术使用模型的梯度来进行攻击,而梯度掩码提供了一种防御策略,对梯度的隐藏会使得攻击者不知道是向哪个方向“助推”图
像,从而阻止攻击者访问一个有用的梯度,使得多个拥有不同标签空间的数据集可以进行联合训练。
26.基于上述思路,本发明的一种解决行人属性识别训练数据样本分布不均衡的方法,按照以下步骤实施:
27.步骤s1,采集应用场景下的行人属性识别数据集,对数据集进行统一整理和标注,梳理数据集涉及的行人属性类别,并对各个类别的数据分布进行统计,将数据集按比例合理分为训练集、验证集和测试集;
28.步骤s2,不采用任何加权方法对数据集进行训练,并观察数据集在验证集和测试集上的训练结果;
29.步骤s3,在步骤s1和步骤s2获取训练模型的基础上,循环进行以下步骤,实现对数据分布的合理加权:
30.步骤s31,采用因子分析、主成分分析、ahp层次法、优序图法、熵值法、critic权重法、独立性权重法、信息量权重法中的一种或几种,综合分析数据分布情况以及模型训练的验证结果;
31.步骤s32,对效果较差的类采用focal losss损失函数进行类内的数据加权;
32.步骤s33,对类间分布不均匀的情况采用wmmc方法进行类间数据的加权,同时最大化类均值间的平均距离,最小化类内样本与类中心的平均距离;
33.步骤s34,基于梯度掩码的方法对行人属性数据集进行联合训练。
34.步骤s4,通过步骤3对行人属性识别模型的循环迭代训练和优化,生成性能较好的行人属性识别模型;
35.步骤s5,将步骤4得到的模型应用于至少3类实际场景,对识别结果和加权效果进行统计分析;
36.步骤s6,对模型再进行小范围调优,生成完备的行人属性识别模型,并附模型相关的说明手册。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1