一种基于CLIP的零样本图像识别方法

文档序号：36388526发布日期：2023-12-15 04:01阅读：69来源：国知局

本发明涉及一种图像识别方法，具体涉及一种零样本图像识别方法。

背景技术：

1、图像分类是计算机视觉领域中的一项重要任务，其目标是将输入的图像分配到预定义的类别中。这个任务在许多领域都有广泛应用，包括医学图像分析、自动驾驶、安全监控和人脸识别等。

2、零样本学习是一种特殊的机器学习任务，旨在通过学习已知类别与未知类别之间的映射关系，实现对未见过的类别进行分类。与传统的监督学习不同，零样本学习允许模型在没有任何关于未知类别的训练样本的情况下进行分类。为了实现零样本学习，传统的方法通常依赖于来自已见类别和未见类别的手动注释的类属性。这些类属性是连接这些不相交的已见类别和未见类别集合的共享知识。类属性可以描述每个类别的特征，例如颜色、形状或功能。通过将这些类属性与图像特征进行关联，模型可以在遇到未见过的类别时进行推理和分类。类属性的使用也更接近人类的认知方式。人类能够利用他们对已见图像的先验知识以及已见和未见类别的描述信息来区分实例和未见类别。这种方法模仿了人类感知世界时利用先验知识和描述信息的方式。

3、零样本分类具有不需要已见所有类别图像的特性，因此在各个方面都有广泛的应用。例如，零样本图像分类可用于智能安防系统中，识别新出现的物体或事件，如未经训练的人脸、不寻常的行为或可疑物品，以提供更准确的安全监控和警报；还可用于识别新的植物和动物物种，即使没有对这些物种的图像进行训练，这在生态学研究、保护生物多样性和野生动物监测等领域具有重要意义；通过零样本图像分类，可以对新的食物类别进行识别和分类，从而帮助用户进行准确的营养评估和饮食管理等。这些应用示例突出了零样本图像分类在各个领域的实际应用，展示了其在解决实际问题和改善生活的潜力。

4、早期领先的零样本学习方法通常通过将类属性(语义向量)和所见类的全局图像表示相关联，来学习联合嵌入空间。然而，由于对细粒度类属性的挖掘不够理想，这些全局嵌入方法几乎总是无法充分定位判别区域特征。同时，最近的零样本学习方法验证了类别属性描述向量为有效协助模型获取判别区域特征，从而提升零样本学习结果并提供了新的线索。这些方法直接对齐局部区域特征和类属性描述向量，实现了对不同属性区域的粗定位。然而，由于未见类图像的不可获得性，粗糙区域定位的可转移性不足，往往导致未见类图像与见类图像的误分类。相比之下，强大的对比语言-图像预训练(clip)模型的出现利用类别名称来实现更一般的类似零样本的预测。由于使用了大量的图像-文本配对训练数据，通常clip在粗粒度的下游数据集上表现出显著的图像-文本对齐能力和泛化性能，但不能定位信息属性区域。

技术实现思路

1、发明目的：针对上述现有技术，提出一种基于clip的零样本图像识别方法，以提高预训练的clip模型到下游零样本学习框架的知识可转移性，以追求理想的特征表示。

2、技术方案：一种基于clip的零样本图像识别方法，包括：

3、s1：给定数据集，将其划分为已见类和未见类；

4、s2：利用resnet和clip视觉编码器分别对图像进行特征表示，同时利用clip文本编码器对类别名进行特征表示，并引入属性描述向量；

5、s3：将resnet局部视觉特征和clip局部视觉特征分别与属性描述向量进行视觉-语义交互注意力运算，得到基于属性提示注意力的特征向量，从而得到两个网络的局部类别预测向量；

6、s4：对两个网络模型的局部类别预测向量构造跨网络对齐损失lpal来限制跨网络特征对齐；对两个网络模型的局部类别预测向量分别采用交叉熵损失lcl和自校准损lcal进行监督训练；

7、s5：将clip视觉全局特征与类别名特征计算余弦相似度得到全局预测，与两个网络模型的最终局部预测融合，并引入偏差向量允许一部分的已见类预测迁移到未见类，得到最终预测得分。

8、有益效果：本发明通过对由语义引导的细粒度局部视觉特征定位，并且利用双网络的特征对齐，微调属性特征提示，从而获得优异的零样本知识迁移能力，得到更精确的零样本图像分类结果。在三个经典的图像分类数据集caltech-uscd birds-200-2011(cub)，sun和animals with attributes2(awa2)的传统零样本基准测试上分别达到84％，89.8％和97.4％的正确率，广义零样本基准测试上分别达到75.9％，68.4％和92.6％的h值(已见类与未见类正确率的调和平均数)，是目前结果最好的模型。证明本方法可以通过学习已见类图像的先验知识，并且利用双网络的特征对齐，微调属性特征提示从而精确的识别未见类图像。

技术特征：

1.一种基于clip的零样本图像识别方法，其特征在于，包括：

2.根据权利要求1所述的基于clip的零样本图像识别方法，其特征在于，所述s1中，给定数据集将其划分为已见类和未见类其中分别表示已见类和未见类的图像集合，yi对应图像xi的真实类别标签，表示类yi的类别属性概率分数向量，分别表示已见类和未见类的类别属性概率分数向量集合。

3.根据权利要求2所述的基于clip的零样本图像识别方法，其特征在于，所述s2中，利用resnet101卷积神经网络和clip视觉编码器vit 16/b分别提取得到图像特征xres、xclip，并且使用clip文本编码器transformer提取得到类别名特征c，并引入属性描述向量集合v＝{v1,v2,…,vk}，k表示属性描述向量的个数。

4.根据权利要求3所述的基于clip的零样本图像识别方法，其特征在于，所述s3包括：xres对应的特征向量将最后维度视为resnet局部视觉特征，xclip取分类头以外的其它头作为clip局部视觉特征，将resnet局部视觉特征和clip局部视觉特征分别与属性描述向量v进行视觉-语义交互注意力运算，两支路得到的注意力矩阵分别与对应的局部视觉特征相乘得到基于属性提示注意力的特征向量；然后通过将基于属性提示注意力的特征向量和映射后的属性描述向量点乘得到属性相关向量；再将属性相关向量与类别属性概率分数以及属性注意力权重相乘得到最终类别预测分数从而得到两个网络的局部类别预测向量pi,

5.根据权利要求4所述的基于clip的零样本图像识别方法，其特征在于，所述s4中，对两个网络的局部类别预测向量构建跨网络对齐损失：

6.根据权利要求5所述的基于clip的零样本图像识别方法，其特征在于，所述s5中，将s2得到的xclip特征截取分类头作为全局特征，与类别名特征c计算余弦相似度得到全局预测概率对三个概率向量进行加权相加得到最终预测得分：

技术总结
本发明公开了一种基于CLIP的零样本图像识别方法，通过对由语义引导的细粒度局部视觉特征定位，并且利用双网络的特征对齐，微调属性特征提示，从而获得优异的零样本知识迁移能力，得到更精确的零样本图像分类结果。在三个经典的图像分类数据集CUB，SUN和AWA2的传统零样本基准测试上分别达到84％，89.8％和97.4％的正确率，广义零样本基准测试上分别达到75.9％，68.4％和92.6％的H值，是目前结果最好的模型。证明本方法可以通过学习已见类图像的先验知识，并且利用双网络的特征对齐，微调属性特征提示从而精确的识别未见类图像。

技术研发人员：谢国森,李浚逸,舒祥波
受保护的技术使用者：南京理工大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢国森李浚逸舒祥波
技术所有人：南京理工大学
我是此专利的发明人

上一篇：一种电动三轮车车架焊装设备的制作方法
上一篇：一种高效节能蒸汽机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。