图像分类方法、图像分类模型的训练方法以及电子设备与流程

文档序号:31740438发布日期:2022-10-05 05:01阅读:186来源:国知局
图像分类方法、图像分类模型的训练方法以及电子设备与流程

1.本公开涉及计算机技术领域,特别涉及一种图像分类方法、图像分类模型的训练方法以及电子设备。


背景技术:

2.随着计算机视觉领域的不断发展,并受自然语言处理的模型结构设计的启发,许多视觉任务使用自注意力机制等结构来探索、优化。例如,在图像分类任务中使用具有自注意力机制的模型对图像进行特征提取。
3.发明人已知的,目前的图像分类任务中,首先将图像分块划分为相互不重叠的视觉图像块,且将各个图像块的嵌入序列作为具有自注意力机制的图像分类模型输入;其次,利用自注意力机制构建图像块与图像块之间的注意力较高的区域,用来进行图像特征提取。


技术实现要素:

4.发明人发现:现有方案中针对每个图像块都基于自注意力机制计算了与所有图像块之间的关联关系,形成了冗余的注意力计算代价,使得提取的图像特征包含冗余信息,从而降低了图像分类的准确率。
5.本公开所要解决的一个技术问题是:如何提高图像分类的准确率。
6.根据本公开的一些实施例,提供的一种图像分类方法,包括:将图像划分为多个图像块,输入图像分类模型;基于图像分类模型中自注意力机制确定各个图像块之间的关联程度值;根据各个图像块之间的关联程度值,从多个图像块中确定各个图像块对应的冗余图像块;更新各个图像块之间的关联程度值,并根据更新后的各个图像块之间的关联程度值对图像进行编码,其中,针对各个图像块,将该图像块对应的冗余图像块对于该图像块产生的关联程度值降低为预设值;根据图像的编码,确定图像的类型。
7.在一些实施例中,图像分类模型包括多个自注意力层,各个图像块之间的关联程度值包括每个自注意力层中各个图像块之间的关联程度值,根据各个图像块之间的关联程度值,从多个图像块中确定各个图像块对应的冗余图像块包括:针对每个自注意力层,将该自注意力层中所有自注意力头对应的各个图像块之间的关联程度值组成第一关联张量;根据各个自注意力层对应的第一关联张量的离散程度,确定第一不确定性张量;根据第一不确定性张量,确定各个图像块对应的冗余图像块。
8.在一些实施例中,每个自注意力层包括多个自注意力头,每个自注意力层中各个图像块之间的关联程度值包括该自注意力层中每个自注意力头对应的各个图像块之间的关联程度值,根据第一不确定性张量,确定各个图像块对应的冗余图像块包括:从第一不确定性张量分别提取每个自注意力头对应的各个图像块之间的关联程度的不确定性值,得到每个自注意力头对应的第二不确定性张量;根据各个第二不确定性张量的离散程度,确定第一影响程度张量,其中,第一影响程度张量包括各个图像块编码时相互之间的影响程度
值;根据第一影响程度张量,确定各个图像块对应的冗余图像块。
9.在一些实施例中,根据第一影响程度张量,确定各个图像块对应的冗余图像块包括以下至少一项:针对每个图像块,从第一影响程度张量中根据各个图像块对该图像块的编码的影响程度值,选取该图像块对应的冗余图像块;针对每个图像块,从第一影响程度张量中根据该图像块对各个图像块的编码的影响程度值的离散程度,确定该图像块是否为各个图像块对应的冗余图像块。
10.在一些实施例中,根据各个自注意力层对应的第一关联张量的离散程度,确定第一不确定性张量包括:根据各个自注意力层对应的第一关联张量,确定第一平均关联张量;将各个自注意力层对应的第一关联张量与第一平均关联张量的差进行平方后加和,再将加和结果除以自注意力层的层数,作为第一不确定性张量。
11.在一些实施例中,根据各个第二不确定性张量的离散程度,确定第一影响程度张量包括:根据各个第二不确定性张量,确定平均不确定性张量;将各个第二不确定性张量与平均不确定性张量的差进行平方后加和,再将加和结果除以自注意力头的个数,作为第一影响程度张量。
12.在一些实施例中,第一影响程度张量中的各行元素分别对应一个图像块,针对每个图像块,从第一影响程度张量中根据各个图像块对该图像块的编码的影响程度值,选取该图像块对应的冗余图像块包括:针对第一影响程度张量中的每一行元素,将该行元素按照由大到小进行排序;按照排序顺序选取第一预设数量的元素,并确定选取的元素对应的图像块作为有效图像块;将有效图像块之外的其他图像块,作为该行元素对应的图像块对应的冗余图像块。
13.在一些实施例中,第一影响程度张量中的各行元素分别对应一个图像块,针对每个图像块,从第一影响程度张量中根据各个图像块对该图像块的编码的影响程度值,选取该图像块对应的冗余图像块包括:针对第一影响程度张量中的每一行元素,将该行元素按照由大到小进行排序;按照排序顺序选取第一预设数量的元素,并确定选取的元素对应的图像块;以该行元素对应的图像块为中心,确定包含选取的元素对应的图像块的最小矩形区域;将最小矩形区域中的图像块之外的其他图像块,作为该行元素对应的图像块对应的冗余图像块。
14.在一些实施例中,第一影响程度张量中的各列元素分别对应一个图像块,针对每个图像块,从第一影响程度张量中根据该图像块对各个图像块的编码的影响程度值的离散程度,确定该图像块是否为各个图像块对应的冗余图像块包括:针对第一影响程度张量中的每一列元素,确定该列元素的方差,作为该列元素对应的图像块对各个图像块的编码的影响程度值的离散程度;将各列元素的方差按照由小到大进行排序,按照排序顺序选取第二预设数量的方差,并确定选取的方差对应的图像块,作为各个图像块对应的冗余图像块。
15.在一些实施例中,图像分类模型包括多个自注意力层,每个自注意力层包括多个自注意力头,更新各个图像块之间的关联程度值包括以下至少一项:生成二值矩阵,在每个自注意力头中将各个图像块之间的关联程度值组成的第一关联矩阵与二值矩阵相乘,得到更新后的矩阵,其中,针对每个图像块,二值矩阵的设置使得更新后的矩阵中针对各个图像块,将该图像块对应的冗余图像块对于该图像块产生的关联程度值降低为预设值;针对每个图像块,在该图像块为对各个图像块的编码产生冗余信息的冗余图像块的情况下,将该
图像块在图像分类模型的输入张量中的元素设为预设元素,以使该图像块对于其他图像块产生的关联程度值降低为预设值。
16.在一些实施例中,图像分类模型包括多个自注意力层,每个自注意力层包括多个自注意力头,基于图像分类模型中的自注意力机制确定各个图像块之间的关联程度值包括:在每个自注意力头中,根据输入该自注意力头的图像的特征矩阵确定查询矩阵和键矩阵;将查询矩阵与键矩阵相乘后除以键矩阵列数的平方根,得到注意力分数矩阵;将注意力分数矩阵进行归一化,得到各个图像块之间的关联程度值组成的第一关联矩阵。
17.在一些实施例中,图像分类模型包括多个编码层,每个编码层包括一个自注意力层,每个自注意力层包括多个自注意力头,根据更新后的各个图像块之间的关联程度值对图像进行编码包括:在每个编码层中,将前一层输入的图像的特征矩阵输入自注意力层的各个自注意力头中;在每个自注意力头中,根据输入该自注意力头的图像的特征矩阵确定值矩阵;将该自注意力头对应更新后的矩阵与值矩阵相乘,得到该自注意力头对应的注意力编码矩阵,其中,更新后的矩阵是由更新后的各个图像块之间的关联程度值组成的;在该编码层中,根据各个自注意力头对应的注意力编码矩阵,确定该编码层输出图像的特征矩阵;将最后一个编码层输出的图像的特征矩阵作为图像的编码矩阵。
18.根据本公开的另一些实施例,提供的一种图像分类模型的训练方法,包括:将样本图像划分为多个样本图像块,输入图像分类模型进行预训练;在预训练完成时,基于自注意力机制确定各个样本图像块之间的关联程度值;根据各个样本图像块之间的关联程度值,从多个样本图像块中确定各个样本图像块对应的冗余样本图像块;利用样本图像重新对预训练的图像分类模型进行训练,在训练过程中,更新各个样本图像块之间的关联程度值,并根据更新后的各个样本图像块之间的关联程度值对样本图像进行编码,其中,针对各个样本图像块,将该样本图像块对应的冗余样本图像块对于该样本图像块产生的关联程度值降低为预设值,根据样本图像的编码,输出样本图像的类型,根据输出的样本图像的类型和标注的类型,对图像分类模型的参数进行调整。
19.在一些实施例中,图像分类模型包括多个自注意力层,各个样本图像块之间的关联程度值包括每个自注意力层中各个样本图像块之间的关联程度值,根据各个样本图像块之间的关联程度值,从多个样本图像块中确定各个样本图像块对应的冗余样本图像块包括:针对每个自注意力层,将该自注意力层中所有自注意力头对应的各个样本图像块之间的关联程度值组成第二关联张量;根据各个自注意力层对应的第二关联张量的离散程度,确定第三不确定性张量;根据第三不确定性张量,确定各个样本图像块对应的冗余样本图像块。
20.在一些实施例中,每个自注意力层包括多个自注意力头,每个自注意力层中各个样本图像块之间的关联程度值包括该自注意力层中每个自注意力头对应的各个样本图像块之间的关联程度值,根据第三不确定性张量,确定各个样本图像块对应的冗余样本图像块包括:从第三不确定性张量分别提取每个自注意力头对应的各个样本图像块之间的关联程度的不确定性值,得到每个自注意力头对应的第四不确定性张量;根据各个第四不确定性张量的离散程度,确定第二影响程度张量,其中,第二影响程度张量包括各个样本图像块编码时相互之间的影响程度值;根据第二影响程度张量,确定各个样本图像块对应的冗余样本图像块。
21.在一些实施例中,根据第二影响程度张量,确定各个样本图像块对应的冗余样本图像块包括以下至少一项:针对每个样本图像块,从第二影响程度张量中根据各个样本图像块对该样本图像块的编码的影响程度值,选取该样本图像块对应的冗余样本图像块;针对每个样本图像块,从第二影响程度张量中根据该样本图像块对各个样本图像块的编码的影响程度值的离散程度,确定该样本图像块是否为各个样本图像块对应的冗余样本图像块。
22.在一些实施例中,第二影响程度张量中的各行元素分别对应一个样本图像块,针对每个样本图像块,从第二影响程度张量中根据各个样本图像块对该样本图像块的编码的影响程度值,选取该样本图像块对应的冗余样本图像块包括:针对第二影响程度张量中的每一行元素,将该行元素按照由大到小进行排序;按照排序顺序选取第三预设数量的元素;确定选取的元素对应的样本图像块作为有效样本图像块,或者,以该行元素对应的样本图像块为中心,确定包含选取的元素对应的样本图像块的最小矩形区域,以最小矩形区域中的样本图像块作为有效样本图像块;将有效样本图像块之外的其他样本图像块,作为该行元素对应的样本图像块对应的冗余样本图像块。
23.在一些实施例中,第二影响程度张量中的各列元素分别对应一个样本图像块,针对每个样本图像块,从第二影响程度张量中根据该样本图像块对各个样本图像块的编码的影响程度值的离散程度,确定该样本图像块是否为各个样本图像块对应的冗余图样本像块包括:针对第二影响程度张量中的每一列元素,确定该列元素的方差,作为该列元素对应的样本图像块对各个样本图像块的编码的影响程度值的离散程度;将各列元素的方差按照由小到大进行排序,按照排序顺序选取第四预设数量的方差,并确定选取的方差对应的样本图像块,作为各个样本图像块对应的冗余样本图像块。
24.在一些实施例中,图像分类模型包括多个自注意力层,每个自注意力层包括多个自注意力头,更新各个样本图像块之间的关联程度值包括以下至少一项:生成二值矩阵,在每个自注意力头中将各个样本图像块之间的关联程度值组成的第二关联矩阵与二值矩阵相乘,得到更新后的矩阵,其中,针对每个样本图像块,二值矩阵的设置使得更新后的矩阵中针对各个样本图像块,将该样本图像块对应的冗余样本图像块对于该样本图像块产生的关联程度值降低为预设值;针对每个样本图像块,在该样本图像块为对各个样本图像块的编码产生冗余信息的冗余样本图像块的情况下,将该样本图像块在图像分类模型的输入张量中的元素设为预设元素,以使该样本图像块对于其他样本图像块产生的关联程度值降低为预设值。
25.根据本公开的又一些实施例,提供的一种图像分类装置,包括:输入模块,用于将图像划分为多个图像块,输入图像分类模型;关联程度值确定模块,用于基于图像分类模型中自注意力机制确定各个图像块之间的关联程度值;冗余图像块确定模块,用于根据各个图像块之间的关联程度值,从多个图像块中确定各个图像块对应的冗余图像块;编码模块,用于更新各个图像块之间的关联程度值,并根据更新后的各个图像块之间的关联程度值对图像进行编码,其中,针对各个图像块,将该图像块对应的冗余图像块对于该图像块产生的关联程度值降低为预设值;分类模块,用于根据图像的编码,确定图像的类型。
26.根据本公开的再一些实施例,提供的一种图像分类模型的训练装置,包括:输入模块,用于将样本图像划分为多个样本图像块,输入图像分类模型进行预训练;关联程度值确
定模块,用于在预训练完成时,基于自注意力机制确定各个样本图像块之间的关联程度值;冗余图像块确定模块,用于根据各个样本图像块之间的关联程度值,从多个样本图像块中确定各个样本图像块对应的冗余样本图像块;重训练模块,用于利用样本图像重新对预训练的图像分类模型进行训练,在训练过程中,更新各个样本图像块之间的关联程度值,并根据更新后的各个样本图像块之间的关联程度值对样本图像进行编码,其中,针对各个样本图像块,将该样本图像块对应的冗余样本图像块对于该样本图像块产生的关联程度值降低为预设值,根据样本图像的编码,输出样本图像的类型,根据输出的样本图像的类型和标注的类型,对图像分类模型的参数进行调整。
27.根据本公开的又一些实施例,提供的一种电子设备,包括:处理器;以及耦接至处理器的存储器,用于存储指令,指令被处理器执行时,使处理器执行如前述任意实施例的图像分类方法或者前述任意实施例的图像分类模型的训练方法。
28.根据本公开的再一些实施例,提供的一种非瞬时性计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意实施例的图像分类方法或者前述任意实施例的图像分类模型的训练方法。
29.本公开中将图像划分为多个图像块,输入图像分类模型,在图像分类模型中基于自注意力机制确定各个图像块之间的关联程度值,并根据各个图像块之间的关联程度值,从多个图像块中确定各个图像块对应的冗余图像块。这些冗余图像块即为对图像块的编码产生冗余信息的图像块。进一步,将这些冗余图像块与相对应的图像块之间的关联程度值降低为预设值,根据更新后的各个图像块之间的关联程度值对图像进行编码,从而基于图像的编码确定图像的类型。将冗余图像块与相对应的图像块之间的关联程度值降低,可以在图像块编码的过程中减少冗余信息的加入,更加注重有效图像块之间的自注意力机制的计算,从而提高图像特征提取的准确性,提高图像分类的准确率,提升模型的感知能力。
30.通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
31.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
32.图1示出本公开的一些实施例的图像分类方法的流程示意图。
33.图2示出本公开的一些实施例的图像分类模型的结构示意图。
34.图3示出本公开的一些实施例的图像分类模型的训练方法的流程示意图。
35.图4示出本公开的一些实施例的图像分类装置的结构示意图。
36.图5示出本公开的一些实施例的图像分类模型的训练装置的结构示意图。
37.图6示出本公开的一些实施例的电子设备的结构示意图。
38.图7示出本公开的另一些实施例的电子设备的结构示意图。
具体实施方式
39.下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
40.本公开提出一种图像分类方法,下面结合图1~2进行描述。
41.图1为本公开图像分类方法一些实施例的流程图。如图1所示,该实施例的方法包括:步骤s102~s110。
42.在步骤s102中,将图像划分为多个图像块,输入图像分类模型。
43.可以将图像划分为多个尺寸相同的图像块(patch)。如图2所示,图像分类模型可以包括:一个输入层,一个或多个编码层,一个分类层和一个输出层。其中,每个编码层可以包括一个自注意力层,每个自注意力层可以包括一个或多个注意力头。每个编码层还可以包括:前馈神经网络(feed forward network)或多层感知器(mlp)等。图像分类模型可以采用现有的模型,例如,vision transformer(视觉转换器,vit),不限于所举示例。
44.在输入层中,生成各个图像块的嵌入特征(embedding)和位置编码,根据各个图像块的嵌入特征和位置编码生成图像的表示矩阵,输入编码层。
45.在步骤s104中,基于图像分类模型中自注意力机制确定各个图像块之间的关联程度值。
46.在一些实施例中,图像分类模型包括多个自注意力层,每个自注意力层包括多个自注意力头,在每个自注意力头中,根据输入该自注意力头的图像的特征矩阵确定查询矩阵和键矩阵;将查询矩阵与键矩阵相乘后除以键矩阵列数的平方根,得到注意力分数矩阵;将注意力分数矩阵进行归一化,得到各个图像块之间的关联程度值组成的第一关联矩阵。
47.对于第一个编码层将输入层输出的图像的表示矩阵作为输入,针对后续的每个编码层,将前一个编码层输出的图像的特征矩阵(或编码矩阵)作为输入。例如,针对第i个编码层,将输入的图像的特征矩阵表示为xi,第i个编码层中第j个自注意力头的参数矩阵表示为示为将xi分别与相乘得到查询矩阵q
i,j
、键矩阵k
i,j
、值矩阵v
i,j
。第i个编码层中第j个自注意力头的第一关联矩阵可以采用以下公式表示。
[0048][0049]
公式(1)中,d为键矩阵列数,也可以设置为其他值,不限于所举示例。softmax()为归一化函数。假设将图像划分为n个图像块,则a
i,j
包含n
×
n个元素,每个元素表示图像块之间的关联程度值,也可以称为自注意力权重值。例如,第1行第2列的元素表示图像块2对于图像块1产生的关联程度值,即图像块2对于图像块1的编码的贡献程度,也可以称为图像块2对于图像块1的自注意力权重。
[0050]
在步骤s106中,根据各个图像块之间的关联程度值,从多个图像块中确定各个图像块对应的冗余图像块。
[0051]
图像块的交互是基于自注意力机制的图像分类模型在视觉领域中应用的较为关
键的部分。自注意力机制把图像信息映射为query(查询矩阵),key(键矩阵)和value(值矩阵),用来寻找输入的数据的内在关联性,并结合多头结构的机制进一步完善了自注意力层,即多个自注意力机制,以扩展模型专注于不同位置的能力。可以分析输入的图像块内在关联性的可靠程度,即每个图像块与所有图像块之间的交互关系。
[0052]
在通过对图像块之间的交互关系的分析量化后,可以进一步确定每个图像块对应的冗余图像块。具体来说,通过基于不确定性估计的图像块交互关系的分析后,可以利用分析的数据作为不同图像块之间关系的量化。由此,对于图像块之间的交互具备了可解释性的能力,对于探究图像分类网络在自注意力模块计算中图像块之间的交互关系提供了新的关系构建方式。
[0053]
目前,基于自注意力机制的图像分类模型(例如,vit)的架构通过利用所有图像块之间的完全自我注意机制来学习全局上下文信息,忽视了图像块交互的可靠性(有效性)。本公开的方案通过分析不同层次和多头的自注意力权重的差异程度,从结构和特征两方面对图像块交互进行可靠性分析,有助于更好地理解图像块之间的相互作用和关联关系,进而指导图像分类模型的注意机制设计。
[0054]
如图2所示,本公开设计了一个不确定性感知模型来衡量图像块交互的有效性。由于在多层多头自注意力的计算中,图像块是通过与全部图像块进行信息传播,即一个图像块可以密集地从与其高度相关的其他图像块进行交互计算,从而表征自注意力。然而,这样全局冗余计算导致了不稳定的注意力分数和高不确定性的关联图像块交互。因此,通过不确定性感知模型可以将这些导致不稳定的注意力分数和高不确定性的关联图像块交互的冗余图像块筛选出来。
[0055]
在一些实施例中,针对每个自注意力层,将该自注意力层中所有自注意力头对应的各个图像块之间的关联程度值组成第一关联张量;根据各个自注意力层对应的第一关联张量的离散程度,确定第一不确定性张量;根据第一不确定性张量,确定各个图像块对应的冗余图像块。第一不确定性张量可以看作是描述图像块之间交互不确定性的评分。
[0056]
进一步,在一些实施例中,根据各个自注意力层对应的第一关联张量,确定第一平均关联张量;将各个自注意力层对应的第一关联张量与第一平均关联张量的差进行平方后加和,再将加和结果除以自注意力层的层数,作为第一不确定性张量。
[0057]
例如,第i个编码层中第j个自注意力头的第一关联矩阵表示为a
i,j
,第i个自注意力层的第一关联张量表示为k为自注意力头的个数。第一不确定性张量采用以下公式表示。
[0058][0059]
公式(2)中,l表示自注意力层的层数,为第一平均关联张量。
[0060]
需要说明的是,在每个自注意力层只有一个自注意力头的情况下,u为n
×
n的矩阵,描述了图像块之间关联关系(交互)的不确定性。u的第n行表示对于第n个图像块,各个图像块对该图像块的编码的贡献程度的不确定性。对于第n个图像块,图像块m对它的编码的贡献程度的不确定性越高,表示图像块m在第n个图像块编码时注入的信息的参考价值越高,图像块m是冗余图像块的概率越低。因此,例如,针对u的每一行元素,将该行元素按照由
小到大进行排序;按照排序顺序选取第三预设数量的元素,并确定选取的元素对应的图像块,作为该行元素对应的图像块对应的冗余图像块,或者,针对u的每一行元素,将该行元素按照由大到小进行排序;按照排序顺序选取第四预设数量的元素,并确定选取的元素对应的图像块,作为该行元素对应的图像块对应的有效图像块,确定包含有效图像块的最小矩形区域(交互区域);将最小矩形区域中的图像块之外的其他图像块,作为该行元素对应的图像块对应的冗余图像块。
[0061]
u中第n列表示第n个图像块对于各个图像块的编码的贡献程度的不确定性。这些不确定性的离散程度越低,表示第n个图像对于图像块编码时注入的信息的差别化越小,这种无差别的注入导致第n个图像块是冗余图像块的概率越高。因此,例如,针对u中的每一列元素,确定该列元素的方差,将各列元素的方差按照由小到大进行排序,按照排序顺序选取第五预设数量的方差,并确定选取的方差对应的图像块,作为各个图像块对应的冗余图像块。
[0062]
在每个自注意力层包括多个自注意力头的情况下,可以进一步对各个自注意力头的差异进行分析。在一些实施例中,从第一不确定性张量分别提取每个自注意力头对应的各个图像块之间的关联程度的不确定性值,得到每个自注意力头对应的第二不确定性张量;根据各个第二不确定性张量的离散程度,确定第一影响程度张量,其中,第一影响程度张量包括各个图像块编码时相互之间的影响程度值;根据第一影响程度张量,确定各个图像块对应的冗余图像块。
[0063]
进一步,在一些实施例中,根据各个第二不确定性张量,确定平均不确定性张量;将各个第二不确定性张量与平均不确定性张量的差进行平方后加和,再将加和结果除以自注意力头的个数,作为第一影响程度张量。
[0064]
在每个自注意力层包括k个自注意力头的情况下,从中提取每个自注意力头对应的第二不确定性张量,例如,第j个自注意力头对应的第二不确定性张量表示为uj,uj为n
×
n的矩阵(张量)。第一影响程度张量可以采用以下公式表示。
[0065][0066]
公式(3)中,表示平均不确定性张量。
[0067]
需要说明的是,在只有一个自注意力层,包括多个自注意力头的情况下,公式(2)不需要进行计算,uj变形为第j个自注意力头对应各个图像块之间的关联程度值组成的第一关联矩阵,为n
×
n的矩阵。根据u确定冗余图像块的方法可以参考前述实施例中,每个自注意力层只有一个自注意力头的情况下,根据u确定冗余图像块的方法。
[0068]
在一些实施例中,根据第一影响程度张量,确定对各个图像块的编码产生冗余信息的冗余图像块包括以下至少一项:针对每个图像块,从第一影响程度张量中根据各个图像块对该图像块的编码的影响程度值,选取该图像块对应的冗余图像块;针对每个图像块,从第一影响程度张量中根据该图像块对各个图像块的编码的影响程度值的离散程度,确定该图像块是否为各个图像块对应的冗余图像块。
[0069]
u的第n行表示对于第n个图像块,各个图像块对该图像块的编码的影响程度值。对于第n个图像块,图像块m对它的编码的影响程度值越低,表示图像块m在第n个图像块编码时注入的信息的参考价值越低,图像块m是冗余图像块的概率越高。因此,在一些实施例中,
针对第一影响程度张量中的每一行元素,将该行元素按照由大到小进行排序;按照排序顺序选取第一预设数量的元素,并确定选取的元素对应的图像块作为有效图像块;将有效图像块之外的其他图像块,作为该行元素对应的图像块对应的冗余图像块。
[0070]
在另一些实施例中,为了便于图像的处理,为每个图像块划分交互区域,针对第一影响程度张量中的每一行元素,将该行元素按照由大到小进行排序;按照排序顺序选取第一预设数量的元素,并确定选取的元素对应的图像块;以该行元素对应的图像块为中心,确定包含选取的元素对应的图像块的最小矩形区域(交互区域);将最小矩形区域中的图像块之外的其他图像块,作为该行元素对应的图像块对应的冗余图像块。交互区域内的图像块是对该行元素对应的图像块有着重要影响的图像块。
[0071]
例如,针对一个图像块根据该图像块以及有效图像块的二维坐标,计算该图像块为中心坐标轴四个方向的极值,从而形成交互区域。
[0072]
上述实施例的方法,通过基于不确定性估计的图像块之间交互的关系量化,可以能够找到当前图像块交互关系较为可靠的其他图像块形成交互区域。
[0073]
u中第n列表示第n个图像块对于各个图像块的编码的影响程度值。这些影响程度值的离散程度越低,表示第n个图像对于图像块编码时注入的信息的差别化越小,这种无差别的注入导致第n个图像块是冗余图像块的概率越高。因此,在一些实施例中,针对第一影响程度张量中的每一列元素,确定该列元素的方差,作为该列元素对应的图像块对各个图像块的编码的影响程度值的离散程度;将各列元素的方差按照由小到大进行排序,按照排序顺序选取第二预设数量的方差,并确定选取的方差对应的图像块,作为各个图像块对应的冗余图像块。
[0074]
上述实施例中基于量化结果,挖掘图像块交互过程中不具判别性的交互关系,具体地,通过不确定性感知模型发现u中存在一些高值恒定的图像块,这些图像块通常对其他任何图像块无差别地注入大量的信息,这类信息对于图像的特征表征不具备代表性,可以被认为是对图像的特征提取产生的有偏估计(bias),这些图像块属于不具判别性的图像块,即冗余图像块。
[0075]
上述两种确定冗余图像块的实施例,即图像块交互区域的划分和不具判别性的图像块的挖掘,可以单独应用也可以结合应用。
[0076]
在步骤s108中,更新各个图像块之间的关联程度值,并根据更新后的各个图像块之间的关联程度值对图像进行编码,其中,针对各个图像块,将该图像块对应的冗余图像块对于该图像块产生的关联程度值降低为预设值。
[0077]
预设值可以设置为很低的值以减少对图像编码的影响,例如,将预设值设置为0。可以直接将对每个自注意力层对应的第一关联张量中的关联程度值进行修改。但是由于图像分类模型可以包含多个编码层,前一个编码层(自注意力层)输出的结果会对后一个编码层(自注意力层)的编码产生影响,因此,可以将各个图像块重新输入图像分类模型,或者将输入层输出的图像的表示矩阵重新由第一个编码层输入,在各个编码层对各个图像块之间的关联程度值进行更新。
[0078]
前述实施例中描述了两种确定冗余图像块的实施例,即图像块交互区域的划分和不具判别性的图像块的挖掘,针对这两种不同的实施例,可以采用不同的方法更新各个图像块之间的关联程度值。
[0079]
例如,针对图像块交互区域的划分对应的实施例,生成二值矩阵,在每个自注意力头中将各个图像块之间的关联程度值组成的第一关联矩阵与二值矩阵相乘,得到更新后的矩阵,其中,针对每个图像块,二值矩阵的设置使得更新后的矩阵中针对各个图像块,将该图像块对应的冗余图像块对于该图像块产生的关联程度值降低为预设值。
[0080]
输入层输出的图像的表示矩阵重新由第一个编码层输入,每个自注意力头的第一关联矩阵还是采用公式(1)的方法确定,例如,第i个编码层中第j个自注意力头的第一关联矩阵表示为a
i,j
,二值矩阵表示为w。例如,二值矩阵中,针对不属于冗余图像块的各个图像块之间的关联程度值对应相乘位置的元素设置为1,其他位置的元素设置为0,或者某一固定值,使得更新后的矩阵中针对各个图像块,将该图像块对应的冗余图像块对于该图像块产生的关联程度值降低为预设值。也可以将q
i,j
·ki,jt
与w相乘,产生的效果是相同的。
[0081]
针对不具判别性的图像块的挖掘的实施例,由于这些冗余图像块属于对所有图像块都产生冗余信息的图像块,因此,可以在重新将各个图像块输入图像分类模型时,从输入层就对这些冗余图像块进行处理,从而使得后续各个自注意力层中各个自注意力头对应的第一关联矩阵得到更新。
[0082]
例如,针对每个图像块,在该图像块为对各个图像块的编码产生冗余信息的冗余图像块的情况下,将该图像块在图像分类模型的输入张量中的元素设为预设元素,以使该图像块对于其他图像块产生的关联程度值降低为预设值。例如,将该图像块在图像分类模型的输入张量中的元素设为0。
[0083]
在一些实施例中,在每个编码层中,将前一层输入的图像的特征矩阵输入自注意力层的各个自注意力头中;在每个自注意力头中,根据输入该自注意力头的图像的特征矩阵确定值矩阵;将该自注意力头对应更新后的矩阵与值矩阵相乘,得到该自注意力头对应的注意力编码矩阵,其中,更新后的矩阵是由更新后的各个图像块之间的关联程度值组成的;在该编码层中,根据各个自注意力头对应的注意力编码矩阵,确定该编码层输出图像的特征矩阵;将最后一个编码层输出的图像的特征矩阵作为图像的编码矩阵。
[0084]
例如,在每个编码层,将各个自注意力头对应的注意力编码矩阵进行拼接,与该编码层对应的参数矩阵相乘,再输入前馈神经网络或mlp,得到该编码层输出的特征矩阵,进一步输入下一个编码层。
[0085]
在步骤s110中,根据图像的编码,确定图像的类型。
[0086]
例如,将图像的编码矩阵输入分类层,得到输出的图像的类型。
[0087]
如图2所示,在基于前述两种实施例确定了两类冗余图像块的情况下,不确定性感知模型将确定的冗余图像块的结果返回到输入层,重新将各个图像块输入图像分类模型,并将交互区域的划分的结果返回到各个自注意力层,例如将二值矩阵返回到自注意力层,从而实现对图像的分类。
[0088]
上述实施例中将图像划分为多个图像块,输入图像分类模型,在图像分类模型中基于自注意力机制确定各个图像块之间的关联程度值,并根据各个图像块之间的关联程度值,从多个图像块中确定各个图像块对应的冗余图像块。这些冗余图像块即为对图像块的编码产生冗余信息的图像块。进一步,将这些冗余图像块与相对应的图像块之间的关联程度值降低为预设值,根据更新后的各个图像块之间的关联程度值对图像进行编码,从而基于图像的编码确定图像的类型。将冗余图像块与相对应的图像块之间的关联程度值降低,
可以在图像块编码的过程中减少冗余信息的加入,更加注重有效图像块之间的自注意力机制的计算,从而提高图像特征提取的准确性,提高图像分类的准确率,提升模型的感知能力。
[0089]
上述实施例中,探索基于自注意力机制的图像分类模型的可解释性,为了提升模型的可解释性,首先对图像块交互过程中引入不确定性分析,对当前图像块与其他的图像块之间的交互关系进行量化,该量化指标直接反映了不同图像块之间的自注意力运算对模型最终结果的影响程度。
[0090]
基于量化分析结果,反过来指图像分类的设计,具体地,基于上述量化分析结果,按照不同图像块之间的自注意力运算的重要性,把当前图像块对应的重要程度较高的所有图像块进行划分,划分当前图像块的交互区域,进一步约束图像块的交互范围,减少冗余的计算。并且挖掘出不具有判别性的图像块,将不具有判别性的图像块产生的冗余信息尽可能降低,这两项技术极大的减少了自注意力运算过程中冗余信息对图像编码的影响,从而大幅提升图像分类模型的性能,具有很大的实际应用潜力。
[0091]
本公开还提出一种图像分类模型的训练方法,下面结合图3进行描述。
[0092]
图3为本公开图像分类模型的训练方法的一些实施例的流程图。如图3所示,该实施例的方法包括:步骤s302~s308。
[0093]
在步骤s302中,将样本图像划分为多个样本图像块,输入图像分类模型进行预训练。
[0094]
训练样本包括多个样本图像,图像分类模型可以利用训练样本进行预训练。图像分类模型的结构,输入层的处理可以参考步骤s102的相关实施例。
[0095]
在步骤s304中,在预训练完成时,基于自注意力机制确定各个样本图像块之间的关联程度值。
[0096]
预训练完成时,图像分类模型各个部分的参数确定,此时基于自注意力机制确定各个样本图像块之间的关联程度值。在一些实施例中,图像分类模型包括多个自注意力层,每个自注意力层包括多个自注意力头,在每个自注意力头中,根据输入该自注意力头的样本图像的特征矩阵确定样本图像的查询矩阵和键矩阵;将样本图像的查询矩阵与键矩阵相乘后除以键矩阵列数的平方根,得到样本图像的注意力分数矩阵;将样本图像的注意力分数矩阵进行归一化,得到各个样本图像块之间的关联程度值组成的第二关联矩阵。
[0097]
第二关联矩阵的确定方法可以参考步骤s104的相关实施例和公式(1),不再赘述。
[0098]
在步骤s306中,根据各个样本图像块之间的关联程度值,从多个样本图像块中确定各个样本图像块对应的冗余样本图像块。
[0099]
在一些实施例中,各个样本图像块之间的关联程度值包括每个自注意力层中各个样本图像块之间的关联程度值,针对每个自注意力层,将该自注意力层中所有自注意力头对应的各个样本图像块之间的关联程度值组成第二关联张量;根据各个自注意力层对应的第二关联张量的离散程度,确定第三不确定性张量;根据第三不确定性张量,确定各个样本图像块对应的冗余样本图像块。
[0100]
进一步,在一些实施例中,根据各个自注意力层对应的第二关联张量,确定第二平均关联张量;将各个自注意力层对应的第二关联张量与第二平均关联张量的差进行平方后加和,再将加和结果除以自注意力层的层数,作为第三不确定性张量。可以参考公式(2)及
前述第一不确定性张量的相关实施例确定第三不确定性张量。
[0101]
在一些实施例中,每个自注意力层中各个样本图像块之间的关联程度值包括该自注意力层中每个自注意力头对应的各个样本图像块之间的关联程度值,从第三不确定性张量分别提取每个自注意力头对应的各个样本图像块之间的关联程度的不确定性值,得到每个自注意力头对应的第四不确定性张量;根据各个第四不确定性张量的离散程度,确定第二影响程度张量,其中,第二影响程度张量包括各个样本图像块编码时相互之间的影响程度值;根据第二影响程度张量,确定各个样本图像块对应的冗余样本图像块。
[0102]
进一步,在一些实施例中,根据各个第四不确定性张量,确定平均不确定性张量;将各个第四不确定性张量与平均不确定性张量的差进行平方后加和,再将加和结果除以自注意力头的个数,作为第二影响程度张量。可以参考公式(3)及前述第一影响程度张量的相关实施例确定第二影响程度张量。
[0103]
在一些实施例中,根据第二影响程度张量,确定各个样本图像块对应的冗余样本图像块包括以下至少一项:针对每个样本图像块,从第二影响程度张量中根据各个样本图像块对该样本图像块的编码的影响程度值,选取该样本图像块对应的冗余样本图像块;针对每个样本图像块,从第二影响程度张量中根据该样本图像块对各个样本图像块的编码的影响程度值的离散程度,确定该样本图像块是否为各个样本图像块对应的冗余样本图像块。
[0104]
在一些实施例中,针对第二影响程度张量中的每一行元素,将该行元素按照由大到小进行排序;按照排序顺序选取第三预设数量的元素;确定选取的元素对应的样本图像块作为有效样本图像块,或者,以该行元素对应的样本图像块为中心,确定包含选取的元素对应的样本图像块的最小矩形区域,以最小矩形区域中的样本图像块作为有效样本图像块;将有效样本图像块之外的其他样本图像块,作为该行元素对应的样本图像块对应的冗余样本图像块。
[0105]
在一些实施例中,针对第二影响程度张量中的每一列元素,确定该列元素的方差,作为该列元素对应的样本图像块对各个样本图像块的编码的影响程度值的离散程度;将各列元素的方差按照由小到大进行排序,按照排序顺序选取第四预设数量的方差,并确定选取的方差对应的样本图像块,作为各个样本图像块对应的冗余样本图像块。
[0106]
与前述实施例中确定冗余图像块的方法类似,针对样本图像块也可以划分交互区域和确定不具判别性的样本图像块,两者可以单独应用也可以结合应用,具体可以参考前述实施例,在此不再赘述。
[0107]
在步骤s308中,利用样本图像重新对预训练的图像分类模型进行训练。在训练过程中,更新各个样本图像块之间的关联程度值,并根据更新后的各个样本图像块之间的关联程度值对样本图像进行编码,其中,针对各个样本图像块,将该样本图像块对应的冗余样本图像块对于该样本图像块产生的关联程度值降低为预设值,根据样本图像的编码,输出样本图像的类型,根据输出的样本图像的类型和标注的类型,对图像分类模型的参数进行调整。
[0108]
如图2所示,不确定性感知模型将确定的冗余样本图像块的结果返回到输入层和各个自注意力层,重新将样本图像输入图像分类模型,进行训练。
[0109]
在一些实施例中,生成二值矩阵,重新训练的过程中,在每个自注意力头中将各个
样本图像块之间的关联程度值组成的第二关联矩阵与二值矩阵相乘,得到更新后的矩阵,其中,针对每个样本图像块,二值矩阵的设置使得更新后的矩阵中针对各个样本图像块,将该样本图像块对应的冗余样本图像块对于该样本图像块产生的关联程度值降低为预设值;针对每个样本图像块,在该样本图像块为对各个样本图像块的编码产生冗余信息的冗余样本图像块的情况下,将该样本图像块在图像分类模型的输入张量中的元素设为预设元素,以使该样本图像块对于其他样本图像块产生的关联程度值降低为预设值。预设元素和预设值例如为0。二值矩阵可以为0,1矩阵。
[0110]
在一些实施例中,在每个编码层中,将前一层输入的图像的特征矩阵输入自注意力层的各个自注意力头中;在每个自注意力头中,根据输入该自注意力头的样本图像的特征矩阵确定值矩阵;将该自注意力头对应更新后的矩阵与值矩阵相乘,得到该自注意力头对应的注意力编码矩阵,其中,更新后的矩阵是由更新后的各个图像块之间的关联程度值组成的;在该编码层中,根据各个自注意力头对应的注意力编码矩阵,确定该编码层输出图像的特征矩阵;将最后一个编码层输出的样本图像的特征矩阵作为样本图像的编码矩阵。
[0111]
将样本图像的编码矩阵输入分类层,得到输出的样本图像的类型。根据输出的样本图像的类型和标注的类型,计算损失函数,根据损失函数对图像分类模型的参数进行调整。重新训练的过程中相当于减少了冗余信息的加入,使得模型的参数进一步得到精准的调整,提高了模型的准确度。具体的关联程度值的更新和编码过程可以参考前述实施例,在此不再赘述。
[0112]
上述实施例中,先进行预训练,在确定冗余样本图像块后重新进行训练的方式,也可以采用另一种训练方式进行替换。例如,训练的每个周期(epoch)都根据前一个周期不确定性感知模型反馈的信息,对本周期的数据进行处理,并在本周期重新确定冗余样本图像块反馈给下一个周期。具体的,在每个训练周期,基于自注意力机制以及前一周期确定的冗余样本图像块确定当前周期各个样本图像块之间的关联程度值,根据当前周期各个样本图像块之间的关联程度值,确定下一周期各个样本图像块对应的冗余样本图像块,根据当前周期各个样本图像块之间的关联程度值对样本图像进行编码,根据样本图像的编码,输出样本图像的类型,根据输出的样本图像的类型和标注的类型,对图像分类模型的参数进行调整,重复上述过程,直至完成训练。这种训练方式,可以加速模型的收敛速度。
[0113]
发明人经过大量实验发现,在imagenet数据集上进行图像分类任务的性能验证,图像分类的准确率可以得到有效提升,并且每个自注意力头的计算量得到有效减少。在针对各个图像块进行交互区域划分的情况下,通过对图像块的交互区域划分结果进行进一步分析,发现在交互方向趋势和交互区域大小都是与图像中目标相关的。即交互区域的响应场分析能够对基于图像分类模型中图像块有效交互区域进行探索。
[0114]
本公开还提出一种图像分类装置,下面结合图4进行描述。
[0115]
图4为本公开图像分类装置的一些实施例的结构图。如图4所示,该实施例的装置40包括:输入模块410,关联程度值确定模块420,冗余图像块确定模块430,编码模块440,分类模块450。
[0116]
输入模块410,用于将图像划分为多个图像块,输入图像分类模型。
[0117]
关联程度值确定模块420,用于基于图像分类模型中自注意力机制确定各个图像块之间的关联程度值。
[0118]
在一些实施例中,关联程度值确定模块420用于在每个自注意力头中,根据输入该自注意力头的图像的特征矩阵确定查询矩阵和键矩阵;将查询矩阵与键矩阵相乘后除以键矩阵列数的平方根,得到注意力分数矩阵;将注意力分数矩阵进行归一化,得到各个图像块之间的关联程度值组成的第一关联矩阵。
[0119]
冗余图像块确定模块430,用于根据各个图像块之间的关联程度值,从多个图像块中确定各个图像块对应的冗余图像块。
[0120]
在一些实施例中,图像分类模型包括多个自注意力层,各个图像块之间的关联程度值包括每个自注意力层中各个图像块之间的关联程度值,冗余图像块确定模块430用于针对每个自注意力层,将该自注意力层中所有自注意力头对应的各个图像块之间的关联程度值组成第一关联张量;根据各个自注意力层对应的第一关联张量的离散程度,确定第一不确定性张量;根据第一不确定性张量,确定各个图像块对应的冗余图像块。
[0121]
在一些实施例中,每个自注意力层包括多个自注意力头,每个自注意力层中各个图像块之间的关联程度值包括该自注意力层中每个自注意力头对应的各个图像块之间的关联程度值,冗余图像块确定模块430用于从第一不确定性张量分别提取每个自注意力头对应的各个图像块之间的关联程度的不确定性值,得到每个自注意力头对应的第二不确定性张量;根据各个第二不确定性张量的离散程度,确定第一影响程度张量,其中,第一影响程度张量包括各个图像块编码时相互之间的影响程度值;根据第一影响程度张量,确定各个图像块对应的冗余图像块。
[0122]
在一些实施例中,冗余图像块确定模块430执行以下至少一项:用于针对每个图像块,从第一影响程度张量中根据各个图像块对该图像块的编码的影响程度值,选取该图像块对应的冗余图像块;针对每个图像块,从第一影响程度张量中根据该图像块对各个图像块的编码的影响程度值的离散程度,确定该图像块是否为各个图像块对应的冗余图像块。
[0123]
在一些实施例中,冗余图像块确定模块430用于根据各个自注意力层对应的第一关联张量,确定第一平均关联张量;将各个自注意力层对应的第一关联张量与第一平均关联张量的差进行平方后加和,再将加和结果除以自注意力层的层数,作为第一不确定性张量。
[0124]
在一些实施例中,冗余图像块确定模块430用于根据各个第二不确定性张量,确定平均不确定性张量;将各个第二不确定性张量与平均不确定性张量的差进行平方后加和,再将加和结果除以自注意力头的个数,作为第一影响程度张量。
[0125]
在一些实施例中,第一影响程度张量中的各行元素分别对应一个图像块,冗余图像块确定模块430用于针对第一影响程度张量中的每一行元素,将该行元素按照由大到小进行排序;按照排序顺序选取第一预设数量的元素,并确定选取的元素对应的图像块作为有效图像块;将有效图像块之外的其他图像块,作为该行元素对应的图像块对应的冗余图像块。
[0126]
在一些实施例中,冗余图像块确定模块430用于针对第一影响程度张量中的每一行元素,将该行元素按照由大到小进行排序;按照排序顺序选取第一预设数量的元素,并确定选取的元素对应的图像块;以该行元素对应的图像块为中心,确定包含选取的元素对应的图像块的最小矩形区域;将最小矩形区域中的图像块之外的其他图像块,作为该行元素对应的图像块对应的冗余图像块。
[0127]
在一些实施例中,冗余图像块确定模块430用于针对第一影响程度张量中的每一列元素,确定该列元素的方差,作为该列元素对应的图像块对各个图像块的编码的影响程度值的离散程度;将各列元素的方差按照由小到大进行排序,按照排序顺序选取第二预设数量的方差,并确定选取的方差对应的图像块,作为各个图像块对应的冗余图像块。
[0128]
编码模块440,用于更新各个图像块之间的关联程度值,并根据更新后的各个图像块之间的关联程度值对图像进行编码,其中,针对各个图像块,将该图像块对应的冗余图像块对于该图像块产生的关联程度值降低为预设值。
[0129]
在一些实施例中,编码模块440用于执行以下至少一项:生成二值矩阵,在每个自注意力头中将各个图像块之间的关联程度值组成的第一关联矩阵与二值矩阵相乘,得到更新后的矩阵,其中,针对每个图像块,二值矩阵的设置使得更新后的矩阵中针对各个图像块,将该图像块对应的冗余图像块对于该图像块产生的关联程度值降低为预设值;针对每个图像块,在该图像块为对各个图像块的编码产生冗余信息的冗余图像块的情况下,将该图像块在图像分类模型的输入张量中的元素设为预设元素,以使该图像块对于其他图像块产生的关联程度值降低为预设值。
[0130]
在一些实施例中,编码模块440用于在每个编码层中,将前一层输入的图像的特征矩阵输入自注意力层的各个自注意力头中;在每个自注意力头中,根据输入该自注意力头的图像的特征矩阵确定值矩阵;将该自注意力头对应更新后的矩阵与值矩阵相乘,得到该自注意力头对应的注意力编码矩阵,其中,更新后的矩阵是由更新后的各个图像块之间的关联程度值组成的;
[0131]
在该编码层中,根据各个自注意力头对应的注意力编码矩阵,确定该编码层输出图像的特征矩阵;将最后一个编码层输出的图像的特征矩阵作为图像的编码矩阵。
[0132]
分类模块450,用于根据图像的编码,确定图像的类型。
[0133]
本公开还提供一种图像分类模型的训练装置,下面结合图5进行描述。
[0134]
图5为本公开图像分类模型的训练装置的一些实施例的结构图。如图5所示,该实施例的装置50包括:输入模块510,关联程度值确定模块520,冗余图像块确定模块530,重训练模块540。
[0135]
输入模块510,用于将样本图像划分为多个样本图像块,输入图像分类模型进行预训练。
[0136]
关联程度值确定模块520,用于在预训练完成时,基于自注意力机制确定各个样本图像块之间的关联程度值。
[0137]
冗余图像块确定模块530,用于根据各个样本图像块之间的关联程度值,从多个样本图像块中确定各个样本图像块对应的冗余样本图像块。
[0138]
在一些实施例中,图像分类模型包括多个自注意力层,各个样本图像块之间的关联程度值包括每个自注意力层中各个样本图像块之间的关联程度值,冗余图像块确定模块530用于针对每个自注意力层,将该自注意力层中所有自注意力头对应的各个样本图像块之间的关联程度值组成第二关联张量;根据各个自注意力层对应的第二关联张量的离散程度,确定第三不确定性张量;根据第三不确定性张量,确定各个样本图像块对应的冗余样本图像块。
[0139]
在一些实施例中,冗余图像块确定模块530用于从第三不确定性张量分别提取每
个自注意力头对应的各个样本图像块之间的关联程度的不确定性值,得到每个自注意力头对应的第四不确定性张量;根据各个第四不确定性张量的离散程度,确定第二影响程度张量,其中,第二影响程度张量包括各个样本图像块编码时相互之间的影响程度值;根据第二影响程度张量,确定各个样本图像块对应的冗余样本图像块。
[0140]
在一些实施例中,冗余图像块确定模块530用于执行以下至少一项:针对每个样本图像块,从第二影响程度张量中根据各个样本图像块对该样本图像块的编码的影响程度值,选取该样本图像块对应的冗余样本图像块;针对每个样本图像块,从第二影响程度张量中根据该样本图像块对各个样本图像块的编码的影响程度值的离散程度,确定该样本图像块是否为各个样本图像块对应的冗余样本图像块。
[0141]
在一些实施例中,第二影响程度张量中的各行元素分别对应一个样本图像块,冗余图像块确定模块530用于针对第二影响程度张量中的每一行元素,将该行元素按照由大到小进行排序;按照排序顺序选取第三预设数量的元素;确定选取的元素对应的样本图像块作为有效样本图像块,或者,以该行元素对应的样本图像块为中心,确定包含选取的元素对应的样本图像块的最小矩形区域,以最小矩形区域中的样本图像块作为有效样本图像块;将有效样本图像块之外的其他样本图像块,作为该行元素对应的样本图像块对应的冗余样本图像块。
[0142]
在一些实施例中,冗余图像块确定模块530用于针对第二影响程度张量中的每一列元素,确定该列元素的方差,作为该列元素对应的样本图像块对各个样本图像块的编码的影响程度值的离散程度;将各列元素的方差按照由小到大进行排序,按照排序顺序选取第四预设数量的方差,并确定选取的方差对应的样本图像块,作为各个样本图像块对应的冗余样本图像块。
[0143]
重训练模块540,用于利用样本图像重新对预训练的图像分类模型进行训练,在训练过程中,更新各个样本图像块之间的关联程度值,并根据更新后的各个样本图像块之间的关联程度值对样本图像进行编码,其中,针对各个样本图像块,将该样本图像块对应的冗余样本图像块对于该样本图像块产生的关联程度值降低为预设值,根据样本图像的编码,输出样本图像的类型,根据输出的样本图像的类型和标注的类型,对图像分类模型的参数进行调整。
[0144]
在一些实施例中,重训练模块540用于执行以下至少一项:生成二值矩阵,在每个自注意力头中将各个样本图像块之间的关联程度值组成的第二关联矩阵与二值矩阵相乘,得到更新后的矩阵,其中,针对每个样本图像块,二值矩阵的设置使得更新后的矩阵中针对各个样本图像块,将该样本图像块对应的冗余样本图像块对于该样本图像块产生的关联程度值降低为预设值;针对每个样本图像块,在该样本图像块为对各个样本图像块的编码产生冗余信息的冗余样本图像块的情况下,将该样本图像块在图像分类模型的输入张量中的元素设为预设元素,以使该样本图像块对于其他样本图像块产生的关联程度值降低为预设值。
[0145]
本公开的实施例中的电子设备可各由各种计算设备或计算机系统来实现,下面结合图6以及图7进行描述。
[0146]
图6为本公开电子设备的一些实施例的结构图。如图6所示,该实施例的电子设备60包括:存储器610以及耦接至该存储器610的处理器620,处理器620被配置为基于存储在
存储器610中的指令,执行本公开中任意一些实施例中的图像分类方法或者图像分类模型的训练方法。
[0147]
其中,存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(boot loader)、数据库以及其他程序等。
[0148]
图7为本公开电子设备的另一些实施例的结构图。如图7所示,该实施例的电子设备70包括:存储器710以及处理器720,分别与存储器610以及处理器620类似。还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730,740,750以及存储器710和处理器720之间例如可以通过总线760连接。其中,输入输出接口730为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口750为sd卡、u盘等外置存储设备提供连接接口。
[0149]
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0150]
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0151]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0152]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0153]
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1