一种图像分类方法、装置、设备和计算机可读存储介质与流程

文档序号:33475270发布日期:2023-03-15 09:59阅读:68来源:国知局
一种图像分类方法、装置、设备和计算机可读存储介质与流程

1.本技术涉及深度神经网络技术领域,特别是涉及一种图像分类方法、装置、设备和计算机可读存储介质。


背景技术:

2.深度神经网络因其强大的数据处理和非线性数据拟合能力而被广泛地应用于解决各种复杂问题,无论是图像领域中分类、分割、目标检测问题,还是自然语言处理、语音识别等都表现出强大的性能。但是复杂的神经网络结构除了能获得性能的提升外,还可能会导致过拟合问题。过拟合表示神经网络模型学习过于最小化训练数据集的误差,但测试数据的性能较差。除模型复杂度过高之外,样本数目少、类别数目分布不均衡、分类难易程度不均衡、样本噪声等原因都会加剧模型过拟合问题。
3.传统改善模型过拟合问题的方案中,主要是从模型训练配置和模型构造两方面改进,模型训练配置方法的改善效果通常较小,模型构造可以从根本上影响模型训练,因而改善效果更好些,其中模型构造的改进以损失函数的构造为主。
4.目前损失函数构造的技术方案可分为两类。一类是改善样本不均衡问题的权重微调,另一类是基于样本特征图像之间距离的正则项构造损失函数。前者侧重样本不均衡问题,后者侧重考虑样本内部相关性。但是这些方案改善效果有限,神经网络模型仍存在过拟合的问题,从而影响图像分类识别的准确性。
5.可见,如何提升图像分类识别的准确性,是本领域技术人员需要解决的问题。


技术实现要素:

6.本技术实施例的目的是提供一种图像分类方法、装置、设备和计算机可读存储介质,可以提升图像分类识别的准确性。
7.为解决上述技术问题,本技术实施例提供一种图像分类方法,包括:利用预训练神经网络模型对获取的图像数据集进行分析,以得到特征图像和分类预测值;对同类别特征图像进行相关性分析,以确定出所述同类别特征图像之间的相关系数;依据所述同类别特征图像各自对应的分类预测值,确定出所述同类别特征图像之间的分类预测偏差;依据所述相关系数与所述分类预测偏差之间的关联关系以及各所述特征图像对应的标签值和所述分类预测值,对所述预训练神经网络模型进行参数调整,以得到训练好的神经网络模型;利用所述训练好的神经网络模型对获取的待分类图像进行分析,以确定出所述待分类图像包含的图像类别。
8.可选地,所述依据所述相关系数与所述分类预测偏差之间的关联关系以及各所述
特征图像对应的标签值和所述分类预测值,对所述预训练神经网络模型进行参数调整,以得到训练好的神经网络模型包括:利用支持向量机算法,对所述同类别特征图像之间的相关系数以及所述分类预测偏差进行拟合,以构建出用于表征样本间相关性的正则项;基于各所述特征图像对应的标签值和所述分类预测值,构造误差损失项;将所述误差损失项与所述正则项作为损失函数;利用所述损失函数对所述预训练神经网络模型进行训练,以得到训练好的神经网络模型。
9.可选地,所述利用支持向量机算法,对所述同类别特征图像之间的相关系数以及所述分类预测偏差进行拟合,以构建出用于表征样本间相关性的正则项包括:将每个类别所对应的相关系数以及分类预测偏差作为训练样本;利用所述训练样本对构建的支持向量机回归模型进行训练,以得到所述相关系数与所述分类预测偏差之间的线性关系;基于所述线性关系拟合出的分类预测偏差与所述预训练神经网络模型输出的分类预测值之间的偏差,构建所述正则项。
10.可选地,所述基于所述线性关系拟合出的分类预测偏差与所述预训练神经网络模型输出的分类预测值之间的偏差,构建所述正则项包括:利用所述线性关系拟合出同类别下任意两个特征图像对应的分类预测偏差;获取所述预训练神经网络模型输出的所述任意两个特征图像各自对应分类预测值;将所述任意两个特征图像各自对应的分类预测值的差值的平方作为模型预测偏差;将所述分类预测偏差与所述模型预测偏差的差值的平方作为正则项。
11.可选地,所述基于各所述特征图像对应的标签值和所述分类预测值,构造误差损失项包括:将各所述特征图像对应的标签值和所述分类预测值进行均方差运算,以得到误差损失项。
12.可选地,所述基于各所述特征图像对应的标签值和所述分类预测值,构造误差损失项包括:将各所述特征图像对应的标签值和所述分类预测值进行交叉熵运算,以得到误差损失项。
13.可选地,所述对同类别特征图像进行相关性分析,以确定出所述同类别特征图像之间的相关系数包括:计算目标类别下所有特征图像各自对应的图像均值;其中,所述目标类别为所述预训练神经网络模型包含的所有类别中的任意一个类别;基于所述图像均值以及所述目标类别下任意两个特征图像,构建出所述目标类别下任意两个特征图像之间的相关系数。
14.可选地,所述基于所述图像均值以及所述目标类别下任意两个特征图像,构建出所述目标类别下任意两个特征图像之间的相关系数包括:
将所述图像均值以及所述目标类别下任意两个特征图像输入至预先设置的相关系数计算公式,以得到所述目标类别下任意两个特征图像之间的相关系数;所述相关系数计算公式为:;其中,c表示目标类别,i表示目标类别下的第i个样本,j表示目标类别下的第j个样本,k表示通道数,表示目标类别c下第i个样本和第j个样本之间的相关系数,表示第i个样本的特征图像,表示第i个样本的特征图像的图像均值,表示第j个样本的特征图像,表示第j个样本的特征图像的图像均值,m表示特征图像的像素点的行下标,n表示特征图像的像素点的列下标。
15.可选地,所述依据所述同类别特征图像各自对应的分类预测值,确定出所述同类别特征图像之间的分类预测偏差包括:将目标类别下任意两个特征图像对应的分类预测值的l2范数的平方作为所述目标类别下任意两个特征图像对应的分类预测偏差;其中,所述目标类别为所述预训练神经网络模型包含的所有类别中的任意一个类别。
16.可选地,针对于所述图像数据集的获取过程,所述方法包括:获取初始图像数据集;对所述初始图像数据集进行预处理,以得到所述图像数据集。
17.可选地,所述对所述初始图像数据集进行预处理,以得到所述图像数据集包括:对所述初始图像数据集包含的图像进行裁剪、翻转和/或旋转处理,以得到新的图像数据集;按照所述预训练神经网络模型的输入图像尺寸,将所述新的图像数据集以及所述初始图像数据集包含的图像进行尺寸调整,以得到所述图像数据集。
18.可选地,在所述按照所述预训练神经网络模型的输入图像尺寸,将所述新的图像数据集以及所述初始图像数据集包含的图像进行尺寸调整之后还包括:计算尺寸调整后的图像对应的亮度均值和方差;基于所述亮度均值和所述方差,对所述尺寸调整后的图像进行规范化处理,以得到最终的图像数据集。
19.可选地,在所述对同类别特征图像进行相关性分析,以确定出所述同类别特征图像之间的相关系数之前还包括:依据主成分分析法对所述特征图像进行降维处理,以得到最新的特征图像。
20.可选地,所述依据主成分分析法对所述特征图像进行降维处理,以得到最新的特征图像包括:对目标特征图像进行去中心化处理,以得到去中心特征图像;其中,所述目标特征图像为所述特征图像中任意一个特征图像;
将所有通道下的所述去中心特征图像组成图像矩阵;对所述图像矩阵对应的协方差矩阵进行特征值分解,以得到特征值和特征向量;选取特征值最大的预设个数的目标特征值,将所述目标特征值对应的特征向量组成特征变换矩阵;其中,所述预设个数小于所述预训练神经网络模型的通道个数;依据所述特征变换矩阵,将所有通道下的目标特征图像转换为最新的目标特征图像。
21.可选地,所述对目标特征图像进行去中心化处理,以得到去中心特征图像包括:计算所有通道下目标特征图像对应的图像平均值;将每个通道下的所述目标特征图像减去所述图像平均值,以得到去中心特征图像。可选地,所述依据所述特征变换矩阵,将所有通道下的目标特征图像转换为最新的目标特征图像包括:将所述特征变换矩阵与所有通道下的目标特征图像相乘,以得到最新的目标特征图像可选地,所述利用所述训练好的神经网络模型对获取的待分类图像进行分析,以确定出所述待分类图像包含的图像类别包括:在获取到待分类图像的情况下,按照所述训练好的神经网络模型的输入图像尺寸,调整所述待分类图像的尺寸;将调整尺寸后的待分类图像输入至所述训练好的神经网络模型,以得到所述待分类图像对应的分类预测值;将取值最高的分类预测值所对应的类别作为所述待分类图像包含的图像类别。
22.本技术实施例还提供了一种图像分类装置,包括分析单元、系数确定单元、偏差确定单元、调整单元和类别确定单元;所述分析单元,用于利用预训练神经网络模型对获取的图像数据集进行分析,以得到特征图像和分类预测值;所述系数确定单元,用于对同类别特征图像进行相关性分析,以确定出所述同类别特征图像之间的相关系数;所述偏差确定单元,用于依据所述同类别特征图像各自对应的分类预测值,确定出所述同类别特征图像之间的分类预测偏差;所述调整单元,用于依据所述相关系数与所述分类预测偏差之间的关联关系以及各所述特征图像对应的标签值和所述分类预测值,对所述预训练神经网络模型进行参数调整,以得到训练好的神经网络模型;所述类别确定单元,用于利用所述训练好的神经网络模型对获取的待分类图像进行分析,以确定出所述待分类图像包含的图像类别。
23.可选地,所述调整单元包括拟合子单元、构造子单元、作为子单元和训练子单元;所述拟合子单元,用于利用支持向量机算法,对所述同类别特征图像之间的相关系数以及所述分类预测偏差进行拟合,以构建出用于表征样本间相关性的正则项;所述构造子单元,用于基于各所述特征图像对应的标签值和所述分类预测值,构造误差损失项;所述作为子单元,用于将所述误差损失项与所述正则项作为损失函数;
所述训练子单元,用于利用所述损失函数对所述预训练神经网络模型进行训练,以得到训练好的神经网络模型。
24.可选地,所述拟合子单元用于将每个类别所对应的相关系数以及分类预测偏差作为训练样本;利用所述训练样本对构建的支持向量机回归模型进行训练,以得到所述相关系数与所述分类预测偏差之间的线性关系;基于所述线性关系拟合出的分类预测偏差与所述预训练神经网络模型输出的分类预测值之间的偏差,构建所述正则项。
25.可选地,所述拟合子单元用于利用所述线性关系拟合出同类别下任意两个特征图像对应的分类预测偏差;获取所述预训练神经网络模型输出的所述任意两个特征图像各自对应分类预测值;将所述任意两个特征图像各自对应的分类预测值的差值的平方作为模型预测偏差;将所述分类预测偏差与所述模型预测偏差的差值的平方作为正则项。
26.可选地,所述构造子单元用于将各所述特征图像对应的标签值和所述分类预测值进行均方差运算,以得到误差损失项。
27.可选地,所述构造子单元用于将各所述特征图像对应的标签值和所述分类预测值进行交叉熵运算,以得到误差损失项。
28.可选地,所述系数确定单元包括计算子单元和构建子单元;所述计算子单元,用于计算目标类别下所有特征图像各自对应的图像均值;其中,所述目标类别为所述预训练神经网络模型包含的所有类别中的任意一个类别;所述构建子单元,用于基于所述图像均值以及所述目标类别下任意两个特征图像,构建出所述目标类别下任意两个特征图像之间的相关系数。可选地,所述构建子单元用于将所述图像均值以及所述目标类别下任意两个特征图像输入至预先设置的相关系数计算公式,以得到所述目标类别下任意两个特征图像之间的相关系数;所述相关系数计算公式为:;其中,c表示目标类别,i表示目标类别下的第i个样本,j表示目标类别下的第j个样本,k表示通道数,表示目标类别c下第i个样本和第j个样本之间的相关系数,表示第i个样本的特征图像,表示第i个样本的特征图像的图像均值,表示第j个样本的特征图像,表示第j个样本的特征图像的图像均值,m表示特征图像的像素点的行下标,n表示特征图像的像素点的列下标。
29.可选地,所述偏差确定单元用于将目标类别下任意两个特征图像对应的分类预测值的l2范数的平方作为所述目标类别下任意两个特征图像对应的分类预测偏差;其中,所述目标类别为所述预训练神经网络模型包含的所有类别中的任意一个类别。可选地,针对于所述图像数据集的获取过程,所述装置包括获取单元和预处理单元;所述获取单元,用于获取初始图像数据集;所述预处理单元,用于对所述初始图像数据集进行预处理,以得到所述图像数据集。
30.可选地,所述预处理单元包括处理子单元和调整子单元;所述处理子单元,用于对所述初始图像数据集包含的图像进行裁剪、翻转和/或旋转处理,以得到新的图像数据集;所述调整子单元,用于按照所述预训练神经网络模型的输入图像尺寸,将所述新的图像数据集以及所述初始图像数据集包含的图像进行尺寸调整,以得到所述图像数据集。
31.可选地,还包括计算单元和规范化处理单元;所述计算单元,用于计算尺寸调整后的图像对应的亮度均值和方差;所述规范化处理单元,用于基于所述亮度均值和所述方差,对所述尺寸调整后的图像进行规范化处理,以得到最终的图像数据集。
32.可选地,还包括降维处理单元;所述降维处理单元,用于依据主成分分析法对所述特征图像进行降维处理,以得到最新的特征图像。
33.可选地,所述降维处理单元包括去中心化子单元、组成子单元、分解子单元、选取子单元和转换子单元;所述去中心化子单元,用于对目标特征图像进行去中心化处理,以得到去中心特征图像;其中,所述目标特征图像为所述特征图像中任意一个特征图像;所述组成子单元,用于将所有通道下的所述去中心特征图像组成图像矩阵;所述分解子单元,用于对所述图像矩阵对应的协方差矩阵进行特征值分解,以得到特征值和特征向量;所述选取子单元,用于选取特征值最大的预设个数的目标特征值,将所述目标特征值对应的特征向量组成特征变换矩阵;其中,所述预设个数小于所述预训练神经网络模型的通道个数;所述转换子单元,用于依据所述特征变换矩阵,将所有通道下的目标特征图像转换为最新的目标特征图像。
34.可选地,所述去中心化子单元用于计算所有通道下目标特征图像对应的图像平均值;将每个通道下的所述目标特征图像减去所述图像平均值,以得到去中心特征图像。
35.可选地,所述转换子单元用于将所述特征变换矩阵与所有通道下的目标特征图像相乘,以得到最新的目标特征图像可选地,所述分析单元包括尺寸调整子单元、输入子单元和作为子单元;所述尺寸调整子单元,用于在获取到待分类图像的情况下,按照所述训练好的神经网络模型的输入图像尺寸,调整所述待分类图像的尺寸;
所述输入子单元,用于将调整尺寸后的待分类图像输入至所述训练好的神经网络模型,以得到所述待分类图像对应的分类预测值;所述作为子单元,用于将取值最高的分类预测值所对应的类别作为所述待分类图像包含的图像类别。
36.本技术实施例还提供了一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现如上述图像分类方法的步骤。
37.本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述图像分类方法的步骤。
38.由上述技术方案可以看出,利用预训练神经网络模型对获取的图像数据集进行分析,以得到特征图像和分类预测值;特征图像是包含目标物的图像,分类预测值反映了特征图像中目标物属于各类别的分值。为了充分挖掘特征图像之间的相关性,可以对同类别特征图像进行相关性分析,以确定出同类别特征图像之间的相关系数;依据同类别特征图像各自对应的分类预测值,确定出同类别特征图像之间的分类预测偏差。每个图像所对应的多通道特征图像可以看作是一个样本,相关系数和分类预测偏差之间的关联关系可以反映出不同样本之间的相关性。依据相关系数与分类预测偏差之间的关联关系以及各特征图像对应的标签值和分类预测值,对预训练神经网络模型进行参数调整,以得到训练好的神经网络模型。利用训练好的神经网络模型对获取的待分类图像进行分析,可以确定出待分类图像包含的图像类别。在该技术方案中,为了改善神经网络模型过拟合问题,基于不同样本之间的相关性,对预训练神经网络模型进行微调训练。通过分析同类别特征图像之间的相关性,充分考虑了样本之间相关性对输出类别的影响,从而改善神经网络模型对于样本类别标签的过拟合问题,进而增强神经网络模型的泛化能力,有效的提升了图像分类识别的准确性。
附图说明
39.为了更清楚地说明本技术实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
40.图1为本技术实施例提供的一种图像分类方法的流程图;图2为本技术实施例提供的一种图像数据集的获取方法的流程图;图3为本技术实施例提供的一种对特征图像进行降维处理的方法的流程图;图4为本技术实施例提供的一种图像分类装置的结构示意图;图5为本技术实施例提供的一种电子设备的结构图。
实施方式
41.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本技术保护范围。
42.本技术的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
43.为了使本技术领域的人员更好地理解本技术方案,下面结合附图和具体实施方式对本技术作进一步的详细说明。
44.接下来,详细介绍本技术实施例所提供的一种图像分类方法。图1为本技术实施例提供的一种图像分类方法的流程图,该方法包括:s101:利用预训练神经网络模型对获取的图像数据集进行分析,以得到特征图像和分类预测值。
45.图像数据集可以来源于采集装置和公共数据集。
46.预训练神经网络模型可以采用卷积神经网络模型。卷积神经网络模型的通用结构可以分为卷积隐藏层结构和全连接层结构。卷积隐藏层结构用于特征提取,获取若干个通道的特征图像。对于一张图像而言,其对应的若干个通道的特征图像即为一个样本。全连接层结构作为分类器模型输出分类预测值,实现分类。
47.神经网络模型的构造可以包括模型结构配置和损失函数定义。神经网络结构配置包括神经网络层数、每一层的神经元数目和维度、激活函数类型等,根据结构差异又分为不同类型,常用的有resnet,googlenet,vgg,imagenet,inceptionnet等。考虑到学习效率,可直接使用训练好的神经网络模型。
48.损失函数是神经网络中优化的目标函数,用于度量生成的分类预测值与实际观察到的训练目标之间的偏差。神经网络训练或者优化的过程就是最小化损失函数的过程,损失函数越小,说明模型的分类预测值就越接近真实值,模型的准确性也就越好。常用的两种损失函数:均方差函数和交叉熵(sigmoid)损失函数。均方差函数常用于线性回归。交叉熵用于度量两个概率分布之间的差异。
49.在本技术实施例中,可以采用常规方式训练好的神经网络模型对图像数据集进行分析。可以将常规方式训练好的神经网络模型简称为预训练神经网络模型。
50.s102:对同类别特征图像进行相关性分析,以确定出同类别特征图像之间的相关系数。
51.常规方式中,神经网络模型训练过程中只考虑分类预测值和标签值的偏差,对样本之间相关性不关注,因而易导致过拟合问题。相同类别的特征图像具有一定的相关性,特征相关性越高,分类预测结果越接近。因此在本技术实施例中,可以将类内相关性作为神经网络模型的优化项修正模型分类预测值。类内相关性指的是相同类别下样本之间的相关性。
52.每种类别下特征图像的处理方式类似,以预训练神经网络模型包含的所有类别中的任意一个类别即目标类别为例展开介绍。
53.在具体实现中,可以计算目标类别下所有特征图像各自对应的图像均值;基于图像均值以及目标类别下任意两个特征图像,构建出目标类别下任意两个特征图像之间的相关系数。
54.在本技术实施例中,可以构建相关系数计算公式,在需要确定目标类别下任意两个特征图像之间的相关系数时,可以将图像均值以及目标类别下任意两个特征图像输入至
预先设置的相关系数计算公式, 以得到目标类别下任意两个特征图像之间的相关系数。以类别c为例,类别c对应的特征图像集合为,t为样本数目,每个样本的特征图像为m个通道、大小为fw
×
fh的图像。以vgg16模型为例,m=128,fw=fh=112。计算相同类别的特征图像之间的相关系数,将类别c中样本i,j之间的相关系数记为,每个通道计算一个相关系数,包括m个相关系数,那么对于类别c,总共有个样本间相关系数向量,每个向量包括m个相关系数。
55.对于通道k,特征图像之间的相关系数计算公式为:;其中,c表示目标类别,i表示目标类别下的第i个样本,j表示目标类别下的第j个样本,k表示第k个通道,表示目标类别c下第i个样本和第j个样本之间的相关系数,表示第i个样本的特征图像,表示第i个样本的特征图像的图像均值,表示第j个样本的特征图像,表示第j个样本的特征图像的图像均值,m表示特征图像的像素点的行下标,n表示特征图像的像素点的列下标。s103:依据同类别特征图像各自对应的分类预测值,确定出同类别特征图像之间的分类预测偏差。
56.在本技术实施例中,可以将目标类别下任意两个特征图像对应的分类预测值的l2范数的平方作为目标类别下任意两个特征图像对应的分类预测偏差。假设总类别数目为c,模型分类预测结果为c维向量,样本i,j的分类预测结果记为yi、yj,那么分类预测偏差为。c的取值等于模型设定的输出类别,例如,c可以设置为1000。
57.s104:依据相关系数与分类预测偏差之间的关联关系以及各特征图像对应的标签值和分类预测值,对预训练神经网络模型进行参数调整,以得到训练好的神经网络模型。
58.同类别特征相关性影响分类预测偏差,那么同类别特征图像之间的相关系数和分类预测偏差之间存在联系,在本技术实施例中可以采用支持向量机回归模型(svm regression)来对二者之间的关联关系进行拟合建模。
59.在具体实现中,可以利用支持向量机算法,对同类别特征图像之间的相关系数以及分类预测偏差进行拟合,以构建出用于表征样本间相关性的正则项;基于各特征图像对应的标签值和分类预测值,构造误差损失项;将误差损失项与正则项作为损失函数;利用损失函数对预训练神经网络模型进行训练,以得到训练好的神经网络模型。
60.对于正则项的构建,可以将每个类别所对应的相关系数以及分类预测偏差作为训练样本;利用训练样本对构建的支持向量机回归模型进行训练,以得到相关系数与分类预测偏差之间的线性关系;基于线性关系拟合出的分类预测偏差与预训练神经网络模型输出
的分类预测值之间的偏差,构建正则项。
61.svm回归模型的目标函数为:;st.y
t-(w
t
φ(x
t
)+b)≤ε(w
t
φ(x
t
)+b)-y
t
≤ε其中,w,b分别表示svm模型权重和偏差参数,φ表示核函数变换,用于非线性拟合,ε表示超参数,x
t
表示观测样本点,对应了本技术中的相关系数,y
t
表示观测输出值,对应了本技术中的神经网络模型分类预测偏差。
62.svm模型优化求解完成后,得到svm回归模型,g(x
t
)=w
t
φ(x
t
)+b,输入类内相关性系数x
t
到svm回归模型,输出拟合的分类预测结果的偏差g(x
t
)。
63.在本技术实施例中,基于线性关系拟合出的分类预测偏差与预训练神经网络模型输出的分类预测值之间的偏差,构建正则项的实现方式可以包括利用线性关系拟合出同类别下任意两个特征图像对应的分类预测偏差;获取预训练神经网络模型输出的任意两个特征图像各自对应分类预测值;将任意两个特征图像各自对应的分类预测值的差值的平方作为模型预测偏差;将分类预测偏差与模型预测偏差的差值的平方作为正则项。
64.在构建出正则项之后,将其加到神经网络模型的损失函数中,可以改善神经网络模型过拟合的问题。
65.对于误差损失项的构造可以有两种方式,一种方式可以将各特征图像对应的标签值和分类预测值进行均方差运算,以得到误差损失项。另一种方式可以将各特征图像对应的标签值和分类预测值进行交叉熵运算,以得到误差损失项。
66.在本技术实施例中,损失函数包括误差损失项和正则项,误差项描述了网络预测值与目标值之间的偏差,误差损失项可选择均方差函数或交叉熵函数。正则项可以防止过分的拟合训练数据,提高泛化能力。如下所示为本技术实施例提供的一种损失函数的具体构造:;其中,f表示神经网络模型函数,n表示样本数目,xi表示输入样本图片,f(xi)表示神经网络模型的预测值,yi表示标签值,那么第一项描述模型预测值和标签值之间的误差。i表示样本下标,ni表示样本i对应类别的样本特征图像集合的样本数目,假设样本i对应类别为li,该类别的样本特征图像集合记为s
li
,i表示样本下标,ni表示样本i对应类别的样本特征图像集合的样本数目,假设样本i对应类别为li,该类别的样本特征图像集合记为s
li
,ni则为集合s
li
的大小,那么j表示集合s
li
中的样本下标,(f(xi)-f(xj))表示样本i、j的模型预测值的偏差,表示svm回归模型拟合的样本i、j的模型预测值的
偏差,将作为正则项考虑到类内样本相关性,可以修正模型预测值,改善过拟合问题。除此之外,λ称为惩罚系数,是一种调整经验误差项和正则化项之间关系的系数,平衡二者的权重关系。在得到包括误差损失项和正则项的损失函数后,将其应用到神经网络模型的训练,固定卷积隐藏层参数,训练过程只更新全连接层参数,以此得到训练好的神经网络模型。
67.s105:利用训练好的神经网络模型对获取的待分类图像进行分析,以确定出待分类图像包含的图像类别。
68.在训练好的神经网络模型后,可以在获取到待分类图像的情况下,按照训练好的神经网络模型的输入图像尺寸,调整待分类图像的尺寸;将调整尺寸后的待分类图像输入至训练好的神经网络模型,以得到待分类图像对应的分类预测值;将取值最高的分类预测值所对应的类别作为待分类图像包含的图像类别。
69.由上述技术方案可以看出,利用预训练神经网络模型对获取的图像数据集进行分析,以得到特征图像和分类预测值;特征图像是包含目标物的图像,分类预测值反映了特征图像中目标物属于各类别的分值。为了充分挖掘特征图像之间的相关性,可以对同类别特征图像进行相关性分析,以确定出同类别特征图像之间的相关系数;依据同类别特征图像各自对应的分类预测值,确定出同类别特征图像之间的分类预测偏差。每个图像所对应的多通道特征图像可以看作是一个样本,相关系数和分类预测偏差之间的关联关系可以反映出不同样本之间的相关性。依据相关系数与分类预测偏差之间的关联关系以及各特征图像对应的标签值和分类预测值,对预训练神经网络模型进行参数调整,以得到训练好的神经网络模型。利用训练好的神经网络模型对获取的待分类图像进行分析,可以确定出待分类图像包含的图像类别。在该技术方案中,为了改善神经网络模型过拟合问题,基于不同样本之间的相关性,对预训练神经网络模型进行微调训练。通过分析同类别特征图像之间的相关性,充分考虑了样本之间相关性对输出类别的影响,从而改善神经网络模型对于样本类别标签的过拟合问题,进而增强神经网络模型的泛化能力,有效的提升了图像分类识别的准确性。
70.在本技术实施例中,可以对获取的初始图像数据集进行变换,以提升样本的多样性。图2为本技术实施例提供的一种图像数据集的获取方法的流程图,该方法包括:s201:获取初始图像数据集。
71.图像数据集通常来源于采集装置和公共数据集,为了提升图像数据集的多样性,可以对对初始图像数据集进行预处理,以得到图像数据集。
72.对初始图像数据集的预处理过程可以是增强初始图像数据集的随机性,具体实现方式可以参见s202和s203的介绍。
73.s202:对初始图像数据集包含的图像进行裁剪、翻转和/或旋转处理,以得到新的图像数据集。
74.通过裁剪可以得到包含不同目标物的图像,实现了图像数据的增强。
75.翻转可以是将图像进行上下、左右翻转。旋转可以是选定图像上一个点作为中心点,绕中心点任意角度旋转图像,以得到新的图像,从而增加了图像数据集的随机性。
76.s203:按照预训练神经网络模型的输入图像尺寸,将新的图像数据集以及初始图像数据集包含的图像进行尺寸调整。
77.将新的图像数据集以及初始图像数据集包含的图像的尺寸调整成预训练神经网络模型的输入图像尺寸,比如采用vgg16模型必须将图片尺寸调整为(224,224)。
78.s204:计算尺寸调整后的图像对应的亮度均值和方差;基于亮度均值和方差,对尺寸调整后的图像进行规范化处理,以得到最终的图像数据集。
79.利用亮度均值和方差对图像进行规范化处理的过程属于较为成熟的技术,在此不再赘述。
80.在本技术实施例中,通过对初始图像数据集的裁剪、翻转、旋转等处理,可以增强图像数据集的随机性。通过基于亮度均值和方差对图像进行规范化处理,可以使得神经网络模型更易收敛。
81.在本技术实施例中,为了降低特征图像中干扰因素造成的影响,可以依据主成分分析法对特征图像进行降维处理,以得到最新的特征图像,从而对最新的特征图像进行相关性分析和分类预测偏差的确定。图3为本技术实施例提供的一种对特征图像进行降维处理的方法的流程图,该方法包括:s301:对目标特征图像进行去中心化处理,以得到去中心特征图像。
82.其中,目标特征图像为特征图像中任意一个特征图像。
83.在具体实现中,可以计算所有通道下目标特征图像对应的图像平均值;将每个通道下的目标特征图像减去图像平均值,以得到去中心特征图像。假设,第i个通道的特征图像为fi,特征图像的图像平均值为,去中心特征图像。
84.s302:将所有通道下的去中心特征图像组成图像矩阵。预训练神经网络模型包含有m个通道,以任意一个特征图像为例,去中心特征图像组成的图像矩阵包含m个元素,即。s303:对图像矩阵对应的协方差矩阵进行特征值分解,以得到特征值和特征向量。
85.图像矩阵对应的协方差矩阵为。
86.对协方差矩阵进行特征值分解得到特征值λ和特征向量p,将特征值λ按照从大到小的顺序排列,如下所示为特征值和特征向量集合:λ={λ1,λ2,

,λm};p={p1,p2,

,pm}。
87.s304:选取特征值最大的预设个数的目标特征值,将目标特征值对应的特征向量组成特征变换矩阵。
88.其中,预设个数小于预训练神经网络模型的通道个数。
89.以m个通道为例,预设个数可以为k,k《m。按照特征值从大到小的顺序,选择中λ最大的k个特征值以及对应特征向量,将这些特征向量作为行向量,组成特征变换矩阵。
90.s305:依据特征变换矩阵,将所有通道下的目标特征图像转换为最新的目标特征图像。
91.在具体实现中,可以将特征变换矩阵与所有通道下的目标特征图像相乘,以得到
最新的目标特征图像。
92.结合上述介绍中,特征变换矩阵为,最新的目标特征图像为,是由k个通道构成的特征图像。通过特征变换矩阵,可以将m个通道的特征图像变换到k个通道上,提升了特征图像的质量,并且降低了后续对特征图像进行分析的运算量,从而提升图像分类处理的效率。
93.图4为本技术实施例提供的一种图像分类装置的结构示意图,包括分析单元41、系数确定单元42、偏差确定单元43、调整单元44和类别确定单元45;分析单元41,用于利用预训练神经网络模型对获取的图像数据集进行分析,以得到特征图像和分类预测值;系数确定单元42,用于对同类别特征图像进行相关性分析,以确定出同类别特征图像之间的相关系数;偏差确定单元43,用于依据同类别特征图像各自对应的分类预测值,确定出同类别特征图像之间的分类预测偏差;调整单元44,用于依据相关系数与分类预测偏差之间的关联关系以及各特征图像对应的标签值和分类预测值,对预训练神经网络模型进行参数调整,以得到训练好的神经网络模型;类别确定单元45,用于利用训练好的神经网络模型对获取的待分类图像进行分析,以确定出待分类图像包含的图像类别。
94.可选地,调整单元包括拟合子单元、构造子单元、作为子单元和训练子单元;拟合子单元,用于利用支持向量机算法,对同类别特征图像之间的相关系数以及分类预测偏差进行拟合,以构建出用于表征样本间相关性的正则项;构造子单元,用于基于各特征图像对应的标签值和分类预测值,构造误差损失项;作为子单元,用于将误差损失项与正则项作为损失函数;训练子单元,用于利用损失函数对预训练神经网络模型进行训练,以得到训练好的神经网络模型。
95.可选地,拟合子单元用于将每个类别所对应的相关系数以及分类预测偏差作为训练样本;利用训练样本对构建的支持向量机回归模型进行训练,以得到相关系数与分类预测偏差之间的线性关系;基于线性关系拟合出的分类预测偏差与预训练神经网络模型输出的分类预测值之间的偏差,构建正则项。
96.可选地,拟合子单元用于利用线性关系拟合出同类别下任意两个特征图像对应的分类预测偏差;获取预训练神经网络模型输出的任意两个特征图像各自对应分类预测值;将任意两个特征图像各自对应的分类预测值的差值的平方作为模型预测偏差;将分类预测偏差与模型预测偏差的差值的平方作为正则项。
97.可选地,构造子单元用于将各特征图像对应的标签值和分类预测值进行均方差运算,以得到误差损失项。
98.可选地,构造子单元用于将各特征图像对应的标签值和分类预测值进行交叉熵运算,以得到误差损失项。
99.可选地,系数确定单元包括计算子单元和构建子单元;
计算子单元,用于计算目标类别下所有特征图像各自对应的图像均值;其中,目标类别为预训练神经网络模型包含的所有类别中的任意一个类别;构建子单元,用于基于图像均值以及目标类别下任意两个特征图像,构建出目标类别下任意两个特征图像之间的相关系数。
100.可选地,构建子单元用于将图像均值以及目标类别下任意两个特征图像输入至预先设置的相关系数计算公式,以得到目标类别下任意两个特征图像之间的相关系数;相关系数计算公式为:;其中,c表示目标类别,i表示目标类别下的第i个样本,j表示目标类别下的第j个样本,k表示通道数,表示目标类别c下第i个样本和第j个样本之间的相关系数,表示第i个样本的特征图像,表示第i个样本的特征图像的图像均值,表示第j个样本的特征图像,表示第j个样本的特征图像的图像均值,m表示特征图像的像素点的行下标,n表示特征图像的像素点的列下标。可选地,偏差确定单元用于将目标类别下任意两个特征图像对应的分类预测值的l2范数的平方作为目标类别下任意两个特征图像对应的分类预测偏差;其中,目标类别为预训练神经网络模型包含的所有类别中的任意一个类别。
101.可选地,针对于图像数据集的获取过程,装置包括获取单元和预处理单元;获取单元,用于获取初始图像数据集;预处理单元,用于对初始图像数据集进行预处理,以得到图像数据集。
102.可选地,预处理单元包括处理子单元和调整子单元;处理子单元,用于对初始图像数据集包含的图像进行裁剪、翻转和/或旋转处理,以得到新的图像数据集;调整子单元,用于按照预训练神经网络模型的输入图像尺寸,将新的图像数据集以及初始图像数据集包含的图像进行尺寸调整,以得到图像数据集。
103.可选地,还包括计算单元和规范化处理单元;计算单元,用于计算尺寸调整后的图像对应的亮度均值和方差;规范化处理单元,用于基于亮度均值和方差,对尺寸调整后的图像进行规范化处理,以得到最终的图像数据集。
104.可选地,还包括降维处理单元;降维处理单元,用于依据主成分分析法对特征图像进行降维处理,以得到最新的特征图像。
105.可选地,降维处理单元包括去中心化子单元、组成子单元、分解子单元、选取子单元和转换子单元;去中心化子单元,用于对目标特征图像进行去中心化处理,以得到去中心特征图
像;其中,目标特征图像为特征图像中任意一个特征图像;组成子单元,用于将所有通道下的去中心特征图像组成图像矩阵;分解子单元,用于对图像矩阵对应的协方差矩阵进行特征值分解,以得到特征值和特征向量;选取子单元,用于选取特征值最大的预设个数的目标特征值,将目标特征值对应的特征向量组成特征变换矩阵;其中,预设个数小于预训练神经网络模型的通道个数;转换子单元,用于依据特征变换矩阵,将所有通道下的目标特征图像转换为最新的目标特征图像。
106.可选地,去中心化子单元用于计算所有通道下目标特征图像对应的图像平均值;将每个通道下的目标特征图像减去图像平均值,以得到去中心特征图像。
107.可选地,转换子单元用于将特征变换矩阵与所有通道下的目标特征图像相乘,以得到最新的目标特征图像可选地,分析单元包括尺寸调整子单元、输入子单元和作为子单元;尺寸调整子单元,用于在获取到待分类图像的情况下,按照训练好的神经网络模型的输入图像尺寸,调整待分类图像的尺寸;输入子单元,用于将调整尺寸后的待分类图像输入至训练好的神经网络模型,以得到待分类图像对应的分类预测值;作为子单元,用于将取值最高的分类预测值所对应的类别作为待分类图像包含的图像类别。
108.图4所对应实施例中特征的说明可以参见图1至图3所对应实施例的相关说明,这里不再一一赘述。
109.由上述技术方案可以看出,利用预训练神经网络模型对获取的图像数据集进行分析,以得到特征图像和分类预测值;特征图像是包含目标物的图像,分类预测值反映了特征图像中目标物属于各类别的分值。为了充分挖掘特征图像之间的相关性,可以对同类别特征图像进行相关性分析,以确定出同类别特征图像之间的相关系数;依据同类别特征图像各自对应的分类预测值,确定出同类别特征图像之间的分类预测偏差。每个图像所对应的多通道特征图像可以看作是一个样本,相关系数和分类预测偏差之间的关联关系可以反映出不同样本之间的相关性。依据相关系数与分类预测偏差之间的关联关系以及各特征图像对应的标签值和分类预测值,对预训练神经网络模型进行参数调整,以得到训练好的神经网络模型。利用训练好的神经网络模型对获取的待分类图像进行分析,可以确定出待分类图像包含的图像类别。在该技术方案中,为了改善神经网络模型过拟合问题,基于不同样本之间的相关性,对预训练神经网络模型进行微调训练。通过分析同类别特征图像之间的相关性,充分考虑了样本之间相关性对输出类别的影响,从而改善神经网络模型对于样本类别标签的过拟合问题,进而增强神经网络模型的泛化能力,有效的提升了图像分类识别的准确性。
110.图5为本技术实施例提供的一种电子设备的结构图,如图5所示,电子设备包括:存储器20,用于存储计算机程序;处理器21,用于执行计算机程序时实现如上述实施例图像分类方法的步骤。
111.本实施例提供的电子设备可以包括但不限于智能手机、平板电脑、笔记本电脑或
台式电脑等。
112.其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
113.存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的图像分类方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括windows、unix、linux等。数据203可以包括但不限于图像数据集、待分类图像等。
114.在一些实施例中,电子设备还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
115.本领域技术人员可以理解,图5中示出的结构并不构成对电子设备的限定,可以包括比图示更多或更少的组件。
116.可以理解的是,如果上述实施例中的图像分类方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、磁碟或者光盘等各种可以存储程序代码的介质。
117.基于此,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述图像分类方法的步骤。
118.本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
119.以上对本技术实施例所提供的一种图像分类方法、装置、设备和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见
方法部分说明即可。
120.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
121.以上对本技术所提供的一种图像分类方法、装置、设备和计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1