模型训练的处理方法、装置、设备和存储介质与流程

文档序号:24486651发布日期:2021-03-30 21:10阅读:111来源:国知局
模型训练的处理方法、装置、设备和存储介质与流程

本发明涉及人工智能领域,尤其涉及一种模型训练的处理方法、装置、设备和存储介质。



背景技术:

卷积神经网络模型(convolutionneuralnetworks,cnns)是一种深度学习模型,在图像识别等领域中具有非常出色的性能,得到了广泛应用。cnns主要由卷积部分和全连接部分组成。其中卷积部分包含卷积层、激活函数层和池化层等,作用是提取数据的特征;全连接部分的作用是连接特征和输出计算损失,并进行识别和分类等操作。

然而,由于深度学习模型端到端的学习策略和极其复杂的模型参数结构,cnns一直如同黑盒一般令人难以理解和解释其中的工作原理。cnns经过训练收敛后,用户在使用中仅能得到模型的最终输出结果(如输入所属的类别等),却无法理解cnns是如何从原始输入得到预测输出的。这种难以解释性使得当前cnns等深度学习模型在无人驾驶、医疗图像识别等领域的落地遭遇了很大阻碍。

综上所述,目前已有的解释性模型,缺乏对模型训练过程的量化评价标准,并且缺乏对于黑盒模型的实时解释,以对黑盒模型的训练过程/训练程度进行实时评估,导致无法在模型训练时调整训练策略或特征工程。



技术实现要素:

本发明的主要目的在于提供一种模型训练的处理方法、装置、设备和存储介质,用于获取深度学习模型训练过程中的量化评价标准,进一步了解模型的训练过程中的学习情况的变化。

为实现上述目的,本发明提供一种模型训练的处理方法,包括:

在对原始卷积神经网络模型的迭代训练过程中,根据预设采样间隔获取在迭代训练过程中的多个中间模型的特征提取器的输出和分类器的输出;

针对每个中间模型,根据获取到的所述中间模型的特征提取器的输出和分类器的输出,获取在所述中间模型对训练集中的每种特征的信息增益,稀疏性参数以及完备性参数;其中,每种特征的信息增益用于表示所述特征区分数据样本的能力,每种特征的稀疏性参数用于表示特征之间的独立程度,每种特征的完备性参数用于表示所述特征对所述深度学习模型的影响程度;

针对每个中间模型,将所述中间模型的特征提取器的输出以及分类器的输出作为训练数据进行树模型训练,得到解释模型;

对每个中间模型对应的解释模型的叶节点的分类准确度进行测量,得到树准确度,所述树准确度用于指示所述解释模型的分类准确度;

计算每个中间模型对应的解释模型的每个叶节点能够正确分类的样本占所有样本中对应类别样本的数量比,得到树完备性参数;

输出每个中间模型对应的每种特征的信息增益,每种特征的稀疏性参数,每种特征的完备性参数,树准确度以及树完备性参数。

在一种具体实施方式中,所述方法还包括:

对每个中间模型对应的每种特征的信息增益,每种特征的稀疏性参数,每种特征的完备性参数,树准确度以及树完备性参数进行可视化处理,得到针对所述中间模型进行评估的可视化结果;

输出每个中间模型对应的所述可视化结果。

在一种具体实施方式中,所述方法还包括:

对每个中间模型对应的解释模型进行可视化处理,得到解释树,其中,所述解释树的每个节点上包括:划分属性,所述节点的信息熵,所述节点的样本数量,所述节点的样本分布以及所述节点的类型。

在一种具体实施方式中,所述方法还包括:

对每个中间模型对应的所述解释树的每个节点上的样本计算平均值后进行可视化处理,得到可视化解释树。

在一种具体实施方式中,所述根据获取到的所述中间模型的特征提取器的输出和分类器的输出,获取在所述中间模型对训练集中的每种特征的信息增益,稀疏性参数以及完备性参数,包括:

对所述中间模型的特征提取器的输出中每种特征的输出值进行滤波,并在滤波后取均值,得到所述中间模型对所述特征的信息增益;

从所述中间模型的卷积层中提取出所有滤波矩阵,根据所述所有滤波矩阵分别进行转换,两两计算每个特征的k-l散度矩阵,并根据每个特征的k-l散度矩阵得到所述特征对应的稀疏性参数;

根据所述中间模型对每种特征的信息增益从大到小的顺序依次从所述数据集中删除一种特征集合,并在每次删除后根据未被删除的所有特征集合构建随机森林模型,并计算所述随机森林模型的测试性能;

当存在一个随机森林模型的测试性能相较于上一个模型的测试性能的变化大于预设值时,获取已删除的特征集合的数量;

根据所述已删除的特征集合的数量和所述数据集中的特征集合的总数,计算获取所述完备性参数。

在一种具体实施方式中,所述对每个中间模型对应的解释模型的叶节点的分类准确度进行测量,得到树准确度,包括:

针对每个中间模型,测量获取所述中间模型对应的解释模型分类最终落在每个叶节点上的总样本数以及每个叶节点分类正确的样本数;

采用公式计算所述解释模型中每个叶节点的分类准确度acci;其中,i为叶节点序号,ni为经过所述解释模型分类最终落在该叶节点的总样本数,ci为所述叶节点分类正确的样本数,所述树准确度包括所述每个叶节点的分类准确度。

在一种具体实施方式中,所述计算每个中间模型对应的解释模型的每个叶节点能够正确分类的样本占所有样本中对应类别样本的数量比,得到树完备性参数,包括:

采用公式:计算每个中间模型对应的解释模型的每个叶节点能够正确分类的样本占所有样本中对应类别样本的数量比compi,得到所述中间模型对应的所述树完备性参数;其中,i为叶节点序号,ci为该叶节点分类正确的样本数,nc为所有样本中与该节点同类的样本数。

本发明还提供一种模型训练的处理装置,包括:

第一处理模块,用于在对原始卷积神经网络模型的迭代训练过程中,根据预设采样间隔获取在迭代训练过程中的多个中间模型的特征提取器的输出和分类器的输出;

第二处理模块,用于针对每个中间模型,根据获取到的所述中间模型的特征提取器的输出和分类器的输出,获取在所述中间模型对训练集中的每种特征的信息增益,稀疏性参数以及完备性参数;其中,每种特征的信息增益用于表示所述特征区分数据样本的能力,每种特征的稀疏性参数用于表示特征之间的独立程度,每种特征的完备性参数用于表示所述特征对所述深度学习模型的影响程度;

第三处理模块,用于针对每个中间模型,将所述中间模型的特征提取器的输出以及分类器的输出作为训练数据进行树模型训练,得到解释模型;

所述第三处理模块还用于对每个中间模型对应的解释模型的叶节点的分类准确度进行测量,得到树准确度,所述树准确度用于指示所述解释模型的分类准确度;

所述第三处理模块还用于计算每个中间模型对应的解释模型的每个叶节点能够正确分类的样本占所有样本中对应类别样本的数量比,得到树完备性参数;

输出模块,用于输出每个中间模型对应的每种特征的信息增益,每种特征的稀疏性参数,每种特征的完备性参数,树准确度以及树完备性参数。

在一种具体实施方式中,所述装置还包括:

第四处理模块,用于对每个中间模型对应的每种特征的信息增益,每种特征的稀疏性参数,每种特征的完备性参数,树准确度以及树完备性参数进行可视化处理,得到针对所述中间模型进行评估的可视化结果;

所述输出模块还用于输出每个中间模型对应的所述可视化结果。

在一种具体实施方式中,所述装置还包括:

第五处理模块,用于对每个中间模型对应的解释模型进行可视化处理,得到解释树,其中,所述解释树的每个节点上包括:划分属性,所述节点的信息熵,所述节点的样本数量,所述节点的样本分布以及所述节点的类型。

在一种具体实施方式中,所述第五处理模块还用于:

对每个中间模型对应的所述解释树的每个节点上的样本计算平均值后进行可视化处理,得到可视化解释树。

在一种具体实施方式中,所述第二处理模块具体用于:

对所述中间模型的特征提取器的输出中每种特征的输出值进行滤波,并在滤波后取均值,得到所述中间模型对所述特征的信息增益;

从所述中间模型的卷积层中提取出所有滤波矩阵,根据所述所有滤波矩阵分别进行转换,两两计算每个特征的k-l散度矩阵,并根据每个特征的k-l散度矩阵得到所述特征对应的稀疏性参数;

根据所述中间模型对每种特征的信息增益从大到小的顺序依次从所述数据集中删除一种特征集合,并在每次删除后根据未被删除的所有特征集合构建随机森林模型,并计算所述随机森林模型的测试性能;

当存在一个随机森林模型的测试性能相较于上一个模型的测试性能的变化大于预设值时,获取已删除的特征集合的数量;

根据所述已删除的特征集合的数量和所述数据集中的特征集合的总数,计算获取所述完备性参数。

在一种具体实施方式中,所述第三处理模块具体用于:

针对每个中间模型,测量获取所述中间模型对应的解释模型分类最终落在每个叶节点上的总样本数以及每个叶节点分类正确的样本数;

采用公式计算所述解释模型中每个叶节点的分类准确度acci;其中,i为叶节点序号,ni为经过所述解释模型分类最终落在该叶节点的总样本数,ci为所述叶节点分类正确的样本数,所述树准确度包括所述每个叶节点的分类准确度。

在一种具体实施方式中,所述第三处理模块具体用于:

采用公式:计算每个中间模型对应的解释模型的每个叶节点能够正确分类的样本占所有样本中对应类别样本的数量比compi,得到所述中间模型对应的所述树完备性参数;其中,i为叶节点序号,ci为该叶节点分类正确的样本数,nc为所有样本中与该节点同类的样本数。

本发明还提供一种电子设备,所述电子设备包括:存储器、处理器及输出接口,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如前述任一项所述的模型训练的处理方法的步骤。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任一项所述的模型训练的处理方法的步骤。

本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时用于实现前述任一项所述的模型训练的处理方法。

本发明中,在对深度学习模型的训练时,对原始卷积神经网络模型进行迭代训练过程中,根据采样间隔获取多个中间模型的特征提取器的输出以及分类器的输出,基于每个中间模型的输出,分别获取每个中间模型对训练集中的每种特征的信息增益,稀疏性参数以及完备性参数,然后针对中间模型的输出进行树模型训练,得到解释模型,基于解释模型可以得到每个中间模型对应的分类准确度,以及树完备性参数,再将获取到的每个中间模型对应的各种指标输出,从而可以基于这些参数确定模型在训练过程中的训练程度,可以对不同训练阶段的模型对特征的处理情况以及变化情况进行量化解释,从而提供一种对模型训练过程进行量化分析和解释的工具。

附图说明

图1为本发明提供的模型训练的处理方法实施例一的流程示意图;

图2为本发明提供的一种具体的信息增益与特征数量的示意图;

图3为本发明提供的一种rf模型的测试性能与特征数量的对应关系示意图;

图4为本发明提供的模型训练的处理方法实施例二的流程示意图;

图5为本发明提供的一中间模型对应的雷达图;

图6为本发明提供的模型训练的处理方法实施例三的流程示意图;

图7为本发明提供的一中间模型对应的解释树的示意图;

图8为本发明提供的一中间模型对应的可视化解释树的示意图;

图9为本发明提供的模型训练的处理装置实施例一的结构示意图;

图10为本发明提供的模型训练的处理装置实施例二的结构示意图;

图11为本发明提供的模型训练的处理装置实施例三的结构示意图;

图12为本发明提供的电子设备实施例一的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

卷积神经网络模型(convolutionneuralnetworks,cnns)是一种深度学习模型,目前在各个技术领域都有广泛的应用,然而目前现有技术中并没有合适的对深度学习模型进行解释和分析的技术方案,导致用户无法理解其工作原理,并不能了解其在无人驾驶,医疗图像识别等领域中的具体效果和功能,因此,本发明提供一种模型训练的处理方法,对在深度学习模型的训练过程中,根据中间模型的输出进行分析,并通过输出分析结果,更好的量化解释模型训练过程中模型对特征的处理情况以及变化情况。

本发明技术方案的整理思路是:原始卷积神经网络模型通过训练集中的数据进行迭代训练最终可以得到深度学习模型,在该过程中,每迭代训练一次次就可以得到一个中间模型,基于此,为了了解模型训练过程中对特征的处理情况以及模型本身的性能变化,则可以对每次迭代后的中间模型的输出进行处理,由于迭代的次数较多,为了控制运算量,可以按照一定的采样间隔,采样获取多个中间模型的输出。具体的,该类型的中间模型可根据结构将其划分为特征提取器和分类器,因此可以提取出每个中间模型的中间层的特征输出(即特征提取器输出)及模型的最终输出(即分类器输出),计算可解释评估指标,包括特征信息增益、特征稀疏性、特征完备性。之后,利用前述获取的特征输出和最终输出,构建具有强可解释性的决策树模型(decisiontree,dt)或随机森林模型(randomforest,rf)等树模型,计算叶节点分类准确度以及叶节点的完备性。最后,对每个中间模型对应的上述这些性能结果进行汇总处理,则可以实现对模型训练过的解释。

本发明提供的模型训练的处理方法可以应用在可以进行数据分析或者具有数据运算能力的服务器,计算机,智能终端等具有数据处理能力的电子设备中,对此本方案不做限制。

下面通过几个具体实施例对模型训练的处理方法进行具体说明。

图1为本发明提供的模型训练的处理方法实施例一的流程示意图,如图1所示,该模型训练的处理方法包括以下步骤:

s101:在对原始卷积神经网络模型的迭代训练过程中,根据预设采样间隔获取在迭代训练过程中的多个中间模型的特征提取器的输出和分类器的输出。

本方案中,为了能够获取到深度学习模型,需要根据预设的训练集对原始卷积神经网络模型进行迭代训练,每迭代一次都会产生一个中间模型。该中间模型的结构还是卷积神经网络模型的结构,只是迭代过程中会逐渐趋近于最终的深度学习模型。

在本步骤中,为了能够对模型训练过程的变化情况和对特征的处理情况进行分析,需要获取模型训练过程中的中间模型的输出进行分析处理,因此需要对不同的中间模型的输出进行采样。由于模型训练过程中迭代次数较多,因此需要设定一定的采样间隔,然后根据预设的采样间隔,采样获取多个中间模型的输出。

应理解,设定实时采样的该采样间隔可以是固定数量或比例的迭代轮次(epoch)。在原始卷积神经网络模型的迭代训练过程中,每间隔设定的迭代间隔次数,对本次迭代后的中间模型的输出进行一次采样。该输出包括,原始卷积神经网络模型中特征提取器的输出矩阵(特征维度)以及原始卷积神经网络模型中分类器(分类维度)的输出。

s102:针对每个中间模型,根据获取到的中间模型的特征提取器的输出和分类器的输出,获取在中间模型对训练集中的每种特征的信息增益,稀疏性参数以及完备性参数。

在本步骤中,应理解,采样过程是在模型迭代训练过程中,根据预设采样间隔实时采样获取的,多个中间模型也是具有一定的先后顺序的。每个中间模型对应的输出也有所不同,为了能够对模型训练过程中的变化进行分析,需要针对每个中间模型的输出进行分析处理,得到每个中间模型对应的量化指标。

在该方案中,应理解,针对同一个中间模型,其对应的每种特征的信息增益用于表示所述特征区分数据样本的能力,每种特征的稀疏性参数用于表示特征之间的独立程度,每种特征的完备性参数用于表示所述特征对所述深度学习模型的影响程度。

下面以训练集中的任一数据,任一中间模型为例,详细说明针对该中间模型计算上述几个指标的过程,其他的每个中间模型计算上述几个指标的过程与该方案类似。

一、特征的信息增益(featureinformationgain)

首先,根据输入迭代训练的中间模型的训练集中的数据,提取出该中间模型的特征提取器的输出,针对特征提取器的输出中每种特征的输出值进行滤波,并在滤波后取均值,得到该中间模型对所述特征的信息增益。

具体的,该方案中,特征提取器是该中间模型的中间层,输出的是不同的特征。信息增益即树模型中父子节点信息熵的差值,可表示一个特征区分数据样本的能力,在该方案中,该树模型是根据该中间模型的特征提取器和分类器的输出构建的,比该中间模型具有更强的可解释性的模型。对从该中间模型(即原始卷积神经网络模型)的特征提取器输出中获取的所有特征,计算信息增益。

信息增益的计算公式可以表示为划分操作前后父节点的信息熵i(parent)和子节点的信息熵i(child)的差值:

δinfogain=i(parent)-i(child)

其中,任一个节点的信息熵i可以表示为:

其中,m表示该中间模型在该节点所在层输出的特征的数量,pk表示第k个特征对应的样本占所有样本的数量,上述公式中的信息熵i具体指用一系列阈值(如0.1至0.9取九等分)对该中间模型的某一层的所有输出值进行滤波(即大于阈值取原值,小于阈值取0),对每一输出值的所有滤波结果取均值,得到一个节点的信息熵,然后通过子节点和父节点之间的信息熵的差值则可以得到某一个特征对应的信息增益值。图2为本发明提供的一种具体的信息增益与特征数量的示意图,在得到每个特征对应的信息增益值之后,对所有特征的信息增益值从高到低进行排序,结果如图2所示,图2中的横轴表示特征数量,纵轴表示信息增益。

特征信息增益用于衡量一个特征对于模型分类能力的影响程度,越高的信息增益表示这一特征对于模型的分类越重要。也就是说在具体的深度学习模型的应用过程中,信息增益值更高的特征对模型的分类结果来说更为关键。

二、特征的稀疏性参数,也称为稀疏性(featuresparsity)

在上述过程中,将训练集中的数据迭代输入至该中间模型之后,从所述中间模型的卷积层中提取出所有滤波矩阵,根据所述所有滤波矩阵分别进行转换,两两计算每个特征的k-l散度矩阵,并根据每个特征的k-l散度矩阵得到所述特征对应的稀疏性参数。

在上述的中间模型(即原始卷积神经网络模型)的全连接层的前一卷积层中,提取所有的滤波器矩阵(例如,某卷积神经网络模型的第二个卷积层具有16个10*10的特征矩阵,共表示1600个特征,也就是前述信息增益计算过程中的m为1600)及最终输出结果,经一系列转换操作后,两两计算每个特征的k-l散度矩阵(kullback-leiblerdivergencematrix)。

具体的,kl散度的计算公式可以表示为:

其中p(x),q(x)是随机变量x上的两个概率分布。在这里特征的稀疏性参数包括kl散度。特征稀疏性用于表示了该中间模型的卷积层提取出的特征之间的相互独立性。

三、特征的完备性参数,也称为特征完备性(featureredundancy)

在上述方案的基础上,计算得到每个特征的信息增益之后,根据该中间模型对每种特征的信息增益从大到小的顺序依次从所述训练集中删除一种特征集合,并在每次删除后根据未被删除的所有特征集合构建随机森林模型,并计算所述随机森林模型的测试性能。当存在一个随机森林模型的测试性能相较于上一个模型的测试性能的变化大于预设值时,获取已删除的特征集合的数量;根据所述已删除的特征集合的数量和所述数据集中的特征集合的总数,计算获取所述完备性参数。

具体的,计算得到每个特征的信息增益后,可以对所有特征进行排序,按信息增益的大小从低到高依次删除特征集合,也就是将训练集中的一个特征集合删掉,在每次删除一个特征集合之后,再使用未被删除的特征集合构建若干个具有强可解释性的随机森林模型(randomforest,rf)。例如,若特征总数为400个,则可得到400个不同的rf模型。计算这些rf模型在测试数据集上的性能,记录模型性能(如预测准确度)发生陡降突变(也就是前后两个rf模型的测试性能的变化大于预设值)的位置,如图3所示,图3为本发明提供的一种rf模型的测试性能与特征数量的对应关系示意图。图3中的横轴表示特征数量,纵轴表示rf模型的性能。

以图3为例,可知当删除360个左右的特征时,rf模型的预测性能开始出现陡降。因此可以确定最后40个特征对该中间模型的预测性能具有显著的影响。

具体的,可以根据对该中间模型整体影响比较大的特征的数量,以及总的特征数量计算得到特征的完备性参数,以上述图3中所示内容为例,可计算得到该中间模型的完备性参数为40/400=1/10,即0.1。特征完备性表示了特征对该中间模型的整体预测性能的影响程度,可用于评估特征对于模型性能的重要程度。

s103:针对每个中间模型,将中间模型的特征提取器的输出以及分类器的输出作为训练数据进行树模型训练,得到解释模型。

s104:对每个中间模型对应的解释模型的叶节点的分类准确度进行测量,得到树准确度,树准确度用于指示解释模型的分类准确度。

在上述步骤中,在该中间模型中,根据结构其可以包括特征提取器以及分类器,在前述方案的技术上,将该中间模型中提取出模型中间层的特征输出(即特征提取器输出)及模型的最终输出(即分类器输出)作为训练数据对,构建具有强可解释性的树模型,如决策树或随机森林等。这类树模型,实质上是以可解释模型的方式对原始模型的行为进行拟合,称为原始模型的解释模型。

进一步可以通过对解释模型的叶节点进行测量,最终计算出解释模型的分类准确度以及树完备性参数。下面在前述步骤的基础上,计算树准确度。

四、树准确度(treeaccuracy)

为了评估基于该中间模型的中间结果构建出的解释模型,可对解释模型的叶节点的分类准确度进行测量。

具体的,针对该中间模型,测量获取该中间模型的对应的解释模型分类最终落在每个叶节点上的总样本数以及每个叶节点分类正确的样本数;

采用公式计算所述解释模型中每个叶节点的分类准确度acci;

其中,i为叶节点序号,ni为经过所述解释模型分类最终落在该叶节点的总样本数,ci为所述叶节点分类正确的样本数,所述树准确度包括所述每个叶节点的分类准确度。

s105:计算每个中间模型对应的解释模型的每个叶节点能够正确分类的样本占所有样本中对应类别样本的数量比,得到树完备性参数。

在上述步骤的基础上,进一步地,基于该中间模型构建具有强可解释性的树模型后,还可以计算叶节点的完备性,即每个叶节点能够正确分类的样本占所有样本中该类的样本数量的数量比,得到树完备性参数。具体的计算方式如下:

五、树完备性(treecompleteness)

针对该中间模型,采用公式:计算该中间模型对应的所述解释模型的每个叶节点能够正确分类的样本占所有样本中对应类别样本的数量比compi,得到所述树完备性参数;其中,i为叶节点序号,ci为该叶节点分类正确的样本数,nc为所有样本中与该节点同类的样本数。

s106:输出每个中间模型对应的每种特征的信息增益,每种特征的稀疏性参数,每种特征的完备性参数,树准确度以及树完备性参数。

在本步骤中,在通过上述过程计算得到每一个中间模型对应的指标,具体包括每种特征的信息增益,稀疏性参数,完备性参数,树准确度和树完备性参数之后,为了能够直观的帮助用户理解该深度学习模型的训练过程,需要将每个中间模型对应的这些参数指标输出,具体的输出方式可以是直接在电子设备的界面上进行展示,或者通过与用户的显示器,电脑,手机等终端设备之间进行交互,在终端设备上进行呈现。

本实施例提供的模型训练的处理方法,在对深度学习模型的训练时,对原始卷积神经网络模型进行迭代训练过程中,根据采样间隔获取多个中间模型的特征提取器的输出以及分类器的输出,基于每个中间模型的输出,分别获取每个中间模型对训练集中的每种特征的信息增益,稀疏性参数以及完备性参数,然后针对中间模型的输出进行树模型训练,得到解释模型,基于解释模型可以得到每个中间模型对应的分类准确度,以及树完备性参数,再将获取到的每个中间模型对应的各种指标输出,从而可以基于这些参数确定模型在训练过程中的训练程度,可以对不同训练阶段的模型对特征的处理情况以及变化情况进行量化解释,从而向用户提供一种对深度学习模型的训练过程进行量化分析和解释的工具。

图4为本发明提供的模型训练的处理方法实施例二的流程示意图,如图4所示,在前述实施例的基础上,该模型训练的处理方法还包括以下步骤:

s107:对每个中间模型对应的每种特征的信息增益,每种特征的稀疏性参数,每种特征的完备性参数,树准确度以及树完备性参数进行可视化处理,得到针对中间模型进行评估的可视化结果。

s108:输出每个中间模型对应的可视化结果。

在上述步骤中,为了能够帮助用户更好的理解深度学习模型训练过程中的各种指标,可以对计算得到的每个中间模型对应的用于解释的指标进行可视化处理,得到一个比较直观的可视化的结果,该可视化结果可以是可视化的图案,表格等图表,例如:雷达图,并最终将可视化结果进行显示,或者通过用户的终端设备进行输出。

在一种具体实例中,针对其中一个中间模型进行举例说明,可将该中间模型对应的各指标维度进行可视化处理,可得到对于解释该中间模型的评估雷达图。图5为本发明提供的一中间模型对应的雷达图,如图5所示,该方案中的电子设备对三种具有不同结构的卷积神经网络模型(lenet(图中用较长的虚线图表示,最内侧的多边形),alexnet(图中用实线表示),vgg-16(图中用较短的虚线图表示,最外侧的虚线图))采用同一训练集进行训练时,获取到同一个迭代次数对应的中间模型的各指标之后,进行前述的可视化处理,得到每个模型训练过程中的中间模型对应的雷达图,如图5所示。

本申请实施例提供的模型训练的处理方法,为深度学习模型的训练过程提供了量化的可解释评价指标,可以用于客观对比不同迭代次数的中间模型的性能变化,也可以针对不同类型的深度学习模型训练,还可以提供中间模型的性能相关的解释的雷达图,为进一步提升模型性能提供有效的依据和量化指标。整体上解决了现有技术中没有对深度学习模型的训练过程进行量化解释和分析的工具的问题。

图6为本发明提供的模型训练的处理方法实施例三的流程示意图,如图6所示,在上述任一实施例的基础上,本发明提供的模型训练的处理方法还包括以下步骤:

s109:对每个中间模型对应的解释模型进行可视化处理,得到解释树。

其中,所述解释树的每个节点上包括:划分属性,所述节点的信息熵,所述节点的样本数量,所述节点的样本分布以及所述节点的类型。

在本步骤中,为了能够更清楚的对中间模型进行量化分析,可以将每个中间模型对应的解释模型进行可视化处理,解释模型是树形结构,因此该可视化处理之后可以生成可视的解释树,该解释树的各个节点中的信息可直接进行显示,至少可以包括划分属性,信息熵,样本数量,样本分布以及节点类型。

图7为本发明提供的一中间模型对应的解释树的示意图,如图7所示,该解释树中包括多个不同的节点,每个节点至少包括两个子节点,每个节点的信息包括划分属性,信息熵,样本数量,样本分布以及节点类型对应的值。

可选的,该模型训练的处理方法还可以包括一下步骤:

s110:对每个中间模型对应的解释树的每个节点上的样本计算平均值后进行可视化处理,得到可视化解释树。

在本步骤中,上述的可视化之后解释树的每个节点上的信息还是比较多,因此为了进一步的让用户了解中间模型的训练程度,可以进一步的对每个节点上的样本计算平均值,得到可视化解释树。

图8为本发明提供的一中间模型对应的可视化解释树的示意图,如图8所示,可以将图7所示的解释树的每一节点上分到的所有样本进行平均后可视化,得到图8中的可视化解释树,这种样本可视化解释树可以让用户清晰的得知解释树的学习程度,并且可调整该解释树模型的深度(黑色线条为深度3解释树,灰色线条为深度5),从而获得不同粒度的解释结果。

本发明提供的模型训练的处理方法,改进了提取解释结果的时机,在模型的训练过程中按照一定的间隔采样并进行解释,而不是在模型训练完成之后再进行解释,可实现以可解释的方式反映出模型的各项解释指标在训练过程中的变化,如特征信息增益、特征稀疏性、特征完备性及解释模型等。此外,本发明还加入了解释树的可视化处理,有利于用户在模型训练中实时调整训练策略或特征工程。

综上所述,本发明的技术方案为深度学习模型的训练过程提供了量化的可解释评价指标,可以用于客观对比不同深度的模型的性能。同时可实现在深度学习模型在训练过程中的实时可视化解释,有利于技术人员在模型训练过程中对模型的训练策略进行调整,或对模型的特征工程进行调优等。

图9为本发明提供的模型训练的处理装置实施例一的结构示意图,如图9所示,该模型训练的处理装置10,包括:

第一处理模块11,用于在对原始卷积神经网络模型的迭代训练过程中,根据预设采样间隔获取在迭代训练过程中的多个中间模型的特征提取器的输出和分类器的输出;

第二处理模块12,用于针对每个中间模型,根据获取到的所述中间模型的特征提取器的输出和分类器的输出,获取在所述中间模型对训练集中的每种特征的信息增益,稀疏性参数以及完备性参数;其中,每种特征的信息增益用于表示所述特征区分数据样本的能力,每种特征的稀疏性参数用于表示特征之间的独立程度,每种特征的完备性参数用于表示所述特征对所述深度学习模型的影响程度;

第三处理模块13,用于针对每个中间模型,将所述中间模型的特征提取器的输出以及分类器的输出作为训练数据进行树模型训练,得到解释模型;

所述第三处理模块13还用于对每个中间模型对应的解释模型的叶节点的分类准确度进行测量,得到树准确度,所述树准确度用于指示所述解释模型的分类准确度;

所述第三处理模块13还用于计算每个中间模型对应的解释模型的每个叶节点能够正确分类的样本占所有样本中对应类别样本的数量比,得到树完备性参数;

输出模块14,用于输出每个中间模型对应的每种特征的信息增益,每种特征的稀疏性参数,每种特征的完备性参数,树准确度以及树完备性参数。

本实施例提供的模型训练的处理装置,用于执行前述任一方法实施例提供的技术方案,其实现原理和技术效果类似,在此不再赘述。

图10为本发明提供的模型训练的处理装置实施例二的结构示意图,如图10所示,该模型训练的处理装置10还包括:

第四处理模块15,用于对每个中间模型对应的每种特征的信息增益,每种特征的稀疏性参数,每种特征的完备性参数,树准确度以及树完备性参数进行可视化处理,得到针对所述中间模型进行评估的可视化结果;

所述输出模块14还用于输出每个中间模型对应的所述可视化结果。

图11为本发明提供的模型训练的处理装置实施例三的结构示意图,如图11所示,该模型训练的处理装置10还包括:

第五处理模块16,用于对每个中间模型对应的解释模型进行可视化处理,得到解释树,其中,所述解释树的每个节点上包括:划分属性,所述节点的信息熵,所述节点的样本数量,所述节点的样本分布以及所述节点的类型。

在上述实施例的基础上,所述第五处理模块16还用于:

对每个中间模型对应的所述解释树的每个节点上的样本计算平均值后进行可视化处理,得到可视化解释树。

在上述任一实施例的基础上,所述第二处理模块12具体用于:

对所述中间模型的特征提取器的输出中每种特征的输出值进行滤波,并在滤波后取均值,得到所述中间模型对所述特征的信息增益;

从所述中间模型的卷积层中提取出所有滤波矩阵,根据所述所有滤波矩阵分别进行转换,两两计算每个特征的k-l散度矩阵,并根据每个特征的k-l散度矩阵得到所述特征对应的稀疏性参数;

根据所述中间模型对每种特征的信息增益从大到小的顺序依次从所述数据集中删除一种特征集合,并在每次删除后根据未被删除的所有特征集合构建随机森林模型,并计算所述随机森林模型的测试性能;

当存在一个随机森林模型的测试性能相较于上一个模型的测试性能的变化大于预设值时,获取已删除的特征集合的数量;

根据所述已删除的特征集合的数量和所述数据集中的特征集合的总数,计算获取所述完备性参数。

可选的,所述第三处理模块13具体用于:

针对每个中间模型,测量获取所述中间模型对应的解释模型分类最终落在每个叶节点上的总样本数以及每个叶节点分类正确的样本数;

采用公式计算所述解释模型中每个叶节点的分类准确度acci;其中,i为叶节点序号,ni为经过所述解释模型分类最终落在该叶节点的总样本数,ci为所述叶节点分类正确的样本数,所述树准确度包括所述每个叶节点的分类准确度。

可选的,所述第三处理模块13具体用于:

采用公式:计算每个中间模型对应的解释模型的每个叶节点能够正确分类的样本占所有样本中对应类别样本的数量比compi,得到所述中间模型对应的所述树完备性参数;其中,i为叶节点序号,ci为该叶节点分类正确的样本数,nc为所有样本中与该节点同类的样本数。

上述任一实施例提供的模型训练的处理装置,用于执行前述任一方法实施例提供的技术方案,其实现原理和技术效果类似,在此不再赘述。

图12为本发明提供的电子设备实施例一的结构示意图,如图8所示,该电子设备20包括:存储器22、处理器21及输出接口23,此外还包括存储在所述存储器22上并可在所述处理器21上运行的计算机程序,所述计算机程序被所述处理器21执行时实现前述任一方法实施例提供的模型训练的处理方法的步骤。

可选的,该电子设备20的上述各个器件之间可以通过总线24连接。

存储器22可以是单独的存储单元,也可以是集成在处理器21中的存储单元。处理器21的数量为一个或者多个。

在上述在电子设备20的实现中,存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互,也就是存储器和处理器可以通过接口连接,也可以集成在一起。例如,这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接,如可以通过总线连接。存储器可以是,但不限于,随机存取存储器(randomaccessmemory,简称:ram),只读存储器(readonlymemory,简称:rom),可编程只读存储器(programmableread-onlymemory,简称:prom),可擦除只读存储器(erasableprogrammableread-onlymemory,简称:eprom),电可擦除只读存储器(electricerasableprogrammableread-onlymemory,简称:eeprom)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。进一步地,上述存储器内的软件程序以及模块还可包括操作系统,其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通信,从而提供其他软件组件的运行环境。

处理器21可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,简称:cpu)、图像处理器等,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。

本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任一方法实施例提供的模型训练的处理方法的步骤。

本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时用于实现前述任一方法实施例提供的模型训练的处理方法。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台电子设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1