一种模型性能评价方法、装置、设备及存储介质与流程

文档序号:25520492发布日期:2021-06-18 20:07阅读:68来源:国知局
一种模型性能评价方法、装置、设备及存储介质与流程
本发明实施例涉及人工智能
技术领域
,尤其涉及一种模型性能评价方法、装置、设备及存储介质。
背景技术
:近年来,随着模型在银行业的广泛应用,银行的模型已由风险计量类模型发展至人工智能和机器学习模型。机器学习类模型在数据分析、信贷审批、决策推断和客户管理等多领域均有着较为广泛的应用。而分类模型又是机器学习模型中最典型、应用面最广的一种模型,为明确模型的可用性需对其进行性能评估。现有的分类模型评价方法一般包括以下几步:1)在对模型的性能进行评价前,选取少数度量指标,如混淆矩阵、接受者工作特征曲线(receiveroperatingcharacteristic,roc)和曲线下面积(areaundercurve,auc)等;2)选取度量指标后,利用测试集和验证集数据,计算模型的各个指标值,根据计算得到的指标值和已有的一些评估标准,得出模型性能是否达标的综合结论。然而,现有分类模型性能评价方法中,并未考虑在模型处于不同阶段和不同维度时所需进行评价的性能指标不同,导致模型评价维度并不全面,模型评价体系不完善,进而导致最终得到的模型评价结果并不准确,可信度较低。技术实现要素:本发明提供一种模型性能评价方法、装置、设备及存储介质,以在更多维度上,通过更有针对性的评价指标对待评价的目标模型实现模型性能评价,提高了模型性能评价的针对性,提升了模型评价结果的准确性和可信度。第一方面,本发明实施例提供了一种模型性能评价方法,包括:获取待评价的目标模型,目标模型的待评价因素以及与目标模型对应的模型数据;根据待评价因素在预设评价指标集中确定待评价指标,并获取各待评价指标对应的权重;根据模型数据确定各待评价指标对应的指标得分,并根据各指标得分与对应的权重确定待评价因素对应的模型综合评分。进一步地,目标模型的待评价因素包括:样本评价因素、特征评价因素、模型评价因素、前端监控评价因素和后端监控评价因素。进一步地,根据待评价因素在预设评价指标集中确定待评价指标,包括:若待评价因素为样本评价因素,则待评价指标包括样本数量、正负样本占比、特征数量和特征缺失率;若待评价因素为特征评价因素,则待评价指标包括单调特征占比、预测能力特征占比、稳定特征占比和弱相关性特征占比;若待评价因素为模型评价因素,则待评价指标包括准确性评价指标、模型区分度评价指标、提升图、模型稳定性评价指标和模型迁移率;若待评价因素为前端监控评价因素,则待评价指标包括稳定特征占比和模型稳定性评价指标;若待评价因素为后端监控评价因素,则待评价指标包括模型区分度评价指标和模型迁移率。进一步地,获取各待评价指标对应的权重之前,还包括:基于层次分析法确定预设评价指标集中各评价指标的层次总排序;根据层次总排序确定各评价指标的权重。进一步地,基于层次分析法确定预设评价指标集中各评价指标的层次总排序,包括:根据预设决策目标、预设决策准则和决策对象间的相互关系构造层次结构图;其中,预设决策准则包括待评价因素,决策对象包括预设评价指标集中各评价指标;根据层次结构图中各层次中各元素间的重要性标度构造判断矩阵;对判断矩阵进行一致性检验,并在检验成功时根据判断矩阵对层次结构图中各层次进行层次单排序;根据各层次对应的层次单排序确定预设评价指标集中各评价指标的层次总排序。进一步地,对判断矩阵进行一致性检验,包括:确定判断矩阵的最大特征值和矩阵阶数;将最大特征值与矩阵阶数的差确定为第一差值,将矩阵阶数与一的差确定为第二差值,并将第一差值与第二差值的比值确定为判断矩阵的一致性指标;根据矩阵阶数确定判断矩阵的随机一致性指标,并将一致性指标与对应随机一致性指标的比值确定为一致性比率;若一致性比率位于预设比率阈值范围内,则确定一致性检验成功。进一步地,根据各层次对应的层次单排序确定预设评价指标集中各评价指标的层次总排序,包括:根据各层次对应的层次单排序确定预设评价指标集中各评价指标相对于预设决策目标相对重要性的排序权值;根据排序权值确定各评价指标进行排序后的层次总排序;其中,排序由层次结构图中的最高层向最底层依次进行。进一步地,根据各层次对应的层次单排序确定预设评价指标集中各评价指标的层次总排序之后,还包括:对层次总排序进行一致性检验,并将检验成功的层次总排序确定为各评价指标的层次总排序。进一步地,准确性评价指标包括准确率、精确率、召回率、误伤率和f1分数中的至少一种。进一步地,模型区分度评价指标包括接受者工作特征曲线面积和k-s检验指标中的至少一种。进一步地,模型数据包括训练集数据、测试集数据、线上评分集数据和线上运行集数据,根据模型数据确定各待评价指标对应的指标得分,包括:确定与各待评价指标对应的预设评价标准,预设评价标准中待评价指标的数值与模型性能呈正相关关系;根据与待评价指标对应的模型数据与预设评价标准确定待评价指标对应的指标得分。进一步地,根据各指标得分与对应的权重确定待评价因素对应的模型综合评分,包括:确定各指标得分与对应的权重的乘积;将各乘积的和确定为待评价因素对应的模型综合评分。第二方面,本发明实施例提供了一种模型性能评价装置,包括:模型获取模块,用于获取待评价的目标模型,目标模型的待评价因素以及与目标模型对应的模型数据;指标确定模块,用于根据待评价因素在预设评价指标集中确定待评价指标,并获取各待评价指标对应的权重;评分确定模块,用于根据模型数据确定各待评价指标对应的指标得分,并根据各指标得分与对应的权重确定待评价因素对应的模型综合评分。第三方面,本发明实施例还提供了一种计算机设备,包括:存储器以及一个或多个处理器;存储器,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述第一方面的模型性能评价方法。第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行如第一方面的模型性能评价方法。本发明实施例提供的一种模型性能评价方法、装置、设备及存储介质,通过获取待评价的目标模型,目标模型的待评价因素以及与目标模型对应的模型数据;根据待评价因素在预设评价指标集中确定待评价指标,并获取各待评价指标对应的权重;根据模型数据确定各待评价指标对应的指标得分,并根据各指标得分与对应的权重确定待评价因素对应的模型综合评分。通过采用上述技术方案,根据获取到的待评价的目标模型,以及需要对模型进行评价的待评价因素,在预设评价指标集中选取用以对目标模型进行性能评价的待评价指标,根据各待评价指标的重要性不同确定其对应的权重,并根据各待评价指标所需评价内容的不同对目标模型对应的模型数据进行评估,得到对应的指标得分,最终将各指标得分与对应的权重相结合确定出对目标模型的待评价因素进行评价时的模型综合评分,使得可以在不同维度上针对目标模型的评价因素对其进行性能评价,且在评价因素不同时用以对目标模型进行评价的评价指标不同,解决了现有模型评价中评价维度不全面、模型评价体系不完善的问题,提升了对目标模型性能评价的针对性,提高了获取到的模型评价结果的准确性和可信度。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1是本发明实施例一中的一种模型性能评价方法的流程图;图2是本发明实施例二中的一种模型性能评价方法的流程图;图3是本发明实施例二中的一种基于层次分析法确定所述预设评价指标集中各评价指标的层次总排序的流程示意图;图4是本发明实施例二中的一种模型性能评价的层次结构示例图;图5是本发明实施例二中的一种层次结构示例图;图6是本发明实施例二中的一种待评价指标与模型数据对应关系图;图7是本发明实施例三中的一种模型性能评价装置的结构示意图;图8是本发明实施例四中的一种计算机设备的结构示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例方式作进一步地详细描述。应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。在本发明的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。实施例一图1为本发明实施例一提供的一种模型性能评价方法的流程图,本实施例可适用于在分类模型上线前或上线后对其进行性能测试的情况,该方法可以由模型性能评价装置来执行,该模型性能评价装置可以由软件和/或硬件来实现,该模型性能评价装置可以配置在计算机设备上,该计算机设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。一般而言,计算机设备可以是笔记本、台式计算机以及智能平板等。如图1所示,本实施例一提供的一种模型性能评价方法,具体包括如下步骤:s101、获取待评价的目标模型,目标模型的待评价因素以及与目标模型对应的模型数据。在本实施例中,目标模型可理解为已训练好的分类模型,目标模型可为已上线状态或未上线状态,随目标模型的上线状态不同,所获取到的目标模型对应的模型数据存在不同。待评价因素可理解为希望对目标模型进行评价的维度,也即目标模型中需要被评价的类型近似的性能。具体的,获取本次需要进行评价的一个或多个分类模型作为目标模型,并根据本次性能评价的需求确定各目标模型的评价维度,并根据评价维度确定目标模型的待评价因素,其中,待评价因素可为一个或多个,也即在一次模型性能评价过程中可对待评价的目标模型进行单一维度下的性能评价,也可进行多维度下的综合性能评价。同时,由于待评价因素对应于目标模型的不同上线状态,则可根据当前确定的待评价因素所对应的上线状态,获取适用于对当前待评价因素进行性能评价的模型数据。s102、根据待评价因素在预设评价指标集中确定待评价指标,并获取各待评价指标对应的权重。在本实施例中,评价指标可理解为用以对分类模型某一性能进行衡量的参数,预设评价指标集可理解为对目标模型进行评价的各评价维度中最细粒度的评价指标的集合,待评价指标可理解为与待评价因素所代表的维度相关的评价指标。具体的,在预设评价指标集中选取与待评价因素所对应评价维度相关的多个评价指标,并将选取的评价指标作为待评价指标,同时获取各待评价指标所对应的权重,该权重是根据各待评价指标相对于总目标的重要性确定得到的。在本发明实施例中,通过为不同待评价因素匹配不同的待评价指标,使得目标模型可有针对性的针对待评价因素进行性能评价,同时根据不同待评价指标的重要性为其匹配不同的权重,将对模型性能影响较大的评价指标进行突出,提升了根据待评价指标进行评价所得到的模型评价结果的准确性。s103、根据模型数据确定各待评价指标对应的指标得分,并根据各指标得分与对应的权重确定待评价因素对应的模型综合评分。具体的,根据各待评价指标的指标数据,确定其与模型性能间的相关关系,进而确定出各待评价指标所对应的评价标准,该评价标准中待评价指标的数值与待评价的模型性能间存在正相关关系。将与待评价指标对应的模型数据与确定出的评价标准相匹配,确定各待评价指标对应的指标得分,根据各待评价指标所对应的权重将各指标得分加权求和,并将所得和值确定为待评价因素所对应的模型综合评分。本实施例的技术方案,通过获取待评价的目标模型,目标模型的待评价因素以及与目标模型对应的模型数据;根据待评价因素在预设评价指标集中确定待评价指标,并获取各待评价指标对应的权重;根据模型数据确定各待评价指标对应的指标得分,并根据各指标得分与对应的权重确定待评价因素对应的模型综合评分。通过采用上述技术方案,根据获取到的待评价的目标模型,以及需要对模型进行评价的待评价因素,在预设评价指标集中选取用以对目标模型进行性能评价的待评价指标,根据各待评价指标的重要性不同确定其对应的权重,并根据各待评价指标所需评价内容的不同对目标模型对应的模型数据进行评估,得到对应的指标得分,最终将各指标得分与对应的权重相结合确定出对目标模型的待评价因素进行评价时的模型综合评分,使得可以在不同维度上针对目标模型的评价因素对其进行性能评价,且在评价因素不同时用以对目标模型进行评价的评价指标不同,解决了现有模型评价中评价维度不全面、模型评价体系不完善的问题,提升了对目标模型性能评价的针对性,提高了获取到的模型评价结果的准确性和可信度。实施例二图2为本发明实施例二提供的一种模型性能评价方法的流程图,本发明实施例的技术方案在上述各可选技术方案的基础上进一步优化,给出了待评价因素与待评价指标间的对应关系,同时给出了待评价指标权重的确定方法,通过层次分析法确定预设评价指标集中各评价指标的层次总排序,进而根据层次总排序确定出各评价指标的权重值,将模型数据中的不同数据代入对应的待评价指标中确定出对应的指标得分,并将各指标得分结合与其对应的权重值确定出待评价因素所对应的模型综合得分,使得确定出的模型综合得分所代表的性能评价结果准确性更高,增强了性能评价结果的可信度。如图2所示,本实施例二提供的一种模型性能评价方法,具体包括如下步骤:s201、获取待评价的目标模型,目标模型的待评价因素以及与目标模型对应的模型数据。在本实施例中,模型数据包括训练集数据、测试集数据、线上评分集数据和线上运行集数据。其中,训练集数据和测试集数据为模型未上线状态时的数据,线上评分集数据和线上运行集数据为模型上线状态时的数据,根据确定的待评价因素不同,通过不同的模型数据实现对目标模型的性能评价。进一步地,训练集数据包括特征数据、标签数据和预测概率数据;测试集数据包括特征数据、标签数据和预测概率数据;线上评分集数据包括特征数据和预测概率数据;线上运行集数据包括回流标签数据。s202、根据待评价因素在预设评价指标集中确定待评价指标。在本实施例中,待评价因素包括样本评价因素、特征评价因素、模型评价因素、前端监控评价因素和后端监控评价因素。其中,样本评价因素、特征评价因素与模型评价因素为目标模型在未上线状态时的评价因素,前端监控评价因素与后端监控评价因素为目标模型在上行状态时的评价因素。在进行目标模型的性能评价时,可选择其中一个或多个待评价因素进行评价,各待评价因素对应于预设评价指标集中的不同待评价指标。相应的,根据待评价因素在预设评价指标集中确定待评价指标具体包括:a、当待评价因素为样本评价因素时,待评价指标包括样本数量、正负样本占比、特征数量和特征缺失率。在本实施例中,样本数量可理解为训练集中样本的个数;正样本可理解为需正确分类出的类别所对应的样本,负样本可理解为不是正确分类出的类别所对应的样本,正负样本占比可理解为训练集中正样本数量与负样本数量之比;特征数量可理解为训练集中各样本所对应不同特征的个数;特征缺失率可理解为训练集中的某特征中缺失内容占对应特征全部内容的比例。b、当待评价因素为特征评价因素时,待评价指标包括单调特征占比、预测能力特征占比、稳定特征占比和弱相关性特征占比。在本实施例中,单调特征占比可理解为训练集中具备单调性的特征占训练集中总特征数的比例;预测能力特征占比可理解为根据训练集中的预测概率确定的其中具有预测能力的特征占总特征数的比例;稳定性特征占比可理解为训练集和测试集中满足预设稳定性需求特征的数量占总特征数的比例;弱相关性特征占比可理解为根据特征变量的pearson系数确定的,pearson系数位于预设系数阈值范围内的特征占总特征数的比例。c、当待评价因素为模型评价因素时,待评价指标包括准确性评价指标、模型区分度评价指标、提升图、模型稳定性评价指标和模型迁移率。其中,准确性评价指标包括准确率、精确率、召回率、误伤率和f1分数中的至少一种;模型区分度评价指标包括接受者工作特征曲线面积和k-s检验指标中的至少一种。在本实施例中,接受者工作特征曲线(receiveroperatingcharacteristic,roc)可理解为以虚报概率为横坐标,以击中概率为纵坐标确定出的连线,接受者工作特征曲线面积(areaundercurve,auc)可理解为接受者工作特征曲线与坐标轴所围成的面积,用以确定模型的区分度;k-s检验(kolmogorov-smirnov)可理解为用以衡量好坏样本累计分部之间的差值的检验标准;提升图(liftchart)可理解为用以评估模型效果的图像;d、当待评价因素为前端监控评价因素时,待评价指标包括稳定特征占比和模型稳定性评价指标。在本实施例中,稳定特征占比与模型稳定性评价指标的评价方式与上述内容相同,但其所评价的数据不仅来自于训练集数据,还来自于线上评分集数据。e、当待评价因素为后端监控评价因素时,待评价指标包括模型区分度评价指标和模型迁移率。在本实施例中,模型区分度评价指标和模型迁移率评价指标的评价方式与上述内容相同,但其所评价的数据来自于线上评分集数据和线上运行集数据。s203、基于层次分析法确定预设评价指标集中各评价指标的层次总排序。在本实施例中,层次分析法(analytichierarchyprocess,ahp)可理解为将与决策总是有关的元素分解成目标、准则、方案等层次,在此基础上进行定性和定量分析的决策方法。其可根据问题的性质和所要达成的总目标,将问题分解为不同层次凝聚组合,形成一个多层次分析结构模型,并对问题进行优劣比较并排序。层次总排序可理解为计算确定出的多层次分析结构模型中某一层次所有因素对于最高层,也即对于总目标相对重要性的权值,并将其进行排序的过程。具体的,基于层次分析法构造关于模型性能评价的层次分析结构模型,根据构造好的层次分析结构模型对其中各层的因素进行排序,并在对各评价指标所在层进行排序后,确定该层中各因素,也即各评价指标对于总目标的相对重要性,形成预设评价指标集中各评价指标的层次总排序。进一步地,图3为本发明实施例二提供的一种基于层次分析法确定所述预设评价指标集中各评价指标的层次总排序的流程示意图,具体包括如下步骤:s2031、根据预设决策目标、预设决策准则和决策对象间的相互关系构造层次结构图。其中,预设决策准则包括待评价因素,决策对象包括预设评价指标集。具体的,将预设决策目标、预设决策准则也即所需考虑的因素以及决策对象按照他们之间的相互关系分为最高层、中间层和最低层,确定出对应的层次结构图。其中,最高层为决策的目的以及所要解决的问题,最低层为决策时的备选方案,中间层为所需考虑的因素也即决策的准则。示例性的,图4为本发明实施例二提供的模型性能评价的层次结构示例图,其中,a层定义为目标层、b1-b2定义为准则层、c1-c5定义为子准则层、d1-d14定义为c层的子准则层、e1-e19定义为最低层也即指标层,c1-c5可理解为本申请中的待评价因素,e1-e19可理解为本申请中的预设评价指标集。s2032、根据层次结构图中各层次中各元素间的重要性标度构造判断矩阵。具体的,通过一致矩阵法为层次结构图中各层次中各元素构造判断矩阵,并未将各层次中所有元素放在一起比较,而是两两进行比较。可选的,所构造的判断矩阵如下所示:其中,aij标识第i个元素相对于第j个元素的比较结果。可选的,可通过预设相对尺度关系表示不同元素间的重要性标度,以尽可能减少性质不同元素间相互比较的困难,提高判断矩阵的准确度。示例性的,判断矩阵的标度如下表1所示。表1标度含义1表示两个元素相比,具有同样重要性3表示两个元素相比,一个元素比另一个元素稍微重要5表示两个元素相比,一个元素比另一个元素明显重要7表示两个元素相比,一个元素比另一个元素强烈重要9表示两个元素相比,一个元素比另一个元素极端重要2,4,6,8上述两相邻判断的中值如上表所示,若aij等于1,则说明第i个元素与第j个元素同样重要,若aij等于5,则说明第i个元素比第j个元素明显重要,以此类推可得到各层次中各元素间的判断矩阵。s2033、对判断矩阵进行一致性检验,并在检验成功时根据判断矩阵对层次结构图中各层次进行层次单排序。进一步地,对判断矩阵进行一致性检验可包括如下步骤:a、确定判断矩阵的最大特征值和矩阵阶数。具体的,将构成判断矩阵的指标个数确定为判断矩阵的矩阵阶数,并通过计算确定判断矩阵的最大特征值。b、将最大特征值与矩阵阶数的差确定为第一差值,将矩阵阶数与一的差确定为第二差值,并将第一差值与第二差值的比值确定为判断矩阵的一致性指标。示例性的,假设最大特征值记为λmax,矩阵阶数记为n,则判断矩阵的一致性指标ci可通过下式表示:当ci=0时,可认为判断矩阵有完全一致性;ci接近于0,可认为判断矩阵有满意的一致性;ci越大,不一致越严重。c、根据矩阵阶数确定判断矩阵的随机一致性指标,并将一致性指标与对应随机一致性指标的比值确定为一致性比率。具体的,为衡量ci的大小,需引入随机一致性指标ri,其中,随机一致性指标ri的值与判断矩阵的结束相关,随机一致性指标ri的取值如下表2所示。表2n1234567891011ri000.580.901.121.241.321.411.451.491.51进一步地,根据ci和ri定义的一致性比率可表示为:用以确定判断矩阵是否有满意的一致性,即能否通过一致性检验。d、根据一致性比率与预设比率阈值范围确定一致性检验结果。具体的,若一致性比率位于预设比率阈值范围内,则可认为判断矩阵中各元素的不一致程度在容许的范围之内,有满意的一致性,确定一致性检验成功,否则,则需重新调整构造判断矩阵的评价指标,直到判断矩阵通过一致性检验。可选的,预设比率阈值范围可为[0,0.1],也可根据实际情况进行设置,本发明实施例对此不进行限制。进一步地,在判断矩阵检验成功后,将判断矩阵最大特征根的特征向量进行归一化,并将归一化后得到的值确定为同一层次元素对于上一层某元素相对重要性的权值,进而完成层次结构图中各层次的层次单排序。s2034、根据各层次对应的层次单排序确定预设评价指标集中各评价指标的层次总排序。示例性的,图5为本发明实施例提供的一种层次结构示例图,假设构造的层次结构图中共包含3个层次,如图5所示,b层有m个元素b1,b2,...,bm,根据层次单排序结果,其相对于总目标a的排序,也即相对于总目标a的权重为b1,b2,...,bm。c层的n个元素对上层b中元素为bj的层次单排序为c11,c21,...,cnm,其中j=1,2,...,m,即c层的层次总排序,也即c层的第i个元素对总目标a的权重可表示为其中x指的是和bj有关联的cij的个数。将c层的各元素根据其求得权重由高至低进行排序,即可得到c层的层次总排序。同理可确定本申请中预设评价指标集中各评价指标相对于总目标的权重,进而得到对应的层次总排序。s2035、对层次总排序进行一致性检验,并将检验成功的层次总排序确定为各评价指标的层次总排序。示例性的,假设元素bj所对应的一致性指标为cij,对应的随机一致性指标为rij,且j=1,2,...,m,则层次总排序的一致性比率可确定为:进一步地,判断层次总排序的一致性比率是否位于预设比率阈值范围内,若是则认为层次总排序检验成功,并将其作为各评价指标的总排序。s204、根据层次总排序确定各评价指标的权重。具体的,将层次总排序中各评价指标相对于总目标的权重确定为对应评价指标的权重。s205、获取各待评价指标对应的权重。s206、确定与各待评价指标对应的预设评价标准,预设评价标准中待评价指标的数值与模型性能呈正相关关系。具体的,将各待评价指标进行预处理,对其进行非量钢化及归一化处理,以使各待评价指标中用以进行模型性能评价的指标数值与最终的模型性能得分呈正相关关系,也即指标数值越大,表示性能越好,得分越高。示例性的,针对步骤s202中确定的各待评价指标以及如图4所示指标层中各待评价指标,确定出的预设评价标准如下所示:a)样本数量:当样本数量小于5000时,得分=0;当样本数量大于5000时,得分=1。b)正负样本占比:正样本数量/负样本数量>0.1,得分=1;否则,得分=0。c)特征数量:当特征数量小于20时,得分=0;当特征数量位于[20,100]间时,得分=0.005*特征数量+0.5;当特征数量大于100时,得分=1。d)特征缺失率:得分=特征缺失率小于0.8的特征数量/总特征数量。e)单调特征占比:得分=单调特征数量/总特征数量。f)预测能力特征占比:通过特征变量的iv(informationvalue,信息价值)值确定有预测能力的特征,其中,iv值评价标准如下表3所示。得分=有预测能力的特征数量/总特征数量,有预测能力的特征为iv值位于[0.02,1]区间的特征。表3g)稳定特征占比:通过特征变量psi值(populationstabilityindex,模型稳定度评估指标)确定满足预设稳定型需求的特征,其中,psi值评价标准如下表4所示。得分=psi值小于等于0.1的特征数量/特征总数量。表4psi值变量稳定性<=0.1变量分布变化轻微,稳定性好0.1-0.25变量分布变化较小,需重点监控>0.25变量分布变化较大,建议删除h)弱相关性特征占比:通过特征变量pearson系数(pearsoncorrelationcoefficient)确定满足弱相关性的特征,pearson系数用来衡量两个数据集合是否在一条线上面,用以衡量定距变量间的线性关系。其中,pearson系数评价标准如下表5所示。得分=pearson系数范围在[0,0.4]之间的特征数量/总特征数量。表5pearson系数变量的相关性0.8-1.0极强相关0.6-0.8强相关0.4-0.6中等程度相关0.2-0.4弱相关0.0-0.2极弱相关或无相关i)准确性评价指标:得分=准确率/精确率/召回率/误伤率/f1值计算得到的数值。j)模型区分度评价指标:当模型区分度评价指标为接受者工作特征曲线面积auc时,根据模型auc值的取值范围确定得分,在auc值范围为[0.95-1]时,得分=-2*auc+2.9;在auc值范围为[0.8,0.95)时,得分=1.33*auc-0.2635;在auc值范围为[0.7,0.8)时,得分=2*auc-0.8;在auc值范围为[0.5,0.7)时,得分=2*auc-0.8;否则,得分=0。其中,auc值评价标准如下表6所示。表6auc值模型区分能力0.9-1.0模型可能过度匹配0.8-0.9模型区分性能较强0.7-0.8可以接受的区分能力0.5-0.7区分能力较弱<0.5没有区分能力,模型无效当模型区分度评价指标为k-s检验值(kolmogorov-smirnov)时,根据模型ks值的取值范围确定得分,在ks值>0.8时,得分=0;在ks值位于[0.75,0.8)范围内时,得分=-20*ks值+16;在ks值位于[0.5,0.75)范围内时,得分=0.8*ks值+0.4;在ks值位于[0.3,0.5)范围内时,得分=ks值+0.3;在ks值位于[0.2,0.3)范围内时,得分=6*ks值-1.2。其中,ks值评价标准如下表7所示。、表7k)提升图:若各个区间负样本占比呈单调性递交,则得分=1;否则得分=0。l)模型稳定性评价指标:根据模型稳定性评价指标(populationstabilityindex,psi)的取值范围确定得分,在psi值位于[0.25,1]范围内时,得分=-0.8*psi值+0.8;在psi值位于[0.1,0.25)范围内时,得分=-2*psi值+1.1;否则,得分=-1*psi值+1。其中,psi值评价标准如下表8所示。表8psi值模型稳定性<=0.1模型稳定性好0.1-0.25模型稳定性可以接受>0.25模型极不稳定m)模型迁移率:若各个区间负样本占比呈单调性递交,确定得分=1;否则,确定得分=0。s207、根据与待评价指标对应的模型数据与预设评价标准确定待评价指标对应的指标得分。具体的,根据待评价指标的不同选取对应的模型数据,并根据预设评价标准对模型数据进行评价,得到与待评价指标对应的指标得分。示例性的,若待评价指标为模型评价因素下的模型稳定性评价指标,则用以进行评价的模型数据为测试集数据和训练集数据中的预测概率数据;若待评价指标为前端监控评价因素下的模型稳定性评价指标,则用以进行评价的模型数据为线上评分集数据和训练集数据中的预测概率数据,进一步地,图6为本发明实施例二提供的一种待评价指标与模型数据对应关系图。s208、确定各指标得分与对应的权重的乘积。具体的,将确定出的各待评价指标的指标得分,与各待评价指标所对应的权重依次相乘,得到各评价指标的加权指标得分。s209、将各乘积的和确定为待评价因素对应的模型综合评分。具体的,将确定出的各待评价指标的加权指标得分相加,其和值即为各待评价指标所对应的待评价因素的模型综合得分。本实施例的技术方案,通过为不同待评价因素配置不同的待评价指标,同时利用层次分析法确定各评价指标的层次总排序,进而确定出各待评价指标相对于总目标的权重,对重要性较高的待评价指标进行突出,根据待评价指标的不同将不同模型数据代入其中确定对应的指标得分,并根据确定出的权重值确定出待评价因素所对应的模型综合得分,使得确定出的模型综合评分能够对模型性能进行更有针对性的评价,提升了评价结果的准确性和可信度。实施例三图7为本发明实施例三提供的一种模型性能评价装置的结构示意图,该模型性能评价装置包括:模型获取模块31,指标确定模块32和评分确定模块33。其中,模型获取模块31,用于获取待评价的目标模型,目标模型的待评价因素以及与目标模型对应的模型数据;指标确定模块32,用于根据待评价因素在预设评价指标集中确定待评价指标,并获取各待评价指标对应的权重;评分确定模块33,用于根据模型数据确定各待评价指标对应的指标得分,并根据各指标得分与对应的权重确定待评价因素对应的模型综合评分。本实施例的技术方案,解决了现有模型评价中评价维度不全面、模型评价体系不完善的问题,提升了对目标模型性能评价的针对性,提高了获取到的模型评价结果的准确性和可信度。可选的,目标模型的待评价因素包括:样本评价因素、特征评价因素、模型评价因素、前端监控评价因素和后端监控评价因素。可选的,指标确定模块32,包括:指标确定单元,用于若待评价因素为样本评价因素,则待评价指标包括样本数量、正负样本占比、特征数量和特征缺失率;若待评价因素为特征评价因素,则待评价指标包括单调特征占比、预测能力特征占比、稳定特征占比和弱相关性特征占比;若待评价因素为模型评价因素,则待评价指标包括准确性评价指标、模型区分度评价指标、提升图、模型稳定性评价指标和模型迁移率;若待评价因素为前端监控评价因素,则待评价指标包括稳定特征占比和模型稳定性评价指标;若待评价因素为后端监控评价因素,则待评价指标包括模型区分度评价指标和模型迁移率。进一步地,准确性评价指标包括准确率、精确率、召回率、误伤率和f1分数中的至少一种。进一步地,模型区分度评价指标包括接受者工作特征曲线面积和k-s检验指标中的至少一种。权重获取单元,用于获取各待评价指标对应的权重。可选的,模型性能评价装置,还包括:层次排序确定模块,用于基于层次分析法确定预设评价指标集中各评价指标的层次总排序。指标权重确定模块,用于根据层次总排序确定各评价指标的权重。可选的,层次排序确定模块,包括:结构图构造单元,用于根据预设决策目标、预设决策准则和决策对象间的相互关系构造层次结构图;其中,预设决策准则包括待评价因素,决策对象包括预设评价指标集中各评价指标。判断矩阵构造单元,用于根据层次结构图中各层次中各元素间的重要性标度构造判断矩阵。单排序单元,用于对判断矩阵进行一致性检验,并在检验成功时根据判断矩阵对层次结构图中各层次进行层次单排序。总排序单元,用于根据各层次对应的层次单排序确定预设评价指标集中各评价指标的层次总排序。可选的,单排序单元,具体用于确定判断矩阵的最大特征值和矩阵阶数;将最大特征值与矩阵阶数的差确定为第一差值,将矩阵阶数与一的差确定为第二差值,并将第一差值与第二差值的比值确定为判断矩阵的一致性指标;根据矩阵阶数确定判断矩阵的随机一致性指标,并将一致性指标与对应随机一致性指标的比值确定为一致性比率;若一致性比率位于预设比率阈值范围内,则确定一致性检验成功。可选的,总排序单元,具体用于根据各层次对应的层次单排序确定预设评价指标集中各评价指标相对于预设决策目标相对重要性的排序权值;根据排序权值确定各评价指标进行排序后的层次总排序;其中,排序由层次结构图中的最高层向最底层依次进行。可选的,总排序单元,还用于对层次总排序进行一致性检验,并将检验成功的层次总排序确定为各评价指标的层次总排序。进一步地,模型数据包括训练集数据、测试集数据、线上评分集数据和线上运行集数据。可选的,评分确定模块33,包括:评价标准确定单元,用于确定与各待评价指标对应的预设评价标准,预设评价标准中待评价指标的数值与模型性能呈正相关关系。指标得分确定单元,用于根据与待评价指标对应的模型数据与预设评价标准确定待评价指标对应的指标得分。综合得分确定单元,用于确定各指标得分与对应的权重的乘积;将各乘积的和确定为待评价因素对应的模型综合评分。本发明实施例提供的模型性能评价装置可执行本发明任意实施例提供的模型性能评价方法,具备执行方法相应的功能模块和有益效果。实施例四图8为本发明实施例四提供的一种计算机设备的结构示意图,该计算机设备中可集成本发明实施例提供的模型性能评价装置。如图8所示,计算机设备400包括存储装置401、处理器402及存储在存储装置401上并可在处理器402上运行的计算机程序,所述处理器402执行所述计算机程序时实现本发明实施例提供的模型性能评价方法。存储装置401作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的模型性能评价方法对应的程序指令/模块(例如,模型获取模块31,指标确定模块32和评分确定模块33)。处理器402通过运行存储在存储装置401中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的模型性能评价方法。存储装置401可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置401可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置401可进一步包括相对于处理器402远程设置的存储器,这些远程存储器可以通过网络连接至识别。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。实施例五本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种模型性能评价方法,该方法包括:获取待评价的目标模型,目标模型的待评价因素以及与目标模型对应的模型数据;根据待评价因素在预设评价指标集中确定待评价指标,并获取各待评价指标对应的权重;根据模型数据确定各待评价指标对应的指标得分,并根据各指标得分与对应的权重确定待评价因素对应的模型综合评分。当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的模型性能评价方法中的相关操作。通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1