本说明书涉及计算机技术领域,尤其涉及一种模型评分解释方法、装置及设备。
背景技术
随着技术应用的发展,各种用于评分的数据模型也使用的越来越广。
在当前技术中,数据样本通常包含多个特征变量,训练好的数据模型基于多个特征变量对数据样本进行打分。这个过程对于数据模型的使用者来说,往往像一个“黑箱”一样,虽然使用已经训练好的数据模型,可以针对不同的数据样本给出评分结果,辅助决策。但是对于数据模型为什么会给出这样的结论,其中每个特征起到的作用有多大,往往是不清楚的。
基于此,需要一种更有效的模型评分解释方案。
技术实现要素:
本说明书实施例提供一种模型评分解释方法、装置和设备,用于解决如下问题:以提供一种更便利的模型评分解释方案。
基于此,本说明书实施例提供一种模型评分解释方法,包括:
针对任一待评估数据,确定其所包含的特征变量;
针对任一特征变量,确定所述特征变量的取值所属的特征区间;
基于预设的特征区间和模型评分统计值的对应关系,确定所述特征变量所对应的模型评分统计值;
对所述待评估数据的特征变量,根据所述模型评分统计值进行排序,生成排序结果,基于排序结果确定影响所述待评估数据的特征变量。
同时,本说明书的实施例还提供一种模型评分解释装置,包括:
特征确定模块,针对任一待评估数据,确定其所包含的特征变量;
区间确定模块,针对任一特征变量,确定所述特征变量的取值所属的特征区间;
统计值确定模块,基于预设的特征区间和模型评分统计值的对应关系,确定所述特征变量所对应的模型评分统计值;
排序和解释模块,对所述待评估数据的特征变量,根据所述模型评分统计值进行排序,生成排序结果,基于排序结果确定影响所述待评估数据的特征变量。
对应的,本说明书实施例还提供一种模型评分解释设备,包括:
存储器,存储有模型评分解释程序;
处理器,调用所述存储器中的模型评分解释程序,并执行:
针对任一待评估数据,确定其所包含的特征变量;
针对任一特征变量,确定所述特征变量的取值所属的特征区间;
基于预设的特征区间和模型评分统计值的对应关系,确定所述特征变量所对应的模型评分统计值;
对所述待评估数据的特征变量,根据所述模型评分统计值进行排序,生成排序结果,基于排序结果确定影响所述待评估数据的特征变量。
对应的,本说明书的实施例还提供一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
针对任一待评估数据,确定其所包含的特征变量;
针对任一特征变量,确定所述特征变量的取值所属的特征区间;
基于预设的特征区间和模型评分统计值的对应关系,确定所述特征变量所对应的模型评分统计值;
对所述待评估数据的特征变量,根据所述模型评分统计值进行排序,生成排序结果,基于排序结果确定影响所述待评估数据的特征变量。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过预先建立特征区间与模型评分统计值的对应关系,然后针对任一的待评估数据,逐一确定其各特征变量取值所落入的特征区间所对应的模型评分统计值,根据模型评分统计值对各特征变量进行排序,从而可以确定对模型评分影响较大的特征变量,并且还可以输出对应的解释原因。上述方式避免了对训练数据的依赖,也不需事先获取任何数据的打标。同时,还可以定期更新模型评分统计值,以随时跟踪整体数据分布的变化。此外,还可以基于对模型解释原因及其组合进行编码,从而可以以编码的形式直接给对待评估数据进行定性解释;并且可以用于任何基于特征变量进行打分的算法模型中,适应性广。
附图说明
图1为本说明书实施例所提供的模型评分解释的流程示意图;
图2为本说明书实施例所提供的特征区间和模型评分统计值的对应关系的示意图;
图3为本说明书实施例所提供的特征变量、特征变量区间、模型评分平均值和解释原因的维表的示意图;
图4为本说明书实施例所提供的解释编码的示意图;
图5为本说明书实施例提供的具体实施例的示意图;
图6为本说明书实施例所提供的模型评分解释装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着机器学习算法的发展,模型在各领域中的应用越来越广泛,同时这些模型的内部结构也变得越来越复杂。而在运营过程中对于模型的可解释性有着天然的诉求,即,模型使用方需要知道,对于模型给出的评分或者评估结论,哪些特征变量具有较大的影响,以及具体的解释原因是什么。例如,在模型训练时,将算法自动生成的变量重要性排序作为模型打分的解释,但是变量重要性反映的是模型在整个训练数据集上的情况,是固定不变的,无法适应线上数据的实时演化,同时无法解释单条记录的模型打分高低。
基于此,本说明书实施例提供一种模型评分解释方案,通过预先定义特征区间,并且计算该特征区间内的模型评分统计值,建立二者的对应关系。从而针对任一待评估数据,均可以对其特征变量的取值逐一匹配上述的特征区间,进而获得其对应的模型评分统计值,从而可以根据模型评分统计值对各特征变量进行排序,以确定对于该待评估数据而言,哪些特征变量对其评分的影响较大。
如图1所示,图1为本说明书实施例所提供的模型评分解释的流程示意图,该过程具体包括以下步骤:
s101,针对任一待评估数据,确定其所包含的特征变量。
容易理解,在模型评估中,数据总是包含多个特征变量,每个特征变量均会有对应的取值。其中,有些特征变量是属于连续的,例如,“用户注册时间长度”,其取值区间可以为[0,24000]小时;同时,有些特征变量则是离散的,例如,“用户性别”,其取值则为“男”或者“女”,通常在模型中则用“0”或者“1”表示。
s103,针对任一特征变量,确定所述特征变量的取值所属的特征区间。
如前所述,特征区间可以是在实际应用中人为给予划分的,且互相没有重叠。例如对于“用户注册时间长度”,将其划分为[0,2400)、[2400,7200)以及[7200,24000]三个特征区间,容易理解,对于任一待评估数据,其任一特征变量的取值只会落入某一个特征区间,而不会同时落入多个特征区间。
在这个过程中,由于待评估数据包含有多个特征变量,因此,需要将其所有的特征变量所属的特征区间均进行确认。
s105,基于预设的特征区间和模型评分统计值的对应关系,确定所述特征变量所对应的模型评分统计值。
特征区间和模型评分统计值的对应关系可以在实际中基于经验给出,也可以基于实际数据的统计给出。如图2所示,图2为本说明书实施例所提供的特征区间和模型评分统计值的对应关系的示意图。在确定了特征变量的取值所属的特征区间之后,即可以根据上述对应关系,确定待评估数据中各特征变量的模型评分统计值。
s107,对所述待评估数据的特征变量,根据所述模型评分统计值进行排序,生成排序结果,基于排序结果确定影响所述待评估数据的特征变量。
对特征变量进行排序的方式可以是从高分至低分排序,也可以是从低分到高分排序,具体可根据实际需要而定。例如,在风险评估领域,若模型评分越高表征该待评估数据越危险,则将特征变量从高至低排序,并取前n个特征变量,从而该n个特征变量是对所述待评估数据的风险性评分影响较大的特征变量;又例如,若模型评分越低表征该待评估数据越稳定,则可则将特征变量从低至高排序,并取前n个特征变量,从而对于该数据而言,该n个特征变量是对稳定性评分影响较大的特征变量。
在上述确定影响待评估数据评分的特征变量的过程中,通过预先建立特征区间与模型评分统计值的对应关系,然后针对任一的待评估数据,逐一确定其各特征变量取值所落入的特征区间所对应的模型评分统计值,根据模型评分统计值对各特征变量进行排序,从而可以确定对模型评分影响较大的特征变量,避免了对训练数据的依赖,也不需事先获取任何数据的打标,且可以适应于任何算法,有效实现对待评估数据的评分解释。
作为一种具体的实施方式,对于步骤s105中的,预设的特征区间和模型评分统计值的对应关系,由如下方法预先统计得到:获取包含所述特征变量的多个数据,并确定各数据的模型评分;针对任一预设的特征区间,筛选出特征变量的取值属于所述特征区间的数据;计算所述特征变量的取值属于所述特征区间的数据的模型评分统计值;建立所述特征区间和模型评分统计值的对应关系。其中,所述模型评分统计值包括平均值、最大值、最小值或者分位数。
容易理解,在这个过程中,数据的来源可以是训练数据,也可以是实时的线上数据。对于任一特征区间,通常而言总是有部分数据的特征变量的取值会落入该特征区间。在数据量较多,从而具有充分代表性的情形下,可知对于该特征区间而言,该部分数据的模型评分统计值反映了该特征区间对于模型评分的相关程度。此外,在建立对应关系的时候,不应有某个特征区间取平均值,另一特征区间取最大值这样的不一致情形,应保持所有特征区间的模型评分统计值的一致性,即,均采用相同的某一个统计值(例如,平均值)。
在实际应用中,对于上述过程中的获取包含所述特征变量的多个数据,包括:获取指定时间范围内的包含所述特征变量的多个数据。换言之,模型评分统计值的来源可以是实时的线上数据,而且,可以动态变更。例如,指定时间范围内可以是从产品上线以来到当前时间为止的所有数据,也可以是上周或者上个月的数据。在这种方式下,模型评分统计值会基于模型对于实际数据的评分动态变化,从而可以基于实际情形,自动的调整对于各特征区间的影响的评估。
在上述方案中,所述特征变量包括单变量或者多个变量的组合,所述特征区间包括单变量区间或者多个变量区间的组合。例如,特征区间为“用户注册时长<30天&高危地区=1”。
对应的,在建立特征区间和模型评分统计值的同时,还可以建立起预设的特征区间和解释原因的对应关。此处的解释原因可以是认为预先基于经验所确定的相关解释,例如,对于“高危地区=1”其对应的解释为“注册地点为高危地区”。如图3所示,图3为本说明书实施例所提供的特征变量、特征变量区间、模型评分平均值和解释原因的维表的示意图。从而,在根据模型评分统计值对待评估数据的特征变量确定了排序之后,还可以基于排序结果,直接确定对于该待评估数据的评分的解释原因(同样取前n个即可)。
此外,对于解释原因及其组合,还可以事先给予对应的解释编码。例如,对于“解释原因x”给予对应的编码“0101”,对于“解释原因y”给予对应的编码“0102”而对于同时包含“解释原因x”和“解释原因y”的给予分级编码“01”。具体哪些解释原因可以给以相同的分级编码,可以根据实际应用进行设定,此处不做限制。如图4所示,图4为本说明书实施例所提供的解释编码的示意图。在这种方式下,则可以基于排序结果确定解释原因,从而进一步的直接给出对应的解释编码,方便业务人员进行快速的对影响待评估数据的特征变量进行定位,配置性的给出不同层级的解释。在实际应用中,本说明书实施例所提供的模型评分解释方案,如图5所示,图5为本说明书实施例所提供的模型评分解释的逻辑示意图,其包括维表定义(包括解释原因和解释编码的维表,特征区间和模型评分统计值的维表,以及特征区间和解释原因的维表)、实时匹配、分值排序和解释输出(可以输出具体的解释原因,也可以输出对应的解释编码,还可以分不同层级的解释)四个部分。
基于同样的思路,本发明还提供一种模型评分解释装置,如图6所示,图6为本说明书实施例所提供的模型评分解释装置的结构示意图,包括:
特征确定模块601,针对任一待评估数据,确定其所包含的特征变量;
区间确定模块603,针对任一特征变量,确定所述特征变量的取值所属的特征区间;
统计值确定模块605,基于预设的特征区间和模型评分统计值的对应关系,确定所述特征变量所对应的模型评分统计值;
排序和解释模块607,对所述待评估数据的特征变量,根据所述模型评分统计值进行排序,生成排序结果,基于排序结果确定影响所述待评估数据的特征变量。
进一步地,所述装置还包括统计模块609,获取包含所述特征变量的多个数据,并确定各数据的模型评分;针对任一预设的特征区间,筛选出特征变量的取值属于所述特征区间的数据;计算所述特征变量的取值属于所述特征区间的数据的模型评分统计值;建立所述特征区间和模型评分统计值的对应关系;其中,所述模型评分统计值包括平均值、最大值、最小值或者分位数。
进一步地,所述统计模块609,获取指定时间范围内的包含所述特征变量的多个数据。
进一步地,所述特征变量包括单变量或者多个变量的组合,所述特征区间包括单变量区间或者多个变量区间的组合。
进一步地,所述装置还包括解释原因模块611,基于预设的特征区间和解释原因的对应关系和所述排序结果,确定所述待评估数据的解释原因。
进一步地,进一步地,所述装置,在针对任一待评估数据,确定其所包含的特征变量之前,还包括编码模块613,对所述解释原因或者解释原因的组合进行对应的解释编码;所述解释原因模块611,根据所述待评估数据的解释原因确定所述待评估数据的解释编码。
对应的,本说明书实施例还提供一种模型评分解释设备,包括:
存储器,存储有模型评分解释程序;
处理器,调用所述存储器中的模型评分解释程序,并执行:
针对任一待评估数据,确定其所包含的特征变量;
针对任一特征变量,确定所述特征变量的取值所属的特征区间;
基于预设的特征区间和模型评分统计值的对应关系,确定所述特征变量所对应的模型评分统计值;
对所述待评估数据的特征变量,根据所述模型评分统计值进行排序,生成排序结果,基于排序结果确定影响所述待评估数据的特征变量。
基于同样的发明思路,本申请实施例还提供了对应的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
针对任一待评估数据,确定其所包含的特征变量;
针对任一特征变量,确定所述特征变量的取值所属的特征区间;
基于预设的特征区间和模型评分统计值的对应关系,确定所述特征变量所对应的模型评分统计值;
对所述待评估数据的特征变量,根据所述模型评分统计值进行排序,生成排序结果,基于排序结果确定影响所述待评估数据的特征变量。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和介质类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可,这里就不再一一赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤或模块可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(programmablelogicdevice,pld)(例如现场可编程门阵列(fieldprogrammablegatearray,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(hardwaredescriptionlanguage,hdl),而hdl也并非仅有一种,而是有许多种,如abel(advancedbooleanexpressionlanguage)、ahdl(alterahardwaredescriptionlanguage)、confluence、cupl(cornelluniversityprogramminglanguage)、hdcal、jhdl(javahardwaredescriptionlanguage)、lava、lola、myhdl、palasm、rhdl(rubyhardwaredescriptionlanguage)等,目前最普遍使用的是vhdl(very-high-speedintegratedcircuithardwaredescriptionlanguage)与verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书的实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信编号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书中一个或多个的实施例可提供为方法、系统或计算机程序产品。因此,本说明书的实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的形式。而且,本说明书的实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。