本发明涉及计算机,尤其涉及一种模型入模变量异常监控方法、装置、计算机设备和计算机可读存储介质。
背景技术:
1、在相关技术中,风控模型入模变量监控流程主要包括以下步骤:
2、步骤s101,特征变量入模,即模型系统实时从库中获取每个模型对应所需的特征变量,按照一定规则进行计算;
3、步骤s102,结果数据入数据库,即将整个模型系统中的任何事件和结果都记录在数据库中;
4、步骤s103,读取文件配置,即读取监控系统中所需的所有配置文件,如线上运行的模型;
5、步骤s104,模型维度计算特征空值率,即按照模型维度,计算每一个模型对应的每一个特征空值占比;
6、步骤s105,结果与固定阈值比较告警,即将步骤s104计算的结果与读取的配置文件中设置的固定阈值进行比较,如果大于或者小于设定值将会告警;
7、步骤s106,全部特征可视化展示,即线上运行的模型全部进行可视化展示。
8、上述监控流程存在以下技术缺陷:
9、1、这套监控系统监控的方式内容比较单一,只是简单的监控特征变量的个数,空值,缺失率等。这种监控系统比较大,不能体现细节,不太准确,仅仅反应模型整体特征变量的情况。对于细节,如每个模型中的每一特征对应的各个分箱里面的特征值的占比情况不得而知,比如模型a中有一个变量b,iv值二点多,有五个分箱[-inf,3),[3,5),[5,6),[6,9),[9,inf),其中[-inf,3)是最好的分数区间,[9,inf)是这个特征变量最差的区间,突然有一天[-inf,3)的个数为0,[9,inf)的个数特别多,但是整体的空值率在阈值范围内,这样的现象会导致模型效果受到影响,如果是特征计算或者获取出现问题,并且一直没有发现,这是一个比较严重的问题。
10、2、对于特征变量是否异常的判断现有监控系统全部采用固定阈值的方式,在运行一段时间内,发现此方式有非常大的弊端。就是对阈值的选取要求非常高,如果选取太小,则告警的内容会非常多,如果选取的特别大,那么异常的特征变量可能就检测不到,不能够发现模型中存在的问题,如果不能及时解决,有可能对整个模型有不可预估的风险。为了避免检测不到异常数据,普遍阈值都偏小,最终造成的结果是告警的内容非常多,有时候需要多个部门配合查找具体原因,人工排查成本非常大。
11、3、可视化部分是全部在线模型进行展示,可视化的内容以及个数就非常的多,这将导致不想去查看这部分内容,或者查看忽略了其中的一些内容,导致整体的监控效果不是很好。
12、4、模型入模变量的异常监控系统中所有的配置是手动配置,有时候会存在忘记配置的情况,导致最新上线的模型特征变量没有及时得到监控。
13、目前,针对相关技术中模型入模变量监控系统监控方式内容单一导致监控准确度较低的问题,尚未提出有效的解决方案。
技术实现思路
1、本技术的目的是针对现有技术中的不足,提供一种模型入模变量异常监控方法、装置、计算机设备和计算机可读存储介质,以至少解决相关技术中模型入模变量监控系统监控方式内容单一导致监控准确度较低的问题。
2、为实现上述目的,本技术采取的技术方案是:
3、第一方面,本技术实施例提供了一种模型入模变量异常监控方法,包括:
4、获取目标模型的有效特征变量以及所述有效特征变量的分箱;
5、获取所述目标模型的所述有效特征变量的值,并计算所述目标模型的所述有效特征变量的每个分箱的特征占比;
6、根据所述目标模型的所述有效特征变量的每个分箱的特征占比,确定所述目标模型的所述有效特征变量有无异常。
7、在其中一些实施例中,所述获取目标模型的有效特征变量以及所述有效特征变量的分箱包括:
8、获取训练模型的训练结果,其中,所述训练模型用于利用历史数据作为训练数据进行训练得到训练结果,所述训练结果包括:所述有效特征变量以及所述有效特征变量的分箱。
9、在其中一些实施例中,还包括:
10、基于所述历史数据计算所述训练模型的所述有效特征变量的每个分箱的特征占比;
11、将所述目标模型的所述有效特征变量的每个分箱的特征占比与所述训练模型的所述有效特征变量的每个分箱的特征占比进行对比分析。
12、在其中一些实施例中,根据所述目标模型的所述有效特征变量的每个分箱的特征占比,确定所述目标模型的所述有效特征变量有无异常包括:
13、对所述目标模型的所述有效特征变量的每个分箱执行下述步骤:
14、计算当天所述目标模型的所述有效特征变量的目标分箱的特征占比,其中,所述目标分箱为所述有效特征变量的多个分箱中的其中之一;
15、计算前目标数量天的所述目标分箱的特征占比的平均值和标准差;
16、判断当天的所述目标分箱的特征占比与所述平均值的差值的绝对值是否大于目标倍数的所述标准差;
17、若当天的所述目标分箱的特征占比与所述平均值的差值的绝对值大于目标倍数的所述标准差,则确定当天的所述目标分箱的特征占比异常。
18、在其中一些实施例中,根据所述目标模型的所述有效特征变量的每个分箱的特征占比,确定所述目标模型的所述有效特征变量有无异常还包括:
19、判断当天的所述目标分箱的特征占比是否在预设数值范围内;
20、若当天的所述目标分箱的特征占比不在预设数值范围内,则确定当天的所述目标分箱的特征占比异常。
21、在其中一些实施例中,根据所述目标模型的所述有效特征变量的每个分箱的特征占比,确定所述目标模型的所述有效特征变量有无异常包括:
22、确定所述目标模型的所述有效特征变量中的目标特征变量,其中,所述目标特征变量为所述有效特征变量中的其中之一;
23、基于所述历史数据计算所述训练模型的所述目标特征变量的每个分箱的特征占比;
24、按照以下公式计算psi值:
25、
26、其中,ai为所述目标模型的所述目标特征变量的第i个分箱的特征占比,ei为所述训练模型的所述目标特征变量的第i个分箱的特征占比,n为所述目标模型的所述目标特征变量的分箱数量;
27、在所述psi值大于第一目标阈值时,确定所述目标模型的所述目标特征变量异常。
28、在其中一些实施例中,还包括:
29、从生产环境模型执行日志中提取在线模型以及所述在线模型对应的被调用次数;
30、将被调用次数高于第二目标阈值的在线模型确定为所述目标模型。
31、在其中一些实施例中,还包括:
32、在确定所述目标模型的所述有效特征变量异常时,将异常的所述有效特征变量进行展示。
33、第二方面,本技术实施例提供了一种模型入模变量异常监控装置,包括:
34、第一获取单元,用于获取目标模型的有效特征变量以及所述有效特征变量的分箱;
35、第二获取单元,用于获取所述目标模型的所述有效特征变量的值,并计算所述目标模型的所述有效特征变量的每个分箱的特征占比;
36、第一确定单元,用于根据所述目标模型的所述有效特征变量的每个分箱的特征占比,确定所述目标模型的所述有效特征变量有无异常。
37、第三方面,本技术实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的模型入模变量异常监控方法。
38、第四方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的模型入模变量异常监控方法。
39、本技术采用以上技术方案,与现有技术相比,本技术实施例提供的模型入模变量异常监控方法,通过获取目标模型的有效特征变量以及所述有效特征变量的分箱;获取所述目标模型的所述有效特征变量的值,并计算所述目标模型的所述有效特征变量的每个分箱的特征占比;根据所述目标模型的所述有效特征变量的每个分箱的特征占比,确定所述目标模型的所述有效特征变量有无异常,解决了相关技术中模型入模变量监控系统监控方式内容单一导致监控准确度较低的问题,通过对每一个特征变量在其对应模型下的分箱监控,充分的把握特征变量每一个分箱的情况以及模型整体的效果,实现了更加细致化,全面化,准确化的监控。
40、本技术的一个或多个实施例的细节在以下附图和描述中提出,以使本技术的其他特征、目的和优点更加简明易懂。