本公开涉及计算机技术领域,具体地,涉及用于风险识别的方法及装置。
背景技术:
随着互联网技术的普及和发展,越来越多的事务都转移到互联网上进行,包括人们日常的经济活动,例如,货币交易、商品买卖交易、转账交易、理财交易等。由于互联网上的交易是依托于计算设备进行的,缺少了线下交易中的当面验证身份、金钱、物品、合同等增加交易安全性的措施,所以存在很多恶意人员盗用他人账户进行交易、在交易中进行欺诈或作弊等恶意行为。这种恶意行为的存在无疑侵犯了人们的隐私和财产安全,影响了网上交易的安全性和稳定性。
技术实现要素:
鉴于上述,本公开提供了一种使用多层风控预测模型来进行风险识别的方法及装置。本公开的使用多层风控预测模型来进行风险识别的方法及装置通过层次化的建模方式,能够将容易被风险模型忽略的高风险交易通过多层风控模型识别出来,从而能够进一步提升风险防控的效果。此外,本文的多层风控预测模型通过使用有针对性的数据集训练各层模型,能够在提升风控效果的同时,提高交易识别的效率。
根据本公开的一个方面,提供了一种使用多层风控预测模型来进行风险识别的方法,其中,所述多层风控预测模型由至少两层风控预测模型顺序级联组成,每个风控预测模型的预测结果包括高风险和非高风险,所述方法包括:针对至少一个待识别交易数据,从所述多层风控预测模型中的第一层风控预测模型开始执行下述识别过程,直到满足预定条件:使用当前风控预测模型来对当前待识别交易数据进行预测,以得到所述当前待识别交易数据中的各个待识别交易数据的预测结果;将所得到的预测结果为高风险的待识别交易数据确定为高风险交易数据,以作为该当前风控预测模型的风险识别结果输出;以及将所得到的预测结果为非高风险的待识别交易数据,作为下一风控预测模型的当前待识别交易数据,其中,所述多层风控预测模型中的第一层风控预测模型是使用作为训练交易数据集的第一交易数据集来训练出的,以及所述多层风控预测模型中的剩余层风控预测模型是使用由上层风控预测模型预测出的预测结果为非高风险的交易数据所组成的交易数据集来训练出的。
可选地,在上述方面的一个示例中,所述非高风险包括中风险和低风险,其中,将所得到的预测结果为非高风险的待识别交易数据,作为下一风控预测模型的当前待识别交易数据包括:将所得到的预测结果为中风险的待识别交易数据,作为下一风控预测模型的当前待识别交易数据,以及所述多层风控预测模型中的剩余层风控预测模型是使用由上层风控预测模型预测出的预测结果为中风险的交易数据所组成的交易数据集来训练出的。
可选地,在上述方面的一个示例中,在所述当前风控预测模型是所述多层风控预测模型中的最后一层风控预测模型时,将所得到的预测结果为高风险的待识别交易数据确定为高风险交易数据,以作为该当前风控预测模型的风险识别结果输出包括:将所得到的预测结果为高风险、中风险和低风险的待识别交易数据分别确定为高风险交易数据、中风险交易数据和低风险交易数据,以作为该当前风控预测模型的风险识别结果输出。
可选地,在上述方面的一个示例中,针对所述至少一个待识别交易数据中的每条待识别交易数据,在该待识别交易数据被确定为高风险交易数据时,将该待识别交易数据所对应的交易操作确定为失败操作,在该待识别交易数据被确定为中风险交易数据时,对该待识别交易数据所对应的交易操作执行校验操作,或者在该待识别交易数据被确定为低风险交易数据时,对该待识别交易数据所对应的交易操作执行通过操作。
可选地,在上述方面的一个示例中,所述风控预测模型包括下述模型中的至少一种:梯度提升决策树、随机森林模型和逻辑回归模型。
可选地,在上述方面的一个示例中,所述预定条件包括:所述至少一个待识别交易数据中的所有待识别交易数据被确定为是高风险交易数据;或者所述至少一个待识别交易数据中的所有待识别交易数据都经历所述多层风控预测模型中的各层风控预测模型的预测。
根据本公开的另一方面,提供一种使用多层风控预测模型来进行风险识别的装置,其中,所述多层风控预测模型由至少两层风控预测模型顺序级联组成,每个风控预测模型的预测结果包括高风险和非高风险,所述装置包括:风险预测单元,被配置为使用当前风控预测模型来对当前待识别交易数据进行预测,以得到所述当前待识别交易数据中的各个待识别交易数据的预测结果;风险识别结果输出单元,被配置为将所得到的预测结果为高风险的待识别交易数据确定为高风险交易数据,以作为该当前风控预测模型的风险识别结果输出;以及当前待识别交易数据确定单元,被配置为将所得到的预测结果为非高风险的待识别交易数据,确定为下一风控预测模型的当前待识别交易数据,其中,所述风险预测单元、所述风险识别结果输出单元以及所述当前待识别交易数据确定单元被配置为针对至少一个待识别交易数据,从所述多层风控预测模型中的第一层风控预测模型开始循环执行操作,直到满足预定条件,其中,所述多层风控预测模型中的第一层风控预测模型是使用作为训练交易数据集的第一交易数据集来训练出的,以及所述多层风控预测模型中的剩余层风控预测模型是使用由上层风控预测模型预测出的预测结果为非高风险的交易数据所组成的交易数据集来训练出的。
可选地,在上述方面的一个示例中,所述非高风险包括中风险和低风险,其中,所述当前待识别交易数据确定单元被配置为:将所得到的预测结果为中风险的待识别交易数据,作为下一风控预测模型的当前待识别交易数据,以及所述多层风控预测模型中的剩余层风控预测模型是使用由上层风控预测模型预测出的预测结果为中风险的交易数据所组成的交易数据集来训练出的。
可选地,在上述方面的一个示例中,所述风险识别结果输出单元被配置为:在所述当前风控预测模型是所述多层风控预测模型中的最后一层风控预测模型时,将所得到的预测结果为高风险、中风险和低风险的待识别交易数据分别确定为高风险交易数据、中风险交易数据和低风险交易数据,以作为该当前风控预测模型的风险识别输出。
可选地,在上述方面的一个示例中,所述装置还包括:交易处理单元,被配置为针对所述至少一个待识别交易数据中的每条待识别交易数据,在该待识别交易数据为高风险交易数据时,将该待识别交易数据所对应的交易操作确定为失败操作,在该待识别交易数据为中风险交易数据时,对该待识别交易数据所对应的交易操作执行校验操作,或者在该待识别交易数据为低风险交易数据时,对该待识别交易数据所对应的交易操作执行通过操作。
可选地,在上述方面的一个示例中,所述预定条件包括:所述至少一个待识别交易数据中的所有待识别交易数据被确定为是高风险交易数据;或者所述至少一个待识别交易数据中的所有待识别交易数据都经历所述多层风控预测模型中的各层风控预测模型的预测。
根据本公开的另一方面,提供一种计算设备,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的用于使用多层风控预测模型来进行风险识别的方法。
根据本公开的另一方面,提供一种非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的用于使用多层风控预测模型来进行风险识别的方法。
利用本公开的使用多层风控预测模型来进行风险识别的方法及装置,通过层次化的建模方式,能够将容易被风险模型忽略的高风险交易通过多层风控模型识别出来,从而能够进一步提升风险防控的效果。此外,本文的多层风控预测模型通过使用有针对性的数据集训练各层模型,能够在提升风控效果的同时,提高交易识别的效率。
利用本公开的使用多层风控预测模型来进行风险识别的方法及装置,多层风控预测模型中的剩余层风控预测模型是使用由上层风控预测模型预测出的预测结果为非高风险的交易数据所组成的交易数据集来训练出的,这使得下层模型对风险模式的捕捉更具有针对性,更容易捕获到上层模型漏掉的风险交易。
利用本公开的使用多层风控预测模型来进行风险识别的方法及装置,由于中风险的交易中存在更多被漏掉的高风险交易,并且中风险的交易与低风险的交易具有不同的数据特征,所以将所得到的预测结果为中风险的待识别交易数据,作为下一风控预测模型的当前待识别交易数据,以及所述多层风控预测模型中的剩余层风控预测模型是使用由上层风控预测模型预测出的预测结果为中风险的交易数据所组成的交易数据集来训练出的,这使得更有助于每层模型对于最容易混淆的风险交易进行有针对性的捕捉,进一步提高风险识别的效果和精度。
利用本公开的使用多层风控预测模型来进行风险识别的方法及装置,通过将所得到的预测结果为高风险、中风险和低风险的待识别交易数据分别确定为高风险交易数据、中风险交易数据和低风险交易数据,以作为该当前风控预测模型的风险识别结果输出,从而能够有助于对不同的交易进行区别处理,既能够有效制止高风险交易,又能够使得中风险交易再次核验增强安全性,也能够使得低风险的交易继续进行,从而提供更恰当的用户体验。
附图说明
通过参照下面的附图,可以实现对于本公开内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开的实施例,但并不构成对本公开的实施例的限制。在附图中:
图1示出了本公开的实施例中采用的多层风控预测模型的一个示例的示意图;
图2示出了根据本公开的一个实施例的用于训练多层风控预测模型的方法的流程图;
图3示出了根据本公开的另一实施例的用于训练多层风控预测模型的方法的示意图;
图4示出了根据本公开的一个实施例的使用多层风控预测模型来进行风险识别的方法的流程图;
图5示出了根据本公开的另一实施例的使用多层风控预测模型来进行风险识别的方法的流程图;
图6示出了根据本公开的一个实施例的用于训练多层风控预测模型的装置的结构框图;
图7示出了根据本公开的一个实施例的使用多层风控预测模型来进行风险识别的装置的结构框图;
图8示出了根据本公开的一个实施例的用于实现用于训练多层风控预测模型的方法的计算设备的结构框图;
图9示出了根据本公开的一个实施例的用于实现使用多层风控预测模型来进行风险识别的方法的计算设备的结构框图。
具体实施方式
对于网上交易的风险进行识别和控制能够通过使用风控模型来实现,模型的性能直接关系到风险防控的效果。目前,针对一种场景或业务,建立一个对应的风控模型来进行风险防控。模型的性能主要由两部分决定:算法和变量,变量决定了模型性能的下限,算法决定了模型性能的上限。然而,在一个成熟的业务或场景下,变量体系已经刻画的相对完善,算法能力在实施时效性和监管的要求下已经接近极限,模型性能的提升已经进入瓶颈期。因此,在这种情况下,如何进一步提升模型性能和风险防控的效果,是一件非常有价值但又极具挑战的事情。
鉴于上述,本公开提供了一种使用多层风控预测模型来进行风险识别的方法及装置。本公开的使用多层风控预测模型来进行风险识别的方法及装置通过层次化的建模方式,能够将容易被风险模型忽略的高风险交易通过多层风控模型识别出来,从而能够进一步提升风险防控的效果。此外,本文的多层风控预测模型通过使用有针对性的数据集训练各层模型,能够在提升风控效果的同时,提高交易识别的效率。
以下将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
现在结合附图来描述本公开的实施例的使用多层风控预测模型来进行风险识别的方法及装置。
图1示出了本公开的实施例中采用的多层风控预测模型的一个示例的示意图。如图1所示,本公开的实施例所采用的多层风控预测模型包括由至少两层风控预测模型(在图1的示例中,包括第一风控预测模型、第二风控预测模型至第n风控预测模型)顺序级联组成的风控预测模型链,即,第一风控预测模型的输出与第二风控预测模型的输入相连,第二风控预测模型的输出与第三风控预测模型的输入相连,如此循环,直到第n风控预测模型。多层风控预测模型中的风控预测模型的数量可以是两个或两个以上的任意数量。各个风控预测模型可以是选自于梯度提升决策树(gdbt)、随机森林模型rf和逻辑回归模型等机器学习模型中的任意一种。此外,在多层风控预测模型中的所有风控预测模型可以采用同样的模型实现,也可以采用不同的模型来实现。
在一个实施例中,被第一风控预测模型判定为非高风险的交易数据被输入到第二风控预测模型,被第二风控预测模型判定为非高风险的交易数据被输入到第三风控预测模型,如此循环,被任一风控预测模型判定为高风险时作为预测结果输出,或者直到第n风控预测模型的预测结果作为对该交易数据的预测结果而输出。
图2示出了根据本公开的一个实施例的用于训练多层风控预测模型的方法的流程图。
在对如图1所示的多层风控预测模型进行训练的过程中,从风控预测模型链中的第一风控预测模型开始执行包括块210至块260的模型训练过程,直到满足预定条件。如图2所示,在块210,使用当前训练样本来对当前风控预测模型进行训练。在一个实施例中,训练样本可以包括交易数据。在使用监督式机器学习模型的实施例中,历史交易数据被标记有风险交易或非风险交易。在其他实施例中,交易数据也可以被标记为欺诈交易、冒用交易、作弊交易等。
在对当前风控预测模型进行训练后,在块220,使用经过训练后的当前风控预测模型来对当前训练样本进行预测,以得到当前训练样本中的各个当前训练样本的预测结果。即,将当前训练样本作为待预测样本,使用经过训练后的当前风控预测模型来对其进行预测。在一个实施例中,预测结果可以是关于风险的得分。例如,一条交易数据的风险得分可以表示该条交易是风险交易的可能性或风险指数。
确定预测结果之后,在块230,确定经过训练的当前风控预测模型对当前训练样本的预测结果是否存在非高风险。在一个实施例中,可以根据所预测的风险得分将训练样本(例如,交易数据)识别为高风险、中风险或低风险。在其他实施例中,当前风控预测模型所输出的预测结果可以将交易数据识别为更多个不同等级的风险分类。在一个实施例中,预测结果的风险分类可以通过与不同等级的风险分类所对应的风险得分阈值进行比较来确定。
此外,还可以针于每个风控预测模型设置对应的风险得分阈值。例如,可以以风控预测模型的级联顺序依次降低和/或提高针对各个风控预测模型的风险得分阈值,这可以根据实际应用来决定,例如,根据实际需要更高的安全性而降低风险得分阈值。
如果经过训练的当前风控预测模型对当前训练样本的预测结果存在非高风险,则进一步在块240,确定多层风控预测模型中的所有风控预测模型是否均已被训练。如果多层风控预测模型中的所有风控预测模型均已被训练,则可以结束训练过程。
如果还存在没有被训练的风控预测模型,则在块250,将所得到的预测结果为非高风险的训练样本,作为下一风控预测模型训练的当前训练样本。
然后,在块260,将下一风控预测模型作为当前风控预测模型,然后进行到210再次执行上述过程。
回到块240,如果虽然经过训练的当前风控预测模型对当前训练样本的预测结果存在非高风险,但是所有风控预测模型均已被训练,则训练过程结束。
在将要利用风控预测模型进行预测的待预测样本中,会存在部分容易被识别为高风险的待预测样本和部分难以被识别为高风险的待预测样本。利用上述训练过程,通过层次化的建模方式,能够将容易被风险模型忽略的高风险交易通过多层风控模型识别出来,从而能够进一步提升风险防控的效果。此外,本文的多层风控预测模型通过使用有针对性的数据集训练各层模型,能够在提升风控效果的同时,提高交易识别的效率。举例来说,第二层的风控预测模型是使用被第一层的风控预测模型确定为非高风险的交易数据(这部分交易数据中实际上存在高风险的交易)来训练的,这使得所训练好的第二层的风控预测模型更有针对性,即,更容易针对上层模型容易漏过的风险交易数据进行高风险的识别,从而大大提高了风险识别率。
图3示出了对包括三个风控预测模型的多层风控预测模型进行训练的方法的示意图。如图3所示,在对多层风控预测模型进行训练时,首先在310,将所有训练样本输入第一风控预测模型,以对第一风控预测模型进行训练。
当第一风控预测模型被训练之后,在320,将所有训练样本作为待预测样本输入被训练后的第一风控预测模型以进行预测,以获得第一风控预测模型对所有训练样本的预测结果。
然后在330,基于所获得的预测结果对训练样本进行切分,将不属于高风险的训练样本从所有训练样本中切分出来。在切分之后,在340,利用切分出的训练样本(即第一风控预测模型的预测结果不属于高风险的训练样本)来训练第二风控预测模型。
当第二风控预测模型被训练之后,在350,将用于训练第二风控预测模型的训练样本作为待预测样本输入被训练后的第二风控预测模型以进行预测,以获得第二风控预测模型对这些训练样本的预测结果。
然后在360,基于所获得的预测结果对训练样本进行切分,将不属于高风险的训练样本从这些训练样本中切分出来。在切分之后,在370,利用切分出的训练样本(即第一风控预测模型的预测结果不属于高风险、且第二风控预测模型的预测结果不属于高风险的训练样本)来训练第三风控预测模型。此时,三层风控预测模型训练完成,训练过程结束。
在另一示例中,如果还存在更多层的风控预测模型,还可以将用于训练第三风控预测模型的训练样本作为待预测样本输入被训练后的第三风控预测模型中以进行预测,并继续对其预测结果中不属于高风险的训练样本进行切分,以用于训练下一层风控预测模型,以此类推。在训练样本为交易数据的实施例中,多层风控预测模型中的第一层风控预测模型是使用作为训练交易数据集的第一交易数据集来训练出的,以及多层风控预测模型中的剩余层风控预测模型是使用由上层风控预测模型预测出的预测结果为非高风险的交易数据所组成的交易数据集来训练出的。
随着风控预测模型数量的增加,训练时间和训练开销也会相应增加。而随着风控预测模型的数量的增加,增加的训练时间和训练开销所带来模型性能收益会下降。因而从训练时间和训练开销与训练收益之间的平衡的角度考虑,可以配置两层风控预测模型或三层风控预测模型。
在另一实施例中,用于训练第一风控预测模型、第二风控预测模型、第三风控预测模型等的数据,可以不受到必须是来自相同训练样本集的限制,只需满足如下条件:(1)用于训练第一风控预测模型的训练样本为所有训练样本,包括任何训练样本,例如,训练样本可以是第一时间段内的交易数据;(2)用于训练第二风控预测模型的训练样本为经过训练好的第一风控预测模型确定为不属于高风险的训练样本,例如,可以将任意交易数据输入到训练好的第一风控预测模型,将第一风控预测模型确定为不属于高风险的训练样本用于训练第二风控预测模型,被输入到训练好的第一风控预测模型的任意交易数据可以是第二时间段内的交易数据;(3)用于训练第三风控预测模型的训练样本为经过训练好的第一风控预测模型确定为不属于高风险且经过训练好的第二风控预测模型确定为不属于高风险的训练样本,例如,可以将任意交易数据(例如,第三时间段内的交易数据)输入到训练好的第一风控预测模型,将第一风控预测模型确定为不属于高风险的训练样本输入到训练好的第二风控预测模型,然后将第二风控预测模型确定为不属于高风险的训练样本用于训练第三风控预测模型;以此类推。使用不同时间段的数据来训练不同层的风控预测模型,能够保留各个历史时间段内的交易数据的风险模式,有助于捕捉到更多模式的风险交易,而不会因为模型训练的更新而丢失历史的风险模式。此外,可以根据时间段将数据进行拆分,然后分别用于各个层级的风控模型的训练,能够在保证风险识别效果的同时有效提高模型的训练效率。
在另一实施例中,用于训练第二风控预测模型、第三风控预测模型等的数据,可以是被上层模型判定为中风险的训练样本,具体的训练规则如下:1)用于训练第一风控预测模型的训练样本为所有训练样本,包括任何训练样本,例如,训练样本可以是第一时间段内的交易数据;(2)用于训练第二风控预测模型的训练样本为经过训练好的第一风控预测模型确定为属于中风险的训练样本,例如,可以将任意交易数据(例如,可以是第一时间段内的交易数据,也可以是第二时间段内的交易数据)输入到训练好的第一风控预测模型,将第一风控预测模型确定为属于中风险的训练样本用于训练第二风控预测模型;(3)用于训练第三风控预测模型的训练样本为经过训练好的第一风控预测模型确定为属于中风险且经过训练好的第二风控预测模型确定为属于中风险的训练样本,例如,可以将任意交易数据(例如,可以是与上述相同时间段内的交易数据,也可以是其他时间段的交易数据)输入到训练好的第一风控预测模型,将第一风控预测模型确定为属于中风险的训练样本输入到训练好的第二风控预测模型,然后将第二风控预测模型确定为属于中风险的训练样本用于训练第三风控预测模型;以此类推。由于被判定为中风险的训练样本是实际风险识别中最难识别的样本,在被判定为中风险的训练样本上训练模型,使得最容易混淆的样本能够有针对性地被识别出,从而提高模型的风险识别精度。另外,实际上被判定为低风险的样本存在风险的可能性非常小,因此这一部分样本可以不用于多层模型的训练,以减少计算量并且避免模型训练中的过拟合。
在另一实施例中,也可以附加地在每层训练针对低风险样本的风控预测模型,即,使用被上层判定为低风险的训练样本来训练本层的低风险风控预测模型。具体地训练方法与上述中风险风控预测模型的训练方法一致。
图4示出了根据本公开的一个实施例的使用多层风控预测模型来进行风险识别的方法(以下称为风险识别方法)的流程图。
如图4所示,在利用多层风控预测模型进行风险识别时,可以从风控预测模型链中的第一风控预测模型开始执行块410至块460的针对至少一个待预测样本(在本公开的实施例中,待预测样本可以是待识别交易数据)的风险识别过程,直到满足预定条件。多层风控预测模型可以是利用如上所述的多层风控预测模型训练方法来训练的。
如图4所示,在块410,使用当前风控预测模型来对当前待识别交易数据进行预测,以得到所述当前待识别交易数据中的各个待识别交易数据的预测结果。在一个实施例中,预测结果可以是关于风险的得分。例如,一条交易数据的风险得分可以表示该条交易是风险交易的可能性或风险指数。
在一个实施例中,可以根据所预测的风险得分将待识别交易数据识别为高风险、中风险或低风险。在其他实施例中,当前风控预测模型所输出的预测结果可以将待识别交易数据识别为更多个不同等级的风险分类。在一个实施例中,预测结果的风险分类可以通过与不同等级的风险分类所对应的风险得分阈值进行比较来确定。此外,还可以针于每个风控预测模型设置对应的风险得分阈值。例如,可以以风控预测模型的级联顺序依次降低和/或提高针对各个风控预测模型的风险得分阈值,这可以根据实际应用来决定,例如,根据实际需要更高的安全性而降低风险得分阈值。这里,需要指出的是,多层风控预测模型在模型应用阶段使用的阈值可以与在模型训练阶段使用的阈值对应或一致。例如,在模型训练阶段使用的针对第二风控预测模型的用于判断高风险的阈值可以与在模型应用阶段使用的针对第二风控预测模型的用于判断高风险的阈值相同。
在块420,确定针对至少一个当前待识别交易数据中的各个当前待识别交易数据的预测结果是否存在非高风险的预测结果。如果当前风控预测模型对所有当前待识别交易数据的预测结果均为高风险,则预测过程结束。此时,可以汇总到当前风控预测模型为止的所有风控预测模型的预测结果,以作为对所有待识别交易数据的预测结果。
如果各个当前待识别交易数据的预测结果中存在非高风险的预测结果,则在块430,将所得到的预测结果为高风险的待识别交易数据确定为高风险交易数据,以作为该当前风控预测模型的风险识别结果输出。
同时,如果各个当前待识别交易数据的预测结果中存在非高风险的预测结果,在块440,确定是否所有的风控预测模型均已执行了预测。如果所有风控预测模型均已执行预测,则风险识别过程结束。此时,无论当前风控预测模型对当前待识别交易数据的预测结果是否为高风险,均可把当前风控预测模型对当前待识别交易数据的预测结果确定为预测模型对当前待识别交易数据的预测结果。然后,可以把所有风控预测模型的预测结果汇总以作为对所有待识别交易数据的预测结果。
如果在各个当前待识别交易数据的预测结果中存在非高风险的预测结果时,还存在没有执行预测的风控预测模型,则在块450,将所得到的预测结果为非高风险的待识别交易数据,作为下一风控预测模型的当前待识别交易数据。
然后在块460,将下一风控预测模型作为当前风控预测模型,并再次回到410以执行上述风险识别过程。
由于不同的风控预测模型对不同特性的交易数据的风险识别性能是不同的,通过上述风险识别过程,能够利用针对不同的风控预测模型来对不同的待识别交易数据进行风险识别,从而在进行风险识别时,在后的风控预测模型仅针对在前的风控预测模型难以识别为高风险的待识别交易数据进行风险识别。由此,不仅能提高风险识别的性能,还能够节省风险识别的开销。
图5示出了根据一个实施例的基于包括两个风控预测模型的多层风控预测模型的风险识别方法的流程图。
如图5所示,在510,将所有待识别交易数据输入第一风控预测模型进行预测,以得到第一风控预测模型对待识别交易数据的预测结果。
然后在520,基于所得到的预测结果,对待识别交易数据进行切分,将其中预测结果为高风险的待识别交易数据切分出来。对于第一风控预测模型的预测结果为高风险的待识别交易数据,将第一风控预测模型的预测结果作为对该待识别交易数据的预测结果。
在对待识别交易数据进行切分之后,在530,将第一风控预测模型的预测结果为非高风险的待识别交易数据输入第二风控预测模型,从而利用第二风控预测模型对该部分待识别交易数据进行再次预测。
在第二风控预测模型执行完预测之后,由于两个风控预测模型均已执行完预测,因而将第二风控预测模型的预测结果作为由其预测的待识别交易数据的预测结果。进而在540,汇总第一风控预测模型和第二风控预测模型的预测结果,以作为预测模型对所有待识别交易数据的预测结果。
在另一示例中,如果还存在第三风控预测模型,则可以将第二风控预测模型的预测结果中、预测结果为高风险的待识别交易数据再次切分出来,并将第二风控预测模型的预测结果为非高风险的待识别交易数据输入第三风控预测模型进行预测。当配置有更多数量的风控预测模型时,可以以该方式继续进行预测。
随着风控预测模型数量的增加,风险识别的时间和预测的开销也会相应增加。而随着风控预测模型的数量的增加,增加的预测时间和开销所带来的预测准确度收益会下降。因而从预测的时间和开销与分类预测准确度收益之间的平衡的角度考虑,可以只配置两个或三个风控预测模型。
在另一实施例中,多层风控预测模型中的除第一风控预测模型外的剩余层风控预测模型是使用由上层风控预测模型预测出的预测结果为中风险的交易数据所组成的交易数据集来训练出的。在这样的实施例中,风险识别的过程与上述过程类似,特别之处在于:将所得到的预测结果为中风险的待识别交易数据,作为下一风控预测模型的当前待识别交易数据;在当前风控预测模型是多层风控预测模型中的最后一层风控预测模型时,将所得到的预测结果为高风险、中风险和低风险的待识别交易数据分别确定为高风险交易数据、中风险交易数据和低风险交易数据,以作为该当前风控预测模型的风险识别结果输出。
在一个实施例中,针对至少一个待识别交易数据中的每条待识别交易数据,在该待识别交易数据被确定为高风险交易数据时,将该待识别交易数据所对应的交易操作确定为失败操作,在该待识别交易数据被确定为中风险交易数据时,对该待识别交易数据所对应的交易操作执行校验操作,或者在该待识别交易数据被确定为低风险交易数据时,对该待识别交易数据所对应的交易操作执行通过操作。
图6示出了根据本公开的一个实施例的用于训练多层风控预测模型的装置(以下称为风控模型训练装置)600的结构框图。如图6所示,风控模型训练装置600包括训练单元610、风险预测单元620以及当前训练样本获取单元630。
训练单元610被配置为使用当前训练样本来对当前风控预测模型进行训练。风险预测单元620配置为将当前训练样本输入到经过训练后的当前风控预测模型,以得到当前训练样本中的各个训练样本的预测结果。得到预测结果之后,当前训练样本获取单元630将所得到的预测结果为非高风险的训练样本,作为对下一风控预测模型进行训练的当前训练样本。
在训练过程中,从风控预测模型链中的第一风控预测模型开始循环执行训练单元610、风险预测单元620和当前训练样本获取单元630的操作,直到满足预定条件。
在一个实施例中,预定条件包括:所述至少一个待识别交易数据中的所有待识别交易数据被确定为是高风险交易数据;或者所述至少一个待识别交易数据中的所有待识别交易数据都经历所述多层风控预测模型中的各层风控预测模型的预测。
图7示出了根据本公开的一个实施例的使用多层风控预测模型来进行风险识别的装置(以下称为风险识别装置)700的结构框图。如图7所示,风险识别装置700包括风险预测单元710、风险识别结果输出单元720以及当前待识别交易数据确定单元730。
风险预测单元710被配置为使用当前层风控预测模型来对当前待识别交易数据进行预测,以得到所述当前待识别交易数据中的各个待识别交易数据的预测结果。风险识别结果输出单元720被配置为将所得到的预测结果为高风险的待识别交易数据确定为高风险交易数据,以作为该当前风控预测模型的风险识别结果输出。当前待识别交易数据确定单元730被配置为将所得到的预测结果为非高风险的待识别交易数据,确定为下一风控预测模型的当前待识别交易数据。
风险预测单元710、风险识别结果输出单元720以及当前待识别交易数据确定单元730被配置为针对至少一个待识别交易数据,从所述多层风控预测模型中的第一层风控预测模型开始循环执行操作,直到满足预定条件。多层风控预测模型中的第一层风控预测模型是使用作为训练交易数据集的第一交易数据集来训练出的,以及多层风控预测模型中的剩余层风控预测模型是使用由上层风控预测模型预测出的预测结果为非高风险的交易数据所组成的交易数据集来训练出的。
在基于多层风控预测模型对待识别交易数据进行风险识别的过程中,风险预测单元710、风险识别结果输出单元720以及当前待识别交易数据确定单元730被配置为从风控预测模型链中的第一风控预测模型开始循环执行操作,直到满足预定条件。预定条件可以是所述至少一个待识别交易数据中的所有待识别交易数据被确定为是高风险交易数据;或者所述至少一个待识别交易数据中的所有待识别交易数据都经历所述多层风控预测模型中的各层风控预测模型的预测。
在另一实施例中,多层风控预测模型中的剩余层风控预测模型是使用由上层风控预测模型预测出的预测结果为中风险的交易数据所组成的交易数据集来训练出的。在这样的实施例中,前待识别交易数据确定单元730被配置为:将所得到的预测结果为中风险的待识别交易数据,作为下一风控预测模型的当前待识别交易数据。风险识别结果输出单元720被配置为在所述当前风控预测模型是所述多层风控预测模型中的最后一层风控预测模型时,将所得到的预测结果为高风险、中风险和低风险的待识别交易数据分别确定为高风险交易数据、中风险交易数据和低风险交易数据,以作为该当前风控预测模型的风险识别输出。
在另一实施例中,风险识别装置700还包括交易处理单元(未示出),被配置为针对所述至少一个待识别交易数据中的每条待识别交易数据,在该待识别交易数据为高风险交易数据时,将该待识别交易数据所对应的交易操作确定为失败操作,在该待识别交易数据为中风险交易数据时,对该待识别交易数据所对应的交易操作执行校验操作,或者在该待识别交易数据为低风险交易数据时,对该待识别交易数据所对应的交易操作执行通过操作。
如上参照图2到图3和图6,对根据本公开的用于训练多层风控预测模型的方法及装置的实施例进行了描述,并参照图4至图5和图7对本公开的基于多层风控预测模型来进行风险识别的方法及装置进行了描述。应当理解的是,以上对于方法实施例的细节描述同样适用于装置实施例。以上的用于训练预测模型的装置和基于预测模型来进行分类预测的装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。在本公开中,识别终端设备上显示的应用程序控件的装置例如可以利用计算设备实现。
图8示出了根据本公开的一个实施例的用于实现用于训练多层风控预测模型的方法的计算设备800的结构框图。从硬件层面而言,如图8所示,为本申请提供的模型训练装置840所在的计算设备800的一种硬件结构框图,除了图8所示的处理器810、非易失性存储器820、内存830、网络接口850以及内部总线860之外,实施例中装置所在的设备通常根据该设备的实际功能,还可以包括其他硬件,对此不再赘述。
根据该实施例,计算设备800可以包括至少一个处理器810,该至少一个处理器810执行在计算机可读存储介质(即,非易失性存储器820)中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在非易失性存储器820中存储计算机可执行指令,其当执行时使得至少一个处理器810:从风控预测模型链中的第一风控预测模型开始执行下述模型训练过程,直到满足预定条件:使用当前训练样本来对当前风控预测模型进行训练;使用经过训练后的当前风控预测模型来对当前训练样本进行预测,以得到当前训练样本中的各个训练样本的预测结果;以及将所得到的预测结果为非高风险的训练样本,作为下一风控预测模型训练的当前训练样本。
应该理解的是,在非易失性存储器820中存储的计算机可执行指令当执行时使得至少一个处理器810进行本公开的各个实施例中以上结合图2-3、图6描述的各种操作和功能。
图9示出了根据本公开的一个实施例的用于实现使用多层风控预测模型来进行风险识别的方法的计算设备900的结构框图。从硬件层面而言,如图9所示,为本申请提供的风险识别装置940所在的计算设备900的一种硬件结构框图,除了图9所示的处理器910、非易失性存储器920、内存930、网络接口950以及内部总线960之外,实施例中装置所在的设备通常根据该设备的实际功能,还可以包括其他硬件,对此不再赘述。
根据该实施例,计算设备900可以包括至少一个处理器910,该至少一个处理器910执行在计算机可读存储介质(即,非易失性存储器920)中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在非易失性存储器920中存储计算机可执行指令,其当执行时使得至少一个处理器910:从风控预测模型链中的第一风控预测模型开始执行下述针对至少一个待识别交易数据的预测过程,直到满足预定条件:使用当前风控预测模型来对前待识别交易数据进行预测,以得到当前待识别交易数据中的各个待识别交易数据的预测结果;将所得到的预测结果为高风险的待识别交易数据确定为高风险交易数据,以作为该当前风控预测模型的风险识别结果输出;将所得到的预测结果为非高风险的待识别交易数据,作为下一风控预测模型的当前待识别交易数据。
应该理解的是,在非易失性存储器920中存储的计算机可执行指令当执行时使得至少一个处理器910进行本公开的各个实施例中以上结合图4-5、图7描述的各种操作和功能。
在本公开中,计算设备800和计算设备900可以包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、蜂窝电话、个人数字助理(pda)、手持装置、消息收发设备、可佩戴计算设备、消费电子设备等等。
根据一个实施例,提供了一种例如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本公开的各个实施例中以上结合图2-3和图6描述的各种操作和功能。
根据另一实施例,还提供一种例如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本公开的各个实施例中以上结合图4-5和图7描述的各种操作和功能。
具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如cd-rom、cd-r、cd-rw、dvd-rom、dvd-ram、dvd-rw、dvd-rw)、磁带、非易失性存储卡和rom。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
以上结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
以上结合附图详细描述了本公开的实施例的可选实施方式,但是,本公开的实施例并不限于上述实施方式中的具体细节,在本公开的实施例的技术构思范围内,可以对本公开的实施例的技术方案进行多种简单变型,这些简单变型均属于本公开的实施例的保护范围。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。