异常数据的确定方法、装置、电子设备及可读存储介质与流程

文档序号:22833579发布日期:2020-11-06 16:24阅读:152来源:国知局
异常数据的确定方法、装置、电子设备及可读存储介质与流程

本申请涉及数据处理技术领域,具体而言,本申请涉及一种异常数据的确定方法、装置、电子设备及可读存储介质。



背景技术:

银行的业务系统中存在着大量的交易数据,如存款数据、贷款数据等,可以通过对交易数据的分析来推测用户的行为。

目前,在一些银行业务中,用户可能会进行一些异常行为,以存取款业务为例,客户可能会存在一些异常的存取款行为,相应的会产生一些异常数据,如果能够准确的在大量变更数据中将由异常行为产生的异常数据确定出来,就能够通过异常数据分析用户的异常行为,进而针对用户的异常行为采取应对措施,提升服务质量。



技术实现要素:

本申请的目的旨在至少能解决上述的技术缺陷之一。本申请所采用的技术方案如下:

第一方面,本申请实施例提供了一种异常数据的确定方法,该方法包括:

获取目标用户的交易数据,确定交易数据在各预设时段的变更数据;

基于adf校验将变更数据转化为待解析数据;

对待解析数据进行协整校验,基于待解析数据的协整关系确定异常数据。

可选地,对待解析数据进行协整校验,基于待解析数据的协整关系确定异常数据,包括:

对待解析数据进行协整校验,确定待解析数据中存在协整关系的协整数据;

对协整数据进行多元线性回归分析,确定置信区间;

基于置信区间确定异常数据。

可选地,对协整数据进行多元线性回归分析,确定置信区间,包括:

将协整校验的显著性检验结果满足预设条件的协整数据确定为目标协整数据;

对目标协整数据进行多元线性回归分析,确定置信区间。

可选地,基于置信区间确定异常数据,包括:

将不属于置信区间内数据的待解析数据确定为异常数据。

可选地,获取目标用户的交易数据,包括:

获取目标用户在各业务系统的初始数据;

对初始数据进行预处理,得到交易数据。

可选地,确定交易数据在各预设时段的变更数据,包括:

确定交易数据在各预设时段的变更幅度,将变更幅度确定为变更数据。

可选地,基于adf校验将变更数据转化为待解析数据,包括:

对变更数据的时间序列以及数值序列进行adf校验;

若变更数据的时间序列以及数值序列均通过了adf校验,则将变更数据确定为待解析数据;

若时间序列与数值序列中的至少一项未通过adf校验,则重复对至少一项进行差分处理,直至adf校验通过,将adf校验通过时的差分处理后变更数据确定为待解析数据。

第二方面,本申请实施例提供了一种异常数据的确定装置,该装置包括:

变更数据获取模块,用于获取目标用户的交易数据,确定交易数据在各预设时段的变更数据;

adf校验模块,用于基于adf校验将变更数据转化为待解析数据;

异常数据确定模块,用于对待解析数据进行协整校验,基于待解析数据的协整关系确定异常数据。

可选地,异常数据确定模块具体用于:

对待解析数据进行协整校验,确定待解析数据中存在协整关系的协整数据;

对协整数据进行多元线性回归分析,确定置信区间;

基于置信区间确定异常数据。

可选地,异常数据确定模块在对协整数据进行多元线性回归分析,确定置信区间时,具体用于:

将协整校验的显著性检验结果满足预设条件的协整数据确定为目标协整数据;

对目标协整数据进行多元线性回归分析,确定置信区间。

可选地,异常数据确定模块在基于置信区间确定异常数据时,具体用于:

将不属于置信区间内数据的待解析数据确定为异常数据。

可选地,变更数据获取模块在获取目标用户的交易数据时,具体用于:

获取目标用户在各业务系统的初始数据;

对初始数据进行预处理,得到交易数据。

可选地,变更数据获取模块在确定交易数据在各预设时段的变更数据时,具体用于:

确定交易数据在各预设时段的变更幅度,将变更幅度确定为变更数据。

可选地,adf校验模块具体用于:

对变更数据的时间序列以及数值序列进行adf校验;

若变更数据的时间序列以及数值序列均通过了adf校验,则将变更数据确定为待解析数据;

若时间序列与数值序列中的至少一项未通过adf校验,则重复对至少一项进行差分处理,直至adf校验通过,将adf校验通过时的差分处理后变更数据确定为待解析数据。

第三方面,本申请实施例提供了一种电子设备,该电子设备包括:处理器和存储器;

存储器,用于存储操作指令;

处理器,用于通过调用操作指令,执行如本申请的第一方面的任一实施方式中所示的异常数据的确定方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请的第一方面的任一实施方式中所示的异常数据的确定方法。

本申请实施例提供的技术方案带来的有益效果是:

本申请实施例提供的方案,通过确定目标用户的交易数据在各预设时段的变更数据,并基于adf校验将变更数据转化为待解析数据,从而对待解析数据进行协整校验,基于待解析数据的协整关系确定异常数据。基于本方案,能够通过对变更数据进行协整分析确定出异常数据,为通过异常数据分析用户的异常行为,针对用户的异常行为采取应对措施提供基础,能够提升银行系统的服务质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种异常数据的确定方法的流程示意图;

图2为本申请实施例提供的一种异常数据的确定装置的结构示意图;

图3为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

以存取款业务中的异常行为为例,可能会出现用户在短期内取出大量资金的异常行为,如果能够准确确定出异常数据,根据异常数据对异常行为进行分析,就能针对用户的异常行为采取应对措施,如针对性的向客户进行产品营销,实现对客户的挽留。

本申请实施例提供的异常数据的确定方法、装置、电子设备及可读存储介质,旨在解决现有技术的如上技术问题中的至少一个。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

图1示出了本申请实施例提供的一种异常数据的确定方法的流程示意图,如图1所示,该方法主要可以包括:

步骤s110:获取目标用户的交易数据,确定交易数据在各预设时段的变更数据。

本申请实施例中,用户的交易数据可以为用户的借贷数据等。预设时段的时长可以为一天,可以指定相邻两天的24点之间的时间作为一个预设时段。

步骤s120:基于单位根(adf)校验将变更数据转化为待解析数据;

本申请实施例中,可以对变更数据进行adf校验,即判断变更户数的时间序列以及数值序列是否存在单位根:如果序列平稳,就不存在单位根;否则,就会存在单位根。

本申请实施例中,可以通过对变更数据进行调整,使其能够通过adf校验,可以将调整后的数据确定为待解析数据。

步骤s130:对待解析数据进行协整校验,基于待解析数据的协整关系确定异常数据。

协整检验(cointegrationtest)是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时称这些变量序列间有协整关系存在。设随机向量xt中所含分量均为d阶单整,记为xt~i(d)。如果存在一个非零向量β,使得随机向量yt=βxt~i(d-b),b>0,则称随机向量xt具有d,b阶协整关系,记为xt~ci(d,b),向量β被称为协整向量。可选地,yt和xt为随机变量,并且yt,xt~i(1),当yt=k0+k1xt~i(0),则称yt和xt是协整的,(k0,k1)称为协整系数。

本申请实施例中,可以对待解析数据进行协整校验,基于待解析数据的协整关系来分析异常数据。

本申请实施例提供的方法,通过确定目标用户的交易数据在各预设时段的变更数据,并基于adf校验将变更数据转化为待解析数据,从而对待解析数据进行协整校验,基于待解析数据的协整关系确定异常数据。基于本方案,能够通过对变更数据进行协整分析确定出异常数据,为通过异常数据分析用户的异常行为,针对用户的异常行为采取应对措施提供基础,能够提升银行系统的服务质量。

本申请实施例的一种可选方式中,对待解析数据进行协整校验,基于待解析数据的协整关系确定异常数据,包括:

对待解析数据进行协整校验,确定待解析数据中存在协整关系的协整数据;

对协整数据进行多元线性回归分析,确定置信区间;

基于置信区间确定异常数据。

本申请实施例中,可以对待解析数据进行两两协整校验,从而确定待解析数据中存在协整关系的协整数据。

在回归分析中,如果有两个或两个以上的自变量对因变量产生影响,就称为多元回归。通过对协整数据进行多元线性回归分析,可以确定置信区间,进而根据置信区间来确定异常数据。

具体而言,可以将不属于置信区间内数据的待解析数据确定为异常数据。

本申请实施例的一种可选方式中,对协整数据进行多元线性回归分析,确定置信区间,包括:

将协整校验的显著性检验结果满足预设条件的协整数据确定为目标协整数据;

对目标协整数据进行多元线性回归分析,确定置信区间。

本申请实施例,可以设定预设条件,将显著性检验结果的置信度较高的协整数据确定为目标协整数据。同时还可以指定显著性检验结果的置信度的最低值。作为一个示例,可以将定显著性检验结果的置信度较高的前20组待分析数据作为目标协整数据,还可以保证目标协整数据的置信度高于%95。

作为一个示例,目标协整数据可以包括20组,对目标协整数据进行普通最小二乘法(ordinaryleastsquare,ols)多元回归分析,得到回归方程(regress_function),再根据回归方程反向求解出置信区间。

本申请实施例中,采用协整模型的优势在于考虑了时间序列历史表现,并且对于其未来表现按照置信区间给与了一定的波动,避免季节性和周期性的影响,能够更为准确的检测异常数据。除此之外,利用协整模型对过去历史上资金流向具有趋同性的客户数据进行了聚类,并利用之前聚类的客户数据进行协整校验,极大提升了预测的正确性,能够将市场整体环境和客户个人情况统一的考虑起来,保证了在整体大趋势下客户资金的异动情况能够得到准确的确认。

本申请实施例的一种可选方式中,获取目标用户的交易数据,包括:

获取目标用户在各业务系统的初始数据;

对初始数据进行预处理,得到交易数据。

本申请实施例中,银行系统可以对用户在各业务系统内进行交易的初始数据进行收集,例如,对于用户账户到借贷数据,可以按照每日进行收集,并按照每月、每年分别进行汇总。

初始数据中可能存在数据错误(如存在异常字符)或者数据缺失的情况,在对初始数据进行预处理时,可以针对存在数据错误的数据进行清除,针对缺失的数据填补。

本申请实施例的一种可选方式中,确定交易数据在各预设时段的变更数据,包括:

确定交易数据在各预设时段的变更幅度,将变更幅度确定为变更数据。

本申请实施例中,由于各用户账户中的资金量差异较大,如果通过绝对金额计算交易数据的变更量,各用户之间不具有可比性,会影响分析结果。因此,可以通过计算交易数据的变更幅度,并将变更幅度作为变更数据进行分析。

作为一个示例,当日借方或贷方变更增幅=(当日的借方或贷方数据–前日借方或贷方数据)/当日的借方或贷方数据。

本申请实施例的一种可选方式中,基于adf校验将变更数据转化为待解析数据,包括:

对变更数据的时间序列以及数值序列进行adf校验;

若变更数据的时间序列以及数值序列均通过了adf校验,则将变更数据确定为待解析数据;

若时间序列与数值序列中的至少一项未通过adf校验,则重复对至少一项进行差分处理,直至adf校验通过,将adf校验通过时的差分处理后变更数据确定为待解析数据。

本申请实施例中,可以基于对变更数据的时间序列与数值序列分别进行adf校验,以保证数据的平稳性。

具体而言,如果变更数据的时间序列以及数值序列均通过了adf校验,则将变更数据确定为待解析数据。

如果时间序列和\或数值序列未通过adf校验,则可以对未通过adf校验的时间序列和\或数值序列进行一阶差分处理,而后再次进行adf校验。如果这时一阶差分处理后的时间序列和\或数值序列校验通过,则可以将一阶差分处理后的时间序列和\或数值序列确定为待解析数据。如果这时一阶差分处理后的时间序列和\或数值序列仍未校验通过,则可以将再次进行查分处理,即对一阶差分处理后的时间序列和\或数值序列进行二阶差分处理,依照此方式,直至满足差分处理后的时间序列和\或数值序列通过adf校验。

通过adf校验验证时间序列的平稳性时,可以假定某个时间序列由某一随机过程(stochasticprocess)生成,即假定时间序列{xt}(t=1,2,…)的每一个数值都是从一个概率分布中随机得到的。如果经由该随机过程所生成的时间序列满足下列条件:

均值e(xt)=m是与时间t无关的常数;

方差var(xt)=s^2是与时间t无关的常数;

协方差cov(xt,xt+k)=gk是只与时期间隔k有关,与时间t无关的常数;

则称经由该随机过程而生成的时间序列是(弱)平稳的(stationary)。该随机过程便是一个平稳的随机过程(stationarystochasticprocess)。

当一个自回归过程中:如果滞后项系数b=0,此时便存在单位根。当单位根存在时,自变量和因变量之间的关系具有欺骗性,因为残差序列的任何误差都不会因为样本数量(即时期数)增大而减少,模型中的残差的影响是持续的。因此这种回归又称作伪回归。如果单位根存在,这个过程就是一个随机漫步(randomwalk)。此时此时间序列就会是不平稳的。

所以adf检验的h0假设就是存在单位根,如果得到的显著性检验统计量小于三个置信度(10%,5%,1%),则对应有(90%,95,99%)的把握来拒绝原假设。

其中备择检验中可以指定p值>=0.05则表明无法拒绝原假设,则存在平方根,此时应该采用的是对客户账户的待分析数据进行一阶差分(即后一时间点的值减去当前时间点,也就是yt-yt-1),继续做adf检验,如不满足则继续二阶差分,p值小于0.05直至满足平稳性。

本申请实施例的一种可选方式中,上述方法还包括:

将异常数据存储于异常记录数据库。

本申请实施例中,可以将异常数据存储于异常记录数据库,在对异常数据进行分析时可以直接从异常记录数据库中进行调取。

基于与图1中所示的方法相同的原理,图2示出了本申请实施例提供的一种异常数据的确定装置的结构示意图,如图2所示,该异常数据的确定装置20可以包括:

变更数据获取模块210,用于获取目标用户的交易数据,确定交易数据在各预设时段的变更数据;

adf校验模块220,用于基于adf校验将变更数据转化为待解析数据;

异常数据确定模块230,用于对待解析数据进行协整校验,基于待解析数据的协整关系确定异常数据。

本申请实施例提供的装置,通过确定目标用户的交易数据在各预设时段的变更数据,并基于adf校验将变更数据转化为待解析数据,从而对待解析数据进行协整校验,基于待解析数据的协整关系确定异常数据。基于本方案,能够通过对变更数据进行协整分析确定出异常数据,为通过异常数据分析用户的异常行为,针对用户的异常行为采取应对措施提供基础,能够提升银行系统的服务质量。

可选地,异常数据确定模块具体用于:

对待解析数据进行协整校验,确定待解析数据中存在协整关系的协整数据;

对协整数据进行多元线性回归分析,确定置信区间;

基于置信区间确定异常数据。

可选地,异常数据确定模块在对协整数据进行多元线性回归分析,确定置信区间时,具体用于:

将协整校验的显著性检验结果满足预设条件的协整数据确定为目标协整数据;

对目标协整数据进行多元线性回归分析,确定置信区间。

可选地,异常数据确定模块在基于置信区间确定异常数据时,具体用于:

将不属于置信区间内数据的待解析数据确定为异常数据。

可选地,变更数据获取模块在获取目标用户的交易数据时,具体用于:

获取目标用户在各业务系统的初始数据;

对初始数据进行预处理,得到交易数据。

可选地,变更数据获取模块在确定交易数据在各预设时段的变更数据时,具体用于:

确定交易数据在各预设时段的变更幅度,将变更幅度确定为变更数据。

可选地,adf校验模块具体用于:

对变更数据的时间序列以及数值序列进行adf校验;

若变更数据的时间序列以及数值序列均通过了adf校验,则将变更数据确定为待解析数据;

若时间序列与数值序列中的至少一项未通过adf校验,则重复对至少一项进行差分处理,直至adf校验通过,将adf校验通过时的差分处理后变更数据确定为待解析数据。

可以理解的是,本实施例中的异常数据的确定装置的上述各模块具有实现图1中所示的实施例中的异常数据的确定方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件,上述各模块可以单独实现,也可以多个模块集成实现。对于上述异常数据的确定装置的各模块的功能描述具体可以参见图1中所示实施例中的异常数据的确定方法的对应描述,在此不再赘述。

本申请实施例提供了一种电子设备,包括处理器和存储器;

存储器,用于存储操作指令;

处理器,用于通过调用操作指令,执行本申请任一实施方式中所提供的异常数据的确定方法。

作为一个示例,图3示出了本申请实施例所适用的一种电子设备的结构示意图,如图3所示,该电子设备2000包括:处理器2001和存储器2003。其中,处理器2001和存储器2003相连,如通过总线2002相连。可选的,电子设备2000还可以包括收发器2004。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本申请实施例的限定。

其中,处理器2001应用于本申请实施例中,用于实现上述方法实施例所示的方法。收发器2004可以包括接收机和发射机,收发器2004应用于本申请实施例中,用于执行时实现本申请实施例的电子设备与其他设备通信的功能。

处理器2001可以是cpu(centralprocessingunit,中央处理器),通用处理器,dsp(digitalsignalprocessor,数据信号处理器),asic(applicationspecificintegratedcircuit,专用集成电路),fpga(fieldprogrammablegatearray,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。

总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是pci(peripheralcomponentinterconnect,外设部件互连标准)总线或eisa(extendedindustrystandardarchitecture,扩展工业标准结构)总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器2003可以是rom(readonlymemory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(randomaccessmemory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electricallyerasableprogrammablereadonlymemory,电可擦可编程只读存储器)、cd-rom(compactdiscreadonlymemory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

可选的,存储器2003用于存储执行本申请方案的应用程序代码,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序代码,以实现本申请任一实施方式中所提供的异常数据的确定方法。

本申请实施例提供的电子设备,适用于上述方法任一实施例,在此不再赘述。

本申请实施例提供了一种电子设备,与现有技术相比,通过确定目标用户的交易数据在各预设时段的变更数据,并基于adf校验将变更数据转化为待解析数据,从而对待解析数据进行协整校验,基于待解析数据的协整关系确定异常数据。基于本方案,能够通过对变更数据进行协整分析确定出异常数据,为通过异常数据分析用户的异常行为,针对用户的异常行为采取应对措施提供基础,能够提升银行系统的服务质量。

本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述方法实施例所示的异常数据的确定方法。

本申请实施例提供的计算机可读存储介质,适用于上述方法任一实施例,在此不再赘述。

本申请实施例提供了一种计算机可读存储介质,与现有技术相比,通过确定目标用户的交易数据在各预设时段的变更数据,并基于adf校验将变更数据转化为待解析数据,从而对待解析数据进行协整校验,基于待解析数据的协整关系确定异常数据。基于本方案,能够通过对变更数据进行协整分析确定出异常数据,为通过异常数据分析用户的异常行为,针对用户的异常行为采取应对措施提供基础,能够提升银行系统的服务质量。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1