一种预测用户开通信用账户的方法和装置与流程

文档序号:17731261发布日期:2019-05-22 02:52阅读:190来源:国知局
一种预测用户开通信用账户的方法和装置与流程

本发明涉及信息技术领域,特别是一种预测用户开通信用账户的方法和装置。



背景技术:

证券行业的用户开了普通账户后,满足监管部门的相关要求可以申请开信用账户。信用账户开通后,用户可以有更多的业务参与,而且也有利于证券公司的开展多种业务。

现有技术中,一方面,对信用账户开户通常由客户经理人对用户信息进行人工统计和分析,根据经验和个人判断来确定用户开通信用账户的意愿,但是这种方法主观性强,准确性极不稳定;另一方面,只能从用户信息中简单筛选基础条件满足要求的用户进行推广活动,但是这种方式对信用账户开户意愿也无法做到精准预测。



技术实现要素:

针对上述问题,本发明旨在提供一种预测用户开通信用账户的方法和装置,其能够提高信用账户开户预测准确性。

本发明的目的采用以下技术方案来实现:

第一方面,提供一种预测用户开通信用账户的方法,包括:

获取未开通信用账户的一个或多个目标客户在设定时间段内的交易信息,其中,交易信息包括:交易日期以及与交易日期对应的持仓数据、成交数据和委托数据;

将设定时间段内的各交易日期与预测日期以天为单位计算得到的不同时间差形成时间序列;

选取与该交易日期对应的持仓数据、成交数据和委托数据中的一种或多种,并与时间序列对应组成输入数据;

将输入数据输入至预先训练完毕的对应lstm模型进行计算,得到lstm模型输出的一个或多个目标客户的开户概率。

在一种实施方式中,该方法还包括:根据输出目标客户的开户概率从中筛选出开户概率大于设定阈值的目标客户并输出。

在一种实施方式中,该方法还包括:记录每个目标客户在一预测时间段内一个或多个预测日期对应的开户概率,并与该开户日期对应组成开户概率预测序列;

输出开户概率预测序列中每个开户概率都在设定的阈值区间内的目标客户信息及其开户概率预测序列。

在一种实施方式中,该方法还包括:获取在预测时间段内实际开通信用账户的客户信息及其开户概率预测序列,根据其中的开户概率调整设定的阈值区间范围。

在一种实施方式中,其中持仓数据包括持仓率,持仓率为买入资金占总资金的比例;成交数据包括成交占比,成交占比为成交金额占总资产的比例;委托数据包括委托占比,委托占比为冻结金额占总资产的比例。

在一种实施方式中,采用的lstm模型具体为:

ft=σ(wf·[ht-1,xt]+bf)

it=σ(wi·[ht-1,xt]+bi)

ot=σ(wo·[ht-1,xt]+bo)

ht=ot*tanh(ct)

其中,ft表示遗忘门限,it表示输入门限,表示前一时刻记忆单元(cell)状态、ct表示记忆单元状态,ot表示输出门限,ht表示当前记忆单元的输出,ht-1表示前一时刻记忆单元的输出,σ表示激活函数,bf表示遗忘门限的偏置,wf表示遗忘门限的权重,bi表示输入门限的偏置,wi表示输入门限的权重,bo表示输出门限的偏置,wo表示输出门限的权重,bc表示记忆单元的偏置,wc表示记忆单元的权重。

在一种实施方式中,该采用的lstm模型中,具体采用的激活函数σ为sigmoid函数。

在一种实施方式中,该采用的lstm模型中,具体采用的激活函数σ为relu函数。

在一种实施方式中,该采用的lstm模型中,具体采用的激活函数σ为:

其中,α表示设定的激活因子。

在一种实施方式中,该方法还包括预先训练lstm模型,其中,训练lstm模型包括:

获取未开通信用账户的样本用户在第一设定时间段内的第一交易信息,其中,第一交易信息包括交易日期,以及对应交易日期的持仓数据、成交数据和委托数据;

将第一设定时间段内的各交易日期与第一设定日期以天为单位计算得到的不同时间差形成时间序列;

选取第一交易信息中的与交易日期对应的持仓数据、成交数据和委托数据中的一种或多种,并与时间序列对应组成第一训练数据;和/或

获取已开通信用账户的样本用户在第二设定时间段内的第二交易信息,其中,第二交易信息包括交易日期,以及对应交易日期的持仓数据、成交数据和委托数据;

将第二设定时间段内的各交易日期与第二设定日期以天为单位计算得到的不同时间差形成时间序列;

选取第二交易信息中的与交易日期对应的持仓数据、成交数据和委托数据中的一种或多种,并与时间序列对应组成第二训练数据;

生成训练样本,其中训练样本包括第一训练数据及其对应的第一用户分类标识和/或第二训练数据及其对应的第二用户分类标识;

用训练样本作为输入数据训练lstm模型,并对lstm模型参数进行调优,获得训练完毕的lstm模型并存储。

在一种实施方式中,对lstm模型参数进行调优,进一步包括:多次调整lstm模型参数,获得多个模型收敛程度,选择模型收敛度大于或等于设定收敛值的模型参数。

在一种实施方式中,该方法还包括:

确定持仓数据、成交数据和委托数据中一种或多种的选取以用于组成输入数据,或者,输入数据、第一训练数据和第二训练数据,其中,确定持仓数据、成交数据和委托数据中一种或多种的选取包括:

计算持仓数据、成交数据和委托数据三种参数之间的相关系数,去除三种参数中大于设定阈值且最大的相关系数所涉及的参数,选择剩下的参数以用于组成输入数据,或者,输入数据、第一训练数据和第二训练数据;

采用逐步回归法从被去除的参数中筛选出显著性最优的参数,将所筛选出的参数用于组成输入数据,或者,输入数据、第一训练数据和第二训练数据。

第二方面提供一种预测用户开通信用账户的装置,该装置包括:

用户交易信息获取模块,获取未开通信用账户的一个或多个目标客户在设定时间段内的交易信息,其中,交易信息包括:交易日期以及与交易日期对应的持仓数据、成交数据和委托数据;

输入数据生成模块,将设定时间段内的各交易日期与预测日期以天为单位计算得到的不同时间差形成时间序列;选取与交易日期对应的持仓数据、成交数据和委托数据中的一种或多种,并与时间序列对应组成输入数据;

处理模块,将输入数据输入至预先训练完毕的对应lstm模型进行计算,得到lstm模型输出的一个或多个目标客户的开户概率。

在一种实施方式中,该处理模块还包括:

根据输出目标客户的开户概率从中筛选出开户概率大于设定阈值的目标客户并输出。

在一种实施方式中,上述持仓数据包括持仓率,持仓率为买入资金占总资金的比例;成交数据包括成交占比,成交占比为成交金额占总资产的比例;委托数据包括委托占比,委托占比为冻结金额占总资产的比例。

在一种实施方式中,该处理模块中,采用的lstm模型具体为:

ft=σ(wf·[ht-1,xt]+bf)

it=σ(wi·[ht-1,xt]+bi)

ot=σ(wo·[ht-1,xt]+bo)

ht=ot*tanh(ct)

其中,ft表示遗忘门限,it表示输入门限,表示前一时刻记忆单元(cell)状态、ct表示记忆单元状态,ot表示输出门限,ht表示当前记忆单元的输出,ht-1表示前一时刻记忆单元的输出,σ表示激活函数,bf表示遗忘门限的偏置,wf表示遗忘门限的权重,bi表示输入门限的偏置,wi表示输入门限的权重,bo表示输出门限的偏置,wo表示输出门限的权重,bc表示记忆单元的偏置,wc表示记忆单元的权重。

在一种实施方式中,该采用的lstm模型中,具体采用的激活函数σ为sigmoid函数。

在一种实施方式中,该采用的lstm模型中,具体采用的激活函数σ为relu函数。

在一种实施方式中,采用的lstm模型中,具体采用的激活函数σ为:

其中,α表示设定的激活因子。

在一种实施方式中,用户交易信息获取模块,还用于获取未开通信用账户的样本用户在第一设定时间段内的第一交易信息,其中,第一交易信息包括交易日期,以及对应交易日期的持仓数据、成交数据和委托数据;和/或

输入数据生成模块,还用于将第一设定时间段内的各交易日期与第一设定日期以天为单位计算得到的不同时间差形成时间序列;选取第一交易信息中的与交易日期对应的持仓数据、成交数据和委托数据中的一种或多种,并与时间序列对应组成第一训练数据;

和/或

用户交易信息获取模块,还用于获取已开通信用账户的样本用户在第二设定时间段内的第二交易信息,其中,第二交易信息包括交易日期,以及对应交易日期的持仓数据、成交数据和委托数据;

输入数据生成模块,还用于将第二设定时间段内的各交易日期与第二设定日期以天为单位计算得到的不同时间差形成时间序列;选取第二交易信息中的与交易日期对应的持仓数据、成交数据和委托数据中的一种或多种,并与时间序列对应组成第二训练数据;

输入数据生成模块还用于生成训练样本,其中训练样本包括第一训练数据及其对应的第一用户分类标识和/或第二训练数据及其对应的第二用户分类标识;

该处理模块还用于,用训练样本作为输入数据训练lstm模型,并对lstm模型参数进行调优,获得训练完毕的lstm模型并存储。

本发明的有益效果为:通过对用户历史数据的整理和分析,提取其中的已开通信用账户的用户和/或未开通信用账户的用户的数据特征,由此形成预测模型的参数因子,通过多次训练和优化lstm模型,从而提高lstm模型预测用户开通信用账户概率的准确性,整个过程避免了人为参与判断的因素。通过收集目标用户的交易信息并整理成输入数据输入到训练完毕的lstm模型中进行信用账户开通概率预测,能够摆脱依靠人工对用户开户意愿判断的主观性,有效提高预测用户开通信用账户概率的准确性、稳定性及效率。

附图说明

利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。

图1为本发明实施例提供的一种用于预测用户开通信用账户的lstm模型的训练方法流程图;

图2为本发明lstm模型参数调优的过程中模型收敛度对样本数量的仿真图;

图3为本发明实施例提供的一种预测用户开通信用账户的方法的流程图;

图4为本发明实施例提供的一种预测用户开通信用账户的装置。

具体实施方式

下面将结合附图和具体距离对本发明加以详细说明,应指出的是,以下描述的例子仅为更方便理解本发明,对本发明本身不起任何限定作用。

本发明旨在提出一种基于已开通信用账户和/或未开通信用账户的用户在一段时间内的交易信息来训练lstm(longshort-termmemory)模型,并基于训练完成的lstm模型预测目标客户开通信用账户的技术方案。

1)选定lstm模型的数据参数

在训练lstm模型之前,首先需要从数据库中挑选合适的数据参数(即数据类型)作为训练lstm模型的训练数据和/或用于预测的输入数据。

在一种实施方式中,可直接选定持仓数据、成交数据和委托数据作为该数据参数来组成该训练数据,即训练数据由持仓数据、成交数据和委托数据组成。

在一种实施方式中,持仓数据包括持仓率,该持仓率为买入资金占总资金的比例;成交数据包括成交占比,该成交占比为成交金额占总资产的比例;委托数据包括委托占比,该委托占比为冻结金额占总资产的比例。

需要说明的是,上述实施方式中,选定持仓数据、成交数据和委托数据作为该数据参数来组成该训练数据;同时,根据实际情况,还可以选择持仓数据、成交数据和委托数据中的一项或两项作为数据参数来组成该训练数据,例如,训练数据仅由持仓数据和成交数据组成。

在一种实施方式中,所采用的数据参数选定方法如下:

确定持仓数据、成交数据和委托数据中一种或多种的选取以用于组成输入数据,或者,输入数据、第一训练数据和第二训练数据,其中,确定持仓数据、成交数据和委托数据中一种或多种的选取包括:

计算持仓数据、成交数据和委托数据三种参数之间的相关系数,去除三种参数中大于设定阈值且最大的相关系数所涉及的参数,选择剩下的参数以用于组成输入数据,或者,输入数据、第一训练数据和第二训练数据;

采用逐步回归法从被去除的参数中筛选出显著性最优的参数,将所筛选出的参数用于组成输入数据,或者,输入数据、第一训练数据和第二训练数据。

其中,显著性最优的参数,是指采用逐步回归法将被去除的参数重新引入作为输入数据后,被引入的参数与原输入数据中的参数的之间的该相关系数最小的一组参数。

在一种场景中,计算持仓数据、成交数据和委托数据三种参数之间的相关系数如下表所示:

其中设定的相关系数阈值为0.75;

依上表所得,由于成交数据和委托数据之间的相关系数0.9大于设定的阈值0.75,所以将成交数据和委托数据去除,并将剩下的持仓数据用于组成输入数据;

对被去除的成交数据和委托数据作进一步处理,从中筛选出与持仓数据之间相关系较小的参数,即委托数据,用于组成输入数据;即该输入数据由持仓数据和委托数据组成。

在一种实施方式,也可以采用逐步回归法根据lstm模型的性能或根据避免多重共线性来从被去除的参数中筛选出用于组成输入数据的参数。

当然,本领域技术人员能够理解,lstm模型的训练数据和预测时的输入数据应该由相同的参数组成。

采用上述的方式选定训练数据和输入数据的数据参数,能够有效地去除数据参数中的多重共线性,有助于提高lstm模型的性能。

2)训练lstm模型

参见图1,其示出本发明实施例提供的一种用于预测用户开通信用账户的lstm模型的训练方法流程图。

本发明实施例提供的一种用于预测用户开通信用账户的lstm模型的训练方法,可以包括以下步骤:

s120a:获取未开通信用账户的样本用户在第一设定时间段内的第一交易信息,其中,第一交易信息包括交易日期,以及对应交易日期的持仓数据、成交数据和委托数据;

s122a:将第一设定时间段内的各交易日期与第一设定日期以天为单位计算得到的不同时间差形成时间序列;

s124a:选取第一交易信息中的与交易日期对应的持仓数据、成交数据和委托数据中的一种或多种,并与时间序列对应组成第一训练数据;

s120b:获取已开通信用账户的样本用户在第二设定时间段内的第二交易信息,其中,第二交易信息包括交易日期,以及对应交易日期的持仓数据、成交数据和委托数据;

s122b:将第二设定时间段内的各交易日期与第二设定日期以天为单位计算得到的不同时间差形成时间序列;

s124b:选取第二交易信息中的与交易日期对应的持仓数据、成交数据和委托数据中的一种或多种,并与时间序列对应组成第二训练数据;

在一种实施方式中,第二设定日期为该已开通信用账户的样本用户的开户日期,该第二设定时间段可以为与该开户日期具有固定时间差的时间段,由于对应每个已开通信用账户的样本用户的开户日期不一定相同,因此对应每个已开通信用账户的样本用户的该第二设定时间段的具体日期也不一定不相同。

上述步骤中,首先可以预先设定一个第一设定时间段,然后获取未开通信用账户的样本用户在该第一设定时间段内的第一交易信息,将该第一交易信息中的交易日期按其与第一设定日期以天为单位计算得到的时间差大小排序形成时间序列,然后将各交易日期对应的持仓数据、成交数据和委托数据与该时间序列对应形成第一训练数据。

在一种场景中,可以从数据库中获取未开通信用账户的所有用户在该当前日期前x个交易日内对应各交易日的交易信息,将该x个交易日与当前日期的交易日时间差按从小到大的顺序形成时间序列,并将该x个交易日中各个交易日对应的持仓数据、成交数据和委托数据与时间序列对应生成第一训练数据。

在一个优选实施例中,交易日的个数x的取值范围为90~360,进一步地,x=180。

与上述实施方式类似,预先设定一个第二设定时间段,然后获取已开通信用账户的样本用户在该第二设定时间段内的第二交易信息,将该第二交易信息中的交易日期按其与第二设定日期以天为单位计算得到的时间差大小排序形成时间序列,然后将各交易日期对应的持仓数据、成交数据和委托数据与该时间序列对应形成第二训练数据。

在一种场景中,可以从数据库中获取已开通信用账户的所有用户在其信用账户开通日期的前x个交易日内对应各交易日的交易信息,将该x个交易日与其信用账户开通日期的交易日时间差按从小到大的顺序形成时间序列,并将该x个交易日中各个交易日对应的持仓数据、成交数据和委托数据与时间序列对应生成第二训练数据。

本领域技术人员可以理解,还可以选择上述范围外的交易日数量以完成本发明。

可以同时获取第一训练数据和第二训练数据,或其中一种数据作为lstm模型的训练数据。

在一种实施例中,第一设定时间段与第二设定时间段相同。

在一种实施方式中,持仓数据包括持仓率,持仓率为买入资金占总资金的比例;成交数据包括成交占比,成交占比为成交金额占总资产的比例;委托数据包括委托占比,委托占比为冻结金额占总资产的比例。

在一种实施方式中,将一个设定时间段内的交易信息中包括的n个交易日期分别与设定的日期以天为单位计算时间差,得到n个时间差,依照时间差从小到大的顺序,对应将时间差最小的交易日期记为t1,时间差最大的交易日期记为tn,形成时间序列表示为[t1,t2,…tn,…,tn],其中tn表示时间序列中的第n个时间节点,1≤n≤n,n同时表示时间序列中时间节点的总数,对于针对一个样本用户,该训练数据的表示形式为其中,表示第n个时间节点的持仓数据,表示第n个时间节点的成交数据,表示第n个时间节点的委托数据。

然而,本领域技术人员可以理解,上述时间序列的形成也可以根据时间差从大到小排列的。

在一种场景中,上述训练数据可以根据上述数据参数的选定,包括其中持仓数据、成交数据和委托数据中的一项或多项;

例如,当根据上述lstm模型数据参数选定方法获取的合适的数据参数为持仓数据和成交数据,则该训练数据的表示形式为

需要说明的是,上述步骤s120a、s122a、s124a和步骤s120b、s122b、s124b可以选择其中一种执行,也可以同时执行。

s140:生成训练样本,其中训练样本包括第一训练数据及其对应的第一用户分类标识和/或第二训练数据及其对应的第二用户分类标识;

基于获取的训练数据,生成用于训练lstm模型的训练样本。

在一种实施方式中,用户表示分为第一用户标识和第二用户标识,第一用户分类标识对应未开通信用账户的样本用户,可以标记一个标签0;第二用户分类标识对应已开通信用账户的样本用户,可以标记一个标签1。

在一种场景中,生成的训练样本为一个多维数组,可以其表示形式为:

其中,z表示训练样本,[t1,t2,…tn,…,tn]表示时间序列,tn表示时间序列中的第n个时间节点,n=1,2,…,n,n表示时间序列中时间节点的总数,表示第m个样本用户对应时间节点tn的持仓率,其中m=1,2,…,m,m表示训练样本容量,即样本用户的总数,表示第m个样本用户对应时间节点tn的成交占比,表示第m个样本用户对应时间节点tn的委托占比,dm表示第m个样本用户对应的用户分类表示。

s160:用该训练样本作为输入数据训练lstm模型,并对lstm模型参数进行调优,获得训练完毕的lstm模型并存储。

将训练样本作为输入数据训练lstm模型,并对lstm模型参数进行调优,重复训练选取最合适的lstm模型并储存。

在一种实施方式中,本发明采用的lstm模型具体为:

ft=σ(wf·[ht-1,xt]+bf)

it=σ(wi·[ht-1,xt]+bi)

ot=σ(wo·[ht-1,xt]+bo)

ht=ot*tanh(ct)

其中,ft表示遗忘门限,it表示输入门限,表示前一时刻记忆单元(cell)状态、ct表示记忆单元状态,ot表示输出门限,ht表示当前记忆单元的输出,ht-1表示前一时刻记忆单元的输出,σ表示激活函数,bf表示遗忘门限的偏置,wf表示遗忘门限的权重,bi表示输入门限的偏置,wi表示输入门限的权重,bo表示输出门限的偏置,wo表示输出门限的权重,bc表示记忆单元的偏置,wc表示记忆单元的权重,xt表示t时刻输入节点的输入数据。

在一种实施方式中,该采用的lstm模型中,具体采用的激活函数σ为sigmoid函数。

在一种实施方式中,该采用的lstm模型中,具体采用的激活函数σ为relu函数。

在一种实施方式中,采用的lstm模型中,具体采用的激活函数σ为:

其中,α表示设定的激活因子。

由于证券行业用户的持仓数据、成交数据和委托数据中的资金等数据均为正数且该数据的数值大小变化较大,会导致输入数据的数值区间范围较大,从而导致激活函数的输入数值区间的范围也会较大,当训练数据中数值比较大时容易造成梯度消失的问题;采用上述分阶段的激活函数,饱和区内的梯度不会接近于0,一方面能够有效解决上述问题;另一方面,由于x<0部分为非线性且具有软饱和性质,能够进一步避免传统激活函数中出现死亡节点的问题,同时加快神经网络的训练速度和提高对输入变化的鲁棒性,进一步提高了lstm模型训练的精确度和效率。

在一种实施方式中,对lstm模型参数进行调优,具体为对该模型中的模型参数wf,bf,wi,bi,wc,bc,wo,bo,进行调优,获取最合适的lstm模型。

在一种实施方式中,对lstm模型参数进行调优,进一步包括:

多次调整lstm模型参数,获得多个模型收敛程度,选择模型收敛度大于或等于设定收敛值的模型参数。

在一种场景中,可以在linux环境下对lstm模型参数进行调优,具体步骤包括:

在linux环境下搭建基于lstm的深度学习环境;

设置lstm模型的随机种子数和模型迭代次数;

设置lstm模型优化器和学习速率;

设置lstm模型的输入节点数量和输出节点数量;

设置lstm模型的训练样本容量;

多次调整lstm模型参数,根据模型损失获得模型收敛程度,选择最大模型收敛度对应的模型参数。

在一种实施方式中,采用的模型优化器为stochastic_gradient_descent;

在一种场景中,该训练样本时间序列中包含的节点数为180,则设置模型的随机种子数为s;模型迭代次数为1;设置stochastic_gradient_descent模型优化器的学习速率为v;设置lstm输入节点数为i=3t+1,其中该数据节点由t个时间节点对应的持仓数据、t个时间节点对应的成交数据、t个时间节点对应的委托数据以及1个节点对应的分类标识组成;设置lstm输出节点数为2。设置训练样本容量为r,其中该样本容量表示训练样本中包含训练数据的组数。

作为一种优选实施例,随机种子数s=123;

作为一种优选实施例,学习速率v的取值范围为0.001~0.1;进一步地,v=0.01;

作为一种优选实施例,样本容量r的取值范围为800~10000;进一步地,r=1000;

作为一种优选实施例,输入节点数i的取值范围为271~1081;进一步地,i=541;

上述实施方式中,对lstm模型参数进行调优,模型优化器以模型损失观测模型的收敛程度,其中训练样本数对模型的收敛度也起到了重要的影响,参见图2,其示出了在lstm模型参数调优的过程中,模型收敛度对样本数量的仿真图。可以看出,当训练样本容量为980~1020时,模型的收敛度最高。然而本领域技术人员能够明白上述随机种子数、学习速率、样本容量、输入节点数、输出节点数的取值大小为其他也是可以的。

本发明上述实施方式,采用上述方式对lstm模型进行训练,分别采集已开通信用账户的用户交易信息和未开通信用账户的用户交易信息,获取用户在一个时间段内的持仓数据、成交数据和委托数据并生成训练数据,将上述一个或多个用户的生成的训练数据组合成训练样本,输入到lstm模型中用于训练lstm模型,通过不断对lstm模型参数调优,获取收敛度高的lstm模型作为训练完毕的lstm模型。

3)基于训练完毕的lstm模型预测目标客户的信用账户开户概率

依照上述实施方式中示出的训练方法训练lstm模型,并基于训练完毕的上述lstm模型对目标客户的信用账户开户概率进行预测;当需要对目标客户进行预测时,可以采用与上述同样的方式,获取目标客户在设定时间段内的交易信息作为输入数据,将该输入数据输入上述lstm模型中得到该目标客户的开户概率。

参见图3,其示出本发明实施例提供的一种预测用户开通信用账户的方法的流程图。

本发明实施例提供的一种预测用户开通信用账户的方法,可以包括以下步骤:

s302:获取未开通信用账户的一个或多个目标客户在设定时间段内的交易信息,其中,交易信息包括:交易日期以及与交易日期对应的持仓数据、成交数据和委托数据;

在一种实施方式中,在数据库中的未开通信用账户的用户中选取其中的一个或多个作为目标客户,获取该目标客户在设定时间段内的交易信息。

在一种场景中,可以选取目标客户在与上述训练lstm模型时选取的未开通信用账户的样本用户的训练数据相同时间段的交易信息。

在一种场景中,可以设定上述训练lstm模型时选取的与未开通信用账户的样本客户对应的第一时间段作为设定的时间段。本领域技术人员能够明白,该设定时间段也可以是与第一时间段不同的其他时间段。

s304:将设定时间段内的各交易日期与预测日期以天为单位计算得到的不同时间差形成时间序列;选取与该交易日期对应的持仓数据、成交数据和委托数据中的一种或多种,并与时间序列对应组成输入数据;

在一种场景中,可以预先设定一个设定的时间段,然后获取目标客户在该时间段内的交易信息,将该交易信息中的交易日期按时间顺序形成时间序列,然后将各交易日期对应的持仓数据、成交数据和委托数据与该时间序列对应形成输入数据。

在一种场景中,选取目标客户在当前日期前x个交易日内对应各交易日的交易信息,将该x个交易日与当前日期的交易日时间差按从小到大的顺序形成时间序列,并将该x个交易日中各个交易日对应的持仓数据、成交数据和委托数据与时间序列对应生成输入数据。

在一个优选实施例中,交易日的个数x的取值范围为90~360,进一步地,x取值为180。

在一种实施方式中,该输入数据的表示形式与上述训练lstm模型时的训练数据的表示形式相同。

s306:将输入数据输入至预先训练完毕的对应lstm模型进行计算,得到lstm模型输出的一个或多个目标客户的开户概率。

在一种场景中,该lstm模型的输出中包含目标客户开户概率的数量等于其输入数据中包含的目标客户数量。

作为一种优选实施例,该输出的目标客户的开户概率的取值范围为[0,1]。

其中,本发明中预测用户开通信用账户的方法,还可以包括对输出的目标客户的开户概率的进一步处理,本说明书中不进行特定限定,例如,在一种实施方式中,可以根据输出目标客户的开户概率从中筛选出开户概率大于设定阈值的目标客户信息并进行显示,指导客户经理根据该输出的目标客户信息进行营销。

本发明上述实施方式,通过对用户历史数据的整理和分析,提取其中的已开通信用账户的用户和/或未开通信用账户的用户的数据特征,由此形成预测模型的参数因子,通过多次训练和优化lstm模型,从而提高lstm模型预测用户开通信用账户概率的准确性,整个过程避免了人为参与判断的因素;通过手机目标用户的交易信息并整理成输入数据输入到训练完毕的lstm模型中进行信用账户开通概率预测,能够摆脱现有技术中只能依靠人工对用户开户意愿判断的主观性,有效提高预测用户开通信用账户概率的准确性、稳定性及效率。

根据本发明方法还能够基于预测用户开通信用账户的概率筛选出目标客户信息,可用于指导客户经理根据筛选的目标客户信息进行针对性营销,间接提高了信用账户开通营销的准确性。

在一种实施方式中,该方法得到lstm模型输出的一个或多个目标客户的开户概率后,还包括:

记录每个目标客户在一预测时间段内一个或多个预测日期对应的开户概率,并与该开户日期对应组成开户概率预测序列;

输出开户概率预测序列中每个开户概率都在设定的阈值区间内的目标客户信息及其开户概率预测序列。

在一种场景中,该阈值区间设定为[0.5,1];

在一种场景中,该预测时间段设定为包括连续3个预测日期,该阈值区间设置为大于0.725,则输出该连续3个预测日期获取的开户概率都大于0.725的目标客户信息,及其开户概率预测序列。供客户经理根据输出的目标客户信息进行针对性的信用账户开通营销。

在一种实施方式中,该方法还包括:获取在预测时间段内实际开通信用账户的客户信息及其开户概率预测序列,根据其中的开户概率调整设定的阈值区间范围。

在一种场景中,根据反馈的在该预测时间段内实际开通信用账户的客户信息,获取该客户在该预测时间段的开户概率预测序列,并根据该开户概率序列中包括的开户概率的最大值和最小值来调整该设定的阈值区间;

在一种场景中,获取一段时间内实际开通信用账户的客户信息,根据该开通客户在之前一段时间获取的开户概率,根据该开户概率的最大值和最小值,更新设定的阈值区间范围;在对每个目标客户进行下一个预测时间段的开户概率预测序列统计后,采用该更新后的阈值区间对获取的该户概率预测序列进行筛选,获取下一批符合要求的目标客户信息。

在一种场景中,该预测时间段内实际有2名客户开通了信用账户,该用户在该预测时间段的开户概率预测序列分别为{0.76,0.80,0.68,0.95,0.95}和{0.64,0.72,0.78,0.85,0.90},则根据开户概率预测序列中包括的开户概率最大值和最小值调整阈值区间,即把阈值区间调整为[0.64,0.95],并采用[0.64,0.95]作为阈值区间筛选出下一个预测时间段对应的目标客户信息。

与上述实施方式相对应,本发明还提供了装置的实施方式,参见图4,其示出了本发明实施例提供的一种预测用户开通信用账户的装置。

本发明实施例提供的一种预测用户开通信用账户的装置,包括:用户交易信息获取模块、输入数据生成模块和处理模块;

用户交易信息获取模块401,获取未开通信用账户的一个或多个目标客户在设定时间段内的交易信息,其中,交易信息包括:交易日期以及与交易日期对应的持仓数据、成交数据和委托数据;

输入数据生成模块402,将设定时间段内的各交易日期与预测日期以天为单位计算得到的不同时间差形成时间序列;选取与交易日期对应的持仓数据、成交数据和委托数据中的一种或多种,并与时间序列对应组成输入数据;

处理模块403,将输入数据输入至预先训练完毕的对应lstm模型进行计算,得到lstm模型输出的一个或多个目标客户的开户概率。

在一种实施方式中,该装置还包括:数据参数选取模块,用于选取持仓数据、成交数据和委托数据中的一种或多种组成输入数据,或者,输入数据、第一训练数据和第二训练数据。

在一种实施方式中,该处理模块403还包括:

根据输出目标客户的开户概率从中筛选出开户概率大于设定阈值的目标客户并输出。

在一种场景中,将得到的目标客户开户概率或目标客户名单输出到用户终端,由用户终端进行显示。

在一种实施方式中,上述持仓数据包括持仓率,持仓率为买入资金占总资金的比例;成交数据包括成交占比,成交占比为成交金额占总资产的比例;委托数据包括委托占比,委托占比为冻结金额占总资产的比例。

在一种实施方式中,该处理模块403中,采用的lstm模型具体为:

ft=σ(wf·[ht-1,xt]+bf)

it=σ(wi·[ht-1,xt]+bi)

ot=σ(wo·[ht-1,xt]+bo)

ht=ot*tanh(ct)

其中,ft表示遗忘门限,it表示输入门限,表示前一时刻记忆单元(cell)状态、ct表示记忆单元状态,ot表示输出门限,ht表示当前记忆单元的输出,ht-1表示前一时刻记忆单元的输出,σ表示激活函数,bf表示遗忘门限的偏置,wf表示遗忘门限的权重,bi表示输入门限的偏置,wi表示输入门限的权重,bo表示输出门限的偏置,wo表示输出门限的权重,bc表示记忆单元的偏置,wc表示记忆单元的权重。

在一种实施方式中,该采用的lstm模型中,具体采用的激活函数σ为sigmoid函数。

在一种实施方式中,该采用的lstm模型中,具体采用的激活函数σ为relu函数。

在一种实施方式中,采用的lstm模型中,具体采用的激活函数σ为:

其中,α表示设定的激活因子。

在一种实施方式中,用户交易信息获取模块401,还用于获取未开通信用账户的样本用户在第一设定时间段内的第一交易信息,其中,第一交易信息包括交易日期,以及对应交易日期的持仓数据、成交数据和委托数据;和/或

输入数据生成模块402,还用于将第一设定时间段内的各交易日期与第一设定日期以天为单位计算得到的不同时间差形成时间序列;选取第一交易信息中的与交易日期对应的持仓数据、成交数据和委托数据中的一种或多种,并与时间序列对应组成第一训练数据;

和/或

用户交易信息获取模块401,还用于获取已开通信用账户的样本用户在第二设定时间段内的第二交易信息,其中,第二交易信息包括交易日期,以及对应交易日期的持仓数据、成交数据和委托数据;

输入数据生成模块402,还用于将第二设定时间段内的各交易日期与第二设定日期以天为单位计算得到的不同时间差形成时间序列;选取第二交易信息中的与交易日期对应的持仓数据、成交数据和委托数据中的一种或多种,并与时间序列对应组成第二训练数据;

输入数据生成模块402还用于生成训练样本,其中训练样本包括第一训练数据及其对应的第一用户分类标识和/或第二训练数据及其对应的第二用户分类标识;

该处理模块403还用于,用训练样本作为输入数据训练lstm模型,并对lstm模型参数进行调优,获得训练完毕的lstm模型并存储。

需要说明的是,上述实施方式中,对训练数据的获取,训练样本的生成,和lstm模型的训练,可以在本发明装置中执行;同时,还可以在与本发明装置不同的其它装置中实现,由其它装置对lstm模型进行训练,并将训练完毕的lstm模型提供到本发明装置中使用。

在一种实施方式中,该处理模块403中对lstm模型参数进行调优,进一步包括:多次调整lstm模型参数,获得多个模型收敛程度,选择模型收敛度大于或等于设定收敛值的模型参数。

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。

上述实施例阐明的系统、装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以为个人计算机、平板计算机、智能电话、媒体播放器或这些设备终端的任意几种设备的组合。

最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当分析,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1