1.本技术涉及人工智能技术,尤其涉及一种用户行为数据处理方法、装置、设备及存储介质。
背景技术:2.数据特征对于人工智能(artificial intelligence,ai)学习具有重要作用。好的数据特征可以提高模型准确率,而好的算法模型只是不断地逼近该模型。
3.目前,对于一个模型,如果其需要多方面的业务行为特征,那么就需要进行人工特征工程。而如果另外一个模型,需要用到另外一业务行为特征,即使与已有模型存在部分重叠的业务行为特征,也需要重新进行特征工程,这会造成重复工作,导致特征开发效率低。
技术实现要素:4.本技术提供一种用户行为数据处理方法、装置、设备及存储介质,用以解决特征开发效率低的问题。
5.第一方面,本技术提供一种用户行为数据处理方法,包括:获取目标任务;所述目标任务包括待训练的ai模型所需的目标特征向量,所述目标特征向量为目标用户的多个特征向量的组合特征;若所述特征向量库中不存在所述ai模型所需的目标特征向量,则根据所述ai模型所需的目标特征向量,在特征向量库中获取所述目标用户的多个特征向量;所述特征向量库包括预先构建的多个特征向量,所述多个特征向量是根据不同渠道的用户行为数据得到的向量;将所述多个特征向量进行组合,得到所述目标特征向量;根据所述目标特征向量训练所述ai模型,得到训练好的ai模型。
6.可选的,所述根据所述ai模型所需的目标特征向量,在特征向量库中获取所述多个特征向量之前,所述方法还包括:获取待构建特征向量的目标用户的样本数据;所述目标用户的样本数据包括所述目标用户的标识和所述目标用户的行为数据,所述目标用户的标识和所述目标用户的行为数据为非耦合数据;从所述样本数据中提取所述目标用户的标识,得到所述待构建特征向量的样本标识;根据所述待构建特征向量的样本标识,从所述样本数据中提取所述目标用户的行为数据;对所述目标用户的行为数据进行特征编码,得到所述目标用户的特征向量。
7.可选的,所述获取待构建特征向量的目标用户的样本数据,包括:获取待构建特征向量的目标用户的原始数据;所述原始数据包括所述目标用户的标识和所述目标用户的原始行为数据;所述目标用户的标识和所述目标用户的原始行为数据为耦合数据;对所述目标用户的标识和所述目标用户的原始行为数据进行特征解耦处理,得到所述目标用户的样本数据。
8.可选的,所述对所述目标用户的行为数据进行特征编码,得到所述目标用户的特征向量,包括:确定所述目标用户的行为数据的数据类型;所述数据类型包括字符类型、数字类型和分类类型;若所述目标用户的行为数据的数据类型为字符类型,则通过第一编码
方式对所述目标用户的行为数据进行编码,得到所述目标用户的第一特征向量;所述第一编码方式为用于字符类型的行为数据的编码方式;若所述目标用户的行为数据的数据类型为数字类型,则通过第二编码方式对所述目标用户的行为数据进行编码,得到所述目标用户的第二特征向量;所述第二编码方式为用于数字类型的行为数据的编码方式;若所述目标用户的行为数据的数据类型为分类类型,则通过第三编码方式对所述目标用户的行为数据进行编码,得到所述目标用户的第三特征向量;所述第三编码方式为用于分类类型的行为数据的编码方式。
9.可选的,所述特征向量库还包括预先存储的多个目标特征向量,所述方法还包括:确定所述特征向量库中是否存在所述ai模型所需的目标特征向量;若所述特征向量库中存在所述ai模型所需的目标特征向量,则从所述目标特征库中获取所述ai模型所需的目标特征向量。
10.可选的,所述确定所述特征向量库中是否存在所述ai模型所需的目标特征向量之前,所述方法还包括:确定目标特征向量的存储价值;根据所述目标特征向量的存储价值,对所述目标特征向量按照存储价值从大到小的顺序进行排序;将排序靠前的n个目标特征向量存储至所述特征向量库。
11.可选的,所述确定目标特征向量的存储价值,包括:确定所述目标特征向量用于ai模型训练的使用频率和组合成本;其中,所述组合成本为对构建目标特征向量的多个特征向量进行组合所耗费的时间;根据所述目标特征向量的使用频率和组合成本的加权和,确定所述目标特征向量的存储价值。
12.可选的,所述目标特征向量为所述用户对提款平台的使用行为数据;所述多个特征向量为根据所述用户的不同提款平台的使用行为数据构建的特征向量;所述ai模型为用于根据所述目标特征向量和标签预测用户的提款率的模型,所述提款率用于表征用户的提款概率,所述标签用于表征所述用户是否提款。
13.第二方面,本技术提供一种用户行为数据处理装置,包括:获取模块,用于获取目标任务;所述目标任务包括待训练的ai模型所需的目标特征向量,所述目标特征向量为目标用户的多个特征向量的组合特征;所述获取模块,还用于若所述特征向量库中不存在所述ai模型所需的目标特征向量,则根据所述ai模型所需的目标特征向量,在特征向量库中获取目标用户的多个特征向量;所述特征向量库包括预先构建的多个特征向量,所述多个特征向量是根据不同渠道的用户行为数据得到的向量;组合模块,用于将所述多个特征向量进行组合,得到所述目标特征向量;训练模块,用于根据所述目标特征向量训练所述ai模型,得到训练好的ai模型。
14.第三方面,本技术提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面所述的方法。
15.第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。
16.第五方面,本技术提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述的方法。
17.本技术提供的用户行为数据处理方法、装置、设备及存储介质,通过在特征向量库中未查找到ai模型所需的目标特征向量时,根据ai模型所需的目标特征向量,在特征向量库中查找目标用户的多个特征向量,并将多个特征向量组合后用于训练ai模型;由于特征向量库中包括预先构建的多个特征向量,且多个特征向量是根据不同渠道的用户行为数据得到的向量,因此,在遇到不同模型所使用的目标特征向量存在部分重合特征时,对该重合特征进行一次特征开发,即可实现不同模型对重合特征的复用,避免特征重复开发,提高特征开发效率。
附图说明
18.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
19.图1为本技术实施例提供的一种应用场景示意图;
20.图2为本技术实施例提供的用户行为数据处理方法的流程图一;
21.图3为本技术实施例提供的特征向量组合的示例图;
22.图4为本技术实施例提供的构建特征向量库的流程图;
23.图5为本技术实施例提供的用户行为数据处理方法的流程图二;
24.图6为本技术实施例提供的用户行为数据处理装置的结构示意图;
25.图7为本技术实施例提供的电子设备的结构示意图。
26.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
27.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
28.机器学习被定义为利用经验来改善计算机系统的自身性能,经验在计算机中主要是以数据的形式存在,因此,数据是机器学习的前提和基础。
29.当我们希望预测模型性能达到最佳时,其需要尽可能的从原始数据中获取更多的信息,而从原始数据中获取更多的信息的目的就是获取更好的训练数据,即人工地设计模型的输入变量x。
30.特征工程就是将一个原始数据转变成特征的工程,这些特征可以很好地描述该些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优。
31.在进行机器学习时,首先需要构建数据集。将原始数据转换为数据集的任务称为特征工程。例如,当我们需要预测提款率时,则需要的原始数据将包含每个用户对提款平台的使用行为数据。这些属性数据是数据集的特性。创建数据集的任务就是从原始数据中了解有用的特性,并从对结果有影响的现有特性中创建新特性,或者操作这些特性,使它们可以用于建模或增强结果。这一过程称为特征工程。
32.图1为本技术实施例提供的一种应用场景示意图。如图1所示,可以将用户的特征,例如提款应用程序(application,app)的使用行为数据和提款公众号的使用行为数据的提款行为数据等,输入到电子设备待训练的模型a中,对模型a进行训练。训练好的模型a可以用于预测用户的提款率,以预测用户的提款概率,从而对用户进行提款信息的推荐。
33.在上述过程中,提款app的使用行为数据和提款公众号的使用行为数据,需要分别从提款app和提款公众号获取用户的使用行为数据,之后将提款app的使用行为数据和提款公众号的使用行为数据进行合并,并对合并后的使用行为数据进行特征编码,最终得到用于训练模型a的训练数据。
34.此时,若存在另一模型b,在构建训练数据时,需要使用用户a的提款公众号的使用行为数据和提款小程序的使用行为数据,则需要分别从提款公众号和提款小程序获取用户的使用行为数据,以及合并提款公众号的使用行为数据和提款小程序的使用行为数据,并针对合并后的使用行为数据进行特征编码,最终得到用于训练模型b的训练数据。
35.可以看出,在针对模型b构建训练数据时,虽然模型b与模型a存在部分重合特征,但是针对模型b所需要的特征仍然需要重新进行特征开发,这就导致模型a和模型b的部分重合特征,例如提款公众号的使用行为数据重复地进行特征开发,导致特征开发效率低。
36.针对上述技术问题,本技术实施例提供的一种用户行为数据处理方法,可以针对每个用户的每个特征构建一特征向量,并将构建好的特征向量存储在特征向量库中,在获取待训练的ai模型所需的目标特征向量为组合特征时,若从特征向量库中未查找到该目标特征向量时,从特征向量库中获取用于构成目标特征向量的各个待组合的特征向量,并将各个特征向量进行组合,得到目标特征向量,就可以根据该目标特征向量对待训练的ai模型进行训练。从特征向量库中获取用于构成目标特征向量的各个待组合的特征向量,并将各个特征向量进行组合,得到目标特征向量,可以对特征向量进行复用,不需要重复开发,提高特征开发效率。
37.下面结合附图,以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
38.图2为本技术实施例提供的用户行为数据处理方法的流程图一。如图2所示,该用户行为数据处理方法,包括如下步骤:
39.s201、获取目标任务;目标任务包括待训练的ai模型所需的目标特征向量,目标特征向量为目标用户的多个特征向量的组合特征。
40.本实施例中方法的执行主体可以为任意具有数据处理功能的设备。
41.其中,目标任务是指用户需求的ai模型具备的功能。可选的,目标任务可以是提款率预测任务等。
42.可选的,目标用户可以为目标任务的分析对象,可以是个人用户或者企业用户等。
43.目标用户的目标特征向量是待训练的ai模型所需要的训练数据,可以理解为是目标用户的属性的特征化表达,其是目标用户的特点的象征和标志,是与其他用户进行区分的关键。
44.用户可以通过电子设备输入待训练的ai模型所需的目标特征向量,以及组成该目
标特征向量的多个特征向量。
45.在一些场景中,目标特征向量可以是用户对提款平台的使用行为数据,多个特征向量为根据用户的不同提款平台的使用行为数据构建的特征向量。
46.s202、若特征向量库中不存在ai模型所需的目标特征向量,根据ai模型所需的目标特征向量,在特征向量库中获取目标用户的多个特征向量;特征向量库包括预先构建的多个特征向量,多个特征向量是根据不同渠道的用户行为数据得到的向量。
47.当电子设备获取到目标任务时,会根据ai模型所需要的目标特征向量,在特征向量库中查找是否存在可以直接使用的目标特征向量。若在特征向量库中未查找到可以直接使用的目标特征向量时,则在特征向量库中查找用于组成该目标特征向量的多个特征向量。
48.图3为本技术实施例提供的特征向量组合的示例图。如图3所示,假设目标特征向量为用户a的提款app、提款公众号和提款小程序的使用行为数据,而在特征向量库中未查找到用户a的提款app、提款公众号和提款小程序的使用行为数据对应的特征向量,则是在特征向量库中分别查找用户a的提款app的使用行为数据对应的特征向量、提款公众号的使用行为数据对应的特征向量和提款小程序的使用行为数据对应的特征向量。
49.s203、将多个特征向量进行组合,得到目标特征向量。
50.当在特征向量库中查找到多个特征向量时,可以将多个特征向量组合,作为目标特征向量。
51.请继续参阅图3,是将用户a的提款app的使用行为数据对应的特征向量、提款公众号的使用行为数据对应的特征向量和提款小程序的使用行为数据对应的特征向量进行组合,得到用户a的目标特征向量。
52.s204、根据目标特征向量训练ai模型,得到训练好的ai模型。
53.请继续参阅图3,本步骤是将目标特征向量作为ai模型的训练数据输入ai模型,对该ai模型进行训练,具体的训练过程可以参见相关技术中ai模型的训练过程,本实施例在此不再详细说明。
54.其中,目标特征向量和标签作为ai模型的训练数据对ai模型进行训练,以预测用户的提款率,标签用于表征用户是否提款,提款率用于表征用户的提款概率。
55.本实施例通过在特征向量库中未查找到ai模型所需的目标特征向量时,根据ai模型所需的目标特征向量,在特征向量库中查找目标主体的多个特征向量,并将多个特征向量组合后用于训练ai模型;由于特征向量库中包括预先构建的多个特征向量,且多个特征向量是根据不同渠道的用户行为数据得到的向量,因此,在遇到不同模型所使用的目标特征向量存在部分重合特征时,对该重合特征进行一次特征开发,即可实现不同模型对重合特征的复用,避免特征重复开发,提高特征开发效率。
56.上述实施例中介绍了特征向量库的使用过程,而在应用特征向量库选择特征向量之前,还需要构建特征向量库。下面将结合附图,对如何构建特征向量库进行介绍:
57.图4为本技术实施例提供的构建特征向量库的流程图。如图4所示,构建特征向量库,可以包括:
58.s401、获取待构建特征向量的目标用户的样本数据;目标用户的样本数据包括目标用户的标识和目标用户的行为数据,目标用户的标识和目标用户的行为数据为非耦合数
据。
59.其中,目标用户是用户将要构建特征向量的主体,在一些场景中,目标用户的行为数据为用户在提款平台上的使用行为数据。
60.用户在提款平台上的使用行为数据包括用户对提款app、提款公众号或提款小程序的页面的点击次数和停留时间等。
61.其中,获取待构建特征向量的目标用户的样本数据,包括:获取待构建特征向量的目标用户的来自app的样本数据、来自公众号的样本数据和来自小程序的样本数据。样本数据包括目标用户的标识和目标用户在提款平台上的使用行为数据。
62.当目标用户的标识和目标用户的行为数据为非耦合数据时,可以针对目标用户的标识和目标用户的行为数据进行单独提取。
63.s402、从样本数据中提取目标用户的标识,得到待构建特征向量的样本标识。
64.目标用户的标识是唯一表征该目标用户的信息。对于企业用户来说,目标用户的标识可以是企业名称。对于个人用户而言,目标用户的标识可以是用户的姓名、手机号或身份证号等可以唯一标识该用户的信息。
65.s403、根据待构建特征向量的样本标识,从样本数据中提取目标用户的行为数据。
66.步骤s402和步骤s403分别针对目标用户的标识和行为数据进行提取,以便于后续针对每个行为数据单独进行特征编码。
67.其中,样本特征是指待进行特征编码的行为数据。
68.在一些场景中,根据待构建特征向量的样本标识,从样本数据中提取目标用户的行为数据,可以是根据待构建特征向量的样本标识,从提款app的样本数据中提取用户的提款行为数据,或者从提款公众号的样本数据中提取用户的提款行为数据,或者从提款小程序的样本数据中提取用户的提款行为数据。
69.s404、对目标用户的行为数据进行特征编码,得到目标用户的特征向量。
70.通过步骤s401-s403获取的目标用户的行为数据为最原始的数据集,可能会包含各种非数字的特殊符号,例如文字,而ai模型训练需要的数据是数字型的,因此,对于各种特殊的行为数据,需要对其进行编码,也就是量化的过程,从而将其转换为计算机能够识别的数据。
71.本实施例中,可选的,是对用户的提款app的使用行为数据、提款公众号的使用行为数据和提款小程序的使用行为数据分别进行特征编码,得到用户的提款app的使用行为特征向量、提款公众号的使用行为特征向量和提款小程序的使用行为特征向量。
72.在本技术的一个或多个实施例中,可选的,步骤s401可以包括:
73.步骤a1、获取待构建特征向量的目标用户的原始数据;原始数据包括目标用户的标识和目标用户的原始行为数据;目标用户和目标用户的原始行为数据为耦合数据。
74.其中,目标用户和目标用户的原始行为数据之间相耦合,当提取目标用户的标识时,会同时将目标用户的原始行为数据提取出来,并且在特征编码时,也只能对目标用户和目标用户的原始行为数据同时进行编码。
75.步骤a2、对目标用户的标识和目标用户的原始行为数据进行特征解耦处理,得到目标用户的样本数据。
76.特征解耦是将目标用户和目标用户的原始行为数据进行分离,当目标用户的原始
行为数据为多个时,可以将多个原始行为数据进行分离,使得各个原始行为数据之间相互独立,如此,便可以从样本数据中单独提取每个原始行为数据进行特征编码。
77.在本技术的一个或多个实施例中,可选的,步骤s404可以包括:
78.步骤b1、确定目标用户的行为数据的数据类型;数据类型包括字符类型、数字类型和分类类型。
79.步骤b2、若目标用户的行为数据的数据类型为字符类型,则通过第一编码方式对目标用户的行为数据进行编码,得到目标用户的第一特征向量;第一编码方式为用于字符类型的行为数据的编码方式。
80.可选的,第一编码方式可以是index编码,index编码主要用于对离散的类型特征进行编码,例如,不连续的数值、文本,以将离散的特征转换成连续的数值型变量。基于索引的编码可以起到数据归一化的作用。
81.步骤b3、若目标用户的行为数据的数据类型为数字类型,则通过第二编码方式对目标用户的行为数据进行编码,得到目标用户的第二特征向量;第二编码方式为用于数字类型的行为数据的编码方式。
82.可选的,第二编码方式可以是分箱(bucket),其是将一个连续的特征转换成多个二元特征的过程,通常基于数值区间进行转换。举例来说,当目标用户的行为数据为18,分箱包括编号为0的箱子[0,10)和编号为1的箱子[10,20),则根据分箱技术就会将18分到编号为1的箱子里。
[0083]
步骤b4、若目标用户的行为数据的数据类型为分类类型,则通过第三编码方式对目标用户的行为数据进行编码,得到目标主体的第三特征向量;第三编码方式为用于分类类型的行为数据的编码方式。
[0084]
可选的,第三编码方式可以是独热编码(onehot编码),其是使用n位状态寄存器对n个状态进行编码,每个状态都有其独立的寄存器位,并且在任意时候,其中只有一位有效。
[0085]
可以理解为,对于每一个行为数据,如果其存在m个可能的取值,则经过独热编码后,就会得到m个二元特征,并且,这些特征之间互斥,每一次只有一个特征被激活。独热编码能够很好地解决分类器不好处理的行为数据的问题,并在在一定程度上起到扩充特征的作用。
[0086]
本实施例通过对不同类型的行为数据采用不同的编码方式进行特征编码,而针对每种类型的行为数据采用统一的特征编码方式,从而使得在进行特征组合时,便于将各个特征向量组合。
[0087]
上述实施例中介绍了将各个相互独立的行为数据进行特征编码,得到特征向量,并存储在特征向量库中,当需要目标特征向量时,在特征向量库中查找构成目标特征向量的多个特征向量,并将查找到的多个特征向量进行组合得到目标特征向量的实现过程。而在实际中,不同的ai模型所需要的训练数据可能是相同的,若针对每个ai模型,都从特征向量库中选择特征向量进行组合,则会产生特征向量重复组合的过程,导致训练数据的生成效率较低,影响模型训练效率。基于此,本技术在获取到目标任务时,还可以确定特征向量库中是否存在ai模型所需的目标特征向量;若特征向量库中存在ai模型所需的目标特征向量,则从目标特征库中获取ai模型所需的目标特征向量。
[0088]
在确定特征向量库中是否存在ai模型所需的目标特征向量之前,可以在特征向量
库中预先存储一部分目标特征向量,当获取到目标任务时,可以首先在特征向量库中查找是否存在该目标任务所需的目标特征向量。当特征向量库中存在可以直接使用的目标特征向量时,则直接从特征向量库中获取该目标特征向量,能够减少特征组合的过程,提高训练数据的生成效率,进而提高模型训练效率。
[0089]
在本技术的一个或多个实施例中,可选的,确定特征向量库中是否存在ai模型所需的目标特征向量之前,还包括:确定目标特征向量的存储价值;根据目标特征向量的存储价值,对目标特征向量按照存储价值从大到小的顺序进行排序;将排序靠前的n个目标特征向量存储至特征向量库。
[0090]
在一些实施方式中,可选的,确定目标特征向量的存储价值,包括:确定目标特征向量用于ai模型训练的使用频率和组合成本;其中,组合成本用于表示对构建目标特征向量的多个特征向量进行组合所耗费的时间;根据目标特征向量的使用频率和组合成本的加权和,确定该目标特征向量的存储价值。
[0091]
上述实施方式可以表示为如下公式(1):
[0092]
v=a*f+b*t;
ꢀꢀꢀ
(1)
[0093]
式(1)中,v表示目标特征向量的存储价值;f表示目标特征向量的使用频率,其可以根据一段时间内的使用次数和使用时长的比值来确定;t表示对构建目标特征向量的多个特征向量进行组合所耗费的时间;a和b分别为权重,且a和b之和为1。
[0094]
在本技术的一个或多个实施例中,可选的,确定特征向量库中是否存在ai模型所需的目标特征向量之前,还包括:记录目标特征向量用于ai模型训练的使用次数;若目标特征向量的使用次数大于预设次数,则将目标特征向量存储至特征向量库。或者,还可以记录目标特征向量用于ai模型训练的使用频率;若目标特征向量的使用频率大于预设频率,则将目标特征向量存储至特征向量库。
[0095]
以使用次数为例,本实施例中,当获取到目标任务时,无论是根据目标任务从特征向量库中获取目标特征向量,还是根据目标任务从特征向量库中获取多个特征向量,并组合为目标特征向量,均将目标特征向量的使用次数进行加1操作。
[0096]
当目标特征向量的使用次数大于预设次数时,则表明该目标特征向量被多次用于ai模型的训练,因此,为了避免每次都从特征向量库中获取多个特征向量,并组合为目标特征向量的重复操作,可以将目标特征向量存储至特征向量库。并在后续获取到目标任务时,首先从特征向量库中查找是否存在可以直接使用的目标特征向量。
[0097]
在本技术的一个或多个实施例中,可选的,确定特征向量库中是否存在ai模型所需的目标特征向量之前,还包括:记录目标特征向量用于ai模型训练的使用次数;根据目标特征向量用于ai模型训练的使用次数,对目标特征向量按照使用次数从大到小的顺序进行排序;将排序靠前的n个目标特征向量存储至特征向量库。或者,还可以记录目标特征向量用于ai模型训练的使用频率;根据目标特征向量用于ai模型训练的使用频率,对目标特征向量按照使用频率从大到小的顺序进行排序;将排序靠前的n个目标特征向量存储至特征向量库。
[0098]
随着特征向量库的使用,会有越来越多的特征向量被组合,得到越来越多的目标特征向量,这些目标特征向量中有一些可能用于ai模型训练的使用次数较多,也有一些可能用于ai模型训练的使用次数较少,为了避免每次都从特征向量库中获取多个特征向量,
并组合为目标特征向量的重复操作,可以将使用次数或者使用频率较高的n个目标特征向量存储至特征向量库。并在后续获取到目标任务时,首先从特征向量库中查找是否存在可以直接使用的目标特征向量。
[0099]
图5为本技术实施例提供的用户行为数据处理方法的流程图二。如图5所示,该用户行为数据处理方法可以包括以下四个流程:创建样本、抽取特征、特征编码和特征组合。下面分别进行说明。
[0100]
s501、创建样本。
[0101]
可选的,是从原始数据中,提取待创建的特征向量所需要的样本数据的id。例如,对于企业金融业务而言,样本id可以是满足某种条件的企业名称列表。另外,每个样本数据除了样本id之外,还对应有时间点,在特征计算时,可以基于时间点,筛选出某一时间段的特征数据进行计算。
[0102]
s502、抽取特征。
[0103]
针对样本数据中的每个样本数据的id和时间点,以及对于每种业务行为,是从原始表中抽取这些行为的特征,形成一系列的行为特征。当前,该些行为特征只有原始值。例如,对于贷款业务的用户提款行为,是一个用户的提款行为特征数据,其行为特征包括提款次数,值可以是3次。
[0104]
s503、特征编码。
[0105]
针对抽取的特征进行特征编码时,编码方式可以包括index、bucket和onehot。其中,index是将类别型特征的原始值进行索引,比如针对城市字段,特征原始值是深圳,index为数字0。bucket指分桶,将数字分到不同的桶里,比如桶是[0,10),[10,20),桶从0开始编号,其中,[0,10)为0号桶,[10,20)为1号桶,则18就会被分到第二个桶,取值1。onehot指独热编码。
[0106]
可选的,特征编码还包括:将多个字段聚合成一个向量。比如两个字段及其取值分别为:city:0,age:1,聚合后的特征向量则为:[0,1]。
[0107]
s504、特征组合。
[0108]
在特征组合过程中,可以根据目标任务所需要的多个特征向量,在特征向量库中选择多个特征向量,并进行组合,得到用于ai模型训练的目标特征向量。
[0109]
s505、分析或建模。
[0110]
组合后的目标特征向量可以进行数据分析类应用或建模类应用,以挖掘数据的价值,使其对业务进行指导。
[0111]
下面结合几个示例,描述本技术实施例提供的用户行为数据处理方法在实际中的应用。
[0112]
在一些可选的示例中,本技术实施例可以提供一种提款行为数据处理方法,具体包括:
[0113]
步骤a1、获取目标任务;目标任务包括待训练的提款率预测模型所需的目标特征向量,目标特征向量为根据用户对不同渠道的提款平台的使用行为数据得到的,且用于表示用户的提款行为特征的向量。
[0114]
步骤a2、若特征向量库中不存在待训练的提款率预测模型所需的目标特征向量,则根据待训练的提款率预测模型所需的目标特征向量,在特征向量库中获取用户的多个特
征向量;特征向量库包括预先构建的多个特征向量,多个特征向量为根据用户的不同提款平台的使用行为数据构建的特征向量。
[0115]
步骤a3、将用户的多个特征向量进行组合,得到用户的目标特征向量。
[0116]
步骤a4、根据用户的目标特征向量和标签训练待训练的提款率预测模型,得到训练好的提款率预测模型;其中,提款率用于表征用户的提款概率,标签用于表征用户是否提款。
[0117]
在另一些可选的示例中,本技术实施例还可以提供一种贷款行为数据处理方法,具体包括:
[0118]
步骤b1、获取目标任务;目标任务包括待训练的逾期率预测模型所需的目标特征向量,目标特征向量为根据用户的不同渠道的贷款平台的行为数据得到的组合向量。
[0119]
本步骤中,可选的,不同渠道包括app渠道、公众号渠道、电销渠道等。
[0120]
步骤b2、若特征向量库中不存在待训练的逾期率预测模型所需的目标特征向量,则根据待训练的逾期率预测模型所需的目标特征向量,在特征向量库中获取用户的多个特征向量;特征向量库包括预先构建的多个特征向量,多个特征向量为根据用户的不同渠道的行为数据构建的特征向量;
[0121]
步骤b3、将用户的多个特征向量进行组合,得到用户的目标特征向量。
[0122]
步骤b4、根据用户的目标特征向量和标签训练待训练的逾期率预测模型,得到训练好的逾期率预测模型;其中,逾期率用于表征用户的还款逾期概率,标签用于表征用户是否逾期。
[0123]
在又一些可选的示例中,本技术实施例还可以提供一种用户行为数据处理方法,具体包括:
[0124]
步骤c1、获取目标任务;目标任务包括待训练的信息推荐模型所需的目标特征向量,目标特征向量为根据用户的不同渠道的信息使用行为得到的组合向量。
[0125]
本步骤中,可选的,不同渠道的信息使用行为包括app渠道、公众号渠道、电销渠道的信息浏览行为和信息点击行为。
[0126]
以银行业务为例,用户在银行app、银行公众号和银行电销系统的网页上的信息浏览行为和信息点击行为均可以为用户在不同渠道的信息使用行为。
[0127]
步骤c2、若特征向量库中不存在待训练的信息推荐模型所需的目标特征向量,则根据待训练的信息推荐模型所需的目标特征向量,在特征向量库中获取用户的多个特征向量;特征向量库包括预先构建的多个特征向量,多个特征向量为根据用户的不同渠道的信息使用行为构建的特征向量;
[0128]
步骤c3、将用户的多个特征向量进行组合,得到用户的目标特征向量。
[0129]
步骤c4、根据用户的目标特征向量和标签训练待训练的信息推荐模型,得到训练好的信息推荐模型;其中,标签用于表征用户是否点击该信息。
[0130]
其中,训练好的信息推荐模型可以用于为用户进行信息推荐。
[0131]
应理解,本实施例的信息推荐模型在用于信息推荐时,其信息可以是广告信息、商品信息、新闻信息等。另外,应理解,以上示例均为举例说明,本实施例的用户行为数据处理方法,可以适用任何可以将特征分成模块并再组合的场景。
[0132]
图6为本技术实施例提供的用户行为数据处理装置的结构示意图。如图6所示,该
用户行为数据处理装置,包括:第一获取模块61、第二获取模块62、组合模块63和训练模块64;其中,第一获取模块61,用于获取目标任务;所述目标任务包括待训练的ai模型所需的目标特征向量,所述目标特征向量为目标用户的多个特征向量的组合特征;第二获取模块62,还用于在所述特征向量库中不存在所述ai模型所需的目标特征向量时,根据所述ai模型所需的目标特征向量,在特征向量库中获取所述目标主体的多个特征向量;所述特征向量库包括预先构建的多个特征向量,所述多个特征向量是根据不同渠道的用户行为数据得到的向量;组合模块63,用于将所述多个特征向量进行组合,得到所述目标特征向量;训练模块64,用于根据所述目标特征向量训练所述ai模型,得到训练好的ai模型。
[0133]
可选的,该装置还包括:提取模块65和编码模块66;第一获取模块61,还用于获取待构建特征向量的目标用户的样本数据;所述目标用户的样本数据包括所述目标用户的标识和所述目标用户的行为数据,所述目标用户的标识和所述目标用户的行为数据为非耦合数据;提取模块65,用于从所述样本数据中提取所述目标用户的标识,得到所述待构建特征向量的样本标识;提取模块65,还用于根据所述待构建特征向量的样本标识,从所述样本数据中提取所述目标用户的行为数据;编码模块66,用于对所述目标用户的行为数据进行特征编码,得到所述目标用户的特征向量。
[0134]
可选的,所述第一获取模块61获取待构建特征向量的目标用户的样本数据,包括:获取待构建特征向量的目标用户的原始数据;所述原始数据包括所述目标用户的标识和所述目标用户的原始行为数据;所述目标用户的标识和所述目标用户的原始行为数据为耦合数据;对所述目标用户的标识和所述目标用户的原始行为数据进行特征解耦处理,得到所述目标用户的样本数据。
[0135]
可选的,所述编码模块66对所述目标用户的行为数据进行特征编码,得到所述目标用户的特征向量,具体包括:确定所述目标用户的行为数据的数据类型;所述数据类型包括字符类型、数字类型和分类类型;若所述目标用户的行为数据的数据类型为字符类型,则通过第一编码方式对所述目标用户的行为数据进行编码,得到所述目标用户的第一特征向量;所述第一编码方式为用于字符类型的行为数据的编码方式;若所述目标用户的行为数据的数据类型为数字类型,则通过第二编码方式对所述目标用户的行为数据进行编码,得到所述目标用户的第二特征向量;所述第二编码方式为用于数字类型的行为数据的编码方式;若所述目标用户的行为数据的数据类型为分类类型,则通过第三编码方式对所述目标用户的行为数据进行编码,得到所述目标用户的第三特征向量;所述第三编码方式为用于分类类型的行为数据的编码方式。
[0136]
可选的,所述特征向量库还包括预先存储的多个目标特征向量,该装置还包括:确定模块67,用于确定所述特征向量库中是否存在所述ai模型所需的目标特征向量;所述第二获取模块62,还用于在所述特征向量库中存在所述ai模型所需的目标特征向量时,从所述目标特征库中获取所述ai模型所需的目标特征向量。
[0137]
可选的,该装置还包括:排序模块68和存储模块69;所述确定模块67,还用于确定目标特征向量的存储价值;排序模块68,用于根据所述目标特征向量的存储价值,对所述目标特征向量按照存储价值从大到小的顺序进行排序;存储模块69,用于将排序靠前的n个目标特征向量存储至所述特征向量库。
[0138]
可选的,所述确定模块67确定目标特征向量的存储价值,具体包括:确定所述目标
特征向量用于ai模型训练的使用频率和组合成本;其中,所述组合成本为对构建目标特征向量的多个特征向量进行组合所耗费的时间;根据所述目标特征向量的使用频率和组合成本的加权和,确定所述目标特征向量的存储价值。
[0139]
可选的,所述目标特征向量为所述用户对提款平台的使用行为数据;所述多个特征向量为根据所述用户的不同提款平台的使用行为数据构建的特征向量;所述ai模型为用于根据所述目标特征向量和标签预测用户的提款率的模型,所述提款率用于表征用户的提款概率,所述标签用于表征所述用户是否提款。
[0140]
本技术实施例提供的用户行为数据处理装置,可用于执行上述实施例中用户行为数据处理方法的技术方案,其实现原理和技术效果类似,在此不再赘述。
[0141]
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,训练模块64可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上训练模块64的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
[0142]
图7为本技术实施例提供的电子设备的结构示意图。如图7所示,该电子设备可以包括:收发器71、处理器72、存储器73。
[0143]
处理器72执行存储器存储的计算机执行指令,使得处理器72执行上述实施例中的方案。处理器72可以是通用处理器,包括中央处理器cpu、网络处理器(network processor,np)等;还可以是数字信号处理器dsp、专用集成电路asic、现场可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0144]
存储器73通过系统总线与处理器72连接并完成相互间的通信,存储器73用于存储计算机程序指令。
[0145]
收发器71可以用于获取目标任务。
[0146]
系统总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。收发器用于实现数据库访问装置与其他计算机(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(random access memory,ram),也可能还包括非易失性存储器(non-volatile memory)。
[0147]
本技术实施例还提供一种运行指令的芯片,该芯片用于执行上述实施例中用户行为数据处理方法的技术方案。
[0148]
本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行上述实施例中用户行为数据处理方法的技术方案。
[0149]
本技术实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,其存储在计算机可读存储介质中,至少一个处理器可以从计算机可读存储介质读取计算机程序,至少一个处理器执行计算机程序时可实现上述实施例中用户行为数据处理方法的技术方案。
[0150]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。
[0151]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。