用户风险数据挖掘方法和装置的制造方法

文档序号:10656657阅读:330来源:国知局
用户风险数据挖掘方法和装置的制造方法
【专利摘要】本发明公开了一种用户风险数据挖掘方法和装置,涉及数据处理领域。其中的用户风险数据挖掘方法包括:获取待测用户的行为信息,行为信息包括行为事件和行为事件的时间属性;根据待测用户的行为信息中各个行为事件的时间属性确定待测用户的行为事件之间的时序关联关系;根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系确定待测用户的风险度。本发明根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系确定待测用户的风险度,在参考了用户的行为事件的基础上,还考虑了行为事件之间的时序关系,使风险数据挖掘的结果更加准确。
【专利说明】
用户风险数据挖掘方法和装置
技术领域
[0001] 本发明设及数据处理领域,特别设及一种用户风险数据挖掘方法和装置。
【背景技术】
[0002] 风险数据挖掘对于加强用户风险管理、提高营业收益、保护用户权益和改善用户 满意度是十分必要的。由于用户固有的行为习惯、行为目的等具有一定的规律性,体现为某 种固定的模式,运种模式对于识别风险用户具有重要参考意义。
[0003] 目前,使用决策树分析法进行用户风险数据的挖掘,即只根据用户的不同行为事 件对用户进行分类,并根据分类结果对用户的风险概率进行预测。运种方法无法准确地衡 量用户的风险度。

【发明内容】

[0004] 本发明实施例所要解决的一个技术问题是:提供一种准确的用户风险数据挖掘方 法。
[0005] 根据本发明实施例的一个方面,提供一种用户风险数据挖掘方法,包括:获取待测 用户的行为信息,行为信息包括行为事件和行为事件的时间属性;根据待测用户的行为信 息中各个行为事件的时间属性确定待测用户的行为事件之间的时序关联关系;根据待测用 户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关 联关系确定待测用户的风险度。
[0006] 根据本发明实施例的第二个方面,提供一种用户风险数据挖掘装置,包括:待测行 为信息获取模块,用于获取待测用户的行为信息,行为信息包括行为事件和行为事件的时 间属性;待测时序关联关系生成模块,用于根据待测用户的行为信息中各个行为事件的时 间属性确定待测用户的行为事件之间的时序关联关系;风险度确定模块,用于根据待测用 户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关 联关系确定待测用户的风险度。
[0007] 根据本发明实施例的第=个方面,提供一种用户风险数据挖掘装置,其特征在于, 包括:存储器;W及,禪接至存储器的处理器,处理器被配置为基于存储在存储器中的指令, 执行前述任意一种用户风险数据挖掘方法。
[000引本发明根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用 户的行为事件之间的时序关联关系确定待测用户的风险度,在参考了用户的行为事件的基 础上,还考虑了行为事件之间的时序关系,从而使风险数据挖掘的结果更加准确。
[0009] 通过W下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其 优点将会变得清楚。
【附图说明】
[0010] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 W根据运些附图获得其他的附图。
[0011] 图1为本发明用户风险数据挖掘方法一个实施例的流程图。
[0012] 图2为本发明用户风险数据挖掘方法的另一个实施例的流程图。
[0013] 图3为本发明用户风险数据挖掘方法的又一个实施例的流程图。
[0014] 图4为本发明用户风险数据挖掘装置的一个实施例的结构图。
[0015] 图5为本发明用户风险数据挖掘装置的另一个实施例的结构图。
[0016] 图6为本发明用户风险数据挖掘装置的又一个实施例的结构图。
[0017] 图7为本发明用户风险数据挖掘装置的再一个实施例的结构图。
[0018] 图8为本发明用户风险数据挖掘装置的再一个实施例的结构图。
【具体实施方式】
[0019] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。W下 对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使 用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
[0020] 发明人发现,用户的一系列行为事件W及行为事件的发生时间可W体现用户的特 性。W电商购物的场景为例,具有W下一系列行为的用户很可能是风险用户。
[0021] 例如,用户在登录后先查看余额、积分,然后购买大量的无需收货地址的虚拟商 品,如电话充值卡、游戏充值卡等等,W用尽余额和积分。普通用户在购买时往往先进行大 致的浏览,而上述用户首先查看账户已有的财产情况,因此极有可能是盗号者,属于风险用 户。
[0022] 又例如,用户在登录后首先集中浏览主商品和相应的赠品、凑单活动,然后查看主 商品和相应的赠品所属的商品品类,对所属品类差异大的、可能分不同的仓库存储的商品 进行下单;然后用户会选择货到付款和有货先发;最后,在到货的第一时间对主商品进行拒 收或退货。此类用户很可能为恶意凑单用户,利用不同品类的商品异地存储的特点,尽可能 加大到货的时间差,从而减少付款成本,套取赠品。此类用户也属于风险用户。
[0023] 上述各个行为事件需要基于行为时间的发生时间才能够体现用户的风险特征。由 此,本发明提出了一种基于时序关联关系的用户风险数据挖掘方法,可W根据已知的风险 用户的行为事件之间的时序关联关系确定待测用户的风险度。
[0024] 图1为本发明用户风险数据挖掘方法一个实施例的流程图。如图1所示,该实施例 的方法包括:
[0025] 步骤S102,获取待测用户的行为信息,行为信息包括行为事件和行为事件的时间 属性。
[0026] 用户的行为信息是指与用户在当前业务场景下的各个行为有关的信息,包括行为 事件和行为事件的时间属性,根据需要,还可W包括用户标识、业务标识等等。
[0027] 行为事件是指用户行为的具体内容。例如,对于电商网站的用户,浏览商品、查看 余额、收藏商品等均可W作为行为事件。行为事件的细致程度可W根据需求确定,例如可W 将购买商品作为一个行为事件,也可W将购买生活用品、购买充值卡、购买服饰分别作为独 立的行为事件。
[0028] 时间属性是指可W代表行为事件的发生时间的信息。例如,用户在15:00查看余 额,则可W将15:00直接作为"查看余额"运一行为事件的时间属性,也可W将上述发生时间 在多个行为信息中的时间统计特性或变化特性作为行为事件的时间属性。
[0029] 步骤S104,根据待测用户的行为信息中各个行为事件的时间属性确定待测用户的 行为事件之间的时序关联关系。
[0030] 时序关联关系是一种基于时间顺序的行为事件之间的关联关系。W(行为事件,时 间属性)的格式表示行为信息中的一个行为,设用户1有如下行为信息:{(A,1),(B,2),(C, 3),(D,4),(B,5)}。则根据用户1的行为信息,可W提取出若干个行为事件之间的时序关联 关系,如A和B、A和D、C和D等等。可W提取行为信息中所有两两组合的行为事件之间的时序 关联关系,也可W根据需要,选取部分行为事件之间的时序关联关系。
[0031] 其中,行为事件之间的时序关联关系可W包括按照行为事件发生时间排列的各个 行为事件。例如可W WA^D表不A和D之间的时序关联关系,该时序关联关系表不先发生A、 再发生D。
[0032] 运种时序关联关系的构成方法既能够体现行为事件时间的时间关系,也能够保持 较小的数据量,提升运算速度。
[0033] 或者,行为事件之间的时序关联关系也包括按照行为事件发生时间排列的各个行 为事件,W及各个行为事件的发生时间间隔。例如可W WA^D(3)表示A和D之间的时序关联 关系,该时序关联关系表示在A发生后的3个单位时间内发生D。
[0034] 运种时序关联关系的构成方法可W包含更详细的时间信息,提高后续计算的准确 度。
[0035] 而在上述行为信息中,在时间属性为2和5时分别发生了两次B。此时,可W根据最 后一次发生的B的时间属性确定A和B之间的时序关联关系,例如可W使用A^B(4)来表示A 和B之间的时序关联关系,该时序关联关系在对应的行为信息中出现了两次。
[0036] 上述行为事件和时序关联关系的表现形式只是示例性的,根据需要,本领域技术 人员可W采用其他形式体现上述内容,运里不再寶述。
[0037] 提取的待测用户的行为事件之间的时序关联关系可W为根据待测用户的行为信 息提取的所有时序关联关系,也可W是符合预设条件的时序关联关系。
[0038] 步骤S110,根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本 用户的行为事件之间的时序关联关系确定待测用户的风险度。
[0039] 其中,可W采用与确定待测用户的行为事件之间的时序关联关系类似的方法来确 定风险样本用户的行为事件之间的时序关联关系,即:首先获取风险样本用户的行为信息, 行为信息包括行为事件和行为事件的时间属性,再根据风险样本用户的行为信息中各个行 为事件及其时间属性,确定风险样本用户的行为事件之间的时序关联关系。
[0040] 风险样本用户的行为信息可W是预先明确获知并进行标注的。例如,某用户的账 号已确定遭到盗号,则该账号下的行为信息可W作为风险样本用户的行为信息。
[0041] 确定待测用户的风险度时,可W采用W下方法:首先确定待测用户的行为事件之 间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系之间的相 似度,再根据相似度确定待度量用户的风险度。确定上述相似度的方法将在后文进行具体 的介绍。
[0042] 通过根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户 的行为事件之间的时序关联关系确定待测用户的风险度,在参考了用户的行为事件的基础 上,还考虑了行为事件之间的时序关系,从而使风险数据挖掘的结果更加全面、客观。
[0043] 在确定待测用户的风险度时,往往会采用若干风险样本用户的行为事件之间的时 序关联关系。待测用户的时序关联关系需要与全部或者至少部分的风险样本用户的时序关 联关系进行逐一比较。为了减少后续各个步骤的计算量,可W对风险样本用户的行为信息 进行预处理。
[0044] -个实施例为,采用时间压缩的方法对风险样本用户的行为信息进行预处理,包 括:首先,将按照行为事件的发生时间排序的风险样本用户的行为信息分割成若干子区间; 然后,根据每个子区间中行为信息的行为事件发生时间确定该子区间的时间特征;最后,将 每个子区间的时间特征作为该子区间中各个行为时间的时间属性。
[0045] 例如,W下为行为信息中部分行为事件和相应的发生时间:{(A,8: 00),(B,10: 00),((:,11:00),(0,15:00),化,16:00),巧,18:00)},平均地对上述行为信息进行子区间划 分,获得W下划分结果:{[(A,8:00),(B,10:00)],[(C,11:00),(0,15:00)],[化,16:00), (F,18:00)]}。然后,计算各个区间的时间特征,例如可W为时间的统计特征、变化趋势或者 离散值等等,W计算各个区间的时间均值为例,获得的处理后的行为信息如下:{(A,9:00), (B,9:00),(C,13:00),(0,13:00),化,17:00),(F,17:00)}; W计算各个区间的时间均值的 离散特征为例,获得的处理后的行为信息如下:{(A,1),(B,1),(C,5),(D,5),W,9),(F, 9)}。
[0046] 在划分子区间时,也可W按照时间点、预设的行为事件等进行划分,运里不再寶 述。
[0047] 通过采用运种方法,减少了行为信息中的时间维度,提高了处理效率。
[0048] 另一个实施例为,采用数量压缩的方法对风险样本用户的行为信息进行预处理, 包括:获取若干风险样本用户的行为信息;比较不同的行为信息之间的相似度;对相似度高 于预设值的不同的行为信息进行合并。
[0049] 其中,可W采用化ccard相似系数(杰卡德相似系数)作为不同的行为信息之间的 相似度。例如,对于待比较的第一行为信息中的行为事件集合M和待比较的第二行为信息中 的行为事件集合N,可W采用公式(1)计算其相似度J:
[0050]
(1)
[0051] 为了降低计算的复杂度,上述相似度计算只考虑了行为事件。根据需要,还可W根 据行为事件和时间属性计算相似度。
[0052] 对相似度高于预设值的不同的行为信息进行合并时,可W选择进行比较的任意一 个行为信息作为合并后的结果,也可W将两个行为信息的交集或者并集作为合并后的结 果。根据需要,还可W采用其他合并手段,运里不再寶述。
[0053] 通过采用运种方法,合并了相似度达到预设要求的不同的行为信息,从而可W减 少风险样本用户的时序关联关系的数量,提高了计算效率。
[0054]在步骤Sl 10中的确定待测用户的行为事件之间的时序关联关系和预先确定的风 险样本用户的行为事件之间的时序关联关系之间的相似度时,可W首先提取待测用户的行 为事件之间的时序关联关系的特征,W及预先确定的风险样本用户的行为事件之间的时序 关联关系的特征,再比较两个特征之间的相似度。例如,可W使用Simhash算法(相似哈希算 法)实现运一过程。
[0化日]Simhash通常用于海量文本的去重处理。Simhash将一个文档转换为一个特征字, 该特征字为具有一定长度的字节,根据不同文档的特征字的距离,判断两个文档是否相似。 本发明可W采用Simhash算法计算待测用户的行为事件之间的时序关联关系和预先确定的 风险样本用户的行为事件之间的时序关联关系之间的相似度,例如可W包括W下步骤:
[0056] 1.获取待测用户的行为事件之间的各个时序关联关系所对应的权重,W及风险样 本用户的行为事件之间的时序关联关系所对应的权重。
[0057] 其中,权重可W是时序关联关系在相应的行为信息中出现的次数。
[0058] 2.计算待测用户的行为事件之间的各个时序关联关系的哈希值,W及风险样本用 户的行为事件之间的时序关联关系的哈希值。
[0059] 其中,所有哈希值具有相同的位数。
[0060] 3.根据待测用户的行为事件之间的各个时序关联关系对应的所有哈希值的各个 位的数值,分别在各个位上进行权重的累计,获得待测用户的特征;根据风险样本用户的行 为事件之间的各个时序关联关系对应的所有哈希值的各个位的数值,分别在各个位上进行 权重的累计,获得风险样本用户的特征。
[0061] 在进行累加时,当待累计的时序关联关系的待计算位上数值为1时,在该位的当前 累计结果中加上该时序关联关系对应的权重;当待累计的时序关联关系的待计算位上数值 为加寸,在该位的当前累计结果中减去该时序关联关系对应的权重。
[0062] 例如,设待累计的两个时序关联关系所对应的哈希值分别为100010、111010,相应 的权重分别为Wl和W2。贝运两个时序关联关系所对应的累计结果为[*1+¥2,-*1+¥2,-*1+讯2,- W1-W2 , W1+W2 , -W1-W2 ] O
[0063] 4.计算二值化处理后的待测用户的特征与二值化处理后的风险样本用户的特征 之间的汉明距离,根据汉明距离确定待测用户的行为事件之间的时序关联关系和预先确定 的风险样本用户的行为事件之间的时序关联关系之间的相似度。
[0064] 其中,可W根据组成特征的各个值是否大于0对特征进行二值化处理。例如,对于 特征[20,-5,13,101,-16,-23 ],其对应的二值化结果为101100。
[0065] 其中,相似度可W为汉明距离与二值化处理后的特征的总位数。
[0066] 采用Simhash进行相似度计算的方法计算量小,能够高效地获得待测用户的行为 事件之间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系之 间的相似度。
[0067] 在确定待测用户的风险度时,可W依据从风险样本用户的行为信息中提取的所有 时序关联规则,也可W依据从筛选后的风险样本用户的行为事件之间的时序关联规则。下 面对两种示例性的筛选方法进行介绍。
[0068] 下面参考图2描述本发明另一个实施例的用户风险数据挖掘方法。
[0069] 图2为本发明用户风险数据挖掘方法的另一个实施例的流程图。如图2所示,除了 步骤S102~S104W外,该实施例的方法还包括W下步骤:
[0070] 步骤S202,确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的 关联程度。
[0071] 其中,可W根据风险样本用户的行为事件之间的时序关联关系在行为信息中出现 的频繁程度,确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程 度。时序关联关系出现的越频繁,说明时序关联关系中的行为事件共同出现的可能性越大, 关联程度也就越局。
[0072] 例如,可W根据风险样本用户的行为事件之间的时序关联关系在行为信息中的支 持度和置信度,确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联 程度。
[0073] 设第一数值为待确定的行为事件之间的时序关联关系在行为信息中出现的总次 数,第二数值为行为信息中所有行为事件之间的时序关联关系的总数,第=数值为具有待 确定的时序关联关系中在先发生的行为事件的时序关联关系的总数。则,支持度根据第一 数值在第二数值中的占比确定,置信度根据第一数值在第=数值中的占比确定。
[0074] 例如,设E(Sx,AB)表示行为信息Sx中行为事件A和B之间的时序关联关系出现的次 数。则可W使用公式(2)表示A和B之间的时序关联关系的支持度Sup:
[0075]

[0076] 其中,I Sxl表示行为信息Sx中所有行为事件之间的时序关联关系的总数。
[0077] 使用公式(3)表示A和B之间的时序关联关系的置信度Con:
[007引
(3)
[0079] 其中,E(Sx,A)表示行为信息Sx中具有事件A的时序关联关系的总数。
[0080] 置信度和支持度体现了时序关联关系所设及的行为事件在行为信息中同时出现 的概率,从而能够体现行为事件之间的关联程度。
[0081] 步骤S204,依据关联程度选择风险样本用户的行为事件之间的高风险的时序关联 关系。
[0082] 行为事件之间的关联程度较大的时序关联关系更能够代表其对应的用户的特征。 因此,对于风险样本用户的时序关联关系,可W提取行为事件之间的关联程度较大的时序 关联关系作为局风险的时序关联关系。
[0083] 步骤S210,根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本 用户的行为事件之间的高风险的时序关联关系确定待测用户的风险度。
[0084] 通过采用上述方法,能够提取风险样本用户的行为事件之间的时序关联关系中风 险较高的时序关联关系,从而能够提高确定待测用户的风险度的准确性。
[0085] 下面参考图3描述本发明又一个实施例的用户风险数据挖掘方法。
[0086] 图3为本发明用户风险数据挖掘方法的又一个实施例的流程图。如图3所示,该实 施例的方法包括W下步骤:
[0087] 步骤S302,获取非风险样本用户的行为信息,行为信息包括行为事件和行为事件 的时间属性。
[0088] 步骤S304,根据非风险样本用户的行为信息中各个行为事件的时间属性,确定非 风险样本用户的行为事件之间的第一时序关联关系。
[0089] 确定非风险样本用户的时序关联关系的过程与确定风险样本用户的时序关联关 系的过程类似,运里不再寶述。
[0090] 步骤S306,计算风险样本用户的风险值高于预设值的第二时序关联关系与非风险 样本用户的风险值低于预设值的第一时序关联关系的相似度。
[0091] 其中,可W根据第一时序关联关系中行为事件之间的关联程度确定第一时序关联 关系的风险值,可W根据第二时序关联关系中行为事件之间的关联程度确定第二时序关联 关系的风险值。例如,可W直接将用于表示关联程度的值作为风险值,也可W将若干表示关 联程度的值进行归一化处理后作为风险值。
[0092] 确定第一时序关联关系、第二时序关联关系中行为事件之间的关联程度可W参考 前述确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度的方 法,运里不再寶述。
[0093] 步骤S308,去除风险样本用户的行为事件之间的时序关联关系中,相似度大于预 设值的第二时序关联关系。
[0094] 如果某风险样本用户的时序关联关系与非风险样本用户的时序关联关系过于相 似,则说明该时序关联关系的区分度较低,不能十分充分地代表风险用户的行为特征,因此 可W去除。
[0095] 步骤S310,根据待测用户的行为事件之间的时序关联关系和未被去除的风险样本 用户的行为事件之间的时序关联关系,确定待测用户的风险度。
[0096] 通过采用上述方法,能够根据非风险样本用户的时序关联关系对风险样本用户的 时序关联关系进行筛选,从而使待测用户的风险度的确定更准确。
[0097] 在获得了待测用户的风险度之后,还可W根据预设的损失函数进一步获得待测用 户的风险代价。
[0098] 设某用户的风险度为位于0到1之间的值P,损失函数公式(4)为:
[0099]
(4)
[0100] h和b分别表示用户为风险用户和非风险用户时的损失值,该损失值可W根据业 务的实际情况确定,例如可W为金额值,即当用户为风险用户时可能带来的收益损失。
[0101] 则该用户的风险代价Cost可W通过公式(5)计算:
[0102] Cost = P*h+(l-P)*l2 巧)
[0103] 进而,可W将风险代价输入到后续的业务应用模块中。
[0104] 下面参考图4描述本发明一个实施例的用户风险数据挖掘装置。
[0105] 图4为本发明用户风险数据挖掘装置的一个实施例的结构图。如图4所示,该实施 例的用户风险数据挖掘装置包括:待测行为信息获取模块42,用于获取待测用户的行为信 息,行为信息包括行为事件和行为事件的时间属性;待测时序关联关系生成模块44,用于根 据待测用户的行为信息中各个行为事件的时间属性确定待测用户的行为事件之间的时序 关联关系;风险度确定模块46,用于根据待测用户的行为事件之间的时序关联关系和预先 确定的风险样本用户的行为事件之间的时序关联关系确定待测用户的风险度。
[0106] 通过根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户 的行为事件之间的时序关联关系确定待测用户的风险度,在参考了用户的行为事件的基础 上,还考虑了行为事件之间的时序关系,从而使风险数据挖掘的结果更加准确。
[0107] 其中,行为事件之间的时序关联关系包括按照行为事件发生时间排列的各个行为 事件,或者,行为事件之间的时序关联关系包括按照行为事件发生时间排列的各个行为事 件,W及各个行为事件的发生时间间隔。
[0108] 下面参考图5描述本发明另一个实施例的用户风险数据挖掘装置。
[0109] 图5为本发明用户风险数据挖掘装置的另一个实施例的结构图。如图5所示,该实 施例的风险度确定模块46包括:第一相似度计算单元562,用于确定待测用户的行为事件之 间的时序关联关系和预先确定的风险样本用户的行为事件之间的时序关联关系之间的相 似度;风险度确定单元564,用于根据相似度确定待度量用户的风险度。
[0110] 通过计算待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户 的行为事件之间的时序关联关系之间的相似度,能够根据已知的风险样本用户的行为信息 衡量待测用户的风险度。
[0111] 下面参考图6描述本发明又一个实施例的用户风险数据挖掘装置。
[0112] 图6为本发明用户风险数据挖掘装置的又一个实施例的结构图。如图6所示,该实 施例的用户风险数据挖掘装置还包括风险时序关联关系确定模块68,用于预先确定风险样 本用户的行为事件之间的时序关联关系;风险时序关联关系确定模块68包括:风险行为信 息获取单元682,用于获取风险样本用户的行为信息,行为信息包括行为事件和行为事件的 时间属性;风险时序关联关系确定单元684,用于根据风险样本用户的行为信息中各个行为 事件及其时间属性,确定风险样本用户的行为事件之间的时序关联关系。
[0113] 此外,风险时序关联关系确定模块68还可W包括关联程度确定单元686和高风险 时序关联关系选择单元688;关联程度确定单元686用于确定风险样本用户的行为事件之间 的时序关联关系中行为事件之间的关联程度;高风险时序关联关系选择单元688用于依据 关联程度选择风险样本用户的行为事件之间的高风险的时序关联关系;风险度确定模块46 用于根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事 件之间的局风险的时序关联关系确定待测用户的风险度。
[0114] 通过采用上述结构,能够提取风险样本用户的行为事件之间的时序关联关系中风 险较高的时序关联关系,从而能够提高确定待测用户的风险度的准确性。
[0115] 其中,关联程度确定单元686可W用于根据风险样本用户的行为事件之间的时序 关联关系在行为信息中出现的频繁程度,确定风险样本用户的行为事件之间的时序关联关 系中行为事件之间的关联程度。
[0116] 其中,关联程度确定单元686还可W用于根据风险样本用户的行为事件之间的时 序关联关系在行为信息中的支持度和/或置信度,确定风险样本用户的行为事件之间的时 序关联关系中行为事件之间的关联程度;其中,支持度根据第一数值在第二数值中的占比 确定,置信度根据第一数值在第=数值中的占比确定;其中,第一数值为待确定的行为事件 之间的时序关联关系在行为信息中出现的总次数;第二数值为行为信息中所有行为事件之 间的时序关联关系的总数;第=数值为具有待确定的时序关联关系中在先发生的行为事件 的时序关联关系的总数。
[0117] 置信度和支持度体现了时序关联关系所设及的行为事件在行为信息中同时出现 的概率,从而能够体现行为事件之间的关联程度。
[0118] 此外,用户风险数据挖掘装置还可W包括风险时序关联关系筛选模块69,包括:非 风险行为信息获取单元692,用于获取非风险样本用户的行为信息,行为信息包括行为事件 和行为事件的时间属性;非风险时序关联关系确定单元693,用于根据非风险样本用户的行 为信息中各个行为事件的时间属性,确定非风险样本用户的行为事件之间的第一时序关联 关系;第二相似度计算单元694,用于计算风险样本用户的风险值高于预设值的第二时序关 联关系与非风险样本用户的风险值低于预设值的第一时序关联关系的相似度;时序关联关 系去除单元695,用于去除风险样本用户的行为事件之间的时序关联关系中,相似度大于预 设值的第二时序关联关系;风险度确定模块46用于根据待测用户的行为事件之间的时序关 联关系和未被去除的风险样本用户的行为事件之间的时序关联关系,确定待测用户的风险 度。
[0119] 通过采用上述结构,能够根据非风险样本用户的时序关联关系对风险样本用户的 时序关联关系进行筛选,从而使待测用户的风险度的确定更准确。
[0120] 此外,风险时序关联关系筛选模块69还可W包括第一时序关联关系确定单元696 和/或第二时序关联关系确定单兀697:第一时序关联关系确定单兀696用于根据第一时序 关联关系中行为事件之间的关联程度确定第一时序关联关系的风险值;第二时序关联关系 确定单元697用于根据第二时序关联关系中行为事件之间的关联程度确定第二时序关联关 系的风险值。
[0121] 其中,风险行为信息获取单元682可W包括:行为信息分割子单元6822,用于将按 照行为事件的发生时间排序的风险样本用户的行为信息分割成若干子区间;时间特征确定 子单元6823,用于根据每个子区间中行为信息的行为事件发生时间确定该子区间的时间特 征;时间属性确定子单元6824,用于将每个子区间的时间特征作为该子区间中各个行为时 间的时间属性。
[0122] 通过采用运种结构,减少了行为信息中的时间维度,提高了处理效率。
[0123] 其中,风险行为信息获取单元682可W包括:原始行为信息获取子单元6825,用于 获取若干风险样本用户的行为信息;行为信息比较子单元6826,用于比较不同的行为信息 之间的相似性;行为信息合并子单元6827,用于对相似度高于预设值的不同的行为信息进 行合并。
[0124] 通过采用运种结构,合并了相似度达到预设要求的不同的行为信息,从而可W减 少风险样本用户的时序关联关系的数量,提高了计算效率。
[0125] 图7为本发明用户风险数据挖掘装置的再一个实施例的结构图。如图7所示,该实 施例的装置700包括:存储器710W及禪接至该存储器710的处理器720,处理器720被配置为 基于存储在存储器710中的指令,执行前述任意一个实施例中的用户风险数据挖掘方法。
[0126] 其中,存储器710例如可W包括系统存储器、固定非易失性存储介质等。系统存储 器例如存储有行为系统、应用程序、引导装载程序(Boot Loader) W及其他程序等。
[0127] 图8为本发明用户风险数据挖掘装置的再一个实施例的结构图。如图8所示,该实 施例的装置700包括:存储器710 W及处理器720,还可W包括输入输出接口 830、网络接口 840、存储接口 850等。运些接口 830,840,850 W及存储器710和处理器720之间例如可W通过 总线860连接。其中,输入输出接口830为显示器、鼠标、键盘、触摸屏等输入输出设备提供连 接接口。网络接口840为各种联网设备提供连接接口。存储接口850为SD卡、U盘等外置存储 设备提供连接接口。
[0128] 本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程 序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的 实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算 机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计 算机程序产品的形式。
[0129] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程 图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一 流程和/或方框、W及流程图和/或方框图中的流程和/或方框的结合。可提供运些计算机程 序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器W 产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于 实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装 置。
[0130] 运些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备W特 定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指 令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或 多个方框中指定的功能。
[0131] 运些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计 算机或其他可编程设备上执行一系列行为步骤W产生计算机实现的处理,从而在计算机或 其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一 个方框或多个方框中指定的功能的步骤。
[0132] W上所述仅为本发明的较佳实施例,并不用W限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种用户风险数据挖掘方法,其特征在于,包括: 获取待测用户的行为信息,所述行为信息包括行为事件和行为事件的时间属性; 根据待测用户的行为信息中各个行为事件的时间属性确定待测用户的行为事件之间 的时序关联关系; 根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事 件之间的时序关联关系确定待测用户的风险度。2. 根据权利要求1所述的方法,其特征在于,所述根据待测用户的行为事件之间的时序 关联关系和预先确定的风险样本用户的彳丁为事件之间的时序关联关系确定待测用户的风 险度包括: 确定待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事 件之间的时序关联关系之间的相似度; 根据所述相似度确定待度量用户的风险度。3. 根据权利要求1所述的方法,其特征在于,采用以下方法预先确定风险样本用户的行 为事件之间的时序关联关系: 获取风险样本用户的行为信息,所述行为信息包括行为事件和行为事件的时间属性; 根据风险样本用户的行为信息中各个行为事件及其时间属性,确定风险样本用户的行 为事件之间的时序关联关系。4. 根据权利要求1-3中任一项所述的方法,其特征在于, 所述行为事件之间的时序关联关系包括按照行为事件发生时间排列的各个行为事件, 或者, 所述行为事件之间的时序关联关系包括按照行为事件发生时间排列的各个行为事件, 以及所述各个行为事件的发生时间间隔。5. 根据权利要求3所述的方法,其特征在于,还包括: 确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度; 依据所述关联程度选择风险样本用户的行为事件之间的高风险的时序关联关系; 根据待测用户的行为事件之间的时序关联关系和预先确定的风险样本用户的行为事 件之间的尚风险的时序关联关系确定待测用户的风险度。6. 根据权利要求5所述的方法,其特征在于,所述确定风险样本用户的行为事件之间的 时序关联关系中行为事件之间的关联程度包括: 根据风险样本用户的行为事件之间的时序关联关系在所述行为信息中出现的频繁程 度,确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度。7. 根据权利要求5所述的方法,其特征在于,所述确定风险样本用户的行为事件之间的 时序关联关系中行为事件之间的关联程度包括: 根据风险样本用户的行为事件之间的时序关联关系在所述行为信息中的支持度和/或 置信度,确定风险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度; 其中,所述支持度根据第一数值在第二数值中的占比确定, 所述置信度根据第一数值在第三数值中的占比确定; 其中,所述第一数值为待确定的行为事件之间的时序关联关系在行为信息中出现的总 次数; 所述第二数值为所述行为信息中所有行为事件之间的时序关联关系的总数; 所述第三数值为具有待确定的时序关联关系中在先发生的行为事件的时序关联关系 的总数。8. 根据权利要求3所述的方法,其特征在于,还包括: 获取非风险样本用户的行为信息,所述行为信息包括行为事件和行为事件的时间属 性; 根据非风险样本用户的行为信息中各个行为事件的时间属性,确定非风险样本用户的 行为事件之间的第一时序关联关系; 计算风险样本用户的风险值高于预设值的第二时序关联关系与非风险样本用户的风 险值低于预设值的第一时序关联关系的相似度; 去除风险样本用户的行为事件之间的时序关联关系中,所述相似度大于预设值的第二 时序关联关系;以及 根据待测用户的行为事件之间的时序关联关系和未被去除的风险样本用户的行为事 件之间的时序关联关系,确定待测用户的风险度。9. 根据权利要求8所述的方法,其特征在于,采用以下方法确定第一时序关联关系和/ 或第二时序关联关系的风险值: 根据第一时序关联关系中行为事件之间的关联程度确定第一时序关联关系的风险值; 或者, 根据第二时序关联关系中行为事件之间的关联程度确定第二时序关联关系的风险值。10. 根据权利要求3所述的方法,其特征在于,所述获取风险样本用户的行为信息包括: 将按照行为事件的发生时间排序的风险样本用户的行为信息分割成若干子区间; 根据每个子区间中行为信息的行为事件发生时间确定该子区间的时间特征; 将每个子区间的时间特征作为该子区间中各个行为时间的时间属性。11. 根据权利要求3所述的方法,其特征在于,所述获取风险样本用户的行为信息包括: 获取若干风险样本用户的行为信息; 比较不同的行为信息之间的相似度; 对相似度高于预设值的不同的行为信息进行合并。12. -种用户风险数据挖掘装置,其特征在于,包括: 待测行为信息获取模块,用于获取待测用户的行为信息,所述行为信息包括行为事件 和行为事件的时间属性; 待测时序关联关系生成模块,用于根据待测用户的行为信息中各个行为事件的时间属 性确定待测用户的行为事件之间的时序关联关系; 风险度确定模块,用于根据待测用户的行为事件之间的时序关联关系和预先确定的风 险样本用户的行为事件之间的时序关联关系确定待测用户的风险度。13. 根据权利要求12所述的装置,其特征在于,所述风险度确定模块包括: 第一相似度计算单元,用于确定待测用户的行为事件之间的时序关联关系和预先确定 的风险样本用户的行为事件之间的时序关联关系之间的相似度; 风险度确定单元,用于根据所述相似度确定待度量用户的风险度。14. 根据权利要求12所述的装置,其特征在于,还包括风险时序关联关系确定模块,用 于预先确定风险样本用户的行为事件之间的时序关联关系; 所述风险时序关联关系确定t吴块包括: 风险行为信息获取单元,用于获取风险样本用户的行为信息,所述行为信息包括行为 事件和行为事件的时间属性; 风险时序关联关系确定单元,用于根据风险样本用户的行为信息中各个行为事件及其 时间属性,确定风险样本用户的行为事件之间的时序关联关系。15. 根据权利要求12-14中任一项所述的装置,其特征在于, 所述行为事件之间的时序关联关系包括按照行为事件发生时间排列的各个行为事件, 或者, 所述行为事件之间的时序关联关系包括按照行为事件发生时间排列的各个行为事件, 以及所述各个行为事件的发生时间间隔。16. 根据权利要求14所述的装置,其特征在于,所述风险时序关联关系确定模块还包括 关联程度确定单兀和尚风险时序关联关系选择单兀; 所述关联程度确定单元用于确定风险样本用户的行为事件之间的时序关联关系中行 为事件之间的关联程度; 所述高风险时序关联关系选择单元用于依据所述关联程度选择风险样本用户的行为 事件之间的尚风险的时序关联关系; 所述风险度确定模块用于根据待测用户的行为事件之间的时序关联关系和预先确定 的风险样本用户的行为事件之间的高风险的时序关联关系确定待测用户的风险度。17. 根据权利要求16所述的装置,其特征在于,所述关联程度确定单元用于根据风险样 本用户的行为事件之间的时序关联关系在所述行为信息中出现的频繁程度,确定风险样本 用户的行为事件之间的时序关联关系中行为事件之间的关联程度。18. 根据权利要求16所述的装置,其特征在于,所述关联程度确定单元用于根据风险样 本用户的行为事件之间的时序关联关系在所述行为信息中的支持度和/或置信度,确定风 险样本用户的行为事件之间的时序关联关系中行为事件之间的关联程度; 其中,所述支持度根据第一数值在第二数值中的占比确定, 所述置信度根据第一数值在第三数值中的占比确定; 其中,所述第一数值为待确定的行为事件之间的时序关联关系在行为信息中出现的总 次数; 所述第二数值为所述行为信息中所有行为事件之间的时序关联关系的总数; 所述第三数值为具有待确定的时序关联关系中在先发生的行为事件的时序关联关系 的总数。19. 根据权利要求14所述的装置,其特征在于,还包括风险时序关联关系筛选模块,包 括: 非风险行为信息获取单元,用于获取非风险样本用户的行为信息,所述行为信息包括 行为事件和行为事件的时间属性; 非风险时序关联关系确定单元,用于根据非风险样本用户的行为信息中各个行为事件 的时间属性,确定非风险样本用户的行为事件之间的第一时序关联关系; 第二相似度计算单元,用于计算风险样本用户的风险值高于预设值的第二时序关联关 系与非风险样本用户的风险值低于预设值的第一时序关联关系的相似度; 时序关联关系去除单元,用于去除风险样本用户的行为事件之间的时序关联关系中, 所述相似度大于预设值的第二时序关联关系; 所述风险度确定模块用于根据待测用户的行为事件之间的时序关联关系和未被去除 的风险样本用户的行为事件之间的时序关联关系,确定待测用户的风险度。20. 根据权利要求19所述的装置,其特征在于,所述风险时序关联关系筛选模块还包括 第一时序关联关系确定单兀和/或第^时序关联关系确定单兀: 所述第一时序关联关系确定单元用于根据第一时序关联关系中行为事件之间的关联 程度确定第一时序关联关系的风险值; 所述第二时序关联关系确定单元用于根据第二时序关联关系中行为事件之间的关联 程度确定第二时序关联关系的风险值。21. 根据权利要求14所述的装置,其特征在于,所述风险行为信息获取单元包括: 行为信息分割子单元,用于将按照行为事件的发生时间排序的风险样本用户的行为信 息分割成若干子区间; 时间特征确定子单元,用于根据每个子区间中行为信息的行为事件发生时间确定该子 区间的时间特征; 时间属性确定子单元,用于将每个子区间的时间特征作为该子区间中各个行为时间的 时间属性。22. 根据权利要求14所述的装置,其特征在于,所述风险行为信息获取单元包括: 原始行为信息获取子单元,用于获取若干风险样本用户的行为信息; 行为信息比较子单元,用于比较不同的行为信息之间的相似性; 行为信息合并子单元,用于对相似度高于预设值的不同的行为信息进行合并。23. -种用户风险数据挖掘装置,其特征在于,包括: 存储器;以及 耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令, 执行如权利要求1-11中任一项所述的用户风险数据挖掘方法。
【文档编号】G06Q30/06GK106022900SQ201610645597
【公开日】2016年10月12日
【申请日】2016年8月8日
【发明人】刘朋飞, 李爱华, 葛胜利
【申请人】北京京东尚科信息技术有限公司, 北京京东世纪贸易有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1