一种信用数据的处理方法及服务器的制造方法
【专利摘要】本发明实施例公开了一种信用数据处理方法,该方法可以包括:获取第一实体在终端上执行操作所得到的第一时间相关数据,该第一时间相关数据用于表征第一实体与时间信息间可信赖的关联关系;根据第一时间相关数据进行特征构造,生成第一模型,该第一模型用于评估第一实体的可信程度;获取第一实体的当前用户行为,将其作为待检测的终端使用记录输入第一模型,得到对第一实体当前用户行为的信用评估结果。本发明实施例还提供了一种服务器。
【专利说明】
一种信用数据的处理方法及服务器
技术领域
[0001] 本发明涉及通信应用领域中的互联网技术和大数据处理技术,尤其涉及一种信用 数据的处理方法及服务器。
【背景技术】
[0002] 随着互联网技术的高速发展,终端对应的实体的信用度或信用评价已经成为了用 户在生活应用中的重要组成部分,其中,上述实体用于表征待评估信用度的对象,比如,用 户(个体)或用户帐号等。例如,在服务业从业个体以个人身份进入市场流通的过程中,其他 消费者选择从业个体进行服务时,会参考该从业个体的信用度来确定是否委托服务给该从 业个体。
[0003] 现有技术中,服务器通过互联网、客户端或第三方机构获取用于评价用户个人(实 体)信用的原始信用数据,通过对该原始信用数据分析出用户的信用度。例如,通过消费者 在生活服务垂直网站上对从业个体的服务质量进行点评,或由机构给出基于自身评价标准 的打分或认证以分析从业个体的信用度。
[0004] 然而,采用现有技术进行信用数据的处理时,由于对于不同应用场景的实体而言, 该实体所需的原始信用数据是不尽相同的,因此,服务器通过原始信用数据分析信用度的 工作量是比较复杂的,而且,该服务器获取实体的原始信用数据的来源都是基于用户行为 模式形成的数据,造成了原始信用数据的来源单一,影响根据原始信用数据评估实体的信 用度的有效性。
【发明内容】
[0005] 为解决上述技术问题,本发明实施例期望提供一种信用数据的处理方法及服务 器,能够通过多渠道的反馈的具有相同特征的信用数据进行实体的信用度的统一分析,实 现了实体的信用的有效评估,同时,采用简单的时间相关数据进行信用数据处理时,减小了 数据处理的工作量。
[0006] 本发明的技术方案是这样实现的:
[0007] 本发明实施例提供的一种信用数据处理方法,包括:
[0008] 获取第一实体在终端上执行操作所得到的第一时间相关数据,所述第一时间相关 数据用于表征第一实体与时间信息间可信赖的关联关系;
[0009] 根据所述第一时间相关数据进行特征构造,生成第一模型,所述第一模型用于评 估第一实体的可信程度;
[0010] 获取所述第一实体的当前用户行为,将其作为待检测的终端使用记录输入所述第 一模型,得到对第一实体当前用户行为的信用评估结果。
[0011] 在上述方案中,所述获取第一实体在终端上执行操作所得到的第一时间相关数 据,包括:
[0012] 获取所述第一实体在所述终端上执行操作所得到的原始时间相关数据;
[0013] 对所述原始时间相关数据按照预设策略进行预处理,以从所述原始时间相关数据 中过滤掉无效的非时间信息,得到包含有效时间信息的第一时间相关数据。
[0014] 在上述方案中,所述对所述原始时间相关数据按照预设策略进行预处理,包括:
[0015] 对非正常的所述原始时间相关数据进行去除处理、对相同终端在一定长度的时间 段内重复次数过多的所述原始时间相关数据进行去重、或对异常的所述原始时间相关数据 进行清除处理,以从所述原始时间相关数据中过滤掉无效的非时间信息,得到包含有效时 间信息的所述第一时间相关数据。
[0016] 在上述方案中,所述获取第一实体在终端上执行操作所得到的第一时间相关数 据,包括:
[0017] 指定所述终端告知用户待收集数据的允许范围;
[0018] 当所述终端获取所述用户的许可后,获取所述第一实体在所述终端上执行操作得 到的且在所述允许范围内的所述第一时间相关数据。
[0019] 在上述方案中,所述根据所述第一时间相关数据进行特征构造,包括:
[0020] 在所述第一时间相关数据中提取第一使用时间信息;
[0021] 根据所述第一使用时间信息,统计在预设每个时间段中的所述允许范围内的所述 第一实体的使用频繁程度和使用分布信息;
[0022] 根据所述第一时间相关数据、所述第一实体的使用频繁程度和使用分布信息进行 特征构造。
[0023] 在上述方案中,所述根据所述第一时间相关数据进行特征构造,生成第一模型之 后,所述方法还包括:
[0024]基于已有用户行为的特征和对应的已有信用结果,对所述第一模型进行修正,得 到第二模型;
[0025] 相应的,所述获取所述第一实体的当前用户行为,将其作为待检测的终端使用记 录输入所述第一模型,得到对第一实体当前用户行为的信用评估结果,包括:
[0026] 获取所述第一实体的所述当前用户行为,将其作为所述待检测的终端使用记录输 入所述第二模型,得到对所述第一实体当前用户行为的所述信用评估结果。
[0027] 在上述方案中,所述得到对第一实体当前用户行为的信用评估结果之后,所述方 法还包括:
[0028] 根据预设准则,确定与所述第一实体关联的第二实体;
[0029] 根据所述第一实体和所述第二实体的预设优先级,确定所述第一实体的权值和所 述第二实体的权值;
[0030] 将所述第一实体的信用评估结果、所述第一实体的权值、所述第二实体的信用评 估结果和所述第二实体的权值输入至预设第三模型,得到所述第一实体的修正信用评估结 果。
[0031] 本发明实施例提供了一种服务器包括:
[0032] 获取单元,用于获取第一实体在终端上执行操作所得到的第一时间相关数据,所 述第一时间相关数据用于表征第一实体与时间信息间可信赖的关联关系;
[0033] 构造单元,用于根据所述获取单元获取的所述第一时间相关数据进行特征构造, 所述生成单元生成第一模型,所述第一模型用于评估第一实体的可信程度;
[0034]所述获取单元,还用于获取所述第一实体的当前用户行为;
[0035]输出单元,用于将所述获取单元获取的所述第一实体的当前用户行为作为待检测 的终端使用记录输入所述生成单元生成的所述第一模型,得到对第一实体当前用户行为的 信用评估结果。
[0036] 在上述服务器中,所述服务器还包括:预处理单元;
[0037] 所述获取单元,还用于获取所述第一实体在所述终端上执行操作所得到的原始时 间相关数据;
[0038] 所述预处理单元,用于对所述获取单元获取的所述原始时间相关数据按照预设策 略进行预处理;
[0039] 所述获取单元,具体用于从所述原始时间相关数据中经过所述预处理单元过滤掉 无效的非时间信息,得到包含有效时间信息的第一时间相关数据。
[0040] 在上述服务器中,所述预处理单元,具体用于对非正常的所述获取单元获取的所 述原始时间相关数据进行去除处理、对相同终端在一定长度的时间段内重复次数过多的所 述原始时间相关数据进行去重、或对异常的所述原始时间相关数据进行清除处理,以从所 述原始时间相关数据中过滤掉无效的非时间信息,得到包含有效时间信息的所述第一时间 相关数据。
[0041 ] 在上述服务器中,所述服务器还包括:指定单元;
[0042] 指定单元,用于指定所述终端告知用户待收集数据的允许范围;
[0043] 所述获取单元,具体用于当所述终端获取所述用户的许可后,获取所述第一实体 在所述终端上执行操作得到的且在所述指定单元指定的所述允许范围内的所述第一时间 相关数据。
[0044] 在上述服务器中,所述服务器还包括:提取单元,统计单元;
[0045] 所述提取单元,用于在所述获取单元获取的所述第一时间相关数据中提取第一使 用时间信息;
[0046] 所述统计单元,用于根据所述提取单元提取的所述第一使用时间信息,统计在预 设每个时间段中的所述指定单元指定的所述允许范围内的所述第一实体的使用频繁程度 和使用分布信息;
[0047] 所述构造单元,具体用于根据所述获取单元获取的所述第一时间相关数据、所述 统计单元统计的所述第一实体的使用频繁程度和使用分布信息进行特征构造。
[0048] 在上述服务器中,所述服务器还包括:修正单元;
[0049] 所述修正单元,用于所述构造单元根据所述第一时间相关数据进行特征构造,所 述生成单元生成第一模型之后,基于已有用户行为的特征和对应的已有信用结果,对所述 生成单元生成的所述第一模型进行修正,得到第二模型;
[0050] 所述获取单元,还具体用于获取所述第一实体的所述当前用户行为;
[0051]所述输出单元,具体用于将所述获取单元获取的所述第一实体的当前用户行为作 为所述待检测的终端使用记录输入所述生成单元生成的所述第二模型,得到对第一实体当 前用户行为的信用评估结果。
[0052] 在上述服务器中,所述服务器还包括:确定单元;
[0053]所述确定单元,用于所述输出单元得到对第一实体当前用户行为的信用评估结果 之后,根据预设准则,确定与所述第一实体关联的第二实体;以及根据所述第一实体和所述 第二实体的预设优先级,确定所述第一实体的权值和所述第二实体的权值;
[0054] 所述输出单元,还用于将所述第一实体的信用评估结果、所述确定单元确定的所 述第一实体的权值、所述第二实体的信用评估结果和所述确定单元确定的所述第二实体的 权值输入至预设第三模型,得到所述第一实体的修正信用评估结果。
[0055] 本发明实施例提供了一种信用数据的处理方法及服务器,通过获取第一实体在终 端上执行操作所得到的第一时间相关数据,该第一时间相关数据用于表征第一实体与时间 信息间可信赖的关联关系;根据第一时间相关数据进行特征构造,生成第一模型,该第一模 型用于评估第一实体的可信程度;获取第一实体的当前用户行为,将其作为待检测的终端 使用记录输入第一模型,得到对第一实体当前用户行为的信用评估结果。采用上述技术实 现方案,服务器利用了终端上的多种实体时间相关数据,结合多渠道的反馈信息建立信用 评价模型,能够有效得到反映实体可信赖程度的指标,即信用评估结果,实现对相关实体信 用的有效评估;而且使用终端在使用当中存在的较为简单的时间信息作为主要数据源,预 处理过程和特征构造过程都简单易行,不需要使用各种复杂的编码、聚类、筛选手段对特征 进行复杂的构造和处理,从而大大降低了数据处理的工作量,使得模型和系统简单可用。
【附图说明】
[0056]图1为本发明实施例中进行信息交互的各种硬件实体的示意图;
[0057]图2为本发明实施例提供的一种信用数据处理方法的框架示意图一;
[0058]图3为本发明实施例提供的一种信用数据处理方法的框架示意图二;
[0059] 图4为本发明实施例提供的一种模型的训练过程示意图;
[0060] 图5为本发明实施例提供的一种信用数据处理方法的框架示意图三;
[0061] 图6为本发明实施例提供的一种服务器的结构示意图一;
[0062] 图7为本发明实施例提供的一种服务器的结构示意图二;
[0063]图8为本发明实施例提供的一种服务器的结构示意图三;
[0064] 图9为本发明实施例提供的一种服务器的结构示意图四;
[0065] 图10为本发明实施例提供的一种服务器的结构示意图五;
[0066] 图11为本发明实施例提供的一种服务器的结构示意图六;
[0067]图12为本发明实施例提供的一种服务器的结构示意图七。
【具体实施方式】
[0068]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述。
[0069]为了更好地介绍和理解本发明的各实施例,下面介绍一下本发明的各实施例中可 能涉及的一些专业词汇,具体包括:
[0070] 终端:指移动电子设备,也被称为行动装置(英语:Mobile device)、流动装置、手 持装置(handheld device)、可穿戴设备等,是一种基于嵌入式芯片的计算设备,通常有一 个小的显示萤幕,触控输入,或是小型的键盘。
[0071 ]实体:终端本身,也包含在终端上使用的帐号,还包括该终端的实际控制者和拥有 者。
[0072]机器学习:依托概率论,统计学,神经传播等理论,使计算机能够模拟人类的学习 行为,以获取新的知识或者技能,重新组织已有知识结构使之不断改善自身的性能。
[0073]模型训练:将人工选择的样本输入给机器学习系统,通过不断调整模型参数,使最 终模型对样本识别的准确率达到最优。
[0074] 信用评估结果:根据训练模型和历史实际的实体的信用值,对新的实体进行预估 计的信用结果。
[0075] 如图1所示,为本发明实施例中进行信息交互的系统架构中的各种硬件实体的示 意图,图1中包括:一个或多个服务器41~4η、终端设备21-25及网络31,网络31中包括路由 器,网关等等网络实体,图1中并未体现。终端设备21-25通过有线网络或者无线网络与服务 器41~4η进行业务产品信息交互,以便从终端21-25获取通过用户行为产生时间相关数据 并传输至服务器41~4η。终端设备的类型如图1所示,包括手机(终端23)、平板电脑或PDA (终端25 )、台式机(终端22 )、PC机(终端24)、一体机(终端21)等类型。其中,终端设备中安装 有各种用户所需的应用功能模块,比如具备娱乐功能的应用(如视频应用,音频播放应用, 游戏应用,阅读软件),又如具备服务功能的应用(如地图导航应用、团购应用、拍摄应用 等),再者比如设置应用等系统功能。
[0076] 基于上述图1所示的硬件实体,用户通过使用终端或终端上的应用产生使用终端 的相应使用数据,具体的该使用数据为第一时间相关数据,服务器通过终端获取该终端上 的第一时间相关数据进行有效的预处理规整,并且结合第一实体的相关信用记录和知识, 以及过往的信用记录,提出了一种对与终端相关联的第一实体的信用进行评价,得到信用 评估结果的方法。本发明实施例提供的信用数据处理方法是基于服务器基于第一实体的时 间相关数据,通过信用评价模型,即第一模型,评估出信用评估结果的过程。以对待评价的 应用为银行客户端应用为例,服务器通过终端获取到用户使用银行客户端的第一帐号时的 使用时间信息及其相关信用卡还款的使用数据,以及建立时间特征与信用评价值的第一模 型,得到对该第一帐号的信用卡还款的信用评估结果为信用良好。
[0077] 上述图1的例子只是实现本发明实施例的一个系统架构实例,本发明实施例并不 限于上述图1所述的系统结构,基于该系统架构,提出本发明各个实施例。
[0078] 实施例一
[0079]本发明实施例提供了一种信用数据处理方法,如图2所示,该方法可以包括:
[0080] S101、获取第一实体在终端上执行操作所得到的第一时间相关数据,该第一时间 相关数据用于表征第一实体与时间信息间可信赖的关联关系。
[0081] 需要说明的是,本发明实施例提供的一种信用数据处理方法是服务器侧通过从终 端获取的与实体相关的使用时间数据,对实体本身进行信用评价的过程。
[0082] 特别的,本发明实施例是基于第一时间相关数据围绕终端展开的信用评价的过 程。
[0083]需要说明的是,本发明实施例中的第一时间相关数据为第一实体的信用数据。
[0084] 可选的,本发明实施例中的第一实体可以为持有终端者、使用终端者、终端本身或 者终端上的各个应用,例如,社交应用,音乐应用、影视应用等。
[0085] 具体的,本发明实施例中的服务器获取第一实体的第一时间先关数据的过程可以 为:服务器指定终端告知用户待收集数据的允许范围;当终端获取用户的许可后,该服务器 获取第一实体在终端上执行操作得到的,且在允许范围内的上述第一时间相关数据。也就 是说,在本发明实施例中,服务器要进行对第一实体的信用评价时,服务器会指定终端去获 取该第一实体的第一时间相关数据的允许范围,该终端获取到用户许可的允许范围后,就 可以获取在允许范围内的第一时间相关数据了。
[0086] 需要说明的是,本发明实施例中的第一实体可以对应多个应用场景中的使用,上 述允许范围就可以表征用户允许终端获取第一实体的哪些应用场景的第一时间相关数据, 即服务器可以获取到第一实体对应的哪些应用场景的第一时间相关数据,因此,服务器获 取的第一实体的信用数据可以为多个允许范围内的第一时间相关数据,服务器获取第一实 体的哪些应用场景对应的时间相关数据是由允许范围决定的。
[0087] 示例性的,服务器可以获取第一实体的与Μ个允许范围对应的Μ个第一时间相关数 据,其中,Μ大于等于1。假设用户账号123,应用于社交应用中的微信中,也应用于支付应用 中的支付宝中。当第一实体为在终端上进行使用的用户账户123时,用户允许终端对微信和 支付宝(允许范围)进行数据访问收集,进而该服务器从终端获取到在微信使用场景中的信 用数据以及在支付宝使用场景中的第一时间相关数据,即服务器获取到2个允许范围对应 的第一时间相关数据。
[0088] 可选的,本发明实施例中的第一时间相关数据可以包括:第一使用时间信息和第 一运行数据。第一使用时间用于表征在终端上进行与第一实体相关的不同类型操作时的时 间,第一运行数据用于表征进行第一实体的信用度的预估所需的不同允许范围对应的内容 数据。
[0089]可选的,本发明实施例中的终端获取第一实体的每个允许范围对应的每个第一使 用时间信息和每个第一运行数据为以下情形中的至少一种:
[0090] (1)、用户在终端上使用帐号(第一实体)进行登录的时间点、登录时长(第一使用 时间信息),以及相关帐号的名称或描述信息(第一运行数据);
[0091] (2)、用户在终端上的浏览器应用(第一实体)等使用网络连接和网络服务的时间 段信息(第一使用时间信息),以及使用网络连接的链路信息、使用网络连接的协议、使用网 络服务的内容以及服务提供方信息(第一运行数据);
[0092] (3)、用户使用终端如全球定位系统(GPS,Global Positioning System)应用(第 一实体)进行卫星定位的时间点、持续时长信息(第一使用时间信息)及定位的位置信息(第 一运行数据)等;
[0093] (4)、用户通过终端通过其上的智能应用(第一实体)控制其他电子设备的时间点、 持续时长(第一使用时间信息),以及其他电子设备的类型信息(第一运行数据);
[0094] (5)、用户使用终端上的通信应用(第一实体)与其他人进行交流的时间点、持续时 长(第一使用时间信息)及使用数据,例如聊天记录等相关信息(第一运行数据),交流方式 包括但不限于移动蜂窝电话、短信、网络电话、聊天软件、社交网络、视频通话等;
[0095] (6)、用户使用终端通过支付应用(第一实体)进行支付或认证的时间点(第一使用 时间信息),以及支付或认证的相关信息(第一运行数据);
[0096] (7)、用户在终端上的媒体应用(第一实体)进行文化和娱乐活动的时间段(第一使 用时间信息),以及活动的内容描述信息(第一运行数据)。文化活动主要包括播放多媒体内 容、接收和使用流媒体,娱乐活动主要包括移动电子游戏、社交游戏、网络游戏等;
[0097] (8)、终端(第一实体)的型号、品牌、设备名称、唯一识别编码頂EI/SN/MEID(第一 运行数据),以及电池使用的相关时间信息(第一使用时间信息);
[0098] (9)、用户调整终端(第一实体)的相关设置,包括系统设置、网络连接设置、界面交 互设置的时间点信息(第一使用时间信息)及相关设置参数(第一运行数据)。
[0099]也就是说,终端可以针对第一实体的具体实际情况,请求获取上述允许范围中的 第一使用时间信息和第一运行数据等第一时间相关数据,并将获取到的该第一时间相关数 据上传到服务器。
[0100]具体的,终端可以通过云存储的方式将收集到的第一时间相关数据上传至服务 器。
[0101]需要说明的是,上述每个应用场景都可以对应一个第一时间相关数据,本发明实 施例中的第一时间相关数据是指第一实体在允许你范围内的所有应用场景中分别对应的 第一时间相关数据的总和。
[0102] S102、根据第一时间相关数据进行特征构造,生成第一模型,该第一模型用于评估 第一实体的可信程度。
[0103] 服务器获取第一时间相关数据之后,该服务器就可以根据第一时间相关数据构建 第一时间相关数据中的第一运行数据与第一使用时间相关的第一特征。
[0104] 需要说明的是,本发明实施例中的第一时间相关数据可以为服务器从终端获取的 原始时间相关数据,也可以是该原始时间数据经过预处理后,清除掉无效信息后的有效的 数据。具体的,第一时间相关数据为服务器将原始时间相关数据经过预处理后的数据的方 式将在后续实施例中进行详细地说明。
[0105] 需要说明的是,由于第一实体的第一时间相关数据的允许范围可以是多个应用场 景,因此,在本发明实施例中第一时间相关数据中的每个应用场景对应的时间相关数据都 对应构造一个特征,也就是说根据第一时间相关数据构造的特征是多维度的特征。
[0106] 示例性的,假设第一实体的允许范围为Μ个应用场景。第一时间相关数据就包括Μ 个第一使用时间信息和Μ个第一运行数据,该服务器就可以依据Μ个第一使用时间信息和Μ 个第一运行数据,构建每个第一运行数据基于第一实体的第一使用时间相关的第一特征, 上述Μ个运行数据对应的Μ个第一特征就构成了第一特征库,也就是本发明实施例中所说的 特征,这样就完成了服务器根据第一时间相关数据进行特征构造的过程,其中,Μ大于等于 1〇
[0107] 具体的,本发明实施例中提供的一种信用数据处理方法中,服务器根据第一时间 相关数据进行特征构造的具体方法可以包括:在第一时间相关数据中提取第一使用时间信 息;服务器根据第一使用时间信息,统计在预设每个时间段中的允许范围内的第一实体的 使用频繁程度和使用分布信息;服务器根据第一时间相关数据、第一实体的使用频繁程度 和使用分布信息进行特征构造。
[0108] 可选的,本发明实施例中的第一实体的使用频繁程度是指在预设的Η个时间段中 的每个应用场景中该第一实体被使用的使用次数,使用分布信息是指每个应用场景中的第 二运行数据在上述预设Η个时间段中的使用非0的第一数量。
[0109] 可选的,本发明实施例中的预设Η个时间段为可设置的,具体的可以由用户自行设 置,也可以为默认的统一设置,还可以依据不同的实际情况动态调节的,具体的预设Η个时 间段的划分和具体数值的确定本发明实施例不作限制。例如,本发明实施例中的预设Η个时 间段可以为按照自然时间单位从大到小进行调整的,通常为月、周、日、小时和分钟的顺序 进行调整。
[0110] 特别的,Η的个数为至少两个,这是由于为了保证第一实体的信用评价的准确性, 尽可能多的对第一实体的数据统计过程要详尽和完整,本发明实施例不限制Η的数值,可适 应性调整。
[0111] 需要说明的是,上面描述的第一特征库就是第一实体与时间相关的多维度的描述 在预设Η个时间段内的用户行为特征的数据集。第一特征库的构成是与第一实体的Μ个第一 使用时间信息和Μ个第一运行数据相关的,因此,该第一实体的第一时间相关数据的完整性 越高,则其对应的第一特征库用于后续的确定信用评估结果的准确率就越高。
[0112] 下面以本发明实施例中的第一实体的允许范围为Μ个应用场景为例,在本发明实 施例提供的一种信用数据处理方法中,服务器在构建与第一实体相关的第一特征库时,利 用Μ个第一使用时间信息,对预设Η个时间段内的每个时间段的Μ个第一运行数据(基于用户 行为使用的数据)的进行数据统计,至少构成ΜΧΗ维度的与时间相关的第一特征库。
[0113] 具体的,服务器可以根据Μ个第一使用时间信息,统计Μ个第一运行数据在预设Η个 时间段中的每个时间段内对应的Μ个第一使用次数和Μ个分布信息;根据Μ个第一运行数据 的预设优先级,确定与Μ个第一运行数据对应的Μ个第一权值;将每个时间段内的Μ个第一使 用次数和Μ个第一权值进行加权映射,得到Μ个使用加权值;根据Μ个使用加权值和Μ个分布 信息,构建出待求第一实体的每个时间段的特征向量;根据预设Η个时间段中的每个时间段 的特征向量,构建出待求第一实体对应的第一特征库。
[0114] 需要说明的是,本发明实施例中的Μ个第一运行数据的预设优先级可以为用于表 征第二运行数据的重要性级别。例如,假设第一实体的第一时间相关数据中包括了 3个第一 使用时间信息和3个第一运行数据,假设该3个运行数据中包括:上述应用场景中的(1)、(8) 和(9),则由于终端本身对应的第一运行数据的重要性高于终端中的应用对应的第一运行 数据,而终端中的各种应用中,终端的设置应用对应的第一运行数据的重要性高于其他功 能性应用对应的第一运行数据,且(1)为终端中的其他功能应用对应的第一运行数据,(8) 为终端中的终端本身对应的第一运行数据,(9)为终端的设置应用对应的第一运行数据,因 此,预设优先级为:(8)中的第一运行数据的优先级,大于(9)中的第一运行数据的优先级, 大于(1)中的第一运行数据的优先级。
[0115] 进一步地,服务器在构造出时间相关的第一特征库之后,为了统一计算的便利和 变换,该服务器要将上述构造出的第一特征库中的第一特征(上述的特征向量)进行归一化 处理。
[0116] 也就是说,服务器根据预设Η个时间段中的每个时间段的特征向量,构建出第一实 体对应的第一特征库,可以包括:服务器按照预设规则,对预设Η个时间段中的每个时间段 的特征向量进行归一化处理;将归一化后的每个时间段的特征向量构建为第一实体对应的 第一特征库。
[0117] 具体的,在本发明实施例中,服务器对第一特征库进行归一化处理为采用归一化 因子与上述第一特征库中的特征相乘,实现对第一特征库的归一化处理的。
[0118]需要说明的是,本发明实施例中的归一化因子的确定可以有多种,本发明实施例 不作限制。
[0119]示例性的,本发明实施例中的归一化因子可以为按照时间单位确定的;也可以为 按照信息类型确定的;还可以为按照时间单位和信息类型的结合确定的。具体如下:
[0120] (1)、按照时间单位进行归一化。常见的,服务器按照每个自然天、按照每周、或按 照每月进行第一特征的相关统计(均值、中位数、最大值、求和、百分位数等),然后使用统计 量中的一种或几种的最大值的倒数作为归一化因子。其中,对于〇值归一化后的结果仍然为 0〇
[0121] (2)、按照信息类型进行归一化。即服务器根据数据收集步骤所列出的包含时间信 息的各应用场景对应的第一时间相关数据(除了上述的(8)),分别计算出归一化因子。
[0122] (3)、整合(1)、(2)的方法,服务器通过求两者的归一化因子中较大或较小的一个, 对第一特征库中的第一特征进行归一化。
[0123] 需要说明的是,通过上述方法确定的归一化因子,服务器将第一特征库中的归一 化后的第一特征库用于第一模型的输入序列进行后续的信用评价流程。
[0124] 需要说明的是,服务器根据第一时间相关数据进行特征构造后,该服务器可以生 成第一特征与用于表征第一实体可信程度具有对应关系的第一模型,即信用预估模型。
[0125] 可选的,本发明实施例中的第一模型的构造或生成方法可以通过常见的机器学习 的分类方法进行,例如,支持向量机、逻辑回归、决策树、迭代决策树(GBDT,Gradient Boosting Decision Tree)或神经网络。本发明实施例中通过将第一实体中的第二运行数 据作为目标变量,输入构造好的特征进行训练,并调整参数,得到能够有效预测的第一实体 是否可信或者未来一段时间的出现失信行为概率的最优模型。
[0126] S103、获取第一实体的当前用户行为,将其作为待检测的终端使用记录输入第一 模型,得到对第一实体当前用户行为的信用评估结果。
[0127] 在服务器完成特征构造及第一模型的生成之后,由于服务器已经建立了第一实体 中的第一特征与可信程度的对应关系(即第一模型),因此,该服务器就可以将获取的第一 实体的当前用户行为输入第一模型,得到对第一实体当前用户行为的信用评估结果,从而 实现第一实体的信用评价。
[0128] 需要说明的是,对于一个终端而言,终端中的第一实体和其他实体的进行信用评 价的过程是一致的,终端中的其他实体也可以通过第一模型得到其独立的信用评估结果。
[0129] 可以理解的是,在本发明实施例中,相比现有的使用各种复杂的行为数据,本发明 使用终端使用当中存在的较为简单的时间信息作为主要数据源,预处理过程和特征构造过 程都简单易行,不需要使用各种复杂的编码、聚类、筛选手段对特征进行复杂的构造和处 理,大大降低了数据处理的工作量,使得信用评价模型简单可用。
[0130] 实施例二
[0131] 本发明实施例提供的一种信用数据处理方法,如图3所示,该方法可以包括:
[0132] S201、获取第一实体在终端上执行操作所得到的原始时间相关数据,该原始时间 相关数据用于表征第一实体与时间信息间可信赖的关联关系。
[0133] 需要说明的是,本发明实施例提供的一种信用数据处理方法是服务器侧通过从终 端获取的与实体相关的使用时间数据,对实体本身进行信用评价的过程。
[0134] 特别的,本发明实施例是基于时间相关数据围绕终端展开的信用评价的过程。
[0135] 需要说明的是,本发明实施例中的原始时间相关数据为第一实体的信用数据。
[0136] 可选的,本发明实施例中的第一实体可以为持有终端者、使用终端者、终端本身或 者终端上的各个应用,例如,社交应用,音乐应用、影视应用等。
[0137] 具体的,本发明实施例中的服务器获取第一实体的第一时间先关数据的过程可以 为:服务器指定终端告知用户待收集数据的允许范围;当终端获取用户的许可后,该服务器 获取第一实体在终端上执行操作得到的,且在允许范围内的上述原始时间相关数据。也就 是说,在本发明实施例中,服务器要进行对第一实体的信用评价时,服务器会指定终端去获 取该第一实体的原始时间相关数据的允许范围,该终端获取到用户许可的允许范围后,就 可以获取在允许范围内的原始时间相关数据了。
[0138] 需要说明的是,本发明实施例中的第一实体可以对应多个应用场景中的使用,上 述允许范围就可以表征用户允许终端获取第一实体的哪些应用场景的原始时间相关数据, 即服务器可以获取到第一实体对应的哪些应用场景的原始时间相关数据,因此,服务器获 取的第一实体的信用数据可以为多个允许范围内的原始时间相关数据,服务器获取第一实 体的哪些应用场景对应的时间相关数据是由允许范围决定的。
[0139] 示例性的,服务器可以获取第一实体的与Μ个允许范围对应的Μ个原始时间相关数 据,其中,Μ大于等于1。假设用户账号123,应用于社交应用中的微信中,也应用于支付应用 中的支付宝中。当第一实体为在终端上进行使用的用户账户123时,用户允许终端对微信和 支付宝(允许范围)进行数据访问收集,进而该服务器从终端获取到在微信使用场景中的信 用数据以及在支付宝使用场景中的原始时间相关数据,即服务器获取到2个允许范围对应 的原始时间相关数据。
[0140] 可选的,本发明实施例中的原始时间相关数据可以包括:第一使用时间信息和第 一运行数据。第一使用时间用于表征在终端上进行与第一实体相关的不同类型操作时的时 间,第一运行数据用于表征进行第一实体的信用度的预估所需的不同允许范围对应的内容 数据。
[0141]可选的,本发明实施例中的终端获取第一实体的每个允许范围对应的每个第一使 用时间信息和每个第一运行数据为以下情形中的至少一种:
[0142] (1)、用户在终端上使用帐号(第一实体)进行登录的时间点、登录时长(第一使用 时间信息),以及相关帐号的名称或描述信息(第一运行数据);
[0143] (2)、用户在终端上的浏览器应用(第一实体)等使用网络连接和网络服务的时间 段信息(第一使用时间信息),以及使用网络连接的链路信息、使用网络连接的协议、使用网 络服务的内容以及服务提供方信息(第一运行数据);
[0144] (3)、用户使用终端如GPS应用(第一实体)进行卫星定位的时间点、持续时长信息 (第一使用时间信息)及定位的位置信息(第一运行数据)等;
[0145] (4)、用户通过终端通过其上的智能应用(第一实体)控制其他电子设备的时间点、 持续时长(第一使用时间信息),以及其他电子设备的类型信息(第一运行数据);
[0146] (5)、用户使用终端上的通信应用(第一实体)与其他人进行交流的时间点、持续时 长(第一使用时间信息)及使用数据,例如聊天记录等相关信息(第一运行数据),交流方式 包括但不限于移动蜂窝电话、短信、网络电话、聊天软件、社交网络、视频通话等;
[0147] (6)、用户使用终端通过支付应用(第一实体)进行支付或认证的时间点(第一使用 时间信息),以及支付或认证的相关信息(第一运行数据);
[0148] (7)、用户在终端上的媒体应用(第一实体)进行文化和娱乐活动的时间段(第一使 用时间信息),以及活动的内容描述信息(第一运行数据)。文化活动主要包括播放多媒体内 容、接收和使用流媒体,娱乐活动主要包括移动电子游戏、社交游戏、网络游戏等;
[0149] (8)、终端(第一实体)的型号、品牌、设备名称、唯一识别编码頂EI/SN/MEID(第一 运行数据),以及电池使用的相关时间信息(第一使用时间信息);
[0150] (9)、用户调整终端(第一实体)的相关设置,包括系统设置、网络连接设置、界面交 互设置的时间点信息(第一使用时间信息)及相关设置参数(第一运行数据)。
[0151]也就是说,终端可以针对第一实体的具体实际情况,请求获取上述允许范围中的 第一使用时间信息和第一运行数据等原始时间相关数据,并将获取到的该原始时间相关数 据上传到服务器。
[0152] 具体的,终端可以通过云存储的方式将收集到的原始时间相关数据上传至服务 器。
[0153] 需要说明的是,上述每个应用场景都可以对应一个原始时间相关数据,本发明实 施例中的原始时间相关数据是指第一实体在允许你范围内的所有应用场景中分别对应的 原始时间相关数据的总和。
[0154] S202、对原始时间相关数据按照预设策略进行预处理,以从原始时间相关数据中 过滤掉无效的非时间信息,得到包含有效时间信息的第一时间相关数据。
[0155] 服务器获取第一实体在终端上执行操作所得到的原始时间相关数据之后,由于本 发明实施例中的服务器获取的原始时间相关数据中可能存在某一应用场景对应的原始时 间相关数据的存在缺失、无效或者某部分数据出现重复等情况发生,这样的原始时间相关 数据对服务器在后续进行第一实体的信用评价的过程中毫无意义,而且增大了计算的工作 量。因此,服务器在进行第一实体的信用评价之前,该服务器将对原始时间相关数据按照预 设策略进行预处理,以从该原始时间相关数据中过滤掉无效的非时间信息,得到包含有效 时间信息的第一时间相关数据。
[0156] 具体的,服务器在获取到终端上传的原始时间相关数据之后,要对获取到的全部 原始时间相关数据进行预处理,即服务器将原始时间相关数据经过数据清洗和数据筛选出 有效的第一时间相关数据。其中,数据筛选的标准按照信息的完整程度进行,对于上述几种 应用场景中存在原始时间相关数据缺失的信用数据应当去除;数据清洗包括对非正常的时 间的原始时间相关数据的去除、对同一终端一定长度的时间段内重复次数过多的原始时间 相关数据进行去重、对异常值的原始时间相关数据清除等,服务器通过上述预处理原始时 间相关数据后将有效的第一时间相关数据尽可能保留下来了,于是,服务器可以根据第一 时间相关数据继续进行下面的第一实体的信用评价的过程。
[0157] 可以理解的是,由于在本发明实施例中的服务器进行信用评价的第一时间相关数 据是经过预处理的有效时间相关数据,因此,在保证后续进行第一实体信用评价的处理数 据的准确性的前提下,减少了的数据处理的工作量,提高了处理效率。
[0158] S203、根据第一时间相关数据进行特征构造,生成第一模型,该第一模型用于评估 第一实体的可信程度。
[0159] S204、基于已有用户行为的特征和对应的已有信用结果,对第一模型进行修正,得 到第二模型。
[0160] S205、获取第一实体的当前用户行为,将其作为待检测的终端使用记录输入第二 模型,得到对第一实体当前用户行为的信用评估结果。
[0161]服务器对第一时间相关数据按照预设策略进行预处理之后,由于该服务器已经清 除掉了重复和无效的原始时间相关数据得到了有效可用的第一时间相关数据,因此,该服 务器就可以根据第一时间相关数据构建第一时间相关数据中的第一运行数据与第一使用 时间相关的第一特征。
[0162] 需要说明的是,由于第一实体的第一时间相关数据的允许范围可以是多个应用场 景,因此,在本发明实施例中第一时间相关数据中的每个应用场景对应的时间相关数据都 对应构造一个特征,也就是说根据第一时间相关数据构造的特征是多维度的特征。
[0163] 示例性的,假设第一实体的允许范围为Μ个应用场景。第一时间相关数据就包括Μ 个第一使用时间信息和Μ个第一运行数据,该服务器就可以依据Μ个第一使用时间信息和Μ 个第一运行数据,构建每个第一运行数据基于第一实体的第一使用时间相关的第一特征, 上述Μ个运行数据对应的Μ个第一特征就构成了第一特征库,也就是本发明实施例中所说的 特征,这样就完成了服务器根据第一时间相关数据进行特征构造的过程,其中,Μ大于等于 1〇
[0164] 具体的,本发明实施例中提供的一种信用数据处理方法中,服务器根据第一时间 相关数据进行特征构造的具体方法可以包括:在第一时间相关数据中提取第一使用时间信 息;服务器根据第一使用时间信息,统计在预设每个时间段中的允许范围内的第一实体的 使用频繁程度和使用分布信息;服务器根据第一时间相关数据、第一实体的使用频繁程度 和使用分布信息进行特征构造。
[0165] 可选的,本发明实施例中的第一实体的使用频繁程度是指在预设的Η个时间段中 的每个应用场景中该第一实体被使用的使用次数,使用分布信息是指每个应用场景中的第 二运行数据在上述预设Η个时间段中的使用非0的第一数量。
[0166] 可选的,本发明实施例中的预设Η个时间段为可设置的,具体的可以由用户自行设 置,也可以为默认的统一设置,还可以依据不同的实际情况动态调节的,具体的预设Η个时 间段的划分和具体数值的确定本发明实施例不作限制。例如,本发明实施例中的预设Η个时 间段可以为按照自然时间单位从大到小进行调整的,通常为月、周、日、小时和分钟的顺序 进行调整。
[0167] 特别的,Η的个数为至少两个,这是由于为了保证第一实体的信用评价的准确性, 尽可能多的对第一实体的数据统计过程要详尽和完整,本发明实施例不限制Η的数值,可适 应性调整。
[0168] 需要说明的是,上面描述的第一特征库就是第一实体与时间相关的多维度的描述 在预设Η个时间段内的用户行为特征的数据集。第一特征库的构成是与第一实体的Μ个第一 使用时间信息和Μ个第一运行数据相关的,因此,该第一实体的第一时间相关数据的完整性 越高,则其对应的第一特征库用于后续的确定信用评估结果的准确率就越高。
[0169] 下面以本发明实施例中的第一实体的允许范围为Μ个应用场景为例,在本发明实 施例提供的一种信用数据处理方法中,服务器在构建与第一实体相关的第一特征库时,利 用Μ个第一使用时间信息,对预设Η个时间段内的每个时间段的Μ个第一运行数据(基于用户 行为使用的数据)的进行数据统计,至少构成ΜΧΗ维度的与时间相关的第一特征库。
[0170]具体的,服务器可以根据Μ个第一使用时间信息,统计Μ个第一运行数据在预设Η个 时间段中的每个时间段内对应的Μ个第一使用次数和Μ个分布信息;根据Μ个第一运行数据 的预设优先级,确定与Μ个第一运行数据对应的Μ个第一权值;将每个时间段内的Μ个第一使 用次数和Μ个第一权值进行加权映射,得到Μ个使用加权值;根据Μ个使用加权值和Μ个分布 信息,构建出待求第一实体的每个时间段的特征向量;根据预设Η个时间段中的每个时间段 的特征向量,构建出待求第一实体对应的第一特征库。
[0171]需要说明的是,本发明实施例中的Μ个第一运行数据的预设优先级可以为用于表 征第二运行数据的重要性级别。例如,假设第一实体的第一时间相关数据中包括了 3个第一 使用时间信息和3个第一运行数据,假设该3个运行数据中包括:上述应用场景中的(1)、(8) 和(9),则由于终端本身对应的第一运行数据的重要性高于终端中的应用对应的第一运行 数据,而终端中的各种应用中,终端的设置应用对应的第一运行数据的重要性高于其他功 能性应用对应的第一运行数据,且(1)为终端中的其他功能应用对应的第一运行数据,(8) 为终端中的终端本身对应的第一运行数据,(9)为终端的设置应用对应的第一运行数据,因 此,预设优先级为:(8)中的第一运行数据的优先级,大于(9)中的第一运行数据的优先级, 大于(1)中的第一运行数据的优先级。
[0172] 进一步地,服务器在构造出时间相关的第一特征库之后,为了统一计算的便利和 变换,该服务器要将上述构造出的第一特征库中的第一特征(上述的特征向量)进行归一化 处理。
[0173] 也就是说,服务器根据预设Η个时间段中的每个时间段的特征向量,构建出第一实 体对应的第一特征库,可以包括:服务器按照预设规则,对预设Η个时间段中的每个时间段 的特征向量进行归一化处理;将归一化后的每个时间段的特征向量构建为第一实体对应的 第一特征库。
[0174] 具体的,在本发明实施例中,服务器对第一特征库进行归一化处理为采用归一化 因子与上述第一特征库中的特征相乘,实现对第一特征库的归一化处理的。
[0175] 需要说明的是,本发明实施例中的归一化因子的确定可以有多种,本发明实施例 不作限制。
[0176] 示例性的,本发明实施例中的归一化因子可以为按照时间单位确定的;也可以为 按照信息类型确定的;还可以为按照时间单位和信息类型的结合确定的。具体如下:
[0177] (1)、按照时间单位进行归一化。常见的,服务器按照每个自然天、按照每周、或按 照每月进行第一特征的相关统计(均值、中位数、最大值、求和、百分位数等),然后使用统计 量中的一种或几种的最大值的倒数作为归一化因子。其中,对于〇值归一化后的结果仍然为 0〇
[0178] (2)、按照信息类型进行归一化。即服务器根据数据收集步骤所列出的包含时间信 息的各应用场景对应的第一时间相关数据(除了上述的(8)),分别计算出归一化因子。
[0179] (3)、整合(1)、(2)的方法,服务器通过求两者的归一化因子中较大或较小的一个, 对第一特征库中的第一特征进行归一化。
[0180] 需要说明的是,通过上述方法确定的归一化因子,服务器将第一特征库中的归一 化后的第一特征库用于第一模型的输入序列进行后续的信用评价流程。
[0181] 需要说明的是,服务器根据第一时间相关数据进行特征构造后,该服务器可以生 成或训练出第一特征与用于表征第一实体可信程度具有对应关系的第一模型,即信用预估 模型。
[0182] 可选的,本发明实施例中的第一模型的构造或生成方法可以通过常见的机器学习 的分类方法进行,例如,支持向量机、逻辑回归、决策树、GBDT或神经网络。本发明实施例中 通过将第一实体中的第二运行数据作为目标变量,输入构造好的特征进行训练,并调整参 数,得到能够有效预测的第一实体是否可信或者未来一段时间的出现失信行为概率的最优 模型。
[0183] 需要说明的是,由于同一个终端的时间相关数据可能对应了多个不同的第一实 体,但多个第一实体在此时应当看做是独立的个体,而非有联系的对象,因此,服务器可以 采用一类实体的有关联的时间相关数据构造第一模型。也就是说,在训练某类实体的模型 的时候,需要从特征当中取出与该类实体相关的特征数据,并将该类实体的信用记录作为 监督信息,对模型进行训练,直至得到合适的第二模型就是对第一模型进行了修正,得到了 最优的保证可信度的模型。
[0184] 具体的,本发明实施例中采用已有的待测终端中的基于用户行为的特征和其对应 的已有信用结果进行模型训练修正第一模型,服务器就是用修正后的第一模型(第二模型) 进行第一实体当前用户行为的信用评价了。
[0185] 需要说明的是,本发明实施例中的用户行为的特征和对应的已有信用结果可以为 待测终端中的多个实体对应构造的特征,以及从第三方获取的已有的多个实体的真实的信 用结果,经过上述已有的特征和已有信用结果修正后的得到的第二模型,适用于待测终端 的每个实体的信用评价。也就是说,终端中的不同实体都可以通过第二模型进行信用评估 结果的输出。
[0186] 可选的,本发明实施例中的第三方可以为与实体对应的机构以及服务提供商处获 得的,具体可以包括:运营商、银行、市政部门、支付机构和提供服务的企业等。
[0187] 在服务器完成特征构造及第一模型的生成之后,由于服务器已经建立了第一实体 中的第一特征与可信程度的对应关系(即第一模型),因此,该服务器就可以将获取的第一 实体的当前用户行为输入第一模型,得到对第一实体当前用户行为的信用评估结果,从而 实现第一实体的信用评价。
[0188] 需要说明的是,对于一个终端而言,终端中的第一实体和其他实体的进行信用评 价的过程是一致的,终端中的其他实体也可以通过第一模型得到其独立的信用评估结果。
[0189] 基于上面实施例中的描述,本发明实施例提供一种基于引入机器学习技术而形成 一种信用评价模型,对每一次点击分类都会考虑所有特征维度然后综合进行判断。在形成 信用评价模型的初期,仍然需要人工挑选尽可能多维度的特征供机器学习模型训练,根据 特征对训练结果的区分度决定选用哪些特征擦描述,这里基本不存在人工干预选择参数的 问题,机器学习可以自己学习出合适的参数来;由于特征含义相比没有意义的参数看来更 为直观,结合特征的分布,解释起来也比较容易理解;首先基于机器学习模型的实时信用评 价,信用评价涉及到多时间相关特征的综合考虑,提高了信用评价的准确性。另外由于模型 自身具有进化学习的功能。即使第一实体的允许范围发生更新或删减,通过简单的重新进 行模型训练(有时候需要对特征进行微调),即可以识别新的允许范围的确定并进行信用评 价模型的调整,使信用评估结果的准确性。
[0190] 机器学习技术在信用评价中的应用可以自由的分享和传播,因为机器学习信用评 价全面且可以自我进化,不针对特定某种实体,因此,甚至对同一终端的不同实体一样可以 公开基于机器学习模型的信用评价做法。基于前述的实施例,本发明实施例提供一种形成 第二模型的方法,如图4所示,该方法包括:
[0191] S301、按照预设的配置比例获取正样本和负样本,该正样本和负样本为已有用户 行为的特征和对应的已有信用结果。
[0192] 这里,在实际操作的过程中,信用结果为优和信用结果为差会存在一定的比例,这 个比例即为配置比例,在形成信用评价模型时,服务器对训练数据的配置(已有用户性为的 特征和对应的信用结果)也需要按照该配置比例进行设置。
[0193] S302、提取正样本的特征和负样本的特征。
[0194] 需要说明的是,本发明实施例中的服务器对正样本和负样本的体征提取和第一实 体的第一特征的构造原理相同。
[0195] 可以理解的是,本发明实施例中的正样本和负样本涉及的允许范围越完整,后续 的信用评价或信用预估值是越准确的。
[0196] S303、将正样本或负样本的特征输入至设置的第一模型,得到第一训练结果。
[0197] S304、持续检测第一模型,直至第一训练结果满足预设条件。
[0198] S305、将第一训练结果满足预设条件的第一模型确定为第二模型。
[0199] 本发明实施例中,不管采用何种训练模型,在开始训练之时,该训练模型的输入包 括上述不同维度的特征,经过多次试验如果该特征不对训练结果产生有利影响或者分错的 时候,就降低该特征的权重,如果该特征对训练结果产生有利影响时候,就提高该特征的权 重,如果一个参数的权重降低为〇,那么在训练模型中该特征将不起任何作用了。经过本发 明实施例的最终试验,上述不同的维度的特征最终对训练结果能够产生积极影响的是长期 特征(即第一特征)。下面假设不同维度的特征只包括第一特征(即已经将其他的不符的特 征都剔除掉了),那么上述的信用评价模型的形成过程大致包括:将正样本或负样本的第一 特征输入第一训练模型,从第一模型获得第一训练结果;其中进行构造的第一模型以第一 特征,且每一个特征具有对应的权值(预设优先权);持续监测第一训练结果直至满足预设 条件时,则将第一模型作为信用评价模型,即第二模型。
[0200] 可选的,本发明实施例中的预设条件可以为信用结果的准确率达到预设阈值,该 预设阈值可以为90%,具体的预设阈值的确定可设置,本发明实施例不作限制,但是,预设 阈值设置的越高,达到该预设阈值或预设条件的信用评价的模型就越精确。
[0201] 从以上流程可以看出,1)本发明实施例采用了基于信用评价模型的信用评价方 式,当构造一个实体的与时间相关特征(如第一特征)进行基于当前用户行为的信用评价, 充分利用了终端上的多种实体相关时间信息,结合多渠道的运行数据得到信用评价模型, 能够有效得到反映实体可信赖程度的指标,实现对相关实体信用的有效评估;2)本发明实 施例引入了各种不同维度的与时间相关的特征来对训练模型进行训练,根据训练结果确定 最终核实的特征(如第一特征),如此提升了信用评价的准确性。3)本发明实施例采用的信 用评价模型的一个显著特点是模型可以自我进化,根据信用评价行为的变换自动进行特征 权值的调整,避免基于规则的人工频繁介入调整参数。
[0202]可以理解的是,在本发明实施例中,相比现有的使用各种复杂的行为数据,本发明 使用终端使用当中存在的较为简单的时间信息作为主要数据源,预处理过程和特征构造过 程都简单易行,不需要使用各种复杂的编码、聚类、筛选手段对特征进行复杂的构造和处 理,大大降低了数据处理的工作量,使得信用评价模型简单可用。
[0203]进一步地,S205之后,如图5所示,本发明实施例中提供的一种信用数据处理方法 还包括:S206-S208。具体如下:
[0204] S206、根据预设准则,确定与第一实体关联的第二实体。
[0205] S207、根据第一实体和第二实体的预设优先级,确定第一实体的权值和第二实体 的权值。
[0206] S208、将第一实体的信用评估结果、第一实体的权值、第二实体的信用评估结果和 第二实体的权值输入至预设第三模型,得到第一实体的修正信用评估结果。
[0207]需要说明的是,对于一个终端而言,一种待测终端中可以包括有多个第一实体,第 一模型是可以预估每个第一实体的信用评估结果的,但是一个待测终端的多个第一实体之 间是相互联系的,为了能够有效精确的确定第一实体的信用评估结果,服务器将考虑到利 用多个第一实体的相互联系来修正上述第一实体的信用评估结果。
[0208] 具体的,服务器首先确定与待预测终端中的待预测的第一实体相关联的其他实体 及其对应的时间相关数据,当服务器确定了与该待预测的第一实体的相关联的第二实体 后,由于服务器可以通过第二模型得到第二实体的信用评估结果,因此,该服务器可以按照 实体的优先级,通过预设的第三模型进行加权处理修正第一实体对应的信用评估结果,从 而得到第一实体的修正信用评估结果。
[0209] 更具体的,服务器确定与第一实体相关联的N个第二实体,其中,N大于等于1,该服 务器根据第一实体和N个第二实体的预设优先级,确定第一实体的第二权值和N个第二实体 对应的N个第三权值,该服务器将第一实体的信用评估值、N个第二实体的信用评估值以及N 个第二实体对应的N个第三权值输入至预设的加权模型(第三模型),输出第一实体的修正 信用评估值。
[0210] 特别的,本发明实施例中的为了能够有效确定实体间的相互联系或关联,需要根 据已有的实体对应数据建立实体间的关联网络,其中,建立网络的方式按照以下几个准则 进行:
[0211] (1 )、终端与在终端的使用的各种帐号相关联;
[0212] (2)、帐号与帐号拥有者相关联;
[0213] ⑶、终端与该终端的使用者(电话信息)相关联,如果存在多个使用者,则与多个 使用者均相互关联。
[0214]也就是说,服务器可以按照上述准则确定第一实体相关联的第二实体。
[0215]需要说明的是,本发明实施例中的第三模型为预设模型,该第三模型可以为:公式 (1):
[0217] 其中,i为N个第二实体中的每个第二实体的标号,N为第二实体的个数,a为第一实 体的信用评估结果,匕是标号为i的第二实体对应的信用评估结果,w a为第一实体的第二权 值,为标号为i的第二实体的第三权值,服务器将第一实体的信用评估值、N个第二实体 的信用评估值以及N个第二实体对应的N个第三权值输入至公式(1 ),输出第一实体的修正 信用评估值Sa。
[0218] 可选的,本发明实施例中的第一终端的第一实体和N个第二实体的预设优先级是 指该终端中的实体的重要性,假设终端的实体可以包括了 3个实体,该3个实体可以为终端 的使用者、终端和终端中的应用,终端的使用者的优先级高于终端,终端的优先级高于终端 中的应用的优先级。
[0219] 可以理解的是,由于本发明实施例可同时对各类实体进行信用评价,并且将其相 互关联,使得第一实体的信用评价能够从与之相关联的第二实体获得更多的信息,从而使 得第一实体的信用评估结果更加准确有效。
[0220] 实施例三
[0221] 如图6所示,本发明实施例提供了一种服务器1,该服务器1可以包括:
[0222] 获取单元10,用于获取第一实体在终端上执行操作所得到的第一时间相关数据, 所述第一时间相关数据用于表征第一实体与时间信息间可信赖的关联关系。
[0223] 构造单元12,用于根据所述获取单元10获取的所述第一时间相关数据进行特征构 造,所述生成单元13生成第一模型,所述第一模型用于评估第一实体的可信程度;
[0224] 所述获取单元10,还用于获取所述第一实体的当前用户行为。
[0225] 输出单元14,用于将所述获取单元10获取的所述第一实体的当前用户行为作为待 检测的终端使用记录输入所述生成单元13生成的所述第一模型,得到对第一实体当前用户 行为的信用评估结果。
[0226] 可选的,如图7所示,所述服务器1还包括:预处理单元11;
[0227] 所述获取单元10,还用于获取所述第一实体在所述终端上执行操作所得到的原始 时间相关数据;
[0228] 所述预处理单元11,用于对所述获取单元10获取的所述原始时间相关数据按照预 设策略进行预处理;
[0229] 所述获取单元10,具体用于从所述原始时间相关数据中经过所述预处理单元11过 滤掉无效的非时间信息,得到包含有效时间信息的第一时间相关数据。
[0230]可选的,所述预处理单元11,具体用于对非正常的所述获取单元10获取的所述原 始时间相关数据进行去除处理、对相同终端在一定长度的时间段内重复次数过多的所述原 始时间相关数据进行去重、或对异常的所述原始时间相关数据进行清除处理,以从所述第 一时间相关数据中过滤掉无效的非时间信息,得到包含有效时间信息的所述第一时间相关 数据。
[0231] 可选的,如图8所示,所述服务器1还包括:指定单元15。
[0232] 指定单元15,用于指定所述终端告知用户待收集数据的允许范围。
[0233] 所述获取单元10,具体用于当所述终端获取所述用户的许可后,获取所述第一实 体在所述终端上执行操作得到的且在所述指定单元15指定的所述允许范围内的所述第一 时间相关数据。
[0234] 可选的,如图9所示,所述服务器1还包括:提取单元16和统计单元17。
[0235] 所述提取单元16,用于在所述获取单元10获取的所述第一时间相关数据中提取第 一使用时间信息。
[0236] 所述统计单元17,用于根据所述提取单元16提取的所述第一使用时间信息,统计 在预设每个时间段中的所述指定单元15指定的所述允许范围内的所述第一实体的使用频 繁程度和使用分布信息。
[0237] 所述构造单元12,具体用于根据所述获取单元10获取的所述第一时间相关数据、 所述统计单元17统计的所述第一实体的使用频繁程度和使用分布信息进行特征构造。
[0238] 可选的,如图10所示,所述服务器1还包括:修正单元18。
[0239] 所述修正单元18,用于所述构造单元12根据所述第一时间相关数据进行特征构 造,所述生成单元13生成第一模型之后,基于已有用户行为的特征和对应的已有信用结果, 对所述生成单元13生成的所述第一模型进行修正,得到第二模型。
[0240] 所述获取单元10,还具体用于获取所述第一实体的所述当前用户行为。
[0241] 所述输出单元14,具体用于将所述获取单元10获取的所述第一实体的当前用户行 为作为所述待检测的终端使用记录输入所述生成单元13生成的所述第二模型,得到对第一 实体当前用户行为的信用评估结果。
[0242] 可选的,如图11所示,所述服务器1还包括:确定单元19。
[0243] 所述确定单元19,用于所述输出单元14得到对第一实体当前用户行为的信用评估 结果之后,根据预设准则,确定与所述第一实体关联的第二实体;以及根据所述第一实体和 所述第二实体的预设优先级,确定所述第一实体的权值和所述第二实体的权值。
[0244] 所述输出单元14,还用于将所述第一实体的信用评估结果、所述确定单元19确定 的所述第一实体的权值、所述第二实体的信用评估结果和所述确定单元19确定的所述第二 实体的权值输入至预设第三模型,得到所述第一实体的修正信用评估结果。
[0245] 如图12所示,在实际应用中,上述获取单元10、预处理单元11、构造单元12、生成单 元13、输出单元14、指定单元15、提取单元16、统计单元17、修正单元18和确定单元19可由位 于服务器1上的处理器110实现,具体为中央处理器(CPU)、微处理器(MPU)、数字信号处理器 (DSP)或现场可编程门阵列(FPGA)等实现,该服务器1还可以包括存储介质111和外部通信 接口 113,该外部通信接口 113、存储介质111可以通过系统总线112与处理器110连接,其中, 外部通信接口 113用于与终端等外部设备的通信和数据交互,存储介质111用于存储可执行 程序代码,该程序代码包括计算机操作指令,存储介质111可能包含高速RAM存储器,也可能 还包括非易失性存储器,例如,至少一个磁盘存储器。
[0246]需要说明的是,本发明实施例中的服务器1和前述的服务器41~4n是指同一类服 务器。
[0247] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序 产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形 式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储 介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0248] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程 图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流 程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序 指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产 生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实 现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0249] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特 定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指 令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或 多个方框中指定的功能。
[0250] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计 算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或 其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一 个方框或多个方框中指定的功能的步骤。
[0251] 以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
【主权项】
1. 一种信用数据处理方法,其特征在于,包括: 获取第一实体在终端上执行操作所得到的第一时间相关数据,所述第一时间相关数据 用于表征第一实体与时间信息间可信赖的关联关系; 根据所述第一时间相关数据进行特征构造,生成第一模型,所述第一模型用于评估第 一实体的可信程度; 获取所述第一实体的当前用户行为,将其作为待检测的终端使用记录输入所述第一模 型,得到对第一实体当前用户行为的信用评估结果。2. 根据权利要求1所述的方法,其特征在于,所述获取第一实体在终端上执行操作所得 到的第一时间相关数据,包括: 获取所述第一实体在所述终端上执行操作所得到的原始时间相关数据; 对所述原始时间相关数据按照预设策略进行预处理,以从所述原始时间相关数据中过 滤掉无效的非时间信息,得到包含有效时间信息的第一时间相关数据。3. 根据权利要求2所述的方法,其特征在于,所述对所述原始时间相关数据按照预设策 略进行预处理,包括: 对非正常的所述原始时间相关数据进行去除处理、对相同终端在一定长度的时间段内 重复次数过多的所述原始时间相关数据进行去重、或对异常的所述原始时间相关数据进行 清除处理,以从所述原始时间相关数据中过滤掉无效的非时间信息,得到包含有效时间信 息的所述第一时间相关数据。4. 根据权利要求1或3所述的方法,其特征在于,所述获取第一实体在终端上执行操作 所得到的第一时间相关数据,包括: 指定所述终端告知用户待收集数据的允许范围; 当所述终端获取所述用户的许可后,获取所述第一实体在所述终端上执行操作得到的 且在所述允许范围内的所述第一时间相关数据。5. 根据权利要求1所述的方法,其特征在于,所述根据所述第一时间相关数据进行特征 构造,包括: 在所述第一时间相关数据中提取第一使用时间信息; 根据所述第一使用时间信息,统计在预设每个时间段中的所述允许范围内的所述第一 实体的使用频繁程度和使用分布信息; 根据所述第一时间相关数据、所述第一实体的使用频繁程度和使用分布信息进行特征 构造。6. 根据权利要求1所述的方法,其特征在于,所述根据所述第一时间相关数据进行特征 构造,生成第一模型之后,所述方法还包括: 基于已有用户行为的特征和对应的已有信用结果,对所述第一模型进行修正,得到第 二模型; 相应的,所述获取所述第一实体的当前用户行为,将其作为待检测的终端使用记录输 入所述第一模型,得到对第一实体当前用户行为的信用评估结果,包括: 获取所述第一实体的所述当前用户行为,将其作为所述待检测的终端使用记录输入所 述第二模型,得到对所述第一实体当前用户行为的所述信用评估结果。7. 根据权利要求1至3、5至6任一项所述的方法,其特征在于,所述得到对第一实体当前 用户行为的信用评估结果之后,所述方法还包括: 根据预设准则,确定与所述第一实体关联的第二实体; 根据所述第一实体和所述第二实体的预设优先级,确定所述第一实体的权值和所述第 二实体的权值; 将所述第一实体的信用评估结果、所述第一实体的权值、所述第二实体的信用评估结 果和所述第二实体的权值输入至预设第三模型,得到所述第一实体的修正信用评估结果。8. -种服务器,其特征在于,包括: 获取单元,用于获取第一实体在终端上执行操作所得到的第一时间相关数据,所述第 一时间相关数据用于表征第一实体与时间信息间可信赖的关联关系; 构造单元,用于根据所述获取单元获取的所述第一时间相关数据进行特征构造,所述 生成单元生成第一模型,所述第一模型用于评估第一实体的可信程度; 所述获取单元,还用于获取所述第一实体的当前用户行为; 输出单元,用于将所述获取单元获取的所述第一实体的当前用户行为作为待检测的终 端使用记录输入所述生成单元生成的所述第一模型,得到对第一实体当前用户行为的信用 评估结果。9. 根据权利要求8所述的服务器,其特征在于,所述服务器还包括:预处理单元; 所述获取单元,还用于获取所述第一实体在所述终端上执行操作所得到的原始时间相 关数据; 所述预处理单元,用于对所述获取单元获取的所述原始时间相关数据按照预设策略进 行预处理; 所述获取单元,具体用于从所述原始时间相关数据中经过所述预处理单元过滤掉无效 的非时间信息,得到包含有效时间信息的第一时间相关数据。10. 根据权利要求9所述的服务器,其特征在于, 所述预处理单元,具体用于对非正常的所述获取单元获取的所述原始时间相关数据进 行去除处理、对相同终端在一定长度的时间段内重复次数过多的所述原始时间相关数据进 行去重、或对异常的所述原始时间相关数据进行清除处理,以从所述原始时间相关数据中 过滤掉无效的非时间信息,得到包含有效时间信息的所述第一时间相关数据。11. 根据权利要求8或10所述的服务器,其特征在于,所述服务器还包括:指定单元; 指定单元,用于指定所述终端告知用户待收集数据的允许范围; 所述获取单元,具体用于当所述终端获取所述用户的许可后,获取所述第一实体在所 述终端上执行操作得到的且在所述指定单元指定的所述允许范围内的所述第一时间相关 数据。12. 根据权利要求8所述的服务器,其特征在于,所述服务器还包括:提取单元,统计单 元; 所述提取单元,用于在所述获取单元获取的所述第一时间相关数据中提取第一使用时 间信息; 所述统计单元,用于根据所述提取单元提取的所述第一使用时间信息,统计在预设每 个时间段中的所述指定单元指定的所述允许范围内的所述第一实体的使用频繁程度和使 用分布信息; 所述构造单元,具体用于根据所述获取单元获取的所述第一时间相关数据、所述统计 单元统计的所述第一实体的使用频繁程度和使用分布信息进行特征构造。13. 根据权利要求8所述的服务器,其特征在于,所述服务器还包括:修正单元; 所述修正单元,用于所述构造单元根据所述第一时间相关数据进行特征构造,所述生 成单元生成第一模型之后,基于已有用户行为的特征和对应的已有信用结果,对所述生成 单元生成的所述第一模型进行修正,得到第二模型; 所述获取单元,还具体用于获取所述第一实体的所述当前用户行为; 所述输出单元,具体用于将所述获取单元获取的所述第一实体的当前用户行为作为所 述待检测的终端使用记录输入所述生成单元生成的所述第二模型,得到对第一实体当前用 户行为的信用评估结果。14. 根据权利要求8至10、12和13任一项所述的服务器,其特征在于,所述服务器还包 括:确定单元; 所述确定单元,用于所述输出单元得到对第一实体当前用户行为的信用评估结果之 后,根据预设准则,确定与所述第一实体关联的第二实体;以及根据所述第一实体和所述第 二实体的预设优先级,确定所述第一实体的权值和所述第二实体的权值; 所述输出单元,还用于将所述第一实体的信用评估结果、所述确定单元确定的所述第 一实体的权值、所述第二实体的信用评估结果和所述确定单元确定的所述第二实体的权值 输入至预设第三模型,得到所述第一实体的修正信用评估结果。
【文档编号】G06Q30/06GK106097043SQ201610387187
【公开日】2016年11月9日
【申请日】2016年6月1日 公开号201610387187.4, CN 106097043 A, CN 106097043A, CN 201610387187, CN-A-106097043, CN106097043 A, CN106097043A, CN201610387187, CN201610387187.4
【发明人】郑博, 陈玲, 黄引刚, 黎新, 陈明星
【申请人】腾讯科技(深圳)有限公司