一种受众画像生成方法及系统的制作方法
【技术领域】
[0001] 本发明涉及数据挖掘相关技术领域,特别是一种受众画像生成方法及系统。
【背景技术】
[0002] 互联网+给我们带来了大数据的灵感,SGMS聚焦于如何挖掘大数据背后的商业价 值,不仅投资大数据还要让大数据变现。大数据第一次使得企业能够通过互联网便利地获 取用户更为广泛的反馈信息,为进一步精准、快速地分析用户上网行为、消费习惯等重要商 业信息提供了足够的数据基础。伴随着企业对目标客户了解的逐步深入,现有技术引入了 目标受众画像即UserProfile的概念。
[0003] 目标受众画像的建立主要在于标识体系的建立与标识(ID)的关联,然而,由于数 据标识之间有着间接或直接的关联关系,寻找他们之间的关联关系非常复杂,特别是当涉 及到多账号的情况下,现有的标识关联方案并不能建立精确的标识关联,从而导致目标受 众画像的建立并不准确。
【发明内容】
[0004] 基于此,有必要针对现有技术对标识的关联关系建立不准确的技术问题,提供一 种受众画像生成方法及系统。
[0005] 本发明提供一种目标受众画像生成方法,包括:
[0006] 数据整合步骤,包括:确定每个目标所包括的标识,获取至少一个标识对,每个所 述标识对包括两个所述标识,获取每个标识对的关联数据;
[0007] 关系密切程度计算步骤,包括:根据每个标识对的关联数据确定该标识对的关系 密切程度;
[0008] 匹配步骤,包括:根据所述关系密切程度,将同一目标所包括的标识进行串联,将 串联后的标识作为目标受众画像与目标关联;
[0009] 推送步骤,包括:根据所述目标受众画像向目标执行相应的推送动作。
[0010] 本发明提供一种目标受众画像生成系统,包括:
[0011] 数据整合模块,用于:确定每个目标所包括的标识,获取至少一个标识对,每个所 述标识对包括两个所述标识,获取每个标识对的关联数据;
[0012] 关系密切程度计算模块,用于:根据每个标识对的关联数据确定该标识对的关系 密切程度;
[0013] 匹配模块,用于:根据所述关系密切程度,将同一目标所包括的标识进行串联,将 串联后的标识作为目标受众画像与目标关联;
[0014] 推送模块,用于:根据所述目标受众画像向目标执行相应的推送动作。
[0015] 本发明根据关系密切程度,对标识进行串联,使得标识的关联关系更为精确有效, 从而能够建立很好的目标受众画像,以便基于不同的标识向所述目标推送广告或者优惠措 施等。
【附图说明】
[0016] 图1为本发明一种目标受众画像生成方法的工作流程图;
[0017] 图2为本发明一个实施例的关系网络;
[0018] 图3为本发明最佳实施例的工作流程图;
[0019] 图4为本发明一种目标受众画像生成系统的结构模块图。
【具体实施方式】
[0020] 下面结合附图和具体实施例对本发明做进一步详细的说明。
[0021] 如图1所示为本发明一种目标受众画像生成方法的工作流程图,包括:
[0022] 步骤S101,包括:确定每个目标所包括的标识,获取至少一个标识对,每个所述标 识对包括两个所述标识,获取每个标识对的关联数据;
[0023] 步骤S102,包括:根据每个标识对的关联数据确定该标识对的关系密切程度;
[0024] 步骤S103,包括:根据所述关系密切程度,将同一目标所包括的标识进行串联,将 串联后的标识作为目标受众画像与目标关联;
[0025] 步骤S104,包括:根据所述目标受众画像向目标执行相应的推送动作。
[0026] 对于一个目标用户,其可以有多个标识,例如:车辆识别码(Vin)、电话号码 (Phone)、身份证号(RID)和Cookieid等。这些标识会存放在系统中,可以是本地系统也 可以是远端服务器系统。目标是准备分析的个体,可以通过用户名等方式区分。步骤S101 在确认了目标以后,获取关于该目标的标识以及关于标识的标识对,标识对中的两个标识 关联,例如Vinl-Phonel对表示车辆识别码为Vinl且电话号码为Phonel的一对标识。当 两个标识对所关联的相同类型的标识的值均相同时,则这两个标识对为同一标识对,当两 个标识对所关联的相同类型的标识的值不同时,则这两个标识对为不同的标识对。例如: Vinl-Phonel与Vinl_Phone2,由于Phonel与Phone2不相同,因此为两个不同的标识对。
[0027] 步骤S102计算出每个标识对的关系密切程度,例如计算出Vinl-Phonel的关系密 切程度,计算出Vinl-Phone2的关系密切程度等。该关系密切程度用于在步骤S103中串 联标识,并将串联后的标识作为目标受众画像。作为一个例子,其中一个目标受众画像为: Vinl-Phonel-RIDl-Cookieidl。因此每个目标可以采用一个目标受众画像进行描述。
[0028] 在步骤S104中则可以据此执行相应的推送动作,例如将采用 Vin-Phone-RID-Cookieid的连接顺序的目标受众画像执行一种推送动作,而对采用 Vin-RID-Phone-Cookieid的连接顺序的目标受众画像执行一种推送动作。也可以是根据 标识的范围选择推送动作,例如对于Phone为某个区域范围或者RID的某几位在某个区域 范围设定特定的推送动作等。即步骤S104可以具体为:根据所述目标受众画像所包括的标 识的串联顺序和/或标识的范围选择相应的推送动作,向目标执行所述推送动作。
[0029] 推送动作可以是推送广告或者优惠信息等。本发明的目标受众画像不仅能清楚的 反映了所关联用户的所包括的标识,且由于标识是根据关系密切程度进行串联,因此本发 明所生成的目标受众画像还能反映出各种标识之间的关系密切程度,从而使得后续的推送 动作更为精确。
[0030] 在其中一个实施例中:
[0031] 所述步骤S101,具体包括:
[0032] 获取同一目标同一标识对在多个系统中的多个关联数据,根据每个系统对该标识 对的预设系统关联权重,将多个相同类型的所述关联数据加权整合为一个整合后关联数 据;
[0033] 所述步骤S102,具体包括:根据每个标识对的整合后关联数据确定该标识对的关 系密切程度。
[0034] 标识对可以存放在多个系统中,即在多个系统中可能存在相同的标识对,例如存 在相同的Vinl-Phonel。针对这种情况,本实施例采用的方式是对其关联数据进行加权整 合。比如Vinl与Phonel在系统S1与系统S2中都记录其关联数据,则根据各系统衡量该 Vinl-Phonel的关联数据的重要性(比如系统S1对Vinl与Phonel的关联数据的重要性比 系统S2更大),则通过数据加权将系统S1与系统S2中的Vinl-Phonel的关联数据进行整 合成一条Vinl-Phonel的关联数据。
[0035] 在其中一个实施例中,所述标识对的整合后关联数据包括:sy、DefaultDi、Ti、 Times、LD和day,其中,sy多个系统对该标识对的预设系统关联权重的最大值,DefaultDi 为该标识对的预设初始关系密切值,Ti为关联次数权重,Times为该标识对在多个系统中 的关联次数的整合后数据,LD为时间权重,day为该标识对在多个系统中保存的最后日期 与当前日期的差值的倒数的整合后数据;
[0036] 所述标识对的关系密切程度采用如下方式得到:
[0037]关系密切程度FDi为:FDi=syXDefaultDiX(TiXtanh(Times)+LDXday)。
[0038] 本实施例具体给出关系密切程度的计量方式,该公式综合考虑了标识对所在的系 统、关系对的保持次数和关系对的保存时间,使得对于标识对的关系密切程度的量化更为 精准科学。
[0039] 在其中一个实施例中,还包括修正关系密切程度步骤,所述修正关系密切程度步 骤,具体包括:
[0040] 修正每个标识对的关系密切程度为土/ ,其中:
[0041 ]
[0042]
[0043] D为预设的修正参数,Fdi(k)为第k对标识对的关系密切程度,M(k)为表示与第k 对标识对具有相同目标且存在的直接关联的其他标识对的集合,L(k)为M(k)的元素个数, Fdi(j)为M(k)集合中的第j对标识对的关系密切程度。
[0044] M(k)是关于第k对标识对的一个集合,该集合包括所有与第k对标识对存在的直 接关联的其他标识对。作为一个例子,考虑第k对标识对为Vink-Phonek,在所有系统中与 Vink-Phonek的目标0k相关的标识对有Phonek-RIDk、RIDk-Cookieidk、RIDk-Vink,则与 Vink-Phonek存在直接关联的其他标识对为Phonek-RIDk和RIDk-Vink。即与第k对标识 对具有相同目标且存在的直接关联的其他标识对,其所包括的标识至少有一个与第k对标 识对所包括的其中一个标识相同。
[0045] 通过对关联密切程度的修正,使得其能够更为平滑,以来突显关系网络中关系密 切程度高的标识对。
[0046] 在其中一个实施例中,所述步骤S103,具体包括:
[0047] 以目标的任一标识作为初始标识,生成关于初始标识的关系网络,所述关系网络 包括多个具有连接关系的标识,且相连接的两个标识关联所述目标所包括的其中一个标识 对;
[0048] 从初始标识出发,按照标识对的关系密切程度对所述关系网络进行路径搜索,优 先选择与前一标识的关系密切程度高的标识,将搜索出来的路径上的标识进行串联;
[0049] 将串联后的标识作为目标受众画像与目标关联。
[0050] 例如,以Vinl作为初始标识出发,假设所关联的目标有以下标识对:
[0051] Vinl-Phonel、RID-Phonel、RID-Vinl、RID-Vin2、RID-Cookieidl、RID-Phone2,则 其关系网络如图2所示。
[0052] 对该关系网络根据每个标识对的关系密切程度进行路径搜索,路径搜索可以采用 现有算法,从而得到一条从初始标识出发的路径,将该路径上的所有标识按照路径的顺序 依次串联则得到目标受众画像。
[0053] 如图3所示为本发明最佳实施例的工作