1.本技术涉及计算机数据处理技术领域,特别是涉及一种数据关联方法、装置、计算机设备和存储介质。
背景技术:2.随着计算机技术的飞速发展,商场的数字化程度不断提高,相关技术中可以通过客户管理系统对客户在商场内的线上消费行为进行记录,也可以通过wi
‑
fi(wireless fidelity,无线通信)探针技术或摄像装置来获取用户在线下的轨迹数据。
3.然而,相关技术中均只能分别获取到用户线上行为或者线下行为,无法识别属于同一用户的线上数据和线下数据,导致无法形成属于同一用户完整的数据链。
技术实现要素:4.基于此,有必要针对上述技术问题,提供一种能够高精确度的数据关联方法、装置、计算机设备和存储介质。
5.一种数据关联方法,所述方法包括:
6.获取多条用户线下轨迹数据,所述用户线下轨迹数据包括人脸标识、时间信息以及空间信息;
7.获取目标线上用户标识对应的多个类型的线上数据源,所述线上数据源包括时间信息以及空间信息;
8.根据多个类型的线上数据源的时间信息以及空间信息,分别与多条所述用户线下轨迹数据的人脸标识、时间信息以及空间信息进行匹配,确定每个类型的线上数据源对应的人脸候选集,所述人脸候选集中包括多个人脸标识;
9.根据各所述线上数据源对应的权重,在各所述人脸候选集中确定所述目标线上用户标识对应的人脸标识;
10.根据所述目标线上用户标识以及所述目标线上用户标识对应的人脸标识,关联所述线上数据源以及所述多条用户线下轨迹数据。
11.在其中一个实施例中,所述根据各所述线上数据源对应的权重,在各所述人脸候选集中确定所述目标线上用户标识对应的人脸标识,包括:
12.针对各所述人脸候选集包含的每个人脸标识,确定包含所述人脸标识的目标线上数据源、以及所述目标线上数据源对应的权重;
13.根据所述包含所述人脸标识的目标线上数据源以及所述目标线上数据源对应的权重,计算所述人脸标识的置信度;
14.在各所述人脸候选集包含的各人脸标识中,确定置信度满足预设置信度条件的目标人脸标识,作为所述目标线上用户标识对应的人脸标识。
15.在其中一个实施例中,所述方法还包括:
16.如果所述置信度满足预设置信度条件的目标人脸标识包括多个人脸标识,则获取
所述目标人脸标识对应的人脸图像信息;
17.对各所述人脸图像信息进行身份特征识别,得到各所述人脸图像信息对应的身份特征信息;
18.确定身份特征信息与预先存储的所述目标线上用户标识对应的目标身份特征信息相匹配的目标人脸图像信息,并将所述目标人脸图像信息对应的目标人脸标识,确定为所述目标线上用户标识对应的人脸标识。
19.在其中一个实施例中,所述根据多个类型的线上数据源的时间信息以及空间信息,分别与多个所述用户线下轨迹数据的人脸标识、时间信息以及空间信息进行匹配,确定每个类型的线上数据源对应的人脸候选集,所述人脸候选集中包括多个人脸标识,包括:
20.针对于每一类型的线上数据源,根据所述线上数据源的时间信息以及预设误差,确定目标时间范围;
21.根据所述线上数据源的空间信息以及预设误差,确定目标空间范围;
22.在所述多条用户线下轨迹数据中,筛选时间信息符合所述目标时间范围,且空间信息符合所述目标空间范围的用户线下轨迹数据,将筛选出的所述用户线下轨迹数据对应的人脸标识划入人脸候选集内。
23.在其中一个实施例中,所述方法还包括:
24.获取所述人脸候选集内多个人脸标识对应的人脸图像信息;
25.对各所述人脸图像信息进行身份特征识别,得到各所述人脸图像信息对应的身份特征信息;
26.确定身份特征信息与预先存储的所述目标线上用户标识对应的目标身份特征信息相匹配的目标人脸图像信息,并将所述目标人脸图像信息对应的目标人脸标识,划入处理后的人脸候选集内。
27.在其中一个实施例中,所述方法还包括:
28.如果所述线上数据源包括线上人脸图像信息,则获取所述多条用户线下轨迹数据的人脸标识对应的线下人脸图像信息;通过预设人脸图像比对算法,将所述线上人脸图像信息与所述线下人脸图像信息进行比对,根据比对结果确定与所述目标线上用户标识对应的线下人脸图像信息;
29.如果所述线上数据源不包括线上人脸图像信息,则执行所述根据多个类型的线上数据源的时间信息以及空间信息,分别与多条所述用户线下轨迹数据的人脸标识、时间信息以及空间信息进行匹配,确定每个类型的线上数据源对应的人脸候选集,所述人脸候选集中包括多个人脸标识的步骤。
30.在其中一个实施例中,在所述获取多条用户线下轨迹数据的步骤之后,所述方法还包括:
31.获取预先存储的非目标线上用户的人脸标识;
32.根据所述预先存储的非目标线上用户的人脸标识,对所述多条用户线下轨迹数据进行过滤,得到处理后的多条用户线下轨迹数据。
33.一种数据关联装置,所述装置包括:
34.第一获取模块,用于获取多条用户线下轨迹数据,所述用户线下轨迹数据包括人脸标识、时间信息以及空间信息;
35.第二获取模块,用于获取目标线上用户标识对应的多个类型的线上数据源,所述线上数据源包括时间信息以及空间信息;
36.匹配模块,用于根据多个类型的线上数据源的时间信息以及空间信息,分别与多条所述用户线下轨迹数据的人脸标识、时间信息以及空间信息进行匹配,确定每个类型的线上数据源对应的人脸候选集,所述人脸候选集中包括多个人脸标识;
37.计算模块,用于根据各所述线上数据源对应的权重,在各所述人脸候选集中确定所述目标线上用户标识对应的人脸标识;
38.关联模块,用于根据所述目标线上用户标识以及所述目标线上用户标识对应的人脸标识,关联所述线上数据源以及所述多条用户线下轨迹数据。
39.在其中一个实施例中,所述计算模块,包括:
40.权重确定单元,用于针对各所述人脸候选集包含的每个人脸标识,确定包含所述人脸标识的目标线上数据源、以及所述目标线上数据源对应的权重;
41.置信度计算单元,用于根据所述包含所述人脸标识的目标线上数据源以及所述目标线上数据源对应的权重,计算所述人脸标识的置信度;
42.筛选单元,用于在各所述人脸候选集包含的各人脸标识中,确定置信度满足预设置信度条件的目标人脸标识,作为所述目标线上用户标识对应的人脸标识。
43.在其中一个实施例中,所述装置还包括:
44.人脸标识筛选模块,用于如果所述置信度满足预设置信度条件的目标人脸标识包括多个人脸标识,则获取所述目标人脸标识对应的人脸图像信息;对各所述人脸图像信息进行身份特征识别,得到各所述人脸图像信息对应的身份特征信息;确定身份特征信息与预先存储的所述目标线上用户标识对应的目标身份特征信息相匹配的目标人脸图像信息,并将所述目标人脸图像信息对应的目标人脸标识,确定为所述目标线上用户标识对应的人脸标识。
45.在其中一个实施例中,所述匹配模块,包括:
46.目标时间范围确定单元,用于针对于每一类型的线上数据源,根据所述线上数据源的时间信息以及预设误差,确定目标时间范围;
47.目标空间范围确定单元,用于根据所述线上数据源的空间信息以及预设误差,确定目标空间范围;
48.候选集确定单元,用于在所述多条用户线下轨迹数据中,筛选时间信息符合所述目标时间范围,且空间信息符合所述目标空间范围的用户线下轨迹数据,将筛选出的所述用户线下轨迹数据对应的人脸标识划入人脸候选集内。
49.在其中一个实施例中,所述装置还包括:
50.候选集更新模块,用于获取所述人脸候选集内多个人脸标识对应的人脸图像信息;对各所述人脸图像信息进行身份特征识别,得到各所述人脸图像信息对应的身份特征信息;确定身份特征信息与预先存储的所述目标线上用户标识对应的目标身份特征信息相匹配的目标人脸图像信息,并将所述目标人脸图像信息对应的目标人脸标识,划入处理后的人脸候选集内。
51.在其中一个实施例中,所述装置还包括:
52.人脸事件匹配单元,用于如果所述线上数据源包括线上人脸图像信息,则获取所
述多条用户线下轨迹数据的人脸标识对应的线下人脸图像信息;通过预设人脸图像比对算法,将所述线上人脸图像信息与所述线下人脸图像信息进行比对,根据比对结果确定与所述目标线上用户标识对应的线下人脸图像信息;如果所述线上数据源不包括线上人脸图像信息,则执行所述匹配模块对应的步骤。
53.在其中一个实施例中,所述装置还包括:
54.处理模块,用于获取预先存储的非目标线上用户的人脸标识;根据所述预先存储的非目标线上用户的人脸标识,对所述多条用户线下轨迹数据进行过滤,得到处理后的多条用户线下轨迹数据。
55.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
56.获取多条用户线下轨迹数据,所述用户线下轨迹数据包括人脸标识、时间信息以及空间信息;
57.获取目标线上用户标识对应的多个类型的线上数据源,所述线上数据源包括时间信息以及空间信息;
58.根据多个类型的线上数据源的时间信息以及空间信息,分别与多条所述用户线下轨迹数据的人脸标识、时间信息以及空间信息进行匹配,确定每个类型的线上数据源对应的人脸候选集,所述人脸候选集中包括多个人脸标识;
59.根据各所述线上数据源对应的权重,在各所述人脸候选集中确定所述目标线上用户标识对应的人脸标识;
60.根据所述目标线上用户标识以及所述目标线上用户标识对应的人脸标识,关联所述线上数据源以及所述多条用户线下轨迹数据。
61.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
62.获取多条用户线下轨迹数据,所述用户线下轨迹数据包括人脸标识、时间信息以及空间信息;
63.获取目标线上用户标识对应的多个类型的线上数据源,所述线上数据源包括时间信息以及空间信息;
64.根据多个类型的线上数据源的时间信息以及空间信息,分别与多条所述用户线下轨迹数据的人脸标识、时间信息以及空间信息进行匹配,确定每个类型的线上数据源对应的人脸候选集,所述人脸候选集中包括多个人脸标识;
65.根据各所述线上数据源对应的权重,在各所述人脸候选集中确定所述目标线上用户标识对应的人脸标识;
66.根据所述目标线上用户标识以及所述目标线上用户标识对应的人脸标识,关联所述线上数据源以及所述多条用户线下轨迹数据。
67.上述数据关联方法、装置、计算机设备和存储介质,通过获取多条用户线下轨迹数据中的人脸标识、时间信息以及空间信息,以及目标线上用户标识对应的多个类型的线上数据源的时间信息以及空间信息,可以将线上数据与线下数据进行匹配,确定每个类型的线上数据源对应的人脸候选集;根据各线上数据源对应的权重,在各人脸候选集中确定目标线上用户标识对应的人脸标识;根据目标线上用户标识以及目标线上用户标识对应的人
脸标识,关联线上数据源以及多条用户线下轨迹数据。通过获取多个积分数据源的线上数据,以及更全面精准的线下轨迹,可以对线上标识以及线下标识进行匹配,识别用户的完整行为链,提高线上id与线下id打通的准确率以及用户的召回率。
附图说明
68.图1为一个实施例中数据关联方法的流程示意图;
69.图2为一个实施例中确定目标线上用户标识对应的人脸标识步骤的流程示意图;
70.图3为一个实施例中确定目标线上用户标识对应的人脸标识的结构示意图;
71.图4为一个实施例中根据身份特征信息进行筛选步骤的流程示意图;
72.图5为一个实施例中生成人脸候选集步骤的流程示意图;
73.图6为一个实施例中对人脸候选集进行筛选处理步骤的流程示意图;
74.图7为一个实施例中线上数据源包含人脸图像信息的关联步骤的流程示意图;
75.图8为一个实施例中对非目标线上用户进行剔除处理步骤的流程示意图;
76.图9为一个实施例中数据关联系统的结构框图;
77.图10为一个实施例中数据关联装置的结构框图;
78.图11为一个实施例中计算机设备的内部结构图。
具体实施方式
79.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
80.随着科技的发展,线下商场的数字化程度也在不断提高。近年来,商场开始使用crm(customer relationship management,客户关系管理)系统来对商场的客户进行管理。在crm管理系统中通过商场会员标识体系,记录用户在商场内产生的各种线上行为,例如在店铺内的购买行为、基于互动操作产生的积分行为以及对商场设备的使用行为等等。在crm系统中,每一个用户对应一个会员id(member id)。同时,还可以通过基于机器学习的视觉识别方法,对通过摄像装置获取到的图像数据进行人脸识别,记录客户在商场内的行为(如,进店、逛店等)。具体地,可以通过pid来标注每一个线下的用户。这样,用户的线下行为构成了线下id体系。
81.商场会员id体系记录用户在线上的行为,线下id体系记录用户在线下的行为。为了获取用户在商场内的完整行为链,需要对商场会员id体系以及线下id体系进行打通。这样,商场的管理端就可以获取到一段时间内用户在商场内的完整行为,就可以针对于用户的偏好进行运营。但是,上述两个id体系间无法直接互通,但是,上述两个id体系之间又存在联系,例如,用户在产生线上积分记录时,发生积分的会员在线下商场中应该要处在积分的位置,通过时间与空间就可以将这两种id体系联系起来,本实施例中所述的方法应用的主要场景是需要对商场获取到的用户在线下商场中的行为与商场的crm管理系统中所记录的用户线上行为进行打通的具体应用场景中,本实施例所述的方法可以全面追踪用户在商场内的行为。
82.在一个实施例中,如图1所示,提供了一种数据关联方法,本实施例以该方法应用
于关联设备进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括关联设备和服务器的系统,并通过关联设备和服务器的交互实现,上述关联设备可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中,该数据关联方法包括以下步骤:
83.步骤101,获取多条用户线下轨迹数据,用户线下轨迹数据包括人脸标识、时间信息以及空间信息。
84.其中,用户线下轨迹数据是用户在目标建筑内的移动轨迹,可以是通过在目标建筑内设置多个摄像装置的方式获得的。目标建筑可以是目标商场等。
85.具体地,关联设备通过在目标建筑内设置的多个摄像装置,获取一段时间内的图像数据。通过预设的基于机器学习的视觉识别算法,关联设备可以对上述图像数据进行识别,得到多名用户在目标建筑内的多条用户线下轨迹数据。这样,该用户线下轨迹数据所表征的信息包括人脸标识信息、用户在目标建筑内的移动轨迹信息、产生该移动轨迹对应的时间信息以及移动轨迹对应的空间信息。该空间信息可以是用户在移动时所对应的位置坐标信息。
86.步骤102,获取目标线上用户标识对应的多个类型的线上数据源,线上数据源包括时间信息以及空间信息。
87.具体地,目标线上用户标识可以是会员id,该会员id可以是在目标商场的客户管理系统内预先录入的,或者是在目标商场内通过手机号或其他身份标识信息注册的。线上数据源可以是在用户在目标商场内会用到目标会员id的消费行为或交易行为对应的数据。多个类型的线上数据源可以包括:目标会员在目标商场内的各店铺内发生交易行为时对应的数据、目标会员在目标商场内针对于互动图像生成的互动操作对应的数据(例如,目标会员针对于预设的二维码进行扫描操作时对应产生的数据)、以及目标会员在使用目标商场内积分设备时产生的数据。线上数据源包括行为发生的时间以及行为发生的空间位置信息。
88.例如,当用户在店铺a进行交易时,目标商场的客户管理系统会记录完成交易的时间、完成交易的位置(即店铺a的空间位置)。这样,交易类型的线上数据源具体包括完成交易的时间信息以及完成交易的空间信息。
89.步骤103,根据多个类型的线上数据源的时间信息以及空间信息,分别与多条用户线下轨迹数据的人脸标识、时间信息以及空间信息进行匹配,确定每个类型的线上数据源对应的人脸候选集,人脸候选集中包括多个人脸标识。
90.具体地,针对于目标线上会员标识,关联设备获取该目标线上会员标识对应的多个类型的线上数据源,提取上述各类型的线上数据源所包含的时间信息以及空间信息。针对于每一类型的线上数据源,关联设备会在多条用户线下轨迹数据中,筛选时间信息以及空间信息均符合线上数据源对应的时间信息以及空间信息的用户线下轨迹数据,并分别提取各用户线下轨迹数据中所包含的人脸标识,组成针对于目标线上会员标识的每个类型的线上数据源对应的线下的人脸候选集。
91.步骤104,根据各线上数据源对应的权重,在各人脸候选集中确定目标线上用户标识对应的人脸标识。
92.具体地,各个类型的线上数据源对应的权重是根据实际应用场景预先配置的,关联设备可以根据各类型的线上数据源的稳定程度确定各个类型的线上数据源对应的权重。这样,关联设备可以根据各类型的线上数据对应的权重,以及各类型的线上数据源对应的人脸候选集中的各人脸标识,确定与目标线上用户匹配的人脸标识。
93.步骤105,根据目标线上用户标识以及目标线上用户标识对应的人脸标识,关联线上数据源以及多条用户线下轨迹数据。
94.具体地,关联设备可以根据目标线上用户标识,在目标商场的客户管理系统中提取包含目标线上用户标识的线上数据;关联设备还可以根据通过上述实施例所述的方法得到的与目标线上用户标识对应的多条用户线下轨迹数据。这样,关联设备可以将目标线上用户在商场内的线上数据与线下数据相关联,得到目标线上用户在商场内的完整数据链。
95.上述数据关联方法中,通过获取多条用户线下轨迹数据中的人脸标识、时间信息以及空间信息,以及目标线上用户标识对应的多个类型的线上数据源的时间信息以及空间信息,可以将线上数据与线下数据进行匹配,确定每个类型的线上数据源对应的人脸候选集;根据各线上数据源对应的权重,在各人脸候选集中确定目标线上用户标识对应的人脸标识;根据目标线上用户标识以及目标线上用户标识对应的人脸标识,关联线上数据源以及多条用户线下轨迹数据。通过获取多个积分数据源的线上数据,以及更全面精准的线下轨迹,可以对线上标识以及线下标识进行匹配,识别用户的完整行为链,提高线上id与线下id打通的准确率以及用户的召回率。
96.在一个实施例中,如图2所示,步骤104“根据各线上数据源对应的权重,在各人脸候选集中确定目标线上用户标识对应的人脸标识”的具体处理过程,包括:
97.步骤201,针对各人脸候选集包含的每个人脸标识,确定包含人脸标识的目标线上数据源、以及目标线上数据源对应的权重。
98.具体地,针对于各人脸候选集中的每个人脸标识,关联设备确定包含该人脸标识的多个目标线上数据源,以及该目标线上数据源对应的权重。
99.步骤202,根据包含人脸标识的目标线上数据源以及目标线上数据源对应的权重,计算人脸标识的置信度。
100.具体地,针对于人脸候选集中的每一人脸标识,关联设备会对包含该人脸标识的目标线上数据源以及该类型的线上数据源进行加权求和处理,得到该人脸标识的置信度。其中,置信度也可以表示该人脸标识与目标线上用户标识匹配的准确度。
101.步骤203,在各人脸候选集包含的各人脸标识中,确定置信度满足预设置信度条件的目标人脸标识,作为目标线上用户标识对应的人脸标识。
102.具体地,预设置信度条件可以是置信度最高。置信度满足预设置信度条件的目标人脸标识,也就是说,关联设备需要在多个人脸标识中,提取置信度最高的人脸标识作为目标线上用户标识对应的人脸标识,完成线上会员的id与线下轨迹的人脸id的匹配。
103.以下结合一具体示意图3,详细描述上述步骤201到步骤203的执行过程:
104.例如,线上的数据源集合中包括多个类型的积分记录源,可以包括a类型的积分记录源1、b类型的积分记录源2以及c类型的积分记录源3,相应的积分记录源的权重分别为a、b、c。
105.针对于第一线上用户标识,即第一会员id,关联设备确定积分记录源1对应的人脸
候选集中包含的人脸标识为pid1,积分记录源2对应的人脸候选集中包含的人脸标识为pid1、pid2,积分记录源3对应的人脸候选集中包含的人脸标识为pid1、pid3。这样,针对于pid1,对应的目标积分记录源为积分记录源1、积分记录源2、积分记录源3,相应的积分记录源的权重分别为a、b、c。因此,pid1的置信度是(a+b+c)。通过同样的计算过程,pid2的置信度为b,pid3的置信度为c。又由于预设置信度条件可以是置信度最高,因此,确定置信度满足预设置信度条件的目标人脸标识是pid1,这样,pid1与第一会员id匹配成功。
106.针对于第二线上用户标识,即第二会员id,关联设备确定积分记录源1对应的人脸候选集中包含的人脸标识为pid3,积分记录源2对应的人脸候选集中包含的人脸标识为pid3、pid4,积分记录源3对应的人脸候选集中包含的人脸标识为pid3、pid5。这样,针对于pid3,对应的目标积分记录源为积分记录源1、积分记录源2、积分记录源3,相应的积分记录源的权重分别为a、b、c。因此,pid3的置信度是(a+b+c)。通过同样的计算过程,pid4的置信度为b,pid5的置信度为c。又由于预设置信度条件是置信度最高,因此,确定置信度满足预设置信度条件的目标人脸标识是pid3,这样,pid3与第二会员id匹配成功。
107.本实施例中,通过多个类型的线上数据源对应的人脸候选集中的每个人脸标识,获取包含该人脸标识的目标线上数据源以及对应的权重,进而进行加权计算,得到每个人脸标识的置信度,可以融合多个线上类型的数据进行线上id与线下id的融合打通,提高id匹配的准确度。
108.在一个实施例中,如图4所示,所述数据关联方法还包括:
109.步骤301,如果置信度满足预设置信度条件的目标人脸标识包括多个人脸标识,则获取目标人脸标识对应的人脸图像信息。
110.具体地,如果通过上述实施例所述的数据关联方法,关联设备确定置信度满足预设置信度条件的目标人脸标识为两个或两个以上。这样,关联设备需要对多个目标人脸标识进行筛选,获取多个目标人脸标识对应的人脸图像信息。
111.步骤302,对各人脸图像信息进行身份特征识别,得到各人脸图像信息对应的身份特征信息。
112.具体地,身份特征信息可以包括性别信息、年龄信息等等。关联设备可以通过预设的识别算法对各个人脸图像进行识别,提取该人脸图像中所包含的身份特征信息。
113.步骤303,确定身份特征信息与预先存储的目标线上用户标识对应的目标身份特征信息相匹配的目标人脸图像信息,并将目标人脸图像信息对应的目标人脸标识,确定为目标线上用户标识对应的人脸标识。
114.具体地,目标线上用户标识对应的身份特征信息可以是预先存储于客户管理系统中的特征信息。关联设备在获取目标线上用户标识的同时,会在客户管理系统中提取该目标线上用户对应的身份特征信息。这样,关联设备可以根据目标线上用户标识对应的目标身份特征信息对多个目标人脸标识进行进一步的筛选,得到符合预先存储的目标身份特征信息的目标人脸标识。
115.例如,针对于目标线上用户标识q,置信度满足预设置信度条件的目标人脸标识包括多个人脸标识,可以分别为pid6、pid7。通过预设的识别算法,关联设备提取到pid6对应的身份特征信息为男性、青少年,提取到pid7对应的身份特征信息为女性、青年。而关联设备在客户管理系统获取到的目标线上用户标识q的身份特征信息为女性、25岁。这样,关联
设备可以根据预先存储的目标线上用户标识的身份特征信息,对置信度满足预设置信度条件的多个目标人脸标识做筛选,并将满足预先存储的目标线上用户标识的身份特征信息的目标人脸标识pid7,作为目标线上用户标识q对应的目标人脸标识。
116.本实施例中,通过预先存储的目标线上用户标识的身份特征信息,对多个目标人脸标识进行再次筛选,提高线上会员id与线下人脸标识匹配的准确率。
117.在一个实施例中,如图5所示,步骤103“根据多个类型的线上数据源的时间信息以及空间信息,分别与多个用户线下轨迹数据的人脸标识、时间信息以及空间信息进行匹配,确定每个类型的线上数据源对应的人脸候选集,人脸候选集中包括多个人脸标识”的具体处理过程,包括:
118.步骤401,针对于每一类型的线上数据源,根据线上数据源的时间信息以及预设误差,确定目标时间范围。
119.其中,各个类型中的线上数据源中可以包括多条数据记录,该数据记录中包括时间信息、空间信息。如果是交易类型的线上数据源,那么多条数据记录可以是多个线上用户标识在目标商场各个店铺内的交易记录,相应的,时间信息可以是交易完成的时间点,空间信息可以是交易发生的位置坐标。
120.具体地,关联设备可以根据实际应用场景确定预设误差。预设误差可以是关联设备可以容忍的偏差值。针对于时间信息,预设误差可以是5s。针对于每一类型的线上数据源的每一条数据记录,关联设备根据该数据记录的时间信息以及预设误差,确定候选时间范围,即目标时间范围,例如,
±
5s。
121.步骤402,根据线上数据源的空间信息以及预设误差,确定目标空间范围。
122.具体地,针对于每一类型的线上数据源的每一条数据记录,关联设备根据该数据记录的空间信息以及预设误差,确定候选空间范围,即目标空间范围。
123.步骤403,在多条用户线下轨迹数据中,筛选时间信息符合目标时间范围,且空间信息符合目标空间范围的用户线下轨迹数据,将筛选出的用户线下轨迹数据对应的人脸标识划入人脸候选集内。
124.本实施例中,通过对多个类型的线上数据源的时间信息以及空间信息,对多条用户线下轨迹数据进行筛选,可以高效、准确地确定各线上数据源对应的人脸候选集。
125.在一个实施例中,如图6所示,所述数据关联方法还包括:
126.步骤501,获取人脸候选集内多个人脸标识对应的人脸图像信息。
127.具体地,关联设备可以通过预设的识别算法,识别人脸候选集内各个人脸标识对应的人脸图像信息。
128.步骤502,对各人脸图像信息进行身份特征识别,得到各人脸图像信息对应的身份特征信息。
129.具体地,身份特征信息可以包括性别信息、年龄信息等等。关联设备可以通过预设的识别算法对各个人脸图像进行识别,提取该人脸图像中所包含的身份特征信息。
130.步骤503,确定身份特征信息与预先存储的目标线上用户标识对应的目标身份特征信息相匹配的目标人脸图像信息,并将目标人脸图像信息对应的目标人脸标识,划入处理后的人脸候选集内。
131.具体地,目标线上用户标识对应的身份特征信息可以是预先存储于客户管理系统
中的特征信息。关联设备在获取目标线上用户标识的同时,会在客户管理系统中提取该目标线上用户对应的身份特征信息。这样,关联设备可以根据目标线上用户标识对应的目标身份特征信息,对人脸候选集内包含的多个人脸标识对应的身份特征信息进行筛选,得到符合预先存储的目标身份特征信息的人脸标识,并将该人脸标识划入处理后的人脸候选集内。也就是说,关联设备会将身份特征信息不符合预先存储的目标身份特征信息的人脸标识,从人脸候选集中剔除,得到处理后的人脸候选集。
132.本实施例中,通过预先存储的目标线上用户标识对应的目标身份特征信息,可以对人脸候选集进行进一步地筛选,缩小关联设备的候选人脸标识的计算范围,降低关联设备的算力消耗。
133.在一个实施例中,当上述实施例所述的方法应用于不同场景中时,关联设备获取到的用户线下轨迹数据所包含的数据信息有多种。相应的,如图7所示,所述数据关联方法还包括:
134.步骤601,如果线上数据源包括线上人脸图像信息,则获取多条用户线下轨迹数据的人脸标识对应的线下人脸图像信息。通过预设人脸图像比对算法,将线上人脸图像信息与线下人脸图像信息进行比对,根据比对结果确定与目标线上用户标识对应的线下人脸图像信息。
135.具体地,如果线上数据源是基于可以使用人脸登录客户管理系统的事件时产生的数据,那么相应的线上数据源所包含的信息为时间信息、空间信息以及人脸图像信息。这样,关联设备可以根据预设的人脸图像比对算法,将客户管理系统记录到的线上数据源中的人脸图像信息,与线下人脸图像信息进行比对。关联设备根据比对结果确定与目标线上用户标识对应的线下人脸图像信息,这样,关联设备可以将目标线上用户标识对应的线上数据源,与线下人脸图像信息对应的用户线下轨迹数据进行关联,形成用户的完整行为数据链。
136.例如,当用户在商场内需要通过人脸登录客户管理系统,以使用商场内的停车导航屏时,此时,客户管理系统记录的线上数据源包含线上人脸图像信息。
137.步骤602,如果线上数据源不包括线上人脸图像信息,则执行根据多个类型的线上数据源的时间信息以及空间信息,分别与多条用户线下轨迹数据的人脸标识、时间信息以及空间信息进行匹配,确定每个类型的线上数据源对应的人脸候选集,人脸候选集中包括多个人脸标识的步骤。
138.本实施例中,通过包含线上人脸图像信息的线上数据源,与多条线下用户轨迹数据进行对比,可以快速、准确地将用户的线上数据与线下用户进行关联。
139.在一个实施例中,如图8所示,在执行步骤101“获取多条用户线下轨迹数据”之后,数据关联方法还包括:
140.步骤701,获取预先存储的非目标线上用户的人脸标识。
141.具体地,非目标线上用户的人脸标识可以是非目标商场的客户的人脸标识,例如,目标商场内各店铺内各店员的人脸标识,目标商城内各管理人员的人脸标识等等。
142.步骤702,根据预先存储的非目标线上用户的人脸标识,对多条用户线下轨迹数据进行过滤,得到处理后的多条用户线下轨迹数据。
143.具体地,关联设备通过在目标建筑内设置的多个摄像装置,获取一段时间内的图
像数据。通过预设的基于机器学习的视觉识别算法,关联设备可以对上述图像数据进行识别,得到多名用户在目标建筑内的多条用户线下轨迹数据。这样,该用户线下轨迹数据所表征的信息包括人脸标识信息、人脸在目标建筑内的移动轨迹信息、产生该移动轨迹对应的时间信息以及移动轨迹对应的空间信息。关联设备可以根据预先存储的非目标线上用户的人脸标识,对上述用户线下轨迹数据进行筛选,将非目标线上用户的线下轨迹数据进行剔除,得到处理后的多条用户线下轨迹数据,可以降低后续计算过程的算力消耗。
144.应该理解的是,虽然图1
‑
8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1
‑
8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
145.在一可选实施例中,本公开实施例还可以提供了一种数据关联系统,如图9所示,结合该数据关联系统详细描述本公开实施例所提供的数据关联方法的执行过程。上述数据关联系统可以包括输入模块、事件匹配模块、人脸服务模块、打通维护模块、数据管理模块;输入模块将积分事件记录输入至事件匹配模块,该事件匹配模块包括人脸事件匹配单元以及积分事件匹配单元。人脸事件匹配单元可以调用人脸服务模块,该人脸服务模块用于根据输入的两张人脸照片,输出这两张人脸照片是否为同一个人的判断结果,人脸服务模块首先对上述人脸照片进行聚类,根据聚类结果进行人脸比对,如果上述两张人脸照片能够聚为一类,则确定这两张人脸照片是同一个人。该事件匹配模块执行的过程即为上述方法实施例所述的方法,得到目标线上用户在商场内的线上数据与线下数据的关联记录,即得到目标线上用户在商场内的完整数据链。
146.可选地,打通维护模块可以用于历史打通库维护、历史打通库更新以及历史打通库修正。具体地,将目标线上用户标识与目标线上用户标识对应的人脸标识进行保存,可以存储于历史id打通数据库中。也就是说,历史id打通数据库中可以存储有客户管理系统中所包含的每名会员对应的用户线下轨迹数据的人脸标识候选集。针对于每一会员id对应的线下人脸标识,可以随着上述实施例所述的方法的执行过程不断更新,也就是对历史id打通数据库进行维护、更新以及修正。即,随着线上数据的积累,id打通的准确率与可信度是不断提高的,每次打通的目标线上用户标识与线下人脸标识都需要与历史的打通情况进行对比,来验证当次打通是否正确或者历史打通是否正确,并以此对打通结果进行修正
147.可选地,数据管理模块对上述实施例中所涉及到的数据进行管理。具体管理过程包括:数据处理、上游数据情况统计、打通情况分析。具体地,对用户线下轨迹数据以及多种类型的线上数据源进行管理。针对于用户线下轨迹数据,关联设备会对该用户线下轨迹数据进行噪声数据的过滤,以及非目标线上用户的过滤。关联设备还可以对存在缺失情况的用户线下轨迹数据进行补全/修正处理。针对于线上数据源中的数据,关联设备进行噪声数据、非相关数据的过滤处理。上述非相关数据可以是无法与线下店铺、商场设备匹配成功的数据。还可以对打通结果进行分析,分析指标包括打通率、精确率、召回率。
148.可选地,打通率表示当天正确打通人数/全量有数据人数,全量有数据人数可以是线上人数与线下人数的和;精确率表示正确打通人数/总打通人数;召回率表示正确打通人
数/全量有数据人数。以上各指标的计算需要依赖打通真值来进行判断,这里需要将部分通过人脸直接打通的数据作为真值,来标注id打通的效果。
149.在一个实施例中,如图10所示,提供了一种数据关联装置,包括:第一获取模块801、第二获取模块802、匹配模块803、计算模块804和关联模块805,其中:
150.第一获取模块801,用于获取多条用户线下轨迹数据,用户线下轨迹数据包括人脸标识、时间信息以及空间信息;
151.第二获取模块802,用于获取目标线上用户标识对应的多个类型的线上数据源,线上数据源包括时间信息以及空间信息;
152.匹配模块803,用于根据多个类型的线上数据源的时间信息以及空间信息,分别与多条用户线下轨迹数据的人脸标识、时间信息以及空间信息进行匹配,确定每个类型的线上数据源对应的人脸候选集,人脸候选集中包括多个人脸标识;
153.计算模块804,用于根据各线上数据源对应的权重,在各人脸候选集中确定目标线上用户标识对应的人脸标识;
154.关联模块805,用于根据目标线上用户标识以及目标线上用户标识对应的人脸标识,关联线上数据源以及多条用户线下轨迹数据。
155.在其中一个实施例中,所述计算模块,包括:
156.权重确定单元,用于针对各所述人脸候选集包含的每个人脸标识,确定包含所述人脸标识的目标线上数据源、以及所述目标线上数据源对应的权重;
157.置信度计算单元,用于根据所述包含所述人脸标识的目标线上数据源以及所述目标线上数据源对应的权重,计算所述人脸标识的置信度;
158.筛选单元,用于在各所述人脸候选集包含的各人脸标识中,确定置信度满足预设置信度条件的目标人脸标识,作为所述目标线上用户标识对应的人脸标识。
159.在其中一个实施例中,所述装置还包括:
160.人脸标识筛选模块,用于如果所述置信度满足预设置信度条件的目标人脸标识包括多个人脸标识,则获取所述目标人脸标识对应的人脸图像信息;对各所述人脸图像信息进行身份特征识别,得到各所述人脸图像信息对应的身份特征信息;确定身份特征信息与预先存储的所述目标线上用户标识对应的目标身份特征信息相匹配的目标人脸图像信息,并将所述目标人脸图像信息对应的目标人脸标识,确定为所述目标线上用户标识对应的人脸标识。
161.在其中一个实施例中,所述匹配模块,包括:
162.目标时间范围确定单元,用于针对于每一类型的线上数据源,根据所述线上数据源的时间信息以及预设误差,确定目标时间范围;
163.目标空间范围确定单元,用于根据所述线上数据源的空间信息以及预设误差,确定目标空间范围;
164.候选集确定单元,用于在所述多条用户线下轨迹数据中,筛选时间信息符合所述目标时间范围,且空间信息符合所述目标空间范围的用户线下轨迹数据,将筛选出的所述用户线下轨迹数据对应的人脸标识划入人脸候选集内。
165.在其中一个实施例中,所述装置还包括:
166.候选集更新模块,用于获取所述人脸候选集内多个人脸标识对应的人脸图像信
息;对各所述人脸图像信息进行身份特征识别,得到各所述人脸图像信息对应的身份特征信息;确定身份特征信息与预先存储的所述目标线上用户标识对应的目标身份特征信息相匹配的目标人脸图像信息,并将所述目标人脸图像信息对应的目标人脸标识,划入处理后的人脸候选集内。
167.在其中一个实施例中,所述装置还包括:
168.人脸事件匹配单元,用于如果所述线上数据源包括线上人脸图像信息,则获取所述多条用户线下轨迹数据的人脸标识对应的线下人脸图像信息;通过预设人脸图像比对算法,将所述线上人脸图像信息与所述线下人脸图像信息进行比对,根据比对结果确定与所述目标线上用户标识对应的线下人脸图像信息;如果所述线上数据源不包括线上人脸图像信息,则执行所述匹配模块对应的步骤。
169.在其中一个实施例中,所述装置还包括:
170.处理模块,用于获取预先存储的非目标线上用户的人脸标识;根据所述预先存储的非目标线上用户的人脸标识,对所述多条用户线下轨迹数据进行过滤,得到处理后的多条用户线下轨迹数据。
171.关于数据关联装置的具体限定可以参见上文中对于数据关联方法的限定,在此不再赘述。上述数据关联装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
172.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储线上数据源以及用户线下轨迹数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据关联方法。
173.本领域技术人员可以理解,图11中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
174.在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
175.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
176.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read
‑
only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种
形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
177.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
178.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。