本技术涉及数据处理,尤其涉及一种id映射关系的置信度评估方法、装置及电子设备。
背景技术:
1、在数据处理技术领域,尤其是针对用户的数据进行分析时,常基于用户id(idification)构建各类id映射关系,然后借助构建的id映射关系对用户的行为进行分析。比如基于用户id与用户所使用设备的设备号,构建“id-设备号”的映射关系,基于该id-设备号的映射关系,可知晓用户曾使用哪些设备单登陆过该用户id账号。
2、但是,现有获取用户id映射关系的途径较多,且可能存在多个用户共享一个用户id的情况,这样容易使得所获取到的用户id映射关系的可用价值较低,如何对所获取到的用户id映射关系进行价值评估,成为一个提升id映射关系的可用价值所面临的问题。
技术实现思路
1、有鉴于此,本技术实施例提供了一种id映射关系的置信度评估方法、装置及电子设备,以对获取到的id映射关系进行评估,进而确定出有价值的id映射关系。
2、第一方面,本技术提供了一种id映射关系的置信度评估方法,获取各条待评估的id映射关系,其中,所述待评估的id映射关系的来源包括:展点数据、拼接数据、埋点数据、外部采集数据以及历史id映射数据中的一种或多种;
3、解析各所述待评估的id映射关系包含的各项明细信息,并对各项所述明细信息进行赋值,各项明细信息包括:所述id映射关系的出现时间、来源、出现次数以及同一个用户id对应的映射对象的个数;
4、利用预设置信度分数计算模型,对各项所述明细信息的赋值结果计算加权求和统计结果,将所述加权求和统计结果确定为对应的id映射关系的置信度;
5、若所述置信度大于预设置信度统计分阈值,将所述大于预设置信度统计分阈值的待评估的id映射关系的评级属性确定为可用id映射关系。
6、结合第一方面,在第二种可能的实施例中,所述获取各条待评估的id映射关系包括:
7、从所述展点数据、拼接数据、埋点数据、外部采集数据中的一个或多个数据源中,获取增量的待评估的id映射关系,并将所述增量的待评估的id映射关系存储至增量数据库中;
8、从所述历史id映射数据中,获取存量的待评估的id映射关系;
9、所述方法还包括:
10、若所述待评估的id映射关系的评级属性为可用id映射关系,则将所述可用id映射关系存储至目标id映射关系数据库中。
11、结合第一方面,在第三种可能的实施例中,所述解析各所述待评估的id映射关系包含的各项明细信息,并对各项所述明细信息进行赋值,包括:
12、针对所述id映射关系的来源类型,对所述id映射关系的来源设置来源置信度分值,其中,所述拼接数据的置信度分值<所述展点数据的置信度分值<所述外部采集数据的置信度分值<所述埋点数据的置信度分值;
13、针对所述id映射关系的出现时间,对所述id映射关系的出现时间设置出现时间置信度分值,其中,所述id映射关系的出现时间越晚,所述出现时间置信度分值越高。
14、结合第一方面,在第四种可能的实施例中,所述解析各所述待评估的id映射关系包含的各项明细信息,并对各项所述明细信息进行赋值,包括:
15、针对所述id映射关系的出现次数,按照如下公式确定所述id映射关系的出现次数置信度分值f(n):
16、f(n)=100*(n/(n+k))
17、其中,n为所述id映射关系的出现次数,k为第一常数修正因子。
18、结合第一方面,在第五种可能的实施例中,所述解析各所述待评估的id映射关系包含的各项明细信息,并对各项所述明细信息进行赋值,包括:
19、针对所述同一个用户id对应的映射对象个数,按照如下公式确定出所述同一个用户id对应的映射对象个数置信度分值g(m):
20、g(m)=100*(1-m/(m+p))
21、其中,m为所述同一个用户id对应的映射对象的数量,p为第二常数修正因子。
22、第二方面,本技术提供了一种id映射关系的置信度评估装置,所述装置包括:
23、获取模块,用于获取各条待评估的id映射关系,其中,所述待评估的id映射关系的来源包括:展点数据、拼接数据、埋点数据、外部采集数据以及历史id映射数据中的一种或多种;
24、解析模块,用于解析各所述待评估的id映射关系包含的各项明细信息,并对各项所述明细信息进行赋值,各项明细信息包括:所述id映射关系的出现时间、来源、出现次数以及同一个用户id对应的映射对象的个数;
25、第一确定模块,用于利用预设置信度分数计算模型,对各项所述明细信息的赋值结果计算加权求和统计结果,将所述加权求和统计结果确定为对应的id映射关系的置信度;
26、第二确定模块,若所述置信度大于预设置信度统计分阈值,将所述大于预设置信度统计分阈值的待评估的id映射关系的评级属性确定为可用id映射关系。
27、结合第二方面,在第二种可能的实施例中,所述获取模块具体用于:
28、从所述展点数据、拼接数据、埋点数据、外部采集数据中的一个或多个数据源中,获取增量的待评估的id映射关系,并将所述增量的待评估的id映射关系存储至增量数据库中;
29、从所述历史id映射数据中,获取存量的待评估的id映射关系;
30、所述装置还包括:
31、存储管理模块,用于若所述待评估的id映射关系的评级属性为可用id映射关系,则将所述可用id映射关系存储至目标id映射关系数据库中。
32、结合第二方面,在第三种可能的实施例中,所述解析模块具体用于:
33、针对所述id映射关系的来源类型,对所述id映射关系的来源设置来源置信度分值,其中,所述拼接数据的置信度分值<所述展点数据的置信度分值<所述外部采集数据的置信度分值<所述埋点数据的置信度分值;
34、针对所述id映射关系的出现时间,对所述id映射关系的出现时间设置出现时间置信度分值,其中,所述id映射关系的出现时间越晚,所述出现时间置信度分值越高。
35、结合第二方面,在第四种可能的实施例中,所述解析模块具体用于:
36、针对所述id映射关系的出现次数,按照如下公式确定所述id映射关系的出现次数置信度分值:
37、f(n)=100*(n/(n+k))
38、其中,n为所述id映射关系的出现次数,k为第一常数修正因子。
39、结合第二方面,在第五种可能的实施例中,所述解析模块具体用于:
40、针对所述同一个用户id对应的映射对象个数,按照如下公式确定出所述同一个用户id对应的映射对象个数置信度分值:
41、g(m)=100*(1-m/(m+p))
42、其中,m为所述同一个用户id对应的映射对象的数量,p为第二常数修正因子。
43、第三方面,本技术提供了一种电子设备,所述电子设备包括:
44、处理器;以及存储程序的存储器,
45、其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据第一方面所述的id映射关系的置信度评估方法。
46、第四方面,本技术提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据第一方面所述的id映射关系的置信度评估方法。
47、本技术的有益效果:
48、本技术提供了一种id映射关系的置信度评估方法、装置以及电子设备,其中,该方法通过获取各条待评估的id映射关系,然后解析出各条待评估的id映射关系的各项明细信息,并对各项明细信息进行赋值,然后利用预设置信度分数计算模型,基于各项明细信息的赋值结果进行加权求和,得到加权求和统计结果即为对应的id映射关系的置信度,若该置信度大于预设置信度统计分阈值,则将大于预设置信度统计分阈值的待评估的id映射关系的评级属性确定为可用id映射关系。选用本技术实施例,通过获取对用户id映射关系的准确性产生影响的各项因素,然后基于该各项因素进行综合评估得到各条id映射关系的置信度,并将置信度大于预设置信度阈值的id映射关系的评级属性确定为可用id映射关系,如此可实现对获取的用户id映射关系进行价值评估,提升id映射关系的可用价值。