1.一种获取目标对象人物关系及关系亲密度的算法模型,其特征在于,包括:若干前端数据采集设备、服务器、磁盘阵列、大数据组件;其中前端采集设备主要用于辅助采集各类互联网app个人使用数据;服务器结合大数据组件对获取的数据进行清洗、入库和算法模型计算;磁盘阵列用于存储入库的各类app个人使用数据。
2.一种获取目标对象人物关系及关系亲密度的算法模型,其中包括基于关系人信息的关系人聚合算法,对于待聚类关系数据记录集,计算两两记录之间(无方向性)的关系人相似度,两条记录中相同字段值的相似性贡献值为相同字符占比(除特殊隐藏字符外有不相同的字符或值长度不相同则该字段相似性贡献值为0),得到两两记录之间的相似度之后依据相似度进行聚类,设定一个相似度阈值(如0.8),将相似度大于0.8的数据记录聚为一类(一个关系人),如果某条记录可归为两个不同的类(即该记录与这两个类中的某条记录的相似度都大于0.8),则选择相似度大的那一类,每一个类赋予一个唯一标识id,则该类中的每条记录就对应该类标识id。
3.一种获取目标对象人物关系及关系亲密度的算法模型,其中包括关系亲密度的算法模型,其特征在于,多维度考虑现实因素计算目标对象与其关系人的亲密度。
针对每一个关系人的关系数据集合,首先计算这个集合中每一条数据的权重,这里需要考虑的因素有关系发生时间与当前时间差以及该条数据的数据源权重。
对于关系发生时间,设置根据时间差的权重衰减,衰减因子facter=w/math.pow(c1,y),其中w默认为1,c1默认为1.08(可根据实际情况进行调整),y(大于等于0的整数)为关系发生时间与当前时间相差月数(向下取整)。
假设该条数据的数据源权重为sw,则该条数据的权重为swi=facter*sw,对该关系人的所有关系数据权重求和得
依照上述方法计算出所有关系人的si,则某个关系人亲密度基数如下:
si=si/(max(s1,s2,...sn)+1)。
考虑数据源个数的影响,某个关系人出现的数据源越多数据源权重越大,其亲密度则相对越大,反之数据源越单一其亲密度应该相对越小。
令数据源个数影响因子为fi=1-facterparameter/math.pow(c2,cwi-1),其中cwi为该关系人提取关系数据中数据源去重之后各数据源权重相加之和,facterparameter默认为0.9,c2默认为1.1,加入数据源个数影响之后,亲密度为ii=100*(si*(1-fi)+fi*max(si,fi)),其中放大100倍让亲密度取值范围在0-100范围内。
对于数据中能提取到关系类别的关系人,可以进一步提升亲密度,则其最终亲密度为:w1*ii+w2*100,其中w1默认为0.3,w2默认为0.7(权重根据实际情况进行调整)。