本发明涉及终端辅助采集设备领域,尤其涉及一种获取目标对象人物关系及关系亲密度的算法模型。
技术背景
人物关系对案件侦办提供重要的技术支持。本发明中采集的数据是互联网各类app的个人使用信息,人物关系可以提取其中的个人信息、联系人信息(关系人)、各类消费订单信息(给关系人下单)、通讯记录、寄递往来信息等,对这些社交足迹数据进行分析挖掘可以较准确的得到人物关系及关系亲密度。
计算关系人的亲密度需要多维度考虑设计计算模型,判断关系类别需要提取关系数据的特征,设定关系人类别特征规则并进行匹配。
针对关系人亲密度,考虑的维度主要有:
(1)关系数据发生时间与当前时间差。关系数据发生的时间越久远,则其在计算亲密度是权重越小。
(2)关系数据提取次数。关系数据提取次数越大,则其亲密度会越大。
(3)关系数据源个数。关系数据源越多,则其亲密度会越大。
(4)关系数据源权重。不同数据源的权重有所区别,比如记录名片的app中的联系人很多都是工作关系产生的,关系基本都不怎么亲密,这类数据源的权重就会低一些,而某些数据中存在紧急联系人,那该联系人基本就是比较亲密的关系人。
(5)关系数据中存在明确关系类别。对于能够提取明确关系类别的关系人其亲密度会被明显增大。
针对数据中未能提取到关系人类别的,通过相关数据特征对关系类别进行匹配判断,考虑的相关特征有:关系人亲密度、关系人标签(年龄、籍贯等)、关系行为类型(如订单类型)、关系发生时间(如订单消费时间)等。
技术实现要素:
为了实现上述目的,本申请提供的技术方案如下:
前端辅助数据采集设备配合相关数据获取程序完成数据的采集工作。
服务器及大数据组件对采集的数据进行清洗、入库和算法模型计算。
磁盘阵列用于存储入库的互联网各类app个人使用数据。
与现有技术相比,本发明主要具有如下有益效果:通过多源数据关系人信息聚合算法对同一个人的信息进行汇聚,通过多维度量化构造量化模型衡量关系亲密度,并依据数据特征判断可能的关系类别,能较准确的锁定关系人并提供相关辅助信息,为案件侦查提供重要支撑。
附图说明
图1为根据本发明的系统图;
图2为本发明的算法模型流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明的技术方案做详细描述。
本发明的技术方案主要由两部分组成:数据采集与数据预处理、算法模型,具体参见图1系统图。
数据采集是通过前端辅助设备和数据获取程序抓取目标手机号注册的各类app的个人使用数据。数据信息包括个人信息、联系人信息、出行信息、寄递信息、社交信息、其他消费订单信息等。数据流向:数据采集程序-->flume-->kafka-->elasticsearch。
数据采集之后针对人物关系分析需要对数据进行预处理。数据预处理以手机号为中心提取关系人及关系人其他标签;其次在没有手机号的情况下如果有身份证则以身份证为中心提取关系人及关系人其他标签;如果手机号和身份证都没有只有姓名则以姓名为中心提取关系人及关系人其他标签。一条原始数据中必须包含除对象本人之外的至少一个关系人才会被提取,有几个关系人则提取几条关系数据。提取所需的关系相关信息后统一数据结构(统一字段名,字段个数可以有差异,主要看原始数据中能提取哪些信息)方便后续计算模型处理。提取关系信息之后的数据结构示例如下:
{duixiangbenren:13512345678,shijian:1583033798,guanxileibie:配偶,guanxiren-shoujihao:13612345678,guanxiren-xingming:李四,...,app:taobao,shujuleixing:lianxiren,crc:65488566426}
以guanxiren-为前缀的字段为关系人的各类标签。还有标识提取数据的数据源标识字段(数据源标识用于设置不同的数据源权重,应用于亲密度计算模型),如由什么app的哪类数据提取而来。此外对数据全字段拼接求crc值(相当于该条数据的“身份证号”)进行去重处理,防止从原始数据重复提取影响模型计算的准确度。将提取的关系数据存入elasticsearch中作为模型计算的数据源。
该发明的重点在算法模型,下面结合图2介绍详细算法模型流程。
(1)对于某个指定目标对象,在elasticsearch中查询该目标对象(duixiangbenren)的所有关系人信息,保留guanxiren-为前缀的字段和crc字段。因为提取的关系数据中会存在数据字段个数不同以及相同字段值不同数据源存在的形态不同(如手机号有些是完整的,有些是隐藏其中几位),简单的依据某个字段进行关系人聚合会不准确,因此需要一个关系人聚合算法对关系数据进行关系人聚类,并给每一条关系数据(crc)赋予一个关系人id。
关系人聚合算法设计如下:
1)对于上文中的guanxiren-为前缀的字段和crc字段的记录集合c,两层循环遍历c,计算两两记录之间(无方向性)的关系人相似度,计算相似度只需要用到guanxiren-为前缀的字段,对于记录a和记录b的相似度计算原则有:
a、如果a和b中有相同字段的值完全相同,出现一个相同则a和b的相似度+1,有n个字段值完全相同则整个相似度为n。
b、如果a和b中有相同字段的值部分相同。如a中有手机号13512345678,b中有手机号135*****678,则该字段对相似度的贡献值为6/11,即除去*号之后对应位相同的数字个数据与手机号完整数字个数的占比,如果有其中一位不相同或者数值的长度不相同则该字段的贡献值为0,其他字段(如身份证、姓名、qq号...)参照手机号处理,还可根据不同字段值的特点进行差异调整,最终相似度为各字段贡献度之和。
c、如果a和b中没有相同字段,或者有相同字段,但是对应相同字段值都不相同,则a和b得相似度为0。
2)得到两两记录之间的相似度之后依据相似度进行聚类,设定一个相似度阈值(如0.8),则将相似度大于0.8的数据记录聚为一类(一个关系人),如果某条记录可归为两个不同的类(即该记录与这两个类中的某条记录的相似度都大于0.8),则选择相似度大的那一类。实际操作中可以多次调整相似度阈值进行聚类,找出合适的聚类结果对应的相似度阈值。
3)给上一步中的聚类结果,每一个类赋予一个唯一标识id,则该类中的每条记录的crc值就对应该id,并crc与id的对应关系入库待下一步使用。
(2)将(1)中的crc字段替换为关系人聚类之后得到的关系人id,然后对关系人id字段进行所有关系数据的分组统计,得到每一个关系人的关系数据集合。
(3)针对每一个关系人的关系数据集合,首先计算这个集合中每一条数据的权重,这里需要考虑的因素有关系发生时间与当前时间差以及该条数据的数据源权重。
对于关系发生时间,设置根据时间差的权重衰减,衰减因子facter=w/math.pow(c1,y),其中w默认为1,c1默认为1.08(可根据实际情况进行调整),y(大于等于0的整数)为关系发生时间与当前时间相差月数(向下取整)。
假设该条数据的数据源权重为sw,则该条数据的权重为swi=facter*sw,对该关系人的所有关系数据权重求和得
依照上述方法计算出所有关系人的si,则某个关系人亲密度基数如下:
si=si/(max(s1,s2,...sn)+1)。
(4)考虑数据源个数的影响,某个关系人出现的数据源越多数据源权重越大,其亲密度则相对越大,反之数据源越单一其亲密度应该相对越小。
令数据源个数影响因子为fi=1-facterparameter/math.pow(c2,cwi-1),其中cwi为该关系人提取关系数据中数据源去重之后各数据源权重相加之和,facterparameter默认为0.9,c2默认为1.1,加入数据源个数影响之后,亲密度为ii=100*(si*(1-fi)+fi*max(si,fi)),其中放大100倍让亲密度取值范围在0-100范围内。
(5)对于数据中能提取到关系类别(一般为家庭关系)的关系人,可以进一步提升亲密度,则其最终亲密度为:w1*ii+w2*100,其中w1默认为0.3,w2默认为0.7(权重根据实际情况进行调整)。如果想对已提取的关系类别进行不同权重区分,可以相应调整其权重分值(如公式中的100,对非亲密关系的可以减小)。
(6)对于数据中没有提取到关系类别的关系人,需要提取该关系人的数据特征,通过基于规则匹配的分类算法判断其属于什么关系类别。
可提取的数据特征有:关系人标签(姓名、年龄、籍贯...)、关系行为类型(订单类型)、关系发生时间(如订单消费时间)等。
结合提取的目标对象本人的信息和关系人的信息进行匹配判断。比如:关系人与对象本人年龄相仿、籍贯不同(非绝对)、姓氏不同(非绝对)、订单多为火车票机票酒店、订单消费时间基本都是在工作时间、通联主要在工作日,且数据权重超过阈值,则很可能是同事关系;关系人与对象本人年龄相差一代(如20-30)、籍贯相同、订单多为旅行出游相关,订单消费时间多为节假日,且数据权重超过阈值,则很可能是亲属关系;关系人与对象本人年龄相仿、通联主要在周末、社交元素关联较多(聚餐、ktv、棋牌等娱乐项目),且数据权重超过阈值,则很可能是朋友关系;不能判别的关系类别为其他关系。
以上所述,仅为本申请实施例的具体实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。因此,本申请实施例的保护范围应以所述权利要求的保护范围为准。