实现人员关系建模的方法
【技术领域】
[0001]本发明涉及海量数据计算领域,特别是一种实现人员关系建模的方法。
【背景技术】
[0002]在现今信息时代,随着科学技术的发展,以及智能设备的快速发展与普及,大数据已经快速延及到每个普通个人,即我们发现与人相关的数据在随着时间的增长也不断向着膨胀与庞大化的方向发展。
[0003]在现今反恐与刑侦日趋严峻的大背景下,公安领域如何通过有效的技术手段对此类人员的海量数据进行处理并提供快速的检索机制,来挖掘特定人员之间有效的关系成了行业研究的热点与难题。举例来说,在寻找犯罪嫌疑人的过程中,如果能够通过一个系统快速检索到与被害人接触过、有直接或者间接关系的人员,那么对于侦破案件具有显著意义;甚至在出于确保社会稳定与安全的目的下,也可以通过这样一个系统,对特定危险人员及与其有关系的人员进行关注,从而将危险事件的发生概率降低。
[0004]关系计算分析是关系数据应用的灵魂,它提供了一系列可配的计算模型,通过这些模型,用户可以将所需的关系数据汇总计算出最终的结果数据,并直接地进行数据存储以及关系的建立等。
【发明内容】
[0005]本发明所要解决的技术问题是提供一种能够实现快速检索关系人员的实现人员关系建模的方法。
[0006]本发明解决上述技术问题所采用的技术方案如下:
[0007]实现人员关系建模的方法,包括以下步骤:
[0008]S1.建立规则库,规则库内包括若干定义人员关系的关系规则;
[0009]S2.将原始数据进行数据清洗后与规则库内的关系规则进行匹配计算:
[0010]S21.对原始数据进行数据清洗,形成基础人员关系数据;
[0011]S22.利用自动匹配算法匹配人员数据进行关系规则计算;
[0012]S3.将匹配之后的数据存储在图形数据库中,以身份证号为第二索引,并建立图形索引;
[0013]S4.将路径证据类数据存储分布式数据库中,并建立第三索引;
[0014]S5.根据检索条件,对结果数据库进行检索:
[0015]S51.将检索条件与第二索引进行匹配,定位到目标人员;
[0016]S52.通过图形索引,遍历图形数据库,得到与目标人员有连接关系的所有路径;
[0017]S53.通过第三索引,在分布式数据库中对S52中得到的路径进行确认,保留在分布式数据库中存在证据的路径;
[0018]S6.以图形可视化方式显示出检索得到的关系结果;
[0019]关系规则包括亲属、同户口、同暂住、同航班、同上网、同监室、房东、同属、同住宿、同订票、同行、同房、违章处理、同案件、监管探视、打防控;亲属关系规则下证据为父亲、母亲、监护人、子女,同户口关系规则下证据为同一户号且入户时间有重叠,同暂住关系规则下证据为同一租赁屋下登记时间有重叠,同航班关系规则下证据为乘坐同一航班,同上网关系规则下证据为同一网吧且登记上网有重叠,同监室关系规则下证据为同一看守所、拘留所、收教所、安康医院数据中监所编号相同且入所日间有重叠,房东关系规则下证据为租客与房东关系,同属关系规则下证据为两人同时登记同手机号码或车辆,同住宿关系规则下证据为两人旅馆入住时间与离店时间为前后5分钟内,同订票关系规则下证据为两人同一铁路或民航的订票号,同行关系规则下证据为同一火车同一车厢人员,同房关系规则下证据为同一旅馆同一房间人员,违章处理关系规则下证据为为他人办理车辆违章扣分的事件,同案件关系规则下证据为两人同时作案,监管探视关系规则下证据为探视看守所、拘留所、收教所、安康医院等刑拘人员,打防控关系规则下证据为公安打防控人员关系。其优点在于,通过对关系规则的证据的确认,可以得到有效的路径,即得到与所需人员信息更符合,噪音更小的人员数据及更为快速的查询相关人员的关系信息。其优点在于,通过设定关系规则和证据,从而更好地从大数据中挖掘出所需要的人员关系信息。
[0020]本发明能够将海量的原始数据进行清洗汇聚,并利用自动匹配算法根据关系规则得到结果数据库,该结果数据库不仅删减了不符合规则的数据和无用的数据,降低了数据容量;另一方面通过图形遍历的方式,有效加快了数据检索速度。
[0021]作为优选,图形数据库和分布式数据库组成结果数据库,图形数据存储人员关系的节点与关系路径,分布式数据库内存放有关系规则匹配的证据。其优点在于,在图形数据库中进行数据检索,其遍历速度与构成图的数据量没有任何关系;在分布式数据库中对检索结果进行验证,从而既保证了检索速度又保证了检索准确性。
[0022]作为优选,S22包括如下过程:
[0023]S221.将关系规则分别拆分为对应所需的关系字段;
[0024]S222.将人员数据中的身份证号码作为第一索引,将与关系字段相同的人员数据中的元素分别匹配到该关系字段下。
[0025]其优点在于,当有新关系需要计算或生成时只要进行相应配置即可进行计算。
[0026]作为优选,S22中,若人员数据全部或部分为非结构化、半结构化数据,则进行如下过程:
[0027]S221.将关系规则分别拆分为对应所需的关系字段;
[0028]S222.将非结构化数据或者半结构化数据拆分为词;
[0029]S223.将人员数据中的身份证号码作为第一索引,将拆分后的关系规则分别与关系字段进行比对,将与关系字段相同的人员数据中的元素分别匹配到该关系字段下。
[0030]作为优选,S4中采用Neo4j集群技术与HBASE技术进行图遍历。其优点在于,具有较快的图形遍历速度。
[0031]本发明所述的路径指无回路有向图(DAG图)中两个节点之间具有连接关系,即在本发明的图形数据库中,两个节点之间具有连接关系。
[0032]本发明所述的元素指人员的信息,如身份证号码、年龄、性别、酒店入住信息等。
[0033]在本发明中,证据用于判断路径是否符合规则,如入住同一家酒店的两个人,在该酒店的住宿时间有重叠,则说明该路径是符合规则的,否则该路径不符合规则,即在分布式数据库中找不到该路径的证据,则应当去掉该路径。
[0034]本发明的原始数据主要来源于公安网内资源,并辅助有社会采集数据。
[0035]本发明同现有技术相比具有以下优点及效果:
[0036]1、由于本发明利用了Spark计算引擎,分布计算中的临时数据不需要进行磁盘缓存,并且通过事先的DAG图进行分布式任务优化,使得千万级的空间数据实时处理可在5分钟;模糊检索或数据分析都能达到秒级的响应。
[0037]2、由于本发明的数据主要以公安网内资源为主,并辅助有社会采集数据,所有数据均为真实有效的数据,适用于有关系人关联查询业务全警种需求,因此具有通过本发明得到的关系数据具有巨大的实际意义,无论是在侦查或安保方面均能够发挥重要作用。
[0038]3、由于本利用了分布式系统下的集群,能够在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益;同时其故障应急与负载平衡功能较单机而言具有强大的优势。
[0039]4、由于本发明通过定义关系规则和证据,并利用自动匹配算法,将庞大的原始数据(无论是结构化或者半结构化的数据)进行匹配,提取有效的数据到结构数据库中;同时本发明也能够支持离线检索,具有高效、方便、精准的特点。
【附图说明】
[0040]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]图1为本发明实施例1的流程示意图。
[0042]图2为本发明可视化结果示意图。
【具体实施方式】
[0043]下面结合实施例对本发明做进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
[0044]实施例1:
[0045]如图1、图2所示,本实施例包括如下步骤:
[0046]S1.定义规则库,规则库内包括若干定义人员关系的关系规则;
[0047]S2.将原始数据进行数据清洗后与规则库内的关系规则进行匹配计算;
[0048]S3.将匹配之后的数据存储在图形数据库中,以身份证号为第二索引,并建立图形索引;
[0049]S4.将路径证据类数据存储分布式数据库中,并建立第三索引;
[0050]S5.根据检索条件,对结果数据库进行检索;
[0051]S6.以图形可视化方式显示出检索得到的关系结果。
[0052]上述S1中,关系规则下包括若干证据,证据用于划定关系规则的范围。举例来说,关系规则包括亲属、同户口、同暂住、同航班、同上网、同监室、房东、同属、同住宿、同订票、同行、同房、违章处理、同案件、监管探视、打防控;亲属关系规则下证据为父亲、母亲、监护人、子女,同户口关系规则下证据为同一户号且入户时间有重叠,同暂住关系规则下证据为同一租赁屋下登记时间有重叠,同航班关系规则下证据为乘坐同一航班,同上网关系规则下证据为同一网吧且登记上网有重叠,同监室关系规则下证据为同一看守所、拘留所、收教所、安康医院数据中监所编号相同且入所日间有重叠,房东关系规则下证据为租客与房东关系,同属关系规则下证据为两人同时登记同手机号码或车辆,同住宿关系规则下证据为两人旅馆入住时间与离店时间为前后5分钟内,同订票关系规则下证据为两人同一铁路或民航的订票号,同行关系规则下证据为同一火车同一车厢人员,同房关系规则下证据为同一旅馆同一房间人员,违章处理关系规则下证据为为他人办理车辆违章扣分的事件,同案件关系规则下证据为两人同时作案,监管探视关系规则下证据为探视看守所、拘留所、收教所、安康医院等刑拘人员,打防控关系规则下证据为公安打防控人员关系。
[0053]上述S2包括如下步骤:
[0054]S21.对原始数据进行数据清洗,形成基础人员关系数据;
[0055]S22.利用自动匹配算法匹配人员数据进行关系规则计算。
[0056]在上述S2中,原始数据从分布式文件系统中导入,利用数据目录的方式,在后台通过自动匹配算法进行数据匹配。
[0057]上述S22包括如下步骤:
[0058]S221.将关系规则分别拆分为对应所需的关系字段;
[0059]S222.将人员数据中的身份证号码作为第一索引,将与关系字段相同的人员数据中