一种身份匹配方法和装置与流程

文档序号:22324295发布日期:2020-09-25 17:51阅读:90来源:国知局
一种身份匹配方法和装置与流程

本文涉及信息处理技术,尤指一种身份匹配方法和装置。



背景技术:

公安部门为了便于更加有效的进行相关侦查工作,需要对嫌疑人的手机号码进行跟踪。如果嫌疑人的手机号码废弃、手机号码变更,就会导致目前所有的跟踪线索中断,难以继续进行调查。

目前基本都是通过对警务人员的工作经验进行总结,将这些经验凝练成程序语言的规则,通过这些规则来进行筛选。

这一技术方法严重依赖于人工的经验,通过精炼成的规则组成筛选模型计算效率较为低下,费时费力,而且效果较差。规则模型筛选出来的结果往往很多,还需要大量人工进一步去筛选。同时不同的规则之间还可能有冲突,对编程实现带来困难。



技术实现要素:

本申请实施例提供了一种身份匹配方法和装置,能够不依赖人工经验,自动挖掘相关人员的真实身份,降低人力成本,为案件侦破带来方便,并提高案件侦破效率和挖掘准确性。

本申请实施例提供了一种身份匹配方法,所述方法可以包括:

获取与目标人物相关的社交网络数据,并根据所述社交网络数据制作通联关系图谱;所述通联关系图谱用于表征预设时长内多个联系方式之间的联系信息;所述多个联系方式包括所述目标人物的第一联系方式以及与所述目标人物相关的一个或多个第二联系方式;

根据所述通联关系图谱获取一个或多个联系方式序列;并由所述一个或多个联系方式序列组成联系方式序列集;所述联系方式序列用于表征任意多个联系方式之间的通讯链;

以所述联系方式序列集为训练数据集对预设模型进行训练,获取每个联系方式的向量;

对获取的多个联系方式的向量进行相关性计算,并根据计算结果获取与所述目标人物相匹配的第二联系方式。

本申请实施例还提供了一种身份匹配装置,可以包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任意一项所述的身份匹配方法。

与相关技术相比,本申请实施例包括获取与目标人物相关的社交网络数据,并根据所述社交网络数据制作通联关系图谱;所述通联关系图谱用于表征预设时长内多个联系方式之间的联系信息;所述多个联系方式包括所述目标人物的第一联系方式以及与所述目标人物相关的一个或多个第二联系方式;根据所述通联关系图谱获取一个或多个联系方式序列;并由所述一个或多个联系方式序列组成联系方式序列集;所述联系方式序列用于表征任意多个联系方式之间的通讯链;以所述联系方式序列集为训练数据集对预设模型进行训练,获取每个联系方式的向量;对获取的多个联系方式的向量进行相关性计算,并根据计算结果获取与所述目标人物相匹配的第二联系方式。通过该实施例方案,实现了不依赖人工经验,自动、快速地挖掘相关人员的真实身份,降低了人力成本,为案件侦破带来方便,并提高了案件侦破效率和挖掘准确性。

本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。

图1为本申请实施例的身份匹配方法流程图;

图2为本申请实施例的通联关系图谱示意图;

图3为本申请实施例的根据通联关系图谱获取一个或多个联系方式序列的方法流程图;

图4为本申请实施例的当前节点v的上一个节点t和下一节点的备选节点xj之间的位置关系示意图;

图5为本申请实施例的身份匹配装置组成框图。

具体实施方式

本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。

此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。

本申请实施例提供了一种身份匹配方法,如图1所示,所述方法可以包括s101-s104:

s101、获取与目标人物相关的社交网络数据,并根据所述社交网络数据制作通联关系图谱;所述通联关系图谱用于表征预设时长内多个联系方式之间的联系信息;所述多个联系方式包括所述目标人物的第一联系方式以及与所述目标人物相关的一个或多个第二联系方式。

在本申请的示例性实施例中,在一些具体的身份判定场景下,公安部门需要通过数据挖掘的方式发现嫌疑用户的手机号码变更行为,因此本申请实施例提出了一种基于网络表示的身份匹配方法,通过网络表示、学习,利用向量相似性挖掘出联系方式(如手机号码、微信、邮件等)变更之后的相关联系方式和身份。

在本申请的示例性实施例中,可以预先收集海量的目标人物(如犯罪嫌疑人等)的社交网络数据。所述社交网络数据可以包括但不限于:联系人(可以包括直接联系人,间接联系人等)、联系人的联系方式(如手机号码、微信、qq、邮件等)以及所述联系方式之间的联系信息。该联系信息可以包括但不限于:在预设时长(例如,一年、半年、几个月等)内的联系次数、联系频次、联系内容、联系时间等。下述内容可以以手机号码和联系次数为例进行说明。

在本申请的示例性实施例中,第二联系方式可以包括以下一种或多种:与所述目标人物直接或间接联系的联系人的联系方式、目标人物变更后的联系方式以及目标人物隐藏使用的联系方式。

在本申请的示例性实施例中,基于海量的社交网络数据,可以构建通联关系图谱。所述通联关系图谱可以包括:多个联系方式以及任意两个联系方式的联系信息;其中,所述多个联系方式按照预设顺序排列后分别罗列于所述通联关系图谱的第一行和第一列;所述通联关系图谱中第一行的任意一个联系方式和第一列的任意一个联系方式对应的交叉位置为两个联系方式的联系信息。

在本申请的示例性实施例中,如图2所示,例如,可以根据收集的社交网络数据获取目标人物(如嫌疑人)的电话号码a与目标人物相关的一个或多个联系人的手机号码,如:电话号码b、c、d、e、f、g等。该电话号码可以为目标人物的已知号码(如公安人员已经掌握的电话号码),可以从电话号码b、c、d、e、f、g中筛选出是否存在目标人物变更后的电话号码,或隐藏使用的第二个、第三个电话号码等。

在本申请的示例性实施例中,电话号码a、b、c、d、e、f、g和a、b、c、d、e、f、g之间的联系次数可以组成一个图2所示的邻接矩阵。a、b、c、d、e、f、g可以依次列于第一行和第一列,第一列的a、b、c、d、e、f、g中任意一个电话号码的对应行与第一行的a、b、c、d、e、f、g中任意一个电话号码的对应列相交的位置为两个电话号码的联系次数(在预设时长内的联系总次数),如图2中的0、1,图2中未显示的其他位置还可以是4、6、9等数字,具体数值根据具体联系次数确定。

在本申请的示例性实施例中,该联系次数可以用于作为计算后续方案的节点选取概率中联系权重wvx的依据。

s102、根据所述通联关系图谱获取一个或多个联系方式序列;并由所述一个或多个联系方式序列组成联系方式序列集;所述联系方式序列用于表征任意多个联系方式之间的通讯链。

在本申请的示例性实施例中,基于上述构建好的邻接矩阵可以获取一个或多个联系方式序列,将矩阵形式数据转换为序列形式数据可以便于后续方案中对预设模型进行训练。

在本申请的示例性实施例中,如图3所示,所述联系信息为联系次数时;所述根据所述通联关系图谱获取一个或多个联系方式序列可以包括s201-s204:

s201、根据所述通联关系图谱中任意两个联系方式之间的联系次数确定任意两个联系方式之间的联系权重wvx。

在本申请的示例性实施例中,联系次数越大,对应的联系权重wvx越大,随联系次数越小,对应的联系权重wvx越小。在具体实施时,可以预先设置一个基准联系次数和与该基准联系次数对应的基准联系权重,并设置联系次数每增加或减小一次,联系权重wvx的变化幅度。依据以上设置,对于图2中的每一个联系次数,可以分别与该基准联系次数相比较,根据每一个联系次数与该基准联系次数的差值,直接在基准联系权重变化相应的权重。例如,如果基准联系次数为1,对应的基准联系权重为5,联系权重wvx的变化幅度为5,则,当联系次数为3时,相对于基准联系次数增加了2,则联系次数3对应的联系权重wvx可以在基准联系权重5的基础上增加5×2=10,即联系次数3对应的联系权重wvx为15。

s202、从所述通联关系图谱的多个联系方式中分别获取每一个联系方式作为起始计算节点。

在本申请的示例性实施例中,为了避免采样的联系方式序列遗漏,可以分别以前述的a、b、c、d、e、f、g作为起始计算节点,采样一次或多次联系方式序列。需要说明的是,该起始计算节点不是指每个联系方式序列中的起始节点,而是指从该起始计算节点开始计算,找出联系方式序列中的其他节点。例如,对于前述的联系方式序列a、b、e、g、d,在采样该联系方式序列时,可以是以a、b、e、g、d中的任意一个节点作为起始计算节点获取该联系方式序列(例如,以g为起始计算节点开始计算,选出a、b、e、d等其他节点,从而得到该联系方式序列),然而该联系方式序列本身的起始节点为a。

s203、采用随机游走的算法,根据所述起始计算节点和与所述联系权重wvx相关的预设算法计算出包括所述起始计算节点在内的一条或多条通讯链中的其他节点。

在本申请的示例性实施例中,所述通讯链中的任意一个节点为该节点的上一个节点的被联系方;通讯链中包括n个节点;n为小于预设序列长度阈值max_seq的自然数;

所述根据所述起始计算节点和与所述联系权重wvx相关的预设算法计算出包括所述起始计算节点在内的一条或多条通讯链中的其他节点可以包括:

41、将所述起始计算节点作为当前节点v;并初始化n=1,当前获取的节点总数m=1;

42、获取所述当前节点v对应的联系方式的全部被联系方,作为所述当前节点v的下一节点x的备选节点xj;j为自然数,j=1、2、3……;

43、根据第一预设算法计算所述备选节点xj中每一个节点的选取概率,所述选取概率用于表征每一个备选节点xj在当次节点选取中的被选中概率;

44、基于计算出的每一个节点的选取概率从所述备选节点xj中选择一个节点作为所述当前节点v的下一节点x;

45、以所述当前节点v的下一节点x作为当前节点v,返回步骤42,m=m+1;

46、当m=n时,n=n+1;返回步骤41。

在本申请的示例性实施例中,可以事先定义联系方式序列长度的最大值max_seq,则生成的每一个联系方式序列的长度不得超过max_seq。

在本申请的示例性实施例中,任意多个联系方式构成的通讯链可以构成一个联系方式序列,例如,电话号码a联系了b,b联系了e,e联系了g,g联系了d,则a、b、e、g、d可以构成一个通讯链,可以作为一个联系方式序列,a、b、e、g、d可以分别作为联系方式序列中的一个节点。

在本申请的示例性实施例中,联系方式序列的长度可以是指一个序列(即一个通讯链)中所包含的节点总数。例如,a、b、e、g、d组成的联系方式序列的长度为5。

在本申请的示例性实施例中,一个联系方式序列中所包含的节点可以完全不同,也可以存在重复节点,当所包含的节点可以完全不同时,联系方式序列长度的最大值max_seq即为所建立的通联关系图谱中的包含的联系方式总数y(例如,图2中联系方式总数为7,则y=7),当包含重复节点时,则联系方式序列长度可以是无限长的,因此,此时在定义联系方式序列长度的最大值max_seq时,可以根据具体需求进行定义,在此不再进行具体限定。

在本申请的示例性实施例中,以一个起始计算节点开始计算一条或多条通讯链时,可以获取不同长度的多种通讯链,而且每种长度的通讯链可以包括多个,例如,以图2中的联系方式a、b、c、d、e、f、g为例,共有7种节点,则当以b为起始计算节点时,可以包含2、3、4、5、6、7等六种长度的通讯链,而且每种长度的通讯链,通过排列组合还可以获得多种类型的连接方式,例如,对于长度为3的通讯链,可以包括但不限于:(a、b、c)、(b、c、d)、(b、e、f)等多个通讯链。因此,对于长度为n的通讯链,可以根据上述的步骤41-步骤46的方案获取包含起始计算节点在内的全部通讯链;需要说明的是,这里n可以为2至y的任何一个数值,即,可以为2至y的任何一种长度,对于每一种长度,均执行一遍步骤41-步骤46的方案。

在本申请的示例性实施例中,针对每一个起始计算节点,根据上述方案获取多个包含起始计算节点的多个通讯链后,必然会存在多个重复通讯链,为了避免计算冗余,可以这对该起始计算节点对应的多个通讯链进行去重操作。

在本申请的示例性实施例中,所述第一预设算法可以包括:

其中,p(si|si-1)是指选取si-1节点的下一节点si-1时,下一节点si-1的备选节点中每一个节点的选取概率;si-1为当前节点;si为当前节点v的下一节点x;i为自然数,i=1、2、3……;πvx表示当前节点v和下一节点x之间没有归一化的转移概率;z表示概率归一化常数;πvx=αpq(t,xj)·wvx;t为联系方式随机游走时当前节点v的上一个节点;αpq(t,xj)为上一个节点t通过最短路径到达每一个备选节点xj的概率;e即edge(边),意味着图中(如图4中)的边(即可走路径),(v,x)∈e表示(v,x)属于图中的一条边(属于一条可走路径),这个边是存在的,如果不存在则为otherwise,对应概率值为0。(t,v)表示联系方式序列随机游走的上一个节点是t,通过边(t,v)从t节点到达v节点。

在本申请的示例性实施例中,

其中,表示上一个节点t和备选节点xj之间的最短路径的距离;p和q的初始定义的超参数。

在本申请的示例性实施例中,对于第一预设算法计算出的选取概率p(si=x|si-1=v),可以进行以下理解:如图4所示,当前节点v的下一节点包括x1、x2、x3这三个备选节点,从三个备选节点中选择下一节点时,假如x1、x2、x3的选取概率分别为1/6、1/3、1/2,则x1、x2、x3放到一起基于这些选取概率被选择,将选出的一个节点作为当前节点v的下一个节点,相当于现在有1个x1,2个x2,3个x3(分别对应选取概率1/6、1/3、1/2)放到一起被选择。

在本申请的示例性实施例中,上一个节点t和x1、x2、x3的距离是指以t为起点,分别对应的图4中的能够到达x1、x2、x3的黑线(可以称为边)的数量。例如,从t到x1时可以为t直接到达x1,只需经过一条边,可以认为该条路线距离为1;从t到x1时还可以为首先从t到达v,再由v到达x1,则需经过两条边,可以认为该条路线距离为2;因此,从t到x1的最短距离为1。又例如,从t到x3时可以为首先从t到达v,再由v到达x3,则需经过两条边,可以认为该条路线距离为2;从t到x3时还可以为首先从t到达x1,再从x1到达v,再由v到达x3,则需经过三条边,可以认为该条路线距离为3,由于没有直接从t到达x3的边,因此,从t到x3的最短距离为2。

s204、由所述起始计算节点和每次计算获得的所述其他节点按照联系顺序排列构成一条通讯链,并依次通过多次计算获取包括所述起始计算节点在内的多条通讯链;其中,每一个通讯链作为一个联系方式序列。

在本申请的示例性实施例中,通过上述步骤获取一条通讯链的全部节点后,便可以按照节点顺序进行排列,获取该通讯链,从而获取一个联系方式序列。

在本申请的示例性实施例中,所述方法还可以包括:在获取包括所述起始计算节点在内的多条通讯链后,进行去重操作,以将所述多条通讯链中的重复通讯链去除,获得一条或多条不同的联系方式序列,并由所述一条或多条不同的联系方式序列构成所述联系方式序列集。

在本申请的示例性实施例中,当将通联关系图谱中的全部联系方式均作为起始计算节点获取相应的联系方式序列后,所获得的全部联系方式序列中必然存在重复序列,为了避免计算冗余,可以对获得的全部联系方式序列进行去重操作。

s103、以所述联系方式序列集为训练数据集对预设模型进行训练,获取每个联系方式的向量。

在本申请的示例性实施例中,通过前述方案获取联系方式序列集后,可以将该联系方式序列集作为训练数据,以获取每个联系方式的向量。

在本申请的示例性实施例中,在联系方式序列集中的每一个联系方式序列中,每个联系方式(手机号码)都表示一个节点,对应序列中的一个位置。可以将每个联系方式映射成为一个向量vi,其中vi=[a1,a2,...,ad],ai表示具体的浮点数值,d表示向量的维度;向量初始值可以通过随机初始化获得。

在本申请的示例性实施例中,所述以所述联系方式序列集为训练数据集对预设模型进行训练,获取每个联系方式的向量可以包括:

采用所述联系方式序列集对基于神经网络算法的word2vec算法中的skip-gram模型进行训练,获取所述联系方式序列集中每一个联系方式对应的向量。

在本申请的示例性实施例中,为从联系方式序列集中的每一个联系方式序列中抽取出每一个联系方式的向量,可以通过训练数据(即联系方式序列集)对基于神经网络算法的word2vec算法中的skip-gram模型进行训练。通过神经网络中的梯度方向传播训练,最终可以获得训练好的节点向量节点向量可以包含丰富的联系方式进行通联的相关信息,通过上述训练,不仅可以学习到与联系人的相关程度,同时还包含了丰富的通联网络结构信息(即交际网络结构信息)。

s104、对获取的多个联系方式的向量进行相关性计算,并根据计算结果获取与所述目标人物相匹配的第二联系方式。

在本申请的示例性实施例中,所述多个联系方式的向量可以包括:第一联系方式的向量和多个第二联系方式的向量;

所述对获取的多个联系方式的向量进行相关性计算,并根据计算结果获取与所述目标人物相匹配的第二联系方式可以包括:

根据预设的余弦相似度计算式计算所述第一联系方式的向量与每一个第二联系方式的向量的相关性;

获取与所述第一联系方式的向量相关度大于或等于预设的相关度阈值的第二联系方式的向量;

将所述相关度大于或等于预设的相关度阈值的第二联系方式的向量对应的第二联系方式作为与所述第一联系方式最相关的第二联系方式;并相应确定与所述第一联系方式最相关的第二联系方式与所述目标人物相匹配。

在本申请的示例性实施例中,该相关度阈值可以根据需求自行定义,在此不做具体限定。

在本申请的示例性实施例中,还可以获取与所述第一联系方式的向量相关度最高的第二联系方式的向量;将所述相关度最高的第二联系方式的向量对应的第二联系方式作为与所述第一联系方式最相关的第二联系方式。

在本申请的示例性实施例中,所述预设的余弦相似度计算式可以包括:

其中,表示所述第一联系方式的向量,表示任意一个第二联系方式的向量。

在本申请的示例性实施例中,最后对目标人物的第一联系方式通过相关性的度量方式获取与之最为相近的第二联系方式,从而继续进行后续的身份判定。例如,可以确定该最为相近的第二联系方式是否为目标人物更换后的联系方式,或隐藏使用的联系方式。

在本申请的示例性实施例中,本申请实施例方案针对公安场景中嫌疑人号码变更行为,可以利用嫌疑人的社交网络数据自动挖掘相关人员的真实身份,有助于案情的侦破。此算法计算高效,不依赖与人工经验。可以直接有效的给出结果,降低了有限的人力成本。

本申请实施例还提供了一种身份匹配装置1,如图5所示,可以包括处理器11和计算机可读存储介质12,所述计算机可读存储介质12中存储有指令,当所述指令被所述处理器11执行时,实现上述任意一项所述的身份匹配方法。

在本申请的示例性实施例中,上述的身份匹配方法实施例中的任意实施例均适用于该装置实施例中,在此不再一一赘述。

本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1