一种多网络中相同人名的身份识别方法及装置制造方法

文档序号:6636875阅读:192来源:国知局
一种多网络中相同人名的身份识别方法及装置制造方法
【专利摘要】本发明公开了一种多网络中相同人名的身份识别方法和装置,包括:获取多个网络中的用户身份信息以及用户身份对应关系,将已知用户身份对应关系的用户身份信息集合作为训练集,根据训练集中的用户身份信息构建基于用户行为相似度的能量最低模型,获取能量因子和匹配关系分类器;根据匹配关系分类器将任意两个用户身份信息进行匹配,求解此能量矩阵得到单次预测的匹配结果;对多次求解的匹配结果进行集成,得到用户身份对应关系。本发明的方法及装置,能够将多个网络中具有不同身份信息但名字相同的信息进行同一性确认,能够提高统计结果的准确性,采用的算法高效,计算过程较快,随着样本库的增加,计算结果准确率也会不断提高。
【专利说明】-种多网络中相同人名的身份识别方法及装置

【技术领域】
[0001] 本发明涉及信息处理【技术领域】,特别是指一种多网络中相同人名的身份识别方法 及装置。

【背景技术】
[0002] -般情况下,同一个用户在不同网络中注册有不同的身份信息,例如,电子邮箱、 电话等等信息。例如,在在科学研究领域,往往会有大量科技工作者同时在多个科研团队中 协同工作,由此导致在发表学术成果时同一个人所使用的个人信息,如电子信箱、单位、地 址等,可能并不相同,即相同人名具有不同身份信息。在对领域内相关学术成果信息进行汇 总时,由于难以判断这些相同的人名是否为同一个人,这样的冗余信息会直接影响统计结 果的准确性。例如,科技工作者在不同的团队中工作,同一个科技工作者的个人信息可能在 多个网络中出现,例如,某大学的网站、论文网、技术成果转让网、专利交易网等等,而此科 技工作者在多个网络中的个人信息不一定完全相同。
[0003] 传统的社会网络分析方法通常仅考虑用户在单一网络(如在某高校任职)中的行 为特征,忽略了用户可能会处于多个网络中的关联情况,例如一个用户可以同时活跃于高 校、国企科研机构和社会性研究机构中,并且在每个社会网络中拥有不同的身份、人际圈子 和研究内容,针对单一网络的行为分析方法无法应用于这种多层网络环境。在多个网络中, 各网络中的节点可能具有截然不同的属性,并且网络与网络的节点之间存在相互依赖和协 作等关联关系,因此,需要一种多网络中对同名个体的同一性认定的方法。


【发明内容】

[0004] 有鉴于此,本发明的目的在于提出一种多网络中相同人名的身份识别方法及装 置,能够将多个网络中具有不同身份信息但名字相同的信息进行同一性确定。
[0005] 基于上述目的本发明提供一种多网络中相同人名的身份识别方法,包括:获取多 个网络中的用户身份信息以及用户身份对应关系;将已知用户身份对应关系的用户身份信 息集合作为训练集;根据所述训练集中的所述用户身份信息构建基于用户行为相似度的能 量最低模型,获取能量因子和匹配关系分类器;根据所述匹配关系分类器将任意两个用户 身份信息进行匹配,并采用能量因子进行能量填充形成能量矩阵,求解此能量矩阵得到单 次预测的匹配结果;对多次求解的匹配结果进行集成,得到用户身份对应关系并确定具有 相同人名用户的身份同一'丨生。
[0006] 根据本发明的一个实施例,进一步的,所述将已知用户身份对应关系的所述用户 身份信息的集合作为训练集、根据所述训练集中的所述用户身份信息构建基于用户行为 相似度的能量最低模型、获取能量因子和匹配关系分类器包括:对于2个网络P、Q中任意 给定的节点V(i),其网络拓扑结构特征向量为:f(i) = {f\,f2,…fd},其中,节点代表用 户身份信息,为节点基本属性特征,包括:节点出度、入度、聚类系数、邻居节点、平均 度、共同邻居;建立节点对特征向量向量,对于2个网络P、Q的节点对特征向量向量为: ?=冲;_, (,) J y/)) = !/,,(1),(2),…,乂 量向量对匹配节点对进行聚类,获得各聚类类别C中所包含的具有相似特征节点的个数, 将其作为粒子特征,节点对特征的分布情况作为能量因子,将具有相似网络行为特征的用 k 户赋予等值的能量因子;构建匹配节点对能量模型:其中,I为相似特征 Z=I . 的匹配节点对集合依据特征进行聚类后的节点对个数,ε i为该类别对应的能量因子;根据 所述能量模型获取每个聚类类别所对应的能量因子:ε = { ε ε 2, . . .,ε k},并将其作为 预测过程中节点对所属类别的能量因子;根据聚类类别结果建立K分类器,并赋予每个节 点对类别编号。
[0007] 根据本发明的一个实施例,进一步的,所述根据所述匹配关系分类器将任意两个 用户身份信息进行匹配、并采用能量因子进行能量填充形成能量矩阵、求解此能量矩阵得 到单次预测的匹配结果包括:对网络P、Q中未知身份对应关系的节点分别提取其拓扑结构 特征:F P(i) = {fP(l),fP(2),· · ·,fP(m)}和?(3(;〇 = {fQ(l),fQ(2),· · ·,fQ(m)};对于任意未 知身份对应关系的节点i e P,j e Q,构建nXn个所有未知节点的匹配节点对特征向量: 巧吨=y,xrr(/)j丨乂/+)) = (乂,⑴,义⑵,…,似〃 X石⑴ 点对特征向量进行分类,得到每个节点对类别标签,构建节点对类别矩阵;对类别矩阵进行 能量因子填充,将类别矩阵中类别标签替换为该类别所对应的能量因子ε ,构建能 量矩阵;计算能量矩阵的最佳匹配。
[0008] 根据本发明的一个实施例,进一步的,计算该能量矩阵的最佳匹配的算法为:

【权利要求】
1. 一种多网络中相同人名的身份识别方法,其特征在于,包括: 获取多个网络中的用户身份信息以及用户身份对应关系; 将已知用户身份对应关系的用户身份信息集合作为训练集; 根据所述训练集中的所述用户身份信息构建基于用户行为相似度的能量最低模型,获 取能量因子和匹配关系分类器; 根据所述匹配关系分类器将任意两个用户身份信息进行匹配,并采用能量因子进行能 量填充形成能量矩阵,求解此能量矩阵得到单次预测的匹配结果; 对多次求解的匹配结果进行集成,得到用户身份对应关系并确定具有相同人名用户的 身份同一'I"生。
2. 如权利要求1所述的方法,其特征在于,所述将已知用户身份对应关系的所述用户 身份信息的集合作为训练集、根据所述训练集中的所述用户身份信息构建基于用户行为相 似度的能量最低模型、获取能量因子和匹配关系分类器包括: 对于2个网络P、Q中任意给定的节点V(i),其网络拓扑结构特征向量为:f(i)= {f\,f2,…fd},其中,节点代表用户身份信息,为节点基本属性特征,包括:节点出度、入 度、聚类系数、邻居节点、平均度、共同邻居; 建立节点对特征向量向量,对于2个网络P、Q的节点对特征向量向量为:
根据该节点对特征向量向量对匹配节点对进行聚类,获得各聚类类别C中所包含的具 有相似特征节点的个数,将其作为粒子特征,节点对特征的分布情况作为能量因子,将具有 相似网络行为特征的用户赋予等值的能量因子; k 构建匹配节点对能量模型:其中,1为相似特征的匹配节点对集合 i=\ . 依据特征进行聚类后的节点对个数,εi为该类别对应的能量因子; 根据所述能量模型获取每个聚类类别所对应的能量因子:ε= {εε2, . ..,εk},并 将其作为预测过程中节点对所属类别的能量因子; 根据聚类类别结果建立K分类器,并赋予每个节点对类别编号。
3. 如权利要求1所述的方法,其特征在于,所述根据所述匹配关系分类器将任意两个 用户身份信息进行匹配、并采用能量因子进行能量填充形成能量矩阵、求解此能量矩阵得 到单次预测的匹配结果包括: 对网络P、Q中未知身份对应关系的节点分别提取其拓扑结构特征:Fp⑴={fP(l),fP(2),· ··,fP(m)}和卩々)={4(1),4(2),...,4(111)}; 对于任意未知身份对应关系的节点ieP,jeQ,构建nXn个所有未知节点的匹配节 点对特征向量:
通过K分类器对匹配节点对特征向量进行分类,得到每个节点对类别标签,构建节点 对类别矩阵; 对类别矩阵进行能量因子填充,将类别矩阵中类别标签替换为该类别所对应的能量因 子= ,构建能量矩阵; 计算能量矩阵的最佳匹配。
4. 如权利要求3所述的方法,其特征在于, 计算该能量矩阵的最佳匹配的算法为:
其中,Aij表示网络P中的节点i与网络G中的节点j是否存在--对应关系,若i0j的对应关系被确立则标记为1,否则标记为〇,匹配结果表述为心〇+) 〇G(./+)。
5. 如权利要求3或4所述的方法,其特征在于,所述对多次求解的匹配结果进行集成, 得到用户身份信息的对应关系并确定具有相同人名的身份同一性包括: 得到ξ个预测结果,将每次预测结果在节点对匹配矩阵中进行投票,得到投票矩阵V-Matrix= (Vij); 求解该投票矩阵V-Matrix的最优匹配问题,采用的算法为:
其中,k表示表示投票矩阵中第i行第j列的投票结果,λυ表示网络P中的节点i与网络G中的节点j是否存在一一对应关系,即表示节点对的最终匹配结果。
6. -种多网络中相同人名的身份识别装置,其特征在于,包括: 信息获取单元,用于获取多个网络中的用户身份信息以及用户身份对应关系; 训练集生成单元,用于将已知用户身份对应关系的用户身份信息集合作为训练集;根 据所述训练集中的所述用户身份信息构建基于用户行为相似度的能量最低模型,获取能量 因子和匹配关系分类器; 匹配单元,用于根据所述匹配关系分类器将任意两个用户身份信息进行匹配,并采用 能量因子进行能量填充形成能量矩阵,求解此能量矩阵得到单次预测的匹配结果; 集成单元,用于对多次求解的匹配结果进行集成,得到用户身份对应关系并确定具有 相同人名用户的身份同一性。
7. 如权利要求6所述的装置,其特征在于: 所述训练集生成单元,包括: 节点对特征建立子模块,用于对于2个网络P、Q中任意给定的节点V(i),建立 其网络拓扑结构特征向量为:f⑴={fl,f2,…fd},其中,节点代表用户身份信息, ?·Μ为节点基本属性特征,包括:节点出度、人度、聚类系数、邻居节点、平均度、共 同邻居;建立节点对特征向量向量,对于2个网络P、Q的节点对特征向量向量为: 厂…=厂以/))=丨.,/;,(1),,/;,(2),…⑷4 量向量对匹配节点对进行聚类,获得各聚类类别C中所包含的具有相似特征节点的个数, 将其作为粒子特征,节点对特征的分布情况作为能量因子,将具有相似网络行为特征的用 户赋予等值的能量因子; k 分类器生成子模块,用于构建匹配节点对能量模型:其中,I为相似 i=\ ; 特征的匹配节点对集合依据特征进行聚类后的节点对个数,εi为该类别对应的能量因子; 根据所述能量模型获取每个聚类类别所对应的能量因子:ε= {εε2, . ..,εk},并将其 作为预测过程中节点对所属类别的能量因子;根据聚类类别结果建立K分类器,并赋予每 个节点对类别编号。
8. 如权利要求6所述的装置,其特征在于: 所述训练集生成单元,还包括: 节点对类别建立子模块,用于对网络P、Q中未知身份对应关系的节点分别提取其拓扑 结构特征:FP(i) = {fP(l),fP(2),· · ·,fP(m)}和?0(;〇 = {fQ(l),fQ(2),· · ·,fQ(m)};对于任 意未知身份对应关系的节点ieP,jeQ,构建nXn个所有未知节点的匹配节点对特征向 量:7,;^ = 7*'(以〇,心(刀)=(/r(l),/r⑵,,乃⑴,乃⑵,...,/?,("七通过K分类器对匹 配节点对特征向量进行分类,得到每个节点对类别标签,构建节点对类别矩阵; 所述匹配单元,还用于对类别矩阵进行能量因子填充,将类别矩阵中类别标签替换为 该类别所对应的能量因子εi=Mt()gOTy,构建能量矩阵,计算能量矩阵的最佳匹配。
9. 如权利要求8所述的装置,其特征在于, 所述匹配单元计算该能量矩阵的最佳匹配的算法为:
其中,Aij表示网络P中的节点i与网络G中的节点j是否存在--对应关系,若i〇j的对应关系被确立则标记为1,否则标记为〇,匹配结果表述为1〉〇+)G心(./)。
10. 如权利要求8或9所述的装置,其特征在于: 所述集成单元,还用得到ξ个预测结果,将每次预测结果在节点对匹配矩阵中进行投 票,得到投票矩阵V-Matrix= (Vij);求解该投票矩阵V-Matrix的最优匹配问题,采用的公 式为:
其中,k表示表示投票矩阵中第i行第j列的投票结果,λu表示网络P中的节点i与网络G中的节点j是否存在一一对应关系,即表示节点对的最终匹配结果。
【文档编号】G06F17/30GK104462318SQ201410719649
【公开日】2015年3月25日 申请日期:2014年12月1日 优先权日:2014年12月1日
【发明者】王晶华, 陈晰, 徐慧明, 郭光 , 魏明磊 申请人:国家电网公司, 国网河北省电力公司, 国网河北省电力公司衡水供电分公司, 国家电网公司信息通信分公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1