账号识别方法、装置、计算机设备、存储介质及程序产品与流程

文档序号:30703776发布日期:2022-07-09 21:07阅读:141来源:国知局
账号识别方法、装置、计算机设备、存储介质及程序产品与流程
账号识别方法、装置、计算机设备、存储介质及程序产品
1.本技术要求于2021年01月05日提交的、申请号为202110005949.0、发明名称为“目标用户团体识别方法、装置、设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本技术中。
技术领域
2.本技术涉及数据处理技术领域,特别涉及账号识别方法、装置、计算机设备、存储介质及程序产品。


背景技术:

3.随着保险体系的不断完善,保险已成为人民群众生活的重要组成部分,但随之而来的,保险安全问题亟待解决。
4.在相关技术中,通常基于已经被发现存在保险安全问题的用户账号,对该用户账号进行特征提取,并将该用户账号的特征与其他各个用户账号的特征进行相似性计算,将与该用户特征相似的其他用户账号作为可能存在保险安全问题的用户账号,从而达到对可能存在保险安全问题的用户账号进行筛选的目的。
5.然而,上述方案只能够筛选出存在已经被发现的保险安全问题的用户账号,而对于尚未被发现的保险安全问题,则无法筛选出具有此类行为的用户账号,导致保险安全问题的账号识别的准确性较低。


技术实现要素:

6.本技术实施例提供了一种账号识别方法、装置、计算机设备、存储介质及程序产品,可以提高诸如保险安全问题等非正常交互的用户账号筛选的准确性,该技术方案如下:
7.一方面,提供了一种账号识别方法,所述方法包括:
8.获取各个用户账号的用户特征、各个服务对象的对象特征、以及所述各个用户账号与所述各个服务对象之间的服务记录;所述各个服务对象是向所述各个用户账号提供指定交互服务的对象;
9.基于所述各个用户账号的用户特征、所述各个服务对象的对象特征、以及所述各个用户账号与所述各个服务对象之间的服务记录,构建二部图;所述二部图由所述各个用户账号与所述各个服务对象之间通过边相连构成;
10.对所述二部图中的各个节点进行特征向量提取,获得所述各个用户账号对应的用户特征向量;
11.基于所述各个用户账号对应的用户特征向量,对所述各个用户账号进行聚类,获得至少一个账号分组;
12.基于所述各个用户账号的所述服务记录,从所述至少一个账号分组中识别出目标账号分组;所述目标账号分组是存在非正常的指定交互服务的账号分组。
13.另一方面,提供了一种账号识别装置,所述装置包括:
14.获取模块,用于获取各个用户账号的用户特征、各个服务对象的对象特征、以及所述各个用户账号与所述各个服务对象之间的服务记录;所述各个服务对象是向所述各个用户账号提供指定交互服务的对象;
15.二部图构建模块,用于基于所述各个用户账号的用户特征、所述各个服务对象的对象特征、以及所述各个用户账号与所述各个服务对象之间的服务记录,构建二部图;所述二部图由所述各个用户账号与所述各个服务对象之间通过边相连构成;
16.用户特征向量提取模块,用于对所述二部图中的各个节点进行特征向量提取,获得所述各个用户账号对应的用户特征向量;
17.聚类模块,用于基于所述各个用户账号对应的用户特征向量,对所述各个用户账号进行聚类,获得至少一个账号分组;
18.账号识别模块,用于基于所述各个用户账号的所述服务记录,从所述至少一个账号分组中识别出目标账号分组;所述目标账号分组是存在非正常的指定交互服务的账号分组。
19.在一种可能的实现方式中,所述二部图构建模块,包括:
20.账号节点创建子模块,用于创建所述各个用户账号对应的账号节点,所述账号节点具有对应用户账号的用户特征;
21.对象节点创建子模块,用于创建所述各个服务对象对应的对象节点,所述对象节点具有对应服务对象的对象特征;
22.边创建子模块,用于基于所述各个用户账号与所述各个服务对象之间的所述服务记录,创建所述各个用户账号对应的账号节点,与所述各个服务对象对应的对象节点之间的边。
23.在一种可能的实现方式中,所述边创建子模块,包括:
24.边创建单元,用于响应于目标用户账号与目标服务对象之间存在所述服务记录,创建所述目标用户账号对应的账号节点与所述目标服务对象对应的对象节点之间的边;所述目标用户账号是所述各个用户账号中的任意一个;所述目标服务对象是所述各个服务对象中的任意一个;
25.权重设置单元,用于基于所述目标用户账号与所述目标服务对象之间的所述服务记录,设置所述目标用户账号对应的账号节点与所述目标服务对象对应的对象节点之间的边的权重。
26.在一种可能的实现方式中,所述服务记录中包含指定交互服务的次数;
27.所述权重设置单元,用于所述服务记录中包含指定交互服务的次数;
28.基于所述目标用户账号与所述目标服务对象之间的指定交互服务的次数,设置所述目标用户账号对应的账号节点与所述目标服务对象对应的对象节点之间的边的权重。
29.在一种可能的实现方式中,所述用户特征向量提取模块,包括:
30.聚合迭代子模块,用于对所述二部图中的各个节点的特征向量进行至少两次聚合迭代;
31.用户特征向量获取子模块,用于将所述至少两次聚合迭代之后,所述二部图中对应所述各个用户账号的账号节点的特征向量,获取为所述各个用户账号对应的用户特征向量。
32.在一种可能的实现方式中,所述聚合迭代子模块,包括:
33.邻居聚合信息获取单元,用于在第p次聚合迭代过程中,通过特征提取模型中对目标节点的各个邻居节点在第p次聚合迭代前的特征向量进行聚合,获得所述目标节点在第p次聚合迭代中的邻居聚合信息;所述目标节点是所述二部图中的任意一个节点;p为正整数;
34.特征向量获取单元,用于通过所述特征提取模型中将所述目标节点在第p次聚合迭代中的邻居聚合信息,与所述目标节点在第p次聚合迭代前的特征向量进行融合,获得所述目标节点在第p次聚合迭代后的特征向量。
35.在一种可能的实现方式中,所述特征提取模型是基于所述二部图中的各个节点的特征向量进行n轮训练得到的;所述装置还包括:
36.训练聚合迭代模块,用于在第i轮训练过程中,对所述二部图中的各个节点的特征向量进行j次聚合迭代;1≤i≤n,j≥2,且i、j、n为整数;
37.损失函数计算模块,用于基于所述二部图中的各个节点在所述j次聚合迭代后的特征向量,以及所述二部图中的各个节点之间的边连接关系,计算损失函数值;
38.参数更新模块,用于基于所述损失函数值,对所述特征提取模型中的参数进行更新。
39.在一种可能的实现方式中,所述聚类模块,用于基于所述各个用户账号对应的用户特征向量之间的相似度,对所述各个用户账号进行层次聚类,获得所述至少一个账号分组。
40.在一种可能的实现方式中,所述装置还包括:
41.相似度获取模块,用于在所述聚类模块基于所述各个用户账号对应的用户特征向量之间的相似度,对所述各个用户账号进行层次聚类,获得所述至少一个账号分组之前,获取所述各个用户账号对应的用户特征向量之间的余弦相似度,作为所述各个用户账号对应的用户特征向量之间的相似度。
42.在一种可能的实现方式中,所述账号识别模块,包括:
43.样本账号选择子模块,用于从第一账号分组中选择样本用户账号;所述第一账号分组是所述至少一个账号分组中的任意一个;
44.目标账号分组确认子模块,用于响应于所述样本用户账号的服务记录与指定规则相匹配,将所述第一账号分组确定为所述目标账号分组。
45.在一种可能的实现方式中,所述样本账号选择子模块,包括:
46.账号数量确定单元,用于基于所述第一账号分组中的用户账号数量,确定所述样本用户账号的用户账号数量;
47.样本账号选择单元,用于基于所述样本用户账号的用户账号数量,从所述第一账号分组中随机选择所述样本用户账号;
48.所述目标账号分组确认子模块,用于响应于所述样本用户账号中任意一个用户账号的服务记录与所述指定规则相匹配,将所述第一账号分组确定为所述目标账号分组;
49.或者,
50.响应于所述样本用户账号中,服务记录与所述指定规则相匹配的用户账号数量与所述样本用户账号的用户账号数量之间的比值达到比例阈值,将所述第一账号分组确定为
所述目标账号分组。
51.在一种可能的实现方式中,所述各个用户账号为医保的参保人的用户账号,所述各个服务对象是提供医保消费服务的对象,所述指定交互服务为医保消费服务。
52.另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储由至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述账号识别方法。
53.另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现上述账号识别方法。
54.另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的账号识别方法。
55.本技术提供的技术方案可以包括以下有益效果:
56.通过基于各个用户账号的用户特征,各个服务对象的对象特征,以及各个用户账号与各个服务对象的服务记录构建二部图,基于该二部图提取各个用户账号的特征向量,以根据该各个用户账号的特征向量对各个用户账号进行聚类,进而从聚类后的账号分组统一筛选具有非正常交互服务的账号分组作为目标账号分组,使得在管理非正常交互服务的过程中,可以以账号分组为单位进行非正常交互服务筛选,从而能够发现隐藏的非正常交互行为,提高了对具有非正常的交互服务的用户账号发现的效率和准确性。
附图说明
57.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
58.图1示出了本技术一示例性实施例示出的二部图的示意图;
59.图2示出了本技术一示例性实施例示出的账号识别方法的流程图;
60.图3示出了本技术一示例性实施例提供的账号识别方法的流程图;
61.图4示出了本技术一示例性实施例示出的二部图的示意图;
62.图5示出了本技术实施例提供的账号识别方法的架构图;
63.图6示出了本技术一示例性实施例提供的账号识别装置的方框图;
64.图7是根据一示例性实施例示出的计算机设备的结构框图。
具体实施方式
65.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
66.应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
67.本技术实施例提供了一种账号识别方法,可以提高获取非正常交互服务的效率和准确性。为了便于理解,下面对本技术涉及的几个名词进行解释。
68.1)图嵌入(graph embedding)
69.图嵌入是一种将图数据(通常为高维稠密的矩阵)映射为低稠密向量的过程,旨在将图的节点表示成一个低维向量空间,同时保留网络的拓扑结构和节点信息,以便在后续的图分析任务中可以直接使用现有的机器学习算法。
70.2)二部图(bipartite graph)
71.二部图(又叫二分图),是图论中的一种特殊模型。设g=(v,e)是一个无向图,如果节点v可分割为两个互不相交的子集(a,b),并且图中的每条边(i,j)所关联的两个节点i和j分别属于这两个不同的节点集(i in a,j in b),则称图g为一个二部图。简单来说,如果图中的点可以被分为两组,并使得所有边都跨越组的边界,则这就是一个二部图。或者是说,把一个图的节点划分为两个不相交的自己,使得每一条边都分别连接两个集合中的节点,若存在这样的划分则此图为一个二部图。图1示出了本技术一示例性实施例示出的二部图的示意图,如图1所示,图1中包含的6个无向图均为二部图,以图(1)为例,图(1)中包含6个顶点,可以将图中黑色的节点分为子集a,图中白色的节点分为子集b,那么,图(1)中子集a中的节点与子集b中的节点组成的边均跨越的子集a与子集b的交界110,因此,图(1)中的无向图为二部图,图1中的其他图同理,将黑色的节点分为子集a,将白色的节点分为子集b,即可确定该无向图为二部图。
72.3)bipartite graphsage(bipartite graph sample and aggregate,二部图样本聚合)
73.bipartite graphsage是将同构图上的graphsage算法扩展到二部图上,对二部图上的两种类型的节点都有很好的表征能力。graphsage由斯坦福大学提出,该算法旨在从图网络中学习出节点的特征表示。
74.4)无监督学习(unsupervised learning)
75.无监督学习,也称为非监督学习;无监督学习是机器学习中的一种训练方式或学习方式,无监督学习没有明确的目的,不需要给数据打标签,且其效果无法量化;无监督学习本质上是一种统计手段,能够在没有标签的数据里发现潜在的一些结构。
76.无监督学习通常用于发现异常,用户账号细分,推荐系统等应用场景中,其常用的算法是聚类算法和降维算法。
77.5)人工智能(artificial intelligence,ai)
78.人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
79.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
80.6)机器学习(machine learning,ml)
81.机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
82.图2示出了本技术一示例性实施例示出的账号识别方法的流程图,该账号识别方法可以由计算机设备执行,该计算机设备可以实现为服务器,如图2所示,该账号识别方法包括:
83.步骤210,获取各个用户账号的用户特征、各个服务对象的对象特征、以及各个用户账号与各个服务对象之间的服务记录;各个服务对象是向各个用户账号提供指定交互服务的对象。
84.在一种可能的实现方式中,各个用户账号可以指代与各个服务对象具有指定交互行为的用户账号集群,即与各个服务对象具有指定交互行为的用户账号都可以确定是各个用户账号中的一个;各个服务对象可以是能够向各个用户账号提供指定交互服务的个人,或者,也可以是向各个用户账号提供指定交互服务的组织、机构等,本技术对各个服务对象的类型不进行限制。
85.其中,一个用户账号可以与多个服务对象之间存在指定交互服务关系,即一个用户账号可以对应与多个服务对象,相应的,一个服务对象也可以向多个用户账号提供指定交互服务,各个用户账号与各个服务对象之间的指定交互服务关系,可以通过各个用户账号与各个服务对象之间的服务记录进行确定,本技术对各个用户账号与各个服务对象之间的对应关系以及对应数量不进行限制。
86.步骤220,基于各个用户账号的用户特征、各个服务对象的对象特征、以及各个用户账号与各个服务对象之间的服务记录,构建二部图;该二部图由各个用户账号与各个服务对象之间通过边相连构成。
87.在本技术实施例中,各个用户账号的用户特征可以包括人口学特征,服务记录特征以及用户画像特征等;其中,人口学特征包括用户的性别,年龄等,服务记录特征可以包括服务金额,服务项目等等,用户画像特征可以包括用户的消费习惯标签,信用等级标签等等;当服务对象是组织、机构时,各个服务对象的对象特征可以包括服务对象的地理位置,服务对象的级别等,当服务对象是个人时,各个服务对象的对象特征可以包括服务对象的职位,服务对象的工龄等;各个用户账号与各个服务对象之间的服务记录是用以记录各个用户账号与各个服务对象之间的指定交互服务行为的服务记录,该服务记录中可以记录有各个用户账号与各个服务对象每次指定交互服务行为的时间,事件等。
88.步骤230,对二部图中的各个节点进行特征向量提取,获得各个用户账号对应的用户特征向量。
89.步骤240,基于各个用户账号对应的用户特征向量,对各个用户账号进行聚类,获得至少一个账号分组。
90.其中,每个账号分组中包含至少一个用户账号,一个用户账号可以视为是包含一个用户账号的账号分组;根据各个用户账号的用户特征向量,对各个用户账号进行聚类,可
以获得包含多个用户账号的账号分组,在该过程中,包含着对各个中间账号分组进行聚类,将两个账号分组聚类成一个账号分组的过程,以使得具有相同或相似的用户特征向量的用户账号尽可能的存在于同一账号分组中。
91.步骤250,基于各个用户账号的服务记录,从至少一个账号分组中识别出目标账号分组;该目标账号分组是存在非正常的指定交互服务的账号分组。
92.在一种可能的实现方式中,同一账号分组中的用户账号具有相同或相似的指定交互服务行为,示意性的,若一个账号分组中存在指定数量的用户账号具有非正常的指定交互行为,则可以确定账号分组是存在非正常的指定交互服务的账号分组。
93.综上所述,本技术实施例提供的账号识别方法,通过基于各个用户账号的用户特征,各个服务对象的对象特征,以及各个用户账号与各个服务对象的服务记录构建二部图,基于该二部图提取各个用户账号的特征向量,以根据该各个用户账号的特征向量对各个用户账号进行聚类,进而从聚类后的账号分组统一筛选具有非正常交互服务的账号分组作为目标账号分组,使得在管理非正常交互服务的过程中,可以以账号分组为单位对具有非正常交互服务的行为的用户账号进行筛选,从而能够发现隐藏的非正常交互行为,提高了发现具有非正常的交互服务的行为的用户账号的效率和准确性。
94.在一种可能的实现方式中,本技术所提供的账号识别方法可以应用于医疗保险领域,在该领域中,各个用户账号为医保的参保人的用户账号,各个服务对象是提供医保消费服务的对应,该指定交互服务为医保消费服务,通过本技术提供的账号识别方法可以筛选出目标账号分组,该目标账号分组中的用户账号是具有指定行为的医疗保险用户账号,比如,具有骗保行为的骗保用户账号,从而实现对疑似属于骗保账号分组的用户账号的分析判断,以对医疗保险相关部门管理骗保行为进行指导;
95.或者,本技术所提供的账号识别方法可以应用于网络刷单领域,在该领域中,各个用户账号为具有网络购物行为的用户账号,各个服务对象是网店店家,该指定交互服务为网络购物服务,通过本技术提供的账号识别方法可以筛选出目标账号分组,该目标账号分组中的用户账号是具有指定行为的团购购买用户账号,比如,具有刷单行为的刷单用户账号,从而实现对疑似属于刷单账号分组的用户账号的分析判断,以对相关部门管理刷单行为进行指导。
96.图3示出了本技术一示例性实施例提供的账号识别方法的流程图,该账号识别方法可以由计算机设备执行,该计算机设备可以实现为服务器,如图3所示,该账号识别方法包括:
97.步骤310,获取各个用户账号的用户特征、各个服务对象的对象特征、以及各个用户账号与各个服务对象之间的服务记录;各个服务对象是向各个用户账号提供指定交互服务的对象。
98.步骤320,创建各个用户账号对应的账号节点,该账号节点具有对应用户账号的用户特征。
99.在一种可能的实现方式中,基于各个用户账号的用户特征生成各个账号节点对应的初始用户特征向量。
100.步骤330,创建各个服务对象对应的对象节点,该对象节点具有对应服务对象的对象特征。
101.在一种可能的实现方式中,基于各个服务对象的对象特征生成各个对象节点对应的初始对象特征向量。
102.步骤340,基于各个用户账号与各个服务对象之间的服务记录,创建各个用户账号对应的账号节点,与各个服务对象对应的对象节点之间的边。
103.在一种可能的实现方式中,响应于目标用户账号与目标服务对象之间存在服务记录,创建目标用户账号对应的账号节点与目标服务对象对应的对象节点之间的边;该目标用户账号是各个用户账号中的任意一个;该目标服务对象是各个服务对象中的任意一个;
104.基于目标用户账号与目标服务对象之间的服务记录,设置目标用户账号对应的账号节点与目标服务对象对应的对象节点之间的边的权重。
105.在一种可能的实现方式中,服务记录中包含指定交互服务的次数,基于目标用户账号与目标服务对象之间的指定交互服务的次数,设置目标用户账号对应的账号节点与目标服务对象对应的对象节点之间的边的权重。示意性的,将目标用户账号与目标服务对象之间的指定交互服务的次数,获取为目标用户账号对应的账号节点与目标服务对象对应的对象节点之间的边的权重,并进行设置,比如,基于服务记录确定目标用户账号与目标服务对象之间的指定交互服务次数为两次,则将目标用户账号对应的账号节点与目标服务对象对应的对象节点之间的边的权重设置为2。
106.在一种可能的实现方式中,服务记录中包含指定交互服务的交互结果,基于目标用户账号与目标服务对象之间的指定交互服务的交互结果,设置目标用户账号对应的账号节点与目标服务对象对应的对象节点之间的边的权重。示意性的,在医疗保险场景中,该指定交互服务为医保消费服务,该指定交互服务的交互结果的不同可以表现为药品种类的区别,比如保健品以及处方药品等,示意性的,可以将医保消费服务的交互结果中对应的药品种类为保健品对应的目标用户账号对应的账号节点与目标服务对象对应的对象节点之间的边的权重设置为第一权重,将医保消费服务的交互结果中对应的药品种类为处方药品对应的目标用户账号对应的账号节点与目标服务对象对应的对象节点之间的边的权重设置为第二权重,其中,第一权重可以大于第二权重。
107.在一种可能的实现方式中,可以基于目标服务对象的类别,设置目标用户账号对应的账号节点与目标服务对象对应的对象节点之间的边的权重。示意性的,在医疗保险场景中,当目标服务对象为机构时,该目标服务对象可以为公立医院,私立医院以及诊所等,可以将目标服务对象为公立医院对应的目标用户账号对应的账号节点与目标服务对象对应的对象节点之间的边的权重设置为第三权重,将目标服务对象为私立医院对应的目标用户账号对应的账号节点与目标服务对象对应的对象节点之间的边的权重设置为第四权重,目标服务对象为诊所对应的目标用户账号对应的账号节点与目标服务对象对应的对象节点之间的边的权重设置为第五权重,其中,第三权重小于第四权重小于第五权重。
108.在一种可能的实现方式中,基于不同的应用场景,以及不同应用场景中不同的因素对非正常指定交互服务的影响的不同,对目标用户账号对应的账号节点与目标服务对象对应的对象节点之间的边的权重进行不同的设置,影响较高的因素对应的权重大于影响较低的因素对应的权重,比如在上述示例中,在医疗保险场景中,骗保行为发生在诊所的概率大于发生在私立医院的概率,骗保行为发生在私立医院的概率大于发生在公立医院的概率,因此设置第三权重小于第四权重小于第五权重。
109.图4示出了本技术一示例性实施例示出的二部图的示意图,如图4所示,各个用户账号对应有账号节点a,账号节点b,账号节点c以及账号节点d,各个服务对象对应有对象节点a,对象节点b以及对象节点c,基于各个用户账号与各个服务对象之间的服务记录,构建如图4所示的二部图,将存在指定交互服务关系的账号节点与对象节点之间用边相连,以账号节点a为例,该账号节点a对应的用户账号a与服务对象a,服务对象b以及服务对象c均存在指定交互服务关系,因此,将账号节点a分别与对象节点a,对象节点b以及对象节点c通过边相连;而对账号节点c而言,其对应的用户账号c只与服务对象a之间存在指定交互服务,而与服务对象b以及服务对象c之间不存在指定交互服务,因此,在如图4所示的二部图中,账号节点c只与对象节点a通过边相连,而与对象节点b以及对象节点c不相连。
110.在本技术实施例中,各个账号节点之间不存在边关系,各个对象节点之间不存在边关系。
111.在本技术实施例中,基于各个用户账号的用户特征生成二部图中各个账号节点对应的初始用户特征向量,基于各个服务对象的对象特征生成各个对象节点对应的初始对象特征向量,其中,表示各个账号节点对应的初始用户特征向量,表示各个对象节点对应的初始对象特征向量;以二部图中的边的权重是基于服务记录中包含的指定交互服务的次数生成的为例,各个账号节点与各个对象节点之间的边对应有权重。
112.步骤350,对二部图中的各个节点的特征向量进行至少两次聚合迭代。
113.在一种可能的实现方式中,计算机设备通过特征提取模型对二部图中的各个节点的特征向量进行至少两次聚合迭代,获得至少两次迭代过程中各个用户账号的账号节点的特征向量,即,将二部图中的各个节点的特征向量输入特征提取模型中,以使得特征提取模型对而不图中的各个节点的特征向量进行至少两次聚合迭代,获得特征提取模型输出的每次聚合迭代后各个节点对应的特征向量。
114.其中,对二部图中的各个节点的特征向量进行至少两次聚合迭代,包括:
115.1)在第p次聚合迭代过程中,通过特征提取模型对目标节点的各个邻居节点在第p次聚合迭代前的特征向量进行聚合,获得目标节点在第p次聚合迭代中的邻居聚合信息;该目标节点是二部图中的任意一个节点,p为正整数。
116.在一种可能的实现方式中,获取目标节点的各个邻居节点,该邻居节点是指与目标节点具有边关系的二部图中的节点,其中,当目标节点为账号节点时,该目标节点的邻居节点是与该账号节点具有边关系的对象节点;当该目标节点为对象节点时,该目标节点的邻居节点是与该对象节点具有边关系的账号节点。
117.该特征提取模型可以实现为图嵌入算法模型;该图嵌入算法模型中使用的图嵌入算法可以包括bipartite graphsage算法,bine算法,abcgraph算法。
118.以图嵌入算法为bipartite graphsage算法为例,对账号节点u的各个邻居对象节点i的在第p次聚合迭代前的特征向量进行聚合,获得邻居聚合信息的公式为:
[0119][0120]
其中,表示第p次聚合迭代前的邻居对象节点的特征向量,当p大于1时,
表示第p-1次聚合迭代后的邻居对象节点的特征向量,当p=1时,第p次聚合迭代前的邻居对象节点的特征向量aggreate表示聚合操作,上述公式中采用均值聚合,表示参数矩阵,用以表示对象节点到账号节点的转移矩阵。
[0121]
对对象节点i的各个邻居账号节点u的在第p次聚合迭代前的特征向量进行聚合,获得邻居聚合信息的公式为:
[0122][0123]
其中,表示第p次聚合迭代前的邻居账号节点的特征向量,当p大于1时,表示第p-1次聚合迭代后的邻居账号节点的特征向量,当p=1时,第p次聚合迭代前的邻居对象节点的特征向量aggreate表示聚合操作,上述公式中采用均值聚合,表示参数矩阵,用以表示账号节点到对象节点的转移矩阵。
[0124]
2)通过该特征提取模型将目标节点在第p次聚合迭代中的邻居聚合信息,与目标节点在第p次聚合迭代前的特征向量进行融合,获得目标节点在第p次聚合迭代后的特征向量。
[0125]
在上述过程中,特征提取模型首先对目标节点在第p次聚合迭代中的邻居聚合信息,与目标节点在第p次聚合迭代前的特征向量进行拼接,之后通过非线性激活函数对拼接后的特征向量进行融合,获得目标节点在第p次聚合迭代后的特征向量。
[0126]
其中,当目标节点为账号节点时,对账号节点在第p次聚合迭代中的邻居聚合信息,与账号节点在第p次聚合迭代前的特征向量进行融合的公式表示为:
[0127][0128]
其中,表示账号节点u在第p次聚合迭代前的特征向量,为参数,表示聚合的权重矩阵,用以表示对象节点到账号节点的转移矩阵,concat表示连接操作,σ表示激活函数,从而获得账号节点u在第p次聚合迭代后的特征向量。
[0129]
当目标节点为账号节点时,对对象节点在第p次聚合迭代中的邻居聚合信息,与对象节点在第p次聚合迭代前的特征向量进行融合的公式表示为:
[0130][0131]
其中,对象节点在第p次聚合迭代前的特征向量,为参数,表示聚合的权重矩阵,用以表示账号节点到对象节点的转移矩阵,σ表示激活函数,从而获得对象节点i在第p次聚合迭代后的特征向量。
[0132]
步骤360,将至少两次聚合迭代之后,二部图中对应各个用户账号的账号节点的特征向量,获取为各个用户账号对应的用户特征向量。
[0133]
需要说明的是,上述对二部图中的各个节点的特征向量进行至少两次聚合迭代时的特征提取模型是已经经过n轮训练后的特征提取模型。
[0134]
也就是说,在一种可能的实现方式中,该特征提取模型是基于二部图中的各个节点的特征向量进行n轮训练得到的;在对二部图中的各个节点进行特征向量提取,获得各个
用户账号对应的特征向量之前,该方法还包括:
[0135]
在第i轮训练过程中,对二部图中的各个节点的特征向量进行j次聚合迭代;1≤i≤n,j≥2,且i、j、n为整数;
[0136]
基于二部图中的各个节点在j次聚合迭代后的特征向量,以及二部图中的各个节点之间的边连接关系,计算损失函数值;
[0137]
基于损失函数值,对特征提取模型中的参数进行更新。
[0138]
其中,特征提取模型中的参数包括聚合函数中的参数,即上述公式(1)中的参数矩阵和公式(2)中的以及融合公式中的参数,即上述公式(3)中的权重矩阵和公式(4)中的权重矩阵
[0139]
其中,该损失函数的计算公式为:
[0140][0141]
其中,表示负采样的账号节点的用户特征向量,表示负采样的对象节点的对象特征向量,(u,i)表示一对有边相连的账号节点和对象节点,函数f是全连接网络根据账号节点u的用户特征向量和对象节点i的对象特征向量以及对应的边的权重计算账号节点u的用户特征向量与对象节点i的对象特征向量的相似度,pn表示负采样分布,qu表示对象节点对应抽取的账号节点负样本数量,qi表示账号节点对应抽取的对象节点的负样本数量,γ为超参数,用于定义负样本的权重。
[0142]
在n轮训练过程中的每一次训练时,都会对应计算损失函数,以对特征提取模型中的参数进行n次调整,以提高获取的目标节点的特征向量的准确性。
[0143]
在一种可能的实现方式中,对特征提取模型进行n轮训练的训练停止条件可以包括以下条件中的至少一种:
[0144]
n的数值达到指定数值;
[0145]
损失函数值小于损失函数阈值;
[0146]
以及,该特征提取模型中的参数在更新前后的差异小于差异阈值。
[0147]
也就是说,相关人员可以预先设置n的指定数值,即n的最大值,当聚合迭代执行到第n次时,结束对特征提取模型的训练过程,并将基于第n次训练之后的特征提取模型经过j次迭代输出的,二部图中对应各个用户账号的账号节点的特征向量获取为各个用户账号对应的用户特征向量;
[0148]
或者,相关人员可以预先设置损失函数阈值,在基于上述损失函数的计算结果未达到该损失函数阈值前,持续进行聚合迭代,直至损失函数的计算结果达到该损失函数阈值,将损失函数的计算结果达到该损失函数阈值时对应的二部图中对应各个用户账号的账号节点的特征向量获取为各个用户账号对应的用户特征向量;
[0149]
或者,预设人员可以预先设置差异阈值,计算机设备可以对第n次聚合迭代后特征提取模型的参数与第n次聚合迭代前的特征提取模型的参数之间的差异进行获取,当确定
第n次聚合迭代后特征提取模型的参数与第n次聚合迭代前的特征提取模型的参数之间的差异小于差异阈值,则停止对特征提取模型的训练过程,将第n次训练后的特征提取模型经过j次迭代输出的,二部图中对应各个用户账号的账号节点的特征向量获取为各个用户账号对应的用户特征向量。
[0150]
步骤370,基于各个用户账号对应的用户特征向量,对各个用户账号进行聚类,获得至少一个账号分组。
[0151]
在一种可能的实现方式中,基于各个用户账号对应的用户特征向量之间的相似度,对各个用户账号进行层次聚类,获得至少一个账号分组。
[0152]
其中,层次聚类包括,从各个用户账号聚类开始,每个用户账号对应一个初始账号分组;将各个初始账号分组之间的两两初始账号分组相似度最高的两个融合为一类,获得中间账号分组;重新计算各个中间账号分组之间的相似度,将各个中间账号分组之间,两两相似度最高的两个融合为一类,重复上述过程,直到中间账号分组中两两之间的相似度低于相似度阈值,停止层次聚类,获得至少一个账号分组。
[0153]
在一种可能的实现方式中,在基于各个用户账号对应的用户特征向量之间的相似度,对各个用户账号进行层次聚类,获得至少一个账号分组之前,还包括:
[0154]
获取各个用户账号对应的用户特征向量之间的余弦相似度,作为各个用户账号对应的用户特征向量之间的相似度。其中,计算余弦相似度的公式为:
[0155][0156]
其中,a,b分别表示两个账号分组的平均用户账号向量特征。
[0157]
在一种可能的实现方式中,还可以通过其他聚类算法对各个用户账号进行聚类,获得至少一个账号分组,比如,该其他聚类算法可以包括均值漂移聚类算法以及dbscan算法等。
[0158]
步骤380,基于各个用户账号的服务记录,从至少一个账号分组中识别出目标账号分组;该目标账号分组是存在非正常的指定交互服务的账号分组。
[0159]
在一种可能的实现方式中,从第一账号分组中选择样本用户账号;该第一账号分组是至少一个账号分组中的任意一个;
[0160]
响应于样本用户账号的服务记录与指定规则相匹配,将第一账号分组确定为目标账号分组。
[0161]
其中,该样本用户账号可以是第一账号分组中的全部用户账号,或者,样本用户账号也可以是对第一账号分组中的全部用户账号进行抽样获得的用户账号。
[0162]
也就是说,可以不对第一账号分组中的全部用户账号的服务记录与指定规则进行比较,或者,第一账号分组中的用户账号中只需要部分用户账号的服务记录与指定规则相匹配,即可确定该第一账号分组为目标账号分组。
[0163]
在一种可能的实现方式中,从第一账号分组中选择样本用户账号可以实现为:
[0164]
基于第一账号分组中的用户账号数量,确定样本用户账号的用户账号数量;
[0165]
基于样本用户账号的用户账号数量,从第一账号分组中随机选择样本用户账号。
[0166]
示意性的,可以用过设置抽样比例,基于样本用户账号的用户账号数量,从第一账号分组中随机选择样本用户账号;比如,第一账号分组中包含了100个用户账号,计算机设备中可以预设有抽样比例为0.3,那么在进行抽样时,从100个用户账号中随机选择30个用户账号作为样本用户账号。或者,也可以采用其他抽样方式进行抽样,本技术对抽样的方式不进行限制。
[0167]
在确定第一账号分组是否为目标账号分组时,可以响应于样本用户账号中任意一个用户账号的服务记录与指定规则相匹配,将第一账号分组确定为目标账号分组;
[0168]
或者,
[0169]
响应于样本用户账号中,服务记录与指定规则相匹配的用户账号数量与样本用户账号的用户账号数量之间的比值达到比例阈值,将第一账号分组确定为目标账号分组。
[0170]
在第一种情况中,只要样本用户账号中存在一个用户账号的服务记录与指定规则相匹配,即将该用户账号对应的第一账号分组确定为目标账号分组;
[0171]
或者,为了避免偶然误差,可以设置样本数量比例阈值,当样本用户账号中对应的服务记录与指定规则相匹配的用户账号的数量,占样本用户账号数量的比例达到该比例阈值,则确定该第一账号分组为目标账号分组,比如,样本用户账号的数量为30,比例阈值为0.2,假设有7个样本用户账号的服务记录与指定规则相匹配,7/30》0.2,则确定该第一账号分组为目标账号分组。
[0172]
其中,该指定规则可以是根据已有的非正常的指定交互服务提取的指定规则,不同应用场景中对应的指定规则不同,以该应用场景为医疗保险场景中,该指定规则可以是用户账号就诊周期,用户账号就诊病症,以及用户账号就诊结果之间的相关性,该用户账号就诊结果可以表现为药品种类,检查科目等等,比如用户账号a的服务记录中表示用户账号a对应的用户会定期去医院a检查哮喘症,医院会对用户账号a对应的用户安排对应于哮喘症的检查项目,以及配置哮喘症相关的药物,则表明用户账号a对应的用户的就诊周期,就诊病症,以及就诊结果之间的相关性较强;而用户账号b对应的用户的服务记录中表示用户账号b对应的用户会定期去医院b量血压,但医院b在配置降压药的同时给用户账号b对应的用户配置的与降压无关的其他保健品,则表明用户账号b对应的用户的就诊周期,就诊病症,以及就诊结果之间的相关性较差,可以将相关性较低的服务记录确定为与指定规则相匹配。
[0173]
在一种可能的实现方式中,通过本技术提供的账号识别识别方法,确定目标账号分组后,可以基于目标账号分组中的用户账号对应的服务记录挖掘隐藏的非正常的指定交互服务的实施方式或实施途径,从而对确定非正常的指定交互服务的指定规则进行更新。比如,在一个已确认的目标账号分组中存在10个用户账号,该目标账号分组中存在3个用户账号的服务记录符合指定规则确定的存在非正常的指定交互服务,也就是说,在该目标账号分组中只存在3个用户账号的非正常的指定交互服务是在现有的指定规则中存在的,另外7个用户账号的非正常的指定交互服务尚未包含在现有的指定规则中,通过本技术的方法,将该10个用户账号组成的用户账号分组确定为目标账号分组后,相关机构可以在对这10个用户账号的服务记录进行检查时,挖掘出另外7个人的服务记录中的非正常的指定交互服务,从而利用新发现的非正常的指定交互服务对现有的指定规则进行更新。
[0174]
综上所述,本技术实施例提供的账号识别方法,通过基于各个用户账号的用户特征,各个服务对象的对象特征,以及各个用户账号与各个服务对象的服务记录构建二部图,基于该二部图提取各个用户账号的特征向量,以根据该各个用户账号的特征向量对各个用户账号进行聚类,进而从聚类后的账号分组统一筛选具有非正常交互服务的账号分组作为目标账号分组,使得在管理非正常交互服务的过程中,可以以账号分组为单位对具有非正常交互服务的行为的用户账号进行筛选,从而能够发现隐藏的非正常交互行为,提高了发现具有非正常的交互服务的行为的用户账号的效率和准确性。
[0175]
图5示出了本技术实施例提供的账号识别方法的架构图,如图5所示,本技术提供的账号识别方法可以分为三个阶段:二部图构建阶段510,节点特征向量获取阶段520,以及账号节点聚类阶段530。
[0176]
以该账号识别方法的应用场景为医疗保险场景为例,各个账号节点可以是医疗保险的参保人账号对应的参保人节点,各个服务对象可以对应为医疗保险机构,医疗保险机构中的科室,或者医疗保险机构中的医生等,在本技术实施例中,以第二各个服务对象为医疗保险机构,对象节点为机构节点为例,对本技术提供的账号识别方法进行说明。
[0177]
在二部图构建阶段510中,计算机设备根据获取到的医保局结算数据,参保人画像标签数据,机构画像标签数据构建二部图结构,其中,基于该参保人画像标签数据生成参保人节点对应的用户特征,基于该医疗保险机构画像标签数据生成医疗保险机构(以下简称机构)的机构特征(即对象特征)。在构建二部图时,根据医保局结算数据中的就诊记录对参保人节点及其对应的就诊机构进行连边,根据医保局结算数据中,该参保人账号在其对应的就诊机构中的就诊次数,设置该参保人节点与对应就诊机构之间的边的权重,在构建二部图时,参保人节点与参保人节点,机构节点与机构节点之间不连边。
[0178]
在节点特征向量获取阶段520中,计算机设备对于上述步骤中构建的二部图,通过图嵌入算法训练获得各个实体节点的embedding(特征向量),该实体节点包括各个参保人节点以及各个机构节点。在通过图嵌入算法训练二部图获得各个实体节点的embedding时,将二部图输入到图嵌入算法模型中,其中,表示m个参保人节点,表示n个机构节点,表示边集合,表示边的权重,其中,每个参保人节点对应有参保人特征每个机构节点对应有机构特征表示参保人特征的向量空间,du表示参保人特征的向量空间的空间维度,表示机构特征的向量空间,di表示机构特征的向量空间的空间维度。
[0179]
在实体节点embedding学习阶段,通过分别对参保人节点和机构节点进行邻居节点特征聚合;在一种可能的实现方式中,分别对参保人节点和机构节点进行p次迭代,在每一次迭代中,一个参保人节点从它邻居机构节点聚合信息,一个机构节点从它邻居节点聚合信息,以使得每一个参保人节点和机构节点的embedding中包含更大感受域的信息。
[0180]
以第p轮迭代为例,p为p次迭代中的任意一次,对于参保人节点u,首先,对参保人节点u的邻居机构节点的机构特征进行聚合,其中,参保人节点u是各个参保人节点中的任
意一个,参保人节点u的邻居机构节点是与参保人节点u具有边连接的机构节点,以图嵌入算法为bipanite graphsage算法为例,对参保人节点u的邻居机构节点的机构特征进行聚合的公式如下:
[0181][0182]
其中,表示第p-1轮聚合后的邻居机构节点的embedding,初始aggreate表示聚合操作,上述公式中采用均值聚合,表示参数矩阵,用以表示机构节点到参保人节点的转移矩阵。
[0183]
其次,将第p轮聚合后的参保人节点u的邻居结构节点的机构特征与参保人节点u在第p-1轮自身的embedding进行拼接,经过一个非线性激活层后,得到第p轮迭代后的参保人节点的embedding。计算第p轮迭代后的参保人节点u的embedding的公式为:
[0184][0185]
其中,表示第p-1轮聚合后参保人节点u的embedding,为参数,表示聚合的权重矩阵,用以表示机构节点到参保人节点的转移矩阵,σ表示激活函数,从而获得在第p次迭代后参保人节点u的embedding。
[0186]
对于机构节点i,首先,对机构节点i的邻居参保人节点的用户特征进行聚合,其中,机构节点i是各个机构节点中的任意一个,机构节点i的邻居参保人节点是与机构节点i具有边连接的参保人节点,以图嵌入算法为bipartite graphsage算法为例,对机构节点i的邻居参保人节点的用户特征进行聚合的公式如下:
[0187][0188]
其中,表示第p-1轮聚合后的邻居参保人节点u的embedding,初始aggreate表示聚合操作,上述公式中采用均值聚合,表示参数矩阵,用以表示参保人节点到机构节点的转移矩阵。
[0189]
其次,将第p轮聚合后的机构节点i的邻居参保人节点的用户特征与机构节点i在第p-1轮自身的embedding进行拼接,经过一个非线性激活层后,得到第p轮迭代后的机构节点i的embedding。计算第p轮迭代后的机构节点i的embedding的公式为:
[0190][0191]
其中,表示第p-1轮聚合后机构节点i的embedding,为参数,表示聚合的权重矩阵,用以表示参保人节点到机构节点的转移矩阵,σ表示激活函数,从而获得在第p次迭代后机构节点i的embedding。
[0192]
在一种可能的实现方式中,该图嵌入算法中的参数矩阵是通过n轮训练得到的,通过非监督训练方式,在n轮训练中对图嵌入算法中的参数矩阵进行更新,对于二部图中,存在边相连的节点,它们的embedding应该更加接近,而对于无边相连的节点,它们的embedding应该不相近,因此,在n轮迭代中,基于参保人节点的embedding以及机构节点的embedding计算损失函数,以对图嵌入算法中的参数矩阵进行更新;其中,损失函数的计算公式为:
[0193][0194]
其中,表示负采样的参保人节点的embedding,表示负采样的机构节点的embedding,(u,i)表示一对有边相连的参保人节点和机构节点,函数f是全连接网络根据参保人节点u的embedding和机构节点i的embedding以及权重计算节点相似度,pn表示负采样分布,qu表示机构节点对应抽取的参保人节点负样本数量,qi表示参保人节点对应抽取的机构节点的负样本数量,γ为超参数,用于定义负样本的权重。
[0195]
在账号节点聚类阶段530中,基于上述得到的参保人节点的embedding通过聚类算法对参保人节点进行聚类,开始时将每个参保人节点视为一个单一的簇,在每次迭代中,将两个具有最小平均距离,或者,相似度大于指定阈值的簇合并成一个。设置聚类提前结束阈值,在迭代过程中,当要聚合的两个簇的相似度小于设定阈值时提前结束聚类,将这个簇对应的账号分组获取为待筛选的账号分组。
[0196]
在获取到待筛选的账号分组之后,根据指定规则,基于医保结算等数据分析各个待筛选的账号分组中的部分成员的实际就诊行为,排除如门诊慢性病需定期去定点医院进行就诊的正常就医行为对应的账号分组,将剩余的其他可疑账号分组确定为疑似骗保用户账号所属的账号分组提交给相关部门,以给出相关部门相应的调查指导。
[0197]
可以理解的是,在本技术的具体实施方式中,涉及到用户特征,服务记录特征以及用户画像等用户账号信息的相关数据,本技术以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0198]
图6示出了本技术一示例性实施例提供的账号识别装置的方框图,该账号识别装置可以应用于计算机设备中,该计算机设备可以实现为服务器,如图6所示,该账号识别装置包括:
[0199]
获取模块610,用于获取各个用户账号的用户特征、各个服务对象的对象特征、以及所述各个用户账号与所述各个服务对象之间的服务记录;所述各个服务对象是向所述各个用户账号提供指定交互服务的对象;
[0200]
二部图构建模块620,用于基于所述各个用户账号的用户特征、所述各个服务对象的对象特征、以及所述各个用户账号与所述各个服务对象之间的服务记录,构建二部图;所述二部图由所述各个用户账号与所述各个服务对象之间通过边相连构成;
[0201]
用户特征向量提取模块630,用于对所述二部图中的各个节点进行特征向量提取,获得所述各个用户账号对应的用户特征向量;
[0202]
聚类模块640,用于基于所述各个用户账号对应的用户特征向量,对所述各个用户账号进行聚类,获得至少一个账号分组;
[0203]
账号识别模块650,用于基于所述各个用户账号的所述服务记录,从所述至少一个
账号分组中识别出目标账号分组;所述目标账号分组是存在非正常的指定交互服务的账号分组。
[0204]
在一种可能的实现方式中,所述二部图构建模块620,包括:
[0205]
账号节点创建子模块,用于创建所述各个用户账号对应的账号节点,所述账号节点具有对应用户账号的用户特征;
[0206]
对象节点创建子模块,用于创建所述各个服务对象对应的对象节点,所述对象节点具有对应服务对象的对象特征;
[0207]
边创建子模块,用于基于所述各个用户账号与所述各个服务对象之间的所述服务记录,创建所述各个用户账号对应的账号节点,与所述各个服务对象对应的对象节点之间的边。
[0208]
在一种可能的实现方式中,所述边创建子模块,包括:
[0209]
边创建单元,用于响应于目标用户账号与目标服务对象之间存在所述服务记录,创建所述目标用户账号对应的账号节点与所述目标服务对象对应的对象节点之间的边;所述目标用户账号是所述各个用户账号中的任意一个;所述目标服务对象是所述各个服务对象中的任意一个;
[0210]
权重设置单元,用于基于所述目标用户账号与所述目标服务对象之间的所述服务记录,设置所述目标用户账号对应的账号节点与所述目标服务对象对应的对象节点之间的边的权重。
[0211]
在一种可能的实现方式中,所述服务记录中包含指定交互服务的次数;
[0212]
所述权重设置单元,用于所述服务记录中包含指定交互服务的次数;
[0213]
基于所述目标用户账号与所述目标服务对象之间的指定交互服务的次数,设置所述目标用户账号对应的账号节点与所述目标服务对象对应的对象节点之间的边的权重。
[0214]
在一种可能的实现方式中,所述用户特征向量提取模块630,包括:
[0215]
聚合迭代子模块,用于对所述二部图中的各个节点的特征向量进行至少两次聚合迭代;
[0216]
用户特征向量获取子模块,用于将所述至少两次聚合迭代之后,所述二部图中对应所述各个用户账号的账号节点的特征向量,获取为所述各个用户账号对应的用户特征向量。
[0217]
在一种可能的实现方式中,所述聚合迭代子模块,包括:
[0218]
邻居聚合信息获取单元,用于在第p次聚合迭代过程中,通过特征提取模型对目标节点的各个邻居节点在第p次聚合迭代前的特征向量进行聚合,获得所述目标节点在第p次聚合迭代中的邻居聚合信息;所述目标节点是所述二部图中的任意一个节点;p为正整数;
[0219]
特征向量获取单元,用于通过所述特征提取模型将所述目标节点在第p次聚合迭代中的邻居聚合信息,与所述目标节点在第p次聚合迭代前的特征向量进行融合,获得所述目标节点在第p次聚合迭代后的特征向量。
[0220]
在一种可能的实现方式中,所述特征提取模型是基于所述二部图中的各个节点的特征向量进行n轮训练得到的;所述装置还包括:
[0221]
训练聚合迭代模块,用于在第i轮训练过程中,对所述二部图中的各个节点的特征向量进行j次聚合迭代;1≤i≤n,j≥2,且i、j、n为整数;
[0222]
损失函数值计算模块,用于基于所述二部图中的各个节点在所述j次聚合迭代后的特征向量,以及所述二部图中的各个节点之间的边连接关系,计算损失函数值;
[0223]
参数更新模块,用于基于所述损失函数值,对所述特征提取模型中的参数进行更新。
[0224]
在一种可能的实现方式中,所述账号识别模块650,包括:
[0225]
样本账号选择子模块,用于从第一账号分组中选择样本用户账号;所述第一账号分组是所述至少一个账号分组中的任意一个;
[0226]
目标账号分组确认子模块,用于响应于所述样本用户账号的服务记录与指定规则相匹配,将所述第一账号分组确定为所述目标账号分组。
[0227]
在一种可能的实现方式中,所述装置还包括:
[0228]
相似度获取模块,用于在所述聚类模块基于所述各个用户账号对应的用户特征向量之间的相似度,对所述各个用户账号进行层次聚类,获得所述至少一个账号分组之前,获取所述各个用户账号对应的用户特征向量之间的余弦相似度,作为所述各个用户账号对应的用户特征向量之间的相似度。
[0229]
在一种可能的实现方式中,所述样本账号选择子模块,包括:
[0230]
账号数量确定单元,用于基于所述第一账号分组中的用户账号数量,确定所述样本用户账号的用户账号数量;
[0231]
样本账号选择单元,用于基于所述样本用户账号的用户账号数量,从所述第一账号分组中随机选择所述样本用户账号;
[0232]
所述目标账号分组确认子模块,用于响应于所述样本用户账号中任意一个用户账号的服务记录与所述指定规则相匹配,将所述第一账号分组确定为所述目标账号分组;
[0233]
或者,
[0234]
响应于所述样本用户账号中,服务记录与所述指定规则相匹配的用户账号数量与所述样本用户账号的用户账号数量之间的比值达到比例阈值,将所述第一账号分组确定为所述目标账号分组。
[0235]
在一种可能的实现方式中,所述各个用户账号为医保的参保人的用户账号,所述各个服务对象是提供医保消费服务的对象,所述指定交互服务为医保消费服务。
[0236]
综上所述,本技术实施例提供的账号识别装置,应用在计算机设备中,通过基于各个用户账号的用户特征,各个服务对象的对象特征,以及各个用户账号与各个服务对象的服务记录构建二部图,基于该二部图提取各个用户账号的特征向量,以根据该各个用户账号的特征向量对各个用户账号进行聚类,进而从聚类后的账号分组统一筛选具有非正常交互服务的账号分组作为目标账号分组,使得在管理非正常交互服务的过程中,可以以账号分组为单位对具有非正常交互服务的行为的用户账号进行筛选,从而能够发现隐藏的非正常交互行为,提高了发现具有非正常的交互服务的行为的用户账号的效率和准确性。
[0237]
图7示出了本技术一示例性实施例示出的计算机设备700的结构框图。该计算机设备可以实现为本技术上述方案中的服务器。所述计算机设备700包括中央处理单元(central processing unit,cpu)701、包括随机存取存储器(random access memory,ram)702和只读存储器(read-only memory,rom)703的系统存储器704,以及连接系统存储器704和中央处理单元701的系统总线705。所述计算机设备700还包括用于存储操作系统709、应
用程序710和其他程序模块711的大容量存储设备706。
[0238]
所述大容量存储设备706通过连接到系统总线705的大容量存储控制器(未示出)连接到中央处理单元701。所述大容量存储设备706及其相关联的计算机可读介质为计算机设备700提供非易失性存储。也就是说,所述大容量存储设备706可以包括诸如硬盘或者只读光盘(compact disc read-only memory,cd-rom)驱动器之类的计算机可读介质(未示出)。
[0239]
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、可擦除可编程只读寄存器(erasable programmable read only memory,eprom)、电子抹除式可复写只读存储器(electrically-erasable programmable read-only memory,eeprom)闪存或其他固态存储其技术,cd-rom、数字多功能光盘(digital versatile disc,dvd)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备706可以统称为存储器。
[0240]
根据本公开的各种实施例,所述计算机设备700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备700可以通过连接在所述系统总线705上的网络接口单元707连接到网络708,或者说,也可以使用网络接口单元707来连接到其他类型的网络或远程计算机系统(未示出)。
[0241]
所述存储器还包括至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集存储于存储器中,中央处理器701通过执行该至少一条指令、至少一段程序、代码集或指令集来实现上述各个实施例所示的账号识别方法中的全部或者部分步骤。
[0242]
在一示例性实施例中,还提供了一种计算机可读存储介质,用于存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述账号识别方法中的全部或部分步骤。例如,该计算机可读存储介质可以是只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、只读光盘(compact disc read-only memory,cd-rom)、磁带、软盘和光数据存储设备等。
[0243]
在一示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图2或图3任一实施例所示方法的全部或部分步骤。
[0244]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求指出。
[0245]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并
且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1