家庭成员识别方法、装置、介质及电子设备与流程

文档序号:33318154发布日期:2023-03-03 17:16阅读:51来源:国知局
家庭成员识别方法、装置、介质及电子设备与流程

1.本技术涉及大数据和人工智能技术领域,特别涉及一种家庭成员识别方法、装置、介质及电子设备。


背景技术:

2.家庭市场是通信行业重点竞争市场之一,随着5g、全业务、融合套餐的发展,家庭市场越来越重要,是业务发展、精准营销的主战场,对客户经营有着非常重要的意义。然而,目前很少存在识别家庭成员的方案,即使存在相应的方案,也往往存在识别方式单一、识别准确率低下的缺陷。


技术实现要素:

3.在大数据和人工智能技术领域,为了解决上述技术问题,本技术的目的在于提供一种家庭成员识别方法、装置、介质及电子设备。
4.根据本技术的一方面,提供了一种家庭成员识别方法,所述方法包括:
5.分别从多个数据源中获取与手机号码相关联的数据;
6.根据从每一数据源中获取的数据,基于所述数据源对应的家庭圈识别方法进行家庭圈识别,得到所述数据源对应的一类家庭圈,所述家庭圈包括至少一个手机号码;
7.根据各类家庭圈,建立家庭图网络,所述家庭图网络中包括节点和连接两个节点的边,所述家庭图网络中至少一个节点为手机号码,所述边用于指示所连接的两个节点属于一个家庭圈,所述边的权值与识别出所述边所连接的两个节点属于同一个家庭圈的家庭圈识别方法相关联;
8.迭代执行调整家庭图网络步骤,根据执行完本次的调整家庭图网络步骤之后,所述家庭图网络的信息熵不再变化,将调整得到的家庭图网络作为最终家庭图网络,并将所述最终家庭图网络中属于同一家庭圈的节点作为一个家庭的家庭成员,所述调整家庭图网络步骤包括:
9.基于所述家庭图网络迭代执行家庭圈选择步骤,直至所述家庭图网络中的所有节点所属的家庭圈不再变化,其中,所述家庭圈选择步骤包括:针对每一节点,依次尝试将该节点加入与该节点相邻的各家庭圈中,并针对每一与该节点相邻的家庭圈,确定将该节点加入至所述家庭圈时的信息增益值,其中,在首次执行所述家庭圈选择步骤时,将所述家庭图网络中的每一节点作为一个家庭圈;确定各所述信息增益值中的最大信息增益值;根据所述最大信息增益值为非负数,将所述节点加入至所述最大信息增益值对应的家庭圈中;
10.确定所述家庭图网络的信息熵,并根据所述家庭图网络的信息熵确定所述家庭图网络的信息熵是否不再变化。
11.根据本技术的另一方面,提供了一种家庭成员识别装置,所述装置包括:
12.获取模块,被配置为分别从多个数据源中获取与手机号码相关联的数据;
13.识别模块,被配置为根据从每一数据源中获取的数据,基于所述数据源对应的家
庭圈识别方法进行家庭圈识别,得到所述数据源对应的一类家庭圈,所述家庭圈包括至少一个手机号码;
14.建立模块,被配置为根据各类家庭圈,建立家庭图网络,所述家庭图网络中包括节点和连接两个节点的边,所述家庭图网络中至少一个节点为手机号码,所述边用于指示所连接的两个节点属于一个家庭圈,所述边的权值与识别出所述边所连接的两个节点属于同一个家庭圈的家庭圈识别方法相关联;
15.调整模块,被配置为迭代执行调整家庭图网络步骤,根据执行完本次的调整家庭图网络步骤之后,所述家庭图网络的信息熵不再变化,将调整得到的家庭图网络作为最终家庭图网络,并将所述最终家庭图网络中属于同一家庭圈的节点作为一个家庭的家庭成员,所述调整家庭图网络步骤包括:
16.基于所述家庭图网络迭代执行家庭圈选择步骤,直至所述家庭图网络中的所有节点所属的家庭圈不再变化,其中,所述家庭圈选择步骤包括:针对每一节点,依次尝试将该节点加入与该节点相邻的各家庭圈中,并针对每一与该节点相邻的家庭圈,确定将该节点加入至所述家庭圈时的信息增益值,其中,在首次执行所述家庭圈选择步骤时,将所述家庭图网络中的每一节点作为一个家庭圈;确定各所述信息增益值中的最大信息增益值;根据所述最大信息增益值为非负数,将所述节点加入至所述最大信息增益值对应的家庭圈中;
17.确定所述家庭图网络的信息熵,并根据所述家庭图网络的信息熵确定所述家庭图网络的信息熵是否不再变化。
18.根据本技术的另一方面,提供了一种计算机可读程序介质,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行如前所述的方法。
19.根据本技术的另一方面,提供了一种电子设备,所述电子设备包括:
20.处理器;
21.存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如前所述的方法。
22.本技术的实施例提供的技术方案可以包括以下有益效果:
23.本技术所提供的家庭成员识别方法,通过先从多个数据源分别获取数据,然后分别建立每一数据源对应的一类家庭圈,并根据各类家庭圈建立家庭图网络,家庭成员是根据家庭图网络确定出的,相当于构建了家庭成员混合多模态集成识别模型,通过多个数据源的数据和多种家庭圈识别方法的集成,形成了大而全的家庭关系,避免了家庭成员丢失,保证了家庭成员识别的准确性;在此基础上,通过迭代执行调整家庭图网络步骤,对识别出来的家庭关系进行了二次剔除,实现了家庭圈的更为精确的划分,进一步提高了家庭成员识别的准确性。
24.应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本技术。
附图说明
25.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
26.图1是根据一示例性实施例示出的一种家庭成员识别方法的系统架构示意图;
27.图2是根据一示例性实施例示出的一种家庭成员识别方法的流程图;
28.图3是根据一示例性实施例示出的图2中步骤220的细节的流程图;
29.图4是根据一示例性实施例示出的根据网格空间数据建立家庭圈的示意图;
30.图5是根据一示例性实施例示出的根据特征类型选取的指标的示意图;
31.图6是根据一示例性实施例示出的识别用户夜间常驻小区的示意图;
32.图7是根据一示例性实施例示出的家庭图网络的建立和调整过程示意图;
33.图8是根据一示例性实施例示出的家庭图网络的示意图;
34.图9是根据一示例性实施例示出的家庭成员识别结果和通过家庭成员识别方法剔除的家庭成员关系的示意图;
35.图10是根据一示例性实施例示出的一种家庭成员识别装置的框图;
36.图11是根据一示例性实施例示出的一种实现上述家庭成员识别方法的电子设备示例框图;
37.图12是根据一示例性实施例示出的一种实现上述家庭成员识别方法的程序产品。
具体实施方式
38.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
39.此外,附图仅为本技术的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
40.本技术首先提供了一种家庭成员识别方法。家庭是社会生活的基本单位,家庭成员识别是确定同属于一个家庭的人员的方法,在本技术提供的家庭成员识别方法中,家庭成员是手机号码的形式存在的。通过本技术实施例提供的家庭成员识别方法可以实现对家庭成员精准、全面的识别。
41.本技术的实施终端可以是任何具有运算功能的设备,该设备可以与外部设备相连,用于接收或者发送数据,具体可以是便携移动设备,例如智能手机、平板电脑、笔记本电脑、pda(personal digital assistant)等,也可以是固定式设备,例如,计算机设备、现场终端、台式电脑、服务器、工作站等,还可以是多个设备的集合,比如云计算的物理基础设施或者服务器集群。
42.可选地,本技术的实施终端可以为服务器或者云计算的物理基础设施。
43.图1是根据一示例性实施例示出的一种家庭成员识别方法的系统架构示意图。如图1所示,该系统架构包括数据源、模型层以及结果,其中,数据源包括电信业务数据、dpi(deep packet inspection,深度包检测)上网数据、第三方数据以及通话交往圈数据,模型层包括基于规则的统计算法、聚类算法+规则统计、基于规则的统计算法、dnn深度学习,通过这些方法获得了针对用户的初步的家庭关系,模型层还包括5g sa信令数据+固网wifi数据,这些数据用于识别用户夜间常驻小区,模型层还基于初步的家庭关系和用户夜间常驻小区得到图计算模型,识别结果为最终家庭圈,最终家庭圈中可以包括家庭id、本网家庭成
员和异网家庭成员,此处的异网是指不同实体的网络,比如可以是不同运营商的网络。易于理解,识别结果通常是以显示模块的方式体现的,这样可以将识别结果向用户显示和输出。
44.图2是根据一示例性实施例示出的一种家庭成员识别方法的流程图。本实施例提供的家庭成员识别方法可以由服务器执行,如图2所示,包括以下步骤:
45.步骤210,分别从多个数据源中获取与手机号码相关联的数据。
46.多个数据源可以分别为电信业务数据、dpi上网数据、第三方数据、通话交往圈数据。电信业务数据可以包括电信bo域数据和业务平台数据。其中,b域为业务支持系统(business support system)的数据域,o域为操作支持系统(operation support system)的数据域。b域有用户数据和业务数据,比如用户的消费习惯、终端信息、arpu的分组、业务内容,业务受众人群等。o域有网络数据,比如信令、告警、故障、网络资源等。
47.如前所述,家庭成员是以手机号码的方式体现的,因此,需要获取与手机号码相关联的数据以对家庭成员进行识别。获取的与手机号码相关联的数据可以与手机号码直接相关联,也可以与手机号码间接相关联。
48.在本技术实施例中,电信bo域数据可以包括套餐信息、通话清单以及crm(customer relationship management,客户关系管理)资料信息、证件号码、客户联系人、订单联系人等,业务平台可以包括与翼支付、投诉咨询以及itv平台有关的数据,这些数据是与电信公司的具体业务相关的。
49.dpi上网数据是深度包检测(deep packet inspection),其是一种基于数据包的深度检测技术,针对不同的网络应用层载荷(例如http、dns等)进行深度检测。
50.通话交往圈数据是与通话相关的数据,比如可以是通话时间、通话的对方手机号码等通话记录信息。
51.第三方数据是运营商之外的公司或实体所提供的数据,比如可以是街道办统计的个人数据;还可以是一些数据公司或者各种应用程序的主体公司的数据。
52.步骤220,根据从每一数据源中获取的数据,基于所述数据源对应的家庭圈识别方法进行家庭圈识别,得到所述数据源对应的一类家庭圈。
53.所述家庭圈包括至少一个手机号码。
54.每一类家庭圈可以包括多个家庭圈。不同数据源可以采用相同或者不同的家庭圈识别方法进行识别。最终建立的家庭圈即为基于对应的家庭圈识别方法确定出的一个家庭内的家庭成员。
55.图3是根据一示例性实施例示出的图2中步骤220的细节的流程图。如图3所示,步骤220具体可以包括以下步骤:
56.步骤221,根据预定业务规则,对电信业务相关数据进行识别,得到第一类家庭圈。
57.预定业务规则可以包括以下内容:a、将同一套餐下办理的移动号码作为一个家庭圈(客户的证件号码是身份证),这里的同一套餐指的是主副卡融合套餐,同一套餐对应着多个手机号码;b、将同一身份号码的多个套餐作为一个家庭圈;c、将客户联系人和对应的客户作为一个家庭圈;d、将订单联系人和办理业务服务号作为一个家庭圈;e、将投诉号码和被投诉业务号码作为一个家庭圈,这里的投诉号码是拨打客服的手机号码,被投诉业务号码是保修的手机号码;f、将翼支付注册号码和与翼支付注册证件号码相同的客户作为一个家庭圈;g、剔除:三个月无过网记录的家庭关系,过网记录是指不同运营商互相之间的通
话记录。
58.步骤222,从各宽带的深度包检测数据中获取对应的特征数据。
59.所述特征数据包括与预先构建的特征对应的特征值。
60.在大多情况下,宽带也是运营商重要业务之一,宽带与手机号码是绑定的,因此,可以基于宽带来识别家庭成员。如前所述,深度包检测数据是dpi上网数据,对于dpi上网数据,本技术实施例使用了聚类算法和规则统计算法识别家庭成员。
61.首先,通过对dpi上网数据深度解析,解析宽带下上网的终端和号码。具体而言,对dpi上网数据中的ua和cookies信息深度解析,得到宽带下上网的终端及号码。
62.对同一宽带一周连接的终端数和一个终端一周连接的宽带数进行分析,构建特征。具体来说,构建一周下宽带下连接终端数、终端的连接次数、连接时长、白天连接次数、晚上连接次数、白天终端连接数、晚上终端连接数等特征。从而可以根据这些特征来获取相应的特征数据。
63.在一个实施例中,在从各宽带的深度包检测数据中获取对应的特征数据之前,所述方法还包括:根据深度包检测数据确定目标终端在指定时间段内连接的宽带数大于指定数目,将所述深度包检测数据中所述目标终端所对应的数据进行剔除。
64.具体来说,指定时间段可以是一周,指定数目可以为5。如果目标终端在指定时间段内连接的宽带数大于5,说明该目标终端的用户经常移动,其数据并不适合作为用于识别家庭宽带的数据。
65.在本技术实施例中,通过将目标终端所对应的数据进行剔除,提高了识别家庭宽带的准确性。
66.在一个实施例中,在从各宽带的深度包检测数据中获取对应的特征数据之后,所述方法还包括:根据所述深度包检测数据,将在预定时间段内连接的宽带数大于预定数目的手机号码进行剔除。
67.预定时间段也可以是一周,预定数目也可以是5。
68.如果一个手机号码在一段时间内连接的宽带数过多,说明该手机号码的用户是经常移动的,这样即使将该手机号码识别为某一个家庭的家庭成员,也可能识别的不够准确。在本实施例中,通过将这类手机号码剔除,保证了家庭成员识别的准确性。
69.步骤223,对各宽带的特征数据进行聚类处理,并根据聚类结果从各宽带中确定出家庭宽带。
70.可以基于k-means算法、dbscn算法等各种算法对特征数据进行聚类处理。
71.具体来说,通过聚类,可以区分出宽带的类型,宽带的类型可以包括家庭宽带和工作宽带。
72.步骤224,根据所述深度包检测数据,确定连接到同一家庭宽带的手机号码,作为第二类家庭圈。
73.如果多个手机号码连接到了同一个家庭宽带,说明这些手机号码是一个家庭的家庭成员。
74.步骤225,根据网格空间数据,将与同一网格空间地址对应的手机号码作为第三类家庭圈。
75.前面所述的每一类家庭圈均由手机号码组成。网格空间数据是第三方数据,其可
以是街道办的网格员统计的数据,包括各地址和对应的手机号码。
76.基于网格空间数据,也是通过使用规则统计算法来识别家庭成员的。
77.图4是根据一示例性实施例示出的根据网格空间数据建立家庭圈的示意图。如图4所示,根据网格空间数据可以通过识别出异网用户和本网用户来建立家庭圈,一个家庭圈中可以仅包括纯异网用户,还可以同时包括异网用户和本网用户,也可以仅包括本网用户。具体来说,一个网格单元对应着一个网格空间地址,其在实际情况下可能就是一个房间。将同一网格单元下的所有用户视为一个家庭,根据已形成的家庭关系表,若已存在某个异网号码,则根据该号码进行关联合并家庭,比如图4的左侧示出的150****3421和185****2628即为一个房间中的纯异网用户,如果在已形成的家庭关系表中这两个纯异网用户各自关联着其他用户,便可以进行合并。还可以基于本网用户进行家庭成员的识别,对于房间下的异网用户,通过本网号码建立关系,合并为一个家庭。具体而言,若根据crm数据确定一个房间内的宽带为kdyx55****,而该宽带绑定的手机号为153****4597,如果根据网格空间数据确定该房间内还包括一个手机号码为150****3421的异网号码,那么,图4实施例可以将153****4597和150****3421作为一个家庭,也就是说,根据图4实施例,该房间下的异网用户的手机号码与该房间下的宽带业务套餐下手机号码视为一个家庭。
78.在本技术的其他实施例中,还可以基于快递公司、电商平台的数据进行家庭圈的建立。
79.在一个实施例中,在根据网格空间数据,将与同一网格空间地址对应的手机号码作为第三类家庭圈之后,所述根据从每一数据源中获取的数据,基于所述数据源对应的家庭圈识别方法,得到所述数据源对应的一类家庭圈,还包括:提取所述第一类家庭圈、所述第二类家庭圈以及所述第三类家庭圈中手机号码的家庭关系数据和手机号码对应的通话特征数据,所述通话特征数据包括与多个通话特征分别对应的特征值;基于所述通话特征数据训练深度神经网络模型,得到家庭成员识别模型,并根据家庭成员识别模型进行家庭成员识别,得到手机号码对;根据手机号码对调整所述第一类家庭圈、所述第二类家庭圈以及所述第三类家庭圈。
[0080][0081]
表1
[0082]
请参见表1所示,经过测试评估发现,采用dnn深度学习方法的召回率为78%,覆盖率为69%,整体上明显优于其他传统算法。
[0083]
深度神经网络(deep neural networks,dnn)模型是一种基于神经元连接建立的模型,在本技术的其他实施例中,还可以采用其他机器学习或者深度学习模型。
[0084]
具体来说,可以从稳定性、持续性、频繁性、波动性、通话时间段的聚集性、共同联系人、通话时长等维度来选取指标来构造通话特征。图5是根据一示例性实施例示出的根据特征类型选取的指标的示意图。特征类型相当于一个指标选择的维度,而指标即为选出的通话特征。其中,稳定性指话务关系的稳定,成员间倾向于保持联系,例如每天或一个月内多数情况都会有话务关系;指标举例:月内通话天数占比。持续性指话务关系的长久;指标举例:最长连续通话天数、最长连续通话周数、最长连续通话月数。频繁性指家庭成员间会有频繁的话务行为;指标举例:日均通话次数、月通话次数排名。波动性指工作日话务波动性高于休息日/节假日波动性显著高于工作日;指标举例:休息日与节假日标准差/工作日工作时间段标准差。通话时间段的聚集性指在工作日,家庭成员间的通话趋向于在非工作时间段(早上上班路上、午休、下班回家路上);指标举例:工作日非工作时间段通话次数占比。共同联系人指从共同联系人数量这个维度去分析家庭与其他关系的区别。
[0085]
在本技术实施例中,通过构建基于深度神经网络模型的家庭成员识别模型,而且训练模型所使用的数据是基于各类家庭圈对应的数据,再基于通过家庭成员识别模型识别出的手机号码对来对已生成的家庭圈进行调整,进一步提高了家庭成员识别的准确性。
[0086]
在本技术其他实施例中,还可以利用家庭成员识别模型的识别结果单独构建第四类家庭圈。
[0087]
在一个实施例中,在提取所述第一类家庭圈、所述第二类家庭圈以及所述第三类家庭圈中手机号码的通话特征数据之前,所述方法还包括:根据手机号码的信令数据和宽带装机地址,确定各手机号码对应的夜间常驻小区;所述提取所述第一类家庭圈、所述第二
类家庭圈以及所述第三类家庭圈中手机号码的家庭关系数据和手机号码对应的通话特征数据,包括:提取所述第一类家庭圈、所述第二类家庭圈以及所述第三类家庭圈中手机号码的家庭关系数据,并根据同一家庭圈内手机号码对应的夜间常驻小区不一致,对所述家庭关系数据进行调整;提取各手机号码对应的通话特征数据。
[0088]
图6是根据一示例性实施例示出的识别用户夜间常驻小区的示意图。具体来说,请参见图6,对于本网用户,基于信令数据和宽带装机地址识别家庭中本网用户的夜间常驻小区,这里的信令数据例如可以是4g或5g信令数据。对于异网用户,可以根据异网用户上网wifi位置和异网用户归属模型识别家庭中异网用户的夜间常驻小区。最终在输出家庭圈数据时,可以为所有识别出家庭关系的用户,增加夜间是否在一起居住的属性,居住在同一小区的,该属性值为1,否则,该属性值为0。
[0089]
在本技术实施例中,通过根据手机号码的夜间常驻小区对家庭关系数据进行调整,能够过滤亲戚、同事、朋友等非家庭成员,保证了数据的准确性,从而提高了训练得到的家庭成员识别模型的准确性。
[0090]
在一个实施例中,所述根据所述深度包检测数据,确定连接到同一家庭宽带的手机号码,作为第二类家庭圈,包括:根据所述深度包检测数据确定连接到家庭宽带的手机号码为异网手机号码,将所述深度包检测数据中的第三方应用程序标识和连接到所述家庭宽带的手机号码,作为第二类家庭圈;所述方法还包括:根据所述深度包检测数据中所述第三方应用程序标识对应的上网wifi位置,识别所述第三方应用程序标识对应的夜间常驻小区。
[0091]
具体来说,对于识别不到号码的异网号码,可以采用微信openid替代号码补充异网用户,这里的微信openid即为第三方应用程序标识。微信openid是通过dpi数据里的cookie信息中解析出来的。因此,本技术实施例还可以对异网用户实现有效的家庭成员识别,而且对异网用户的夜间常驻小区也能够精准识别。
[0092]
步骤230,根据各类家庭圈,建立家庭图网络。
[0093]
所述家庭图网络中包括节点和连接两个节点的边,所述家庭图网络中至少一个节点为手机号码,所述边用于指示所连接的两个节点属于一个家庭圈,所述边的权值与识别出所述边所连接的两个节点属于同一个家庭圈的家庭圈识别方法相关联。
[0094]
边的权值是边的属性值。由于家庭圈识别方法是分别与一个数据源对应的,那么,因此,边的权值也与数据源相对应。
[0095]
在建立的家庭图网络中,每一节点对应着一个用户或家庭成员,节点可能是手机号码,还可能是前面所说的第三方应用程序标识。
[0096]
如果根据四类数据源建立了四类家庭圈,那么,可以利用层次分析法为每一类家庭圈中的家庭关系分别赋予权重w1、w2、w3以及w4。那么边的权值可以为:w=w1+w2+w3+w4。
[0097]
在一个实施例中,所述方法还包括:根据同一家庭圈内手机号码对应的夜间常驻小区不一致,调整所述家庭图网络中节点之间的边的权值。
[0098]
具体而言,最终边的权值可以为:w=(w1+w2+w3+w4)*w5。这里的w5为调整系数,如果用户夜间居住在同一小区,w5=1;否则,w5为极小值,比如可以为0、0.01等,其中,将w5设置为0.01可以在家庭图网络中保留家庭关系的痕迹。这样就达到了调节边的权值的目的。
[0099]
在本技术实施例中,通过根据用户在夜间的居住情况调节边的权值,使得家庭图
网络能够对家庭关系表示得更为准确。
[0100]
图8是根据一示例性实施例示出的家庭图网络的示意图。如图8所示,家庭图网络相当于一个图模型,其包括a、b、c等若干节点,节点之间的边上的数字即为权重。
[0101]
在一个实施例中,所述方法还包括:根据同一家庭圈内手机号码对应的夜间常驻小区不一致,将所述家庭图网络中相应节点之间的边删除。
[0102]
由于在手机号码对应的夜间小区不一致的情况下,这些手机号对应的节点往往不是家庭成员的关系。在本技术实施例中,通过将这些节点之间的边删除,保证了所建立的家庭图网络的准确性。
[0103]
步骤240,迭代执行调整家庭图网络步骤,根据执行完本次的调整家庭图网络步骤之后,所述家庭图网络的信息熵不再变化,将调整得到的家庭图网络作为最终家庭图网络,并将所述最终家庭图网络中属于同一家庭圈的节点作为一个家庭的家庭成员。
[0104]
其中,所述调整家庭图网络步骤包括:
[0105]
基于所述家庭图网络迭代执行家庭圈选择步骤,直至所述家庭图网络中的所有节点所属的家庭圈不再变化,其中,所述家庭圈选择步骤包括:针对每一节点,依次尝试将该节点加入与该节点相邻的各家庭圈中,并针对每一与该节点相邻的家庭圈,确定将该节点加入至所述家庭圈时的信息增益值,其中,在首次执行所述家庭圈选择步骤时,将所述家庭图网络中的每一节点作为一个家庭圈;确定各所述信息增益值中的最大信息增益值;根据所述最大信息增益值为非负数,将所述节点加入至所述最大信息增益值对应的家庭圈中;
[0106]
确定所述家庭图网络的信息熵,并根据所述家庭图网络的信息熵确定所述家庭图网络的信息熵是否不再变化。
[0107]
当最大信息增益值为负数时,如果已经将节点加入至家庭圈,需要将其放回原来的家庭;如果未将节点加入至家庭圈,无需执行额外的操作。
[0108]
具体来说,当执行完本次的调整家庭图网络步骤之后,家庭图网络的信息熵与在执行本次调整家庭图网络步骤之前家庭图网络的信息熵相同,那么可以认为:执行完本次的调整家庭图网络步骤之后,家庭图网络的信息熵不再变化。
[0109]
图7是根据一示例性实施例示出的家庭图网络的建立和调整过程示意图。
[0110]
如图7所示,该过程包括以下步骤:
[0111]
1、基于已获取具备家庭关系的号码对,构建家庭图网络。
[0112]
以识别出的在同一家庭圈中的手机号码和第三方应用程序标识作为节点,根据节点对应的家庭关系建立节点之间的边,各个边之间的权值可以设置为w=(w1+w2+w3+w4)*w5。
[0113]
2、计算所有与其连接节点的信息增益值。
[0114]
最初将每一节点作为一个家庭圈,依次尝试将每一节点加入与该节点相邻的各家庭圈中,并利用如下公式计算信息增益值:
[0115][0116]
其中,为信息增益值,k
i,j
为节点i到第j个家庭圈的边的权值之和,ki为指向节点i的所有边的权值和,∑
tot
为与家庭圈内节点相连的边的权值之和,m为家庭图网络中所有边的权值之和。
[0117]
3、最大信息增益值且增益值大于0的节点进行合并。
[0118]
将一个节点依次加入至与该节点相邻的家庭圈中之后,若将节点加入一个家庭圈产生最大的信息增益值,且该信息增益值大于0,就将该节点与该家庭圈进行合并。
[0119]
4、遍历家庭图网络中的所有节点,形成新的图。
[0120]
循环往复地针对每一节点都执行上述操作,直至所有节点所处的家庭关系都不再发生变化,得到新的家庭图网络。随着对节点的遍历,家庭圈中可能包括多个节点,可以把一个家庭圈作为一个超节点,那么家庭圈中节点之间的边便对应着超节点的一条自环边。
[0121]
5、比较合并前后的信息熵是否相等。
[0122]
每执行一轮步骤2-4计算一次信息熵,在执行一轮步骤2-4之前确定的信息熵为节点合并前的信息熵;执行一轮步骤2-4之后确定的信息熵为节点合并后的信息熵。判断两者是否相等,如果是,则结束流程;否则,继续执行步骤2-4。
[0123]
信息熵可以利用如下公式进行计算:
[0124][0125]
其中,q为信息熵,m是家庭图网络中所有边的权值和;a
ij
代表的是节点i和节点j之间的边的权值;ki是所有指向节点i的边的权值和;kj是所有指向节点j的边的权值和;δ(ci,cj)用于判断i节点和j节点是否是属于同一个家庭,当i节点和j节点在同一个家庭时,δ(ci,cj)的值为0,否则,δ(ci,cj)的值为1。
[0126]
在获得最终家庭图网络之后,可以将最终家庭图网络中每一个家庭圈的节点作为识别出的一个家庭的家庭成员输出。
[0127]
本技术的发明人还对最终识别结果进行了抽样验证,对最终识别的家庭成员,采取抽样的方法进行验证。对机关、企业、商户等群体进行平均抽样,分本地网共抽样了1000份数据,经验证家庭成员的准确率达到92%,覆盖率达到81%,较传统方法都有大幅度提升。
[0128]
图9是根据一示例性实施例示出的家庭成员识别结果和通过家庭成员识别方法剔除的家庭成员关系的示意图。在图9中,左侧的表格为家庭成员识别结果,右侧的表格为通过家庭成员识别方法剔除的家庭成员关系。
[0129]
经过识别和验证,可以得到以下结论:
[0130]
1、153xxxx4551和153xxxx4035是同一套餐下的号码,但是这两个号码的夜间常驻基站不同,被算法剔除。从调研的结果来看,153xxxx4551把153xxxx4035这个号码给侄子使用了,与事实吻合。
[0131]
2、187xxxx5021和135xxxx6795从通话特征来说,具有强烈的家庭成员关系。135xxxx6795这个号码是异网号码,无法通过信令数据直接获悉该用户的夜间位置。但通过该用户的wifi上网的宽带地址,获取了用户的夜间位置是在另外一个城市,属于亲戚关系,与事实吻合。
[0132]
3、用户wx1235678xx12是153xxxx4551的妹妹,同时是一个异网号码,平时基本不用电话联系,主要靠微信联系,通过对dpi的深度解析,我们把采集到的微信openid代替手机号码补充到了家庭成员中。
[0133]
综上所述,基于本技术实施例提供的家庭成员识别方法,通过构建多模态集成算
法,对电信bo域数据、业务平台数据、dpi上网数据、通话交往圈和第三方数据综合建模,形成大而全的家庭关系,避免的家庭成员丢失问题;集成了多个算法,并构建一种基于信息熵的图计算模型,在大而全的家庭成员基础上,进行二次剔除,又保障了家庭成员的识别精准度;采用多种基于业务整合的划分正样本的方式,如基于套餐、基于联系人、基于业务平台(如翼支付、投诉咨询)等数据来扩充正样本,同时剔除不常住在一起的家庭成员,有效防止样本不平衡的问题;同时,根据微信openid有效标注异网数据,扩充异网家庭成员,并根据异网归属模型有效判断异网位置,提高家庭成员识别的准确率和查全率;最后,通过采用5g信令数据对家庭成员的夜间常驻小区进行识别,通过设置较小的边权阈值,能够进一步过滤亲戚、朋友、同事等干扰因子。
[0134]
本技术实施例提供的家庭成员识别方法还可以具有其他营业场景,比如,以家庭为视角,全方位刻画家庭通信产品构成及使用情况,准确识别每个家庭的产品空间、价值空间和终端生命周期情况,为形成“一户一案”精准营销策略奠定基础。进一步发掘经营空间,包括用户空间(对异网家庭成员进行家庭融合或异网策反)、产品空间(家庭内还有哪些产品可发展)和价值空间(家庭内电信产品是否可以提值、迁转)等。
[0135]
在通信市场全业务竞争的市场格局下,本技术实施例的方案可促使电信业务从以“产品为中心”向以“客户为中心”进行转换,开展以客户需求为导向的市场经营策略。通过家庭用户业务特征进行分析,可对家庭用户进行细分,为家庭用户精细化营销奠定基础,节省资源成本,提高营销精准度。
[0136]
除了对电信传统业务进行支撑,家庭圈数据在与其他行业合作时,也十分具有价值,如:
[0137]
房产行业可以基于家庭圈数据,以家庭为单位,从家庭收入、家庭人数、房产信息、是否有学前适龄小孩、是否有适婚家庭成员等维度构建购房需求模型,辅助房产行业精准营销;还有诸如旅游行业、汽车行业、金融行业、教育行业等行业均有合作价值和空间。
[0138]
本技术还提供了一种家庭成员识别装置,以下是本技术的装置实施例。
[0139]
图10是根据一示例性实施例示出的一种家庭成员识别装置的框图。如图10所示,装置1000包括:
[0140]
获取模块1010,被配置为分别从多个数据源中获取与手机号码相关联的数据;
[0141]
识别模块1020,被配置为根据从每一数据源中获取的数据,基于所述数据源对应的家庭圈识别方法进行家庭圈识别,得到所述数据源对应的一类家庭圈,所述家庭圈包括至少一个手机号码;
[0142]
建立模块1030,被配置为根据各类家庭圈,建立家庭图网络,所述家庭图网络中包括节点和连接两个节点的边,所述家庭图网络中至少一个节点为手机号码,所述边用于指示所连接的两个节点属于一个家庭圈,所述边的权值与识别出所述边所连接的两个节点属于同一个家庭圈的家庭圈识别方法相关联;
[0143]
调整模块1040,被配置为迭代执行调整家庭图网络步骤,根据执行完本次的调整家庭图网络步骤之后,所述家庭图网络的信息熵不再变化,将调整得到的家庭图网络作为最终家庭图网络,并将所述最终家庭图网络中属于同一家庭圈的节点作为一个家庭的家庭成员,所述调整家庭图网络步骤包括:
[0144]
基于所述家庭图网络迭代执行家庭圈选择步骤,直至所述家庭图网络中的所有节
点所属的家庭圈不再变化,其中,所述家庭圈选择步骤包括:针对每一节点,依次尝试将该节点加入与该节点相邻的各家庭圈中,并针对每一与该节点相邻的家庭圈,确定将该节点加入至所述家庭圈时的信息增益值,其中,在首次执行所述家庭圈选择步骤时,将所述家庭图网络中的每一节点作为一个家庭圈;确定各所述信息增益值中的最大信息增益值;根据所述最大信息增益值为非负数,将所述节点加入至所述最大信息增益值对应的家庭圈中;
[0145]
确定所述家庭图网络的信息熵,并根据所述家庭图网络的信息熵确定所述家庭图网络的信息熵是否不再变化。
[0146]
根据本技术的第三方面,还提供了一种能够实现上述方法的电子设备。
[0147]
所属技术领域的技术人员能够理解,本技术的各个方面可以实现为系统、方法或程序产品。因此,本技术的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
[0148]
下面参照11来描述根据本技术的这种实施方式的电子设备1100。图11显示的电子设备1100仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
[0149]
如图11所示,电子设备11100以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于:上述至少一个处理单元1110、上述至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130。
[0150]
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1110执行,使得所述处理单元1110执行本说明书上述“实施例方法”部分中描述的根据本技术各种示例性实施方式的步骤。
[0151]
存储单元1120可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)1121和/或高速缓存存储单元1122,还可以进一步包括只读存储单元(rom)1123。
[0152]
存储单元1120还可以包括具有一组(至少一个)程序模块1125的程序/实用工具1124,这样的程序模块1125包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0153]
总线1130可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0154]
电子设备1100也可以与一个或多个外部设备1300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1100交互的设备通信,和/或与使得该电子设备1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口1150进行,比如与显示单元1140通信。并且,电子设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器1160通过总线1130与电子设备1100的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0155]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本技术
实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本技术实施方式的方法。
[0156]
根据本技术的第四方面,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本技术的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本技术各种示例性实施方式的步骤。
[0157]
参考图12所示,描述了根据本技术的实施方式的用于实现上述方法的程序产品1200,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本技术的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0158]
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0159]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0160]
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
[0161]
可以以一种或多种程序设计语言的任意组合来编写用于执行本技术操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0162]
此外,上述附图仅是根据本技术示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
[0163]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并
且可以在不脱离其范围执行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1