一种利用手机信令数据识别家庭关系的方法

文档序号:30064433发布日期:2022-05-18 00:32阅读:155来源:国知局
一种利用手机信令数据识别家庭关系的方法

1.本发明属于交通运输技术领域。利用手机信令数据准确推算手机用户之间的家庭关系,可进一步用于通勤空间特征、出行规律分析等。


背景技术:

2.家庭是分析交通出行规律或通勤空间特征的重要单元结构,该数据往往通过人口普查或交通出行调查等人工手段获取,如居民出行调查。人工调查内容虽较为全面,但存在调查周期长、调查范围小和耗费巨大资源等缺点,尤其疫情期间,该方式存在重大安全风险。
3.手机信令数据是用户对外通信时,手机与附近的基站进行连接产生的数据,它具有时间上连续、空间上完整、覆盖范围广、细粒度高等优势,弥补了人工调查中周期长、调查范围小等缺陷,采用手机信令数据进行解析,获取信令数据中用户间家庭关系,为职住空间特征分析、城市规划方案的制定提供依据。手机信令数据包含用户唯一标识码、时间戳、基站编号、经度、纬度和通话对象等信息,如表1所示。
4.表1:手机信令数据信息
5.

技术实现要素:

6.本发明提出一种利用手机信令数据准确识别家庭关系的方法,家庭关系的识别可弥补人口普查以及交通调查方式中周期长的缺陷,同时该家庭关系可支持城市通勤空间特征分析等,为城市的发展规划提供依据。
7.具体实现方法如下:
8.定义待计算的全部手机信令数据集为u={u1,u2…
ui},ui表示用户i的手机信令数据集,ui={u
i,1
,u
i,2
…ui,j
},u
i,j
表示用户i的第j条手机信令数据,u
i,j
={u_idi,t
i,j
,lon
i,j
,lat
i,j
,area
i,j
,cu
i,j
},其中,u_idi、t
i,j
、lon
i,j
、lat
i,j
、area
i,j
、cu
i,j
分别表示用户i第j条手机信令数据的用户唯一标识码、数据产生的时间戳、通讯基站经度、通讯基站纬度、基站所属交通小区和通讯对象编码。
9.具体步骤如下:
10.步骤1:数据预处理:定义夜间时段为当日20:00:00—23:59:59和次日00:00:00—
7:00:00,对用户ui的信令数据按事件发生时间先后排序,提取t
i,j
在夜间范围内的数据记录,根据定义的夜间序列,根据用户信令数据的时间将数据与相应的夜间时段对应,构建夜间数据集合b={b
i,1
,b
i,2
…bi,m
},b
i,m
表示在第m个夜间时段用户ui的手机信令数据构成的集合;
11.步骤2:居住地位置识别:计算用户ui的夜间居住地,以b为对象,第m个夜间内,用户连接基站所属交通小区area
i,j
的停留时长,一定周期内,通过对相同基站所属交通小区的夜间停留时间进行累加,选取停留时长最大的基站所属交通小区,作为用户ui的居住地,记为记为和分别代表居住地的经度和纬度,即夜间停留时长最大的基站所属交通小区的质心坐标;
12.步骤3:居住地距离比较:分别对其余所有用户q={q1,q2,...,qn},i≠n,n为自然数,且n》0,进行居住地判断,即循环步骤1和步骤2中操作,并分别计算集合q与用户ui的居住地间直线距离其中为用户qn的居住地位置信息,即用户qn夜间停留时长最大的基站所属交通小区的质心坐标,取出d中元素小于1km的用户,形成该用户的数据集z,同时构建用户对集合其中,v为自然数,且v》0,n为自然数,且n》0,指用户qv与用户ui的唯一标识码连接起来的用户对;d中元素大于或等于1km的用户则认为无家庭关系;
13.步骤4:通话特征指标提取,计算集合qui中每一个元素的特征指标,即每一个用户对的特征指标,包括以下四个指标:
14.1)夜间居住地相同的天数:夜间范围内,相较于非家庭成员,具有家庭关系的用户往往具有共同居住地点,因此提出“夜间居住地相同的天数”,记为即在t周期内,用户对的夜间居住地相同的天数;
15.2)通话的天数:相较于非家庭关系的用户,家庭成员间的通话行为更为稳定,提出指标“通话的天数”,记为即用户对在t周期内存在通话行为的天数;
16.3)夜间通话频率:由于家庭成员间的共同居住行为,夜间通话频率较少,与非家庭关系用户具有显著区别,提出“夜间通话频率”指标,即计算公式如下:
[0017][0018]
其中,指用户qv与用户ui在t周期内夜间时的通话总次数,指qui中每一个用户对在t周期内夜间的通话次数的和;
[0019]
4)晚高峰通话频率:定义晚高峰时段为17:00—19:00,并提出“晚高峰通话频率”指标,即指用户对在周期t内的晚高峰期间的通话频率:
[0020][0021]
其中,指在t周期内,用户ui与用户qv在晚高峰时段内的通话总次数,指用户对在t周期内的通话总次数;
[0022]
为qui中每一个用户对构建特征集
[0023]
步骤5:利用决策树的分类规则,去除不可能具有家庭关系的用户,根据的特征集合p中的夜间居住地相同的天数和通话天数两个指标进行判断,当两用户的夜间居住地相同的天数为0时,两用户间不可能存在居住上的家庭关系,当夜间居住地相同的天数大于0时,若两用户间在一定周期内的通话天数大于0时,则认为两用户间“可能存在家庭关系”,否则为非家庭关系,基于此,提取出“可能存在家庭关系”的用户对的特征集合,f为自然数,且f》0,v为自然数,且v》0,gfui指用户对
[0024]
步骤6:基于knn算法的家庭关系分类:根据人工样本中已知的家庭用户对和非家庭用户对,利用同样的方法构建用户对特征集合w,同时标定用户对的关系,n为自然数,且n》0,saha指用户对l
aa
指用户对之间的家庭关系标签,对“可能存在家庭关系”的用户对特征集合f为自然数,且f》0,v为自然数,且v》0,进一步使用knn算法进行分类,过程如下:
[0025]
(1)首先,计算“可能存在家庭关系”的用户对特征集合f为自然数,且f》0,v为自然数,且v》0,与已知标签的集合w中的之间的欧氏距离,计算公式为构建欧式距离集合e={e1,e2,...,ea},ea表示用户对与用户对之间的欧氏距离;
[0026]
(2)将欧式距离集合e按照距离值的大小进行递增排序;
[0027]
(3)选取前3个样本,确定前3个样本所在类别出现的频率并输出出现频率最高的类别;
[0028]
步骤7:家庭关系判别,当前3个样本中频率最高的类别为家庭关系时,此时用户对
为家庭关系,当前3个样本中频率最高的类别为非家庭关系时,此时用户对为非家庭关系。
[0029]
本发明具有以下有益效果:
[0030]
该发明的基础数据来源于手机信令数据,相对依靠传统的人工调查手段,该方法无须另外布置采集设备,具有覆盖人群范围大、时间上连续和空间上完整的特点,为挖掘家庭关系提供全方位支撑。
附图说明
[0031]
图1.夜间范围示意图
[0032]
图2.决策树过程示意图
[0033]
图3.本方法流程示意图
具体实施方式
[0034]
下面结合附图对本发明详细描述其具体实施过程。以某地区手机信令数据为例进行说明,如表2。
[0035]
表2:手机信令数据
[0036]
[0037][0038]
具体步骤如下:
[0039]
步骤1:数据预处理:定义夜间时段为当日20:00:00—23:59:59和次日00:00:00—7:00:00,对用户ui的信令数据按事件发生时间先后排序,提取t
i,j
在夜间范围内的数据记录,根据定义的夜间序列(见附图1),根据用户信令数据的时间将数据与相应的夜间时段对应,构建夜间数据集合b={b
i,1
,b
i,2
…bi,m
},b
i,m
表示在第m个夜间时段用户ui的手机信令数据构成的集合,以用户u1=“3916”为例,表3展示了第一个夜间时段(b
1,1
)的手机信令数据集;
[0040]
表3:夜间手机信令数据
[0041][0042]
步骤2:居住地位置识别:计算用户ui的夜间居住地,以b为对
[0043]
象,第m个夜间内,用户连接基站所属交通小区area
i,j
的停留时长,一定周期内,通过对相同基站所属交通小区的夜间停留时间进行累加,选取停留时长最大的基站所属交通小区,作为用户ui的居住地,记为的居住地,记为和分别代表居住地的经度和纬度,即夜间停留时长最大的基站所属交通小区的质心坐标,以用户u1=“3916”为例,经计算其停留时长最大的基站所属交通小区(area=“4177”)的质心坐标为(即居住地):
[0044]
步骤3:居住地距离比较:分别对其余所有用户q={q1,q2,...,qn}i≠n,n为自然数,且n》0,进行居住地判断,即循环步骤1和步骤
[0045]
2中操作,并分别计算集合q与用户ui的居住地间直线距离其中为用户qn的居住地位置信息,即用户qn夜间停留时长最大的基站所属交通小区的质心坐标,取出d中元素小于1km的用户,形成该用户的数据集z,同时构建用户对集合其中,v为自然数,且v》0,n为自然数,且n》0,指用户qv与用户ui的唯一标识码连接起来的用户对,对用户q2、q3、q4,即对u_id=“1333”、“2924”、“1005”进行居住地判断,经计算用户q2、q3、q4的夜间停留时长最大的基站所属交通小区的质心坐标(即居住地)分别为为经计算q2与u1之间的直线距离为0.8km,q3与u1之间的直线距离为0km,q4与u1之间的直线距离为1.9km,d={0.8,0,1.9},用户对之间的距离不满足条件,因此构建用户对
[0046]
步骤4:通话特征指标提取,计算用户对的特征指标,包括以下四个指标,本例中t=7,单位:天:
[0047]
1)夜间居住地相同的天数:经计算,用户对的夜间居住地相同的
天数,用户对的夜间居住地相同的天数,
[0048]
2)通话的天数:经计算
[0049]
3)夜间通话频率:分别计算与的夜间通话频率指标:
[0050][0051][0052]
4)晚高峰通话频率:通过计算,与的晚高峰时段的通话频率为:
[0053][0054][0055]
为qu1中每一个用户对与构建特征集
[0056]
步骤5:利用决策树的分类规则,去除不可能具有家庭关系的用户,根据决策树规则,当夜间居住地相同的天数等于0时,两用户间为非家庭关系,因此,用户对属于“非家庭关系”一类,同理,用户对属于“可能存在家庭关系”一类,提取出用户对的特征集合,即
[0057]
步骤6:基于knn算法的家庭关系分类:已知用户对关系的特征集合w见表4(仅列出部分),对特征集合进一步使用knn算法进行分类,过程如下:
[0058]
(1)计算与已知标签的集合w中的每一个用户对特征集之间的欧氏距离,e={3.6,1.4,3.2,3.6};
[0059]
(2)将欧式距离集合e按照距离值的大小进行递增排序为e={1.4,3.2,3.6,3.6};
[0060]
(3)在前3个样本的类别中,“家庭关系”类别出现的频率为“非家庭关系”类别出现的频率为
[0061]
步骤7:家庭关系判别,由于因此,用户对的关系为家庭关系。
[0062]
表4特征集合w
[0063][0064]
最后应说明的是:以上示例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的示例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1