网约车司机识别方法、装置、服务器及存储介质与流程

文档序号:33955572发布日期:2023-04-26 15:04阅读:51来源:国知局
网约车司机识别方法、装置、服务器及存储介质与流程

本发明涉及无线通信,尤其涉及一种网约车司机识别方法、装置、服务器及存储介质。


背景技术:

1、当前运营商的用户标签主要与通信相关,比较缺乏用户职业等社会属性相关的标签。职业标签的社群识别根据数据被真实标记的程度可以分为监督分类、半监督分类、无监督分类。由于一般用户对运营商不主动透露职业信息,因此用户几乎完全没有被打上职业标签。

2、现有技术中,用户职业推断与群体发现识别有一大部分都是基于或多或少被标记过的数据集,是一种对于已知标签的“拟合”方法。另外,还有少部分技术使用自定的规则和阈值,根据一些用户特征计算出它对某一部分职业的置信度,再使用这些置信度去生成职业判断。

3、然而,发明人发现,现有技术中的职业推断和群体识别方法依赖于职业标签、职业空间的选取、规则和阈值的合理性,对于没有职业标签的用户难以进行社群划分与识别。


技术实现思路

1、本发明提供一种网约车司机识别方法、装置、服务器及存储介质,以解决现有技术中存在的职业推断和群体识别方法依赖于职业标签,对于没有职业标签的用户难以进行社群划分与识别的问题。

2、第一方面,本发明提供一种网约车司机识别方法,包括:

3、获取任意多种网约车平台的司机端app中进行网络通信所使用的第一网络地址和乘客端app中进行网络通信所使用的第二网络地址,判断所述第一网络地址和第二网络地址中是否存在相同字段;

4、若所述第一网络地址和第二网络地址中不存在相同字段,则将访问过所述第一网络地址的用户标记为网约车司机;

5、若所述第一网络地址和第二网络地址中存在相同字段,则在用户移动网络详单中筛选出预设时间段内使用过所述网约车平台的用户,构建司机和乘客混合的用户集合;

6、在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个平台使用特征;

7、在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个空间移动特征;

8、将所述平台使用特征和所述空间移动特征的特征值进行标准化,将所有经过标准化的特征值堆叠起来,得到每个用户的行为特征向量;

9、对所有用户的行为特征向量进行聚类处理,得到目标聚类结果;

10、根据所述目标聚类结果,从所有用户中筛选出网约车司机的用户,并标记为网约车司机。

11、在一种可能的设计中,其中所述平台使用特征包括两个:最长连续访问网约车平台的时长和连续访问网约车平台的时长之和;相应地,所述在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个平台使用特征,包括:在所述用户移动网络详单中,筛选出当前用户的移动网络详单中属于网约车平台的网络地址,将所述属于网约车平台的网络地址的开始时间按照升序排列,所述属于网约车平台的网络地址的条目数量为n;初始化一个用于记录第n条网络地址连续访问网约车平台的时长的列表l=[0],初始化一个记忆变量min_last的初始值,所述min_last的取值为记录的第1条网络地址的开始时间所在的分钟;计算记录的第a条网络地址的开始时间所在分钟与min_last的差值,若差值为0,则忽略这一记录;若差值为1,则令l[-1]=l[-1]+1,其中,l[-1]表示l中末位的值;若差值大于1,则在l中的末位插入0,同时将所述min_last重新赋值为第a条记录的开始时间的所在分钟;判断a是否小于等于n;若是,则令a=a+1,并重复计算第a条记录的开始时间所在分钟与所述min_last的差值这一步骤;若否,则取l中的最大的值max(l)、以及l中每一数值的和sum(l)作为当前用户当天的平台使用特征;其中,max(l)代表最长连续访问网约车平台的时长,sum(l)代表连续访问网约车平台的时长之和。

12、在一种可能的设计中,其中所述空间移动特征包括两个:连接的lac的数量和lac集合的jaccard相关系数;相应地,所述在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个空间移动特征,包括:将当前用户第a天所有的连接过的位置区码lac去重,构建集合,记为lacs_last,并记录集合lacs_last中元素的个数;将当前用户第a+1天所有的连接过的位置区码lac去重,构建集合,记为lacs_current,并记录集合lacs_current中元素的个数;将集合lacs_current和集合lacs_last的交集中的元素个数除以集合lacs_current和集合lacs_last的并集中的元素个数,得到jaccard相关系数;将用户连接过的位置区码lac的集合大小和jaccard相关系数堆叠起来,得到所述空间移动特征,其中,所述用户连接过的位置区码lac的集合大小代表所述连接的lac的数量,所述jaccard相关系数代表所述lac集合的jaccard相关系数。

13、在一种可能的设计中,所述将所述平台使用特征和所述空间移动特征的特征值进行标准化,将所有经过标准化的特征值堆叠起来,得到每个用户的行为特征向量,包括:分别计算所有用户中的每个用户在预设天数内的平台使用特征和空间移动特征的平均值和方差;将每个用户在预设天数内的平台使用特征和空间移动特征的特征值与所述平均值的差值除以所述方差,得到标准化的平台使用特征和空间移动特征的特征值;将所述标准化的平台使用特征和空间移动特征的特征值拼接成向量,得到每个用户的行为特征向量。

14、在一种可能的设计中,所述对所有用户的行为特征向量进行聚类处理,得到目标聚类结果,包括:采用不同的聚类数目对所述特征向量进行k均值聚类,得到多个聚类结果,并计算各聚类结果的轮廓系数;从所有的聚类结果中筛选出所述轮廓系数大于预设数值的目标聚类结果,得到目标聚类结果所对应的目标聚类数目。

15、在一种可能的设计中,所述根据所述目标聚类结果,从所有用户中筛选出网约车司机的用户,并标记为网约车司机,包括:将所述目标聚类数目对应的聚类中的类按照特征值大小降序排列,按照排列顺序将所述聚类中的类分为两组,第一组假设为网约车司机,第二组假设为乘客;计算第一组和第二组中的用户数量比,筛选出所述用户数量比与实际比值的差值的绝对值最小的两组,将筛选出的两组中的第一组的用户标记为网约车司机,第二组的用户标记为乘客;其中,所述实际比值为预先调查得到的网约车行业的司机乘客比。

16、第二方面,本发明提供一种网约车司机识别装置,包括:

17、获取模块,用于获取任意多种网约车平台的司机端app中进行网络通信所使用的第一网络地址和乘客端app中进行网络通信所使用的第二网络地址,判断所述第一网络地址和第二网络地址中是否存在相同字段;

18、第一标记模块,用于若所述第一网络地址和第二网络地址中不存在相同字段,则将访问过所述第一网络地址的用户标记为网约车司机;

19、构建模块,用于若所述第一网络地址和第二网络地址中存在相同字段,则在用户移动网络详单中筛选出预设时间段内使用过所述网约车平台的用户,构建司机和乘客混合的用户集合;

20、第一统计模块,用于在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个平台使用特征;

21、第二统计模块,用于在所述用户移动网络详单中,按照预设采集间隔统计所述用户集合中每个用户的至少一个空间移动特征;

22、标准化模块,用于将所述平台使用特征和所述空间移动特征的特征值进行标准化,将所有经过标准化的特征值堆叠起来,得到每个用户的行为特征向量;

23、聚类模块,用于对所有用户的行为特征向量进行聚类处理,得到目标聚类结果;

24、第二标记模块,用于根据所述目标聚类结果,从所有用户中筛选出网约车司机的用户,并标记为网约车司机。

25、在一种可能的设计中,所述第一统计模块具体用于,其中所述平台使用特征包括两个:最长连续访问网约车平台的时长和连续访问网约车平台的时长之和;在所述用户移动网络详单中,筛选出当前用户的移动网络详单中属于网约车平台的网络地址,将所述属于网约车平台的网络地址的开始时间按照升序排列,所述属于网约车平台的网络地址的条目数量为n;初始化一个用于记录的列表l=[0],初始化一个记忆变量min_last的初始值,所述min_last的取值为第1条记录的开始时间所在的分钟;计算第a条记录的开始时间所在分钟与所述min_last的差值,若差值为0,则忽略这一记录;若差值为1,则令l[-1]=l[-1]+1,其中,l[-1]表示l中末位的值;若差值大于1,则在l中的末位插入0,同时将所述min_last重新赋值为第a条记录的开始时间的所在分钟;判断a是否小于等于n;若是,则令a=a+1,并重复计算第a条记录的开始时间所在分钟与所述min_last的差值这一步骤;若否,则取l中的最大的值max(l)、以及l中每一数值的和sum(l)作为当前用户当天的平台使用特征;其中,max(l)代表最长连续访问网约车平台的时长,sum(l)代表连续访问网约车平台的时长之和。

26、第三方面,本发明提供一种服务器,包括:至少一个处理器和存储器;

27、所述存储器存储计算机执行指令;

28、所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的。

29、第四方面,本发明提供一种计算机存储介质,所述计算机存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的。

30、本发明提供的网约车司机识别方法、装置、服务器及存储介质,通过从用户的移动网络详单中提取用户的平台使用特征以及空间移动特征,并对这些特征进行处理和聚类,从而从所有平台用户中标记出网约车司机,能够实现对只有网络详单而没有职业标签的用户进行职业社群划分与识别,且不需要人为依靠经验设定的阈值或者规则。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1