1.本发明涉及大数据处理技术领域,尤其涉及一种基于手机信令数据识别出行方式的方法、装置及电子设备。
背景技术:2.基于mme(mobility management entity,移动性管理实体)手机信令数据的居民出行信息采集技术作为一种新兴的调查技术已广泛应用于交通调查中。现有技术方案主要包括以下几个步骤:一、对信令位置数据进行数据清洗和预处理;二、分析目标区域的基站覆盖,采集目标区域内用户上报信令数据,生成用户轨迹;三、设定各出行方式平均速度阀值,基于用户出行平均速度判断出行方式。
3.现有技术方案存在的缺点:一、mme定位精度低,基站工参更新慢,存在时间窗长度难以确定,数据缺失导致特征计算准确度低等问题,最终导致识别模型精度低;二、基于mme利用有监督学习模型进行出行方式识别时,需要志愿者填写每段出行的起始时间、结束时间、出行方式;存在填写不规范,不严谨,数据质量差,数据量小问题。
技术实现要素:4.本发明提供一种基于手机信令数据识别出行方式的方法、装置及电子设备,用以解决现有技术中因mme定位精度低及志愿者填写数据不规范等问题,实现mdt高精度定位及无需志愿者填写数据,以提高出行方式识别的准确率。
5.本发明提供一种基于手机信令数据识别出行方式的方法,包括:
6.采集用户终端的mdt数据,所述mdt数据为用户终端基于下发的mdt测量任务而进行测量并上报的测量数据;
7.对所述mdt数据进行预处理后输入第一模型计算,得到用户出行方式的第一识别结果,所述第一模型用于根据输入的参数计算出行方式的类型;
8.提取用户终端的mme数据,使用所述第一识别结果对所述mme数据的出行段进行识别,得到用户出行方式的第二识别结果。
9.根据本发明提供的基于手机信令数据识别出行方式的方法,所述方法还包括:
10.将所述第二识别结果的按照预设比例分为训练数据集和测试数据集;
11.使用所述训练数据集训练第二模型,并使用所述测试数据集验证所述第二模型,所述第二模型用于根据输入的参数验证所述第二识别结果。
12.根据本发明提供的基于手机信令数据识别出行方式的方法,所述采集用户终端的mdt数据的方式是使用以下一种或多种方式的组合:
13.通过rf fingerprint的方式采集述采集用户终端的mdt数据;
14.通过e-cid的方式采集述采集用户终端的mdt数据;
15.通过gnss的方式采集述采集用户终端的mdt数据;
16.其中,所述mdt数据包括用户性别、年龄、出行地区、出行轨迹点以及出行时间的一
种或多种组合。
17.根据本发明提供的基于手机信令数据识别出行方式的方法,所述对所述mdt数据进行预处理后输入第一模型计算,得到用户出行方式的第一识别结果,所述第一模型用于根据输入的参数计算出行方式的类型,包括:
18.将所述mdt数据的出行轨迹点按照时间排序,并利用所述出行轨迹点的时间和经纬坐标信息按照预设时间窗对轨迹窗口进行出行分段,并计算出行段的每个时间窗口的特征数据,所述每个时间窗口的特征数据包括平均速度、最大速度、出行位置点的瞬间速度、速度峰值以及移动距离的一种或多种组合;
19.将所述每个时间窗口的特征数据输入所述第一模型进行处理,得到用户出行方式的第一识别结果。
20.根据本发明提供的基于手机信令数据识别出行方式的方法,将所述每个时间窗口的特征数据输入所述第一模型进行处理,得到用户出行方式的第一识别结果,包括:
21.构建所述第一模型的输入向量,所述输入向量包括用户的年龄、性别、各出行位置点瞬时速度、平均速度、速度峰值以及移动距离的一种或多种组合;
22.将输入的数据集按照预设比例进行训练、测试以及验证后,输出用户出行方式的第一识别结果;
23.其中,所述第一模型的二分类的决策函数为:
[0024][0025]
其中,所述第一模型的多分类问题的判别函数为:
[0026][0027]
其中,ai为权重值,k(xi,xj)为核函数,bi为截距,xi,xj,yi为训练数据;
[0028]
如果fi(x)=1,则x属于第i类,如果fi(x)=-1,则x不属于第i类。
[0029]
根据本发明提供的基于手机信令数据识别出行方式的方法,所述提取用户终端的mme数据,使用所述第一识别结果对所述mme数据的出行段进行识别,得到用户出行方式的第二识别结果,包括:
[0030]
获取所述mme数据的经纬度信息;
[0031]
基于所述经纬度信息,对所述mme数据按照上报时间排列生成位置轨迹,并对多数位置轨迹进行过滤处理;
[0032]
按照与mdt数据相同的预设时间窗对所述位置轨迹进行切断,并计算轨迹段内不重复基站个数、基站平均滞留时长以及基站平均速度。
[0033]
根据本发明提供的基于手机信令数据识别出行方式的方法,所述使用所述训练数据集训练第二模型,包括:
[0034]
将一个数据集中不重复基站的个数、一个数据集中不重复基站内滞留时间的平均值以及一个数据集中基站的平均速度输入至所述第二模型;
[0035]
通过所述第二模型计算出每种出行方式的不同基站个数和基站平均滞留时长。
[0036]
本发明还提供一种基于手机信令数据识别出行方式的装置,包括:
[0037]
mdt数据采集模块,用于采集用户终端的mdt数据,所述mdt数据为用户终端基于下发的mdt测量任务而进行测量并上报的测量数据;
[0038]
mdt数据识别模块,用于对所述mdt数据进行预处理后输入第一模型计算,得到用户出行方式的第一识别结果,所述第一模型用于根据输入的参数计算出行方式的类型;
[0039]
出行方式识别模块,用于提取用户终端的mme数据,使用所述第一识别结果对所述mme数据的出行段进行识别,得到用户出行方式的第二识别结果。
[0040]
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于手机信令数据识别出行方式的方法的步骤。
[0041]
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于手机信令数据识别出行方式的方法的步骤。
[0042]
本发明提供的一种基于手机信令数据识别出行方式的方法、装置及电子设备,通过采用mdt数据进行出行方式识别,替代志愿者采集数据,使得所采集的数据更客观,数据量比志愿者填写的数据量更多,并且由于mdt高精度定位优势,结合海量运营商数据,提升用户出行方式识别的准确性。
附图说明
[0043]
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0044]
图1是本发明提供的基于手机信令数据识别出行方式的方法的流程示意图;
[0045]
图2是本发明提供的mdt数据采集方式的流程示意图;
[0046]
图3是本发明提供的mdt数据识别出行方式的流程示意图;
[0047]
图4是本发明提供的svm模型处理的流程示意图;
[0048]
图5是本发明提供的mme数据识别出行方式的流程示意图;
[0049]
图6是本发明提供的朴素贝叶斯模型训练数据的流程示意图;
[0050]
图7是本发明提供的基于手机信令数据识别出行方式的装置的结构示意图;
[0051]
图8是本发明提供的电子设备的结构示意图。
具体实施方式
[0052]
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0053]
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
[0054]
以下对本发明涉及的技术术语进行描述:
[0055]
mdt(minimization of drve-tests)是最小化路测技术,是3gpp r10阶段在lte和3g系统中引入的一种自动化路测技术。基于尽量减少对终端功耗的影响和尽量增加位置信息可用性的设计理念,mdt功能主要通过扩展现有的rrm(无线资源管理)测量功能和trace功能,最终实现基站根据网管配置的mdt测量任务下发相关测量配置给终端,终端在满足测量条件时,进行测量并上报测量信息,基站将收到的终端测量结果和基站自身的测量结果按要求上报给网管或mdt数据存储处理网元。
[0056]
mme(mobility management entity)是3gpp协议lte接入网络的关键控制节点,它负责空闲模式的ue(user equipment)的定位,传呼过程,包括中继,简单的说mme是负责信令处理部分。
[0057]
由于基于mme手机信令数据的居民出行信息采集技术作为一种新兴的调查技术已广泛应用于交通调查中。相较于传统的调查方法,其具有成本低、周期短、覆盖面广等优点,能更加全面高效、持续的获取居民的出行方式,可以为城市规划、交通组织管理提供决策依据。
[0058]
目前国内外关于手机信令在交通行业研究主要集中在出行轨迹、交通客流等方面,而针对出行方式识别的研究成果尚不多见。由于信令数据定位不够精准的缺陷,现有的利用手机信令数据相关出行方式识别技术还滞留在通过对平均速度、最大速度、出行时长等设定不同的阈值实现粗略的出行方式的识别。
[0059]
关于本发明所述基于手机信令数据识别出行方式的方法,比较典型的应用场景,包括为市级城市管理规划部门分析特定区域居民出行交通方式分布。
[0060]
下面结合图1-图8描述本发明的基于手机信令数据识别出行方式的方法、装置及电子设备。
[0061]
图1是本发明提供的基于手机信令数据识别出行方式的方法的流程示意图,如图所示。一种基于手机信令数据识别出行方式的方法,其特征在于,包括:
[0062]
步骤101,采集用户终端的mdt数据,所述mdt数据为用户终端基于下发的mdt测量任务而进行测量并上报的测量数据。
[0063]
利用mdt数据进行出行方式的识别,可替代志愿者采集数据,数据更客观,数据量比志愿者数据量更多。
[0064]
并且,mdt是3gpp r10阶段在lte和3g系统中引入的一种自动化路测技术,具有高精度准确定位的优势,结合海量运营商数据,可保证用户出行方式识别的精准度。
[0065]
可选的,所述mdt数据包括用户性别、年龄、出行地区、出行轨迹点以及出行时间的一种或多种组合。
[0066]
需要说明的是,可基于hadoop(一个能够对大量数据进行分布式处理的软件框架)大数据处理框架采集用户终端的mdt数据,所采集的数据应选择用户尽量覆盖各个地区,各个年龄段,性别保持平衡,尽量使样本具有代表性。
[0067]
步骤102,对所述mdt数据进行预处理后输入第一模型计算,得到用户出行方式的第一识别结果,所述第一模型用于根据输入的参数计算出行方式的类型。
[0068]
可选的,所述第一模型可为svm模型,本发明根据实际需求也可以选用其他模型,本发明不限于此。
[0069]
svm(support vector machine,支持向量机)是一种二类分类模型,其基本模型定
义为:特征空间上的间隔最大的线性分类器,其学习策略是间隔最大化,最终可转化为一个凸二次规划问题的求解。
[0070]
采用动态可配置的方式,实现svm模型参数的可定制化,svm模型可根据不同区域不同阀值参数进行计算,通过多种参数的结果对比,从而提供必要的数据准确性验证手段,实现出行方式识别准确性提升。
[0071]
步骤103,提取用户终端的mme数据,使用所述第一识别结果对所述mme数据的出行段进行识别,得到用户出行方式的第二识别结果。
[0072]
可选的,执行所述步骤103之后,还包括:
[0073]
将所述第二识别结果的按照预设比例分为训练数据集和测试数据集,使用所述训练数据集训练第二模型,并使用所述测试数据集验证所述第二模型,所述第二模型用于根据输入的参数验证所述第二识别结果。
[0074]
可选的,所述第二模型可以是朴素贝叶斯模型,本发明根据实际需求也可以选用其他模型,本发明不限于此。
[0075]
朴素贝叶斯分类(nbc)是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法,先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入x求出使得后验概率最大的输出y。
[0076]
综上可知,本发明利用mdt数据高精度的特性,用于辅助基于mme数据出行方式的分析,使得准确性得到大大提升,并且通过建立算法模型实现出行方式识别,成果相互验证,形成了闭环的分析成果,有效解决了交通行业关于出行方式识别难的问题。
[0077]
以下将通过附图对上述图1中所述的步骤101~103及步骤103之后的采用第二模型进行验证的步骤进行描述。
[0078]
图2是本发明提供的mdt数据采集方式的流程示意图,如图所示。上述步骤101中,所述采集用户终端的mdt数据的方式是使用以下一种或多种方式的组合,即mdt数据中的位置信息可采用以下三种方式获取:
[0079]
步骤201,通过rf fingerprint的方式采集述采集用户终端的mdt数据。
[0080]
rf fingerprint(射频指纹):通过本小区及邻小区的信号质量特征与覆盖地图特征库进行指纹特征匹配实现定位。无需终端能力支持,由基站和网管实现,目前精度较低,100米左右。
[0081]
步骤201,通过e-cid的方式采集述采集用户终端的mdt数据。
[0082]
e-cid(ta+aoa):基站根据rx-tx时间差,并结合到达角来计算ue(用户终端)位置。无需终端能力支持(但aoa对基站天线类型有要求),由基站和网管实现,目前精度在50~100米。
[0083]
传统基站分为三个扇区,一个扇区对应一个小区,每扇区通常120度,每个小区都有不同的识别码(cell id),e-cid是基于cell id的增强定位技术。
[0084]
步骤203,通过全球卫星导航系统(gnss)的方式采集述采集用户终端的mdt数据。
[0085]
gnss(含a-gnss):基于gps、北斗、格洛纳斯等卫星定位系统,还可基于网络提供部分辅助信息帮助定位。需要终端具备gnss硬件模块并开启定位功能,目前精度最优,室外环境精度可达5米以内,大多数室内环境由于缺少卫星信号,一般不可用。
[0086]
在上述三种定位方式中,前两种在目前基于mr(measurement report,测量报告)
数据的定位中已经广泛应用,但精度有限。因此gnss方式是mdt技术中较为特色的定位方式,是本发明的优选定位方式,可提高数据采集的定位精度。
[0087]
图3是本发明提供的mdt数据识别出行方式的流程示意图,如图所示。上述步骤102中,所述对所述mdt数据进行预处理后输入第一模型计算,得到用户出行方式的第一识别结果,所述第一模型用于根据输入的参数计算出行方式的类型,包括:
[0088]
步骤301,将所述mdt数据的出行轨迹点按照时间排序,并利用所述出行轨迹点的时间和经纬坐标信息按照预设时间窗对轨迹窗口进行出行分段,并计算出行段的每个时间窗口的特征数据,所述每个时间窗口的特征数据包括平均速度、最大速度、出行位置点的瞬间速度、速度峰值以及移动距离的一种或多种组合。
[0089]
比如,通过s=vt(s表示距离,v表示速度,t表示时间)公式,可计算出行段的平均速度,最大速度,移动位移等窗口特征。
[0090]
可以理解的是,本发明所述特征数据不限于上述所述平均速度、最大速度、出行位置点的瞬间速度、速度峰值以及移动距离的窗口特征数据,本发明还可以根据实际需求配置其它参数。
[0091]
可选的,可按照预设时间窗=5分钟对轨迹窗口进行分段,所述预设时间窗可根据实际需求自行配置,实现模型参数的可定制化。
[0092]
步骤302,将所述每个时间窗口的特征数据输入所述第一模型进行处理,得到用户出行方式的第一识别结果。
[0093]
可选的,以下图4是以所述第一模型为svm模型进行描述。
[0094]
图4是本发明提供的svm模型处理的流程示意图,如图所示。上述步骤302中,将所述每个时间窗口的特征数据输入所述第一模型进行处理,得到用户出行方式的第一识别结果,包括:
[0095]
步骤401,构建所述第一模型的输入向量,所述输入向量包括用户的年龄、性别、各出行位置点瞬时速度、平均速度、速度峰值以及移动距离的一种或多种组合。
[0096]
可选的,将每个时间窗口的特征信息输入至svm模型,输入的特征信息包括:
[0097]
x1:性别;
[0098]
x2:年龄;
[0099]
x3:各位置点瞬时速度;
[0100]
x4:速度峰值;
[0101]
x5:平均速度;
[0102]
x6:移动距离。
[0103]
步骤402,将输入的数据集按照预设比例进行训练、测试以及验证后,输出用户出行方式的第一识别结果。
[0104]
可选的,所述输出用户出行方式的第一识别结果为:
[0105]
y=[1,2,3,4,5],其中,1,2,3,4,5为交通方式的类型。例如,1=火车/高铁,2=出租车,3=私家车,4=公交车,5=地铁。
[0106]
可选的,上述svm模型处理的过程包括如下步骤:
[0107]
步骤一,首先提取信令数据中用户的年龄,性别信息。
[0108]
步骤二,按照上述所述时间窗的方法,对数据进行切分,获得出行分段的个体轨迹
段。
[0109]
步骤三,按照上述所述方法计算,获取轨迹段的各位置点瞬时速度、平均速度、速度峰值、移动距离等数据。
[0110]
步骤四,构建svm模型的输入向量(比如年龄,性别,各位置点瞬时速度,平均速度,速度峰值,移动距离等)。
[0111]
步骤五,将上述输入数据集按照预设比例训练、测试以及验证,比如将所述数据集按照10等分,其中9份数据做训练,1份数据做测试,并将这10份数据进行交叉验证。
[0112]
需要说明的是,svm模型将数据集分为n组交叉比对,并利用网格寻优法对参数c(惩罚系数,rbf自带参数)和γ(rbf自带参数)进行优化,可得到用户出行方式的识别结果。
[0113]
步骤六,svm模型选择rbf作为核函数。
[0114]
svm模型最常用的是linear核与rbf核。其中,
[0115]
linear核:主要用于线性可分的情形。参数少,速度快,对于一般数据,分类效果还可以。
[0116]
rbf核:主要用于线性不可分的情形。参数多,分类结果非常依赖于参数。一般是通过训练数据的交叉验证来寻找合适的参数。
[0117]
至于svm模型采用哪种核,要根据具体问题,有的数据是线性可分的,有的不可分,需要进行多次尝试不同核、不同参数。本发明所述svm模型选择rbf作为核函数。
[0118]
步骤七,为上述设定的出行方式分别赋予类别标识。比如,1=火车/高铁,2=出租车,3=私家车,4=公交车,5=地铁。
[0119]
步骤八,构造3个二分类器,每个二分类的决策函数为:
[0120][0121]
如果fi(x)=1,则x属于第i类,如果fi(x)=-1,则x不属于第i类。
[0122]
多分类问题的判别函数为:
[0123][0124]
如果fi(x)=-1,则x不属于第i类,若fi(x)=1,m(x)=3,则表示属于私家车的出行方式。
[0125]
其中,ai为权重值,k(xi,xj)为核函数,bi为截距,xi,xj,yi为训练数据。
[0126]
由此可知,上述svm模型采用动态可配置的方式,可实现模型参数的可定制化,模型可根据不同区域不同阀值参数进行计算,通过多种参数的结果对比,从而提供必要的数据准确性验证手段,实现出行方式识别准确性的提升。
[0127]
由于mdt是一种自动化路测技术,mdt数据相比于传统的mme数据的定位精度更高,所以采用mdt数据可提高mme数据出行方式的识别。因此,采用mdt数据高精度的特性,可用以辅助基于mme数据对出行方式的分析,能够提升定位的准确性。
[0128]
以下是采用mdt数据辅助基于mme数据识别用户出行方式的描述。
[0129]
图5是本发明提供的mme数据识别出行方式的流程示意图,如图所示。上述所述步骤103中,所述提取用户终端的mme数据,使用所述第一识别结果对所述mme数据的出行段进行识别,得到用户出行方式的第二识别结果,包括:
[0130]
步骤501,提取用户终端的mme数据,并获取所述mme数据的经纬度信息。
[0131]
可选的,可通过补充mme上报基站的经纬度标签,以获取所述mme数据的经纬度信息。
[0132]
步骤502,基于所述经纬度信息,对所述mme数据按照上报时间排列生成位置轨迹,并对所述位置轨迹进行过滤处理。
[0133]
可选的,对所述位置轨迹进行乒乓切换过滤处理、漂移点过滤处理等。
[0134]
在移动通信系统中,如果在一定区域里两基站信号强度剧烈变化,手机就会在两个基站之间来回切换,因此由于切换过程采用偷帧发送切换命令,连续的偷帧导致话音质量极不清晰,影响用户使用感觉,因此需要对乒乓切换进行过滤处理。
[0135]
由于gps卫星信号受到大气电离层变化、云层遮挡以及高大建筑物的多径反射等复杂因素的影响,gps定位经常会出现位置漂移现象,即gps接收机解算出来的位置信息,与实际情况存在不同程度的偏差。当偏差超过了精度误差允许范围,则认为发生了gps位置漂移。某些gps位置点甚至漂移了很大的距离,比如漂移至外省,甚至其他国家。在通过gps统计车辆的行驶里程时,若不对gps进行漂移点过滤,容易出现里程偏差很大的现象。
[0136]
步骤503,按照与mdt数据相同的预设时间窗对所述位置轨迹进行切断,并计算轨迹段内不重复基站个数、基站平均滞留时长以及基站平均速度。
[0137]
步骤504,使用所述第一识别结果对mme数据的出行段进行识别,得到用户出行方式的第二识别结果。
[0138]
其中,所述mme数据为未采用mdt技术测量的数据,mme数据为传统手机信令数据。
[0139]
由于mme数据的定位不够精确,而只采用mdt数据进行识别会导致识别结果不完整,因此需要利用mdt数据的优势对mme数据做进一步的补充识别,以提高对mme数据识别的准确性和完整性。
[0140]
利用所述第二识别结果,训练基于mme数据的朴素贝叶斯模型,可使得模型的应用更广泛,而且还可以使得第二识别结果得到进一步验证,形成闭环的分析效果,可有效解决交通行业关于用户出行方式识别难的问题。
[0141]
以下是利用所述第二识别结果,训练基于mme数据的朴素贝叶斯模型的描述。
[0142]
图6是本发明提供的朴素贝叶斯模型训练数据的流程示意图,如图所示。上述步骤103中,所述提取用户终端的mme数据,使用所述第一识别结果对所述mme数据的出行段进行识别,得到用户出行方式的第二识别结果之后,还包括:
[0143]
步骤601,将所述第二识别结果的按照预设比例分为训练数据集和测试数据集。
[0144]
比如,将所述第二识别结果的数据以3:7的预设比例分为训练数据集和测试数据集。
[0145]
步骤602,使用所述训练数据集训练第二模型,并使用所述测试数据集验证所述第二模型,所述第二模型用于根据输入的参数验证所述第二识别结果。具体包括:
[0146]
步骤6021,将一个数据集中不重复基站的个数、一个数据集中不重复基站内滞留时间的平均值以及一个数据集中基站的平均速度输入至所述第二模型。
[0147]
可选的,以下以所述第二模型为朴素贝叶斯模型为例进行描述。
[0148]
所述朴素贝叶斯模型的输入数据为:ucid,acdt,acdv。其中,ucid表示一个数据集中不重复基站cid的个数,acdt表示一个数据集中不重复基站cid内滞留时间cdt的平均值,acdv表示一个数据集中基站的平均速度。
[0149]
步骤6022,通过所述第二模型计算出每种出行方式的不同基站个数和基站平均滞留时长。
[0150]
具体的,ucid表示窗口数据集中不重复cid的个数。
[0151]
cdti表示在某个特定cid中的滞留时长,则基站平均滞留时长cdvi表示在某个特定cid中的瞬时速度,则基站平均滞留时长
[0152]
步骤6023,使用所述测试数据集验证所述第二模型。
[0153]
可选的,可根据所述测试数据集验证朴素贝叶斯模型是否达到收敛条件。比如,可设定不同的阈值来验证朴素贝叶斯模型是否达到收敛条件,如果是大于预设阈值,表示朴素贝叶斯模型达到收敛条件,实现对用户出行方式的识别;如果是小于预设阈值,表示朴素贝叶斯模型未达到收敛条件,则需要再次采集用户终端的mdt数据后进行识别。
[0154]
下面对本发明提供的基于手机信令数据识别出行方式的装置进行描述,下文描述的基于手机信令数据识别出行方式的装置与上文描述的基于手机信令数据识别出行方式的方法可相互对应参照。
[0155]
图7是本发明提供的基于手机信令数据识别出行方式的装置的结构示意图,如图所示。一种基于手机信令数据识别出行方式的置700,包括mdt数据采集模块710、mdt数据识别模块720以及出行方式识别模块730。
[0156]
mdt数据采集模块710,用于采集用户终端的mdt数据,所述mdt数据为用户终端基于下发的mdt测量任务而进行测量并上报的测量数据;
[0157]
mdt数据识别模块720,用于对所述mdt数据进行预处理后输入第一模型计算,得到用户出行方式的第一识别结果,所述第一模型用于根据输入的参数计算出行方式的类型;
[0158]
出行方式识别模块730,用于提取用户终端的mme数据,使用所述第一识别结果对所述mme数据的出行段进行识别,得到用户出行方式的第二识别结果。
[0159]
可选的,所述基于手机信令数据识别出行方式的置700还包括验证模块(图中暂未标示),所述验证模块,用于将所述第二识别结果的按照预设比例分为训练数据集和测试数据集,使用所述训练数据集训练第二模型,并使用所述测试数据集验证所述第二模型,所述第二模型用于根据输入的参数验证所述第二识别结果。
[0160]
可选的,采集用户终端的mdt数据是通过以下任一或组合的方式进行采集:
[0161]
通过rf fingerprint的方式采集述采集用户终端的mdt数据;
[0162]
通过e-cid的方式采集述采集用户终端的mdt数据;
[0163]
通过gnss的方式采集述采集用户终端的mdt数据;
[0164]
其中,所述mdt数据包括用户性别、年龄、出行地区、出行轨迹点以及出行时间的一种或多种组合。
[0165]
可选的,mdt数据识别模块720,还用于执行如下步骤:
[0166]
将所述mdt数据的出行轨迹点按照时间排序,并利用所述出行轨迹点的时间和经纬坐标信息按照预设时间窗对轨迹窗口进行出行分段,并计算出行段的每个时间窗口的特征数据,所述每个时间窗口的特征数据包括平均速度、最大速度、出行位置点的瞬间速度、速度峰值以及移动距离的一种或多种组合;
[0167]
将所述每个时间窗口的特征数据输入所述第一模型进行处理,得到用户出行方式
的第一识别结果。
[0168]
可选的,mdt数据识别模块720,还用于执行如下步骤:
[0169]
构建所述第一模型的输入向量,所述输入向量包括用户的年龄、性别、各出行位置点瞬时速度、平均速度、速度峰值以及移动距离的一种或多种组合;
[0170]
将输入的数据集按照预设比例进行训练、测试以及验证后,输出用户出行方式的第一识别结果;
[0171]
其中,所述第一模型的二分类的决策函数为:
[0172][0173]
其中,所述第一模型的多分类问题的判别函数为:
[0174][0175]
其中,ai为权重值,k(xi,xj)为核函数,bi为截距,xi,xj,yi为训练数据;
[0176]
如果fi(x)=1,则x属于第i类,如果fi(x)=-1,则x不属于第i类。
[0177]
可选的,所述出行方式识别模块730,还用于执行如下步骤:
[0178]
获取所述mme数据的经纬度信息;
[0179]
基于所述经纬度信息,对所述mme数据按照上报时间排列生成位置轨迹,并对多数位置轨迹进行过滤处理;
[0180]
按照与mdt数据相同的预设时间窗对所述位置轨迹进行切断,并计算轨迹段内不重复基站个数、基站平均滞留时长以及基站平均速度。
[0181]
可选的,所述验证模块,还用于执行如下步骤:
[0182]
将一个数据集中不重复基站的个数、一个数据集中不重复基站内滞留时间的平均值以及一个数据集中基站的平均速度输入至所述第二模型;
[0183]
通过所述第二模型计算出每种出行方式的不同基站个数和基站平均滞留时长。
[0184]
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(communications interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行上述所述方法的步骤,所述方法包括:
[0185]
采集用户终端的mdt数据,所述mdt数据为用户终端基于下发的mdt测量任务而进行测量并上报的测量数据;
[0186]
对所述mdt数据进行预处理后输入第一模型计算,得到用户出行方式的第一识别结果,所述第一模型用于根据输入的参数计算出行方式的类型;
[0187]
提取用户终端的mme数据,使用所述第一识别结果对所述mme数据的出行段进行识别,得到用户出行方式的第二识别结果。
[0188]
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施
例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0189]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于手机信令数据识别出行方式的方法,所述方法包括:
[0190]
采集用户终端的mdt数据,所述mdt数据为用户终端基于下发的mdt测量任务而进行测量并上报的测量数据;
[0191]
对所述mdt数据进行预处理后输入第一模型计算,得到用户出行方式的第一识别结果,所述第一模型用于根据输入的参数计算出行方式的类型;
[0192]
提取用户终端的mme数据,使用所述第一识别结果对所述mme数据的出行段进行识别,得到用户出行方式的第二识别结果。
[0193]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各提供的基于手机信令数据识别出行方式的方法,所述方法包括:
[0194]
采集用户终端的mdt数据,所述mdt数据为用户终端基于下发的mdt测量任务而进行测量并上报的测量数据;
[0195]
对所述mdt数据进行预处理后输入第一模型计算,得到用户出行方式的第一识别结果,所述第一模型用于根据输入的参数计算出行方式的类型;
[0196]
提取用户终端的mme数据,使用所述第一识别结果对所述mme数据的出行段进行识别,得到用户出行方式的第二识别结果。
[0197]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0198]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0199]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。