一种基于空间离群数据挖掘算法计算基站位置的方法

文档序号:7675875阅读:173来源:国知局
专利名称:一种基于空间离群数据挖掘算法计算基站位置的方法
技术领域
本发明涉及基站定位领域,主要涉及一种基于空间离群数据挖掘算法并根据基站数据采集点计算基站位置的方法。
背景技术
基于位置的服务(Location Based krvice,LBS),它是通过电信移动运营商的无线电通讯网络(如GSM网、⑶MA网)或外部定位方式(如GPS)获取移动终端用户的位置信息(地理坐标,或大地坐标),在地理信息系统(GIS,Geographic Information System) 平台的支持下,为用户提供相应服务的一种增值业务。因此无线定位技术是LBS中一项关键技术,同时也是解决企业移动应用如移动CRM系统中全方位定位需求(包括室内、室外)的有效手段。在移动通讯网络定位系统中,是根据终端接入的基站位置进行定位的。因此定位过程中基站位置获取是基础。空间离群数据挖掘的目的在于找出隐含在海量数据中相对稀疏而孤立的异常数据,即空间邻域中非空间属性与其他对象有明显不同的空间对象;而且,它们是局部不稳定的,即使对于总体来说并不异常,但对邻近的其他对象却具有极端的值。目前离群点还没有一个被普遍采纳的定义,Hawkins对离群定义在一定意义上揭示了离群点的本质“离群点与其他点如此不同,以至于让人怀疑它们是由另外一个不同的机制产生的”。空间数据具有空间属性和非空间属性两种属性,Shekhar等对空间离群点定义中,用空间属性定义邻域关系,用非空间属性定义距离函数,这种定义符合GIS的一般思维,但在地理现象中经常会出现以相似的非空间属性为邻接的情况,因此可以从一个相反的角度来定义和挖掘空间离群点,即用非空间属性来定义邻域关系,用空间属性来定义距离函数。换言之,空间离群点是在和其非空间属性邻域内的其他空间对象在空间位置上差异十分显著的空间对象。近年来,研究人员提出了大量的离群检测算法,大致可以把它们归纳为以下几类基于统计的方法、基于密度的方法、基于深度的方法、基于距离的方法和基于偏离的方法。本文主要采用基于距离的方法去除基站数据中离群数据,然后利用剩余数据计算基站位置。基于距离的离群点最早是由Knorr和Ng提出的,他们把记录看作高维空间中的点,离群点被定义为数据集中与大多数点之间的距离都大于某个阈值的点,通常被描述为 DB ( pet, dmin ),数据集T中一个记录0称为离群点,当且仅当数据集T中至少有pet 部分的数据与0的距离大于dmin。换一种角度考虑,记M =N X(1 - pet),离群检测即判断与点0距离小于dmin的点是否多于M。若是,则0不是离群点,否则0是离群点。Rastogi &RamaSWamy在上面基于距离的离群点定义的基础上,提出改进的基于距离的k-最近邻(k-NN)离群检测算法。用Dk( P)表示点P的第k个最近邻点点的距离,首先计算出数据集T中所有点的k-最近邻距离,然后按值大小降序排列,算法把排在最前面的nO个点标记为nO个离群点。此算法的一个主要缺陷是要计算所有点的Dk ( P), 每计算一个点的Dk ( P)就要扫描一次数据集,对于大数据集,其I/O次数常常使得算法的计算效率非常低。

发明内容
为了解决上述问题,本发明是根据采集到同一基站数据的特点,对k_最近邻( k-NN)离群检测算法进行改进,提出了一种基于空间离群数据挖掘算法计算基站位置的方法,更加适合于离群基站数据点的挖掘算法,从而使得基站的定位更加准确高效。本发明的核心思想是对于某一待处理数据集T,首先,计算出数据集中心。数据中心的确定可以选取数据集的几何中心、重心等。其次,用Di表示第i个点到数据集中心的距离,记D为DiW均值,最后,将那些|D(k)_P(k)|超过一定阈值的点记为离群点。相对于 K-最近邻算法来讲,该算法只计算每一个点到数据集中心的距离,省去了每计算一个点都要扫描一次整个数据集的步骤,而且这种算法更适合于提取基站采集数据集中的离群点。本发明的技术方案是一种基于空间离群数据挖掘算法计算基站位置的方法,包括以下步骤
步骤1.采集基站数据,建立基站数据采集点集合,执行步骤2、步骤3 ; 步骤2.根据基站数据采集点集合中所有采集点的数据计算出中心点Ctl,作为基站的初始位置Ctl,执行步骤4;
步骤3.根据终端设备的信号强度将基站数据采集点集合级分为若干基站数据采集组,执行步骤4;
步骤4.计算同一基站数据采集组中各点i到基站Ctl的距离Di,再求所有Di的平均距离D,执行步骤5;
步骤5.求出同一基站数据采集组的各点i到基站Ctl的距离Di与平均距离D的偏差 Ditl,对同一组中所有Ditl由大到小降序排序;
步骤6.判断Ditl是否大于设定阈值X,若是,则执行步骤7,否则执行步骤8 ; 步骤7.从该组中去除该点i,重复步骤4、步骤5、步骤6和步骤7,直至所有基站数据采集组的数据都处理完毕;
步骤8.在该组中保留该点i数据,将所有组中保留的点i的数据重新组成新的集合; 步骤9.根据新集合中的所有点i的数据结合终端设备的信号强度计算出基站的最终位置。进一步的,步骤2中所述的中心点Ctl的计算方法为几何平均值算法或者算数平均值算法。因为此时的基站位置只是一个初始值,是为判断离群点提供的参考的数据集中心,简单的取平均算法即可满足要求。进一步的,步骤4、步骤5中所述的平均距离D为各点i到基站Ctl的距离Di的算数平均值。因为此时的平均距离D也是一个参考值,是为判断离群点偏离程度提供的参考的数据,简单的取平均算法即可满足要求。进一步的,步骤6中所述的设定阈值X的取值依据是DiQ/D>0. 3。阈值的确定是一个关键,如果阈值的取值过小则会漏掉一些离群点,过大则会滤掉正常点,取Di(l/D>0. 3设定阈值的设定依据,能够更精确地判定离群点和正常点。
4
进一步的,步骤9中,新集合中的所有点i的数据结合终端设备的信号强度采用加权平均值的算法计算出基站的最终位置。经过对基站采集数据离群数据挖掘处理之后,剩余采集点的信号强度的空间分布处于正常状态。同一基站手机信号强度分布规律是手机信号强度会随着距离基站的距离的增加而减弱。基于这种规律采用基于手机信号强度的加权平均算法来计算基站的位置。通过本发明的一种基于空间离群数据挖掘算法计算基站位置的方法,能够对 k-最近邻(k-NN)离群检测算法进行改进,提出了一种基于空间离群数据挖掘算法计算基站位置的方法,更加适合于离群基站数据点的挖掘算法,从而使得基站的定位更加准确高效。相对于K-最近邻算法来讲,本发明只计算每一个点到数据集中心的距离,省去了每计算一个点都要扫描一次整个数据集的步骤,更适合于提取基站采集数据集中的离群点。


图1是本发明一最佳实施例的离群点区域的示意图。图2是本发明一最佳实施例的流程图。
具体实施例方式现结合附图和具体实施方式
对本发明进一步说明。如图1所示,白色区域中的数据为离群点数据,其判定离群点的方法为某数据点到数据集中心的距离Ditl与所有数据点到数据集中心的平均距离D的比值大于0. 3,即Ditl/ D>0. 3时,该点为离群点。结合图2,对本发明的一最佳实施例的流程进一步说明;
步骤1.采集基站数据,建立基站数据采集点集合,执行步骤2、步骤3 ; 步骤2.根据基站数据采集点集合中所有采集点的数据采用几何平均值算法计算出中心点Ctl,作为基站的初始位置Ctl,执行步骤4 ;
步骤3.根据终端设备的信号强度将基站数据采集点集合级分为若干基站数据采集组,执行步骤4;
步骤4.计算同一基站数据采集组中各点i到基站Ctl的距离Di,再采用算数平均值计算出所有Di的平均距离D,执行步骤5 ;
步骤5.求出同一基站数据采集组的各点i到基站Ctl的距离Di与平均距离D的偏差 Ditl,对同一组中所有Ditl由大到小降序排序;
步骤6.判断Ditl是否满足Di(l/D>0. 3,若是,则执行步骤7,否则执行步骤8 ; 步骤7.从该组中去除该点i,重复步骤4、步骤5、步骤6和步骤7,直至所有基站数据采集组的数据都处理完毕;
步骤8.在该组中保留该点i数据,将所有组中保留的点i的数据重新组成新的集合; 步骤9.根据新集合中的所有点i的数据结合终端设备的信号强度采用加权平均值的算法计算出基站的最终位置。本发明从相反的角度考虑可以使用非空间属性来定义邻域关系,用空间属性来定义距离函数的思想,则终端设备的信号强度可以作为划分数据集的标准,而将每个点到数据集中心的距离作为距离函数。同时这种分组方式也是为了避免了不同手机信号强度之间数据集的干扰,降低数据处理的复杂性。 尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
权利要求
1.一种基于空间离群数据挖掘算法计算基站位置的方法,其特征在于,包括以下步骤步骤1.采集基站数据,建立基站数据采集点集合,执行步骤2、步骤3 ; 步骤2.根据基站数据采集点集合中所有采集点的数据计算出中心点Ctl,作为基站的初始位置Ctl,执行步骤4;步骤3.根据终端设备的信号强度将基站数据采集点集合级分为若干基站数据采集组,执行步骤4;步骤4.计算同一基站数据采集组中各点i到基站Ctl的距离Di,再求所有Di的平均距离D,执行步骤5;步骤5.求出同一基站数据采集组的各点i到基站Ctl的距离Di与平均距离D的偏差 Ditl,对同一组中所有Ditl由大到小降序排序,执行步骤6 ;步骤6.判断Ditl是否大于设定阈值X,若是,则执行步骤7,否则执行步骤8 ; 步骤7.从该组中去除该点i,重复步骤4、步骤5、步骤6和步骤7,直至所有基站数据采集组的数据都处理完毕;步骤8.在该组中保留该点i数据,将所有组中保留的点i的数据重新组成新的集合; 步骤9.根据新集合中的所有点i的数据结合终端设备的信号强度计算出基站的最终位置。
2.根据权利要求1所述的一种基于空间离群数据挖掘算法计算基站位置的方法,其特征在于,步骤2中所述的中心点Ctl的计算方法为几何平均值算法或者算数平均值算法。
3.根据权利要求1所述的一种基于空间离群数据挖掘算法计算基站位置的方法,其特征在于,步骤4、步骤5中所述的平均距离D为各点i到基站Ctl的距离Di的算数平均值。
4.根据权利要求1所述的一种基于空间离群数据挖掘算法计算基站位置的方法,其特征在于,步骤6中所述的设定阈值X的取值依据是DiQ/D>0. 3。
5.根据权利要求1所述的一种基于空间离群数据挖掘算法计算基站位置的方法,其特征在于,步骤9中,新集合中的所有点i的数据结合终端设备的信号强度采用加权平均值的算法计算出基站的最终位置。
全文摘要
本发明提供一种基于空间离群数据挖掘算法计算基站位置的方法,对于某一待处理数据集T,首先,计算出数据集中心。数据中心的确定可以选取数据集的几何中心、重心等。其次,用Di表示第i个点到数据集中心的距离,记D为Di的均值,最后,将那些|D(k)-P(k)|超过一定阈值的点记为离群点。相对于K-最近邻算法来讲,该算法只计算每一个点到数据集中心的距离,省去了每计算一个点都要扫描一次整个数据集的步骤,而且这种算法更适合于提取基站采集数据集中的离群点。本发明更加适合于离群基站数据点的挖掘算法,从而使得基站的定位更加准确高效,只计算每一个点到数据集中心的距离,省去了每计算一个点都要扫描一次整个数据集的步骤,更适合于提取基站采集数据集中的离群点。
文档编号H04W88/08GK102209385SQ201110137078
公开日2011年10月5日 申请日期2011年5月25日 优先权日2011年5月25日
发明者吕春月, 时宜, 陆萍, 黄家乾 申请人:厦门雅迅网络股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1