一种通用的poi信息关联方法
【技术领域】
[0001]本发明属于互联网广告技术领域,特别涉及一种通用的POI信息关联方法。
【背景技术】
[0002]互联网广告,由于其互动性强、准确性高的优势在广告结构中的比重逐年提升,并有继续扩大的趋势。2011至2014年,互联网广告的市场规模已经超过了报纸广告规模,名列第二位,市场规模连续保持高速增长。
[0003]GPS是一种具有全方位、全天候、全时段、高精度的卫星导航系统,能为用户提供低成本、高精度的三维位置、速度和精确定时等导航信息。而目前,上网设备中的应用程序都会从后台获取用户的位置信息,例如:用户日常使用的导航设备,它们帮助用户从起点横穿到目的地位置,并且在整个过程中,导航应用都会持续的获取用户的位置信息。因此在用户行驶的整个过程中,不同的POI随着一起出现,POI是Point Of Interest的缩写,表示用户在当前这个点上的兴趣。如果我们拥有一个用户一天的所有POI数据,我们就可以大概的规划出该用户这一天的行为轨迹,甚至在各个点停留的时间。
[0004]POI的点十分具有伸缩性,可以是一栋房子、一个写字楼、一个邮筒、一个公交站,也可以到一个公园,一个机场等。用户在任何一个物理位置上都会产生对应的POI,都会产生相关的意图,一但知晓用户在某点上有意图,就可以给用户进行推荐,存在极大的商机。
[0005]当前的推荐服务种类繁多,人们能够通过网络获取各种推荐信息,推荐书籍、音乐、电影,商品等等,但是没有一种是基于特定用户的POI信息,而进行推荐的,缺乏针对性,适用性不强。
[0006]POI除了可以贡献于用户在当前点上的推荐服务,还可以根据用户在历史上的POI数据,来推论和记录用户的一些特征,进而形成有针对性的推荐。例如:如果一个用户在工作时间长期出现在一个工作场所,那这里就很有可能是用户的工作地点,而如果一个用户在非工作时间以及周末经常会出现一个住宅区类的POI,那这里很有可能就是用户的居住地点,通过一些POI数据进行关联计算,即可以通过用户的历史POI数据得出相应的知识。
[0007]进一步地,POI的数量与现实世界的变迀紧密相关。在现实世界中,当一个新的营业处所被创建时,新的POI随着而产生了,而随着POI的大量产生、更新,用户的行为属性也会随着一起更新,随之而来的问题就是,当数据量累积的越来越多,对用户POI判断和计算的难度会逐渐增加。另外,更多的数据也会带来更多的杂音,如何合理、快速的在海量数据中计算出每个用户的Ρ0Ι,是互联网广告技术领域所要解决的问题。
[0008]因此,互联网广告技术领域急需一种通用的POI信息关联方法,采用POI系统对提取出来的经玮度数据进行清洗,降低工作量,能够合理、快速的在海量数据中计算出每个用户的POI,并且判断出用户当前的POI属性数据和行为数据。
【发明内容】
[0009]本发明提供了一种通用的POI信息关联方法,技术方案如下:
[0010]一种通用的POI信息关联方法,包括如下步骤:
[0011 ]第一步,提取用户信息中的经玮度数据;
[0012]第二步,对第一步中提取出来的经玮度数据进行清洗;
[0013]第三步,使用上网设备的历史数据为第一步中未提取出经玮度数据的URL,补充经玮度数据,实现清洗后用户经玮度数据的扩展;
[0014]第四步,采用基于投影公式的方法关联Ρ0Ι,使用地图平面化动态建立平面地图索弓I;
[0015]第五步,将第四步中地图中建筑物所对应的索引与POI数据库产生的索引进行比较,当比较结果一致时,将地图中的该建筑物关联到用户的GPS坐标和POI数据库中;
[0016]第六步,生成用户不同的POI信息,包括用户属性数据和行为数据。
[0017]优选的,在上述一种通用的POI信息关联方法中,第一步中提取用户信息中的经玮度数据的具体步骤为:
[0018]首先,在任务启动的时候,加载已知的提取规则文件,形成key-value分布式存储系统的键值对,加载到内存中;
[0019]进一步地,在数据处理阶段,根据加载的既定规则扫描原始流量数据,从原始流量数据中提取出与用户相关的位置信息,例如:在原始流量数据中,与用户位置相关的信息一般都存储在流量数据的URL中,URL是Uniform Resource Locator的缩写,表示统一资源定位符,根据URL中的服务器名称,找寻内存中对应的提取规则,使用找到的正则表达式,从URL中进行经玮度数据的提取;
[0020]进一步地,提取之后,每个用户都会形成一张根据POI系统既定的规则以及正则表达式提取出的用户经玮度坐标数据表。
[0021]优选的,在上述一种通用的POI信息关联方法中,第二步中使用多个资源文件和统计挖掘2种方式分别对第一步提取出来的经玮度数据进行清洗。
[0022]优选的,在上述一种通用的POI信息关联方法中,第二步中使用多个资源文件和统计挖掘2种方式分别对第一步提取出来的经玮度数据进行清洗的具体步骤为:
[0023]当采用多个资源文件对提取的经玮度数据进行清洗时,由于资源表有2个,首先是坐标点的黑名单信息,通过频次分析发现在数据中存在大量的重复经玮度数据,并且重复的经玮度数据关联到不同的用户,由于经玮度数据都精确到了小数点后的四至五位以上,数据本身的重合度很小,但却都存在于提取的数据中,经过分析得出该重复经玮度数据是各个城市的城市中心点,出现这些点的原因是当一个移动端的应用软件不能够获取当前用户的位置信息时,会将当前用户所在的城市中心点作为当前用户的经玮度信息,故此类数据是错误的;因此,将此类经玮度数据列进黑名单,完成对从流量中提取出经玮度数据的初步过滤;同时用户属于的省份区域是固定的,如果用户的经玮度数据不属于该省份内,则将该经玮度数据列入黑名单;
[0024]当采用统计挖掘算法对提取的经玮度数据进行清洗时,首先打开上网设备应用,会出现定位不准确的现象,此类定位不准确的数据也混入到了流量数据中;对于上网设备产生的流量数据,此类定位不准确的数据是可以被清除掉的,因为上网设备是不变的,用户通过上网设备而发出的位置信息也应该是不变或者变动范围很小的;当数据累计到一个量级时,使用距离公式,能够计算出各个定位点之间的距离,当出现一个点与其他点的距离都大于其他点相互之间的距离时,这个点就被列为异常点,因此,删除此类经玮度数据,对从流量中提取出的经玮度数据做进一步地过滤。
[0025]优选的,在上述一种通用的POI信息关联方法中,第三步中使用上网设备的历史数据为第一步中未提取出经玮度数据的URL,补充经玮度数据,实现清洗后用户经玮度数据的扩展的具体步骤为:
[0026]当用户每次使用上网设备上网时,都会在对应的上网设备上发出URL,当提取出该上网设备的经玮度时,会对该上网设备的经玮度数据进行保存;当某一天需要提取该上网设备的经玮度时,即使从本次上网的URL中不能提取出经玮度数据,但是通过保存的历史经玮度数据,仍然能够得出该上网设备的经玮度数据,实现用户的经玮度数据的扩展。
[0027]优选的,在上述一种通用的POI信息关联方法中,第四步中采用基于投影公式的方法关联Ρ0Ι,使用地图平面化动态建立平面地图索引的具体步骤为:
[0028]世界地图、全国地图以及各个省市的地图都是已知的,能够清晰的知道每个建筑物的信息以及地理位置;首先,将地球沿着球面展开,成为一个平面,而能够准确的获取地图上每个建筑物的经玮度,使用投影公式将任意一个建筑物投影于一个平面上,都会产生一个索引,索引通过(x,y)表示,具体投影公式属于现有技术,详见维基百科中关于地图投影的知识,即可得到位于平面上的一个格子(x,y);即为该建筑物的索引。
[0029]优选的,在上述一种通用的POI信息关联方法中,第五步中将地图中的该建筑物关联到用户的GPS坐标和POI数据库中的具体步骤为:
[0030]将处理POI数据库的投影矩形大小设置成与第四步中处理地图中建筑物的矩形大小一致,依据第四步中平面地图索引的建立方法,从存储于POI数据库中用户的URL数据中提取出的经玮度数据也会产生一个(a,b)的索引,当POI数据库中产生的索引与第四步中已知的平面地图索引(x,y)相一致时,即可认为该建筑物就是该用户的POI数据,即所在位置。
[0031]优选的,在上述一种通用的POI信息关联方法中,第六步中生成用户不同的POI信息,包括用户属性数据和行为数据的具体步骤为:
[0032]通过第五步得出了每个用户在不同位置上的POI数据,由于用户是移动的,所以用户一天中会产生许多不同的POI数据,POI数据的主要类型分为静态和动态,静态是指用户工作区域或者家庭区域的POI属性数据;动态是指用户一段时间内经过的不同地点的POI行为数据;
[0033](I)根据用户历史行为数据生成用户POI属性数据:
[0034]在计算用户POI属性数据之前,需要先进行数据分析,进而判断出工作区间和非工作区间;
[0035]首先,定义多个工作时间和非工作时间,如果用户在当前定义的工作时间内出现在分类是工作场所POI位置上,那么在这个用户工作的分类计数加I,相反的,在非工作