一种轨迹数据时空切片方法、系统及电子设备与流程

文档序号:33028097发布日期:2023-01-20 20:06阅读:97来源:国知局
一种轨迹数据时空切片方法、系统及电子设备与流程

1.本技术涉及数据处理的技术领域,尤其是涉及一种轨迹数据时空切片方法、系统及电子设备。


背景技术:

2.基于海量的轨迹数据挖掘过程中虽利用了大数据分布式计算方法,但是在对大量数据集进行计算处理时,如时空交叉计算,计算数据量会在输入数据集的量级上放大为n
²
量级,消耗大量内存的同时仍然效率较低。
3.一般情况下处理上述效率低的问题的方法是时空切片,即基于地理位置对数据切片后再按时间分段切片,然后将计算量分散在每一个切片内,降低交叉计算量,但是这种方法常因为切片分割不合理等原因,致使计算结果存在较大偏差。


技术实现要素:

4.本技术目的一是提供一种轨迹数据时空切片方法,具有使切片更合理化从而提高计算效率的特点。
5.本技术的上述申请目的一是通过以下技术方案得以实现的:一种轨迹数据时空切片方法,包括:获取轨迹数据;根据抽样规则对所述轨迹数据抽样,抽取的轨迹数据组成初始数据集,抽取后剩余的轨迹数据组成待定数据集;基于层次聚类规则,对所述初始数据集内的轨迹数据聚类,聚类后得到目标数据集;根据中心点计算规则,计算所述目标数据集中的每一类的中心点,所述中心点组成对比数据集;根据优化判断规则、所述对比数据集和所述目标数据集,优化所述对比数据集和所述目标数据集;根据数据合并规则,将所述目标数据集和所述待定数据集合并,将合并后的数据集记为合并数据集;基于时空切片规则,对所述合并数据集内的轨迹数据进行数据切片,将数据切片后的轨迹数据标记为切片集合;对切片集合中进行叠瓦处理,得到最终数据集。
6.通过采用上述技术方案,对轨迹数据进行抽样处理,将处理后的轨迹数据分为初始数据集和待定数据集,根据层级聚类规则,对初始数据集进行聚类,再根据中心点计算规则计算目标数据集的中心点,再根据优化判断规则优化上述目标数据集,将数据集优化完成后,再根据数据合并规则,将目标数据集和待定数据集合并,得到合并数据集。对合并数据集进行数据切片,得到切片集合,然后对切片集合中的切片进行叠瓦处理。通过进行叠瓦
处理可以有效缓解切片边缘存在衔接性较弱的问题,在一定程度上增强各切片之间的关联性,使切片更合理。
7.可选的,所述根据优化判断规则、所述对比数据集和所述目标数据集,优化所述对比数据集和所述目标数据集,包括:计算所述目标数据集中每一类的轨迹数据与所述对比数据集中对应类的中心点之间的距离值;根据参数计算规则和所述距离值,确定优化参数;根据所述优化参数和优化规则,优化所述对比数据集和所述目标数据集。
8.通过采用上述技术方案,根据优化判断规则,对目标数据集和对比数据集的聚类情况进行判断,当目标数据集和对比数据集的聚类不合理时,根据优化规则继续对目标数据集和对比数据集进行优化。通过加入优化判断规则,可以使目标数据集和对比数据集的聚类更加合理,进而提高数据计算的准确性。
9.可选的,所述根据参数计算规则和所述距离值,确定优化参数,包括:获取每一类的所述距离值的最大值;根据所述最大值、预设的距离预设值和参数计算规则,计算所述优化参数。
10.可选的,所述根据所述优化参数和优化规则,优化所述对比数据集和所述目标数据集,包括:当所述优化参数不等于优化预设值时,根据层次聚类规则,再次对所述对比数据集和所述目标数据集进行聚类,生成当前优化参数;比较当前优化参数和所述优化参数;当所述优化参数小于所述当前优化参数时,则将所述优化参数对应的目标数据集和对比数据集作为最终的目标数据集和对比数据集。
11.可选的,所述根据数据合并规则,将所述目标数据集和所述待定数据集合并,将合并后的数据集记为合并数据集,包括:计算所述待定数据集内的轨迹数据与所述对比数据集中的中心点之间的距离;获取所述距离的最小值;获取所述最小值对应的中心点的类;将所述待定数据集中的轨迹数据加入所述目标数据集中对应的所述类,得到合并数据集。
12.通过采用上述技术方案,选取对比数据集中的中心点,分别计算待测数据集中的轨迹数据与中心点之间的距离值,获取所有距离值中的最小值,将该轨迹数据添加至上述最小值对应的中心点所在类中,即添加至目标数据集中的对应类,通过这样的方式完成待测数据集和目标数据集的合并,减少了待测数据集之前的一些计算步骤,直接将待测数据集通过数据合并规则添加至目标数据集中,在一定程度上提高了计算效率。
13.可选的,所述基于时空切片规则,对所述合并数据集内的轨迹数据进行数据切片,将数据切片后的轨迹数据标记为切片集合,包括:所述轨迹数据包括时间数据;将所述合并数据集中每个类的轨迹数据按照所述时间数据进行升序排序;
根据预设的切片时长,对所述类中的轨迹数据进行数据切片;每间隔一个切片时长的轨迹数据组成一个切片;完成切片的类记为切片类,所述切片类组成切片集合。
14.可选的,所述对切片集合中进行叠瓦处理,得到最终数据集,包括:获取所述切片集合中的任意相邻切片;根据预设的叠瓦时长,将所述相邻切片中的时间数据较大的切片中时长为叠瓦时长的头部数据复制到所述相邻切片中的时间数据较小的切片的尾部数据;经过处理的切片为叠瓦切片;所述叠瓦切片组成最终数据集。
15.通过采用上述技术方案,将相邻的切片数据进行叠瓦处理,减少根据时间进行简单切片造成数据不连贯的问题,在一定程度上保证了切片数据之间的关联性。
16.本技术目的二是提供一种轨迹数据时空切片系统。
17.本技术的上述申请目的二是通过以下技术方案得以实现的:一种轨迹数据时空切片系统,包括:数据获取模块,用于获取轨迹数据;数据抽样模块,用于根据抽样规则对所述轨迹数据抽样,抽取的轨迹数据组成初始数据集,抽取后剩余的轨迹数据组成待定数据集;数据聚类模块,用于根据层次聚类规则,对所述初始数据集内的轨迹数据聚类,聚类后得到目标数据集;中心计算模块,用于根据中心点计算规则,计算所述目标数据集中的每一类的中心点并确定对比数据集;数据优化模块,用于根据优化判断规则、所述对比数据集和所述目标数据集,优化所述对比数据集和所述目标数据集;数据合并模块,用于根据数据合并规则,将所述目标数据集和所述待定数据集合并,确定合并数据集;数据切片模块,用于根据时空切片规则,对所述合并数据集内的轨迹数据进行数据切片,确定切片集合;数据叠瓦模块,用于对切片集合中进行叠瓦处理,得到最终数据集。
18.本技术目的三是提供一种电子设备。
19.本技术的上述申请目的三是通过以下技术方案得以实现的:一种电子设备,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行上述轨迹数据时空切片方法的计算机程序。
20.本技术目的四是提供一种计算机存储介质,能够存储相应的程序。
21.本技术的上述申请目的四是通过以下技术方案得以实现的:一种计算机可读存储介质,存储有能够被处理器加载并执行上述任一种轨迹数据时空切片方法的计算机程序。
22.综上所述,本技术包括以下至少一种有益技术效果:1.首先对轨迹数据进行抽样处理,将抽样后的轨迹数据分为初始数据集和待定数据集,根据层级聚类规则,对初始数据集进行聚类,确定目标数据集,再根据中心点计算规
则计算目标数据集的中心点,再根据优化判断规则判断目标数据集的聚类是否合理,若不合理则继续优化上述目标数据集,将数据集优化完成后,再根据数据合并规则,将目标数据集和待定数据集合并,得到合并数据集。对合并数据集进行数据切片,得到切片集合,然后对切片集合中的切片进行叠瓦处理。通过进行叠瓦处理可以有效缓解切片边缘存在衔接性较弱的问题,在一定程度上增强各切片之间的关联性,使切片更合理,进而减少计算量提高计算效率;2.根据优化判断规则,对目标数据集和对比数据集的聚类情况进行判断,当目标数据集和对比数据集的聚类不合理时,根据优化规则继续对目标数据集和对比数据集进行优化。通过加入优化判断规则,可以使目标数据集和对比数据集的聚类更加合理,进而提高数据计算的准确性。
附图说明
23.图1是本技术提供的轨迹数据时空切片方法的流程示意图。
24.图2是本技术提供的轨迹数据时空切片系统的结构示意图。
25.图3是本技术提供的电子设备的结构示意图。
26.图中,200、轨迹数据时空切片系统;201、数据获取模块;202、数据抽样模块;203、数据聚类模块;204、中心计算模块;205、数据优化模块;206、数据合并模块;207、数据切片模块;208、数据叠瓦模块;301、cpu;302、rom;303、ram;304、i/o接口;305、输入部分;306、输出部分;307、存储部分;308、通信部分;309、驱动器;310、可拆卸介质。
具体实施方式
27.本具体实施例仅仅是对本技术的解释,其并不是对本技术的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本技术的权利要求范围内都受到专利法的保护。
28.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
29.另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
30.本技术使用的所有术语(包括技术术语或者科学术语)与本技术所属领域的普通技术人员理解的含义相同,除非另外特别定义。还应当理解,在诸如通用字典中定义的术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
31.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
32.下面结合说明书附图对本技术实施例作进一步详细描述。
33.本技术实施例提供一种轨迹数据时空切片方法,上述方法的主要流程描述如下。
34.如图1所示:步骤s101:获取轨迹数据。
35.具体的,获取待处理的轨迹数据,上述轨迹数据包括但不限于时间数据、经度数据、纬度数据和对象标识,轨迹数据按照时间数据进行升序排序。
36.步骤s102:根据抽样规则对轨迹数据抽样,抽取的轨迹数据组成初始数据集,抽取后剩余的轨迹数据组成待定数据集。
37.具体的,首先获取轨迹数据的数据量,判断上述数据量是否大于数据量预设值,若小于数量预设值则不对上述轨迹数据进行抽样,即获取排序后的所有轨迹数据并将其标记为初始数据集;若大于数量预设值,则对排序后的轨迹数据进行抽样处理,以减少在数据处理时的计算工作量、提高计算效率。上述数据量预设值为人为设定。
38.对排序后的轨迹数据进行抽样处理,抽样规则由人为设定,每间隔s个轨迹数据抽取一个轨迹数据,上述s的值为人为设定。将抽取到的数据组成初始数据集,将未抽取到的数据组成待定数据集,例如,轨迹数据有100条,s为40,则抽取第1条轨迹数据、第41条轨迹数据和第81条轨迹数据。上述第1条轨迹数据、第41条轨迹数据和第81条轨迹数据为初始数据集,剩余的其它数据为待定数据集。
39.通过判断轨迹数据的数据量来选择是否进行抽样,若数据量较小,则不进行抽样,不抽样在一定程度上可以提高最终结果的精确度,若数据量较大,则对轨迹数据进行抽样处理,抽样处理可以减少数据处理的计算量,进而提高计算效率。
40.步骤s103:基于层次聚类规则,对初始数据集内的轨迹数据进行聚类,聚类后得到目标数据集。
41.具体的,上述层次聚类规则为层次聚类方法,根据层次聚类方法对初始数据集中的轨迹数据进行计算,通过计算对上述初始数据集中的轨迹数据进行聚类,聚类后可以得到对应的聚类树,聚类树上有不同的类,每个类包含其对应的轨迹数据,完成聚类后的轨迹数据组成目标数据集。上述目标数据集包含多个轨迹数据,每个轨迹数据都有对应的类别信息。层次聚类方法为本领域技术人员公知的技术,在此不做赘述。
42.步骤s104:根据中心点计算规则,计算目标数据集中的每一类的中心点,中心点组成对比数据集。
43.具体的,目标数据集中包含多个类,分别计算每一类的中心点,即将每个轨迹数据的经度数据和纬度数据转化为x、y、z的坐标值,然后根据x、y、z的值,寻找坐标系中的中心点。上述中心点的计算方法即中心点计算规则为本领域技术人员公知的技术,在此不做赘述。将每一个类对应的中心点组成对比数据集。
44.步骤s105:根据优化判断规则、对比数据集和目标数据集,优化对比数据集和目标数据集。
45.具体的,依次获取对比数据集中的每个中心点,通过中心点确定中心点对应的类,根据上述得到的类从目标数据集中调取对应类的所有轨迹数据,分别计算该类的中心点与该类其他轨迹数据的距离值,然后从上述距离值中选择最大值,获取每个类的最大值,将所有的最大值组成一个序列,然后根据距离预设值和上述序列,计算优化参数,具体的计算公式如下:
;其中,la为优化参数,n为类的个数,li为第i个类的最大值,m为距离预设值。上述距离预设值为人为设定,可以直接从数据库中调取。
46.判断上述优化参数是否等于优化预设值,若等于优化预设值,则表示上述目标数据集和上述对比数据集的聚类已经达到最优,不需要在进行优化;若不等于优化预设值,则表示上述目标数据集和上述对比数据集的聚类没有达到最优,需要进行再次根据层次聚类规则进行聚类。每进行一次优化,计算一个优化参数并记录每一个优化参数,当第一次聚类对应的优化参数大于第二次聚类对应的优化参数时,继续进行下一次优化。当进行第1次到第q次优化时,对应的优化参数会呈现持续减小的状态,当进行第q+1次优化后,得到的优化参数大于第q次的优化参数,则将第q次对应的目标数据集和对比数据集作为最终数据集。此时表示第q次对应的优化参数达到最小,故其对应的目标数据集和对比数据集的聚类结果也是最优的,则不对目标数据集和对比数据集继续进行优化。在一示例中,优化预设值为0。
47.步骤s106:根据数据合并规则,将目标数据集和待定数据集合并,将合并后的数据集记为合并数据集。
48.具体的,依次获取待定数据集的轨迹数据,对于某一轨迹数据,计算该轨迹数据与上述对比数据集中的各个中心点的距离值,从上述距离值选取最小值,获取最小值对应的中心点,然后根据该中心点确定该中心点对应的类,将上述轨迹数据添加至目标数据集的对应类中。对待定数据集中的轨迹数据均通过上述数据合并规则添加至目标数据集中。当待定数据集中的轨迹数据均添加至目标数据集中时,则上述目标数据集为合并数据集。
49.若存在待定数据集则根据上述数据合并规则将目标数据集和待定数据集合并,若不存在待定数据集即轨迹数据的数据量较小不需要进行抽样操作时,则不进行合并操作。上述合并数据集中的每一个类为一个空间切片。
50.步骤s107:基于时空切片规则,对合并数据集内的轨迹数据进行数据切片,将数据切片后的轨迹数据标记为切片集合。
51.具体的,获取合并数据集中的各个类,对每个类进行数据切片操作,对每个类的切片操作包括,将上述类中的轨迹数据按照时间数据进行升序排序,将上述轨迹数据根据预设的切片时长进行数据切片,将每个切片记录为时间切片,上述的切片时长为人工设定,将完成数据切片的类标记为切片类,即时间切片组成切片类,上述切片类组成切片集合。
52.步骤s108:对切片集合中进行叠瓦处理,得到最终数据集。
53.具体的,获取切片集合中的切片类和预设的叠瓦时长,对于每个类进行叠瓦处理,对于某个类,依次获取类中的时间切片,例如第一切片和第二切片,上述第一切片和第二切片为相邻两个时间切片,将第二切片的头部数据复制到上述第一切片的尾部数据,上述头部数据的时间长度为叠瓦时长,按照上述方法对类中的所有时间切片进行处理,即叠瓦后的第一个时间切片的头部数据与最后一个时间切片的尾部数据未发生变化,除最后一个时间切片外,每个时间切片的尾部数据均复制有后一个时间切片的头部数据,得到叠瓦切片,上述叠瓦切片组成叠瓦类。然后,将切片集合中的所有切片类进行上述操作。上述叠瓦类组成最终数据集。
54.需要说明的是,上述叠瓦时长为人工定义,工作人员在定义时需要考虑下游应用切片数据要求的时间间隔,比如当下游分析是分析长时间聚集时,叠瓦时长设置较长,如果下游是分析伴随关系,则叠瓦时长设置较短。
55.步骤s109:根据缓存释放规则,对最终数据集进行删除。
56.具体的,在计算第p个时间切片时,可以程序控制将p-1个时间切片中的轨迹数据从内存中去除,即当计算第p个时间切片时,是不需要用到第p-1个时间切片中的数据的,所以将第p-1个时间切片中的轨迹数据删除。这样可以不考虑业务性带来的内存不释放问题。
57.本技术实施例提供一种轨迹数据时空切片系统200,参照图2,轨迹数据时空切片系统200包括:数据获取模块201,用于获取轨迹数据;数据抽样模块202,用于根据抽样规则对所述轨迹数据抽样,抽取的轨迹数据组成初始数据集,抽取后剩余的轨迹数据组成待定数据集;数据聚类模块203,用于根据层次聚类规则,对所述初始数据集内的轨迹数据进行聚类,聚类后得到目标数据集;中心计算模块204,用于根据中心点计算规则,计算所述目标数据集中的每一类的中心点并确定对比数据集;数据优化模块205,用于根据优化判断规则、所述对比数据集和所述目标数据集,优化所述对比数据集和所述目标数据集;数据合并模块206,用于根据数据合并规则,将所述目标数据集和所述待定数据集合并,确定合并数据集;数据切片模块207,用于根据时空切片规则,对所述合并数据集内的轨迹数据进行数据切片,确定切片集合;数据叠瓦模块208,用于对切片集合中进行叠瓦处理,得到最终数据集。
58.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
59.本技术实施例公开一种电子设备。参照图3,电子设备包括,包括中央处理单元(cpu)301,其可以根据存储在只读存储器(rom)302中的程序或者从存储部分307加载到随机访问存储器(ram)303中的程序而执行各种适当的动作和处理。在ram 303中,还存储有系统操作所需的各种程序和数据。cpu 301、rom 302以及ram 303通过总线彼此相连。输入/输出(i/o)接口304也连接至总线。
60.以下部件连接至i/o接口304:包括键盘、鼠标等的输入部分305;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分306;包括硬盘等的存储部分307;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分308。通信部分308经由诸如因特网的网络执行通信处理。驱动器309也根据需要连接至i/o接口304。可拆卸介质310,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器309上,以便于从其上读出的计算机程序根据需要被安装入存储部分307。
61.特别地,根据本技术的实施例,上文参考流程图图1描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实
施例中,该计算机程序可以通过通信部分308从网络上被下载和安装,和/或从可拆卸介质310被安装。在该计算机程序被中央处理单元(cpu)301执行时,执行本技术的装置中限定的上述功能。
62.需要说明的是,本技术所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
63.以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本技术中所涉及的申请范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1