一种聚集区类型判断模型训练方法和系统与流程

文档序号:33015993发布日期:2023-01-20 15:44阅读:25来源:国知局
一种聚集区类型判断模型训练方法和系统与流程

1.本技术实施例涉及数据挖掘技术领域,具体涉及一种聚集区类型判断模型训练方法和系统。


背景技术:

2.货运车辆聚集的区域就是有物流事件发生的区域,这些物流事件包含装卸货、休息、加油、拥堵等。通过网格聚类的方式,可以发现货运车辆的聚集区域。
3.如何识别聚集区的物流类型,为物流地图的构建提供依据,是亟待解决的问题。


技术实现要素:

4.为此,本技术实施例提供一种聚集区类型判断模型训练方法和系统,准确识别聚集区的物流类型,为物流地图构建提供依据。
5.为了实现上述目的,本技术实施例提供如下技术方案:
6.根据本技术实施例的第一方面,提供了一种聚集区类型判断模型训练方法,所述方法包括:
7.通过网格聚类确定目标区域中的车辆停靠点的聚集区;
8.根据所述车辆停靠点的聚集区的聚集数据、地理信息系统数据、车辆静态数据和车辆停靠数据确定聚集区的特征数据,所述聚集区的特征数据包括聚类特征、地理特征、车辆停靠特征和网络关系特征;
9.对所述车辆停靠点的聚集区进行地理信息点的关联,将具有地理信息点的聚集区的特征数据以及地理信息点的类型数据加入标注样本候选集;
10.采用分类模型对所述标注样本候选集进行训练,得到聚集区类型判断模型。
11.可选地,所述方法还包括:
12.获取待判断聚集区类型的聚集区的特征数据;
13.将所述待判断聚集区类型的聚集区的特征数据输入所述聚集区类型判断模型,得到所述待判断聚集区类型的聚集区对应的地理信息点的类型数据,作为待判断聚集区类型的聚集区的类型。
14.可选地,对所述车辆停靠点的聚集区进行地理信息点的关联,将具有地理信息点的聚集区的特征数据以及地理信息点的类型数据加入标注样本候选集,包括:
15.查找所述车辆停靠点的所有关联的聚集区;
16.针对每个关联的聚集区,获取具有地理信息点的类型数据的聚集区的特征数据;
17.将所有具有地理信息点的类型数据的聚集区的特征数据以及对应的地理信息点的类型数据加入所述标注样本候选集。
18.可选地,所述针对每个关联的聚集区,获取具有地理信息点的类型数据的聚集区的特征数据,包括:
19.针对每个关联的聚集区,将与每个聚集区距离最近的地理信息点作为该聚集区对
应的地理信息点;
20.获取具有对应地理信息点的类型数据的聚集区的特征数据。
21.可选地,根据所述车辆停靠点的聚集区的聚集数据、地理信息系统数据、车辆静态数据和车辆停靠数据确定聚集区的特征数据,包括:
22.根据所述车辆停靠点的聚集区的聚集数据确定聚集区的聚类特征、地理特征、车辆停靠特征和网络关系特征;
23.根据所述车辆停靠点的地理信息系统数据确定聚集区的地理特征;
24.根据所述车辆停靠点的车辆静态数据确定聚集区的车辆停靠特征;
25.根据所述车辆停靠点的车辆停靠数据确定聚集区的车辆停靠特征和网络关系特征。
26.可选地,所述聚类特征包括聚集区内网格数、最小外接矩形长宽比、单链网格占比、聚集区周边设定公里范围内其余聚集区数量及密度;
27.所述地理特征包括聚集区与各级道路的最短距离、每条道路的网格占比;
28.可选地,所述车辆停靠特征为在聚集区内发生停靠的车辆的特征信息,包括车辆属性特征和车辆停靠特征;所述车辆属性特征包括车型、车型熵、车牌归属地与聚集区归属地一致的车辆数占比;所述车辆停靠特征包括车辆活跃天数、日均活跃次数、车辆停靠时间段、平均停靠时间、停靠次数日分布、周分布和月分布;
29.所述网络关系特征包括判定为途经停靠的次数、判定为起终点停靠的次数、前继后继聚集区的距离大于给定阈值的次数和前继后继聚集区分布的熵值。
30.根据本技术实施例的第二方面,提供了一种车辆聚集区类型确定系统,所述系统包括:
31.聚集区确定模块,用于通过网格聚类确定目标区域中的车辆停靠点的聚集区;
32.聚集区特征数据获取模块,用于根据所述车辆停靠点的聚集区的聚集数据、地理信息系统数据、车辆静态数据和车辆停靠数据确定聚集区的特征数据,所述聚集区的特征数据包括聚类特征、地理特征、车辆停靠特征和网络关系特征;
33.标注样本候选集模块,用于对所述车辆停靠点的聚集区进行地理信息点的关联,将具有地理信息点的聚集区的特征数据以及地理信息点的类型数据加入标注样本候选集;
34.训练模块,用于采用分类模型对所述标注样本候选集进行训练,得到聚集区类型判断模型。
35.根据本技术实施例的第三方面,提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现上述第一方面所述的方法。
36.根据本技术实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现上述第一方面所述的方法。
37.综上所述,本技术实施例提供了一种聚集区类型判断模型训练方法和系统,通过网格聚类确定目标区域中的车辆停靠点的聚集区;根据所述车辆停靠点的聚集区的聚集数据、地理信息系统数据、车辆静态数据和车辆停靠数据确定聚集区的特征数据,所述聚集区的特征数据包括聚类特征、地理特征、车辆停靠特征和网络关系特征;对所述车辆停靠点的聚集区进行地理信息点的关联,将具有地理信息点的聚集区的特征数据以及地理信息点的
类型数据加入标注样本候选集;采用分类模型对所述标注样本候选集进行训练,得到聚集区类型判断模型。准确识别聚集区的物流类型,为物流地图构建提供依据。
附图说明
38.为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
39.本说明书所绘制的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应落在本发明所揭示的技术内容能涵盖的范围内。
40.图1示出了本技术实施例提供的一种聚集区类型判断模型训练方法流程示意图;
41.图2示出了本技术实施例提供的特征数据确定流程示意图;
42.图3示出了本技术实施例提供的一种聚集区类型判断模型训练系统框图;
43.图4示出了本技术实施例提供的一种电子设备的结构示意图;
44.图5示出了本技术实施例提供的一种计算机可读存储介质的示意图。
具体实施方式
45.以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
46.图1示出了本技术实施例提供的一种聚集区类型判断模型训练方法,所述方法包括:
47.步骤101:通过网格聚类确定目标区域中的车辆停靠点的聚集区;
48.步骤102:根据所述车辆停靠点的聚集区的聚集数据、地理信息系统数据、车辆静态数据和车辆停靠数据确定聚集区的特征数据,所述聚集区的特征数据包括聚类特征、地理特征、车辆停靠特征和网络关系特征;
49.步骤103:对所述车辆停靠点的聚集区进行地理信息点的关联,将具有地理信息点的聚集区的特征数据以及地理信息点的类型数据加入标注样本候选集;
50.步骤104:采用分类模型对所述标注样本候选集进行训练,得到聚集区类型判断模型。
51.在一种可能的实施方式中,所述方法还包括:获取待判断聚集区类型的聚集区的特征数据;将所述待判断聚集区类型的聚集区的特征数据输入所述聚集区类型判断模型,得到所述待判断聚集区类型的聚集区对应的地理信息点的类型数据,作为待判断聚集区类型的聚集区的类型。
52.在一种可能的实施方式中,在步骤103中,对所述车辆停靠点的聚集区进行地理信息点的关联,将具有地理信息点的聚集区的特征数据以及地理信息点的类型数据加入标注
样本候选集,包括:
53.查找所述车辆停靠点的所有关联的聚集区;针对每个关联的聚集区,获取具有地理信息点的类型数据的聚集区的特征数据;将所有具有地理信息点的类型数据的聚集区的特征数据以及对应的地理信息点的类型数据加入所述标注样本候选集。
54.在一种可能的实施方式中,所述针对每个关联的聚集区,获取具有地理信息点的类型数据的聚集区的特征数据,包括:
55.针对每个关联的聚集区,将与每个聚集区距离最近的地理信息点作为该聚集区对应的地理信息点;获取具有对应地理信息点的类型数据的聚集区的特征数据。
56.在一种可能的实施方式中,在步骤102中,根据所述车辆停靠点的聚集区的聚集数据、地理信息系统数据、车辆静态数据和车辆停靠数据确定聚集区的特征数据,包括:
57.根据所述车辆停靠点的聚集区的聚集数据确定聚集区的聚类特征、地理特征、车辆停靠特征和网络关系特征;
58.根据所述车辆停靠点的地理信息系统数据确定聚集区的地理特征;
59.根据所述车辆停靠点的车辆静态数据确定聚集区的车辆停靠特征;
60.根据所述车辆停靠点的车辆停靠数据确定聚集区的车辆停靠特征和网络关系特征。
61.在一种可能的实施方式中,所述聚类特征包括聚集区内网格数、最小外接矩形长宽比、单链网格占比、聚集区周边设定公里范围内其余聚集区数量及密度;
62.所述地理特征包括聚集区与各级道路的最短距离、每条道路的网格占比;
63.在一种可能的实施方式中,所述车辆停靠特征为在聚集区内发生停靠的车辆的特征信息,包括车辆属性特征和车辆停靠特征;所述车辆属性特征包括车型、车型熵、车牌归属地与聚集区归属地一致的车辆数占比;所述车辆停靠特征包括车辆活跃天数、日均活跃次数、车辆停靠时间段、平均停靠时间、停靠次数日分布、周分布和月分布;
64.所述网络关系特征包括判定为途经停靠的次数、判定为起终点停靠的次数、前继后继聚集区的距离大于给定阈值的次数和前继后继聚集区分布的熵值。
65.下面对本技术实施例提供的方法进行进一步描述。
66.第一方面,构建特征。如图2所示,根据获取方式将特征分为四类:聚集区聚类特征、地理特征、车辆停靠特征、网络关系特征。
67.(1)聚集区聚类特征
68.聚集区内网格数、最小外接矩形长宽比、单链网格占比、聚集区周边m公里范围内其它聚集区数量及密度等。
69.(2)地理特征
70.结合地理信息数据,将道路等数据与聚集区关联,获取相应的特征,如聚集区与各级道路的最短距离、包含道路的网格占比等。
71.(3)车辆停靠特征
72.统计在聚集区内发生停靠的车辆信息,可以获取到车辆属性和车辆停靠两类特征。
73.车辆属性特征:如主要车型及占比、车型熵、车牌归属地与聚集区归属地一致的车辆数占比等。
74.车辆停靠特征:如车辆活跃天数、日均活跃次数、车辆停靠时间段、平均停靠时间、停靠次数日分布、周分布、月分布等。
75.(4)网络关系特征
76.判定为途经停靠的次数、判定为起终点停靠的次数、前继后继聚集区的距离大于给定阈值的次数、前继后继聚集区分布的熵值。
77.第二方面,获取训练样本。
78.训练样本通过人工抽样标注的方式获取,指定标注类型为加油站、服务区、收费站、维修站、检测站、道路、工地。由于聚集区数量很大,且部分类型在整体分布中的占比过低,如收费站、服务区、维修站等,因此,以随机抽样的方式获取到足够数量指定类型样本的效率不高。
79.对停靠点采用dbscan算法进行聚类,查找所述车辆停靠点的所有关联的聚集区;针对每个关联的聚集区,查找与聚集区最近的地理信息点poi,获取具有地理信息点的类型数据的聚集区的特征数据;获取该poi的类型数据作为标签值。将所有具有地理信息点的类型数据的聚集区的特征数据以及对应的地理信息点的类型数据加入所述标注样本候选集。
80.结合地理信息数据,通过关联poi,将poi单一的聚集区输出作为标注样本候选集,从而避免了在全集中寻找目标分类的样本,有效提升了样本获取效率。
81.第三方面,训练模型和预测。
82.采用分类模型,分别对指定聚集区类型做训练,分类模型的选择包括但不限于lr、dt、rf、gbdt和xgboost。通过对各个模型最终效果的比对,选择采用xgboost开源工具包,对第二方面生成的训练样本数据,使用工具包提供的训练方法进行训练。
83.对于未知类型的聚集区,将特征数据输入训练好的模型进行预测,获取该聚集区的预测结果,即地理信息点poi的类型,预测结果是poi类型的总数为训练样本中标签值的类型数。
84.在本技术实施例的具体应用中,首先获取聚集区一的特征数据:聚类面内存在高速、车型分布混乱、在一年内的每一天都有大量的车辆停靠、每天24小时分时区间的车辆停靠分布均匀,并且在线路计算中常被判定为途经,应用训练好的模型最终识别为收费站,与其真实类型一致。
85.在本技术实施例的另一具体应用中,聚集区二具备以下特征:聚类面内没有路网、车型分布单一、在一年内的每一天都有一定量的车辆停靠、每天车辆停靠集中在日间、且在线路计算中常被判定为起点或终点,应用训练好的模型最终识别为企业,与其真实类型一致。
86.综上所述,本技术实施例提供了一种聚集区类型判断模型训练方法,通过网格聚类确定目标区域中的车辆停靠点的聚集区;根据所述车辆停靠点的聚集区的聚集数据、地理信息系统数据、车辆静态数据和车辆停靠数据确定聚集区的特征数据,所述聚集区的特征数据包括聚类特征、地理特征、车辆停靠特征和网络关系特征;对所述车辆停靠点的聚集区进行地理信息点的关联,将具有地理信息点的聚集区的特征数据以及地理信息点的类型数据加入标注样本候选集;采用分类模型对所述标注样本候选集进行训练,得到聚集区类型判断模型。准确识别聚集区的物流类型,为物流地图构建提供依据。
87.基于相同的技术构思,本技术实施例还提供了一种车辆聚集区类型确定系统,如
图3所示,所述系统包括:
88.聚集区确定模块301,用于通过网格聚类确定目标区域中的车辆停靠点的聚集区;
89.聚集区特征数据获取模块302,用于根据所述车辆停靠点的聚集区的聚集数据、地理信息系统数据、车辆静态数据和车辆停靠数据确定聚集区的特征数据,所述聚集区的特征数据包括聚类特征、地理特征、车辆停靠特征和网络关系特征;
90.标注样本候选集模块303,用于对所述车辆停靠点的聚集区进行地理信息点的关联,将具有地理信息点的聚集区的特征数据以及地理信息点的类型数据加入标注样本候选集;
91.训练模块304,用于采用分类模型对所述标注样本候选集进行训练,得到聚集区类型判断模型。
92.本技术实施方式还提供一种与前述实施方式所提供的方法对应的电子设备。请参考图4,其示出了本技术的一些实施方式所提供的一种电子设备的示意图。所述电子设备20可以包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本技术前述任一实施方式所提供的方法。
93.其中,存储器201可能包含高速随机存取存储器(ram:random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个物理端口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
94.总线202可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本技术实施例任一实施方式揭示的所述方法可以应用于处理器200中,或者由处理器200实现。
95.处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
96.本技术实施例提供的电子设备与本技术实施例提供的方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
97.本技术实施方式还提供一种与前述实施方式所提供的方法对应的计算机可读存储介质,请参考图5,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程
序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的方法。
98.需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
99.本技术的上述实施例提供的计算机可读存储介质与本技术实施例提供的方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
100.需要说明的是:
101.在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本技术也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本技术的内容,并且上面对特定语言所做的描述是为了披露本技术的最佳实施方式。
102.在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本技术的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
103.类似地,应当理解,为了精简本技术并帮助理解各个发明方面中的一个或多个,在上面对本技术的示例性实施例的描述中,本技术的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本技术要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本技术的单独实施例。
104.本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
105.此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本技术的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
106.本技术的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本技术实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本技术还可以实现为用于执行这里所描述的方法的
一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本技术的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
107.应该注意的是上述实施例对本技术进行说明而不是对本技术进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本技术可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
108.以上所述,仅为本技术较佳的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1