本公开涉及人工智能,尤其涉及一种模型训练方法、运输路径预测方法、装置和存储介质。
背景技术:
1、tsp问题(traveling salesman problem,旅行商问题)的一般描述为:已知n个目标点的详细坐标信息,任务必须遍历所有目标点ci一次,最终返回起始点c1。求取任务遍历次序r=(c1,c2,...,cn,c1),使其运输路径总长度最短。
2、tsp问题可以应用于物流行业中的运输路径规划等,例如,应用于仓配物流。仓配物流一般指从仓库到门店的运输,仓储一般指对仓库的管理运营。仓配物流目前有零担和专车模式,这两种运输模式所需要的车辆都是第三方承运商的。零担模式是与其他公司的货品拼车运输,而城配专车则是采用包车的模式,从而使得货品的品相和时效可以得到保证。
3、城配专车解决的是从仓库到门店的运输,每家门店向总部订购货物,总部根据需求单量来决定相应的用车量和单车的排线顺序,以保证物流成本持续降低。
4、相关技术中,运输路径规划可以采用基于强化学习的算法。然而,训练基于强化学习的模型需要大量的训练数据集,而训练数据集的准备时间较长,若训练数据集量不足,会使得模型得不到充分训练而导致模型性能差。
技术实现思路
1、本公开实施例提供一种模型训练方法、运输路径预测方法、装置和存储介质。
2、根据本公开实施例的第一方面,提供了一种模型训练方法,所述方法包括:
3、在样本地理区域对应的归一化坐标区域内,生成多个模拟物流节点对应的坐标;其中,每两个所述模拟物流节点的间距大于或等于第一预设距离;
4、根据多个所述模拟物流节点对应的坐标,构造训练数据集;
5、采用所述训练数据集训练用于预测最短运输路径的深度强化学习模型。
6、在一个实施例中,所述在样本地理区域对应的归一化坐标区域内,生成多个模拟物流节点对应的坐标,包括:
7、在所述样本地理区域对应的归一化坐标区域内,随机生成多个模拟物流节点对应的坐标。
8、在一个实施例中,所述方法还包括:
9、获取所述样本地理区域的物流节点分布信息;
10、所述在所述样本地理区域对应的归一化坐标区域内,随机生成多个模拟物流节点对应的坐标,包括:
11、根据所述样本地理区域的物流节点分布信息,在所述样本地理区域对应的归一化坐标区域内,随机生成多个所述模拟物流节点对应的坐标。
12、在一个实施例中,所述获取所述样本地理区域的物流节点分布信息,包括:
13、根据所述样本地理区域内的实际物流节点的位置数据,获取所述样本地理区域的物流节点分布信息。
14、在一个实施例中,所述在样本地理区域对应的归一化坐标区域内,生成多个模拟物流节点对应的坐标,包括:
15、在所述样本地理区域对应的归一化坐标区域内,对每个实际物流节点对应的坐标进行邻域搜索,得到多个模拟物流节点对应的坐标。
16、在一个实施例中,所述在所述样本地理区域对应的归一化坐标区域内,对目标物流节点对应的坐标进行邻域搜索,得到多个模拟物流节点对应的坐标,包括:
17、在所述样本地理区域对应的归一化坐标区域中的单位网格内,确定每个所述实际物流节点对应的坐标所在的目标网格;
18、在每个所述实际物流节点对应的坐标所在的目标网格内,随机生成多个所述模拟物流节点对应的坐标。
19、根据本公开实施例的第二方面,提供了一种运输路径预测方法,所述方法包括:
20、在目标地理区域对应的归一化坐标区域内,确定多个实际物流节点对应的坐标;
21、采用训练后的深度强化学习模型根据多个所述实际物流节点对应的坐标进行预测处理,得到针对多个所述实际物流节点对应的最短运输路径,其中,所述深度强化学习模型采用如第一方面任一项所述的模型训练方法训练得到。
22、根据本公开实施例的第三方面,提供了一种模型训练装置,所述装置包括:
23、生成模块,用于在样本地理区域对应的归一化坐标区域内,生成多个模拟物流节点对应的坐标;其中,每两个所述模拟物流节点的间距大于或等于第一预设距离;
24、构造模块,用于根据多个所述模拟物流节点对应的坐标,构造训练数据集;
25、训练模块,用于采用所述训练数据集训练用于预测最短运输路径的深度强化学习模型。
26、在一个实施例中,所述生成模块用于:
27、在所述样本地理区域对应的归一化坐标区域内,随机生成多个模拟物流节点对应的坐标。
28、在一个实施例中,所述装置还包括:
29、获取模块,用于获取所述样本地理区域的物流节点分布信息;
30、所述生成模块用于:
31、根据所述样本地理区域的物流节点分布信息,在所述样本地理区域对应的归一化坐标区域内,随机生成多个所述模拟物流节点对应的坐标。
32、在一个实施例中,所述获取模块用于:
33、根据所述样本地理区域内的实际物流节点的位置数据,获取所述样本地理区域的物流节点分布信息。
34、在一个实施例中,所述生成模块用于:
35、在所述样本地理区域对应的归一化坐标区域内,对每个实际物流节点对应的坐标进行邻域搜索,得到多个模拟物流节点对应的坐标。
36、在一个实施例中,所述生成模块用于:
37、在所述样本地理区域对应的归一化坐标区域中的单位网格内,确定每个所述实际物流节点对应的坐标所在的目标网格;
38、在每个所述实际物流节点对应的坐标所在的目标网格内,随机生成多个所述模拟物流节点对应的坐标。
39、根据本公开实施例的第四方面,提供了一种运输路径预测装置,所述装置包括:
40、确定模块,用于在目标地理区域对应的归一化坐标区域内,确定多个实际物流节点对应的坐标;
41、预测模块,用于采用训练后的深度强化学习模型根据多个所述实际物流节点对应的坐标进行预测处理,得到针对多个所述实际物流节点对应的最短运输路径,其中,所述深度强化学习模型采用如第一方面任一所述的模型训练方法训练得到。
42、根据本公开实施例的第五方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面任一项所述的模型训练方法或第二方面所述的运输路径预测方法。
43、根据本公开实施例的第六方面,提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述的模型训练方法或第二方面所述的运输路径预测方法。
44、本公开实施例提供一种模型训练方法、运输路径预测方法、装置和存储介质。所述模型训练方法通过在样本地理区域对应的归一化坐标区域内,生成多个模拟物流节点对应的坐标,并根据多个模拟物流节点对应的坐标,构造训练数据集,能够使得训练数据集达到充分训练模型所需要的数据量;通过采用训练数据集训练用于预测最短运输路径的深度强化学习模型,能够避免因训练数据集量不足而导致模型性能差的问题,有利于提升用于预测最短运输路径的深度强化学习模型的性能,从而能够提升最短运输路径的预测效果。
45、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。