物资调度方法、模型训练方法及装置与流程

文档序号：29462419发布日期：2022-04-02 01:58阅读：213来源：国知局

1.本公开涉及人工智能技术领域，进一步涉及仿真控制和强化学习技术领域，具体涉及一种物资调度方法、模型训练方法及装置。

背景技术：

2.目前，在港口环境中，进行物资调度时，需要执行以下流程：列车到港-列车卸货-暂存物资-船只装货。
3.在上述物资调度的流程中，需要对港口作业的各个参数进行调节。然而，目前对港口作业的各个参数进行调节的方式依赖于人工调节，从而导致物资调度的效率较低以及精准度较差。

技术实现要素：

4.本公开提供了一种物资调度方法、模型训练方法及装置。
5.根据本公开的一方面，提供了一种物资调度方法，包括：获取目标港口对应的状态信息；基于状态信息和训练完成的港口物资调度模型，确定与状态信息相匹配的物资调度参数集合；基于物资调度参数集合中的各个物资调度参数，执行港口物资调度作业。
6.根据本公开的另一方面，提供了一种模型训练方法，包括：获取样本状态信息；对样本状态信息执行以下模型训练步骤：基于样本状态信息和待训练模型，确定与样本状态信息相匹配的样本物资调度参数集合；基于样本状态信息、样本物资调度参数集合和预设的奖励函数，确定奖励值；响应于确定奖励值满足预设的收敛条件，将待训练模型确定为训练完成的港口物资调度模型。
7.根据本公开的另一方面，提供了一种用于物资调度的装置，包括：状态获取单元，被配置成获取目标港口对应的状态信息；参数确定单元，被配置成基于状态信息和训练完成的港口物资调度模型，确定与状态信息相匹配的物资调度参数集合；物资调度作业单元，被配置成基于物资调度参数集合中的各个物资调度参数，执行港口物资调度作业。
8.根据本公开的另一方面，提供了一种模型训练装置，包括：样本状态获取单元，被配置成获取样本状态信息；模型训练单元，被配置成对样本状态信息执行以下模型训练步骤：基于样本状态信息和待训练模型，确定与样本状态信息相匹配的样本物资调度参数集合；基于样本状态信息、样本物资调度参数集合和预设的奖励函数，确定奖励值；响应于确定奖励值满足预设的收敛条件，将待训练模型确定为训练完成的港口物资调度模型。
9.根据本公开的另一方面，提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上任意一项物资调度方法或者模型训练方法。
10.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上任意一项物资调度方法或者模型训练方法。
11.根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程
序在被处理器执行时实现如上任意一项物资调度方法或者模型训练方法。
12.根据本公开的技术，提供一种物资调度方法，能够提高港口物资调度的效率以及精准度。
13.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
14.附图用于更好地理解本方案，不构成对本公开的限定。其中：
15.图1是本公开的一个实施例可以应用于其中的示例性系统架构图；
16.图2是根据本公开的物资调度方法的一个实施例的流程图；
17.图3是根据本公开的物资调度方法的一个应用场景的示意图；
18.图4是根据本公开的模型训练方法的一个实施例的流程图；
19.图5是根据本公开的模型训练方法的另一个实施例的流程图；
20.图6是根据本公开的物资调度装置的一个实施例的结构示意图；
21.图7是根据本公开的模型训练装置的一个实施例的结构示意图；
22.图8是用来实现本公开实施例的物资调度方法或者模型训练方法的电子设备的框图。
具体实施方式
23.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
24.需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
25.如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
26.终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。其中，终端设备101、102、103可以用于物资调度场景，基于目标港口的状态信息确定相应的物资调度参数集合，并利用物资调度参数集合中的各个物资调度参数控制相应的港口物资调度设备执行相应的港口物资调度作业。在实际应用中，终端设备101、102、103可以将目标港口对应的状态信息通过网络104发送给服务器105，以使服务器105基于状态信息和训练完成的港口物资调度模型，确定物资调度参数集合，并将物资调度参数集合返回给终端设备101、102、103，以使终端设备101、102、103基于物资调度参数集合中的各个物资调度参数执行港口物资调度作业。又或者，在模型训练阶段，终端设备101、102、103也可以将样本状态信息通过网络104发送给服务器105，以使服务器105基于样本状态信息进行模型训练。
27.终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各个电子设备，包括但不限于手机、电脑、平板等等。当终端设备101、102、103
为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。
28.服务器105可以是提供各种服务的服务器，例如，服务器105可以获取终端设备101、102、103发送的状态信息，并基于状态信息和训练完成的港口物资调度模型，确定与状态信息相匹配的物资调度参数集合，并将物资调度参数集合通过网络104返回给终端设备101、102、103。又或者，在模型训练阶段，服务器105还可以接收终端设备101、102、103发送的样本状态信息，并利用样本状态信息对待训练模型进行训练，得到训练完成的港口物资调度模型。
29.需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。
30.需要说明的是，本公开实施例所提供的物资调度方法或者模型训练方法可以由终端设备101、102、103执行，也可以由服务器105执行，用于物资调度的装置或者模型训练装置可以设置于终端设备101、102、103中，也可以设置于服务器105中。
31.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
32.继续参考图2，示出了根据本公开的物资调度方法的一个实施例的流程200。本实施例的物资调度方法，包括以下步骤：
33.步骤201，获取目标港口对应的状态信息。
34.在本实施例中，执行主体(如图1中的终端设备101、102、103或者服务器105)可以在本地存储数据中或者预先建立连接的其他电子设备中获取目标港口对应的状态信息。目标港口可以为物资运输的陆运和海运进行转运的枢纽站，在港口物资调度的过程中，可以通过港口的各类设备协助工作，将物资从列车中卸下，并装入船舶。这里的物资可以包括但不限于煤炭、钢铁、矿产等，本实施例对此不做限定。目标港口的数量可以为一个，也可以为大于或者等于一个的任意数量，本实施例对此不做限定。这里目标港口的状态信息可以包括用于运输物资的设备的工作状态、用于存放物资的设备的存放状态等。其中，用于运输物资的设备的工作状态可以包括翻车机、皮带机、堆料机、卸料小车、取料机、活化给料机、装船机等设备的工作状态，工作状态可以包括设备是否空闲、设备的可用时间等各类状态。用于存放物资的设备的存放状态可以包括堆场存放的物资信息、筒仓存放的物资信息等，物资信息可以包括物资的重量、堆垛数、品类等信息。
35.在本实施例的一些可选的实现方式中，状态信息至少包括以下一项：堆垛状态信息、翻车机作业状态信息、皮带作业状态信息、取料机作业状态信息、装船机作业状态信息。
36.在本实现方式中，堆垛状态信息可以包括物资堆垛数量、物资堆垛重量、物资堆垛编号、堆垛对应的物资类别信息等；翻车机作业状态信息可以包括翻车机编号、翻车机开始作业时间、翻车机是否开始作业等；皮带作业状态信息可以包括皮带编号、皮带占用时间、皮带是否空闲等；取料机作业状态可以包括取料机编号、取料机开始作业时间、取料机是否开始作业等；装船机作业状态信息可以包括装船机编号、装船机开始作业时间、装船机是否开始作业等。
37.步骤202，基于状态信息和训练完成的港口物资调度模型，确定与状态信息相匹配的物资调度参数集合。
38.在本实施例中，执行主体可以将上述状态信息输入训练完成的港口物资调度模型，以使训练完成的港口物资调度模型生成相对应状态信息的物资调度参数集合，并按照物资调度参数集合中的各个物资调度参数执行港口物资调度作业。其中，训练完成的港口物资调度模型是预先训练的、用于实现多个参数同时控制的模型，具体可以采用dqn强化学习模型(deep q network，一种融合了神经网络和q-learning的模型)、actor-critic模型(一种基于强化学习实现的模型)等，本实施例对此不做限定。
39.在本实施例的一些可选的实现方式中，物资调度参数集合中的各个物资调度参数至少包括以下一项：运货列车参数、列车携带物资类别参数、皮带参数、翻车机参数、堆垛参数、卸料机参数、卸料小车参数、取料机参数、活化给料机参数、装船机参数、进船单参数。
40.在本实现方式中，运货列车参数可以包括列车的列车号、列车的车型等参数；列车携带物资类别参数可以包括物资类别类别参数；皮带参数可以包括执行港口物资调度作业时所选择的皮带编号、皮带开始作业时间等参数；翻车机参数可以包括执行港口物资调度作业时所选择的翻车机编号、翻车机开始作业时间等参数；堆垛参数可以包括执行港口物资调度作业时所选择的堆垛编号等参数；卸料机参数可以包括执行港口物资调度作业时所选择的卸料机编号；活化给料机参数可以包括执行港口物资调度作业时所选择的活化给料机编号；装船机参数可以包括执行港口物资调度作业时所选择的装船机编号、进船单参数可以包括执行港口物资调度作业时所选择的装船参数。
41.步骤203，基于物资调度参数集合中的各个物资调度参数，执行港口物资调度作业。
42.在本实施例中，执行主体在确定得到物资调度参数集合之后，还可以按照物资调度参数集合中的各个物资调度参数执行港口物资调度作业的各个流程。
43.在本实施例的一些可选的实现方式中，基于物资调度参数集合中的各个物资调度参数，执行港口物资调度作业可以包括：基于物资调度参数集合中的物资运输参数，选择用于运输物资的指定设备；基于物资调度参数集合中的物资存放参数，控制指定设备将物资运输到指定存放地点；基于物资调度参数集合中的物资装船参数，选择用于拉货装船的指定设备，并利用指定设备将指定存放地点的物资装入相应的船舶。
44.继续参见图3，其示出了根据本公开的物资调度方法的一个应用场景的示意图。在图3的应用场景中，执行主体可以获取需要进行港口物资调度的目标港口301，并获取目标港口301的状态信息302，如翻车机作业状态、皮带作业状态、堆垛状态、取料机作业状态、装船机作业状态等。其中，这些状态信息302可以人工输入，也可以由预设感知设备获取目标港口301的感知数据，并分析得到，本实施例对于状态信息302的具体获取方式不做限定。之后，执行主体可以将状态信息302输入港口物资调度模型303，得到模型输出的物资调度参数304。物资调度参数304可以包括运货列车参数、列车携带物资类别参数、皮带参数、翻车机参数、堆垛参数、卸料机参数等。执行主体可以通过与目标港口301中的物资调度设备预先建立通信连接，控制物资调度设备按照物资调度参数304执行港口物资调度作业305。
45.本公开上述实施例提供的物资调度方法，能够整体考虑港口物资调度作业的全流程，利用预先训练的港口物资调度模型生成相应的物资调度参数，来按照物资调度参数调
度港口的设备执行港口物资调度作业，从而提高港口物资调度的效率以及精准度。
46.继续参见图4，其示出了根据本公开的模型训练方法的一个实施例的流程400。如图4所示，本实施例的模型训练方法可以包括以下步骤：
47.步骤401，获取样本状态信息。
48.在本实施例中，样本状态信息可以为模拟真实港口中用于运输物资的设备的工作状态、用于存放物资的设备的存放状态的信息，对于样本状态信息的详细描述请一并参照对于目标港口对应的状态信息的详细描述，在此不再赘述。
49.其中，由于模型训练需要进行多轮迭代，因而这里获取的样本状态信息是初始的状态信息，在执行一轮模型训练之后，会对样本状态信息进行更新，并重新进行下一轮模型训练，直至模型训练完成。
50.步骤402，对样本状态信息执行以下模型训练步骤：基于样本状态信息和待训练模型，确定与样本状态信息相匹配的样本物资调度参数集合；基于样本状态信息、样本物资调度参数集合和预设的奖励函数，确定奖励值；响应于确定奖励值满足预设的收敛条件，将待训练模型确定为训练完成的港口物资调度模型。
51.在本实施例中，待训练模型可以为dqn强化学习模型，执行主体可以将样本状态信息输入待训练模型，得到待训练模型输出的样本物资调度参数集合。对于样本物资调度参数集合的详细描述请参照对于物资调度参数集合的详细描述，在此不再赘述。之后，执行主体可以基于样本状态信息、样本物资调度参数集合和预设的奖励函数，确定奖励值，如果奖励值不满足预设的收敛条件，则更新样本状态信息，重复执行模型训练步骤，直至奖励值满足预设的收敛条件，得到训练完成的港口物资调度模型。其中，待训练模型也可以为其他强化学习模型，本实施例对此不做限定。
52.本公开的上述实施例提供的模型训练方法，还可以通过样本状态信息、预设的奖励函数对待训练模型进行训练，得到港口物资调度模型，来实现港口物资调度的综合调度，提高港口物资调度调度效果。
53.继续参见图5，其示出了根据本公开的模型训练方法的另一个实施例的流程500。如图5所示，本实施例的模型训练方法可以包括以下步骤：
54.步骤501，获取样本状态信息。
55.在本实施例中，样本状态信息至少包括以下一项：堆垛样本状态信息、翻车机样本作业状态信息、皮带样本作业状态信息、取料机样本作业状态信息、装船机样本作业状态信息。
56.其中，对于样本状态信息的详细描述请参照对于目标港口的状态信息的详细描述；对于堆垛样本状态信息的详细描述请参照对于堆垛状态信息的详细描述；对于翻车机样本作业状态信息的详细描述请参照对于翻车机作业状态信息的详细描述；对于皮带样本作业状态信息的详细描述请参照对于皮带作业状态信息的详细描述；对于取料机样本作业状态信息的详细描述请参照对于取料机作业状态信息的详细描述；对于装船机样本作业状态信息的详细描述请参照对于装船机作业状态信息的详细描述。
57.步骤502，对样本状态信息执行以下模型训练步骤：基于样本状态信息和待训练模型，确定与样本状态信息相匹配的样本物资调度参数集合；基于样本状态信息、样本物资调度参数集合和预设的奖励函数，确定奖励值；响应于确定奖励值满足预设的收敛条件，将待
训练模型确定为训练完成的港口物资调度模型。
58.在本实施例中，样本物资调度参数集合中的各个样本物资调度参数中至少包括以下一项：运货列车样本参数、列车携带物资类别样本参数、皮带样本参数、翻车机样本参数、堆垛样本参数、卸料机样本参数、卸料小车样本参数、取料机样本参数、活化给料机样本参数、装船机样本参数、进船单样本参数。其中，对于样本物资调度参数集合中的各个样本物资调度参数的详细描述请参照对于物资调度参数集合中的各个物资调度参数的详细描述，在此不再赘述。
59.步骤503，响应于确定奖励值不满足预设的收敛条件，基于仿真环境更新样本状态信息，并对更新后的样本状态信息执行模型训练步骤，直至得到训练完成的港口物资调度模型。
60.在本实施例中，如果上述奖励值不满足预设的收敛条件，则利用仿真环境对样本状态信息进行更新，并对更新后的样本状态信息重复执行上述的模型训练步骤，直至得到训练完成的港口物资调度模型。其中，仿真环境用于对港口物资调度的真实场景进行仿真处理。
61.在本实施例的一些可选的实现方式中，基于仿真环境更新样本状态信息，包括：基于样本物资调度参数集合，控制仿真环境模拟港口物资调度作业，得到模拟港口物资调度后的仿真环境；基于模拟港口物资调度后的仿真环境，更新样本状态信息。
62.在本实现方式中，执行主体可以在一轮训练结束、且奖励值不满足预设的收敛条件的情况下，利用本轮训练得到样本物资调度参数集合，控制仿真环境中的各个设备按照样本物资调度参数进行港口物资调度作业，并基于模拟港口物资调度后的仿真环境，更新上述的样本状态信息。采用这种仿真环境模拟更新样本状态信息的方式，能够使得样本状态信息的更新更符合真实的港口物资调度作业情况，从而能够提高模型的训练效果。
63.并且，港口物资调度作业可以包括卸货作业和拉货作业，对于卸货作业而言，可以基于以下公式更新堆垛样本状态信息：
[0064][0065]
其中，wi表示更新后的堆垛样本数量，w
i-1
表示更新前的堆垛样本数量，表示n个卸货车卸掉的物资数量。
[0066]
以及，基于以下公式更新翻车机样本作业状态信息：
[0067]
sti＝st
i-1
+t_wt
[0068]
其中，sti表示更新后的翻车机开始作业时间，st
i-1
表示更新前的翻车机开始作业时间，t_wt表示更新前的翻车机的作业时长。
[0069]
以及，皮带样本开始作业时间可以等于上述更新后的翻车机开始作业时间。
[0070]
而对于拉货作业而言，可以基于以下公式更新堆垛样本状态信息：
[0071][0072]
其中，wi表示更新后的堆垛样本数量，w
i-1
表示更新前的堆垛样本数量，表示n个拉货车拉走的物资数量。
[0073]
以及，基于以下公式更新取料机或者活化给料机样本作业状态信息：
[0074]
sti＝st
i-1
+b_wt
[0075]
其中，sti表示更新后的取料机或者活化给料机开始作业时间，st
i-1
表示更新前的取料机或者活化给料机开始作业时间，b_wt表示更新前的取料机或者活化给料机的作业时长。
[0076]
以及，皮带占用时间可以等于上述更新后的翻车机开始作业时间。
[0077]
举例来说，根据样本物资调度参数集合控制仿真环境模拟卸车场景时，可以根据样本物资调度参数集合确定列车数量、每个列车对应的物资类别、每个列车的到站时间、每个列车的车型、进车单中的列车数量等参数，并对每个列车的卸货作业，选择相应的翻车机、皮带、卸料机、堆垛等资源。每个皮带和每个翻车机都具有相应的开始作业时间，以及对应车型的作业时长(可以通过预设的车辆属性和作业时长的对应关系表确定得到)，基于开始作业时间和作业时长可以得到作业结束时间。例如，某个皮带和翻车机的结束作业时间是6:38，那么该皮带和翻车机下次开始作业的时间是6:39。
[0078]
在本实施例的另一些可选的实现方式中，基于样本物资调度参数集合，控制仿真环境模拟港口物资调度作业，得到模拟港口物资调度后的仿真环境，包括：基于样本物资调度参数集合和预设的约束条件，配置仿真环境中目标设备的作业参数；控制目标设备按照作业参数运行，得到模拟港口物资调度后的仿真环境。
[0079]
在本实现方式中，目标设备可以为仿真环境中模拟港口物资调度作业的各个设备，可以包括但不限于列车、皮带机、翻车机、卸料机、卸料小车、拉货的船舶、取料机、活化给料机等，本实施例对此不做限定。预设的约束条件用于对仿真环境中的各个设备的选择进行限制，用以实现仿真环境中各个设备的合理调度。执行主体可以按照预设的约束条件和样本物资调度参数集合，选择仿真环境中本轮模拟港口物资调度作业需要调用的目标设备，并对目标设备的作业参数进行配置，以使目标设备按照相应的作业参数运行，得到模拟港口物资调度后的仿真环境。
[0080]
在本实施例的另一些可选的实现方式中，预设的约束条件至少包括：目标设备为可用设备；和/或，目标设备的作业时间满足预设的时间条件；和/或，目标设备的设备类型与样本物资调度参数集合中的样本物资调度参数相匹配。
[0081]
在本实现方式中，可用设备可以为处于空闲状态可以被选择的设备，通过约束目标设备为可用设备，可以提高设备的确定合理性。并且，目标设备的作业时间可以包括目标设备的开始作业时间、到达时间、对车时间等，本实施例对此不做限定。预设的时间条件可以包括目标设备的开始作业时间大于或者等于目标设备的到达时间与对车时间之和，或者，预设的时间条件还可以包括目标设备的开始作业时间和对车时间之和处于预设的时间范围内，采用这种对时间范围的约束，可以模拟不同时间段内真实港口物资调度作业情况。以及，目标设备的设备类型可以包括但不限于设备限高类型、设备属性类型、设备物资调度的物资类别等，本实施例对此不做限定。
[0082]
其中，响应于确定目标设备为万吨列，针对目标设备的约束条件还可以包括：同一个万吨列的单列对应的翻车机相同则不存在对车时间；和/或，万吨列对应的翻车机为适用于万吨列的类型。
[0083]
在本实施例的另一些可选的实现方式中，还包括：基于预设时间段内的列车物资调度总量、船只卸货总量以及皮带作业间隔，确定预设的奖励函数。
[0084]
在本实现方式中，预设的奖励函数可以基于运输物资的总量以及资源等待时长确
定，具体的，可以将期望目标设定为运输物资的总量最大、且资源等待时长最小。其中，预设的奖励函数可以如下：
[0085][0086]
其中，reward表示期望函数，sti表示第i辆列车的开始作业时间，t表示预设的时间，表示一定时间内的所有列车的开始作业时间，twi表示第i辆列车物资调度的重量，yi表示第i辆列车是否被选中物资调度，如果选中则为1，如果未被选中则为0，bwj表示第j辆船舶物资调度的物资类别，kj表示第j辆列车是否被选中物资调度，如果选中则为1，如果未被选中则为0，n表示列车总数，m表示船舶总数。例如，如果在进行模型训练时，模拟从7:00到18:30这段时间范围内的港口物资调度情况，并且将1分钟作为间隔时间，此时的t可以660，表示从7:00到18:30间隔1分钟的时间总数。如果在这段时间范围内列车总数恒定，则列车之间的间隔时间越长，奖励值越高。
[0087]
本公开的上述实施例提供的模型训练方法，还可以利用仿真环境和样本物资调度参数集合模拟港口物资调度作业，基于仿真环境实现对样本状态信息的更新，提高了样本状态信息更新的真实性。以及，通过设置约束条件配置仿真环境中目标设备的作业参数，能够提高作业参数的配置合理性，进而进一步提高样本状态信息的更新精准度。以及，基于预设时间段内列车物资调度总量、船只卸货总量以及皮带作业间隔，能够从物资调度总量和等待时长两方面建立模型训练目标，提高了训练得到的模型的策略生成效果。
[0088]
进一步参考图6，作为对上述各图所示方法的实现，本公开提供了一种物资调度装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于终端设备、服务器等电子设备中。
[0089]
如图6所示，本实施例的物资调度装置600包括：状态获取单元601、参数确定单元602和物资调度作业单元603。
[0090]
状态获取单元601，被配置成获取目标港口对应的状态信息。
[0091]
参数确定单元602，被配置成基于状态信息和训练完成的港口物资调度模型，确定与状态信息相匹配的物资调度参数集合。
[0092]
物资调度作业单元603，被配置成基于物资调度参数集合中的各个物资调度参数，执行港口物资调度作业。
[0093]
在本实施例的一些可选的实现方式中，状态信息至少包括以下一项：堆垛状态信息、翻车机作业状态信息、皮带作业状态信息、取料机作业状态信息、装船机作业状态信息。
[0094]
在本实施例的一些可选的实现方式中，物资调度参数集合中的各个物资调度参数至少包括以下一项：运货列车参数、列车携带物资类别参数、皮带参数、翻车机参数、堆垛参数、卸料机参数、卸料小车参数、取料机参数、活化给料机参数、装船机参数、进船单参数。
[0095]
应当理解，用于物资调度的装置600中记载的单元601至单元603分别与参考图2中描述的方法中的各个步骤相对应。由此，上文针对物资调度方法描述的操作和特征同样适用于装置600及其中包含的单元，在此不再赘述。
[0096]
进一步参考图7，作为对上述各图所示方法的实现，本公开提供了一种模型训练装置的一个实施例，该装置实施例与图4所示的方法实施例相对应，该装置具体可以应用于终端设备、服务器等电子设备中。
[0097]
如图7所示，本实施例的模型训练装置700包括：样本状态获取单元701和模型训练单元702。
[0098]
状态获取单元701，被配置成获取样本状态信息。
[0099]
模型训练单元702，被配置成对样本状态信息执行以下模型训练步骤：基于样本状态信息和待训练模型，确定与样本状态信息相匹配的样本物资调度参数集合；基于样本状态信息、样本物资调度参数集合和预设的奖励函数，确定奖励值；响应于确定奖励值满足预设的收敛条件，将待训练模型确定为训练完成的港口物资调度模型。
[0100]
在本实施例的一些可选的实现方式中，模型训练单元702进一步被配置成：响应于确定奖励值不满足预设的收敛条件，基于仿真环境更新样本状态信息，并对更新后的样本状态信息执行模型训练步骤，直至得到训练完成的港口物资调度模型。
[0101]
在本实施例的一些可选的实现方式中，模型训练单元702进一步被配置成：基于样本物资调度参数集合，控制仿真环境模拟港口物资调度作业，得到模拟港口物资调度后的仿真环境；基于模拟港口物资调度后的仿真环境，更新样本状态信息。
[0102]
在本实施例的一些可选的实现方式中，模型训练单元702进一步被配置成：基于样本物资调度参数集合和预设的约束条件，配置仿真环境中目标设备的作业参数；控制目标设备按照作业参数运行，得到模拟港口物资调度后的仿真环境。
[0103]
在本实施例的一些可选的实现方式中，预设的约束条件至少包括：目标设备为可用设备；和/或，目标设备的作业时间满足预设的时间条件；和/或，目标设备的设备类型与样本物资调度参数集合中的样本物资调度参数相匹配。
[0104]
在本实施例的一些可选的实现方式中，样本状态信息至少包括以下一项：堆垛样本状态信息、翻车机样本作业状态信息、皮带样本作业状态信息、取料机样本作业状态信息、装船机样本作业状态信息。
[0105]
在本实施例的一些可选的实现方式中，样本物资调度参数集合中的各个样本物资调度参数中至少包括以下一项：运货列车样本参数、列车携带物资类别样本参数、皮带样本参数、翻车机样本参数、堆垛样本参数、卸料机样本参数、卸料小车样本参数、取料机样本参数、活化给料机样本参数、装船机样本参数、进船单样本参数。
[0106]
在本实施例的一些可选的实现方式中，模型训练单元702进一步被配置成：基于预设时间段内的列车拉货总量、船只卸货总量以及皮带作业间隔，确定预设的奖励函数。
[0107]
应当理解，模型训练装置700中记载的单元701至单元703分别与参考图4中描述的方法中的各个步骤相对应。由此，上文针对模型训练方法描述的操作和特征同样适用于装置700及其中包含的单元，在此不再赘述。
[0108]
根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0109]
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0110]
如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序，来执行各种适当的动作和处理。在ram803中，还可存储设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
[0111]
设备800中的多个部件连接至i/o接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0112]
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如物资调度方法或者模型训练方法。例如，在一些实施例中，物资调度方法或者模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram 803并由计算单元801执行时，可以执行上文描述的物资调度方法或者模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行物资调度方法或者模型训练方法。
[0113]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0114]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0115]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom
或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0116]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0117]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0118]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
[0119]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
[0120]
上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：袁晓敏解鑫李飞刘颖许铭刘建林徐进金莹张金义陈凯
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。