一种订单匹配方法、装置、存储介质及电子设备与流程

文档序号：31508687发布日期：2022-09-14 10:45阅读：46来源：国知局

1.本说明书涉及互联网技术领域，尤其涉及一种订单匹配方法、装置、存储介质及电子设备。

背景技术：

2.如今，即时配送服务已经是用户在日常生活中最常使用的服务之一。对于提供即时配送服务的平台来说，在实现即时配送时最关键的便是处理好订单与配送运力之间的匹配关系。而随着即时配送服务越来越广泛地被使用，庞大的订单数量与配送运力之间的匹配关系也越来越难处理，因此，如何对订单与配送运力进行匹配变得尤为重要。
3.目前，大多数配送平台在处理大量订单与配送运力之间的匹配关系时，通常会采用订单组合与配送运力进行匹配的方式替代原有的订单与配送运力进行匹配的方式。即，先将订单按照一定的规则进行组合，得到若干个订单组合，随后对每个订单组合与每个配送运力之间进行质量评价，并最终根据评价出的质量，一对一地将每个订单组合分配给一个配送运力，得到订单组合与配送运力的匹配结果。
4.然而，现有的这种将订单转化为订单组合再与配送运力进行匹配的方式，如果想要得到最优的匹配结果，就需要先将每种可能的订单组合情况全部计算出来，并对每种订单组合与每个配送运力进行质量评价，在实际使用中的计算规模十分庞大，极大的增加了算法的运行时间以及运行时的内存消耗。

技术实现要素：

5.本说明书提供一种订单匹配方法、装置、存储介质及电子设备，以至少部分地解决现有技术存在的上述问题。
6.本说明书采用下述技术方案：
7.本说明书提供了一种订单匹配方法，包括：
8.获取当前调度周期内的待匹配订单、配送运力信息，所述当前调度周期内的待匹配订单包含上一调度周期内的未完成匹配的订单，所述当前调度周期内的配送运力信息为上一调度周期匹配完成后的配送运力状态更新后的信息；
9.将所述待匹配订单、配送运力信息输入预先训练的模型中，以通过所述模型确定各待匹配订单与各配送运力之间的匹配值；
10.针对每个待匹配订单，根据该待匹配订单与各配送运力之间的匹配值，确定与该待匹配订单匹配的配送运力，其中，一个配送运力仅与一个待匹配订单相匹配；当不存在与该待匹配订单匹配的配送运力时，将该待匹配订单作为当前调度周期内的未完成匹配的订单；
11.根据当前调度周期的匹配结果，更新配送运力状态；
12.在下一调度周期到来时，将所述下一调度周期重新确定为当前调度周期，并获取重新确定的当前调度周期内的待匹配订单、配送运力信息，直到为所有待匹配订单确定出
匹配的配送运力。
13.可选的，确定各待匹配订单与各配送运力之间的匹配值，具体包括：
14.针对每个待匹配订单，确定每个配送运力执行该订单的预估配送效率；
15.根据各配送运力配送各待匹配订单的预估配送效率，确定各待匹配订单与各配送运力之间的匹配值。
16.可选的，针对每个待匹配订单，根据该待匹配订单与各配送运力之间的匹配值，确定与该待匹配订单匹配的配送运力，具体包括：
17.在各配送运力中确定指定配送运力；
18.以所述指定配送运力与各待匹配订单之间的匹配值从小到大的顺序，依次针对每个待匹配订单，根据各配送运力与该待匹配订单之间的匹配值，确定与该待匹配订单匹配的配送运力。
19.可选的，预先训练模型，具体包括：
20.获取样本调度周期内的待匹配样本订单、样本配送运力信息，所述样本调度周期内的待匹配样本订单包含上一样本调度周期内的未完成匹配的样本订单，所述样本调度周期内的样本配送运力信息为上一样本调度周期匹配完成后的样本配送运力状态更新后的信息；
21.将所述待匹配样本订单信息、样本配送运力信息待训练的模型中，以通过所述模型确定各待匹配样本订单与各样本配送运力之间的匹配值；
22.针对每个待匹配订单，根据该待匹配订单与各样本配送运力之间的匹配值，确定与该待匹配订单匹配的样本配送运力，其中，一个样本配送运力仅与一个待匹配样本订单相匹配；当不存在与该待匹配样本订单匹配的样本配送运力时，将该待匹配样本订单作为样本调度周期内的未完成匹配的订单；
23.将存在匹配的样本配送运力的样本订单作为已匹配样本订单，针对每个已匹配样本订单，根据该已匹配样本订单和与该已匹配样本订单匹配的样本配送运力之间的匹配值，确定该已匹配样本订单的奖励；
24.根据样本调度周期的匹配结果，更新样本配送运力状态；
25.在下一调度周期到来时，将所述下一调度周期重新确定为样本调度周期，并获取重新确定的样本调度周期内的待匹配样本订单、样本配送运力信息，直到为所有待匹配样本订单确定出匹配的配送运力；
26.以各已匹配样本订单的奖励的和值最大为优化目标，对所述模型进行训练。
27.可选的，以所述各已匹配样本订单的奖励的和值最大为优化目标，对所述模型进行训练，具体包括：
28.根据所述待匹配样本订单、样本配送运力信息提取待匹配样本订单特征、样本配送运力特征；
29.根据所述待匹配样本订单特征、所述样本配送运力特征以及所述各待匹配样本订单与各样本配送运力之间的匹配值，确定每个待匹配样本订单的预估奖励；
30.根据所述各已匹配样本订单的奖励的和值与所述各待匹配样本订单的预估奖励的和值确定优异值；
31.以所述优异值最大为优化目标，对所述模型进行训练。
32.可选的，根据所述各已匹配样本订单的奖励的和值与所述各待匹配样本订单的预估奖励的和值确定优异值，具体包括：
33.确定所述各已匹配样本订单的奖励的和值与所述各待匹配样本订单的预估奖励的和值之间的差值；
34.确定迭代训练的每轮次训练中各待匹配样本订单与各样本配送运力之间的匹配结果；
35.根据迭代训练的不同轮次训练中各待匹配样本订单与各样本配送运力之间的匹配结果，确定不同匹配结果之间的差异值；
36.根据所述差值和所述差异值，确定优异值。
37.可选的，根据所述差值和所述差异值，确定优异值，还包括：
38.确定预设的差异范围；
39.当所述差异值在所述差异范围内时，采用所述差异值对所述差值进行调整，得到优异值；
40.当所述差异值大于所述差异范围的上限时，采用所述差异范围的上限对所述差值进行调整，得到优异值；
41.当所述差异值小于所述差异范围的下限时，采用所述差异范围的下限对所述差值进行调整，得到优异值。
42.本说明书提供的一种订单匹配装置，所述装置包括：
43.获取模块，获取当前调度周期内的待匹配订单、配送运力信息，所述当前调度周期内的待匹配订单包含上一调度周期内的未完成匹配的订单；
44.确定模块，将所述待匹配订单、配送运力信息输入预先训练的模型中，以通过所述模型确定各待匹配订单与各配送运力之间的匹配值；
45.匹配模块，针对每个待匹配订单，根据该待匹配订单与各配送运力之间的匹配值，确定与该待匹配订单匹配的配送运力，其中，一个配送运力仅与一个待匹配订单相匹配；当不存在与该待匹配订单匹配的配送运力时，将该待匹配订单作为当前调度周期内的未完成匹配的订单；
46.更新模块，根据当前调度周期的匹配结果，更新配送运力状态；
47.循环模块，在下一调度周期到来时，将所述下一调度周期重新确定为当前调度周期，并获取重新确定的当前调度周期内的待匹配订单、配送运力信息，直到为所有待匹配订单确定出匹配的配送运力。
48.本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述订单匹配方法。
49.本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述订单匹配方法。
50.本说明书采用的上述至少一个技术方案能够达到以下有益效果：
51.在本说明书提供的订单匹配方法中，首先利用预先训练的模型，确定出各待匹配订单与各配送运力之间的匹配值；随后以一个配送运力仅与一个待匹配订单相匹配的形式，根据每个待匹配订单与各配送运力之间的匹配值，确定与每个待匹配订单匹配的配送运力；当不存在配送运力与一个待匹配订单相匹配时，将该待匹配订单顺延至下一调度周
期的待匹配订单中，直到为所有待匹配订单确定出匹配的配送运力。本方法无需划分组合订单，在每个调度周期中采用订单与配送运力一对一匹配的方式，极大地减小了计算规模；同时，部分情况下会将部分订单顺延至下一调度周期，将庞大的计算量分摊至每个调度周期中，有效减少了短时间内需要处理的计算量，减轻了服务器的负担。
附图说明
52.此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：
53.图1为本说明书中一种订单匹配方法的流程示意图；
54.图2为本说明书提供的一种订单匹配装置的示意图；
55.图3为本说明书提供的对应于图1的电子设备示意图。
具体实施方式
56.通常情况下，在即时配送业务中，产生的订单的数量是会多于配送运力的数量的，因此，很多时候都需要一个配送运力接取多个订单进行配送。在一个配送运力需要同时配送多个订单的前提下，难免会产生配送效率方面的问题，例如如何规划配送路径才能保证全部按时送达等。而通过为每个订单匹配合适的配送运力，便可有效改善上述情况。
57.现有的方法为了简化路径规划问题，在订单与配送运力匹配之前，先将已有的订单按照预设的规则划分为若干订单组合，例如将目的地一个指定区域内的订单划分为一个订单组合等，随后确定出与每个订单组合相匹配的配送运力。
58.然而，大多数时候并不能保证按照规则划分出的订单组合在与配送运力匹配后，能够使所有订单的配送效率达到全局最优。而在预先划分订单组合的前提下，如果想要找到能使所有订单配送效率全局最优的匹配结果，就需要遍历出所有的订单组合模式，以及在所有订单组合模式下，每个订单组合与每个配送运力之间的适合程度，这无疑会产生巨大的计算规模和计算量。
59.为解决上述问题，本说明书提出一种无需划分订单组合的迭代式订单匹配方法。
60.为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
61.以下结合附图，详细说明本说明书各实施例提供的技术方案。
62.图1为本说明书中一种订单匹配方法的流程示意图，具体包括以下步骤：
63.s100：获取当前调度周期内的待匹配订单、配送运力信息，所述当前调度周期内的待匹配订单包含上一调度周期内的未完成匹配的订单，所述当前调度周期内的配送运力信息为上一调度周期匹配完成后的配送运力状态更新后的信息。
64.本说明书所提供的订单匹配方法中的所有步骤均可由任何具有计算功能的电子设备来实现，例如终端、服务器等电子设备。本说明书中提到的订单可以是任何需要配送的订单，例如外卖订单、快递订单等。
65.在采用本方法实现订单与配送运力匹配的完整流程中，存在多个调度周期，本说明书主要以一个调度周期中需要实现的步骤为例进行说明，任一调度周期均可按图1所示的步骤进行操作。其中，调度周期的时长可根据具体需求进行设定，如30秒、60秒等。
66.在每个调度周期到来，即当前调度周期开始时，首先要获取当前调度周期内的待匹配订单与配送运力的信息。通常情况下，当前调度周期内的待匹配订单信息，为当前调度周期开始时，即时配送平台中已生成的未分配给配送运力的订单，在采用本方法的情况下，每一个调度周期进行一次匹配，因此当前调度周期内的待匹配订单可以是即时配送平台在上一调度周期中生成的订单(新生成的未经过匹配的订单)。其中，一个待匹配订单的信息可包括订单生成时间、配送起点与终点等信息。配送运力可以是当前在线的全部配送运力，在当前调度周期开始时，平台会更新并获取全部配送运力的信息，作为当前调度周期内的配送运力的信息。其中，一个配送运力信息可包括该配送运力当前已接单数量、当前配送路径等信息；与订单不同，配送运力不会因为一个订单完成后消失，而是会选择继续执行其它订单或是不再继续执行订单，每一调度周期的匹配结束后，都会对目前在线的配送运力的状态进行更新，因此，当前调度周期内的配送运力信息可以是上一调度周期匹配完成后，配送运力状态更新后的信息。
67.由于本方法在每个调度周期中，采用订单与配送运力一对一的形式进行匹配，即一个订单只能分配给一个配送运力，一个配送运力也只能接取一个订单，以此来缓解高峰时段服务器的压力。因此，在订单较多的调度周期中，可能会出现部分订单没有与之匹配的配送运力的情况，此时，本方法会将这部分订单作为当前调度周期内未完成匹配的订单，并将其顺延至下一调度周期中，即下一调度周期的待匹配订单中会包含当前调度周期内未完成匹配的订单(已进行过匹配但未匹配成功的订单)。同样的，当前调度周期的待匹配订单中也会包含上一调度周期其内未完成匹配的订单。
68.s102：将所述待匹配订单、配送运力信息输入预先训练的模型中，以通过所述模型确定各待匹配订单与各配送运力之间的匹配值。
69.将步骤s100中获取到的当前调度周期内的待匹配订单和配送运力的信息输入仅预先训练好的模型中，该模型用于确定待匹配订单与配送运力之间的匹配值。在本说明书中，一个待匹配订单与一个配送运力之间的匹配值用于表征待匹配订单与配送运力之间的适配程度，即该待匹配订单由该配送运力进行配送时配送效率的高低。一个待匹配订单与一个配送运力之间的匹配值越高，则表明该待匹配订单与该配送运力之间的适配程度越高，反之则表明该待匹配订单与该配送运力之间的适配程度越低。
70.s104：针对每个待匹配订单，根据该待匹配订单与各配送运力之间的匹配值，确定与该待匹配订单匹配的配送运力，其中，一个配送运力仅与一个待匹配订单相匹配；当不存在与该待匹配订单匹配的配送运力时，将该待匹配订单作为当前调度周期内的未完成匹配的订单。
71.在确定各待匹配订单与各配送运力之间的匹配值后，可根据确定出的匹配值对待匹配订单与配送运力进行匹配。可先按照一定的规则对待匹配订单进行排序，例如每个待匹配订单的生成时间的先后顺序，随后按照排序依次为每个待匹配订单匹配合适的配送运力，例如与该待匹配订单之间的匹配值最高的配送运力等。对于任意一个配送运力，当排序靠前的待匹配订单在当前调度周期已经与该配送运力相匹配时，后续的待匹配订单便无法
在当前调度周期与该配送运力相匹配。由此即可实现一个配送运力仅与一个待匹配订单相匹配。
72.同样也正因如此，在当前调度周期中，待匹配订单的数量大于配送运力的数量时，就会出现部分待匹配订单没有配送运力去与之匹配，此时便将该部分待匹配订单作为当前调度周期内未完成匹配的订单，在下一调度周期中重新作为待匹配订单进行匹配。除上述情况外，还有其它情况可导致出现未完成匹配的订单，例如可在匹配时设定最低阈值，当一个待匹配订单与一个配送运力之间的匹配值低于该最低阈值时，不考虑二者匹配的可能性。由此，当一个待匹配订单与所有配送运力之间的匹配值均低于最低阈值时，则会导致没有配送运力可以与该待匹配订单进行匹配，该待匹配订单在当前调度周期中就会成为未完成匹配的订单。
73.s106：根据当前调度周期的匹配结果，更新配送运力状态。
74.正如步骤s100中提到的，在每一个调度周期完成匹配后，都会对配送运力的状态进行更新。其中，当前调度周期的匹配结果可包括但不限于，每个配送运力的在线状态、接单量、位置、预估路径、预计配送时间等。
75.s108：在下一调度周期到来时，将所述下一调度周期重新确定为当前调度周期，并获取重新确定的当前调度周期内的待匹配订单、配送运力信息，直到为所有待匹配订单确定出匹配的配送运力。
76.在当前调度周期结束时，下一调度周期到来时，已完成对当前调度周期中的待匹配订单与配送运力的匹配。此时若还存在未匹配或未完成匹配的待匹配订单，则将下一调度周期重新确定为当前调度周期，并获取重新确定的当前调度周期内的待匹配订单与配送运力的信息，并按本说明书中上述步骤中的方法为待匹配订单和配送运力进行匹配，直到为所有待匹配订单确定出匹配的配送运力。换句话说，本说明书提供的方法可循环执行，在没有为所有待匹配订单确定出匹配的配送运力时，可反复执行上述步骤s100到s108，直到为所有待匹配订单确定出匹配的配送运力。
77.值得一提的是，在实际应用中，即时配送平台在任何时刻都有可能会接收到新的订单，因此，为确保能够第一时间配送接收到的订单，在此步骤中也可不设定循环结束的条件，使循环一直持续下去。事实上，即时配送平台也会经常存在不断接收到新的订单的情况，即时存在结束循环的条件也无法结束，因此不去设定结束循环的条件也是一种可行的方法。
78.在采用本说明书提供的订单匹配方法对待匹配订单和配送运力进行匹配时，采用待匹配订单与配送运力直接一对一匹配的方式，替代传统的先对订单分组，后匹配的方式，极大地缩小了计算规模并显著减少了计算量。同时，在当前调度周期内待匹配订单过多时，可将部分待匹配订单作为未完成匹配的订单顺延至下一调度周期，重新作为待匹配订单进行匹配，由此可将高峰时段的服务器压力分摊至其它调度周期中，可有效减轻服务器的负担。
79.在步骤s102中，可采用多种方法确定各待匹配订单与各配送运力之间的匹配值，例如，可直接根据预估的配送效率来确定。具体的，可针对每个待匹配订单，确定每个配送运力执行该订单的预估配送效率；根据各配送运力配送各待匹配订单的预估配送效率，确定各待匹配订单与各配送运力之间的匹配值。在即时配送场景中，通常会根据一个配送运
力配送一个订单时的配送路径和配送时长来确定该配送运力配送该订单时的配送效率，因此，一个配送运力配送一个待匹配订单的预估配送效率可包括该配送运力配送该待匹配订单时的预估配送路径和预估配送时长。
80.在步骤s104中，也可采用多种方法设置每个调度周期内待匹配订单进行匹配的顺序，本说明书在此给出一种具体实施例以供参考。具体的，可在各配送运力中确定指定配送运力；以所述指定配送运力与各待匹配订单之间的匹配值从小到大的顺序，依次针对每个待匹配订单，根据各配送运力与该待匹配订单之间的匹配值，确定与该待匹配订单匹配的配送运力。
81.其中，指定配送运力可以是根据预设的规则挑选出的配送运力，例如指定配送运力可以是与所有待匹配订单之间的匹配值的和值最高或最低的配送运力；也可以直接随机确定出的配送运力。在确定出指定配送运力后，可按照指定配送运力与各待匹配订单之间的匹配值从小到大的顺序对待匹配订单进行排序，并按照待匹配订单的顺序，依次为每个待匹配订单匹配与其匹配值最高的配送运力。正如步骤s102中说明的，一个待匹配订单与一个配送运力之间的匹配值用于表征该待匹配订单由该配送运力进行配送时配送效率的高低，匹配值越高，表示由该配送运力对该待匹配订单进行配送时，配送效率越高。因此，将待匹配订单按照与指定配送运力之间的匹配值从小到大的顺序进行排序，其目的为将匹配值较小，可能不易进行匹配的待匹配订单排在较靠前的位置，使其有更多可匹配的配送运力，尽量保证优先将其匹配出去。
82.除上述方法之外，还可采用其它方法对待匹配订单进行排序，本说明书在此不做限制。
83.在实施本说明书中的订单匹配方法时，需要采用预先训练好的模型用于确定待匹配订单与配送运力之间的匹配值。其中，预先训练模型，具体可以为获取样本调度周期内的待匹配样本订单、样本配送运力信息，所述样本调度周期内的待匹配样本订单包含上一样本调度周期内的未完成匹配的样本订单，所述样本调度周期内的样本配送运力信息为上一样本调度周期匹配完成后的样本配送运力状态更新后的信息；将所述待匹配样本订单信息、样本配送运力信息待训练的模型中，以通过所述模型确定各待匹配样本订单与各样本配送运力之间的匹配值；针对每个待匹配订单，根据该待匹配订单与各样本配送运力之间的匹配值，确定与该待匹配订单匹配的样本配送运力，其中，一个样本配送运力仅与一个待匹配样本订单相匹配；当不存在与该待匹配样本订单匹配的样本配送运力时，将该待匹配样本订单作为样本调度周期内的未完成匹配的订单；将存在匹配的样本配送运力的样本订单作为已匹配样本订单，针对每个已匹配样本订单，根据该已匹配样本订单和与该已匹配样本订单匹配的样本配送运力之间的匹配值，确定该已匹配样本订单的奖励；根据样本调度周期的匹配结果，更新样本配送运力状态；在下一调度周期到来时，将所述下一调度周期重新确定为样本调度周期，并获取重新确定的样本调度周期内的待匹配样本订单、样本配送运力信息，直到为所有待匹配样本订单确定出匹配的配送运力；以所述各已匹配样本订单的奖励的和值最大为优化目标，对所述模型进行训练。
84.在训练该模型时采用的待匹配样本订单和样本配送运力的信息可以是历史数据中的信息，也可以是实际应用时的实时信息。在该模型确定出样本调度周期内各待匹配样本订单与各样本配送运力之间的匹配值后，可采用如步骤s104中的方法对各待匹配样本订
单和各样本配送运力进行匹配，将成功匹配到样本配送运力的样本订单作为已匹配样本订单，并根据该已匹配样本订单和与之匹配的样本配送运力之间的匹配值确定出该已匹配样本订单的奖励。按步骤s106中说明的循环的方式，完成对所有待匹配样本订单的匹配，此时，所有样本订单均为能够确定奖励的已匹配样本订单。为了实现订单与配送运力之间的全局优化，本方法中以各以匹配样本订单的奖励的和值最大化为优化目标，对所述模型进行训练。
85.额外的，为了能够加快模型训练的速度，同时使模型得到的匹配结果更接近全局最优，还可设定其他的训练目标。具体的，可根据所述待匹配样本订单、样本配送运力信息提取待匹配样本订单特征、样本配送运力特征；根据所述待匹配样本订单特征、所述样本配送运力特征以及所述各待匹配样本订单与各样本配送运力之间的匹配值，确定每个待匹配样本订单的预估奖励；根据所述各已匹配样本订单的奖励的和值与所述各待匹配样本订单的预估奖励的和值确定优异值；以所述优异值最大为优化目标，对所述模型进行训练。
86.根据待匹配样本订单特征、样本配送运力特征和待匹配样本订单与样本配送运力之间的匹配值，可以确定出每个待匹配样本订单的预估奖励，且确定预估奖励的方法可以有多种，例如，可以采用经过训练的指定模型来确定，或根据特定的规则进行确定等。根据训练指定模型的方法或特定规则的不同，得到的预估奖励所表征的含义也有可能不同，而根据各已匹配样本订单的奖励的和值与各待匹配订单的预估奖励的和值得出的优异值所表征的含义也会有所变化。
87.针对上述确定预估奖励的方法，本说明书在此给出一种实施例以供参考。由于本说明书中预估奖励的作用是辅助用于确定匹配值的模型进行训练，因此可采用与步骤s102中相同的方法确定预估奖励，以达到促进训练过程的效果。另一方面，在根据各待匹配样本订单特征和各样本配送运力特征确定预估奖励时，可无需考虑待匹配样本订单的顺序以及是否包括未完成匹配的样本订单等因素，仅依靠匹配值确定出最优的全局预估奖励，此时预估奖励所表征的含义便是在不采用本说明书中的订单匹配方法下，能够得到的奖励。
88.此时，根据各已匹配样本订单的奖励的和值与各待匹配样本订单的预估奖励的和值确定优异值，具体可以为，将各已匹配样本订单的奖励的和值与各待匹配样本订单的预估奖励的和值之间的差值确定优异值，其所表征的含义为采用与不采用本说明书中提供的订单匹配方法时所得到的奖励的差值。换句话说，此时优异值表征了相比于普通的方法，本方法中策略的优秀程度，优异值越大，便能体现出本方法中策略越好。当采用其它方法确定预估奖励时，可得到表征其它含义的优异值，本说明书在此不再进行赘述。
89.更进一步的，在迭代训练的过程中，每进行一轮次的训练，模型的参数就会变化一次，模型所得到的待匹配样本订单与样本配送运力的匹配结果也会随之产生变化，匹配结果之间的差异同样可以作为用于辅助训练的参数之一。具体的，可确定所述各已匹配样本订单的奖励的和值与所述各待匹配样本订单的预估奖励的和值之间的差值；确定迭代训练的每轮次训练中各待匹配样本订单与各样本配送运力之间的匹配结果；根据迭代训练的不同轮次训练中各待匹配样本订单与各样本配送运力之间的匹配结果确定不同匹配结果之间的差异值；根据所述差值和所述差异值，确定优异值。
90.同样的，确定不同轮次训练中各待匹配样本订单与各样本配送运力之间的匹配结果之间的差异值的方法也有多种，本说明书在此仅给出一种实施例以作参考。具体的，根据
所述待匹配样本订单特征、所述样本配送运力特征以及所述各待匹配样本订单与各样本配送运力之间的匹配值，确定每个待匹配样本订单与每个样本配送运力相匹配的概率分布；根据迭代训练的不同轮次训练中所述每个待匹配样本订单与每个样本配送运力相匹配的概率分布确定不同匹配结果之间的差异值。
91.在每轮次训练时，均可根据样本订单特征、所述样本配送运力特征以及所述各待匹配样本订单与各样本配送运力之间的匹配值，确定出当前轮次下各待匹配样本订单与各样本匹配运力的概率之间相匹配的概率分布，针对每个待匹配样本订单，该待匹配样本订单与每个样本配送运力之间的概率分布可以是该待匹配样本订单匹配各样本配送运力的概率。而根据每个待匹配样本订单与每个样本配送运力之间的概率分布确定不同匹配结果之间的差异值的方法也可根据具体需求进行设定。例如，可针对当前轮次中的每个待匹配样本订单，将该样本订单匹配各样本配送运力的概率全部相乘，得到第一概率，并求出当前轮次中的所有待匹配样本订单的第一概率的平均值，将不同轮次训练中所有待匹配样本订单的第一概率的平均值之间的商作为不同匹配结果之间的差异值。
92.在根据差值和差异值确定优异值时，也可采取多种不同的方法，本说明书在此同样给出一种可行的实施例以供参考。由于在训练的过程中，一般不希望模型的参数变化太快，因此可以对不同匹配结果之间的差异值做出限制，以限制根据差异值得到的优异值的大小，从而使得模型在以优异值最大为目标进行训练时，参数变化不会过快。具体的，可确定预设的差异范围，当所述差异值在所述差异范围内时，采用所述差异值对所述差值进行调整，得到优异值；当所述差异值大于所述差异范围的上限时，采用所述差异范围的上限对所述差值进行调整，得到优异值；当所述差异值小于所述差异范围的下限时，采用所述差异范围的下限对所述差值进行调整，得到优异值。
93.其中，差异范围可以是差异值的取值范围，且差异范围可根据需求进行设定，本说明书在此不做限制。当差异值在差异范围之内时，可不对差异值进行调整；当差异值大于差异范围的上限时，则可将差异范围的上限重新确定为差异值；当差异值小于差异范围的下限时，则可将差异范围的下限重新确定为差异值。
94.此时，在训练模型时，可通过如下公式对模型参数进行更新：
[0095][0096]
上述公式中，θ表示模型参数，其中，θ
k+1
表示下次更新后的模型参数，θk表示当前的模型参数，θ
k-1
上一次更新前的模型参数。e表示期望，l表示优异值，该公式表示，在优异值期望最大的情况下，更新模型参数。
[0097]
其中，优异值l可具体表示为如下公式：
[0098][0099]
上述公式中，a表示模型做出的动作，即匹配结果，s表示环境状态，即输入的样本待匹配订单和样本配送运力的信息，π表示模型决策的表征值，在本方法中为第一概率的平均值，a表示各已匹配订单的奖励的和值与各待匹配订单的预估奖励的和值之间的差，∈
l
表示差异范围的下限，∈u表示差异范围的上限。
[0100]
需要说明的是，本说明书中描述的预估奖励、优异值、差异值等参数均用于辅助训
练，上述参数以及一切用于确定上述参数的方法或模块仅用于训练当中，在实际应用时并不存在。
[0101]
以上是本说明书提供的订单匹配方法，基于同样的思路，本说明书还提供了相应的订单匹配装置，如图2所示。
[0102]
图2为本说明书提供的一种订单匹配装置示意图，具体包括：
[0103]
获取模块200，获取当前调度周期内的待匹配订单、配送运力信息，所述当前调度周期内的待匹配订单包含上一调度周期内的未完成匹配的订单，所述当前调度周期内的配送运力信息为上一调度周期匹配完成后的配送运力状态更新后的信息；
[0104]
确定模块202，将所述待匹配订单、配送运力信息输入预先训练的模型中，以通过所述模型确定各待匹配订单与各配送运力之间的匹配值；
[0105]
匹配模块204，针对每个待匹配订单，根据该待匹配订单与各配送运力之间的匹配值，确定与该待匹配订单匹配的配送运力，其中，一个配送运力仅与一个待匹配订单相匹配；当不存在与该待匹配订单匹配的配送运力时，将该待匹配订单作为当前调度周期内的未完成匹配的订单；
[0106]
更新模块206，根据当前调度周期的匹配结果，更新配送运力状态；
[0107]
循环模块208，在下一调度周期到来时，将所述下一调度周期重新确定为当前调度周期，并获取重新确定的当前调度周期内的待匹配订单、配送运力信息，直到为所有待匹配订单确定出匹配的配送运力。
[0108]
在一可选的实施例：
[0109]
所述确定模块202，具体用于针对每个待匹配订单，确定每个配送运力执行该订单的预估配送效率；根据各配送运力配送各待匹配订单的预估配送效率，确定各待匹配订单与各配送运力之间的匹配值。
[0110]
在一可选的实施例：
[0111]
所述匹配模块204，具体用于在各配送运力中确定指定配送运力；以所述指定配送运力与各待匹配订单之间的匹配值从小到大的顺序，依次针对每个待匹配订单，根据各配送运力与该待匹配订单之间的匹配值，确定与该待匹配订单匹配的配送运力。
[0112]
在一可选的实施例：
[0113]
所述装置还包括训练模块210，具体用于获取样本调度周期内的待匹配样本订单、样本配送运力信息，所述样本调度周期内的待匹配样本订单包含上一样本调度周期内的未完成匹配的样本订单，所述样本调度周期内的样本配送运力信息为上一样本调度周期匹配完成后的样本配送运力状态更新后的信息；将所述待匹配样本订单信息、样本配送运力信息待训练的模型中，以通过所述模型确定各待匹配样本订单与各样本配送运力之间的匹配值；针对每个待匹配订单，根据该待匹配订单与各样本配送运力之间的匹配值，确定与该待匹配订单匹配的样本配送运力，其中，一个样本配送运力仅与一个待匹配样本订单相匹配；当不存在与该待匹配样本订单匹配的样本配送运力时，将该待匹配样本订单作为样本调度周期内的未完成匹配的订单；将存在匹配的样本配送运力的样本订单作为已匹配样本订单，针对每个已匹配样本订单，根据该已匹配样本订单和与该已匹配样本订单匹配的样本配送运力之间的匹配值，确定该已匹配样本订单的奖励；根据样本调度周期的匹配结果，更新样本配送运力状态；在下一调度周期到来时，将所述下一调度周期重新确定为样本调度
周期，并获取重新确定的样本调度周期内的待匹配样本订单、样本配送运力信息，直到为所有待匹配样本订单确定出匹配的配送运力；以各已匹配样本订单的奖励的和值最大为优化目标，对所述模型进行训练。
[0114]
在一可选的实施例：
[0115]
所述训练模块210，具体用于根据所述待匹配样本订单、样本配送运力信息提取待匹配样本订单特征、样本配送运力特征；根据所述待匹配样本订单特征、所述样本配送运力特征以及所述各待匹配样本订单与各样本配送运力之间的匹配值，确定每个待匹配样本订单的预估奖励；根据所述各已匹配样本订单的奖励的和值与所述各待匹配样本订单的预估奖励的和值确定优异值；以所述优异值最大为优化目标，对所述模型进行训练。
[0116]
在一可选的实施例：
[0117]
所述训练模块210，具体用于确定所述各已匹配样本订单的奖励的和值与所述各待匹配样本订单的预估奖励的和值之间的差值；确定迭代训练的每轮次训练中各待匹配样本订单与各样本配送运力之间的匹配结果；根据迭代训练的不同轮次训练中各待匹配样本订单与各样本配送运力之间的匹配结果，确定不同匹配结果之间的差异值；根据所述差值和所述差异值，确定优异值。
[0118]
在一可选的实施例：
[0119]
所述训练模块210，具体用于根据所述待匹配样本订单特征、所述样本配送运力特征以及所述各待匹配样本订单与各样本配送运力之间的匹配值，确定每个待匹配样本订单与每个样本配送运力相匹配的概率分布；根据迭代训练的不同轮次训练中所述每个待匹配样本订单与每个样本配送运力相匹配的概率分布确定不同匹配结果之间的差异值。
[0120]
在一可选的实施例：
[0121]
所述训练模块210，具体用于确定预设的差异范围；当所述差异值在所述差异范围内时，采用所述差异值对所述差值进行调整，得到优异值；当所述差异值大于所述差异范围的上限时，采用所述差异范围的上限对所述差值进行调整，得到优异值；当所述差异值小于所述差异范围的下限时，采用所述差异范围的下限对所述差值进行调整，得到优异值。
[0122]
本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的订单匹配方法。
[0123]
本说明书还提供了图3所示的电子设备的示意结构图。如图3所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的订单匹配方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。
[0124]
需要说明的是，本技术中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。
[0125]
在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。
设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(programmable logic device,pld)(例如现场可编程门阵列(field programmable gate array，fpga))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(hardware description language，hdl)，而hdl也并非仅有一种，而是有许多种，如abel(advanced boolean expression language)、ahdl(altera hardware description language)、confluence、cupl(cornell university programming language)、hdcal、jhdl(java hardware description language)、lava、lola、myhdl、palasm、rhdl(ruby hardware description language)等，目前最普遍使用的是vhdl(very-high-speed integrated circuit hardware description language)与verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。
[0126]
控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit，asic)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：arc 625d、atmel at91sam、microchip pic18f26k20以及silicone labs c8051f320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
[0127]
上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0128]
为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0129]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0130]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0131]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0132]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0133]
在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0134]
内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0135]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0136]
还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0137]
本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0138]
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、
组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0139]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0140]
以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵久霞梁易乐丁雪涛
技术所有人：北京三快在线科技有限公司
我是此专利的发明人

上一篇：一种面包生产辅料添加装置的制作方法
上一篇：功率因数校正电路及其控制方法和控制器、存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。