路线规划方法、装置、电子设备及可读存储介质与流程

文档序号：17066572发布日期：2019-03-08 22:58阅读：150来源：国知局

本发明涉及方案规划技术领域，具体涉及一种路线规划方法、装置、电子设备及可读存储介质。

背景技术：

近年来，旅游行业的市场运速增长，人们的旅游质量的要求也快速提升。人们希望将短暂的假期时间充分利用，而且由于不同游客的喜好不同，人们需要在众多的旅游景点中选择自己感兴趣的景点并制定旅游线路，因此使得游客常常需要花费不少时间在旅行行程的规划上。当前市场上有较多基于用户需求推荐旅行方案的方法，这些方法或是基于ugc(usergeneratedcontent，用户原创内容)的一些通用旅行方案，结合用户的预计旅行时间进行匹配；或是通过穷举用户所选目的地城市的全部景点，利用用户多次勾选目的景点的方式，对通用旅行方案进行匹配。

目前常用的路线规划方案可以大致分为两类：其一，通过目的地城市匹配的方式；其二，通过动态规划的方式。但是，通过目的地城市匹配的方式，提供通用化的旅行方案规划，用户需要综合多种通用方案筛选、组合成个性化的自定义方案，整个过程费时费力，并且在非热门旅游城市上可选方案较少。而使用动态规划的方式，通过与用户的多次交互过程，为用户提供较为个性化的旅行方案规划，但由于需要多次交互，耗时较多，而且没有充分借助人工智能与机器学习，在智能化及用户体验方面表现较差。综上所述，现有的路线规划方案在个性化推荐上都存在欠缺，导致推荐方案的精度及体验感不佳。

技术实现要素：

本发明提供一种路线规划方法、装置、电子设备及可读存储介质，以部分或全部解决现有技术中路线规划过程相关的上述问题。

依据本发明第一方面，提供了一种路线规划方法，包括：

获取用户的规划基础数据；

根据所述规划基础数据，确定所述用户的状态集和决策集；

根据所述状态集和所述决策集，通过预设的基于增强学习的神经网络，获取所述用户的路线规划方案。

根据本发明的第二方面，提供了一种路线规划装置，包括：

基础数据获取模块，用于获取用户的规划基础数据；

基础数据划分模块，用于根据所述规划基础数据，确定所述用户的状态集和决策集；

路线规划方案获取模块，用于根据所述状态集和所述决策集，通过预设的基于增强学习的神经网络，获取所述用户的路线规划方案。

根据本发明的第三方面，提供了一种电子设备，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现前述的路线规划方法。

根据本发明的第四方面，提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述的路线规划方法。

根据本发明的路线规划方法，可以获取用户的规划基础数据；根据所述规划基础数据，确定所述用户的状态集和决策集；根据所述状态集和所述决策集，通过预设的基于增强学习的神经网络，获取所述用户的路线规划方案。由此解决了现有的路线规划方法在个性化推荐上存在欠缺，导致推荐方案的精度及体验感不佳的技术问题。取得了提高路线规划的精确度以及体验感的有益效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种路线规划方法的步骤流程图；

图2示出了根据本发明一个实施例的一种路线规划方法的步骤流程图；

图2a示出了根据本发明一个实施例的一种dqn实现细节示意图；

图3示出了根据本发明一个实施例的一种路线规划装置的结构示意图；以及

图4示出了根据本发明一个实施例的一种路线规划装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

详细介绍本发明实施例提供的一种路线规划方法。

参照图1，示出了本发明实施例中一种路线规划方法的步骤流程图。

步骤110，获取用户的规划基础数据。

为了确认用户的路线规划方案，需要首先获取相应用户的规划基础数据。其中，规划基础数据具体包含的内容以及获取渠道等可以根据需求进行预先设置，对此本发明实施例不加以限定。例如，可以设置规划基础数据包含但不限于用户标识、出发城市名称、目的地城市名称、出发时间、返回时间、人数、预算、年龄、性别、职业、收入、酒店偏好、景点偏好、消费水平、目的地城市中所包含的景点、酒店、餐厅等商户的商户星级、平均间夜价格、商户类型、特色推荐等等。而且，可以首先获取用户标识，进而根据用户标识获取该用户的其他规划基础数据。

可选地，在本发明实施例中，所述规划基础数据包括：用户录入数据、用户画像数据和商户画像数据。

其中，用户录入数据可以包括但不限于用户标识、出发城市名称、目的地城市名称、出发时间、返回时间、人数、预算等等；用户画像数据可以包括但不限于年龄、性别、职业、收入、酒店偏好、景点偏好、消费水平等等；商户画像数据可以包括但不限于用户的目的地城市中所包含的景点、酒店、餐厅等商户的商户星级、平均间夜价格、商户类型、特色推荐等等。在本发明实施例中，可以根据需求预先设置用户录入数据、用户画像数据以及商户画像数据中具体包含的内容，对此本发明实施例不加以限定。

在本发明实施例中，可以通过任何可用方法获取用户的规划基础数据，对此本发明实施例不加以限定。例如，可以设置一信息录入框，用户可以在在信息录入框中输入相应的用户录入数据，进而可以基于用户录入数据，获取相应用户的用户画像数据，以及其目的地城市的商户画像数据。

步骤120，根据所述规划基础数据，确定所述用户的状态集和决策集。

在获取了用户的规划基础数据之后，则可以进一步基于规划基础数据，确定相应用户的状态集和决策集。其中，状态集可以包括任何可以表征用户当前状态的数据，例如相应用户当前所在城市、当前位置、当前时间、当前已游览的景点，等等。决策集可以包括任何可以表征相应用户即将进行的行为数据，例如用户下一步动作是游览某个景点、品尝某种美食或入住酒店等等。

在本发明实施例中，可以基于规划基础数据，通过任何可用方法确定用户的状态集和决策集，对此本发明实施例不加以限定。例如，可以预先设置状态集和决策集中具体包括的数据内容类别，进而基于状态集和决策集中具体包括的数据内容类别，从规划基础数据中检索状态集和决策集包含的数据，进而分别构建得到状态集和决策集。

步骤130，根据所述状态集和所述决策集，通过预设的基于增强学习的神经网络，获取所述用户的路线规划方案。

在本发明实施例中，为了提高路线规划方案的准确性，可以根据所述状态集和所述决策集，通过预设的基于增强学习的神经网络，获取所述用户的路线规划方案。其中，增强学习(reinforcementlearning)指的是在一系列的情景之下，通过多步恰当的决策来达到一个目标的学习过程，是一种序列多步决策的问题。增强学习的目标就是要寻找一个能使得我们获得最大累积奖赏的策略。增强学习的最终奖赏在多步动作之后才能观察到,可以看出增强学习有别于传统的机器学习，是不能立即得到标记的，而只能得到一个反馈，也可以说增强学习是一种标记延迟的监督学习。

增强学习任务通常通过马尔科夫决策过程来描述：对于处于环境e当中的状态为s(s属于状态空间s)的感知单元m，它采取某种动作a(a属于动作空间a)达到另一状态s‘，得到的奖励为r(r属于奖励r)；所以整个过程可以表示为：m＝<s，a，s'，r>。过程中执行的某个操作时，并不能立即获得这个操作是否能达到目标，仅能得到一个当前的反馈。因此需要不断摸索，才能总结到一个好的策略。摸索这个策略的过程，实际上就是强化学习的过程。

而神经网络在非线性控制系统中被广泛运用，但作为有监督的学习算法，神经网络要求批量提供输入输出以对其进行训练，而在一些并不知道最优策略的系统中，进行预先训练的输入输出事先并无法得到；另一方面，增强学习可以从实际系统学习经验来调整策略，并且是一个逐渐逼近最优策略的过程，并且学习过程中并不需要导师的监督。因此，在本发明实施例中，提出了将增强学习与神经网络结合的模型，也即基于增强学习的神经网络，该模型的基本思想是通过增强学习控制策略，经过一定周期的学习后再用学到的知识训练神经网络，以使网络逐步收敛到最优状态。其中，基于增强学习的神经网络的具体结构以及内部算法等等可以根据需求进行预先设置，对此本发明实施例不加以限定。其中的神经网络可以包括现有的任意一种神经网络模型。例如，具体可以设置基于增强学习的卷积神经网络、基于增强学习的bp(backpropagation，反向传播)神经网络，等等。

而且，在本发明实施例中，还可以将深度学习与增强学习进行结合，进而通过基于深度增强学习的神经网络，获取所述用户的路线规划方案。

可选地，在本申请实施例中，所述基于增强学习的神经网络包括基于深度增强学习的卷积神经网络。

其中，基于深度增强学习的卷积神经网络，例如dqn(deepqnetwork)为drl(deepreinforcementlearning，深度增强学习)领域的一种具体算法框架，将深度学习与增强学习结合起来，通过在cnn(convolutionalneuralnetwork，卷积神经网)的基础上建立q-network。dqn是一种融合了神经网络和qlearning的方法，dqn为相对较新的一种drl实现，在框架参数充分调优的前提下，可以取得比传统机器学习算法如dp(dynamicprogramming，动态规划)、cnn(convolutionalneuralnetworks，卷积神经网络)、rnn(recurrentneuralnetworks，循环神经网络)等更加优化的结果。

在本发明实施例中，可以根据需求或经验等确定dqn的具体结构，并且制定合理的奖惩机制，以及预设的迭代结束条件，根据经步骤120得到的状态集和所述决策集，通过预设的dqn进行迭代计算，并在预设的迭代结束条件以及奖惩机制下通过学习进行收敛获取用户的路线规划方案。

在本发明实施例中，通过获取用户的规划基础数据；所述规划基础数据包括：用户录入数据、用户画像数据和商户画像数据；根据所述规划基础数据，确定所述用户的状态集和决策集；根据所述状态集和所述决策集，通过预设的基于增强学习的神经网络，获取所述用户的路线规划方案。从而提高了路线规划的精确度以及体验感。

实施例二

详细介绍本发明实施例提供的一种路线规划方法。

参照图2，示出了本发明实施例中一种路线规划方法的步骤流程图。

步骤210，获取所述用户的用户录入数据。

在本发明实施例中，在获取用户的规划基础数据时，为了方便准确获取用户相应的用户画像数据以及商户画像数据，可以先获取用户的用户录入数据。如前述，用户录入数据可以包括但不限于用户标识、出发城市名称、目的地城市名称、出发时间、返回时间、人数、预算等等。

步骤220，基于所述用户录入数据中的用户标识，获取所述用户的用户画像数据。

其中的用户标识可以包括但不限于用户名称、用户id(identity，身份)等等可以表征用户身份的标识符号。在获取了用户录入数据之后，则可以进一步基于用户录入数据中的用户标识，获取相应用户的用户画像数据。

步骤230，基于所述用户录入数据中的目的地城市，获取所述目的地城市所包含商户的商户画像数据。

在实际应用中，如果某一用户设定了旅行的目的地城市，也即用户计划的旅行城市，那么在进行路线规划时应该推荐目的地城市的景点、餐厅、酒店等商户。因此，在本发明实施例中，为了能够全面地基于用户的目的地城市的商户确定其路线规划方案，可以先基于用户录入数据中的目的地城市，获取相应目的地城市所包含商户的商户画像数据。具体的可以通过任何可用方法或设备获取目的地城市所包含商户的商户画像数据，对此本发明实施例不加以限定。

步骤240，根据所述规划基础数据，确定所述用户的状态集和决策集。

步骤250，根据所述状态集和所述决策集，通过预设的基于增强学习的神经网络，获取所述用户的路线规划方案以及所述路线规划方案的得分。

在实际应用中，基于增强学习的神经网络可以获取得到相应用户的至少一个路线规划方案，而且不同的路线规划方案的具体内容是不完全一样的，那么不同路线规划方案之间也会有好坏之分。因此，在本发明实施例中，为了确定各路线规划方案的优劣，在获取得到各路线规划方案之后，还可以基于预设的奖惩机制确定各路线规划方案的得分。

如前述，在本发明实施例中，可以预先设置迭代结束条件以及奖惩机制，那么在本发明实施例中，在根据用户的状态集和所述决策集，通过基于增强学习的神经网络获取得到相应用户的路线规划方案后，还可以进一步基于预设的奖惩机制确定各路线规划方案的得分。其中的奖惩机制可以预先设置于基于增强学习的神经网络中，从而在通过基于增强学习的神经网络获取得到路线规划方案的同时得到相应路线规划方案的得分。

其中预设的奖惩机制可以包括正向奖励和/或负向奖励。例如，如果用户偏好购物类型旅游，而旅游规划方案中推荐知名购物商场，则可以为该旅游规划方案进行正向奖励；如果用户出行方式多乘坐火车，而旅游规划方案中推荐火车方式出行，同样可以为该旅游规划方案进行正向奖励；等等。如果旅游规划方案在中午12点决策下一个目的地为景点，与午餐时间冲突；目的地城市季节为夏天，旅游规划方案中决策去冬天特有景点(如6月份去哈尔滨旅游推荐冰雪大世界)；旅游规划方案中推荐本次路线中的重复景点，即同一个景点推荐多次；旅游规划方案中推荐的景点、酒店等消费高于用户预算；等等，则可以为相应的旅游规划方案进行负向奖励。具体的正向奖励和负向奖励所包含的情况以及奖励分值可以根据需求或是经验等进行预先设置，对此本发明实施例不加以限定。

可选地，在本发明实施例中，所述步骤250进一步可以包括：根据所述状态集以及所述决策集，通过所述基于增强学习的神经网络，进行至少一次迭代运算，得到所述用户的规划路线方案以及所述规划路线方案的得分。

如前述，动态规划是一种较为常用的方案规划算法，通过多次输入、输出交互，对方案进行动态生成。动态规划方案与本提案中用到的基于增强学习的神经网络方案一个比较直观的不同是动态规划方案需要与用户发生多次交互，以用户输入内容作为下次计算过程中的高权重输入。相对的，基于增强学习的神经网络方案只需用户在开始时进行一次输入即可完成整个计算过程。因此，在本发明实施例中，可以根据经步骤240确定的用户初始的状态集和决策集，通过所述基于增强学习的神经网络，进行至少一次迭代运算，得到所述用户的规划路线方案以及所述规划路线方案的得分。

而且，在本发明实施例中，经过每一次迭代运算可以得到至少一个规划行程，那么在下一次迭代运算之前，则可以分别基于前一次迭代运算得到的规划行程对初始得到的状态集和决策集进行调整，进而以调整后的状态集和决策集再次迭代运算得到至少一个规划行程。而且，对于基于增强学习的神经网络而言，根据某一规划行程调整得到的状态集和决策时，是将该规划行程作为相应用户已执行的规划行程。

例如，如果经前一次迭代运算得到规划行程a1、规划行程a2，其中规划行程a1为游览景点a后入住酒店b，而规划行程a2为游览景点c后入住酒店d，那么在下一次迭代运算时，则需要分别基于规划行程a1和规划行程a2，对前一次迭代运算时的状态集和决策集进行更新。具体的，对于规划行程a1，可以将景点a更新至前一次迭代运算时状态集的已游览景点中，将酒店b更新至前一次迭代运算时状态集的已入住酒店中，将前一次迭代运算时状态集的当前位置更新为酒店b所在位置等等，进而得到针对规划行程a1更新得到的下一次迭代运算的状态集。而对于基于规划行程a1调整后的状态集和决策集进行的下一次迭代运算，又可以得到至少一个规划行程，假设分别得到规划行程b1、b2和b3，那么由于规划行程b1、b2和b3都是在规划行程a1的基础上进行迭代运算的，因此在规划行程b1、b2和b3中都包含了上述规划行程a1的内容，而且还另外包括了在规划行程a1的基础上的后续行程。

其中，每次迭代运算的过程包括：

步骤s10，根据所述状态集和所述决策集，通过所述基于增强学习的神经网络，获取所述用户的规划行程；

在第一次迭代过程中，可以根据经步骤240确定的用户初始的状态集和决策集，通过预设的基于增强学习的神经网络，获取相应用户的规划行程。具体的可以状态集和决策集作为预设的基于增强学习的神经网络的输入，进而得到基于增强学习的神经网络的输出为当前的规划行程。其中，基于增强学习的神经网络的结构与输入量，也即状态集和决策集有关，会随每一次的计算进行动态调整。

步骤s20，判断所述规划行程是否超出预设阈值范围；

在实际应用中，大多用户在旅游或者出行时可能有行程预算要求，而且不同用户的行程预算要求可以不完全相同；同时，很多用户在在旅游或者出行时也可能有行程时间要求，而且不同用户的行程时间要求也可以不完全相同；等等。因此，在本发明实施例中，为了避免给用户推荐超出其行程预算要求和/或行程时间要求的规划行程，可以在得到规划行程之后，首先判断当前得到的规划行程是否超出预设阈值范围。其中的预设阈值范围可以包括但不限于预设时间阈值、预设预算阈值、预设人数阈值，等等。

而且，在本发明实施例中，可以基于获取的规划基础数据确定相应用户的预设阈值范围。例如，如果用户录入数据中包含了行程预算，那么则可以设置预设预算阈值为不大于用户录入数据中的行程预算；而如果用户录入数据中包含了出发时间和返回时间，那么则可以设置预设预算阈值不超过出发时间到返回时间之间的差值；如果用户录入数据中包含了人数，那么则可以设置预设人数阈值为不小于用户录入数据中的人数；等等。当然，如果基于规划基础数据无法确认预设阈值范围，那么则可以根据需求进行预先设置，对此本发明实施例不加以限定。而且预设阈值范围中具体包含的内容也可以根据需求进行预先设置，对此本发明实施例也不加以限定。

步骤s30，响应于所述规划行程超出预设阈值范围，以所述规划行程作为规划路线方案，并结束针对所述规划行程的迭代运算；

如果当前得到的规划行程超出了预设阈值范围，则可以当前得到的规划行程作为相应用户的规划路线方案，同时结束对相应的规划行程的迭代运算。

步骤s40，基于预设奖励机制确定所述规划路线方案的得分；

而且，在获取得到规划路线方案之后，则可以进一步基于预设奖励机制确定所述规划路线方案的得分。

步骤s50，响应于所述规划行程未超出预设阈值范围，基于所述规划行程，分别调整所述状态集和所述决策集，然后基于调整后的状态集和决策集，进入步骤s10。

而如果当前得到的规划行程未超出预设阈值范围，则可以基于相应的规划行程，分别调整所述状态集和所述决策集，然后基于调整后的状态集和决策集，进入下一次迭代过程，也即进入步骤s10。

可选地，在本发明实施例中，在所述步骤s10之后，还可以包括：

步骤s60，基于所述预设奖励机制确定所述规划行程的得分；

步骤s70，如果所述规划行程的得分未达到预设分数阈值，则结束针对所述规划行程的迭代运算，并删除所述规划行程。

在本发明实施例中，在经每次迭代得到至少一个规划行程，但是每次迭代运算过程中得到的规划行程都可能出现较大的误差，而对于出现较大误差的规划行程而言，则没有继续进行迭代运算的必要。因此，在本发明实施例中，为了提高迭代运算的效率，可以在每次迭代运算得到规划行程之后，则基于预设奖励机制确定当前得到的规划行程的得分，而如果当前得到的规划行程的得分未达到预设分数阈值，则可以直接结束针对相应的规划行程的迭代运算，并删除相应的规划行程；而如果当前得到的规划行程的得分达到预设分数阈值，则可以继续进行后续的步骤以进行下一次的迭代运算。其中的预设分数阈值可以根据需求进行预先设置，对此本发明实施例不加以限定。

例如，假设经过本次迭代运算得到规划行程a1和规划行程a2，基于预设奖励机制确定规划行程a1的得分为50，规划行程a1的得分为70，那么如果预设分数阈值为60，则可以结束针对规划行程a1的迭代运算，并删除规划行程a1，而对于规划行程a2，则可以继续执行上述的步骤s20-s50。

以dqn为例，下面对dqn实现细节部分进行说明。上文提到，在使用dqn构建q-network时，需要使用到状态集与决策集，如图2a所示。其中，a表示响应(action)，也即决策输出模块，b表示规划基础数据，c表示基于dqn构建的q-network，d表示内存缓存区，用于暂存每次迭代运算的中间结果，f表示迭代运算、e表示建模。其中，基于b代表的规划基础数据可以得到初始的状态集和决策集，进而将初始的状态集和决策集输入至c所代表的基于dqn构建的q-network，进而得到本次迭代运算的规划行程。在规划过程中，通过d所代表的内存缓存区暂存中间结果，以加快迭代计算速度。通过使用当前的状态集和决策集，进行迭代计算，进而调整得到下一个状态集s’，记录路线规划顺序，并在新状态集s’的情况下做下一步迭代运算。在规划行程超出用户设定的预设时间阈值和/或预设预算阈值后，停止针对相应规划行程的迭代运算，并将相应的规划行程作为一个路线规划方案及该路线规划方案在预设奖励机制下的整体得分作为备选方案之一，最终由a所代表的决策输出模块进行路线规划方案的输出，并按路线规划方案的得分由高到低排序。

其中，在多次迭代运算过程中，通过对状态集、决策集的不断调整，结合预设阈值范围，通过预设奖励机制计算路线规划方案的得分，并输出给用户得分最高的n个路线规划方案。

可选地，在本发明实施例中，所述预设阈值范围包括预设时间阈值和/或预设预算阈值。

可选地，在本发明实施例中，当所述预设阈值范围包括预设时间阈值和预设预算阈值时，所述步骤s20，进一步可以包括：

子步骤s21，判断所述规划行程的行程时间是否超出所述预设时间阈值，以及所述规划行程的行程预算是否超出所述预设预算阈值。

子步骤s22，响应于所述规划行程的行程时间超出所述预设时间阈值，或者所述规划行程的行程预算超出所述预设预算阈值，确定所述规划行程超出预设阈值范围；否则，则确定所述规划行程未超出预设阈值范围。

在本发明实施例中，如果同时设置了预设时间阈值和预设预算阈值，那么如果当前得到的规划行程超出预设时间阈值和预设预算阈值中的任意一个，则说明当前得到的规划行程已经达到用户可以接收的极限，如果基于该规划行程继续进行迭代运算，只会导致最终得到的规划行程越来越难以满足用户的需求。因此，在本发明实施例中，可以判断当前得到的规划行程的行程时间是否超出所述预设时间阈值，以及所述规划行程的行程预算是否超出所述预设预算阈值。而响应于所述规划行程的行程时间超出所述预设时间阈值，或者所述规划行程的行程预算超出所述预设预算阈值，确定所述规划行程超出预设阈值范围；否则，则确定所述规划行程未超出预设阈值范围。

可选地，在本发明实施例中，所述状态集中包括所述用户当前所在城市、所述用户当前位置、当前时间、所述用户已游览景点中的至少一种；所述决策集中包括所述用户的下一步动作所要游览的景点、品尝的美食、入住的酒店中的至少一种；所述用户画像数据包括所述用户的年龄、职业、收入、酒店偏好、景点偏好、消费水平中的至少一种；所述商户画像数据包括商户星级、平均间夜价格、商户类型、人均消费、特色推荐中的至少一种。

步骤260，从所述路线规划方案中获取得分最高的n个路线规划方案，并将所述n个路线规划方案反馈至所述用户。

如前述，经基于增强学习的神经网络多次迭代运算可以得到至少一个路线规划方案，而不同路线规划方案与用户需求的匹配程度肯定是不完全相同的，如果将全部的路径规划方案都反馈至相应的用户，其中匹配度不高的路线规划方案容易给用户造成困扰。因此，在本发明实施例中，为了进一步减少对用户的选择干扰，在得到各路径规划方案，以及各路径规划方案的得分之后，则可以从最终得到的路线规划方案中获取得分最高的n个路线规划方案，并将所述n个路线规划方案反馈至所述用户。其中n的取值可以根据需求进行预先设置，对此本发明实施例不加以限定。

在本发明实施例中，通过获取用户的规划基础数据；所述规划基础数据包括：用户录入数据、用户画像数据和商户画像数据；根据所述规划基础数据，确定所述用户的状态集和决策集；根据所述状态集和所述决策集，通过预设的基于增强学习的神经网络，获取所述用户的路线规划方案。从而提高了路线规划的精确度以及体验感，更能满足用户的个性化需求。

第二方面，在本发明实施例中，还可以获取所述用户的用户录入数据；基于所述用户录入数据中的用户标识，获取所述用户的用户画像数据；基于所述用户录入数据中的目的地城市，获取所述目的地城市所包含商户的商户画像数据。从而提高获取得到的规划基础数据的准确性。

第三方面，在本发明实施例中，还可以根据所述状态集和所述决策集，通过预设的基于增强学习的神经网络，获取所述用户的路线规划方案以及所述路线规划方案的得分；从所述路线规划方案中获取得分最高的n个路线规划方案，并将所述n个路线规划方案反馈至所述用户。从而进一步提高路线规划的精确度以及体验感，更能满足用户的个性化需求。

第四方面，在本发明实施例中，还可以根据所述状态集以及所述决策集，通过所述基于增强学习的神经网络，进行至少一次迭代运算，得到所述用户的规划路线方案以及所述规划路线方案的得分；其中，每次迭代运算的过程包括：根据所述状态集和所述决策集，通过所述基于增强学习的神经网络，获取所述用户的规划行程；判断所述规划行程是否超出预设阈值范围；响应于所述规划行程超出预设阈值范围，以所述规划行程作为规划路线方案，并结束针对所述规划行程的迭代运算；基于预设奖励机制确定所述规划路线方案的得分；响应于所述规划行程未超出预设阈值范围，基于所述规划行程，分别调整所述状态集和所述决策集，然后基于调整后的状态集和决策集，进入根据所述状态集和所述决策集，通过所述基于增强学习的神经网络，获取所述用户的规划行程的步骤。而且，还可以基于所述预设奖励机制确定所述规划行程的得分；如果所述规划行程的得分未达到预设分数阈值，则结束针对所述规划行程的迭代运算，并删除所述规划行程。另外，所述预设阈值范围包括预设时间阈值和/或预设预算阈值。当所述预设阈值范围包括预设时间阈值和预设预算阈值时，判断所述规划行程的行程时间是否超出所述预设时间阈值，以及所述规划行程的行程预算是否超出所述预设预算阈值；响应于所述规划行程的行程时间超出所述预设时间阈值，或者所述规划行程的行程预算超出所述预设预算阈值，确定所述规划行程超出预设阈值范围；否则，则确定所述规划行程未超出预设阈值范围。从而可以进一步提高路线规划的精确度以及体验感。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例三

详细介绍本发明实施例提供的一种路线规划装置。

参照图3，示出了本发明实施例中一种路线规划装置的结构示意图。

基础数据获取模块310，用于获取用户的规划基础数据。

基础数据划分模块320，用于根据所述规划基础数据，确定所述用户的状态集和决策集。

路线规划方案获取模块330，用于根据所述状态集和所述决策集，通过预设的基于增强学习的神经网络，获取所述用户的路线规划方案。

可选地，在本发明实施例中，所述基于增强学习的神经网络包括：基于深度增强学习的卷积神经网络。

实施例四

详细介绍本发明实施例提供的一种路线规划装置。

参照图4，示出了本发明实施例中一种路线规划装置的结构示意图。

基础数据获取模块410，用于获取用户的规划基础数据。

可选地，在本发明实施例中，所述规划基础数据包括：用户录入数据、用户画像数据和商户画像数据。

可选地，在本发明实施例中，所述基础数据获取模块410，进一步可以包括：

录入数据获取子模块411，用于获取所述用户的用户录入数据。

用户画像数据获取子模块412，用于基于所述用户录入数据中的用户标识，获取所述用户的用户画像数据。

商户画像数据获取子模块413，用于基于所述用户录入数据中的目的地城市，获取所述目的地城市所包含商户的商户画像数据。

基础数据划分模块420，用于根据所述规划基础数据，确定所述用户的状态集和决策集。

路线规划方案获取模块430，用于根据所述状态集和所述决策集，通过预设的基于增强学习的神经网络，获取所述用户的路线规划方案。

可选地，在本发明实施例中，所述路线规划方案获取模块430，进一步可以包括：

路线规划方案获取子模块431，用于根据所述状态集和所述决策集，通过预设的基于增强学习的神经网络，获取所述用户的路线规划方案以及所述路线规划方案的得分。

可选地，在本发明实施例中，所述路线规划方案获取子模块431，还用于根据所述状态集以及所述决策集，通过所述基于增强学习的神经网络，进行至少一次迭代运算，得到所述用户的规划路线方案以及所述规划路线方案的得分；

其中，每次迭代运算的过程包括：

规划行程获取单元，用于根据所述状态集和所述决策集，通过所述基于增强学习的神经网络，获取所述用户的规划行程；

预设阈值判断单元，用于判断所述规划行程是否超出预设阈值范围；

规划路线方案确认单元，用于响应于所述规划行程超出预设阈值范围，以所述规划行程作为规划路线方案，并结束针对所述规划行程的迭代运算；

规划路线方案得分确认单元，用于基于预设奖励机制确定所述规划路线方案的得分；

集合调整单元，用于响应于所述规划行程未超出预设阈值范围，基于所述规划行程，分别调整所述状态集和所述决策集，然后基于调整后的状态集和决策集，进入规划行程获取单元。

可选地，在本发明实施例中，所述路线规划方案获取子模块，还包括：

规划行程得分确定单元，用于基于所述预设奖励机制确定所述规划行程的得分；

规划行程删除单元，用于如果所述规划行程的得分未达到预设分数阈值，则结束针对所述规划行程的迭代运算，并删除所述规划行程。

可选地，在本发明实施例中，所述预设阈值范围包括预设时间阈值和/或预设预算阈值。

可选地，在本发明实施例中，当所述预设阈值范围包括预设时间阈值和预设预算阈值时，所述预设阈值判断单元，进一步可以包括：

预设阈值判断子单元，用于判断所述规划行程的行程时间是否超出所述预设时间阈值，以及所述规划行程的行程预算是否超出所述预设预算阈值；

超出阈值确认子单元，用于响应于所述规划行程的行程时间超出所述预设时间阈值，或者所述规划行程的行程预算超出所述预设预算阈值，确定所述规划行程超出预设阈值范围；

未超出阈值确认子单元，用于响应于所述规划行程的行程时间未超出所述预设时间阈值，且所述规划行程的行程预算未超出所述预设预算阈值，确定所述规划行程未超出预设阈值范围。

路线规划方案反馈子模块432，用于从所述路线规划方案中获取得分最高的n个路线规划方案，并将所述n个路线规划方案反馈至所述用户。

本发明实施例中还公开了一种电子设备，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现前述的路线规划方法。

本发明实施例中还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述的路线规划方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的路线规划设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：段晓星;黄剑飞;蔡立坤
技术所有人：北京三快在线科技有限公司
我是此专利的发明人

上一篇：一种散热效果好的电炉的制作方法
上一篇：一种重量叠加测量的养殖高床物联网称重系统及其使用方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。