本发明属于生产调度,尤其涉及一种柔性作业车间amr路径规划与生产调度的协同优化方法。
背景技术:
1、在以智能制造为主题的工业4.0时代,制造企业为提高市场竞争力,积极引进自动化加工或配送设备以实现智能化转型升级。基于人工智能、自主定位与导航等技术的自主移动机器人(autonomous mobile robot,amr)由于其具有更好的灵活性、鲁棒性与环境适应能力,逐步成为智能车间物料搬运设备升级的首要选择。amr的引入提高了车间作业的柔性化与自动化水平的同时,因此而带来的运输与生产活动之间强烈的耦合关系也为制造系统的控制与管理带来了新的挑战。
2、一方面,与传统运输设备类似,作为制造过程中关键的生产资源,amr需要与作业、加工机器集成调度以实现各生产资源的协同控制,进而保证生产系统高效运行。另一方面,与传统运输设备不同,由于其具有自主导航能力,amr的运输路径灵活多变,相应的运输时间因此而具有不确定性。且在复杂的车间环境中,多个amr之间存在潜在的路径冲突风险。然而在柔性作业车间集成调度问题中,运输路径及其时间的不确定性通常被忽略。例如中国专利cn 113671910 b公开了一种集成多agv柔性作业车间调度方法、装置及介质,其中,agv(automated guided vehicle)表示自动导引运输车,根据给定机器之间的运输时间,通过采用运输设备任务信息记录矩阵实现了柔性作业车间的运输与生产设备的集成调度。中国专利cn 112949077 b公开了结合运输设备约束的柔性作业车间智能调度决策方法,结合作业柔性工艺路线,考虑工序多阶段运输时间与加工时间之间的约束关系,构建了柔性作业车间加工机器与运输设备集成调度的数学决策模型。以上专利假设了运输车辆按照预定的最短路径行驶,而忽略了实际生产中运输路径的不确定性和潜在冲突性,这可能会引起车辆碰撞或者路径锁死等问题,将严重影响车间生产效率。因此,协同决策柔性作业车间amr与机器的集成调度和amr无冲突路径规划这两个问题对于保障制造系统稳定和高效运作具有重要理论价值与实践意义。
3、一个能够协同求解两个子问题的算法框架是实现上述决策的关键。对于柔性作业车间集成调度问题,遗传算法(ga)被广泛应用。为改善遗传算法易陷入局部最优的缺陷,研究者应用基于迭代次数或者适应度值等相关参数的遗传概率替代原遗传概率,提出自适应遗传算法。该方法以预定义的方式更新遗传概率,并未实现真正意义上的动态调整。而强化学习方法则是通过与环境交互而具有自学习能力,能够根据每一次新种群适应度的变化情况给予反馈信号并动态调整遗传概率,实现自学习遗传算法。对于该问题中的amr无冲突路径规划的子问题,在应用最短路径算法实现路径规划的同时,另一个难点在于,结合作业工序的机器分配、amr分派、加工和运输顺序获得每一个运输任务的起讫点与开始时间,并能够在多amr运输过程中避免时空冲突。
技术实现思路
1、为解决背景技术中存在的问题,本发明提供一种柔性作业车间amr路径规划与生产调度的协同优化方法。
2、本发明的技术方案如下:
3、一种柔性作业车间amr路径规划与生产调度的协同优化方法,包括以下步骤:
4、步骤s1:获取柔性作业车间中的调度资源信息
5、包括加工机器的集合,amr的集合;生产期内工件的集合,每个工件工序的集合,每个工序的候选加工机器的集合及其相应的加工时间;
6、步骤s2:初始化算法参数
7、包括遗传算法的种群规模、代沟和最大迭代次数;q-learning强化学习算法的学习率、折扣率和贪婪率;
8、步骤s3:确定初始种群
9、采用基于工序的三层编码方法随机确定所有待加工工件的工序序列向量、机器分配向量和amr分派向量,构成长度为的染色体以表示一个可行解;向量和的长度均为生产期内所有工件工序的总数量;一条染色体表示一个个体,个个体构成初始种群;
10、在向量中,为保证同一工件中各工序被按既定顺序加工,即约束工序的加工完成时间早于工序的开始时间,以工件编号及其出现的次数表示该工件的加工工序,如从左到右工件编号出现第次表示加工该工件的第个工序;
11、在向量中,以向量中相应位置工序的候选加工机器的集合中随机的位置编号表示机器分配,如,向量中工序的机器分配编码为2,表示中第2个机器被分配了工序,该方式保证每个工序分配一个来自于其候选机器集的加工机器;
12、在向量中,以amr编号直接表示向量中相应位置工序的运输amr,与向量类似,每个工序仅分派一个运输amr;
13、步骤s4:计算种群的多样性和每个个体的适应度
14、种群的多样性以其中个体适应度值之间的差异表示,个体的适应度值以决策目标表示,即最小化最大完工时间;通过解码种群中个体的染色体,确定每个工序的机器分配和amr分派、加工与运输顺序,根据各过程之间的相互约束关系,结合运输与加工时长,获得个体中每个工序的运输与加工的开始和完成时间,最终确定最晚完工时间作为适应度值,其中运输时长通过路径规划获得,多样性与适应度值公式为:
15、;
16、;
17、式中,表示第代种群的多样性,其中为种群中与个体的适应度值不同的其他个体的数量表;表示个体的适应度值,为生产期内最大的完工时间;为工序在机器上加工的完成时间;
18、步骤s5:自适应确定交叉和变异概率
19、通过q-learning强化学习方法自适应地确定第次迭代的交叉概率和变异概率;
20、步骤s6:选择操作
21、采用轮盘赌方法从父代种群中选择个体遗传至下一代群体,用于遗传操作以生产新的子代;
22、步骤s7:交叉操作
23、逐个对种群中的个体依交叉概率实施交叉操作,向量应用部分匹配交叉方法,即先进行两点交叉,再施以“基因修补”;向量应用单点交叉,若交叉后,则随机选取一个机器;向量采用两点交叉;
24、步骤s8:变异操作
25、逐个对种群中的个体依变异概率实施变异操作,列向量、向量和向量均采用两点交换的变异方法,变异后应用与交叉操作类似的方法调整基因序列;
26、步骤s9:合并子代与父代个体获得新种群
27、应用精英保留策略,选择父代种群中具有最小适应度值的个个体,与子代个体合并,构成新种群;
28、步骤s10:按照步骤s4计算新种群的适应度和多样性
29、步骤s11:重复操作步骤s5 - s10,直至达到最大迭代次数,获得适应度值最低的最优个体;
30、步骤s12:对最优个体进行解码,获得所有待加工工件的最佳集成调度方案以及每一个工序的无冲突运输路径,输出调度甘特图和运输路径;最佳集成调度方案包括工序的机器分配、机器上工序的加工顺序、工序的amr分派、amr上工序的运输顺序以及每个工序开始运输和加工的时间。
31、作为本发明的优选,步骤s4中通过对个体解码获取适应度值的方法如下:
32、a1初始化生产资源位置及其可用时间
33、初始时刻,所有工件与amr在装/卸载区且均可用,初始化amr 和工件的初始位置为起始节点;初始化工件、机器和amr 的开始可用时间均为0;
34、a2读取工序
35、按照位置顺序从向量中依次读取其元素值,并计算位置处的在向量中出现的次数,获取加工工序;
36、a3索引加工机器
37、读取向量中第个元素值,按照步骤s3机器分配向量的编码方法,取工序候选机器集中第个机器作为工序的加工机器,并从中读取相应的加工时间;
38、a4 确定运输amr
39、读取向量中第个元素值,获得工序的运输车辆;
40、a5 获取工序空载和负载运输过程的起终点
41、根据工序的机器与amr分配,获得工序空载运输的起点为当前位置;空载运输的终点为工件当前所在位置,负载运输的起点为空载的终点;负载运输的终点为工序所分配的加工机器;
42、a6 计算运输与加工时间
43、对于一个工序,需经过空载行程、负载行程和加工过程三个阶段的操作,阶段之间相互依赖,根据工件机器分配、加工时长、空载与负载运输过程的起终点,计算工序运输开始与完成时间、运输时长、加工开始与完成时间;
44、a7 获取最晚完成时间为适应度值
45、对个体内所有工序的加工完成时间进行排序,取最晚完成时间作为个体的适应度值。
46、作为本发明的优选,步骤a6中,工序的运输开始与完成时间、运输时长、加工开始与完成时间具体获取过程如下:
47、a6.1 根据工序与机器的分配关系,判断当前工序与其紧前工序是否在同一加工机器上加工,如果是,工序不需要运输过程,空载行程时长与负载行程时长,空载与负载的完成时间为,,执行a6.5,计算加工开始与完成时间;否则,执行a6.2,判断是否需要空载运输;
48、a6.2 判断上一运输任务工序负载行程的终点是否为当前运输任务工序空载运输的终点,即工序的加工机器所在的位置,如果是,无需执行工序的空载运输,,,执行a6.4计算负载完成时间;否则,执行a6.3,计算空载完成时间;
49、a6.3 空载运输时间
50、在完成上一个运输任务工序的负载行程之后,从当前位置空载前往的加工机器所在位置,如a5中空载运输的起点、终点;
51、空载开始时间一定晚于完成上一个任务负载行程结束时间,应用带时间窗的算法规划至的无冲突运输路径,获得运输时长,获得空载运输完成时间为,更新负载可开始时间为,转至a6.4,计算负载完成时间;
52、a6.4负载运输时间
53、若机器上工序被加工完成,直接开始负载行程;否则等待工序加工完成后,开始装载工件并将其运输至工序的加工机器所在位置;
54、负载开始时间为,通过带滚动时间窗的算法规划至的无冲突运输路径,获得运输时间为,负载结束时间为,更新工件开始可用时间为,位置为,更新可开始空载行程的时间为,工序可开始加工时间为为,位置为,转至a6.5,计算加工完成时间;
55、a6.5 加工时间
56、工件到达机器后,若加工完成其上一个工序,则可以开始加工工序,否则,等待工序被完成,被释放后开始加工工序,工序的开始加工时间为,加工时长为,完工时间为,更新工件开始可用时间为,位置为,更新机器开始可用时间为。
57、作为本发明的优选,步骤a6.3和a6.4中,无冲突运输路径的具体获取过程如下:
58、b1根据生产环境与amr的运行速度,建立栅格地图,确定各机器与装/卸载区位置,每个栅格节点的坐标,栅格之间的邻接距离矩阵,划分栅格长度为amr单位时间内行驶的长度;
59、b2初始化栅格地图中所有路段的时间窗为0,运输路径为空,为所有工序数量;
60、b3判断工序是否为第一个被运输的工序,即车间内第一条运输路径,如果是,转至b4,否则转至b5;
61、b4 应用算法规划最短路径;
62、b5为预规划条由到的路径,获得路径集合,选取的第一条路径;
63、b6获得所选路径相应的栅格时间窗,判断与已经规划完成或者正在运行路径的时间窗是否存在冲突,如果是,选择的下一条路径,重复该步骤直到路径集合中所有路径全部被遍历,转至b7,否则转至b8;
64、b7选取路径集合中第一条路径,确定冲突分类并采取相应等待或变路径策略获得新的路径,路径冲突约束如下:
65、;
66、;
67、分别为节点冲突约束和路段冲突约束,公式中为路径选择决策变量,如果至时刻由节点行驶至节点,;否则,;在一般节点不能同时存在超过1个amr;在加工机器所在节点,由于缓存区存在,能够停靠多个amr;在两个节点之间的一个路段上,同一时段不能超过1个amr;
68、b8获得最终由到的无冲突最短时间路径、路径的栅格时间窗以及路径时长。
69、作为本发明的优选,b4中,应用算法规划最短路径的详细步骤如下:
70、b4.1获取工序的运输,运输的起点、终点,运输开始时间;
71、b4.2在中插入起点,坐标为,,的距离为0,其余节点加入至集合;根据邻接矩阵,若与中节点邻接,选择其中一个距离最近的节点作为该阶段移动终点,任意时刻,amr仅能选择一条路径;否则,不是的出边邻接点,其距离赋值为;
72、b4.3从中选择一个距离最近的邻接节点,将其加入路径中,确定路径长度为两点之间的距离,更新、之间栅格的时间窗为;将节点移除;
73、b4.4以节点为新考虑的中间节点,根据邻接矩阵,确定中各节点到的距离;
74、b4.5重复b4.3和b4.4直到终点包含在路径中,到达终点的时间为,获得由到的路径以及每条路径栅格被占用的时间窗和运输时长;
75、b4.6对所有路径的转弯次数由小到大排序,确定具有最少转弯次数的路径为最终运输路径,记录相应的栅格时间窗和运输时长。
76、作为本发明的优选,b7中,针对冲突的具体策略如下:
77、b7.1 遍历路径中所有栅格,比较和确定该路径中与之前运输路径重叠的栅格及其被占用的时间窗和;
78、b7.2 如果,表示与在位置不冲突,否则,表示冲突;
79、b7.3 如果为的起始栅格且为终点,则无需处理该节点冲突,因为所有路径的起终点均为足够大的加工机器缓冲区,不会发生冲突,否则,转至b7.4进一步判断是否为包含冲突;
80、b7.4取路径中的下一栅格及其时间窗,取路径中的下一栅格及其时间窗,转至b7.2判断是否为冲突节点,若是,则为相遇冲突,转至b7.5,否则,为节点冲突,转至b7.6;
81、b7.5 对于相遇冲突,在最后一个重叠栅格所在节点设置临时障碍,返回b4重新规划的剩余路径;
82、b7.6对于路径途中的节点冲突,约束中的车辆执行等待策略,在栅格被释放后进入该栅格,继续沿剩余栅格前进直到终点。
83、作为本发明的优选,步骤s5中,应用q-learning强化学习算法自适应地选择交叉概率和变异概率的过程如下:
84、c1 初始化强化学习环境状态集合、动作集合和价值函数表;
85、应用标准化的种群平均适应度值和多样性的加权和表示环境状态,通过初始种群适应度值和多样性获得状态值,将区间等分为个子区间,作为环境状态集合,计算公式如下:
86、;
87、;
88、;
89、式中表示第代种群的平均适应度,和为以第一代种群为基准标准化的第代种群的平均适应度值和多样性;和分别为两者的权重,若,则表示该代种群状态为,;
90、根据交叉和变异概率的一般取值范围,和,分别将其等分为个子区间,构成交叉概率和变异概率选择动作的集合和;
91、价值函数值表示强化学习中智能体时刻在状态下为采取动作所获得回报的期望,初始化行 l列表中所有元素为0,如下:
92、;
93、c2 在当前种群状态下,依据选择策略,确定智能体在状态下所执行的动作和,选择策略如下:
94、;
95、其中,r为[0,1]内的随机数,该公式表示,学习过程中智能体以的概率选择具有最大值的动作,以的概率随机选择动作;
96、c3 根据智能体所执行的动作、和c1中动作集合,确定交叉概率和变异概率;
97、c4 获得实施遗传算法中交叉和变异操作后新种群的平均适应度值和多样性,确定新种群状态;
98、c5 计算状态到状态下的奖励,执行选择动作的奖励以最佳个体适应度值的变化反应,执行选择动作的奖励以种群平均适应度值的变化反应,公式如下:
99、;
100、;
101、c6 根据奖励与历史价值期望,更新状态下智能体执行动作的期望价值,公式如下:
102、;
103、式中,为在状态下执行动作后所获得的回报,表示状态下按照策略选择动作的最大期望 q值;
104、c7 与遗传算法种群进化过程同步,每一次迭代中循环步骤c1-c6,自适应地确定每一代遗传操作的交叉概率和变异概率。
105、作为本发明的优选,该方法是在下述问题假设和约束的基础上建立:
106、1)任意时刻,每台机器最多只能加工一个工件,每个工件仅能在一台机器上加工;
107、2)amr单次负载能力为一个工件;
108、3)加工和运输过程一旦开始便不可中断;
109、4)不考虑作业过程中机器与amr故障和充电情况;
110、5)每台加工机器具有能够供amr和工件临时停靠和存储的缓冲区;
111、6) amr在车间内匀速行驶,忽略避障、载重对其行驶速度的影响;
112、7) amr为双向单通道,一个路段内同时只能容纳一个amr通过;
113、8) amr路径规划中,若存在两条以上相同时长的路径,选择转弯次数最少的路径作为最终路径,若多条路径的运输时间和转弯次数均相同,则随机选择其中一条;
114、9) amr在一个节点处可向8个邻接节点行驶,包括4个水平或者垂直方向的相邻栅格和4个对角线相邻栅格;
115、10) amr采用分布共享策略服务于车间内工件的运输,即完成当前工序运输任务后可以开始运输其他工序,而不用一直跟随某一工件直到其加工完成;
116、11) amr完成当前工序的空载和负载行程之后,在该节点等待或者前往下一个任务节点,而不返回装/卸载区。
117、本发明的另一个目的是提供一种计算机应用程序,该程序执行上述方法。
118、本发明的有益效果如下:
119、(1)本发明考虑智能车间内运输与生产活动之间强烈的耦合关系,融合最短路径和基于强化学习的自学习遗传算法构建一个双层的算法框架,以协同决策柔性作业车间amr与机器的集成调度和amr无冲突路径规划两个问题,实现了智能车间生产与运输活动的联合决策;
120、(2)本发明中在上层自学习遗传算法中嵌入q-learning强化学习算法来根据遗传算子性能动态调整遗传概率,以较高效率获得具有最小最大完工时间的多资源集成调度方案;在下层最短路径算法中,应用滚动时间窗方法和等待与更换路径两种冲突避免策略,为车间内多amr规划无冲突最短时间运输路径。