一种包裹分离系统及方法

文档序号:31319198发布日期:2022-08-31 01:34阅读:133来源:国知局
一种包裹分离系统及方法

1.本发明涉及计算机及工业控制技术领域,特别是涉及一种智能决策的包裹分离系统及方法。


背景技术:

2.传统的包裹分离系统主要基于机械臂和固定速度传送带阵列。
3.基于机械臂的包裹分离系统可灵活准确的进行包裹分拣,但其效率较低,一个机械臂最高的分拣速度仅为1000件/小时,对于大规模的物流中心,其分拣效率低,若采用多个并行机械臂同时工作以提高分拣效率,则又存在成本过高的问题。
4.基于固定速度传送带装置的包裹分拣系统通过设定传送带装置的速度,将包裹在传送带装置上移动,但其通常对包裹的体积有明确的要求,若包裹的体积不确定,则该系统难以达到良好的效果。该系统有体积大,灵活性差的特点,一般只在大型物流中心使用。
5.对于基于传送带阵列的包裹分拣系统,目前的研究主要集中在如何改变传送带阵列的结构,使其适应不同应用场景以及不同包裹的需求,例如修改传送带装置的排列方式,改变传送带的长度以及速度,使用多层传送带减少装置占用面积等。基于机械臂的包裹分拣系统主要在机械臂的结构以及控制算法方面进行改进,以提升机械臂工作的效率,并且更好的控制机械臂的生产成本。
6.随着电商物流行业的快速发展,电子商务的规模越来越大。传统的人工分拣已不能满足要求,需要设计一种智能化的包裹分离系统,依靠传送带阵列的智能决策高效率率包裹分离系统可以在有限的空间条件下,高效率率地分离大量包裹。该分离系统基于智能决策,可根据当前包裹的数量、大小,位置分布等信息自动调整决策,具有很强的灵活性,在各种规模的物流中心均有较大的需求。因此智能决策的高效率率包裹分离系统具有重要的实用价值。
7.对于分离包裹的策略,较为直观的思路是:设定包裹到达终点线的时间间隔,根据该时间间隔反推各包裹的速度,并根据包裹速度反推传送带的速度。由此来根据当前传送带阵列上包裹的位置灵活地进行决策。该思路需要给当前传送带上的包裹设定优先级,来决定包裹到达终点线的顺序,直观的方法是根据包裹距离终点线的远近来设定优先级,距离终点线近的优先级高,距离终点线远的优先级低。该方法存在一个问题,当两个包裹距离较近时,两个包裹在同一个传送带上,若给传送带一个较大的速度,使优先级较高的包裹快速通过终点线,此时与高优先级包裹共用传送带的低优先级包裹也将到达距终点线较近的位置,并难以分离。因此在该情况下,包裹分离失败。


技术实现要素:

8.为克服上述现有技术存在的不足,本发明之目的在于提供一种包裹分离系统及方法,以通过离线强化学习算法实现高效率包裹分离的目的。
9.为达上述及其它目的,本发明提出一种包裹分离系统,包括:
10.传送带模块,包括若干传送带,用于接收需要分拣的大批包裹,通过嵌入式设备控制各传送带速度从而达到分离包裹的目的;
11.机器视觉处理模块,与嵌入式设备交互,通过设置于传送带上方的深度相机,采集传送带阵列正上方的图像,并对图像进行处理,获得当前传送带阵列上包裹的当前状态s
t
以及根据当前状态s
t
和回报函数计算出的奖励r提供给嵌入式设备;
12.嵌入式设备,包含策略网络,从所述机器视觉处理模块获取相关数据,利用策略网络推理并收集相关数据放入经验池中以供工作站端对策略网络的训练,并在获得训练好的策略网络后,从所述机器视觉处理模块获取各包裹当前的位置信息,根据各包裹当前的位置信息利用训练好的策略网络推理进行智能决策,输出各传送带的速度值以改变各传送带的速度,从而达到包裹分拣的目的;
13.服务器,用于获取嵌入式设备上传的数据,并提供给工作站用于策略网络的训练,接收工作站上传的最新策略网络参数,以供嵌入式设备下载;
14.一个或多个工作站,其包含策略网络和q值网络,用于从服务器端获取嵌入式设备从经验池上传的数据,采用离线强化学习算法并行的训练策略网络和q值网络,并于训练好后上传最新的策略网络参数到服务器。
15.优选地,所述传送带包括:
16.第一子传送带,为一个可变速度传送带,用于接收需要分拣的大批包裹,并将包裹传送给第二子传送带进行进一步的分拣,所述第一子传带的传送带速度由所述嵌入式设备控制;
17.第二子传送带,为可变速传送带阵列部分,共包含m*n个传送带,由所述嵌入式设备控制该m*n个传送带的速度,从而改变传送带上包裹的速度,从而达到分离包裹的目的;
18.第三子传送带,为恒定速度传送带部分,用于连接第一子传带和第二子传送带包裹分拣完成后的其他流程。
19.优选地,所述嵌入式设备从机器视觉处理模块获取包裹当前的位置信息后,其策略网络根据当前状态st输出传送带阵列运行速度向量,经过固定时间τ,再次从所述机器视觉处理模块提取包裹当前的位置信息,所述机器视觉处理模块推理出速度信息后记为下一时刻的状态s
t
+1,所述机器视觉处理模块根据包裹的位置信息和评价标准计算出获得的奖励r,由所述嵌入式设备将上述当前状态s
t
、动作a、奖励r及下一时刻的状态st+1存入经验池中。
20.优选地,当经验池中的数据量大于指定批处理大小后,所述嵌入式设备将经验池中的数据上传至服务器,并间隔若干时间间隔从服务器下载最新的策略网络的参数。
21.优选地,工作站每隔若干时间间隔,通过以太网接口获取服务器端的嵌入式设备从经验池上传的数据,采用离线强化学习算法并行的训练策略网络和q值网络后上传最新的策略网络参数到服务器以供所述嵌入设备每隔若干时间间隔下载。
22.优选地,在所述策略网络中加入熵正则化以避免包裹分离策略过早的陷入局部最优。
23.优选地,在训练过程中,所述策略网络需要优化的函数为:
[0024][0025]
其中,e表示对中括号内的随机变量求期望,s
t
~d表示t时刻的状态从经验池d中采样,q
θ
(s
t
,a
t
)表示q值网络,π
φ
(a
t
|s
t
)表示策略网络。
[0026]
优选地,在训练过程中,所述q值网络需要优化的函数为:
[0027][0028]
其中,
[0029]
其中,jq(θ)为优化函数,θ为q值网络q
θ
(s
t
,a
t
)的参数,d表示经验池中的数据,s
t
表示当前状态,at表示策略网络π
φ
(a
t
|s
t
)根据当前状态采取的动作,r(st,at)表示当前状态动作对的即时回报,γ表示衰减系数,表示对下一个时刻状态的期望价值,p为状态转移概率,s
t
+1~p表示t+1时刻的状态服从状态转移概率p,v(s
t
)表示t时刻的状态的期望价值,α为调节系数。
[0030]
优选地,将回报函数映射成经过测试线后包裹之间的距离。
[0031]
为达到上述目的,本发明还提供一种包裹分离方法,包括如下步骤:
[0032]
步骤s1,机器视觉处理模块利用设置于传送带上方的深度相机,采集第二子传送带阵列正上方的图像,并对图像进行处理,获得当前传送带阵列上包裹的当前状态以及根据当前状态和回报函数计算出的奖励r提供给嵌入式设备;
[0033]
步骤s2,嵌入式设备在获得训练好的策略网络后,从机器视觉处理模块获取各包裹当前的位置信息,根据各包裹当前的位置信息利用训练好的策略网络推理进行智能决策,输出第一子传送带与第二子传送带的各传送带的速度值以改变各传送带的速度,从而达到包裹分拣的目的。
[0034]
与现有技术相比,本发明一种包裹分离系统及方法通过采用离线强化学习算法,利用智能体进行决策,改变传送带的速度,从而达到包裹分拣的目的。本发明可以不断迭代,并根据不同的输入包裹不断自我优化,经过多次训练后,可以更小的出错率,达到预设的输出包裹间距的要求。相较于传统算法,本发明不断迭代及优化的特点可以让其更好的适应真实物流中复杂的包裹分布情况,能够自适应调整策略,从而在不同规模的物流中心使用,具有很高的灵活性与实用价值。
附图说明
[0035]
图1为本发明一种包裹分离系统的系统架构图;
[0036]
图2为本发明具体实施例中传送带的示意图;
[0037]
图3为本发明一种包裹分离方法的步骤流程图;
[0038]
图4为本发明实施例中包裹分离系统的系统架构图。
具体实施方式
[0039]
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可
由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
[0040]
图1为本发明一种包裹分离系统的系统架构图。如图1所示,本发明一种包裹分离系统,包括:
[0041]
传送带模块10,包括若干传送带,用于接收需要分拣的大批包裹,通过嵌入式设备30控制各传送带速度从而达到分离包裹的目的。
[0042]
在本发明具体实施例中,如图2所示,传送带10包括:
[0043]
第一子传送带1,为一个可变速度传送带,该第一子传送带1作为包裹的接收传送带,用于接收需要分拣的大批包裹,并将包裹传送给第二子传送带2进行进一步的分拣,第一子传带1的传送带速度可根据后续分拣的需要由嵌入式设备控制。
[0044]
第二子传送带2,为可变速传送带阵列部分,该部分由m行n列,共m*n个传送带构成,m*n个传送带为统一大小,有相同的可调速度范围,本发明通过由嵌入式设备控制这m*n个传送带的速度,改变传送带上包裹的速度,从而达到分离包裹的目的。
[0045]
第三子传送带3,为恒定速度传送带部分,该部分由单独一个传送带构成,该部分传送带用于连接第一子传带和第二子传送带包裹分拣完成后的其他流程,第三子传送带3的速度由后续流程的需要决定,为固定值,不由嵌入式设备控制改变,例如固定设定为2m/s。在包裹离开第三子传送带后,根据分拣完成后其他流程的需要,将以等距离的方式离开第三子传送带。
[0046]
在本发明中,由于第三子传送带3为恒定速度传送带,所以包裹在离开第三子传送带3时不仅距离相等,速度也与第三子传送带3的传送带速度相同,这样可以保证到达后续的流程时也是等间隔的,为包裹分离后的其他流程奠定了基础。
[0047]
机器视觉处理模块20,与嵌入式设备30交互,机器视觉处理模块20包括设置于传送带10上方的深度相机,利用该深度相机采集第二子传送带阵列正上方的rgbd图像,并对图像进行处理,获得当前状态s
t
(当前状态s
t
包括当前传送带阵列上的包裹信息,如各个包裹的质心位置和大小等信息)、根据当前状态和回报函数计算出的即时回报r(奖励r)提供给嵌入式设备30。由于机器视觉处理模块对图像的处理采用的是现有技术,不是本发明的重点,在此不予赘述。
[0048]
嵌入式设备30,包含策略网络,嵌入式设备30从机器视觉处理模块20获取相关数据,利用策略网络推理并收集相关数据(状态,动作,回报等)放入经验池中以供工作站端对策略网络的训练,并在获得训练好的策略网络后,从机器视觉处理模块20获取各包裹当前的位置信息,根据各包裹当前的位置信息利用训练好的策略网络推理进行智能决策,输出第一子传送带1与第二子传送带2的各传送带的速度值以改变各传送带的速度,从而达到包裹分拣的目的。
[0049]
具体地说,嵌入式设备30从机器视觉处理模块20获取包裹当前的位置信息s
t
,其策略网络根据当前状态st输出传送带阵列(第一子传送带1的一个和第二子传送带2的24个可变速传送带)运行速度向量,经过固定时间τ,再次从机器视觉处理模块20提取包裹当前的位置信息即下一时刻状态s
t
+1,机器视觉处理模块20推理出速度信息后记为下一时刻的状态s
t
+1,机器视觉处理模块20根据包裹的位置信息和评价标准计算出获得的奖励r,然
后,嵌入式设备30将上述当前状态s
t
、动作a、奖励r及下一时刻的状态s
t
+1存入经验池中,即将智能体决策产生的离线数据,如当前状态s
t
、当前状态s
t
下采取的动作a
t
、当前状态s
t
下获得的奖励r、下一时刻的状态s
t
+1,存放于经验池中,与此同时,当经验池中的数据量大于指定批处理大小后嵌入式设备30将经验池中的数据上传至服务器40,并间隔固定的时间间隔t从服务器40下载最新的策略网络的参数。
[0050]
服务器40,用于获取嵌入式设备30上传的数据,并提供给工作站50用于策略网络的训练,并接收工作站50上传的最新策略网络参数,以供嵌入式设备30下载。在本发明中,工作站50每隔固定的时间间隔t,通过以太网接口获取服务器端嵌入式设备从经验池上传的数据,并上传最新的策略网络参数到服务器40以供嵌入设备30每隔固定的时间间隔t下载。
[0051]
一个或多个工作站50,其包含策略网络和q值网络,用于从服务器端获取嵌入式设备从经验池上传的数据,采用离线强化学习算法并行的训练策略网络和q值网络,并于训练好后上传最新的策略网络参数到服务器40。
[0052]
在本发明具体实施例中,策略网络和q值网络(两者称之为智能体)均由神经网络进行近似,均包括5层全连接层,每层隐层单元数512,分别表示为π
φ
(a
t
|s
t
)和q
θ
(s
t
,a
t
)。经验池中存放嵌入设设备30决策产生的离线数据,包括当前状态s
t
,s
t
状态下采取的动作a
t
,s
t
状态下获得的奖励r,下一时刻的状态s
t
+1。
[0053]
优选地,为了避免了包裹分离策略过早的陷入局部最优,在策略网络中加入了熵正则化,增强了智能体在动作空间的探索程度和泛化程度。加入熵正则化后的状态价值函数v如下,其中α为熵正则项系数:
[0054][0055]
其中,e指对中括号内的随机变量求期望,其中at~π指t时刻的动作a从策略网络π中采样。
[0056]
策略网络的输入为从经验池中采样的当前状态s
t
,当前状态映射为包裹的位置向量p和推算出的速度向量v,其中,假设包裹集合为n,位置向量包括任意包裹i的长度li,宽度wi,横坐标xi,纵坐标yi,旋转角度θi,速度向量由当前包裹下的传送带速度近似,将策略网络的输出π映射成传送带阵列的运行速度。因此,为了最大化q值和熵正则项之和,策略网络需要优化的函数为:
[0057][0058]
其中,e指对中括号内的随机变量求期望,s
t
~d指t时刻的状态从经验池d中采样,α为调节系数,指t时刻的动作从经验网络中采样。
[0059]
q值网络的输入为从经验池中采样的当前状态获得的奖励r和下一个时刻的状态s
t
+1。将q值网络的输出q值(q值网络输出当前状态和动作对的q值q(s
t
,a
t
))映射成当前状态下,传送带阵列运行速度的价值。q值网络根据bellman方程进行迭代,需要最小化当前q值和目标q值(当前q值是q值网络对当前状态,动作对估计出的价值,目标q值是当前即时回报加上γ*下一个状态和动作对的q值)之间的最小均方误差,因此,q值网络需要优化的函数为:
[0060][0061]
其中,
[0062]
其中,jq(θ)为优化函数,q值网络的参数为θ,d为经验池中的数据,s
t
表示当前状态(机器视觉处理模块的输出),a
t
表示策略网络根据当前状态采取的t时刻的动作,r(s
t
,a
t
)是当前状态动作对的即时回报,γ是衰减系数,表示对下一个时刻状态的期望价值,p为状态转移概率,s
t
+1~p表示t+1时刻的状态服从状态转移概率p,v(s
t
)表示t时刻的状态的期望价值,α是调节系数。
[0063]
也就是说,本发明的q值网络和策略网络进行联合优化,q值网络从经验池中的历史数据学习,能够给予某个状态下采取特定动作进行打分,因为q值网络是基于bellman方程进行迭代,所以q值网络的打分输出考虑了采取当前动作后的累计回报,随着网络的训练,这个打分合理后能够正确引导策略网络进行策略执行,策略网络会根据q值优化。
[0064]
将回报函数(回报函数为机器视觉处理模块中计算即时回报r用到的函数,回报函数由人为设计,用来奖惩当前训练出的策略,回报函数的数据会和当前状态,动作一起放入经验池中)映射成经过测试线(图2中第三子传送带的右边界)后包裹之间的距离,具体为:当目标包裹左边界经过测试线后,计算目标包裹左边界与左边距离最近包裹右边界之间的距离delta_distance,如果该距离小于预设距离,则给予智能体惩罚,如果大于等于预设距离,给予智能体奖励。
[0065]
需说明的是,在本发明中,嵌入式设备和工作站都运行策略网络,但嵌入式设备只进行策略网络的推理,即根据当前状态计算出相应的策略,工作站中的策略网络则既要进行训练也要进行推理。
[0066]
图3为本发明一种包裹分离方法的步骤流程图。如图3所示,本发明一种包裹分离方法,包括如下步骤:
[0067]
步骤s1,机器视觉处理模块利用设置于传送带上方的深度相机,采集第二子传送带阵列正上方的rgbd图像,并对图像进行处理,获得当前传送带阵列上的包裹信息,包括各个包裹的质心位置和大小、以及根据当前状态和回报函数计算出的即时回报r(奖励r)提供给嵌入式设备。
[0068]
步骤s2,嵌入式设备在获得训练好的策略网络后,从机器视觉处理模块获取各包裹当前的位置信息,根据各包裹当前的位置信息利用训练好的策略网络推理进行智能决策,输出第一子传送带1与第二子传送带2的各传送带的速度值以改变各传送带的速度,从而达到包裹分拣的目的。
[0069]
优选地,本发明之包裹分离方法,还包括:
[0070]
嵌入式设备从机器视觉处理模块获取相关数据,利用策略网络推理并收集相关数据(状态,动作,回报等)放入经验池中以供工作站端对策略网络的训练;
[0071]
当经验池中的数据量大于指定批处理大小后嵌入式设备将经验池中的数据上传至服务器;
[0072]
工作站从服务器端获取嵌入式设备从经验池上传的数据,并行的训练策略网络和q值网络,并于训练好后上传最新的策略网络参数到服务器。
[0073]
嵌入式设备间隔固定的时间间隔t从服务器下载最新的策略网络的参数。
[0074]
具体地说,嵌入式设备从机器视觉处理模块获取包裹当前的位置信息,其策略网络根据当前状态st输出传送带阵列(第一子传送带1的一个和第二子传送带2的24个可变速传送带)运行速度向量,经过固定时间τ,再次从机器视觉处理模块提取包裹当前的位置信息,机器视觉处理模块推理出速度信息后记为下一时刻的状态s
t
+1,机器视觉处理模块根据包裹的位置信息和评价标准计算出获得的奖励r,然后,嵌入式设备将上述当前状态s
t
、动作a、奖励r及下一时刻的状态s
t
+1存入经验池中。当经验池中的数据量大于指定批处理大小后嵌入式设备将经验池中的数据上传至服务器。
[0075]
工作站每隔固定的时间间隔t,通过以太网接口获取服务器端嵌入式设备从经验池上传的数据,采用离线强化学习算法并行的训练策略网络和q值网络,并于训练好后并上传最新的策略网络参数到服务器以供嵌入设备每隔固定的时间间隔t下载。
[0076]
在本发明具体实施例中,策略网络和q值网络(两者称之为智能体)均由神经网络进行近似,分别表示为q
θ
(s
t
,a
t
)和π
φ
(a
t
|s
t
)。经验池中存放嵌入设设备30决策产生的离线数据,包括当前状态s
t
,s
t
状态下采取的动作a
t
,s
t
状态下获得的奖励r,下一时刻的状态s
t
+1。
[0077]
优选地,为了避免了包裹分离策略过早的陷入局部最优,在策略网络中加入了熵正则化,增强了智能体在动作空间的探索程度和泛化程度。加入熵正则化后的状态价值函数v如下,其中α为熵正则项系数:
[0078][0079]
策略网络的输入为从经验池中采样的当前状态s
t
,当前状态映射为包裹的位置向量p和推算出的速度向量v,其中,假设包裹集合为n,位置向量包括任意包裹i的长度li,宽度wi,横坐标xi,纵坐标yi,旋转角度θi,速度向量由当前包裹下的传送带速度近似,将策略网络的输出π映射成传送带阵列的运行速度。因此,为了最大化加入熵正则项后策略网络输出策略的q值,策略网络需要优化的函数为:
[0080][0081]
q值网络的输入为从经验池中采样的当前状态获得的奖励r和下一个时刻的状态s
t
+1。将q值网络的输出q(q值网络输出当前状态和动作对的q值q(s
t
,a
t
))映射成当前状态下,传送带阵列运行速度的价值。q值网络根据bellman方程进行迭代,需要最小化当前q值和目标q值(当前q值是q值网络对当前状态,动作对估计出的价值,目标q值是当前即时回报加上γ*下一个状态和动作对的q值)之间的最小均方误差,因此,q值网络需要优化的函数为:
[0082][0083]
其中,
[0084]
其中,jq(θ)为优化函数,q值网络的参数为θ,d为经验池中的数据,s
t
表示当前状态(机器视觉处理模块的输出),a
t
表示策略网络根据当前状态采取的t时刻的动作,r(s
t
,a
t
)
是当前状态动作对的即时回报,γ是衰减系数,表示对下一个时刻状态的期望价值,p为状态转移概率,s
t
+1~p表示t+1时刻的状态服从状态转移概率p,v(s
t
)表示t时刻的状态的期望价值,α是调节系数。
[0085]
将回报函数(回报函数由人为设计,用来奖惩当前训练出的策略,回报函数的数据会和当前状态,动作一起放入经验池中)映射成经过测试线后包裹之间的距离,具体为:当目标包裹左边界经过测试线后,计算目标包裹左边界与左边距离最近包裹右边界之间的距离delta_distance,如果该距离小于预设距离,则给予智能体惩罚,如果大于等于预设距离,给予智能体奖励。
[0086]
实施例
[0087]
在本实施例中,一个典型的配置包括嵌入式设备,一个或多个工作站,服务器,如图4所示。该嵌入式设备推理策略网络,并根据策略网络的输出控制传送带阵列的速度,同时,该设备将与环境(机器视觉处理模块)交互的数据放入经验池中,包括当前状态s
t
,s
t
状态下执行的动作a
t
,s
t
状态下获得的奖励r,下一时刻的状态s
t
+1。每隔固定的时间间隔t,边缘计算设备将经验池数据通过以太网上载到服务器端,与此同时将工作站训练的网络下载到本地。
[0088]
其中一个或多个工作站根据经验池中的数据,并行的训练策略网络和q值网络。同时,工作站每隔固定的时间间隔t,通过以太网接口获取服务器端边缘计算设备经验池中的数据,并上传最新的策略网络到边缘计算设备。
[0089]
本发明提供一种包裹分离的智能决策方法,该方法基于actor-critic框架。
[0090]
1、环境模型描述
[0091]
本发明在训练智能体时,对实际装置进行建模,在描述模型时,装置以及包裹的尺寸由像素表示,1像素映射到实际单位为5mm,模型的示意图如附图2所示,模型包括:
[0092]
第一子传送带,一个可变速度传送带,该部分为图2中的1部分,长x7为100像素,宽x1为150像素,该传送带的速度由智能体决定,用于接收需要分拣的大批包裹,并将包裹传送给第二装置进行进一步的分拣。
[0093]
第二子传送带,可变速传送带阵列部分,该部分由6行4列,共24个传送带构成,24个传送带为统一大小,如图2的2部分所示,其长x2为100像素,宽x4为300像素,每个小传送带在宽方向的间距x3为5像素,小传送带在列方向的距离x5为2像素,速度范围是0m/s到1.5m/s。通过嵌入式设备控制这24个传送带的速度(这24个传送带由嵌入式设备控制,可以是不同的速度,分别控制,0-1.5m/s无极变速),改变传送带上包裹的速度,从而达到分离包裹的目的。
[0094]
第三子传送带,恒定速度传送带部分,该部分由单独一个传送带构成,如图2中的3部分,该部分的长为200像素,该部分传送带用于连接第二装置和包裹分拣完成后的其他流程。该传送带的速度1.5m/s。在包裹离开装置三时,各包裹之间的间距达到150像素以上则视为合格。
[0095]
从运动学的角度对该模型的物理特性进行建模。
[0096]
若只考虑传送带的水平方向,考虑包裹为单一质点,m为包裹质量,x为包裹在传送带上的位置,包裹在x位置处的速度为加速度为包裹的重量为n。传送带的速度为u,传
送带的摩擦系数为k,重力常数为g。则根据运动学定律,可以得到以下公式:
[0097][0098]
进一步的,同时考虑水平方向和垂直方向的运动,考虑包裹为一个刚体,包裹占传送带的面积为s,表示刚体的质心,表示刚体空间中的质点,是质点处的速度,是质点处的加速度。ω为包裹中心位置的角速度,为点处的传送带的速度,假设物体的密度为μ,则包裹的质量为:
[0099][0100]
考虑质心位置受到的摩擦力,可由公式(2)和公式(3)表示,其中为点包裹受到的传送带的摩擦力。
[0101][0102][0103]
根据上述物理模型,对输入进该装置模型的包裹进行受力分析,并计算出各时刻各包裹的位置以及速度,为后续的智能体训练提供数据。在本实施例中,基于上述物理模型,首先搭建了实际问题的仿真环境,让智能体(策略网络和q值网络)在仿真环境中进行训练,以期望在仿真环境中能够学习到一个初步的包裹分离策略。
[0104]
2、算法描述
[0105]
策略网络的输入为经验池中采样的当前状态。当前状态包含包裹的位置向量p和推算出的速度向量v。其中,假设包裹集合为n,位置向量包括任意包裹i的长度li,宽度wi,横坐标xi,纵坐标yi,旋转角度θi;速度向量由当前包裹下的传送带速度近似。
[0106]
策略网络的输出π映射成传送带阵列的运行速度。在训练过程为了增强智能体在动作空间的探索程度,假定传送带阵列的运动速度服从高斯分布n(μ,σ^2),因此实际策略网络的输出为传送带阵列运行速度估计均值向量μ和方差向量σ,为了获得当前状态下传送带阵列的运行速度,需要对传送带运行速度的高斯分布进行重采样。在测试过程中,当前状态s
t
下的传送带阵列运行速度为高斯分布的均值向量μ。
[0107]
在实际网络训练中,需要对采样得到的当前状态数据进行预处理。假设当前状态含有n个包裹,输入网络的包裹数量为m。首先将st状态下的位置向量p和速度向量v,按照包裹i的位置信息进行降序排序,若n》=m,只将前m个包裹的重排后的状态信息s
t’输入网络。若n《m,将m-n个向量位置的输入速度补0,长度li,宽度wi,旋转角度θ补默认均值。
[0108]
仿真环境下的网络训练的流程如下所述:
[0109]
初始化模型和环境,策略网络根据当前状态s
t
输出传送带阵列运行速度向量,仿真环境根据动作a推理出下一个状态s
t+1
获得的奖励r。然后,将上述当前状态s
t
,动作a,奖励r存入经验池中。与此同时,当经验池中的数据量大于指定批处理大小后进行训练,首先从经验池中采样数据,分别计算策略网络,q值网络和目标q值网络的损失值,并进行反向传
播。
[0110]
本发明的评价标准由合格率和偏移系数两个部分构成。定义delta distance为目标包裹的左边界经过第三子传送带的右边界后,目标包裹的左边界与最近包裹的右边界之间的距离。如上文所述,当包裹经过第三子传送带的有边界时,包裹与最近包裹的目标距离为150像素,所述合格率定义为合格包裹占所有包裹的比例,其中若目标包裹达到第三子传送带的右边界后,与最近包裹的距离大于150像素则视为合格。计算delta distance与150像素的差值,并计算该值与150像素的比值,若delta distance与150像素的差值为正值,则该比值为正偏移系数;若delta distance与150像素的差值为负值,则该比值为负偏移系数。计算出偏移系数之后,分别统计正偏移系数在5%以内,正偏移系数在10%以内,正偏移系数在15%以内以及超出15%的包裹数量;负偏移系数在5%以内,负偏移系数在10%以内,负偏移系数在15%以内以及超出15%的包裹数量,以明确经过本发明后,包裹间距的分布。
[0111]
在进行测试时,随机产生包裹,根据物流中心提供的统计数据,包裹的种类包括物流运输过程中常见的信封,纸箱,塑料袋,编织袋,fnc集装袋,异形件等,各类型的包裹分布如表1所示。
[0112]
表1包裹分布
[0113][0114]
将随机产生的包裹通过模型后,得到的测试结果如表2所示
[0115]
表2测试结果
[0116][0117]
模型的测试结果显示,包裹通过本发明后,包裹的分离率可以达到99%,并且对各种类型的包裹都有良好的分离效果。
[0118]
在本发明另一实施例中,该包裹分离系统的传送带部分包括:
[0119]
第一子传送带,一个可变速度传送带,该部分为图2中的1部分,长x7为500mm,宽x1
为950mm,该传送带的速度由智能体决定,用于接收需要分拣的大批包裹,并将包裹传送给第二装置进行进一步的分拣。
[0120]
第二子传送带,可变速传送带阵列部分,该部分由6行4列,共24个传送带构成,24个传送带为统一大小,如图2的2部分所示,其长x2为500mm,宽x4为150mm,每个小传送带在宽方向的间距x3为25mm,小传送带在列方向的距离x5为10mm,速度范围是0m/s到1.5m/s。通过控制这24个传送带的速度,改变传送带上包裹的速度,从而达到分离包裹的目的。
[0121]
第三子传送带,恒定速度传送带部分,该部分由单独一个传送带构成,如图2中的3部分,该部分的长为1000mm,该部分传送带用于连接第一装置和包裹分拣完成后的其他流程。该传送带的速度1.5m/s。
[0122]
实际环境下的网络训练的流程如下所述:
[0123]
嵌入式设备中,首先初始化模型,从现实环境中提取包裹当前的位置信息,策略网络根据当前状态s
t
输出传送带阵列运行速度向量,经过固定时间τ,再次从现实环境中(视觉处理模块)提取包裹当前的位置信息,(视觉处理模块)推理出速度信息后记为s
t
+1,(视觉处理模块)根据包裹的位置信息和评价标准计算出获得的奖励r。然后,将上述当前状态s
t
,动作a,奖励r存入经验池中。与此同时,当经验池中的数据量大于指定批处理大小后边缘计算设备将经验池中的数据上传至服务器,并隔固定的时间间隔t下载最新的策略网络模型的参数。
[0124]
一个或多个工作站中,首先从经验池中采样数据,分别计算策略网络,q值网络和目标q值网络的损失值,并进行反向传播,训练网络。与此同时,每隔固定的时间t,通过以太网接口从服务器端下载经验池中的数据,并上传最新的策略网络模型的参数到服务器。
[0125]
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1