一种包裹分离系统及方法

文档序号:31319198发布日期:2022-08-31 01:34阅读:来源:国知局

技术特征:
1.一种包裹分离系统,包括:传送带模块,包括若干传送带,用于接收需要分拣的大批包裹,通过嵌入式设备控制各传送带速度从而达到分离包裹的目的;机器视觉处理模块,与嵌入式设备交互,通过设置于传送带上方的深度相机,采集传送带阵列正上方的图像,并对图像进行处理,获得当前传送带阵列上包裹的当前状态s
t
以及根据当前状态s
t
和回报函数计算出的奖励r提供给嵌入式设备;嵌入式设备,包含策略网络,从所述机器视觉处理模块获取相关数据,利用策略网络推理并收集相关数据放入经验池中以供工作站端对策略网络的训练,并在获得训练好的策略网络后,从所述机器视觉处理模块获取各包裹当前的位置信息,根据各包裹当前的位置信息利用训练好的策略网络推理进行智能决策,输出各传送带的速度值以改变各传送带的速度,从而达到包裹分拣的目的;服务器,用于获取嵌入式设备上传的数据,并提供给工作站用于策略网络的训练,接收工作站上传的最新策略网络参数,以供嵌入式设备下载;一个或多个工作站,其包含策略网络和q值网络,用于从服务器端获取嵌入式设备从经验池上传的数据,采用离线强化学习算法并行的训练策略网络和q值网络,并于训练好后上传最新的策略网络参数到服务器。2.如权利要求1所述的一种包裹分离系统,其特征在于,所述传送带包括:第一子传送带,为一个可变速度传送带,用于接收需要分拣的大批包裹,并将包裹传送给第二子传送带进行进一步的分拣,所述第一子传带的传送带速度由所述嵌入式设备控制;第二子传送带,为可变速传送带阵列部分,共包含m*n个传送带,由所述嵌入式设备控制该m*n个传送带的速度,从而改变传送带上包裹的速度,从而达到分离包裹的目的;第三子传送带,为恒定速度传送带部分,用于连接第一子传带和第二子传送带包裹分拣完成后的其他流程。3.如权利要求2所述的一种包裹分离系统,其特征在于:所述嵌入式设备从机器视觉处理模块获取包裹当前的位置信息后,其策略网络根据当前状态st输出传送带阵列运行速度向量,经过固定时间τ,再次从所述机器视觉处理模块提取包裹当前的位置信息,所述机器视觉处理模块推理出速度信息后记为下一时刻的状态s
t
+1,所述机器视觉处理模块根据包裹的位置信息和评价标准计算出获得的奖励r,由所述嵌入式设备将上述当前状态s
t
、动作a、奖励r及下一时刻的状态st+1存入经验池中。4.如权利要求3所述的一种包裹分离系统,其特征在于:当经验池中的数据量大于指定批处理大小后,所述嵌入式设备将经验池中的数据上传至服务器,并间隔若干时间间隔从服务器下载最新的策略网络的参数。5.如权利要求4所述的一种包裹分离系统,其特征在于:工作站每隔若干时间间隔,通过以太网接口获取服务器端的嵌入式设备从经验池上传的数据,采用离线强化学习算法并行的训练策略网络和q值网络后上传最新的策略网络参数到服务器以供所述嵌入设备每隔若干时间间隔下载。6.如权利要求5所述的一种包裹分离系统,其特征在于:在所述策略网络中加入熵正则化以避免包裹分离策略过早的陷入局部最优。
7.如权利要求6所述的一种包裹分离系统,其特征在于:在训练过程中,所述策略网络需要优化的函数为:其中,e表示对中括号内的随机变量求期望,s
t
~d表示t时刻的状态从经验池d中采样,q
θ
(s
t
,a
t
)表示q值网络,π
φ
(a
t
|s
t
)表示策略网络。8.如权利要求7所述的一种包裹分离系统,其特征在于:在训练过程中,所述q值网络需要优化的函数为:其中,其中,j
q
(θ)为优化函数,θ为q值网络q
θ
(s
t
,a
t
)的参数,d表示经验池中的数据,s
t
表示当前状态,at表示策略网络π
φ
(a
t
|s
t
)根据当前状态采取的动作,r(st,at)表示当前状态动作对的即时回报,γ表示衰减系数,表示对下一个时刻状态的期望价值,p为状态转移概率,s
t
+1
~p
表示t+1时刻的状态服从状态转移概率p,v(s
t
)表示t时刻的状态的期望价值,q为调节系数。9.如权利要求7所述的一种包裹分离系统,其特征在于:将回报函数映射成经过测试线后包裹之间的距离。10.一种包裹分离方法,包括如下步骤:步骤s1,机器视觉处理模块利用设置于传送带上方的深度相机,采集第二子传送带阵列正上方的图像,并对图像进行处理,获得当前传送带阵列上包裹的当前状态以及根据当前状态和回报函数计算出的奖励r提供给嵌入式设备;步骤s2,嵌入式设备在获得训练好的策略网络后,从机器视觉处理模块获取各包裹当前的位置信息,根据各包裹当前的位置信息利用训练好的策略网络推理进行智能决策,输出第一子传送带与第二子传送带的各传送带的速度值以改变各传送带的速度,从而达到包裹分拣的目的。

技术总结
本发明公开了一种包裹分离系统及方法,该系统包括:传送带模块;机器视觉处理模块;嵌入式设备,从机器视觉处理模块获取相关数据,利用策略网络推理并收集相关数据放入经验池中以供工作站端对策略网络的训练,并在获得训练好的策略网络后,从机器视觉处理模块获取各包裹当前的位置信息,利用训练好的策略网络推理进行智能决策,输出各传送带的速度值;服务器,获取嵌入式设备上传的数据,并提供给工作站用于策略网络的训练,接收工作站上传的最新策略网络参数以供下载;一个或多个工作站,从服务器端获取嵌入式设备从经验池上传的数据,采用离线强化学习算法并行训练策略网络和Q值网络,并于训练好后上传最新的策略网络参数到服务器。务器。务器。


技术研发人员:吕岳 李威远 吕淑静
受保护的技术使用者:华东师范大学
技术研发日:2021.05.14
技术公布日:2022/8/30
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1