一种基于强化学习的智慧云制造系统及调度方法

文档序号：26176628发布日期：2021-08-06 18:22阅读：131来源：国知局

本发明属于智慧云制造技术领域，具体涉及一种基于强化学习的智慧云制造系统及调度方法。

背景技术：

目前，工业4.0受到世界的广泛关注，全球面临产业转型和第四次工业革命的挑战，作为工业之主体，我国制造业正处于与互联网核心技术的深度融合中。以网络化、服务化为主要特征的云制造1.0已经在全球范围内取得了较大的影响力。随着有关技术的发展，一些新兴信息技术应运而生，像人工智能、大数据、云计算、物联网、区块链、边缘计算等，这些技术密集地应用到制造业领域，为云制造的智慧化提供了强有力的技术支撑。云制造系统追求规模化、标准化、自动化，这促进了制造业的极大发展，但也导致各种产品千篇一律。随着物质财富的积累，人们消费水平不断升级，不再满足于被动选择整齐划一的产品，转而去选择满足个人特殊要求的定制化产品。

在这种市场需求变动的背景下，以互联化、服务化、协同化、定制化、柔性化、社会化为主要特征的云制造2.0——智慧云制造被提出，“互联网+”时代的智能制造新模式是以用户为中心、产品和服务为主导的。资源服务化共享的制造服务模式，要求制造业领域的企业能够整合、共享制造服务资源，制造商通过将闲置的制造服务资源共享，提高资源利用率的同时，解决服务资源适配的问题，满足用户多元化的需求。智慧云制造的核心之一是实现产品的定制化，这就需要把服务资源的供需链条的两端彻底打通。制造商需要以消费者的意志为标准，来进行定制化生产，灵活、快速地为客户提供私人定制服务才能得以生存。作为直接对接客户的各类提供类似服务的平台要不断关注、收集客户需求动态，及时反馈给制造商。智慧云制造的新一代转型升级，它依附于现有的科技成就，目标是通过智慧云制造生产的智能化和产品的定制化，解决制造业发展到今天，暴露出的新的服务资源适配问题，实现服务资源间稳定适配、快速响应用户需求、降低成本、提高服务质量的目标。

专利(申请号：cn108985617a)提供了一种基于智慧云制造的产品生产流程调度方法及系统，通过本发明实施例，能快速对生产线生产产品的调度，节省调度时间。

其中，产品生产流程调度方法包括：对待生产产品在生产过程中所需的生产特征进行提取，获取待生产产品的生产特征；对待生产产品的生产特征进行生产特征粒匹配处理，获取待生产产品的生产特征粒；根据生产特征粒进行生产工序和对应的生产设备安排处理，获取待生产产品的生产工序和对应的生产设备；根据用于生产待生产产品的生产工序和对应的生产设备进行优化排序处理，获取优化排序后的生产工序和对应的生产设备的顺序；根据优化排序后的生产工序和对应的生产设备的顺序进行生产流程的调度。

然而，该技术方案没有针对大规模的生产的方案，只能处理单条生产线的数据，不适用于需要处理多条生产线和多个制造请求的复杂情况。

技术实现要素：

本发明所要解决的技术问题是克服现有技术的不足，提供一种基于强化学习的智慧云制造系统及调度方法，通过对产品特性和用户需求的规范化处理，结合强化学习等机器学习算法，为不同经销商和不同客户之间提供的适配方案，提高智慧云制造和供应链的生产效率。

本发明提供一种基于强化学习的智慧云制造系统，系统的架构由应用层，平台层，数据链路层和物理层构成；

物理层上搭载了第一智能终端、第二智能终端和中间服务器，第一智能终端和第二智能终端通过应用程序和图形用户界面来实现，中间服务器上搭载高性能图形处理器；

数据链路层包含智能终端和中间服务器的连接方式，第一智能终端通过无线网或以太网方式连接中间服务器，第二智能终端采用4g、5g或无线网方式连接中间服务器；

平台层包括制造商的产品属性数据库，历史交易记录数据库，以及数据处理模型；

应用层中包含提供给制造商和需求方的服务。

作为本发明的进一步技术方案，第一智能终端和第二智能终端可搭载在手机，pc电脑或笔记本电脑。

进一步的，供给制造商和需求方的服务包括制造商的产品上传服务，中间服务器对于制造商和需求方的信息分析、处理和存储服务，需求方的产品请求服务，同时还提供了制造商和需求方的沟通交流服务。

一种基于强化学习的智慧云制造系统的调度方法，包括如下步骤，

步骤s1、制造商将自己的产品功能，属性等各项数据上传至制造商使用的第一智能终端，第一智能终端通过无线通信模块将数据发送至服务器中；

步骤s2、中间服务器在收到产品数据后，基于产品的类型进行分类；

步骤s3、需求方将其对于产品的需求参数，对于制造商的要求等参数上传至中间服务器；

步骤s4、对于一定时间段内提出的相同类型产品需求的需求方，选择数据库中提供类似产品的所有制造商，计算双方之间的偏好度，用以进行产品的双边适配；

步骤s5、根据服务器计算得出的两种偏好排序，得到gale-shapley算法进行适配，获取考量总体满意度及物流成本因素的适配方案；

步骤s6、根据gale-shapley算法获取的初步适配结果，将该结果计为强化学习的初始状态，再使用q-learning算法对于强化学习模型进行训练；

步骤s7、输出经过强化学习训练后的适配结果。

进一步的，步骤s5中，gale-shapley算法包含以下步骤，

步骤s51、输入包含制造商和经销商的地理位置，生产属性的属性矩阵；

步骤s52、通过经纬度数据和公式计算制造商和经销商之间的二维坐标距离；

步骤s53、通过距离构建制造商对经销商的偏好列表，通过属性计算经销商对与制造商的偏好列表；

步骤s54、从经销商提供任务列表里选出一个未进行配对的任务，如果全都选好，则结束循环，并且输出匹配结果；

步骤s55、从该经销商偏好列表中取出位于第j位的制造商(j初始化为0)，如果第j位制造商之前未配对过，那么可以完成配对；

步骤s56、若第j位制造商已经有配对，则将已经配对的经销商与现在进行配对的经销商进行比较，若在第j位制造商的偏好列表中，现在经销商处于更靠前的位置，则解除之前经销商的适配，并与现在经销商进行适配；

步骤s57、若对于第j位经销商来说，现在的制造商在偏好列表中低于之前制造商，则维持适配不变。同时，j＝j+1，跳至步骤55；

步骤s58、跳至步骤s54。

进一步的，步骤s5中，gale-shapley算法包含以下步骤，

步骤s51、输入包含制造商和经销商的地理位置，生产属性的属性矩阵；

步骤s52、通过经纬度数据和公式计算制造商和经销商之间的二维坐标距离；

步骤s53、通过距离构建制造商对经销商的偏好列表，通过属性计算经销商对与制造商的偏好列表；

步骤s54、从经销商提供任务列表里选出一个未进行配对的任务，如果全都选好，则结束循环，并且输出匹配结果；

步骤s55、从该经销商偏好列表中取出位于第j位的制造商(j初始化为0)，如果第j位制造商之前未配对过，那么可以完成配对；

步骤s57、若对于第j位经销商来说，现在的制造商在偏好列表中低于之前制造商，则维持适配不变。同时，j＝j+1，跳至步骤55；

步骤s58、跳至步骤s54。

6.根据权利要求1的一种基于强化学习的智慧云制造系统的调度方法，其特征在于，步骤s6中，用q-learning算法对于强化学习模型进行训练，训练步骤如下，

步骤s61、按顺序选择一个经销商制造商配对，根据自定的选择策略更换该经销商的配对，得到一个新的适配方案；

步骤s62、根据q-learning公式更新q表，并跳至步骤61；

步骤s63、按设定迭代次数完成循环后得到训练后的适配结果。

本发明的优点在于，一方面通过机器学习等方法寻找最优解，提高有生产需求的用户和接受生产任务的制造商之间的契合度。

另一方面通过智能制造平台将生产资源进行整合，可以消除供应链中的信息差，使得个体用户的满意度获得提高的同时，增加整体生产效率。

附图说明

图1为本发明的平台架构示意图；

图2为本发明的方法流程示意图；

图3为本发明实施例的一种智慧云制造资源适配与管理平台的运行流程图。

具体实施方式

请参阅图1，本实施例提供一种基于强化学习的智慧云制造系统，由应用层，平台层，数据链路层和物理层构成。

(1)物理层包含了整个系统使用的设施。其中，第一终端和第二终端通过应用程序和图形用户界面来实现，可以搭载在手机，pc电脑或者笔记本电脑上，进行数据分析的服务器通过搭载高性能图形处理器的服务器来实现。

(2)数据链路层包含了不同对象的智能终端和中间服务器的连接方式。其中，第一终端可以通过无线网，以太网等方式进行连接，第二终端使用4g，5g，无线网等方式进行连接。

(3)平台层包含了制造商的产品属性数据库，历史交易记录数据库，以及对于数据进行处理之后的模型。平台层会通过机器学习算法等方法对这些数据进行处理，以供对于制造资源的调度和适配之用。

(4)应用层中包含提供给制造商和需求方的服务，主要服务包括制造商的产品上传服务，中间服务器对于制造商和需求方的信息分析，处理和存储服务，需求方的产品请求服务，同时还提供了制造商和需求方的沟通交流服务。

其中制造商使用的第一终端通过搭载应用程序和图形用户界面的手机或者pc电脑来实现，功能包括了向服务器提供所制造产品的各项信息和属性，与潜在的需求方进行沟通，并接收智慧云制造平台的调度方案。

需求方使用通过搭载应用程序的智能手机，pc电脑等设备，相应的图形用户界面来操作，功能包括向平台提供自己需求产品的各项数据，对于向自己提供服务的制造商进行评价，并作为历史评价记录录入到中间服务器的数据库中。

如图2所示，系统的调度适配方法，步骤如下：

步骤1：制造商将自己的产品功能，属性等各项数据上传至制造商使用的第一终端，第一终端通过无线通信模块将数据发送至服务器中。

步骤2：服务器在收到这些数据后，首先基于产品的类型进行分类，方便之后进行调度。

步骤3：需求方将其对于产品的需求参数，对于制造商的要求等参数上传至中间服务器。

步骤4：对于一定时间段内提出想同类型产品需求的需求方，选择数据库中提供类似产品的所有制造商，计算双方对于对方的偏好度，用以进行产品的双边适配。双边适配算法会综合考虑需求方的各种类型的需求，包括对于产品本身相关属性的需求，对于产品制造方的服务质量的需求，制造商与需求方的物流运输距离，交货时间等影响。基于这些影响，服务器会计算出各个制造商和需求方对于其服务对象或者提供服务的对象的满意度偏好。并建立需求方对于制造商的需求偏好排序。

为了提高制造商对于分配给其的制造任务的满意度，以提高完成制造任务的效率，同时更好的进行双边适配，同样需要建立制造方对于需求方的偏好矩阵。制造商对于需求方的偏好度主要通过两者之间的物流距离来体现。以得出的距离值为标准，按降序排列建立制造商对于需求方的需求偏好排序。

步骤5：根据服务器计算得出的两种偏好排序，通过gale-shapley算法进行适配，得出考量总体满意度，物流成本等因素的适配方案。gale-shapley算法包含以下步骤：

步骤5.1:输入包含制造商和经销商的地理位置，生产属性的属性矩阵。

步骤5.2:通过经纬度数据和公式计算制造商和经销商之间的二维坐标距离。

步骤5.3:通过距离构建制造商对经销商的偏好列表，通过属性计算经销商对与制造商的偏好列表

步骤5.4:从经销商提供任务列表里选出一个未进行配对的任务，如果全都选好，则结束循环，并且输出匹配结果。

步骤5.5:从该经销商偏好列表中取出位于第j位的制造商(j初始化为0)，如果第j位制造商之前未配对过，那么可以完成配对。

步骤5.6:如果第j位制造商已经有配对，那么将已经配对的经销商与现在进行配对的经销商进行比较，如果在第j位制造商的偏好列表中，现在经销商处于更靠前的位置，则解除之前经销商的适配，并与现在经销商进行适配。

步骤5.7:如果对于第j位经销商来说，现在的制造商在偏好列表中低于之前制造商，则维持适配不变。同时，j＝j+1，跳至步骤55。

步骤5.8:跳至步骤5.4。

步骤6:根据步骤5的gale-shapley算法获得的初步适配结果，将该结果计为强化学习的初始状态。使用q-learning算法对于强化学习模型进行训练，训练步骤如下：

步骤6.1：按顺序选择一个经销商制造商配对，根据自定的选择策略更换该经销商的配对，得到一个新的适配方案。

步骤6.2:根据q-learning公式更新q表，并跳至步骤61。

步骤6.3:按设定迭代次数完成循环后得到训练后的适配结果

步骤7:输出经过强化学习训练后的适配结果。

如图3所示，所属制造商-经销商调度流程包括，

数据采集阶段：制造商和经销商将自己的产品功能，属性，所处地理位置等各项数据上传至各自使用的智能终端，智能终端通过无线通信模块将各种数据以及用户的需求发送至服务器中。

在具体实施过程中，上传的数据和需求至少应当包括地理位置数据，生产材料，生产尺寸和生产精度。

数据处理阶段：对于一定时间段内提出想同类型产品需求的需求方，选择数据库中提供类似产品的所有制造商，计算双方对于对方的偏好度，用以进行产品的双边适配。双边适配算法会综合考虑需求方的各种类型的需求，包括对于产品本身相关属性的需求，对于产品制造方的服务质量的需求，制造商与需求方的物流运输距离，交货时间等影响。基于这些影响，服务器会计算出各个制造商和需求方对于其服务对象或者提供服务的对象的满意度偏好。并建立需求方对于制造商的需求偏好排序。

为了提高制造商对于制造任务的满意度，以提高完成制造任务的效率，同时更好的进行双边适配，同样需要建立制造方对于需求方的偏好矩阵。制造商对于需求方的偏好度主要通过两者之间的物流距离来体现。以得出的距离值为标准，按降序排列建立制造商对于需求方的需求偏好排序。

匹配阶段：根据服务器计算得出的两种偏好排序，通过gale-shapley算法进行适配，得出考量总体满意度，物流成本等因素的适配方案。

优化阶段：根据匹配阶段获得的初步适配结果，将该结果计为强化学习的初始状态。使用q-learning算法对于强化学习模型进行训练，并得到在此基础上的更优解。

调度阶段：根据优化阶段得出的结果，对于存在需求的制造商和经销商进行生产调度。

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解，本发明不受上述具体实施例的限制，上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理，在不脱离本发明精神范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：房子轩;亓晋;张子妍;许斌;孙雁飞
技术所有人：南京邮电大学
我是此专利的发明人

上一篇：农杆菌介导的红椿遗传转化方法与流程
上一篇：一种耐烘焙沙拉酱制取系统及制作方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。