生产控制系统及综合生产控制系统的制作方法

文档序号：11544577阅读：300来源：国知局

本发明涉及一种生产控制系统及综合生产控制系统，尤其涉及以在遵守工厂内温度及交货期的同时使消耗功率减小的方式学习具有多个机械及空调机的工厂中的生产的生产控制系统及综合生产控制系统。

背景技术：

通常，在工厂中设置有多个机械(例如机床)，并且由于在精密加工中工厂内的温度影响加工精度，因此设置有控制工厂内的环境条件的空调(机)。工厂中的生产通过生产计划来指示，为了在所指示的交货期内对生产计划所指示的产品进行生产，在控制多个机械的运转状况及加工条件的同时，控制空调机的运转状况来实现加工所要求的工厂内的温度条件(温度及均匀性)。

在1个产品的生产过程内每前进1个加工工序的时间间隔被称为节拍时间，作为生产管理中的指标而被广泛使用。此外，节拍时间有时也被用作表示其他意思，但是这里，将节拍时间用作表示上述时间。例如，在生产nx个节拍时间txmax的产品时，如果nx足够大，则将与交货期有关的nx个产品的制造时间近似地表示为nx×txmax。

在以往的工厂生产管理中，若提示生产计划，则工厂的管理者为了在所指示的交货期生产通过生产计划所指示的产品，决定多个机械的运转状况(运转开始/停止)及加工条件，进而为了实现所要求的工厂内温度，考虑与外部气温及机械的运转相对应的温度变化来决定空调机的运转状况。在根据工厂的人员状况而使可运转的机械变化的情况下，也考虑工作时间表。

在工厂与电力公司的合约中决定了峰值功率的最大值，在峰值功率超过预定值时将进行强制限制，可引起发生停电等。另外，近年来，针对夏季等耗电增大的时期，从最大值进一步抑制峰值功率的情况被记载在与电力公司的合约中，当违反时有时处以支付高额费用等处罚。这种情况下，成为问题的不只是生产现场的消耗功率，还需要涵盖工厂内的各种消耗功率(办公室中的消耗功率、办公室中的空调机的消耗功率等)来进行考虑。对于工厂的管理者而言，寻求在避免这种情况的发生的同时，遵守交货期并维持产品质量。因此，以往熟练者成为工厂的管理者。

但是，使工厂的管理依靠于有限的熟练者将伴随许多风险。因此，考虑一种控制装置，其执行基于以往的工厂管理的经验而制成的工厂管理程序，并与所提示的生产计划相对应地自动进行工厂的生产管理。

日本特开2011-156598号公报记载了一种消耗功率控制系统，其在控制对象的各机床中设置功率监视单元，控制主轴旋转加减速度及进给轴旋转加减速度，使该机械的消耗功率变为随时变更的规定值以下。

在日本专利第5818865号公报记载了如下系统：针对多个设备装置所实施的具有多个工序的生产线，基于各工序的信息，并基于由pert分析所分析出的工序的余裕时间和每单位期间的消耗功率来选择工序的配置组合，在控制工序进行的同时关闭不使用的设备装置的电源，由此实现消耗功率的均衡化。进而，记载有在该系统中实时观测消耗功率，当消耗功率超过设定值时，使电动机的旋转速度或旋转加减速度降低。

但是，制成在自动进行工厂的生产管理的控制装置中搭载的工厂管理程序是一项繁琐的作业，存在需要较大成本的问题。

技术实现要素：

本发明的目的在于，以低成本实现生产控制系统，该生产控制系统控制具有多个机械及空调机的工厂中的生产，使得在遵守工厂内温度限制及交货期的同时减小消耗功率。

一种工厂的生产控制系统，其具备：多个机械、空调机、对包含多个机械及空调机的消耗功率的工厂整体的消耗功率进行监视的功率计算部、以及生成与工厂的内部温度有关的信息的温度信息生成部，其中，在控制多个机械的运转状况及加工条件的同时，控制空调机的运转状况，以便在所指示的交货期内生产由生产计划指示的产品，所述生产控制系统具备机器学习部，其对动作状况与环境状况的关系进行学习，并根据生产计划来输出使环境状况变为所希望的条件的动作状况，所述动作状况包含多个机械的运转状况和加工条件以及空调机的运转状况，所述环境状况包含基于动作状况的产品的生产完成时间、工厂内部温度及工厂整体的消耗功率。

综合生产控制系统具备：与多个工厂对应地设置的上述多个生产控制系统、以及连接多个生产控制系统的通信网络，多个生产控制系统各自经由通信网络将各机器学习部的学习结果通信至其他生产控制系统，多个生产控制系统的多个机器学习部共用学习结果。

附图说明

通过参照以下的附图，将更加清楚地理解本发明。

图1表示搭载有第1实施方式的生产管理系统的工厂的结构。

图2是表示第1实施方式的生产管理系统中的基本处理动作的流程图。

图3是表示神经元模型的示意图。

图4是表示具有d1～d3这3层的权重的神经网络的示意图。

图5表示搭载有第2实施方式的生产控制系统的工厂的结构。

图6a及图6b表示第2实施方式中的生产计划及工作时间表的表现例，在图6b中设ek(t)＝0，1(k＝a，b，…，n)。

图7表示搭载有第3实施方式的生产控制系统的工厂的结构。

图8a及图8b表示第3实施方式中的生产计划及工作时间表的表现例。

图9表示在多个工厂中应用第4实施方式的综合生产控制系统时的结构。

具体实施方式

下面，参照附图，对生产控制系统及综合生产控制系统进行说明。然而，希望理解为本发明并不局限于附图或以下说明的实施方式。

图1表示搭载有第1实施方式的生产管理系统的工厂的结构。

工厂具有：多个机械11a-11n、空调机13、对包含多个机械11a-11n及空调机13的消耗功率的工厂整体的消耗功率进行监视的功率计算部15、以及生成与工厂内部温度相关的信息的温度信息生成部17，控制部20控制工厂。控制部20通过在计算机上搭载软件来实现。

空调机13并不局限于1台，也有包含多台的情况。控制部20可以附属于工厂来设置，也可以设置在远离工厂的位置，使其经由通信网络与工厂的各部连接。此外，这里为了简化说明，工厂中包含上述装置，将控制部20作为控制这些装置的装置来进行说明。但是，例如工厂中也包含办公室及办公室的空调机，可以设为功率计算部15还包含办公室的空调机的消耗功率来计算消耗功率，温度信息生成部17输出还包含办公室的温度信息的温度信息，控制部20还进行办公室的空调机的控制。进而，可以设为在机械中还包含照明器具、运输装置等不与加工直接相关的机械。此时，在不与加工直接相关的机械中，不包含与加工速度等加工条件相关的控制项目。

控制部20为了在所指示的交货期内生产通过从外部提示的生产计划所指示的产品，在控制多个机械11a-11n的运转状况及加工条件的同时，控制空调机13的运转状况(运转期间、输出等)。生产计划例如包含每天生产的产品的品种、数量及交货期(生产完成时间)等。

控制部20具有基础控制部21和机器学习部23。基础控制部21具有输入单元，其输入与熟练者一边考虑各种要素一边基于生产计划制成的、多个机械11a-11n的运转状况和加工条件、以及空调机13的运转状况(运转期间、输出等)有关的数据。输入单元通过例如向多个机械11a-11n及空调机13的控制数据输入部连接的数据输入端口、具有伴随显示的输入功能的计算机等来实现。与多个机械11a-11n的运转状况及加工条件有关的数据以时间序列表示各机械加工的产品及加工速度。例如，数据表现为按顺序示出产品的品种、加工开始/完成时间、以及加工条件。另外，数据也可以表现为将1天按单元时间(例如10分钟)来分割，将从8时至12时以及从13时至17时的8小时分割为48个单元，示出各单元中加工的产品的品种及加工条件。如果加工时间为30分钟则需要3单元的加工。此外，设加工时间中也包含原材料的设置及完成品的取出所需要的时间。加工条件中例如包含加工速度，对可进行所希望的精度下的加工的加工速度范围进行阶段性地表示。加工时间与加工速度呈反比例关系。与空调机13的运转状况(运转期间、输出等)有关的数据也同样地表现。

在机器学习部23中的学习不充分的状态下，输入至基础控制部21的多个机械11a-11n及空调机13的控制数据被供给至多个机械11a-11n及空调机13。多个机械11a-11n及空调机13按照控制数据来进行动作。例如，机械a以加工时间s(加工速度r)来加工产品x，在重复该加工10次(10个产品x)之后，停止运转20分钟，然后重复3次相同的动作。由此，合计生产30个产品x。

多个机械11a-11n及空调机13按照控制数据来进行动作，由此将消耗电力，产生热使工厂内的温度变化。功率计算部15对例如分别设置在多个机械11a-11n及空调机13中的功率计的输出进行读取，检测多个机械11a-11n及空调机13的消耗功率的总量。另外，由于在多个机械11a-11n中加工条件与消耗功率存在固定的关系，且在空调机13中输出与消耗功率存在固定的关系，因此功率计算部15通过读取多个机械11a-11n的加工条件及空调机13的控制数据，也可以计算消耗功率的总量。

温度信息生成部17检测工厂内的温度并生成温度信息。检测温度的位置并不限于1处，也可以是多个位置，但是这里将温度信息设为1个温度。例如，在要求加工时的温度在t℃以上u℃以下的情况下，当温度低时将多个位置之中的最低温度设为温度信息，当温度高时将多个位置之中的最高温度设为温度信息。但是并不局限于此，也可以存在将多个位置的平均温度设为温度信息的情况。另外，根据机器学习部23的结构，温度信息也可以包含多个温度。进而，检测温度的位置并不限于工厂内，也可以检测外部气温。进而，还可以从外部收集与1天的外部气温变化有关的预测数据。

机器学习部23具有状态观测部31、学习器33以及学习控制部35。状态观测部31按单元时间单位来获取与生产计划有关的数据、分别供给至多个机械11a-11n及空调机13的控制数据、来自功率计算部15的各时刻的消耗功率的总量(峰值功率)以及来自温度信息生成部17的温度信息，作为状态变量。

学习器33基于状态观测部31获取的状态变量来进行学习，在进行充分学习之后，根据与生产计划有关的数据，输出分别供给至多个机械11a-11n及空调机13的控制数据。此时，即使对根据已输出的控制数据预测的峰值功率及温度信息进行外部输出，仍可以进一步根据控制数据来计算节拍时间、生产完成时间(交货期)等，还可以对它们进行另外计算并进行外部输出。

学习控制部35具有：回报计算部，其计算表示基于控制数据来执行的工厂中的生产动作优选的程度的回报；存储部，其存储状态观测部31获取的状态变量及回报的组合；以及学习控制部35，其对学习器33基于状态变量及回报的组合而执行的学习进行控制。

针对机器学习部23的学习算法将予以后述，首先来说明学习处理的流程。

图2是表示第1实施方式的生产管理系统中的基本处理动作的流程图。

第1实施方式的生产管理系统控制工厂中的多个机械11a-11n的运转状况和加工条件、以及空调机13的运转状况(运转期间、输出等)，在实际上无法仅为了机器学习部23进行学习就使工厂运转。因此，与以往同样地，由熟练者决定控制数据，在步骤s101中，基于该控制数据来使工厂运转。将其称为现有控制动作。通过进行现有控制动作，在每个运转日，得到控制数据、生产完成时间(从生产开始至结束的时间)、功率峰值的变化数据、温度信息的变化数据的组合。在第1实施方式中，在遵守交货期，且遵守加工处理中的温度条件的基础上，设定在各运转日中的功率峰值的最大值越低则越好的回报，与各组合一起进行存储。

此外，通过基于计算机的模拟，在将包含生产计划、多个机械11a-11n的运转状况及加工条件、空调机13的运转状况(运转期间、输出等)的数据组合设为变量时，若得到针对控制数据的各变量而得的生产完成时间(从生产开始至结束为止的时间)、功率峰值的变化数据、温度信息的变化数据的高精度的结果，则也可以将其用作学习数据。此时，可以一边适当(例如随机地)变更作为变量的数据组合的各要素一边进行模拟，收集大量的学习数据。

在步骤s101中，重复该现有控制动作，直至积累机器学习部23可进行充分学习的天数的数据量为止。重复次数(运转天数)基于此前的经验来适当设定。由于该动作是积累机器学习部23用于进行学习的数据的动作，因此这里也称为初始学习动作。

在现有控制动作(初始学习动作)的最后的时刻，认为在学习控制部35中积累了对执行学习来说充足的数据量，因此学习器33基于所积累的数据来执行学习。在可进行良好学习的情况下，学习器33可以输出被预测为针对生产计划可得到良好回报的控制数据的组合。此外，如有需要，也可以添加对学习器33的输出是否妥当进行确认的处理。

在步骤s103中，控制部20将与输出至多个机械11a-11n的运转状况及加工条件、以及输出至空调机13的运转状况(运转期间、输出等)有关的控制数据，从基础控制部21的输出切换为机器学习部23输出的控制数据。

在步骤105中，通过机器学习部23输出的控制数据来控制输出至多个机械11a-11n的运转状况及加工条件、以及输出至空调机13的运转状况(工作区间、输出等)。这里将该控制称为学习部控制动作。下面，在步骤103中，重复学习部控制动作。

此外，在步骤103中，在重复学习部控制动作的情况下，得到用于学习的新数据。因此，在第1实施方式中，随时进行在步骤103中新执行的学习部控制动作及基于其结果(生产完成时间、功率峰值的变化数据、温度信息的变化数据)的学习器33的学习，可进行更良好的控制。这里，将该学习动作称为继续学习动作。可以每次进行新的学习部控制动作时进行继续学习动作，也可以在进行预定次数的学习部控制动作时进行继续学习动作。

机器学习部23所使用的学习算法可以使用任何算法。学习器23具有如下功能：从输入至装置的数据集合中，通过解析提取其中有用的规则或知识表现、判断基准等，并输出其判断结果，同时进行知识的学习。该方法各种各样，但是这里假定使用“强化学习”及“有教师学习”。例如，在步骤s101的现有控制动作(初始学习动作)中使用“有教师学习”，在步骤s103的学习部控制动作(继续学习动作)中使用“强化学习”。在步骤s103的最初，学习器33为结束了“有教师学习”的状态，其成为“强化学习”的初始状态。

在实现上述方法方面，具有学习特征量本身的提取的、被称为“深层学习(深度学习：deeplearning)”的方法。此外，这些机器学习(学习机33)通过应用例如gpgpu(general-purposecomputingongraphicsprocessingunits：通用计算图形处理单元)或大规模pc集群等来实现。

接着，对学习器33进行更加详细地说明。学习器33具有如下功能：从输入的数据的集合中，通过解析来提取其中有用的规则或知识表现、判断基准等，并输出其判断结果，同时进行知识的学习。如上所述，作为学习器33的学习算法，具有“有教师学习”及“强化学习”。

以如下方式对“强化学习”进行考虑。

·控制装置20的机器学习部23观测动作状态及环境的状态。

·环境随着动作而变化。

·针对观测到的环境(状态变量)，观测实际的功率峰值的变化数据，得到标签(回报)。

·更新神经网络(函数)以便相对于生产计划得到更高的标签。

·从完全不清楚环境(状态变量)所引起的结果(功率峰值)的状态、或只是不完全清楚的状态开始学习。即，多个机械(控制装置)11a-11n及空调机13实际动作，而首次可以得到其回报作为数据。也就是说，一边尝试一边获得最合适的函数，需要设为得到使回报最大的控制数据。

·也可以将以模仿人的动作的方式，事前学习到的状态作为初始状态，从良好的开始地点开始学习。

这里，“强化学习”是指：不只是判定或分类，还通过对行为进行学习，考虑行为给予环境的相互作用而对适当的行为进行学习、即进行用于使将来得到的回报最大的学习的方法。这在本实施方式中表现为能够获得如准确计算峰值功率值的最大值这样的、对未来造成影响的行为。例如在q学习的情况中继续说明，但是并不局限于此。q学习是在某环境状态s下，对选择行为a的价值q(s，a)进行学习的方法。也就是说，在处于某状态s时，只要将价值q(s，a)最高的行为a选择为最合适的行为即可。但是，对于最初为状态s与行为a的组合，则完全不清楚价值q(s，a)的正确值。因此，智能体在某状态s下选择各种行为a，并对此时的行为a给予回报。由此，智能体将选择更好的行为、即学习正确的价值q(s，a)。

进而，由于行为的结果是想要使将来得到的回报的合计最大化，因此最终是以q(s，a)＝e[σγ^trt]为目标。这里e[]表示期待值，t为时刻，γ为后述被称为折扣率的参数，rt为时刻t的回报，σ为基于时刻t的合计。将该式中的期待值设为针对随着最合适的行为而发生状态变化时而取的值，对其并不清楚，因此一边探索一边进行学习。这种价值q(s，a)的更新式例如可以通过式1来表示。

在上述式1中，st表示时刻t的环境的状态，at表示时刻t的行为。通过行为at，状态变化为st+1。rt+1表示通过该状态的变化而得到的回报。另外，带有max的项在状态st+1下成为将在选择此时已知的q值最高的行为a时的q值乘以γ的结果。γ为0＜γ≤1的参数，被称为折扣率。α为学习系数，设为0＜α≤1的范围。

式1表示根据试行at的结果所返回的回报rt+1更新状态st下的行为at的评价值q(st，at)的方法。表示如果回报rt+1+基于行为a的下一个状态下的最佳行为maxa的评价值q(st+1，maxat+1)比状态s下的行为a的评价值q(st，at)大，则使q(st，at)增大，相反地如果比其小，则使q(st，at)也减小。也就是说，使某状态下的某行为的价值与作为结果而立刻返回的回报和基于该行为的下一个状态下的最佳行为的价值接近。

这里，q(s，a)在计算机上的表现方法具有：针对所有状态行为对(s，a)，将该值保存为表(行为价值表)的方法、以及准备近似q(s，a)的函数的方法。在后者的方法中，所述的更新式可以通过用随机梯度下降法等方法调整近似函数的参数来实现。作为近似函数，可以使用后述的神经网络。

另外，作为有教师学习、无教师学习以及强化学习中的价值函数的近似算法，可以使用神经网络。神经网络由实现对例如图3所示的神经元的模型进行模拟的神经网络的运算装置及存储器等构成。图3是表示神经元的模型的示意图。

如图3所示，神经元输出对应于多个输入x(在图3中，作为一例为输入x1～输入x3)的输出y。对各输入x1～x3乘以与该输入x相对应的权重w(w1～w3)。由此，神经元输出由式2所表现的输出y。此外，输入x、输出y及权重w均为向量。另外，在下述的式2中，θ为偏置，fk为激活函数。

接着，参照图4对具有将上述神经元组合而成的3层的权重的神经网络进行说明。图4是表示具有d1～d3这3层的权重的神经网络的示意图。

如图4所示，从神经网络的左侧输入多个输入x(这里作为一例为输入x1～输入x3)，从右侧输出结果y(这里作为一例为结果y1～结果y3)。

具体来说，输入x1～输入x3乘以相对应的权重后分别对3个神经元n11～n13进行输入。与这些输入相乘的权重被集体标记为w1。

神经元n11～n13分别输出z11～z13。在图4中，将这些z11～z13集体标记为特征向量z1，可以视为提取了输入向量的特征量的向量。该特征向量z1为权重w1与权重w2之间的特征向量。z11～z13乘以对应的权重后分别对2个神经元n21、n22进行输入。与这些特征向量相乘的权重被集体标记为w2。

神经元n21、n22分别输出z21、z22。在图4中，这些z21、z22被集体标记为特征向量z2。该特征向量z2为权重w2与权重w3之间的特征向量。特征向量z21、z22乘以对应的权重后分别对3个神经元n31～n33进行输入。与这些特征向量相乘的权重被集体标记为w3。

最后，神经元n31～n33分别输出结果y1～结果y3。

在神经网络的动作中具有学习模式和价值预测模式。例如，在学习模式中使用学习数据集来学习权重w，使用该参数在预测模式中进行与多个机械及空调机的控制有关的行为判断。此外，为了方便，写为预测，但是当然也可以是检测、分类、推论等多种任务。

这里，在预测模式中，可以对实际使多个机械及空调机工作而得到的数据进行即时学习并反映到(在线学习)下一个行为，也可以使用预先收集的数据组来进行集中的学习，以后一直通过该参数来进行检测模式(批学习)。或者，还可以是其中间的、每次积攒一定程度数据时插入学习模式。

另外，权重w1～w3可通过误差反向传播(反向传播：backpropagation)来学习。误差的信息从右侧进入，流向左侧。误差反向传播是针对各神经元，来调整(学习)各个权重，使得输入了输入x时的输出y与真实的输出y(教师)的差值减小的方法。

这种神经网络也可以在3层以上进一步增加层(称为深层学习)。可以仅从教师数据自动获得阶段性进行输入的特征提取并返回结果的运算装置。

“有教师学习”与“强化学习”也是同样地，可以使用神经网络的算法来实现，但是每次进行状态观测，根据教师数据来更新神经网络(函数)。作为教师数据，可以使用上述标签(回报)。

以上对第1实施方式的生产控制系统进行了说明，接下来针对控制数据，说明使用了具体例的第2实施方式。

图5表示搭载有第2实施方式的生产控制系统的工厂结构。

与第1实施方式的工厂同样地，第2实施方式的工厂具有多个机械11a-11n、空调机13、功率计算部15以及温度信息生成部17，控制部20控制工厂。控制部20除了基础控制部21及机器学习部23以外还具有开关25，从外部除了生产计划还接受工作时间表的信息来进行控制。开关是用于执行图2的步骤s103的控制切换的装置，如上所述通过软件来实现。

图6a及图6b表示第2实施方式中的生产计划及工作时间表的表现例。工作时间表为在工厂出勤并从事生产的人员信息，由此使能够运转的机械变化。例如，如果是可以确保足够人员的工作时间表，则所有的机械11a-11n可始终运转，但是在根据工作时间表限制能够确保的人员时，在某个机械在1天中不能运转或2个机械同时不能运转的情况下，限制机械的运转状况。这里为了容易说明，以各机械能否运转的信息的形式来提供。但是，不只是机械能否运转，还可以通过能够同时运转的机械的组合变化等形式来表现信息。

与第1实施方式同样地，机器学习部23具有：状态观测部31、学习器33以及学习控制部35。如图所示，学习控制部35具有：回报计算部41、存储部43以及更新部45。学习器33可以使用所述学习算法中的任意一种。下面，对各部的数据进行例示来详细说明第2实施方式。

如图6a所示，生产计划具有产品品种、生产个数以及生产1个所需要的工序和交货期的项目，这里示出在交货期tx内将1个种类的产品x生产nx个，为了生产1个产品x，通过机械a加工tax(pa(t))小时，通过机械b加工tbx(pb(t))小时，…，通过机械n加工tnx(pnx(t))小时。pa(t)、pb(t)、…、pnx(t)为机械a、b、…、n中的加工速度参数，pkmin(t)＜pk(t)＜pkmax(t)，其中，k＝a，b，…，n。

工作时间表如图6b所示，以表示各机械能否运转的数据来提供。

作为对基础控制部21的输入，给出了以下数据。

生产计划：图6a

工作时间表：图6b

求取周期时间的函数：tax0(pa(t)),tbx0(pb(t)),…,tnx0(pn(t))

求取消耗功率的函数：pa0(pa(t)),pb0(pb(t)),…,pn0(pn(t)),pair0(pair(t))

tax0(pa(t))为求取机械a的周期时间的函数，其他也是同样的，pa0(pa(t))为求取机械a的消耗功率的函数，pair0(pair(t))为求取空调机的消耗功率的函数，其他也是同样的。

作为对机器学习部23的状态观测部31的输入，给出了以下数据。

生产计划：图6a

工作时间表：图6b

工厂内的消耗功率(从功率计算部15)：ptotal(t)

工厂内的温度信息(以及从温度信息生成部17)：tair(t)

除此之外，输入基础控制部21对机械a-n及空调机的输出或学习器33的输出。

另外，对机器学习部31预先给出了以下输入。

求取周期时间的函数：tax0(pa(t)),tbx0(pb(t)),…,tnx0(pn(t))

温度范围指常数据：tmin,tmax、

加工速度参数范围(上限和下限)：pamin,pamax,pbmin,pbmax,…,pnmin,pnmax

空调控制指令范围(上限和下限)pairmin,pairmax

学习器33输出以下内容。

加工速度参数：pa(t),pb(t),…,pn(t)

这里，(pkmin＜pk(t)＜pkmax,其中，k＝a,b,…,n)

空调控制指令：pair(t)

这里，(pairmin＜pair(t)＜pairmax)

将产品x的生产完成时刻设为txend。

学习器以优先满足以下的条件(1)和(2)的方式来进行探索。

txend＜tx(1)

tmin＜tair(t)＜tmax(2)

进而，在满足条件(1)和(2)的基础上，以使ptotal(t)的每天的最大值降低的方式来进行学习。

这里，作为例子，举出了熟练者决定输出时的处理的例子。

首先，若假设nx足够大，则产品x的生产完成时刻txend能够使用节拍时间txmax来近似，因此能够使用下面的式子来决定pa(t),pb(t)-pn(t)的范围。

txend＝txmaxnx＝max{tax0(pa(t)),tbx0(pb(t)),tnx0(pn(t))}·nx

另外，如果将空调引起的温度变化设为fair(pair)，将基于外部空气或热源等空调以外的影响的温度变化设为to(t)，则下述式子成立，因此如果预测fair(pair)就能够决定对应于tair(t)的pair(t)。

tair(t)＝tair(t-δt)+fair(pair(t-δt))+to(t-δt)

另外，若将除了机械a、b-n及空调的工厂内的消耗功率定为po(t)，则工厂内的消耗功率ptotal(t)能够通过下面的式子来预测，因此能够决定预测为每天的ptotal(t)的最大值为最小的pa(t),pb(t)-pn(t)。此时，对po(t)假设为常数，或通过观测来进行预测。

人在决定参数时，针对txend的近似误差或po(t)、fair(pair)、to(t)这样的函数，可以通过进行重复生产并观测实际的值来提高预测精度。

在第2实施方式中，对决定输出时的处理有所记载。初始的控制是基础控制部21所进行的。将此时的机器学习部23的输入设为“有教师学习”的教师。

回报计算部41通过下面的规则来计算回报。

·如果条件(1)及(2)中的一方不满足，则计算负的回报。

·在条件(1)及(2)双方都满足时，则在ptotal(t)的每天的最大值向减小的方向的变化中计算正的回报，在ptotal(t)的每天的最大值向增大的方向的变化中计算负的回报。

存储部43存储输入、回报、输出的组。

更新部45基于输入、回报、输出的组，更新为了决定输出而需要的学习器33的模型式。

在通过“有教师学习”学习了特征后，将动作的控制从基础控制部21切换至机器学习部23。将此时的学习器33的状态设为“强化学习”的初始状态。学习器33可以通过“强化学习”来更新模型式。更新部33基于存储部43的数据来更新模型式。

图7表示搭载有第3实施方式的生产控制系统的工厂的结构。

第3实施方式的工厂具有与第2实施方式的工厂相同的结构，多个机械11a-11n分别具有温度计和功率计、以及空调机13具有功率计的情况与第2实施方式不同。另外，第3实施方式的控制部20具有与第2实施方式的控制部20类似的结构。

图8a及图8b表示第3实施方式中的生产计划及工作时间表的表现例。

在第3实施方式中，当使用机械a,b-n并基于图8a的生产计划及图8b的工作时间表来生产3个种类的产品x，y，z时，机器学习部23进行学习，使得每个机械的温度保持恒定，并且生成使工厂的消耗功率降低的控制数据。此外，设k＝a，b，…，n，l＝x，y，z。

如图8a所示，生产计划(生产时间表)中，生产3个种类的产品与第2实施方式的情况不同，但是针对各产品的项目则与第2实施方式相同。另外，如图8b所示，工作时间表与第2实施方式相同。

作为对基础控制部21的输入，给出以下内容。

生产计划：图8a

工作时间表：图8b

求取周期时间的函数：tkl0(pk(t))

求取消耗功率的函数：pk0(pk(t)),pair0(pair(t))

作为对机器学习部23的状态观测部31的输入，给出以下内容。

生产计划：图8a

工作时间表：图8b

每个装置的消耗功率：pk(t),pair(t)

工厂内的消耗功率：ptotal(t)

每个装置的温度信息：tk(t),tair(t)

工厂内的温度信息：tair(t)

另外，对机器学习部23预先给出以下的输入。

温度范围指定：tmin,tmax

加工速度参数范围：pklmin,pklmax

空调控制指令范围：pairmin,pairmax

学习器输出以下内容。

运转开始/停止命令：ekl(t)

这里，ekl(t)＝0,1

加工速度参数：pk(t)

这里，pkmin＜pk(t)＜pkmax

空调控制指令：pair(t)

这里，pairmin＜pair(t)＜pairmax

此外，设为在ekl(t)＝1时，在时刻t通过机械k来进行产品l的加工。

另外，将产品l的生产完成时刻定为tlend。

机器学习部23对所有的k,l以优先满足以下的条件(3)及(4)的方式进行探索。

tlend＜tl(3)

tmin＜tk(t)＜tmax(4)

进而，在满足(3)及(4)的基础上进行学习，使得ptotal(t)的每天的最大值下降。

下面，列举熟练者决定输出值时的处理的例子。

作为探索的方针，最初考虑使生产计划成立。探索满足tlend＜tl的运转开始/停止命令及加工速度参数的范围。此时，如果利用1个机械不能同时进行多个产品的加工，则需要对所有的机械满足以下的式子。

针对该范围内的各点，计算满足温度条件的空调控制指令。首先，将空调引起的温度变化设为fair(pair)，将加工速度参数引起的温度变化设为gk(pk(t))。进而，在将基于外部空气或热源等空调以外的影响的温度变化设为to(t)时，如果假设常数kk、lk，则可以假设下述式子成立。

t’＝t-δt

tk(t)＝tk(t')+lk(tk(t’)·tair(t’))+gk(pk(t'))

或者，通过观测tair(t)与tk(t)的关系，预测并使用tair(t)应满足的范围。

通过计算生产计划和温度条件成立的各点的消耗功率，能够决定预测为ptotal(t)的每天的最大值处于最小的输出值。如果有需要，则使用下面的式子。po(t)表示除了机械a,b-n及空调以外的工厂内的消耗功率。

但是，如果实际的生产完成时刻或温度变化、消耗功率与计算出的值有误差，则需要修正计算方法或具有余量来进行再计算。

初始的控制是由基础控制部21进行的。将此时的机器学习部23的输入设为“有教师学习”的教师。

回报计算部41通过以下规则来计算回报。

·针对所有的k,l，如果条件(3)及(4)中的一方不满足，则计算负的回报。

·针对所有的k,l，在条件(3)及(4)两方都满足时，在ptotal(t)的每天的最大值向变小方向的变化中计算正的回报，在ptotal(t)的每天的最大值向变大方向的变化中计算负的回报。

在通过“有教师学习”学习了特征后，将动作的控制从基础控制部21切换至机器学习部23。将此时的学习器的状态设为“强化学习”的初始状态。进而，深入学习的学习器可以通过“强化学习”来更新模型式。

图9表示在多个工厂中应用第4实施方式的综合生产控制系统时的结构。

多个工厂100p，100q，…，100s分别搭载有从第1到第3实施方式中任意一种的控制部20p，20q，…，20s。将控制部20p，20q，…，20s经由通信网络120可相互通信地连接。

进而，如图9所示，设置有可经由通信网络120与控制部20p，20q，…，20s相互通信的综合生产管理部110。综合生产管理部110综合管理多个工厂100p，100q，…，100s。综合生产管理部110制成多个工厂100p，100q，…，100s的生产计划，并与对应于所制成的生产计划的工厂通信。

在第4实施方式的综合生产控制系统中，将通过某个工厂的控制部20i(i＝p，q，…，s)执行的学习的结果发送到其他工厂的控制部20j(j＝p，q，…，s且j≒i)。换句话说，控制部20p，20q，…，20s经由通信网络120来交换、共用学习结果。接收到来自其他控制部20i的学习结果的控制部20j，如果是在学习前则参考接收到的学习结果来设定初始状态，如果是在学习后则将自身的学习结果与接收到的学习结果进行比较并在进行进一步学习时予以参考。

根据本发明的生产控制系统，可以不制成工厂管理程序就实现生产控制系统，因此能够降低成本。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：木下次朗;野本靖司;大家智树;中里辉希
技术所有人：发那科株式会社
我是此专利的发明人

上一篇：一种使用安全的摇摆椅的制造方法与工艺
上一篇：一种房屋装修用墙面旧涂层清除器的制造方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。