机器学习装置、激光装置以及机器学习方法与流程

文档序号:11607506阅读:223来源:国知局
机器学习装置、激光装置以及机器学习方法与流程

本发明涉及一种学习激光加工开始条件的机器学习装置、激光装置以及机器学习方法。特别是,本发明涉及一种学习如下的光输出指令数据的机器学习装置、激光装置以及机器学习方法,该光输出指令数据使得不会产生伴随因激光的反射光导致的激光振荡器、激光光学系统的损伤、警报发出的激光振荡停止而开始对加工对象物进行激光加工。



背景技术:

在激光装置中,防止因反射光导致的激光振荡器、激光光学系统的损伤是重要的课题,因此报告有各种相关技术。

例如,在日本特开2007-30032号公报中公开了一种具备激光测量部和反射光测量部来监视加工物的表面状态是否正常的技术。另外,在日本特开2007-42981号公报中公开了一种设置有激励光源控制单元的光纤激光器,该激励光源控制单元在返回光的光强度超过了规定值的情况下减少激励光源的输出来防止返回光的放大。

并且,在日本特开平11-170074号公报中公开了如下一种激光加工装置:设置有反射光检测器和根据反射光分布表来计算刚反射后的反射光强度的反射光强度计算部,基于由反射光强度计算部计算出的反射光强度与反射光强度的基准值之间的比较来控制激光振荡器。另外,在日本特开2000-126880号公报中公开了如下一种激光加工装置:其基于根据反射光强度且通过运算式求出的反射光强度的增加量与规定的基准值之间的比较来控制激光。



技术实现要素:

在上述的以往的激光装置中,即使监视反射光量也没有将反射光量利用于光输出的控制、或者只是当反射光量上升时降低光输出、或者只是利用通过简单的运算式对反射光量进行变换而得到的数据来控制光输出。因此,即使检测反射光量,也没有公开如下技术,即:接下来设为怎样的激光输出条件才能够使反射光量的水平为容许水平以下并且能够形成微小的凹洼、孔洞而能够开始加工的概率高,而且有时也受到加工对象物的材质、温度、表面状态的影响,怎样能够导出恰当的光输出条件。

因此,即使监视了反射光量,也无法在短时间内掌握加工开始时的激光输出条件、或者再现性差而重复发出反射光量过剩警报。其结果,存在无法在短时间之内开始加工、或者最终无法开始加工的情况。另外,为了提高能够开始加工的成功率,需要人反复进行试验来摸索用于使加工能够开始的最佳的激光输出条件而逐渐积累庞大的数据。

在日本特开2007-30032号公报中,没有记载如何将监视表面状态得到的结果反馈到激光输出条件中,没有公开抑制反射光量的水平来开始加工的方法。并且,在日本特开2007-42981号公报中,如果只是减少激励光源的输出,则会出现无法开始加工的情况。然而,在日本特开2007-42981号公报中没有记载针对该问题的解决方法。

并且,在日本特开平11-170074号公报和日本特开2000-126880号公报中,即使基于反射光强度与其基准值之间的比较来控制激光振荡器,也是与抑制反射光水平来开始加工无关的,并不能解决问题。

本发明是鉴于上述的情况而完成的,目的在于提供一种能够在无人介入的情况下学习对于在开始激光加工时以反射光量为规定的水平以下的条件并且以最短时间开始加工而言最佳的激光输出条件的机器学习装置、激光装置和机器学习方法。

为了达成前述的目的,根据第一发明,提供一种机器学习装置,其为激光装置的、对包括在加工开始时对激光电源部指示的光输出指令的光输出指令数据进行学习的机器学习装置,所述激光装置具备对加工对象物照射激光来进行切割、焊接等加工的至少一个激光振荡器和向所述激光振荡器供给电力的至少一个以上的激光电源部,所述机器学习装置的特征在于,具备:状态量观测部,其观测所述激光装置的状态量,该状态量包括输出光检测部的输出数据和反射光检测部的输出数据,该输出光检测部用于测量从所述激光振荡器经由激光光学系统而输出的所述激光的光量即输出光量,该反射光检测部用于测量所述激光被所述加工对象物的表面反射而再入射到所述激光振荡器和/或激光光学系统的反射光的光量即反射光量;动作结果获取部,其获取基于根据所述光输出指令数据而从所述激光振荡器输出的激光的加工开始是否成功的结果;学习部,其接受来自所述状态量观测部的输出和来自所述动作结果获取部的输出,将包括对所述激光电源部指示的光输出指令的所述光输出指令数据与所述激光装置的状态量及所述加工开始是否成功的结果相关联地进行学习;以及意思决定部,其参照所述学习部所学习到的所述光输出指令数据来决定包括对所述激光电源部指示的光输出指令的光输出指令数据,该机器学习装置学习使得所述反射光量满足不超出第二规定水平的条件并且在规定时间内对所述加工对象物开始所述加工的光输出指令数据,该水平被设定为比第一规定水平高。

根据第二发明,在第一发明中,当根据所述反射光检测部的输出数据而求出的反射光量达到所述第一规定水平时,即使所述激光电源部正在执行所述光输出指令也立即对所述激光电源部发出暂时切断或者降低激光输出的指令,所述意思决定部重新输出下一个新的光输出指令数据。

根据第三发明,在第一发明或第二发明中,所述反射光量的所述第二规定水平被设定为比警报水平低的水平,该警报水平为与所述反射光量给所述激光振荡器和/或所述激光光学系统带来损伤的可能性高的光量相当的水平。

根据第四发明,在第一发明至第三发明中的任一发明中,所述意思决定部至少在所述规定时间内在直到所述加工开始成功为止的期间以时间序列大致连续地决定所述光输出指令数据并输出所述光输出指令数据。

根据第五发明,在第一发明至第四发明中的任一发明中,在决定所述光输出指令数据时,在具有在该光输出指令数据之前所输出的所述光输出指令数据的情况下,利用所述反射光检测部的针对基于所述光输出指令数据而输出的激光的输出数据。

根据第六发明,在第一发明至第五发明中的任一发明中,所述动作结果获取部利用所述反射光检测部的输出数据。

根据第七发明,在第一发明至第六发明中的任一发明中,所述动作结果获取部获取的所述加工开始是否成功的结果以如下的结果被给出,即是否在所述规定时间内成功地使所述光输出指令数据与所述加工对象物的所述加工所需的或者适于该加工的光输出指令数据大致一致的结果。

根据第八发明,在第一发明至第七发明中的任一项中,所述动作结果获取部获取所述加工开始是否成功、所述加工开始所要的时间、所述反射光量达到所述第一规定水平的次数或频度、以及与所述反射光量超过所述第一规定水平的情况下的超过光量的时间积分值相当的量中的至少一个。

根据第九发明,在第一发明至第八发明中的任一发明中,所述学习部具备:报酬计算部,其基于所述动作结果获取部的输出来计算报酬;以及价值函数更新部,其具有确定所述光输出指令数据的价值的价值函数,根据所述报酬来更新所述价值函数。

根据第十发明,在第一发明至第八发明中的任一发明中,所述学习部具有学习所述光输出指令的学习模型,所述学习部具备:误差计算部,其基于所述动作结果获取部的输出和所述学习模型来计算误差;以及学习模型更新部,其根据所述误差来更新所述学习模型。

根据第十一发明,在第一发明至第十发明中的任一发明中,所述机器学习装置具有神经网络。

根据第十二发明,在第一发明至第十一发明中的任一发明中,向所述状态量观测部输入的状态量和/或从所述意思决定部输出的光输出指令数据中包括激光的输出、峰值输出、脉冲宽度、脉冲间隔、重复周期、重复脉冲数、辅助气体的喷出条件、所述激光光学系统的透过率、焦点距离、f值、激光在所述加工对象物表面上的光点尺寸、所述加工对象物表面与激光焦点的相对位置关系、激光相对于所述加工对象物表面的照射角度、加工对象物的温度、环境温度、环境湿度之中的至少一个以上。

根据第十三发明,提供一种激光装置,其具备第一发明至第十二发明中的任一发明中的机器学习装置,该激光装置具备所述激光振荡器、所述激光电源部、所述激光光学系统、所述输出光检测部、所述反射光检测部以及控制装置,该控制装置分别控制所述激光振荡器、所述激光电源部、所述激光光学系统、所述输出光检测部、所述反射光检测部。

根据第十四发明,在第十三发明中,所述激光装置具备至少两个以上所述反射光检测部,对于所述反射光所经由的光路不同的多个反射光,具备检测各个反射光的至少一个所述反射光检测部。

根据第十五发明,在第十三发明或第十四发明中,所述激光装置具备:与所述激光振荡器不同的光源;检测所述光源的光的光检测器;以及光学系统,其将所述光源的光照射至所述加工对象物,并使被所述加工对象物的表面反射的光入射到所述光检测器,激光装置即使在所述激光振荡器没有输出激光的状态下也能够观察所述加工对象物的光的反射状态,并将观察结果作为向所述状态量观测部输入的状态量之一。

根据第十六发明,在第十三发明至第十五发明中的任一发明中,所述激光装置具备用于测量从所述加工对象物的激光照射场所或者激光照射预定场所附近放射的红外线和/或等离子体光的红外线检测部和/或等离子体光检测部,将由所述红外线检测部和/或等离子体光检测部获取到的数据作为向所述状态量观测部输入的状态量之一。

根据第十七发明,在第十三发明至第十六发明中的任一发明中,所述激光装置存在有多个,按每个所述激光装置分别设置的多个所述机器学习装置经由通信介质彼此共享或交换数据。

根据第十八发明,在第十七发明中,所述机器学习装置存在于云服务器上。

根据第十九发明,提供一种机器学习方法,学习包括对所述激光电源部指示的光输出指令的光输出指令数据,该光输出指令使得来自加工对象物的反射光量满足不超出第二规定水平的条件并且在规定时间内对所述加工对象物开始基于激光的加工,所述机器学习方法的特征在于,包括以下步骤:观测包括用于测量输出光量的输出光检测部的输出数据以及用于测量反射光量的反射光检测部的输出数据的激光装置的状态量;获取基于所述激光的加工开始是否成功的结果;接受所观测到的所述激光装置的状态量和所获取到的基于所述激光的所述加工开始是否成功的结果;以及将包括对所述激光电源部指示的光输出指令的光输出指令数据与所述激光装置的所述状态量及所述加工开始是否成功的结果相关联地进行学习。

根据第二十发明,提供一种机器学习方法,学习包括对激光电源部指示的光输出指令的光输出指令数据,该光输出指令使得来自加工对象物的反射光量满足不超出第二规定水平的条件并且在规定时间内对所述加工对象物开始基于激光的加工,所述机器学习方法的特征在于,包括以下步骤:观测包括用于测量输出光量的输出光检测部的输出数据以及用于测量反射光量的反射光检测部的输出数据的激光装置的状态量;获取包括来自所述加工对象物的反射光量的针对所述光输出指令数据的结果;以及将包括对所述激光电源部指示的光输出指令的光输出指令数据与所述激光装置的所述状态量及包括所述反射光量的光输出指令数据的结果相关联地进行学习。

附图说明

根据附图所示的本发明的典型实施方式的详细的说明,本发明的这些目的、特征及优点以及其它目的、特征及优点会变得更加明确。

图1是表示本发明的一个实施方式的激光装置的概念性的结构的框图。

图2是示意性地表示针对指示给激光电源部的光输出指令而输出的激光的输出光量和反射光量的随时间经过的变化的图。

图3是示意性地表示针对指示给激光电源部的光输出指令而输出的激光的输出光量和反射光量的随时间经过的变化的图。

图4是示意性地表示针对指示给激光电源部的光输出指令而输出的激光的输出光量和反射光量/输出光量的随时间经过的变化的图。

图5是示意性地表示针对指示给激光电源部的光输出指令而输出的激光的输出光量和反射光量的随时间经过的变化的图。

图6是示意性地表示针对指示给激光电源部的光输出指令而输出的激光的输出光量和反射光量的随时间经过的变化的图。

图7是示意性地表示针对指示给激光电源部的光输出指令而输出的激光的输出光量和反射光量的随时间经过的变化的图。

图8是表示图1所示的机器学习装置的动作的一例的流程图。

图9是表示本发明的其它实施方式的激光装置的概念性的结构的框图。

图10是表示图9所示的机器学习装置的动作的一例的流程图。

具体实施方式

下面参照附图来说明本发明的实施方式。在下面的附图中,对相同的构件标注相同的参照标记。为了易于理解,适当地变更了这些附图的比例尺。

图1是表示本发明的一个实施方式的激光装置1的概念性的结构的框图。本实施方式的激光装置1对加工对象物2照射激光14来进行切割、焊接等加工,该激光装置1具备至少一个激光振荡器3和向所述激光振荡器3供给电力的至少一个以上的激光电源部4、激光光学系统5、用于测量从所述激光振荡器3经由激光光学系统5而输出的所述激光14的光量即输出光量的输出光检测部6、用于测量所述激光14被所述加工对象物2的表面反射后再入射到所述激光振荡器3和/或激光光学系统5的反射光15的光量即反射光量的反射光检测部7、控制装置13以及机器学习装置8,该控制装置13分别控制激光振荡器3、激光电源部4、激光光学系统5、输出光检测部6以及反射光检测部7。

在此,机器学习装置8具备状态量观测部9、动作结果获取部10、学习部11和意思决定部12。机器学习装置8学习并输出光输出指令数据,该光输出指令数据包括对所述激光电源部4指示的光输出指令。

激光振荡器3例如是将激光二极管模块作为激光光源的直接二极管激光振荡器、将激光二极管模块作为激励光源的光纤激光振荡器等。向这些激光振荡器3的激光二极管模块供给电力的激光电源部4由控制装置13进行控制。从激光振荡器3输出的激光14经由激光光学系统5而照射到加工对象物2,用于对加工对象物2进行切割、焊接等加工。

此外,所述激光装置1能够输出的输出光量范围、从所述激光电源部4向所述激光振荡器3供给的电压、电力与输出光量之间的关系等激光装置1的基本信息(基本特性)能够事先从所述控制装置13输入到所述状态量观测部9。

照射到加工对象物2的激光14被加工对象物2的表面反射后再入射到激光振荡器3、激光光学系统5,当该再入射的反射光15(返回光)的光量大时,有时给激光振荡器3、激光光学系统5带来损伤。因而,期望的是,当根据所述反射光检测部7的输出数据求出的反射光量达到第一规定水平时,即使所述激光电源部4正在执行所述光输出指令也立即对所述激光电源部4发出暂时切断或者降低激光输出的指令来切断或者降低激光14的输出。但是,为了能够开始加工,期望的是所述意思决定部12重新输出下一个新的光输出指令数据,该光输出指令数据包括对所述激光电源部4指示的光输出指令。

另外,期望的是,所述反射光量的所述第一规定水平设定为比所述第二规定水平更低的水平,该第二规定水平被设定为比警报水平低,该警报水平低是与所述反射光量给所述激光振荡器3和/或所述激光光学系统5带来损伤的可能性高的光量相当的水平。由此,能够可靠地避免激光振荡器3、激光光学系统5的损伤。

另外,期望的是,所述意思决定部12至少在所述规定时间内在直到所述加工开始成功为止的期间以时间序列大致连续地决定所述光输出指令数据并输出所述光输出指令数据。

此外,所谓加工开始意味着本来的加工的目的即切割、焊接等加工的开始,在本来的加工目的中所不包括的加工前的微小的凹洼、孔洞的形成不纳入到加工开始的范畴。

意思决定部12至少在所述规定时间内在直到所述加工开始成功为止的期间以时间序列大致连续地决定光输出指令数据并输出光输出指令数据,由此即使在按照相当于试射的单一的光输出指令数据而无法开始加工的情况下也连续地输出光输出指令数据,由此提高加工开始成功的概率,时间上的损失也少。

此外,在连续地输出光输出指令数据的情况下,在决定光输出指令数据时,存在该光输出指令数据之前输出的前光输出指令数据,在该情况下,期望的是利用所述反射光检测部7的针对基于所述前光输出指令数据而输出的激光14的输出数据。通过利用所述反射光检测部7的针对基于所述前光输出指令数据而输出的激光14的输出数据,能够输出更恰当的光输出指令数据。在按照前光输出指令数据而反射光量达到了所述第一规定水平的情况下,也能够反馈该结果来输出下一个光输出指令数据,从而能够减少再次输出反射光量达到所述第一规定水平这样的光输出指令数据的概率。

图2~图7示意性地表示针对指示给所述激光电源部4的光输出指令而输出的激光14的输出光量和反射光量的随时间经过的变化的具体的例子。其中,纵轴是为了易于观看而实施了放大反射光量的倍率等处置的任意刻度,并不表示绝对值。

在图2中,对于脉冲状的激光输出(输出光量),稍微延迟地检测出反射光15(反射光量)。图2例示了信号处理等所需的时间,但只是例示,根据时间刻度不同也存在实质上几乎没有时间延迟的情况。另外,图2所示的脉冲状的激光14的脉冲宽度、脉冲间隔、峰值输出的变化的状态也只是一例,不限定为图2所示的脉冲宽度、脉冲间隔、峰值输出的变化的状态,也能够设定大不相同的脉冲宽度、脉冲间隔、时间轴等。另外,也可以如图3所示的那样使脉冲宽度、脉冲间隔变化。关于峰值输出,通常期望的是随着反射光量的减少而变高,但也可以是固定的。

在图2的例子中示出如下情况:通过脉冲状的激光14而加工对象物2的表面状态发生变化,反射率(∝反射光量/输出光量)减少而脉冲状激光的峰值输出逐渐提高,但反射光量不会增加到所述第一规定水平(在该例子中为250)而输出光量达到了本来的加工所需的或者适于该加工的光输出光量(在该例子中为300),因此固定为本来的加工所需的或者适于该加工的光输出光量地开始了加工。图4是绘制出了在图2的情况下的反射光量/光输出光量的图。表示通过脉冲状激光而加工对象物2的表面状态发生变化从而反射率减少的状况,为了在短时间内开始加工,需要加大反射光量/光输出光量的减少率或者减少速度,从而需要照射对于在反射光量不超过所述第一规定水平的范围内使加工对象物2的表面状态发生变化而言有效的高输出的激光14。

此外,用于脉冲状的激光输出的所述光输出指令数据的输出可以为用于输出单发的脉冲的光输出指令数据的输出,但也可以为统一指示如图2的多个脉冲状的激光输出的光输出指令数据的输出。

图5表示反射光量达到所述第一规定水平的情况下的输出光量与反射光量的随时间经过的变化的例子。在该例子中,表示因为对于第三个脉冲光的反射光量达到了所述第一规定水平,因此激光输出暂时降低,也反馈(学习)反射光量达到了所述第一规定水平这个信息,输出下一个光输出指令数据。相比于图2的情况,加工开始所要的时间变长。

此外,为了开始加工而在加工开始前输出的激光14不限定为脉冲光。既可以为如图6所示那样的连续地变化的激光14,也可以为如图7所示那样将脉冲激光叠加于连续地变化的激光14而得到的输出波形。当然,也可以是输出光量在某个期间不发生变化而为固定的条件。综上所述,学习并输出能够在短时间之内开始加工的光输出指令数据,输出波形等并不限定为图2~图7中所例示的输出波形等。

另外,在图1中,白色中空的箭头模拟地表示激光14、反射光15的光线,但不限定为在空间中传播的光线,例如将在光纤内传播的光线等也包括在内地模拟性地示出。关于从激光装置1输出的激光14也同样,模拟性地示出也包括具备加工头的构造的含义,该加工头构成为激光14在光纤内传播后在光纤的终端激光14在加工对象物2的大致表面聚焦。另外,对于向加工对象物2照射的激光14和来自加工对象物2的反射光15,为了容易观察而偏移光轴地进行了记载,但在激光14大致垂直地入射到加工对象物2的表面的情况下,只是光线的方向反转而光轴大致一致,这是不言而喻的。

另外,记载了激光光学系统5只存在于激光装置内,但例如模拟地示出也包括设置在光纤的终端的加工头的光学系统的含义,该光纤以也延伸到激光装置1的外部的状态进行铺设,该激光光学系统5用于使从激光装置1输出的激光14例如大致在加工对象物2的表面聚焦。另外,期望的是能够通过控制装置13来控制激光光学系统5。

另外,示意性地记载了光从激光光学系统5入射到输出光检测部6、反射光检测部7,但在光在空间内传播的情况下,例如通过半透半反镜使光分离来检测光的一部分,或者在光在光纤内传播的情况下,例如能够检测使用光分路器而分离的来自光纤的终端的光、或者从光纤的包层检测漏光,光向输出光检测部6、反射光检测部7入射的入射构造不限定为图中所示的构造。

另外,在图1中只分别记载了一个激光振荡器3和一个激光电源部4,但为了高输出化等,激光装置1也可以具备多个激光振荡器3。也可以通过光耦合器使来自多个激光振荡器3的激光14耦合。另外,在该情况下,为了扩大能够稳定地输出的光输出范围等,也可以具备对于各激光振荡器3能够分别独立地进行控制的激光电源部4。

另外,在图1中,来自输出光检测部6、反射光检测部7或者激光光学系统5的输出直接输入到状态量观测部9、动作结果获取部10,但例如也可以经由前处理部之后输入到状态量观测部9、动作结果获取部10,该前处理部进行根据来自输出光检测部6的输出数据和来自反射光检测部7的输出数据来计算所述加工对象物2的表面的反射率等前处理。

机器学习装置8具备所述动作结果获取部10、所述状态量观测部9、学习部11、意思决定部12,具备通过解析来从输入到机器学习装置8的数据的集合中提取其中的有用的规则、知识表达、判断基准等并输出其判断结果并且进行知识的学习(机器学习)的功能。

所述动作结果获取部10能够利用所述反射光检测部7的输出数据。动作结果获取部10利用反射光检测部7的输出数据,由此能够有效地学习能够在反射光量没有达到所述第一规定水平的条件下开始加工的光输出指令数据,以使报酬增加。

另外,期望的是,关于所述动作结果获取部10获取的所述加工开始是否成功的结果,以如下的结果被给出,即能否在所述规定时间内成功地使所述光输出指令数据与所述加工对象物2的所述加工所需的或者适于所述加工对象物2的所述加工的光输出指令数据大致一致的结果。关于所述动作结果获取部10获取的所述加工开始是否成功的结果,以能否在规定时间内成功地使光输出指令数据与加工对象物2的所述加工所需的或者适于加工对象物2的所述加工的光输出指令数据大致一致的结果被给出,由此能够按照在规定时间内开始加工这个本发明的目的进行学习。期望的是,在使光输出指令数据与加工对象物2的所述加工所需的或者适于加工对象物2的所述加工的光输出指令数据大致一致之后、即在能够开始作为目的的加工之后,将光输出指令数据保持为加工对象物2的所述加工所需的或者适于加工对象物2的所述加工的光输出指令数据。因而,也可以是,在能够开始作为目的的加工之后,所述控制装置13并不基于来自所述意思决定部12的光输出指令数据来控制所述激光振荡器3、所述激光电源部4、所述激光光学系统5、所述输出光检测部6、所述反射光检测部7,而是基于控制装置13中设定的光输出指令数据来控制所述激光振荡器3、所述激光电源部4、所述激光光学系统5、所述输出光检测部6、所述反射光检测部7。

在图1所记载的机器学习装置8中,学习部11中具备报酬计算部16和价值函数更新部17,报酬计算部16基于动作结果获取部10所获取到的加工开始是否成功、加工开始所要的时间、反射光量达到所述规定水平的次数或频度以及与所述反射光量超过所述第一规定水平的情况下的超过光量的时间积分值相当的量来计算报酬,价值函数更新部17能够更新价值函数,该价值函数决定由意思决定部针对来自状态量观测部9和动作结果获取部10的输入而输出的光输出指令数据的价值。

另外,所述报酬计算部16能够在加工开始在规定时间内成功了的情况下使报酬增加,加工开始所要的时间越短则使报酬的増加量越大,在加工开始在规定时间内没有成功的情况下使报酬减少,根据所述反射光量达到所述第一规定水平的次数的多少或者频度的高低以及与所述反射光量超过所述第一规定水平的情况下的超过光量的时间积分值相当的量的大小,使报酬的减少量增大。

机器学习的方法各种各样,但如上述的那样,当连续地输出光输出指令数据时,意思决定部12观测环境的状态来决定要输出的光输出指令数据,但存在由于基于之前的光输出指令数据所输出的激光14而加工对象物2的温度上升等、光输出指令数据自身给环境带来变化的情况,因此期望的是,每当输出光输出指令数据就返回报酬信号,并通过强化学习进行学习,该强化学习以使到将来的报酬的合计最大化为目标来学习光输出指令数据。

所谓强化学习是指不仅学习判定、分类,也学习行动,由此基于能够行动对环境造成的相互作用来学习恰当的行动、即学习使得在将来得到的报酬最大的学习的方法。这在本实施方式中表示为,例如能够获得在输出了光输出指令数据后加工对象物2的温度上升而使加工开始变得容易之类的对未来产生影响这样的行动。

价值函数更新部17能够使用所谓的q学习来进行强化学习。但是,强化学习的方法并不限定为q学习。q学习为学习在某个环境状态s下选择行动a的价值q(s,a)的方法,在某个状态s时,选择价值q(s,a)最高的行动a来作为最佳的行动即可。

但是,最初关于状态s与行动a的组合,完全不知道价值q(s,a)的正确的值,因此在某个状态s下选择各种行动a,对于此时的行动a给予报酬。由此,学习更好的行动的选择即正确的价值q(s,a)。

并且,想要使行动的结果为到将来得到的报酬的合计最大化,因此目标是最终使q(s,a)=e[σ(γt)rt]。在此,e[]表示期待值,t为时刻,γ为后述的被称为折扣率的参数,rt为时刻t的报酬、σ为基于时刻t的合计。该式中的期待值设为是在按照最佳的行动而状态发生变化时得到的值,尚不清楚该期待值,因此一边探索一边学习。这样的价值q(s,a)的更新式例如能够由下述的式(1)来表示。

即,所述价值函数更新部17使用下记的式(1)来更新价值函数q(st,at)。

在此,st表示时刻t的环境的状态,at表示时刻t的行动。通过行动at,状态变化为st+1。rt+1表示通过该状态的变化而得到的报酬。另外,带max的项是在状态st+1之下选择了此时已知晓的q值最高的行动a的情况下的q值乘以γ而得到的值。在此,γ为0<γ≤1的参数,称作折扣率。另外,α为学习系数,设为0<α≤1的范围。

上述的式(1)表示基于尝试at后返回的报酬rt+1来更新状态st下的行动at的评价值q(st,at)的方法。即,表示如果报酬rt+1与基于行动a的下一个状态的最优的行动maxa的评价值q(st+1,maxat+1)的合计大于状态s下的行动a的评价值q(st,at),则使q(st,at)增大,反之,则使q(st,at)减小。也就是说,使某状态下的某行动的价值接近作为结果立即返回的报酬和基于该行动的下一个状态下的最优的行动的价值。

在此,关于q(s,a)在计算机上的表达方法,存在针对所有的状态行动组(s,a)将其值保持为行动价值表的方法以及准备用于对q(s,a)进行近似这样的函数的方法。在后者的方法中,前述的式(1)能够通过用随机梯度下降法(probabilitygradientdescentmethod)等方法对近似函数的参数进行调整来实现。此外,作为近似函数,能够使用神经网络。神经网络由模拟了神经元的模型而得到的运算装置和存储器等构成。

接着,说明本实施方式的激光装置1所具备的机器学习装置8的动作的一例。图8是表示图1所示的机器学习装置8的动作的一例的流程图。如图8所示那样,在图1所示的机器学习装置8中,当开始学习动作(学习处理)时,计时器开始计数(步骤s101)。接着,判定从计数开始起的经过时间是否超过了所述规定时间(步骤s102),在没有超过的情况下,向状态量观测部9输出表示反射光检测部7、激光光学系统等的状态量的数据(步骤s103),基于至此为止的学习结果和状态量观测部9的输出数据等来决定光输出指令数据,向控制装置13输出包括向激光电源部4输出的光输出指令的光输出指令数据(步骤s104)。接着,控制装置13基于光输出指令数据对激光电源部等各部指示输出,来执行激光输出(步骤s105)。在基于光输出指令数据的激光输出的执行过程中也判定反射光量(步骤s106),在反射光量达到了所述第一规定水平的情况下,立即暂时切断或者降低激光输出(步骤s112),但在反射光量为所述第一规定水平以下的情况下,完成基于所述光输出指令数据而执行的激光输出,获取针对光输出指令数据的结果(步骤s107)。判定针对光输出指令数据的结果(步骤s108),在所述光输出指令数据没有达到与作为目的的加工所需的或者适于该加工的光输出指令数据大致一致的水平、即基于光输出指令数据的加工能力水平没有达到作为目的的加工所需的或者适于该加工的加工能力水平的情况下,返回步骤s101,再次执行步骤s101以后的流程。反之,在所述光输出指令数据达到了与作为目的的加工所需的或者适于该加工的光输出指令数据大致一致的水平、即基于光输出指令数据的加工能力水平达到了作为目的的加工所需的或者适于该加工的加工能力水平的情况下,能够开始加工,判定为加工开始成功,设定正的报酬(步骤s109)。也可以根据从开始计时器计数起的经过时间、即到加工开始为止所要的时间的长短来加上正的报酬。也就是说,优选的是,直到加工开始为止所要的时间越短,则越增加正的报酬来附加进行学习以缩短直到加工开始为止的时间的动机。加工开始已成功,因此重置计时器(步骤s110),更新价值函数或者行动价值表(步骤s111),待机到下一个加工开始时为止。

在通过步骤s102判定为从计数开始起的经过时间超过了所述规定时间的情况下,由于在所述规定时间内加工开始未能成功,因此设定负的报酬(步骤s114),重置计时器(步骤s110),更新价值函数(步骤s111),等待下一个指令。也可以设定为返回步骤s101来再次执行步骤s101以后的流程。

在通过步骤s106判定为反射光量达到了所述第一规定水平而立即暂时切断或者降低了激光输出(步骤s112)的情况下,也设定负的报酬(步骤s113),更新价值函数(步骤s111),返回步骤s101来再次执行步骤s101以后的流程。

通过重复以上的步骤s101~s114,学习部11继续更新价值函数或者行动价值表来进行学习。

以上所记述的强化学习通常是从全然不知行动会引起的结果的状态、或者只知道不完全的结果的状态起开始学习,但也能够将通过有监督学习等而进行了事前学习的状态设为初始状态,从积累了学习了某种程度的知识的状态起开始学习。所谓有监督学习是将某输入和结果(标签)的数据的组大量地提供给机器学习装置8,由此学习这些数据集合中的特征,归纳地获得根据输入来估计结果的模型、即其关系性。

图9是表示本发明的其它实施方式的激光装置1的概念性的结构的框图,表示应用了有监督学习的激光装置1。根据图9与前述的图1的比较可以明确,相对于图1所示的应用了q学习(强化学习)的激光装置1,图9所示的应用了有监督学习的激光装置1还具备带结果(标签)的数据记录部。

如图9所示的那样,应用了有监督学习的激光装置1中的机器学习装置8具备状态量观测部9、动作结果获取部10、学习部11以及意思决定部。学习部11包括误差计算部19和学习模型更新部20。此外,在本实施方式的激光装置1中,机器学习装置8也学习并输出光输出指令数据,该光输出指令数据包括对所述激光电源部4指示的光输出指令。

从动作结果获取部10输出的结果(标签)与安装在学习部11中的学习模型的输出之间的误差由误差计算部19进行计算。在此,带结果(标签)的数据记录部18能够保持至今为止所得到的带结果(标签)的数据,将带结果(标签)的数据提供给误差计算部19。或者,也能够通过存储卡、通信线路等将激光装置1的带结果(标签)的数据提供给该激光装置1的误差计算部19。

将包括针对光输出指令数据的反射光量的结果、例如反射光量/输出光量的减少率和/或反射光量/输出光量的减少速度的倒数定义为误差,并且在反射光量/输出光量的减少率、反射光量/输出光量的减少速度比规定的值小的情况(包括减少率、减少速度为负的情况、即通常认为不会有的反射光量/输出光量増加的情况)、所述反射光量超过了所述第一规定水平的情况下,定义为产生了大到某种程度的一定的误差,进行有监督学习以使该误差接近0,由此能够学习对虽基础但最重要的反射光量/输出光量的减少率和/或反射光量/输出光量的减少速度变为最大、即反射率(∝反射光量/输出光量)的减少有效且使反射光量不超过所述第二规定水平的光输出指令数据。其结果,利用该学习结果能够进行更高级的学习,使得能够指示适于最终的目标的光输出指令数据,该最终的目标是使得反射光量满足不超出所述第二规定水平的条件并且将光输出提高到能够在短时间之内开始加工的水平。

此外,仅通过有监督学习也能够以一定的水准达成使反射光量满足不超出第二规定水平的条件并且开始所述加工这个目的,因此强化学习并不是必须的。

作为进行有监督学习的机器学习器的学习的一例,例如设定以下的式(2)所示那样的预测模型的回归式,调整各系数a0,a1,a2,a3,…的值,使得当在学习的过程中将各状态变量x1,x2,x3,…所取的值代入回归式时能够得到目标变量y的值,由此来进行学习。此外,学习的方法并不限定于此,按有监督学习的算法而不同。

y=a0+a1x1+a2x2+a3x3+…+anxn

作为有监督学习的算法,公知有神经网络、最小二乘法等各种方法,作为适用于本发明的方法,可以采用任意的有监督学习算法。

图10是表示图9所示的机器学习装置8的动作的一例的流程图。如图10所示的那样,在图9所示的机器学习装置8中,当学习动作(学习处理)开始时,计时器开始计数(步骤s201)。接着,判定从计数开始起的经过时间是否超过所述规定时间(步骤s202),在没有超过的情况下,将表示反射光检测部7、激光光学系统等的状态量的数据输出到状态量观测部9(步骤s203),基于至今为止的学习结果和状态量观测部9的输出数据等来决定光输出指令数据,向控制装置13输出包括对激光电源部4指示的光输出指令的光输出指令数据(步骤s204)。接着,控制装置13基于光输出指令数据对激光电源部等各部指示输出来执行激光输出(步骤s205)。在基于光输出指令数据的激光输出的执行过程中也判定反射光量(步骤s206),在反射光量达到了所述第一规定水平的情况下,立即暂时切断或者降低激光输出(步骤s212),但在反射光量为所述第一规定水平以下的情况下,完成基于所述光输出指令数据而执行的激光输出,获取针对光输出指令数据的结果(步骤s207)。作为针对光输出指令数据的结果,例如能够获取反射光量/输出光量(∝反射率)的减少率、减少速度。在该情况下,能够将反射光量/输出光量的减少率、减少速度的倒数定义为误差,并进行有监督学习以使该误差接近0。在该情况下,优选的是,在反射光量/输出光量的减少率、减少速度比规定的值小的情况(包括减少率、减少速度为负的情况、即通常认为不会有的反射光量/输出光量増加的情况)下,定义为产生了大到某种程度的一定的误差。

接着,判定针对光输出指令数据的结果(步骤s208),在所述光输出指令数据没有达到与作为目的的加工所需的或者适于加工的光输出指令数据大致一致的水平、即基于光输出指令数据的加工能力水平没有达到作为目的的加工所需的或者适于加工的加工能力水平的情况下,返回步骤s201来再次执行步骤s201以后的流程。反之,在所述光输出指令数据达到了与作为目的的加工所需的或者适于加工的光输出指令数据大致一致的水平、即基于光输出指令数据的加工能力水平达到了作为目的的加工所需的或者适于加工的加工能力水平的情况下,能够开始加工,而开始加工,重置计时器(步骤s209),更新学习模型(步骤s210),根据需要将带结果(标签)的数据追记到带结果(标签)的数据记录部18中(步骤s211),待机直到下一个加工开始时为止。

在通过步骤s202判定为从计数开始起的经过时间超过了所述规定时间的情况下,重置计时器(步骤s209),根据需要进行学习模型的更新(步骤s210),向带结果(标签)的数据记录部18追记带结果(标签)的数据(步骤s11),等待下一个指令。也可以设定为返回步骤s201来再次执行步骤s201以后的流程。

在通过步骤s206判定为反射光量达到了所述第一规定水平而立即暂时切断或者降低了激光输出(步骤s212)的情况下,作为针对光输出指令数据的结果,设产生了大到某种程度的一定的误差,更新学习模型(步骤s210),返回步骤s201来再次执行步骤s201以后的流程。也可以根据需要将带结果(标签)的数据追记到带结果(标签)的数据记录部18中(步骤s211)。

通过重复以上的步骤s201~s212,学习部11持续学习模型的更新来进行学习。

此外,如前述的那样,无论在强化学习中还是有监督学习中,神经网络均是有效的学习方法,因此期望所述机器学习装置8具有神经网络。

在以上的记述中,作为向状态量观测部9输入的数据(状态量),主要举出从输出光检测部6、反射光检测部7输出的数据(输出光量、反射光量)来进行了说明,作为从意思决定部12向控制装置13输出的光输出指令数据中包括的光输出指令,主要举出对激光电源部4指示的光输出指令(激光输出、峰值输出、脉冲宽度、脉冲间隔、脉冲的重复频率等)来进行了说明。但是,向状态量观测部9输入的状态数据、从意思决定部12向控制装置13输出的光输出指令数据中包括的指令数据并不限定为这些,例如,作为辅助气体条件,能够获取或指示气体的种类、气体的纯度、气体的组成、气体喷出压力、流量等数据。另外,关于所述激光光学系统5,也能够获取或指示透过率、焦点距离、f值、激光14在所述加工对象物表面上的光点尺寸、加工对象物表面与激光焦点的相对位置关系即也包括激光焦点是否从加工对象物表面离开的信息的加工对象物表面与激光焦点之间的距离以及激光焦点在与加工对象物表面的面平行的方向上的与基准点之间的距离、激光14相对于加工对象物表面的照射角度等数据。另外,这些数据不限定为固定的值,也可以是变化的数据。例如,关于从加工头照射激光14的情况,能够输出如下那样的光输出指令数据:使得通过加工头的移动、加工头内的变焦透镜系统的焦点距离的变化、ao(自适应光学系统)的曲率变化等,使加工对象物表面与激光焦点之间的距离随时间经过而变化并且射出能够得到如图2~图7所示那样的输出光量的激光14。在想要在激光光学系统5的出射端得到期望的输出光量的情况下,应该也考虑所述激光光学系统5的透过率或者所述激光光学系统5中的输出光量的衰减地对所述激光电源部4指示光输出指令,这是不言而喻的。

此外,期望的是提前获取加工对象物2的温度、环境温度、环境湿度等具有给光输出指令数据的结果带来影响的可能性的数据来作为状态量的一部分。

并且,也可以考虑事先在加工对象物2的规定的位置等粘贴记录有加工对象物2的材质、厚度等信息的条形码等,通过条形码阅读器等自动读出加工对象物2的信息来作为向所述状态量观测部9输入的状态量之一。当然,也能够由人输入加工对象物2的信息,但为了能够以人不介入的方式自动进行学习,期望的是设为也能够自动读取加工对象物2的信息。

关于具有给光输出指令数据的结果带来影响的可能性的数据,大范围收集向状态量观测部9输入的数据,扩大按光输出指令数据指示的数据的范围和选项,由此能够准确地掌握激光装置1和加工对象物2及其周围的环境的状态,从而能够指示更适合该状态的光输出指令数据,在加工开始困难的条件下也能够成功开始加工。

为了增加向状态量观测部9输入的有效的数据,也能够具备两个以上所述反射光检测部7。例如,在所述激光光学系统5为光纤的情况下,在芯内传播来的反射光15和在包层传播来的反射光15的比例不限为固定,通过具备用于测量在芯内传播来的反射光15的光量的反射光检测部7以及用于测量在包层传播来的反射光15的反射光检测部7,能够更详细些地掌握反射的状态,从而能够输出更恰当的激光输出指令数据。

另外,为了增加向状态量观测部9输入的有效的数据,也可以是,所述激光装置1具备:与所述激光振荡器3不同的光源;检测所述光源的光的光检测器;以及光学系统,其向所述加工对象物2照射所述光源的光,使被所述加工对象物2的表面反射的光入射到所述光检测器,所述激光装置1即使在没有输出基于所述激光振荡器3的激光14的状态下,也能够观察所述加工对象物2的光的反射状态,将观察结果作为向所述状态量观测部9输入的状态量之一。由此,即使在没有输出以加工为目的的激光14的状态下也能够得到加工对象物表面的反射率等关于加工对象物2的表面状态的信息,从而能够提高能够从最初就输出成功开始加工的概率高的激光输出指令的概率。也可以另外具备专用的光学系统,但也能够如激光14的导向光那样共用所述激光光学系统5。在另外具备专用的光学系统的情况下,使所述光源的光线相对于加工对象物2的表面倾斜地入射,也能够获取到加工对象物2的表面的距离信息。在共用激光光学系统5等且光源的光线与加工对象物2的表面垂直地入射的情况下,也可以使所述光源为激光二极管等并按照激光测距仪的原理例如自动地测量加工头与加工对象物2的表面之间的距离来作为向状态量观测部9输入的状态量之一。

并且,为了增加向状态量观测部9输入的有效的数据,所述激光装置1也能够具备用于测量从所述加工对象物2的激光照射场所或者激光照射预定场所附近放射的红外线和/或等离子体光的红外线检测部31和/或等离子体光检测部32,将通过所述红外线检测部31和/或等离子体光检测部32而获取到的数据作为向所述状态量观测部9输入的状态量之一。利用红外线检测部31能够测量加工对象物3的表面温度,因此通过观察激光照射前后的温度分布和温度变化速度能够得到加工对象物3的比热、导热系数、厚度等所影响的热容量等信息,从而能够输出更恰当的激光输出指令条件。利用等离子体光检测部32能够测量由于激光14的照射而从加工对象物3的加工部分产生的等离子体光,因此能够得到关于激光14的照射效果、加工对象物3的材质等的信息,从而能够输出更恰当的激光输出指令条件。

也可以是,所述激光装置1存在有多个,按每个所述激光装置分别设置的多个所述机器学习装置8经由通信介质彼此共享或交换数据。通过共享学习结果,能够通过更短的时间得到精度高的学习结果,从而能够输出更恰当的激光输出指令条件。

另外,所述机器学习装置8也能够存在于云服务器上。不仅能够共享学习结果,也能够应用由于成本、尺寸而难以在单体的激光装置1中利用的gpgpu、大规模pc机群等,从而能够更高速地进行处理,提高学习速度、学习的精度。其结果,能够输出更恰当的激光输出指令条件。

发明的效果

在第一发明中,存在当最初对加工对象物3照射短脉冲光来形成微小的凹洼、孔洞时、来自加工对象物3的反射光15减少而能够顺利加工的情况,但存在无法在短时间内掌握根据工件的材质、厚度、表面状态等照射怎样的脉冲光才好或者再现性差而发出反射光量过剩警报使得无法开始加工这个问题。另外,在通过最初的激光照射无法开始加工的情况下,期望观察反射光15的状态继续立即照射下一个被认为最佳的激光14的情况较多,但也存在有人介入而无法应对的问题。根据第一发明,能够在无人介入的情况下重复学习根据反射光15的状态等照射怎样的脉冲光来抑制反射光量使得能够开始加工,能够输出适于考虑了所述状态量的情况下的加工开始的光输出指令数据,从而能够在规定时间内可靠地开始加工。

在第二发明中,当反射光量达到比第二规定水平低的第一规定水时,发出立刻暂时切断或者降低激光输出的指令,由此能够使反射光量满足不超出第二规定水平的条件,接着输出下一个新的光输出指令数据,由此能够不停止激光振荡地继续进行激光输出使得能够开始加工。

在第三发明中,反射光量的第二规定水平被设定为比包括光学系统的激光振荡器3发生损伤的可能性高的警报水平低的水平,通过使反射光量满足不超出第二规定水平的条件,能够可靠地避免因反射光15而导致的激光振荡器3、激光光学系统5的损伤。

在第四发明中,在按照相当于试射的单一的光输出指令数据无法开始加工的情况下也连续地输出光输出指令数据,由此提高加工开始成功的概率,时间上的损失也少。

在第五发明中,在按照之前的光输出指令数据无法开始加工的情况下,通过也利用反射光检测部7的针对之前的光输出指令数据的输出数据,能够输出更恰当的光输出指令数据。在按照之前的光输出指令数据而反射光量超过所述第一规定水平且达到接近所述第二规定水平的水平的情况下,也能够反馈该结果来输出下一个光输出指令数据。

在第六发明中,能够学习本发明作为目的的能够以反射光量不达到规定水平的条件开始加工的光输出指令数据。

在第七发明中,获取能否在规定时间内将激光输出提高到加工所需的或者适于该加工的光输出指令数据来作为动作结果,由此能够进行按照本发明的目的的学习。

在第八发明中,学习部11能够输出适于达成目标的恰当的光输出指令数据,该光输出指令数据是进行学习使得能够指示使得反射光量不会超过所述第二规定水平且在尽可能短的时间内开始加工的光输出指令时的重要的指标。

在第九发明中,按照单一的光输出指令无法开始加工的情况也多,将输入和结果简单地相关联来进行学习并不容易,但通过进行为了使报酬的合计最大化而重复进行试验的强化学习来学习最佳行动模式,从而能够输出对于输入而言最佳的一系列的所述光输出指令。

在第十发明中,将针对光输出指令数据的包括反射光量的结果、例如所述反射光量/输出光量的减少率、反射光量/输出光量的减少速度的倒数定义为误差,并且在反射光量/输出光量的减少率、反射光量/输出光量的减少速度比规定的值小的情况(包括减少率、减少速度为负的情况、即通常认为不会有的反射光量/输出光量增加的情况)、所述反射光量超过了所述第一规定水平的情况下,定义为产生了大到某种程度的一定的误差,进行有监督学习以使该误差接近0,由此能够进行学习使得能够指示适于最终的目标的光输出指令数据,该最终的目标是使反射光量满足不超出所述第二规定水平的条件并且在短时间内将光输出提高到能够开始加工的水平。

在第十一发明中,神经网络能够使用于强化学习中的价值函数的近似算法、有监督学习的近似算法中的任一个。

在第十二发明中,输入很多状态量,光输出指令数据中包括很多激光光学系统5的参数,由此在加工开始困难的条件下也能够成功开始加工。

在第十三发明中,通过具备机器学习装置8的激光装置1,能够在反射光量不超过所述第二规定水平的条件下在短时间之内可靠地开始加工。

在第十四发明中,反射光15所经由的光路不同的反射光15包括不同的信息,尽可能多地利用这些信息,由此能够输出更恰当的激光输出指令数据。

在第十五发明中,在没有输出以加工为目的的激光14的状态下也能够得到加工对象物表面的反射率等关于加工对象物2的表面状态的信息,从而能够提高能够从最初就输出成功开始加工的概率高的激光输出指令的概率。如果利用导向光则无需新的光学系统。

在第十六发明中,利用红外线检测部31能够测量加工对象物2的表面温度,因此通过观察激光照射前后的温度分布和温度变化速度能够得到加工对象物2的比热、导热系数、厚度等所影响的热容量等信息。另外,利用等离子体光检测部32能够测量由于激光14的照射而从加工对象物2的加工部分产生的等离子体光,因此能够得到关于激光14的照射效果、加工对象物2的材质等的信息。其结果,能够输出更恰当的激光输出指令条件。

在第十七发明中,通过共享学习结果,能够在更短时间内得到精度更高的学习结果,由此能够输出更恰当的激光输出指令条件。

在第十八发明中,不仅能够共享学习结果,还能够利用高价的高性能处理器来进行学习,由此学习速度、学习的精度提高。其结果,能够输出更恰当的激光输出指令条件。

在第十九发明中,按照单一的光输出指令数据无法开始加工的情况也多,将输入和结果简单地关联来进行学习并不容易,但通过进行为了使报酬的合计最大化而重复进行试验的强化学习来学习最佳的行动模式,从而能够输出对于输入而言最佳的一系列的所述光输出指令数据。

在第二十发明中,将针对光输出指令数据的包括反射光量的结果、例如反射光量/输出光量的减少率和/或反射光量/输出光量的减少速度的倒数定义为误差,进行有监督学习以使该误差接近0,由此能够学习虽然基础但最重要的反射光量/输出光量的减少率和/或反射光量/输出光量的减少速度为最大的光输出指令数据。此外,优选的是,在反射光量/输出光量的减少率、反射光量/输出光量的减少速度比规定的值小的情况(包括减少率、减少速度为负的情况、即通常认为不会有的反射光量/输出光量增加的情况)、所述反射光量超过所述第一规定水平的情况下,定义为产生了大到某种程度的一定的误差。通过有监督学习来如此定义误差,由此能够学习使反射光量满足不超出所述第一规定水平的条件并且使反射率∝反射光量/输出光量急速减少的光输出指令数据。其结果,利用该学习结果能够进行更高级的学习,使得能够指示适于最终的目标的光输出指令数据,该最终的目标是使反射光量满足不超出所述第二规定水平的条件并且将光输出在短时间内提高到能够开始加工的水平。

使用典型的实施方式说明了本发明,但是本领域人员应该能够理解,在不脱离本发明的范围内能够进行前述的变更和各种其它变更、省略、追加。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1