本发明涉及智能制造,尤其涉及一种数控加工工艺的优化方法、装置、终端设备及存储介质。
背景技术:
1、随着智能制造的发展,数控加工得到了广泛的应用,数控加工是指在数控机床上进行零件加工的一种工艺方法,用数字信息控制零件和刀具位移的机械加工方法。
2、传统的工艺优化方法一般是基于数学模型和规定的规则针对专家的行为数据进行训练,但是,由于专家针对实际的应用场景中的认知可能存在偏差,也就是说,专家的认知可能不准确,导致模型在实际场景中的性能下降,进而导致加工工艺模型的可靠性非常低。
技术实现思路
1、本发明的主要目的在于提供一种数控加工工艺的优化方法、装置、终端设备以及计算机存储介质,旨在解决加工工艺模型的可靠性非常低的问题。
2、为实现上述目的,本发明提供一种数控加工工艺的优化方法,根据获取的加工行为数据和状态环境数据构建第一专家数据库,并针对所述第一专家数据库进行行为克隆,针对行为克隆后的第一专家数据库的加工参数进行扰动变化得到第二专家数据库;
3、确定所述第二专家数据库与所述第一专家数据库之间的相似度,检测所述相似度是否大于或者等于预设的容忍度阈值;
4、若所述相似度大于或者等于所述容忍度阈值,则对所述第二专家数据库进行强化学习,得到优化工艺策略,并确认所述优化工艺策略是否与预期工艺任务的加工工艺策略匹配;
5、若确认所述优化工艺策略与所述加工工艺策略匹配,则依据所述优化工艺策略确定优化后的数控加工工艺。
6、可选的,所述检测所述相似度是否大于或者等于预设的容忍度阈值的步骤之前,所述方法还包括:
7、针对所述第一专家数据中的加工行为数据和状态环境数据进行归一化处理,依据归一化处理结果确定容忍度阈值范围;
8、在所述容忍度阈值范围内选择一个数据作为容忍度阈值。
9、可选的,所述确认所述优化工艺策略是否与预期工艺任务的加工工艺策略匹配的步骤之后,所述方法还包括:
10、若确认所述优化工艺策略与所述加工工艺策略不匹配,则确认行为克隆后的第一专家数据库的加工参数进行扰动变化的扰动变化参数;
11、针对所述扰动变化参数进行更新,依据更新后的扰动变化参数执行针对行为克隆后的第一专家数据库的加工参数进行扰动变化得到第二专家数据库的步骤;
12、若检测到不匹配的次数大于预设次数阈值,则对所述容忍度阈值进行调整,并依据调整后的容忍度阈值重新执行检测所述相似度是否大于预设的容忍度阈值的步骤。
13、可选的,所述对所述容忍度阈值进行调整的步骤,包括:
14、通过预设的调整规则在所述容忍度阈值范围内针对所述容忍度阈值进行调整;或者,
15、响应在所述容忍度阈值范围内修改所述容忍度阈值的操作,并基于所述操作调整所述容忍度阈值。
16、可选的,所述确定所述第二专家数据库与所述第一专家数据库之间的相似度的步骤,包括:
17、基于第一专家数据库的加工行为数据和状态环境数据构建第一数据分布,并基于第二专家数据库的加工行为数据和状态环境数据构建第二数据分布;
18、计算所述第一数据分布和所述第二数据分布之间的kl散度,将所述kl散度确定为相似度。
19、可选的,所述强化学习包括:逆向强化学习和正向强化学习,所述对所述第二专家数据库进行强化学习,得到优化工艺策略的步骤,包括:
20、针对所述第二专家数据库进行所述逆向强化学习,得到专家在所述状态环境数据下的加工过程中决策行为的回报函数;
21、基于正向强化学习针对所述回报函数进行优化决策得到优化工艺策略。
22、可选的,所述检测所述相似度是否大于或者等于预设的容忍度阈值的步骤之后,包括:
23、若所述相似度小于所述容忍度阈值,则确认针对行为克隆后的第一专家数据库的加工参数进行扰动变化的扰动变化参数;
24、针对所述扰动变化参数进行更新,依据更新后的扰动变化参数执行针对行为克隆后的第一专家数据库的加工参数进行扰动变化得到第二专家数据库的步骤。
25、此外,为实现上述目的,本发明还提供一种数控加工工艺的优化装置,所述数控加工工艺的优化装置包括:
26、获取模块,用于根据获取的加工行为数据和状态环境数据构建第一专家数据库,并针对所述第一专家数据库进行行为克隆,针对行为克隆后的第一专家数据库的加工参数进行扰动变化得到第二专家数据库;
27、检测模块,用于确定所述第二专家数据库与所述第一专家数据库之间的相似度,检测所述相似度是否大于或者等于预设的容忍度阈值;
28、匹配模块,用于若所述相似度大于或者等于所述容忍度阈值,则对所述第二专家数据库进行强化学习,得到优化工艺策略,并确认所述优化工艺策略是否与预期工艺任务的加工工艺策略匹配;
29、确定模块,用于若确认所述优化工艺策略与所述加工工艺策略匹配,则依据所述优化工艺策略确定优化后的数控加工工艺。
30、此外,为实现上述目的,本发明还提供一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数控加工工艺的优化程序,所述数控加工工艺的优化程序被所述处理器执行时实现如上述中的数控加工工艺的优化方法的步骤。
31、此外,为实现上述目的,本发明还提供一种计算机存储介质,所述计算机存储介质上存储有数控加工工艺的优化程序,所述数控加工工艺的优化程序被处理器执行时实现如上所述的数控加工工艺的优化方法的步骤。
32、相比于传统的基于数学模型或规则的优化方式,本发明通过根据获取的加工行为数据和状态环境数据构建第一专家数据库,并针对所述第一专家数据库进行行为克隆,针对行为克隆后的第一专家数据库的加工参数进行扰动变化得到第二专家数据库;确定所述第二专家数据库与所述第一专家数据库之间的相似度,检测所述相似度是否大于或者等于预设的容忍度阈值;若所述相似度大于或者等于所述容忍度阈值,则对所述第二专家数据库进行强化学习,得到优化工艺策略,并确认所述优化工艺策略是否与预期工艺任务的加工工艺策略匹配;若确认所述优化工艺策略与所述加工工艺策略匹配,则依据所述优化工艺策略确定优化后的数控加工工艺。从而,本发明基于专家在加工时的的状态环境数据和行为数据一起获得第一专家数据库,并针对第一专家数据库进行行为克隆后进行扰动变化得到第二专家数据库,在第二专家数据库与所述第一专家数据库之间的相似度大于容忍度阈值时,针对第二专家数据库进行强化学习,在强化学习得到的优化工艺策略与加工工艺策略匹配时,依据所述优化工艺策略确定优化后的数控加工工艺,从而,提高了专家数据库的容忍性,进而,缓解了专家针对实际应用场景的认知存在偏差,进而,提高了加工模型的泛化能力。
1.一种数控加工工艺的优化方法,其特征在于,所述数控加工工艺的优化方法,包括:
2.如权利要求1所述的数控加工工艺的优化方法,其特征在于,所述检测所述相似度是否大于或者等于预设的容忍度阈值的步骤之前,所述方法还包括:
3.如权利要求1所述的数控加工工艺的优化方法,其特征在于,所述确认所述优化工艺策略是否与预期工艺任务的加工工艺策略匹配的步骤之后,所述方法还包括:
4.如权利要求3所述的数控加工工艺的优化方法,其特征在于,所述对所述容忍度阈值进行调整的步骤,包括:
5.如权利要求1所述的数控加工工艺的优化方法,其特征在于,所述确定所述第二专家数据库与所述第一专家数据库之间的相似度的步骤,包括:
6.如权利要求1所述的数控加工工艺的优化方法,其特征在于,所述强化学习包括:逆向强化学习和正向强化学习,所述对所述第二专家数据库进行强化学习,得到优化工艺策略的步骤,包括:
7.如权利要求1所述的数控加工工艺的优化方法,其特征在于,所述检测所述相似度是否大于或者等于预设的容忍度阈值的步骤之后,包括:
8.一种数控加工工艺的优化装置,其特征在于,所述数控加工工艺的优化装置包括:
9.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数控加工工艺的优化程序,所述数控加工工艺的优化程序被所述处理器执行时实现如权利要求1至7中任一项所述数控加工工艺的优化方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有数控加工工艺的优化程序,所述数控加工工艺的优化程序被处理器执行时实现如权利要求1至7中任一项所述的数控加工工艺的优化方法的步骤。