一种基于数据挖掘的生活用纸造纸机成本优化方法与流程

文档序号:22967250发布日期:2020-11-19 21:40阅读:146来源:国知局
一种基于数据挖掘的生活用纸造纸机成本优化方法与流程

本发明涉及造纸领域,特别涉及一种基于数据挖掘的生活用纸造纸机成本优化方法。



背景技术:

目前生活用纸企业对于纸机参数的调控多依据于人工经验。并且对于同一纸种而言,生产的工况也存在差异。虽然在不同的生产参数下生产的纸张质量都符合企业的标准,但是不同的生产参数对于企业来说会造成企业生产成本的不一致。对于企业来说如何在保证产品质量的情况下,降低生产成本是十分重要的。

造纸过程中主要消耗的能源为电和蒸汽。除了原材料的成本,电和蒸汽在生存成本中也占据了非常大的位置。据了解,大多数造纸厂针对纸机的工况调节,全部通过一线工人手动操作肉眼观察,导致企业生产过程成本较高。基于生产的历史数据选取出最合适的生产工况,以达到降低企业生产成本的目的。



技术实现要素:

本发明的目的是为了解决现有技术中的上述缺陷,本发明提出的种基于数据挖掘的生活用纸造纸机成本优化方法,可以在实际生产过程中对纸张横向伸长率进行实时测量,为操作工人修改生产工艺参数提供可靠的参考。

本发明的目的可以通过采取如下技术方案达到:

一种基于数据挖掘的生活用纸造纸机成本优化方法,其特征在于,包括下述步骤:

s1、确定生活用纸造纸机中可以调节的参数,采集数据:目标优化工艺参数在上浆浓度、车速、卷速、网笼真空度、托辊真空度、低压蒸汽流量、高压蒸汽流量、闪罐压力和烘缸压力中选取;

s2、对采集到的数据进行数据探索和数据预处理,组建成历史参数数据库;

s3、根据随机森林算法建立成本和参数之间的拟合模型,并判断参数对成本的重要性:步骤s1中确定看优化工艺参数和计算出来的实时成本利用随机森林算法进行拟合,并且判断参数的重要性;

s4、根据步骤s3建立的成本拟合模型,以相关指数r2为指标确定调节的参数:依次剔除重要性小的参数,再次判断拟合模型的评价指标相关指数,确定需要优化的工艺参数;

s5、根据步骤s4中确定调节的工艺参数,从历史数据中确定参数的调节边界;

s6、在步骤s5中确定参数的调节边界内,在s2中建立的数据库中进行寻找成本最低时的参数值,作为参数调节的目标。

进一步的,步骤s1中,确定生活用纸造纸机中可以调节的参数,采集数据,组成数据库,具体步骤如下:

生活用纸造纸机目标优化工艺参数为上浆浓度、车速、卷速、网笼真空度、托辊真空度、低压蒸汽流量、高压蒸汽流量、闪罐压力和烘缸压力,然后利用mes系统采集纸机生产过程中的生产数据。

进一步的,步骤s2中,对采集到的数据进行数据探索和数据预处理,组建成历史参数数据库,具体步骤如下:

检查原始数据中是否存在脏数据以及无法进行直接分析的数据,所述脏数据包括缺失值、异常值以及含有特殊字符的数据。利用单变量的散点图和箱形图对异常数据的判断。对于上述的脏数据和异常数据给予剔除。

进一步的,步骤s3中,根据随机森林算法建立成本和参数之间的拟合模型,并判断参数对成本的重要性,具体步骤如下:

s31、计算实时成本,对于实时成本的计算公式如下:

其中ap,cny/kwh,是电单价;bpd,cny/t,是低压蒸汽单价;bpg,cny/t,是高压蒸汽单价;fe,kwh,是抄纸部总功率;fsd,kwh,是低压水蒸汽的瞬时质量流量,fsg,t/h,是高压水蒸汽的瞬时质量流量,g,t/h,是产品每小时的产量。s32、随机森林算法的一般步骤如下:

(1)选择样本个数为n的样本集,m表示变量的数目。

(2)设置参数,决策树的数目m(m<m)。通过计算m取不同数值的均方根误差rmse,找到最优的决策树数目。随机选取最佳变量的数目为d1,d2,设置默认值d/3(d为特征量),同时决策树的节点至少包含5个样本。其中均方根误差rmse计算公式如下:

其中,xi为第i个特征数值,为样本均值,n为样本个数。

(3)从样本集中以可放回取样的方式取样n次,产生一个bootstarp的取样样本集合sn。

(4)在sn上训练一个决策树tj,聚合m棵决策树t1,t2,...,tm。

(5)棵决策树都最大可能地进行生长而不进行剪枝,对m棵决策树进行加总来预测新的数据。对于回归预测问题,输出结果为:

s33、计算某个特征x的重要性时,具体步骤如下:

(1)对每一颗决策树,选择相应的袋外数据(outofbag,oob)计算袋外数据误差,记为erroob1。所谓袋外数据是指,每次建立决策树时,通过重复抽样得到一个数据用于训练决策树,这时还有大约1/3的数据没有被利用,没有参与决策树的建立。这部分数据可以用于对决策树的性能进行评估,计算模型的预测错误率,称为袋外数据误差。

2)随机对袋外数据oob所有样本的特征x加入噪声干扰(可以随机改变样本在特征x处的值),再次计算袋外数据误差,记为erroob2。

3)假设森林中有n棵树,则特征x的重要性

进一步的,步骤s4中,以相关指数r2为指标确定调节的参数,具体如下:

根据步骤s3中获得参数重要性,并且由高到低进行排序,依次剔除重要性小的参数,再利用随机森林进行参数和成本的拟合,利用相关指数r2,对随机森林算法拟合效果进行判断。相关指数r2计算公式如下:

其中yi为真值,为拟合值,为样本均值,n为样本个数。

进一步的,步骤s5中,根据步骤s4中确定调节的工艺参数,从历史数据中确定参数的调节边界,具体如下:

车速和卷速是主要调节参数,其余参数控制在调节边界内进行寻优。随机选取一个小时,计算这一个小时内参数的变化率σ,变化率σ的计算公式如下:

其中xmax为这一个小时内参数的最大数值,xmax为这一小时内参数的最小数值。

取720个小时(对应30天)的变化率的均值σmean,以-σmean/2作为调节下限,+σmean/2作为调节上限。

进一步的,步骤s6中,在步骤s5中确定参数的调节边界内,在s2中建立的数据库中进行寻找成本最低时的参数值,作为参数调节的目标,具体如下:

根据步骤s6中确定的调节上、下限,从步骤s2中建立的参数数据库中以成本最低为目标进行寻找。成本最低时的参数,即为优化结果。

本发明方法基于历史生产数据组建成的数据库,建立生活用纸造纸机成本优化模型,模型简洁,并且泛化能力强,可以降低纸厂的生活成本。

附图说明

图1是本发明方法流程图;

图2是实施例随机森林算法选择的参数重要性结果。

具体实施方式

使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明的目的可以通过采取如下技术方案达到:

s1、确定生活用纸造纸机中可以调节的参数,采集数据:目标优化工艺参数在上浆浓度、车速、卷速、网笼真空度、托辊真空度、低压蒸汽流量、高压蒸汽流量、闪罐压力和烘缸压力中选取;

s2、对采集到的数据进行数据探索和数据预处理,组建成历史参数数据库;

s3、根据随机森林算法建立成本和参数之间的拟合模型,并判断参数对成本的重要性:步骤s1中确定看优化工艺参数和计算出来的实时成本利用随机森林算法进行拟合,并且判断参数的重要性;

s4、根据步骤s3建立的成本拟合模型,以相关指数r2为指标确定调节的参数:依次剔除重要性小的参数,再次判断拟合模型的评价指标相关指数,确定需要优化的工艺参数;

s5、根据步骤s4中确定调节的工艺参数,从历史数据中确定参数的调节边界;

s6、在步骤s5中确定参数的调节边界内,在s2中建立的数据库中进行寻找成本最低时的参数值,作为参数调节的目标。

2、步骤s1中,确定生活用纸造纸机中可以调节的参数,采集数据,组成数据库,具体步骤如下:

生活用纸造纸机目标优化工艺参数为上浆浓度、车速、卷速、网笼真空度、托辊真空度、低压蒸汽流量、高压蒸汽流量、闪罐压力和烘缸压力,然后利用mes系统采集的到纸机生产过程中的生产数据。

采集到的数据名称和单位如表1所示。

表1标签名称

3、步骤s2中,对采集到的数据进行数据探索和数据预处理,组建成历史参数数据库,具体步骤如下:

检查原始数据中是否存在脏数据以及无法进行直接分析的数据,所述脏数据包括缺失值、异常值以及含有特殊字符的数据。利用单变量的散点图和箱形图对异常数据的判断。对于上述的脏数据和异常数据给予剔除。

4、步骤s3中,根据随机森林算法建立成本和参数之间的拟合模型,并判断参数对成本的重要性,具体步骤如下:

s31、计算实时成本,对于实时成本的计算公式如下:

其中αp,cny/kwh,是电单价;bpd,cny/t,是低压蒸汽单价;bpg,cny/t,是高压蒸汽单价;fe,kwh,是抄纸部总功率;fsd,kwh,是低压水蒸汽的瞬时质量流量,fsg,t/h,是高压水蒸汽的瞬时质量流量,g,t/h,是产品每小时的产量。

s32、随机森林算法的一般步骤如下:

(1)选择样本个数为n的样本集,m表示变量的数目。

(2)设置参数,决策树的数目m(m<m)。通过计算m取不同数值的均方根误差rmse,找到最优的决策树数目。随机选取最佳变量的数目为d1,d2,设置默认值d/3(d为特征量),同时决策树的节点至少包含5个样本。其中均方根误差rmse计算公式如下:

其中,xi为第i个特征数值,为样本均值,n为样本个数。

(3)从样本集中以可放回取样的方式取样n次,产生一个bootstarp的取样样本集合sn。

(4)在sn上训练一个决策树tj,聚合m棵决策树t1,t2,…,tm。

(5)棵决策树都最大可能地进行生长而不进行剪枝,对m棵决策树进行加总来预测新的数据。对于回归预测问题,输出结果为:

结果如图2所示。

s33、计算某个特征x的重要性时,具体步骤如下:

(1)对每一颗决策树,选择相应的袋外数据(outofbag,oob)计算袋外数据误差,记为erroob1。所谓袋外数据是指,每次建立决策树时,通过重复抽样得到一个数据用于训练决策树,这时还有大约1/3的数据没有被利用,没有参与决策树的建立。这部分数据可以用于对决策树的性能进行评估,计算模型的预测错误率,称为袋外数据误差。

2)随机对袋外数据oob所有样本的特征x加入噪声干扰(可以随机改变样本在特征x处的值),再次计算袋外数据误差,记为erroob2。

3)假设森林中有n棵树,则特征x的重要性

随机森林算法得到的参数重要性如图1所示

5、步骤s4中,以相关指数r2为指标确定调节的参数,具体如下:

根据步骤s3中获得参数重要性,并且由高到低进行排序,依次剔除重要性小的参数,再利用随机森林进行参数和成本的拟合,利用相关指数r2,对随机森林算法拟合效果进行判断。相关指数r2计算公式如下:

其中yi为真值,为拟合值,为样本均值,n为样本个数。

参数与相关指数之间的关系如表2所示。

表2参数数目与相关指数之间的关系

6、步骤s5中,根据步骤s4中确定调节的工艺参数,从历史数据中确定参数的调节边界,具体如下:

车速和卷速是主要调节参数,其余参数控制在调节边界内进行寻优。调节边的制定具体步骤如下:随机选取一个小时,计算这一个小时内参数的变化率σ,变化率σ的计算公式如下:

其中xmax为这一个小时内参数的最大数值,xmax为这一小时内参数的最小数值。

取720个小时(对应30天)的变化率的均值σmean,以-σmean/2作为调节下限,+σmean/2作为调节上限。确定的变化率如表3所示。

表3参数的调节范围

7、步骤s6中,在步骤s5中确定参数的调节边界内,在s2中建立的数据库中进行寻找成本最低时的参数值,作为参数调节的目标,具体如下:

根据步骤s6中确定的调节上、下限,从步骤s2中建立的参数数据库中以成本最低为目标进行寻找。成本最低时的参数,即为优化结果。优化结果如表4所示:

表4优化结果

最后所应说明的是:以上实施例仅用以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应该理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1