一种基于产品生产履历和参数的不良根因定位方法与流程

文档序号:20769962发布日期:2020-05-15 19:33阅读:234来源:国知局
一种基于产品生产履历和参数的不良根因定位方法与流程

本发明涉及智能制造与人工智能技术领域,具体地,涉及一种基于产品生产履历和参数的不良根因定位方法。



背景技术:

在玻璃生产过程中,制程设备会自动留存玻璃制作过程中参数的实际状态值,对于相同工艺的大批量玻璃而言,制程设备的参数设定值保持一致,但不同程度的波动幅度可能会导致不良玻璃的产出。现有基于xgboost、logistic回归等回归方法综合分析多设备不良发生的前提假设条件是玻璃样本充分大、不良样本足够多且设备加工表现相对独立而在实际生产中这些假设条件几乎无法保证。实际生产中一个生产工艺流程分为不同的工艺段,如果在某号机台上加工出现问题,其后续机台的加工会连带受影响。比如在蚀刻设备上出现加工异常,产品表面某处出现瑕疵,后续的光刻设备会因此消耗更长时间。若直接使用回归模型,自变量的共线性问题可能会导致真正根因特征被忽略。另外,整个工艺涉及的全部设备参数一般至少5万,而涉及不良类别的样本数据量很难达到参数特征的数量级,传统方法难以有效在样本数据量不足的情况下找到真正的不良根因。



技术实现要素:

本发明提供了一种基于产品生产履历和参数的不良根因定位方法,目的是解决现有方法无法有效找到真正不良根因的技术问题。

为实现上述发明目的,本发明提供了一种基于产品生产履历和参数的不良根因定位方法,所述方法包括:

步骤1:读取指定时间段内的lot生产履历数据,统计不良lot样本的数量,形成第一辅助表;

步骤2:基于站点排序分析相同站点对应记录中各设备的不良lot样本是否存在聚集,若该站点下存在设备不良聚集,则仅保留站点聚集设备对应的记录行;若无聚集,则对此类站点剔除设备中仅含不良样本或者仅含良样本对应的记录行,形成第二辅助表;

步骤3:提取第二辅助表的设备参数数据形成第三辅助表;

步骤4:将第三辅助表中设备参数数据转换为机器学习能够直接分析的数据,形成第四辅助表;

步骤5:读取第四辅助表,依次读入与站点名_设备属性关联的属性数据列,删除相关属性值均为空的记录行,将处理后的数据作为待训练模型的输入属性数据x和记录对应的不良标记数据y,使用预设模型分析数据,输出属性特征的重要性评分,保留重要性评分大于0的属性特征,若无重要性评分大于0的属性特征,则记为无,模型输出结果记为第一分析表;

步骤6:读取第一分析表,进行第一轮过滤,遍历第一分析表每行中重要性评分大于0的属性特征所在列的记录,分析属性特征在良样本和不良样本条件下“分布尾部”重叠的程度,若重叠部分未超过预设要求,则保留该属性特征,若超过则剔除该属性特征,结果记为第二分析表;其中,分布尾部为考虑单边5%的尾部,对于属性值分布,存在水平值a和b(a<b),使得属性值大于b的分布概率0.05,小于a的分布概率0.05,落在小于a,或者大于b范围,属于该属性的5%尾部,不同属性的这种取值区域重叠即为尾部重叠。

步骤7:读取第二分析表,进行第二轮过滤,针对站点名_设备列,若某站点名出现次数大于阈值1,则查看第二分析表中该站点同类设备各设备记录结果是否存在相同的设备参数名,若存在,则仅保留该站点名对应的属性特征;否则剔除该站点对应的所有记录行,结果记为第三分析表;

步骤8:结合第三分析表中第二轮过滤后的属性特征列记录值筛选第四辅助表对应的属性特征列,组成输入属性数据,将属性特征列中有相同站点名的列相互覆盖缺失值后合并为一列,再去掉属性值均为空的记录行,记调整后的输入数据x’,对应记录的不良标记数据y’,使用预设模型分析数据,输出属性特征的重要性评分并以降序排序,记为结果表;

步骤9:基于结果表定位产品不良根因。

本方法将基于履历的设备与腔室聚集分析和参数波动分析结合,是一种人工经验对比分析方法抽象发展而来的大样本履历参数自动分析方法。本方法不仅极大改善了现有方法无法有效分析大样本履历参数数据的不足,同时保持了现有方法的快速高效和自动化特点,减轻了人工处理大量履历以及参数数据的负担,提高了不良根因定位效率,节约了生产成本。

优选的,所述步骤1具体包括:

分析产品生产履历,读取不良产生时间邻近时间段内的lot生产履历数据,保留数据中事件类型为trackin的记录并将其按站点和加工设备分组,统计不良lot样本的数量,形成第一辅助表。剔除第一辅助表中lot样本量字段值低于预设要求的记录。

其中,指定时间是与实际生产过程中不良产生时间关联,比如经分析不良发生在某月份,就提取该月份附近两月的数据作分析,才能有效找到根因;trackin是指lot样本投入某设备生产加工的时间,为了唯一并直接提取加工设备的履历,直接用trackin时间对应的记录数据就可以,其余记录数据或者是重复的或者是其他对分析无用的加工事件数据;统计不良样本量是一方面是看设备加工的样本是否满足统计要求,另外看设备不良聚集性。

优选的,第一辅助表中含字段:站点id、设备id和lot样本量;剔除第一辅助表中lot样本量字段值低于最大记录值预设比例的记录。

优选的,所述基于站点排序,分析相同站点对应记录中各设备的不良lot样本是否存在聚集,具体为:若相同站点下某设备对应的lot样本量记录值超过同站点下lot样本量总和的预设比例,则判断该站点下存在设备不良聚集,否则判断该站点下设备无聚集。

优选的,所述步骤3具体包括:

逐行读取第二辅助表,根据第二辅助表的站点设备记录值提取对应设备的参数数据,保留lotid、玻璃样本id、特征名以及特征值,形成第三辅助表。

优选的,特征名由站点、设备、参数名以下划线连接而成,特征值为设备参数实际值。

优选的,所述步骤4具体包括:

读取第三辅助表,以玻璃样本id为主键关联样本的不良或者良标记,以第三辅助表中特征名的值作为第四辅助表的属性列名,对应特征值为第四辅助表的属性值,第四辅助表的每个记录行对应一个玻璃样本的不良标记和属性值。

优选的,所述步骤6中分析属性特征在良样本和不良样本条件下“分布尾部”重叠的程度,若重叠部分均未超过各自分布的预设比例,则保留该属性特征,否则剔除该属性特征。第二分析表中第一列为:站点名_设备,第二列为:属性特征。其中,各自分布为按属性值取值区域等分10等分,统计落在等分区间内的频率分布。

优选的,第三分析表第一列为:站点名_设备,第二列为:第二轮过滤后的属性特征。

优选的,所述预设模型为xgboost模型。

本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:

一般而言,生产履历与设备参数数据数据量大、有效信息分散、流程复杂,传统的分析排查方式效率很低。本方法可以实现自动化搜索匹配,罗列出最可疑的根因,并将识别不良的重要性程度评分按照设备参数差异降序排序,辅助技术人员以最快的速度定位到尽可能多的根因。

本方法保持了现有方法快速高效和自动化特点,同时极大改善了现有方法无法有效分析大样本履历参数数据的不足,减轻了人工处理大量履历以及参数数据的负担,提高了不良根因定位效率,节约了生产成本。此外,本方法的分析过程更契合技术人员传统的业务分析思路,分析结果具有很强的业务解释性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;

图1是本发明中从产品生产履历及参数中定位不良根因的方法流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。

请参考图1,图1为一种基于产品生产履历和参数的不良根因定位方法的分析流程图,本发明提出了一种基于产品生产履历和参数的不良根因定位方法,本方法基于聚类和分类决策树的思想和工艺段分析,最大可能地减小了数据维灾和特征共线性问题的影响,抓住显著特征,突出不良根因。具体实施步骤如下:

step1:

生产履历分析,读取不良产生时间邻近时间段内的lot生产履历(lot指代一定数量玻璃的产品包)数据,仅保留事件类型为trackin(投产)的记录并按站点和加工设备分组,统计不良lot样本的数量,形成辅助表1(含字段:站点id、设备id和lot样本量),剔除表中lot样本量字段值低于最大记录值30%的记录。

step2:

分析辅助表1,按站点排序分析相同站点对应记录中各设备的不良lot样本是否存在聚集,若相同站点下某设备的lot样本量记录值超过同站点下lot样本量总和的70%,则该站点下存在设备不良聚集,仅保留站点聚集设备对应的记录行;否则无聚集。对无聚集的设备,剔除设备中仅含不良或者仅含良样本(按站点和设备分组统计)对应的记录行。形成辅助表2。

step3:

逐行读取辅助表2,根据表中的站点设备记录值提取设备参数数据,保留lotid、玻璃样本id、特征名(由站点、设备、参数名以下划线连接而成)以及特征值(即设备参数实际值),形成辅助表3。

step4:

将设备参数数据转换为机器学习可直接分析的数据。读取辅助表3,以玻璃样本id为主键关联样本的不良(或者良)标记,以辅助表3特征名的值作为新表的属性列名,对应特征值为新表属性值,新表的每行记录对应一个玻璃样本的不良标记和属性值,形成辅助表4。

step5:

参数数据分析,读入辅助表4,按属性名称中的“站点名_设备”区分(例如属性名称14300_a2pht530_scr_ac中的14300_a2pht5),依次读入与站点名_设备关联的属性数据列并去掉相关属性值均为空的记录行,将处理后的数据作为待训练模型的输入属性数据x及记录对应的不良标记数据y,使用xgboost模型分析数据,输出属性特征的重要性评分并保留重要性评分大于0的属性特征,若无重要性评分大于0的属性特征,则记为无,结果记为分析表1(表第一列:站点名_设备,第二列:重要性评分大于0的属性特征)。

step6:

第一轮过滤分析。读入分析表1,遍历每行“重要性评分大于0的属性特征”列的记录,分析属性特征在良样本和不良样本条件下“分布尾部”重叠的程度,若重叠部分均未超过各自分布的5%,则保留该属性特征,否则剔除,结果记为分析表2(表第一列:站点名_设备,第二列:第一轮过滤后的属性特征)。

step7:

第二轮过滤分析。读入分析表2,观测站点名_设备列,若某站点名多次出现,则查看表中相同站点名的“第一轮过滤后的属性特征”列的记录结果是否存在相同的参数名(比如属性名称14300_a2pht530_scr_ac中的scr_ac为参数名),若存在,则仅保留对应的属性特征,否则剔除分析表2中该站点对应的所有记录行,结果记为分析表3(表第一列:站点名_设备,第二列:第二轮过滤后的属性特征)。

step8:

可疑属性特征的联合分析。结合分析表3中“第二轮过滤后的属性特征”列记录值,筛选辅助表4中对应的属性特征列,组成输入属性数据,将属性特征列中有相同站点名的列相互覆盖缺失值后合并为一列,再删除属性均为空的记录行,记调整后的输入数据x’,对应记录的不良标记数据y’,使用xgboost模型分析数据,输出属性特征的重要性评分并以降序排序,记为结果表。

step9:

依次查看结果表,越靠前的越可疑,实现不良根因定位。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1