专利名称:聚类系统及缺陷种类判定装置的制作方法
技术领域:
本发明涉及将检测对象物的图像中的缺陷部分的部分图像取出、从该 部分图像中提取缺陷的特征信号、并对缺陷的类别进行分类的聚类系统、 和缺陷种类判定装置。
背景技术:
以往普遍地施行利用未知数据和学习数据的距离、例如马氏
(Mahalanobis generalized distance)距离的聚类方法。即,通过判定未知数据 是否属于作为事先已学习的群体(population)的类别来分类,进行聚类处理。 例如,根据对多个类别的马氏距离的大小,对未知数据属于哪一个群体的 类别进行判定(例如参照专利文献1)。
另外,为有效计算上述的距离,选择多个特征量进行聚类处理。 另外,利用由多个识别器(classifier)得到的结果的投票、对该未知数据 归属的类别进行判定的方法也较为普遍,使用不同传感器的输出的识别结 果、或对于一个图像上不同区域的未知数据的识别中的识别结果等(例如参 照专利文献2)。
利用上述聚类方法,在根据血液检査的结果所得到的参数的疾病诊断、 即属于哪一种疾病的聚类中,具有如下方法,即,设定在多个类别中各以2 个类别为一组合,对所有组合的每个该组合,进行被检测数据类似于哪一 种类别的判定,根据该判定个数的统计结果,来决定将其分类成被判定的 个数较多的类别(例如专利文献3)。
将LCD玻璃基板上带有的各缺陷、按照预先设定的每个缺陷种类进行 分类时,进行如下聚类,即,与分类时的识别相对应,对分类中使用的各 特征量进行优化,并对各特征量分别进行加权,使得与该优化对应,并使 用该优化后的特征量,对属于哪一种类别进行判定(例如专利文献4)。专利文献1:特开2005 — 214682号公报 专利文献2:特开2001 — 56861号公报 专利文献3:特开平07—105166号公报 专利文献4:特开2002 — 99916号公报
但是,专利文献3所示的聚类中,未对每个组合进行优化,未有效利 用成为判别材料的特征量,且如果应判别的类别变多时,则组合数庞大, 会有判定处理所需时间增大的问题。
另外,专利文献4所示的聚类中,虽然想要根据判定率,对特征量加 权来提高判别精度,但没有对每个类别的特征量进行优化的概念,与上述 的专利文献3同样,由于未有效利用特征量,因此存在无法进行高精度的 分类的缺点。
发明内容
本发明是鉴于这样的情况而完成的,在判别时有效利用从分类成所属 的类别的对象即分类对象数据中提取的特征量,与现有例相比,提供能够 以更高速度、更高精度对分类对象数据进行分类的、例如能够将玻璃表面 带有的缺陷分类成与缺陷种类对应的类别的聚类系统、和缺陷种类判定装置。
为解决上述问题,与利用同一种类的特征量算出分类对象数据、和与 各分类之间的距离来决定分类目标的现有例不同,本发明中,由于对每个 类别设定能在各类别间得到差分的特征量的集合,并利用不同的特征量求 出与各自的类别之间的距离,因此与以往相比可进行精度更高的分类。
上述的特征量的集合由于是根据属于各类别的学习数据施行的,因此 由可与其它类别区别的特征量构成。
艮P,本发明采用以下构成。
本发明的聚类系统,利用输入数据(i叩utdata)所具有的特征量 (parameter)、将该输入数据分类成由学习数据(learning data)的群体所形成的 各类别,其中,包含特征量集合存储部,该特征量集合存储部存储与各 类别对应的、分类中使用的作为特征量组合的特征量集合(parameterset);
6特征量提取部,该特征量提取部从输入数据中提取预先设定的特征量;距 离计算部,该距离计算部对每个与各类别对应的特征量集合、根据该特征 量集合中包含的特征量来分别计算并输出各类别的群体的中心和所述输入 数据之间的距离作为集合距离;及位次提取部,该位次提取部将所述各集 合距离以从小到大的顺序排列。
本发明优选的聚类系统,对每个类别设定多个所述特征量集合。 本发明优选的聚类系统,还具有类别分类部,该类别分类部在每个特 征量集合所得到的所述集合距离中,利用根据该集合距离的位次所设定的 表示对输入数据的各类别的分类基准的规则模式来检测所述输入数据属于 哪一类别。
本发明优选的聚类系统,所述类别分类部利用所述集合距离的位次来 检测所述输入数据属于哪一类别,检测出该位次在前的集合距离较多的类 别作为所述输入数据所属的类别。
本发明优选的聚类系统,所述类别分类部具有对于位次在前的个数的 阈值,在前的类别在该阈值以上时,检测作为输入数据所属的类别。
本发明优选的聚类系统,所述距离计算部对所述集合距离乘以对应于 特征量集合所设定的校正系数,并将各特征量集合间的集合距离标准化。
本发明优选的聚类系统,还具有生成每个类别的特征量集合的特征量 集合生成部,所述特征量集合生成部对各特征量的多个组合的每个组合, 以各类别的群体的学习数据的平均值为原点,求出该原点与其它类别的群 体的各学习数据之间的距离的平均值,选择平均值最大的特征量的组合, 作为用于识别各类别与其它类别的特征量集合。
本发明的缺陷种类判定装置,设置有上述记载的聚类系统中的任一个, 所述输入数据是产品缺陷的图像数据,利用表示缺陷的特征量,将图像数 据中的缺陷按缺陷的种类来分类。
本发明优选的缺陷种类判定装置,所述产品是玻璃物品,将该玻璃物 品的缺陷按缺陷的种类来分类。
本发明的缺陷检测装置,设置有上述缺陷种类判定装置来检测产品缺 陷的种类。
7本发明的生产状态判定装置,设置有上述记载的缺陷种类判定装置来 对产品的缺陷进行分类,根据与对应于该种类的发生原因的对应来检测生 产过程中的缺陷的发生原因。
本发明优选的生产状态判定装置,设置有上述记载的聚类系统中的任 一个,所述输入数据是表示产品生产过程中的生产条件的特征量,将该特 征量按生产过程的各工序中的生产状态来分类。
本发明优选的生产状态判定装置,所述产品是玻璃物品,将该玻璃物 品的生产过程中的特征量按生产过程的各工序中的生产状态来分类。
本发明的生产状态检测装置,设置有上述记载的生产状态判定装置来 对产品生产过程的各工序中的生产状态的种类进行检测。
本发明的生产状态检测装置,设置有上述记载的生产状态判定装置来 对产品生产过程的各工序中的生产状态的种类进行检测,并根据对应于该 种类的控制项目来进行生产过程的工序中的过程控制。
如以上说明那样,根据本发明,由于对每个分类目标的类别,由分类 对象数据具有的多个特征量,预先设定与其它类别距离远的最佳的特征量 的组合,分别计算分类对象数据与各类别之间的距离,并将分类对象数据 分类成该计算得到的距离最小的类别,因此与现有的方法相比,能够更准 确地将分类对象数据分类成对应的类别。
另外,根据本发明,由于对每个类别设定多个上述组合,将全部类别 与分类对象数据的距离的计算结果以从小到大的顺序排列,并将分类对象 数据分类成预先设定的数的之前的组中包含的个数最多的类别,因此与以 往相比能够进行高精度的分类。
图l是表示本发明的第l及第2实施方式的聚类系统的构成例的方框图。
图2是说明对于根据判别基准值X来选择特征集合的处理的列表。 图3是说明对于根据判别基准值X来选择特征集合的处理的列表。 图4是说明对于根据判别基准值X来选择特征集合的效果的直方图。图5是表示第1实施方式的对各类别选择特征量集合的处理中的动作 例的流程图。
图6是表示第1实施方式的对分类对象数据的聚类处理中的动作例的 流程图。
图7是表示第2实施方式中的生成聚类处理中使用的规则模式的列表 的动作例的流程图。
图8是表示第2实施方式的对分类对象数据的聚类处理中的动作例的
流程图。
图9是表示第2实施方式的对分类对象数据的其它聚类处理中的动作 例的流程图。
图10是表示第3实施方式的对分类对象数据的聚类处理中的动作例的 流程图。
图11是表示设定作为特征量的变换方法的运算式的动作例的流程图。 图12是表示算出图11的流程图中的评价值的动作例的流程图。 图13是表示使用由所设定的变换方法变换后的特征量来算出距离的动 作例的流程图。
图14是表示属于各类别的学习数据的列表。
图15是表示利用现有例的聚类方法将图14的学习数据分类后的结果 的结果列表。
图16是说明算出整体校正判定率的方法的概念图。 图17是表示利用第1实施方式中的聚类系统将图14的学习数据分类 后的结果的结果列表。
图18是表示利用第2实施方式中的聚类系统将图14的学习数据分类
后的结果的结果列表。
图19是表示利用第2实施方式中的聚类系统将图14的学习数据分类
后的结果的结果列表。
图20是表示使用了本发明的聚类系统的检査装置的构成例的方框图。 图21是表示图20的检査装置中的选择特征量集合的动作例的流程图。 图22是表示图20的检查装置中的聚类处理的动作例的流程图。图23是表示使用了本发明的聚类系统的缺陷种类判定装置的构成例的 方框图。
图24是表示使用了本发明的聚类系统的生产管理装置的构成例的方框图。
图25是表示使用了本发明的聚类系统的其它生产管理装置的构成例的
方框图。 标号说明
1…特征量集合生成部
2…特征量提取部
3…距离计算部
4…特征量集合存储部
5…类别数据库
100…被检查物
101…图像取得部
102…照明装置
103…摄像装置
104…缺陷候补检测部
105…聚类部
200、 300…控制装置
201、 202…图像取得装置 301、 302…生产装置 303…通知部 304…存储部
具体实施例方式
本发明的聚类系统涉及一种利用分类对象的输入数据具有的特征量、 将该输入数据分类成将学习数据作为群体而形成的各类别的聚类系统,具 有与所述各类别相对应、存储有分类中使用的作为特征量组合的特征量集 合的特征量集合存储部,特征量提取部根据预先设定的该特征量集合,从
10所述输入数据中提取特征量,距离计算部对每个与各类别对应的特征量集 合、根据该特征量集合中包含的特征量来分别计算与群体及所述输入数据 的距离作为集合距离,位次提取部将各集合距离以从小到大的顺序排列, 并对应于排列顺序进行对类别的分类。 <第1实施方式>
下面,参照
本发明的第1实施方式的聚类系统。图l是表示 该实施方式的聚类系统的构成例的方框图。
本实施方式的聚类系统如图1所示,具有特征量集合生成部1、特征量
提取部2、距离计算部3、特征量集合存储部4、及类别数据库5。
特征量集合存储部4中与各类别的识别信息相对应、存储对每个类别 分别设定的表示分类对象数据的特征量的组合的特征量集合。例如,在分 类对象数据为特征量的集合(a, b, c, d)时,将各类别的特征量集合设定 作为[a, b]、 [a, b, c, d]、 [c]等种类的特征量的组合。在以下的说明中, 从所述特征量的集合中将所有特征量的组合、或多个(所述例中,集合中的 任意2个、3个特征量)的组合中的任一种定义为「特征量的组合」。
这里,在将类别A、 B及C设定作为分类目标的类别时,与各类别对 应的特征量集合是使用预先分类成各类别的学习数据、作为各类别与其它 类别的距离最大的特征量的组合来求出,并存储在特征量集合存储部4。
例如,将对于类别A设定的特征量集合设定作为由属于类别A的学习 数据的各特征量的平均值组成的矢量、和由属于其它的类别B及类别C的 学习数据的各特征量的平均值组成的矢量的距离成为最大的特征量的组
合o
另外,分类对象数据和各类别中的群体的学习数据由同一特征量的集 合来构成。
特征量提取部2在由输入的分类对象数据计算与各类别的距离时,从 特征量集合存储部4中读出与成为计算对象的类别对应的特征量集合,并 从分类对象数据的多个特征量中提取与该特征量集合对应的特征量,将提
取后的特征量输出到距离计算部3。
距离计算部3将计算对象的类别的识别信息作为关键词,从类别数据库5中读出由成为计算对象的类别的学习数据的各特征值的平均值组成的 矢量,根据该类别的特征量集合,算出由分类对象数据提取的特征量组成 的矢量、和由学习数据的各特征量的平均值组成的矢量(表示类别中的多个 学习数据的重心位置的重心矢量)的距离。
在进行所述距离的计算时,距离计算部3为了使特征量间的数据单位 无差异,而将特征量间的数据标准化,利用下面的式(l),对分类对象数据 中的每个特征量V(i)进行归一化。
V G) — (v (i) - avg. (i)) /std. (i) …(1)
这里,v(i)是特征量,avg.(i)是计算对象的类别内的学习数据中的特征 量的平均值,std.(i)是计算对象的类别内的学习数据中的特征量的标准偏差 (standardized deviation), V(i)是归一化后的特征量。因而,计算距离时,距 离计算部3需要对每个特征量集合进行各特征量的归一化。
另外,距离计算部3对用于分类对象数据中的距离计算的每个特征量, 使用学习数据分别对应的特征量的平均值及标准偏差进行所述归一化处 理。
另外,作为距离,也可采用使用上述的标准化后的特征量的标准化欧 氏距离(standardized Euclidean distance)、马氏距离、明氏距离(Minkowsky distance)等的任一个量。
这里,在使用马氏距离时,利用下面的式(2)求出马氏平方距离 (Mahalanobis square distance)MHD。
MHD= (1/n) *(\%—V) …(2)
上述式(2)中的矩阵V中的各要素V(i)是对未知数据的多维的特征量 v(i)、利用该类别内的学习数据的特征量的平均值avg.(i)和标准偏差std.(i) 由上述的式(l)求出的特征量。n是自由度,表示本实施方式的特征量集合(后 述)中的特征量的个数即特征量数。由此,马氏平方距离是将n个变换后的 特征量的差分相加后的数值,利用(马氏平方距离)/n,则群体平均的单位距 离变为1。另外,vT是以特征量v(i)为要素的矩阵V的转置矩阵,R一是类 别内的学习数据中的各特征量间的相关矩阵(correlation matrix)R的逆矩阵。
特征量集合生成部1对每个类别算出所述距离计算部3在计算分类对象数据和各类别之间的距离时使用的特征量集合,将算出结果对应于各类 别的识别信息,写入特征量集合存储部4并存储。
在算出特征量集合时,特征量集合生成部1对每个类别,根据属于生
成特征量集合的对象类别的学习数据的重心矢量(barycentricvector)、和属 于该对象类别以外的其它所有类别的学习数据的重心矢量的距离,利用下 面的式(3)计算判别基准(discriminantcriterion)的值人。下面,将特征量的组 合作为特征量集合进行说明。
X = o> ,. (^ - ^〗(①cr tf 0> a ,》 …(3)
上述式(3)中,w是由「属于对象类别的学习数据(类别内群体)」的特征
量集合中的特征量的平均值组成的重心矢量。CTi是根据属于该类别内群体 的学习数据的特征量的矢量的标准偏差。COi是属于类别内群体的学习数据
对属于所有类别的学习数据的个数的比例。另外,H。是由「属于对象类别 以外的类别的学习数据(对象类别外群体)」的特征量集合中的特征量的平均
值组成的重心矢量。CJ。是根据属于该对象类别外群体的学习数据的特征量
的矢量的标准偏差。co。是属于所有类别的学习数据中的属于类别外群体的 学习数据的个数的比例。这里,式(3)中的(^i。一)Lii)也可使用取log(对数)及平 方根后的数值。另外,这里在计算各矢量时,特征量集合生成部l利用式 (l)计算每个特征量归一化后的特征量来使用。另外,也也可设定固有值作 为预先对比例叫及co。进行运算后的、相差较大的数值。
然后,特征量集合生成部l对每个对象类别使用上述式(3),对于构成 学习数据的特征量的任一个或全部的组合,计算与其它类别的所述判别基 准值X,并将计算后的判别基准值X以从大到小的顺序排列,输出判别基准 值X的顺序表。
这里,特征值集合生成部l将与最大的判别基准值人对应的特征量的 组合作为对象类别的特征量集合,与判别基准值人一起对应于类别的识别 信息,存储到特征量集合存储部4。
上述的判别基准值X的决定如图2 (a)所示,当特征量集合生成部l 进行各类别的特征量集合的设定时,在学习数据及分类对象数据的特征量 为a, b, c, d的4个量的情况下,计算该4个特征量的全部、多个、及任一个的全部组合中的所有判别基准值X。
然后,特征量集合生成部1选择最高的数值、例如图2(a)中特征量b, C的组合。
另外,作为其它的判别基准值X的方法,如图2(b)所示的BSS法,即 对使用分类对象数据的集合中包含的全部n个特征量的判别基准值人进行 运算,接着对从n个特征量的集合中取出n—l个的全部组合运算判别基准 值X。然后,从该n—l个的判别基准值X中选择最大值的组合,这次,对 从该n— 1个特征量中选择的n — 2个的全部组合运算判别基准值X。这样, 也可构成特征量集合生成部1,使得依次地从集合中各减少1个特征量,从 减少后的特征量的集合中,选择再减少1个后的组合并运算判别基准值X, 来选择能够以较少的特征量数进行判别的组合。
另外,作为另一种判别基准值X的方法,如图2(c)所示的FSS法,即 从分类对象数据的集合中包含的n个特征量中1个个读出特征量的全部种 类,运算各特征量的判别基准值人,从中选择具有最大的判别基准值的特征 量。接着,生成由该特征量和除它以外的特征量的2个特征量组成的组合, 计算对各自的组合的判别基准值X。然后,从该组合中选择具有最大的判别 基准值的组合。接着,生成由该组合、和该组合中不包含的特征量的3个 特征量组成的组合,并生成各自的判别基准值X。这样,也可构成特征量集 合生成部l,使得依次地从紧接之前的特征量的组合中选择具有最大的判别 基准值X的特征量,对组合的特征量的组合增加l个该组合中不存在的特 征量,计算增加后的组合的特征量的判别基准值X,从该组合中选择具有最 大的判别基准值X的组合,对再增加l个该组合中不存在的特征量后的特 征量的组合的判别基准值入进行运算,最终从计算判别基准值^后的全部 的组合中,选择判别基准值X成为最大的组合作为特征量集合。
接着,利用图3及图4示出根据判别基准值入、来选择聚类中使用的特 征量集合的有效性。
图3中说明从特征量a, b, c, d, e中提取特征量a及g的组合、特 征量a及h的组合、和特征量d及e的组合,作为选择特征量集合的组合, 由这些组合在类别1、类别2及3中,特征量集合的选择与现有例相比具有
14高分类特性。
图3中,pl对应于所述Hi, n2对应于所述p。, al对应于所述cji,
对应于所述(T。, C0l对应于所述C0i, C02对应于所述O)。。
其中,在所述组合中,判别基准值X的值最大的是特征量a及h的组 合,将该组合用于分离类别1和除它以外的类别,利用图4确认类别1和 除它以外的类别(类别2及3)的分类结果。
图4中,横轴表示使用特征量的组合来运算后的马氏距离取log的数值, 纵轴表示具有对应的数值的分离对象数据的个数(直方图)。这里,横轴的数 值1.4表示马氏距离取log的数值为1.4未满且1.2以上(1.4的左侧的数值)。 其它横轴上的数值也是同样的。另外,图4中1.4《表示1.4以上。图4的 马氏距离是使用与类别1对应的特征量集合、对属于类别1及除它以外的 类别的分类对象数据分别计算得到的。
图4(a)是使用特征量a及g的组合来运算马氏距离的例子,图4(b)是使 用特征量a及h的组合来运算马氏距离的例子,图4(c)是使用特征量d及e 的组合来运算马氏距离的例子。
观察图4中的直方图可知,判别基准值X的数值较大时,可较好地进 行类别1和其它类别的分类。
接着,参照图5及图6,说明图1的第1实施方式的聚类系统的动作。 图5是表示第1实施方式的聚类系统的特征量集合生成部1的动作例的流 程图,图6是表示分类对象数据的聚类的动作例的流程图。
在以下的说明中,例如分类对象数据是玻璃物品带有的伤痕的特征量 的集合时,假设从图像处理或测定结果得到「a:伤痕(scratch)的长度」、
「b:伤痕的面积」、「C:伤痕的宽度」、「d:包含伤痕部分的预定区域 的透射率」、和「e:包含伤痕部分的预定区域的反射率」等作为该特征量。 因而,作为特征量的集合(以下称为特征量集合)成为(a, b, c, d, e}。另 外,本实施方式中,将聚类中使用的距离作为使用标准化后的特征量的马 氏距离来算出。这里,本实施方式中的上述玻璃物品作为一个例子,例如
为平板玻璃或显示器用玻璃基板。
A.特征量集合生成处理(对应图5的流程图)
15用户检测玻璃上带有的伤痕,拍摄该图像得到图像数据,并且利用图 像处理从该图像数据中对伤痕部分的长度进行测定等对特征量进行提取, 采集由所述特征量的集合组成的特征量数据。然后,用户对于伤痕的产生 原因或形状等想要进行分类的各类别,根据预先判定的产生原因或形状等 信息,将特征量数据作为学习数据进行分配,作为各类别的学习数据的群 体,从未图示的处理终端对应于类别的识别信息,存储到类别数据库5(步 骤Sl)。
接着,从所述处理终端输入生成对于各类别的特征量集合的控制命令 时,特征量集合生成部1从类别数据库5对应于各类别的识别信息,读入 学习数据的群体。
然后,特征量集合生成部1对每个类别算出类别内群体中的各特征量 的平均值及标准偏差,使用该平均值及标准偏差,由式(l)算出各学习数据 中的标准化后的特征量。
接着,特征量集合生成部l对特征量集合中包含的特征量的全部组合 的每个特征量集合,利用式(3)算出判别基准值X。
此时,特征量集合生成部l对每个类别,使用类别内群体的标准化后 的特征量,算出由与各特征量集合对应的特征量组成的矢量的平均值(重 心矢量)A;和由与类别内群体中的特征量集合对应的特征量组成的学习数 据的矢量的标准偏差Oi,及使用类别外群体的标准化后的特征量,算出
由与各特征量集合对应的特征量组成的矢量的平均值(重心矢量)li。;由与
类别外群体中的特征量集合对应的特征量组成的学习数据的矢量的标准偏
差CJ。;全部学习数据个数中的类别内群体的学习数据个数的比例COi;和全
部学习数据个数中的类别外群体的学习数据个数的比例co。。
然后,特征量集合生成部1使用所述重心矢量A、 p。;标准偏差CJi、 (J。; 和比例coj、 co。,利用式(3)对每个类别,对于特征量集合的全部组合的特征
量集合,算出对每个类别判别和其它类别的距离的判别基准值x。
所有的判别基准值X的计算结束时,特征量集合生成部1对每个类别
将判别基准值x以从大到小的顺序排列,检测出与最大判别基准值x对应 的特征量集合,作为判定对各类别的所属时、表示距离计算中使用的特征接着,特征量集合生成部1为了在距离计算部3的距离计算中使用, 算出与各特征量集合对应的特征量间的相关系数R;和各类别内群体中
的学习数据的特征量的平均值avg.(i)及标准偏差std.(i)(步骤S3)。
接着,特征量集合生成部1从所述判别基准值^算出校正系数^一(1/2)。 该校正系数 ^(1/2)是取得各特征量集合间的标准化的系数。由于根据类别不 同,与其它类别之间的距离会有偏差,因此为提高分类精度,需要进行特
征量集合间的标准化。另外,作为校正系数也可不是^一(1/2),而是log(人),
或单纯地使用0i。一m),只要是包含x的函数且能进行特征量集合间的标准
化即可。
另外,在上述式(3)中,算出对象类别外群体的特征量集合中的重心矢
量p。时,作为对象类别外群体中的学习数据,是选择以下的三种的任一种 来算出。
a. 全部学习数据中的对象类别外群体的全部学习数据
b. 上述对象类别外群体中的与分类的目的对应的特定的学习数据
c. 特征量的选择中使用的学习数据中的对象类别外群体的学习数据 这里,b.的分类的目的是在于与关注的类别明确地附予不同来区别,作
为学习数据是使用想附予不同的其它类别中包含的学习数据。
然后,特征量集合生成部1对应于各类别的每个识别信息,将特征量
集合;与特征量集合对应的校正系数、本实施方式中为X—(1/2)的值;逆矩阵
R一、平均值avg.(i);标准偏差std.(i),作为距离计算数据存储到特征量集
合存储部4(步骤S4)。
B.聚类处理(对应图6的流程图)
分类对象数据被输入时,特征量提取部2利用各类别的识别信号,从 特征量集合存储部4中读出与每个类别对应的特征量集合。
然后,特征量提取部2对应于读出的特征量集合中的特征量的种类, 从分类对象数据中对每个类别提取特征量,并分别对应于类别的识别信息, 将提取的特征量存储到内部存储部(步骤Sll)。
接着,距离计算部3从特征量集合存储部4读出与从分类对象数据中提取的各特征量对应的平均值avg.(i)和标准偏差std.(i),通过进行所述式(2)
的运算将各特征量归一化,并将存储在内部存储部的特征量替换成标准化 后的特征量。
然后,距离计算部3生成由上述那样得到的V(i)的要素组成的矩阵V, 计算该矩阵V的转置矩阵VT,利用式(3),依次地计算分类对象数据和各类 别之间的马氏距离,并对应于各类别的识别信息,存储到内部存储部(步骤
512) 。
接着,距离计算部3对于计算结果的所述马氏距离,乘以与特征量集 合对应的校正系数 1一(1/2),求出校正距离,并分别与马氏距离替换(步骤
513) 。另夕卜,乘以校正系数时,也可在计算马氏距离的log或平方根后相乘。 然后,距离计算部3比较内部存储部中的与各类别间的校正距离(步骤
514) ,检测最小的校正距离,将与该校正距离对应的识别信息的类别作为 分类对象数据所属的类别,对应于分类目标的类别的识别信息,对类别数 据库5,存储分类后的分类对象数据(步骤S15)。
<第2实施方式〉
上述的第1实施方式说明了将进行聚类时使用的特征量集合对每个类 别作为l种的情况,而也可如下面说明的第2实施方式那样,对每个类别 设定多个特征量集合,运算与各自的特征量集合对应的马氏距离,算出校 正距离,将该校正距离以从小到大的顺序重新排列,利用在前的预定的位 次以内的校正距离,根据预先设定的规则,来设定分类对象数据所属的类 别。
艮P,本实施方式中的距离计算部3在对每个特征量集合得到的分类对 象数据和各类别的距离中,利用根据该距离的位次而设定的表示分类对象 数据对各类别的分类基准的规则模式,来检测分类对象数据是属于哪一个 类别。
以下,第2实施方式的构成与图l所示的第1实施方式相同,对各构 成附注同一标号,只对各构成中与第1实施方式不同的动作使用图7进行 说明。在第2实施方式中,具有由学习数据设定上述规则模式的处理。图7 是表示设定规则模式的对距离的位次的模式学习的动作例的流程图。图8及图9是表示第2实施方式中的聚类的动作例的流程图。
另外,第l实施方式中,生成特征量集合时,特征量集合生成部l对 每个类别,对于作为特征量的组合的多个特征量集合算出判别基准值X,设 定与多个求出的判别基准值X的最大值对应的特征量集合,作为各类别的 特征量集合。
另一方面,第2实施方式中,特征量集合生成部1对每个类别,对于 其它类别的l个或多个的组合或者其它全部类别,分别设定与特征量的组 合数对应的特征量集合的最大值,通过这样求出多个判别基准值X,对每个 类别设定用于与其它类别分离的多个特征量集合。
然后,特征量集合生成部1对每个特征量集合求出距离计算数据,对 应于类别的识别信息,将多个特征量集合、和各特征量集合的距离计算数
据存储到特征量集合存储部4。
然后,在图7中,学习数据被输入时,特征量提取部2利用各类别的 识别信号,从特征量集合存储部4中读出与每个类别对应的多个特征量集合。
然后,特征量提取部2对应于读出的各特征量集合中的特征量的种类, 从学习数据中对每个类别提取特征量,并分别对应于类别的识别信息,将 提取的特征量对每个特征量集合存储到内部存储部(步骤S21)。
接着,距离计算部3从特征量集合存储部4对每个特征量集合读出与 从学习数据中提取的各特征量对应的平均值avg.(i)和标准偏差std.(i),通过 进行所述式(2)的运算将各特征量归一化,并将存储在内部存储部的特征量 替换成标准化后的特征量。
然后,距离计算部3生成由上述那样得到的V(i)的要素组成的矩阵V, 计算该矩阵V的转置矩阵VT,利用式(3),依次地计算学习数据和各类别之 间的马氏距离,并对应于各类别的识别信息,对每个特征量集合存储到内 部存储部(步骤S22)。
接着,距离计算部3对于计算结果的所述马氏距离,乘以与特征量集 合对应的校正系数人一(1/2),求出校正距离,并分别与马氏距离替换(步骤 S23)。
19然后,距离计算部3将内部存储部中的与各类别间的校正距离以从小 到大的顺序重新排列(重新排列成将越小的校正距离排在越前面的位次),即 以与分类对象数据的校正距离小的类别的识别信息在前的顺序进行排列 (步骤S24)。
接着,距离计算部3检测出与从小的一方(前面)开始到第n位的各校正 距离对应的类别的识别信息,并对该n个中包含的每个类别的识别信息的 个数进行计数,即对各类别进行投票处理。
然后,距离计算部3检测出各学习数据的各类别的识别信息的计数的 模式、与同一类别中包含的学习数据共同的规则模式。
例如,设n为10时,在类别B的学习数据的情况下,若检测出类别A 为5个、类别B为3个、类别C为2个的计数的模式,则将此作为规则Rl。
另外,在类别C的学习数据的情况下,若检测出3个类别C,则即使 类别A为7个,类别B为O个,也一定是类别C,若这样的情况是共同的 话,则如果类别C的计数为3以上,那么与其它类别的计数无关取类别C, 将此作为规则R2。
另外,在类别A的学习数据的情况下,在类别A占据前面第l位及第 2位的排列的模式时,即使类别B的计数为8个,也与其它类别的计数无 关取类别A,将此作为规则R3。
如上所述,检测出分类成同一类别的各学习数据具有的各类别的计数 的规则性,对每个类别的识别信息作为模式列表预先存储在内部。这里, 可对各类别设定l个规则,也可设定多个。另外,在上述的说明中,是假 设距离计算部3提取规则模式,但用户也可为了改变对各类别的分类精度, 任意地设定计数或排列的规则模式。
根据类别不同,有时也会与其它类别在特征信息的特性上相似,也会 存在由作为多个类别的相关性、即各类别的计数或前面位次的排列的模式 的对象模式来进行分类对象数据的分类而使精度较高的情况,本实施方式 对这一点进行补充。
接着,使用图8的流程图对使用上述的列表中记录的规则的第2实施 方式的聚类处理进行说明。分类对象数据被输入时,特征量提取部2利用各类别的识别信号,从 特征量集合存储部4中读出与每个类别对应的多个特征量集合。
然后,特征量提取部2对应于读出的各特征量集合中的特征量的种类, 从分类对象数据中对每个类别提取特征量,并分别对应于类别的识别信息, 将提取的特征量对每个特征量集合存储到内部存储部(步骤S31)。
接着,距离计算部3从特征量集合存储部4读出与从分类对象数据中 提取的各特征量对应的平均值avg.(i)和标准偏差std.(i),通过进行所述式(2)
的运算将各特征量归一化,并将存储在内部存储部的特征量替换成标准化 后的特征量。
然后,距离计算部3生成由上述那样得到的V(i)的要素组成的矩阵V, 计算该矩阵V的转置矩阵VT,利用式(3),依次地计算分类对象数据和各类 别之间的马氏距离,对应于各类别的识别信息,对每个特征量集合存储到 内部存储部(步骤S32)。
接着,距离计算部3对于计算结果的所述马氏距离,乘以与特征量集 合对应的校正系数^一(|/2),求出校正距离,并分别与马氏距离替换(步骤 S33)。
然后,距离计算部3将内部存储部中的与各类别间的校正距离以从小 到大的顺序重新排列,即以与分类对象数据的校正距离小的类别的识别信 息在前的顺序进行排列(步骤S34)。
重新排列后,距离计算部3检测出与从小的一方(前面)开始到第n位的 各校正距离对应的类别的识别信息,并对该n个中包含的每个类别的识别 信息的个数进行计数,即对各类别进行投票处理。
接着,距离计算部3进行对各分类对象数据的前面n个中的各类别的 计数的模式(或排列的模式)、是否存在于存储在内部的列表中的对照处理 (步骤S35)。
然后,若距离计算部3检测出上述的对照结果为与分类对象数据的对 象模式相符的规则模式在列表中有记录时,则判定该分类对象数据属于与 该相符的规则对应的识别信息的类别,将分类对象数据分类成该类别(步骤 S36)。另外,使用图9的流程图对使用上述的列表中记录的规则的第2实施 方式的其它聚类处理进行说明。
该图9所示的其它聚类处理中,步骤S31 步骤S35为止的处理与图8 所示的处理相同,距离计算部3在步骤35中如已叙述那样,根据列表中存 储的规则模式,进行与分类对象数据的对象模式的对照处理。
然后,距离计算部3检测在上述对照结果中、是否检索到与上述对象 模式相符的规则模式,在检测出已检索到相符的规则模式时,将处理转移 到步骤S47,另一方面,在检测出未检索到相符的规则模式时,将处理转移 到步骤S48(步骤S46)。
在检测出已检索到相符的规则模式时,距离计算部3判定该分类对象 数据属于与该相符的规则对应的识别信息的类别,将分类对象数据分类成 该类别,对应于分类目标的类别的识别信息,对类别数据库5,存储己分类 的分类对象数据(步骤S47)。
另一方面,在检测出未检索到相符的规则模式时,距离计算部3检测 计数、即投票数最多的识别信息,将分类对象数据分类成与该识别信息对 应的类别。
然后,距离计算部3对应于归属目标的类别的识别信息,对类别数据 库5,存储已分类的分类对象数据(步骤S48)。 <第3实施方式>
上述的第2实施方式说明了准备有计算后的分类对象数据和各类别 的距离在从小的一方(相似性大)开始前面n个中的规则模式的列表,利用与 该列表中的规则模式是否对应,来进行各分类对象数据的聚类处理,但也 可如以下说明的第3实施方式那样,对每个类别设定多个特征量集合,对 与各自的特征量集合对应的马氏距离进行运算,算出校正距离,将在前的 预定的位次以内的校正距离多的类别作为分类对象数据所属的类别。
以下,第3实施方式的构成与图1所示的第1及第2实施方式相同, 对各构成附注同一标号,只对各构成中与第2实施方式不同的动作使用图 IO进行说明。第3实施方式中,没有由学习数据设定上述规则的处理,而 直接进行图9中的步骤S48。图10是表示第3实施方式中的聚类的动作例的流程图。
该图IO所示的其它聚类处理中,步骤S31 步骤S34为止的处理与图 8所示的处理相同,距离计算部3如已叙述那样,在步骤34中,将内部存 储部中的与各类别间的校正距离以从小到大的顺序重新排列,即以与分类 对象数据的校正距离小的类别的识别信息在前的顺序进行排列(步骤S34)。
接着,距离计算部3检测出与从小的一方(前面)开始到第n位的各校正 距离对应的类别的识别信息,并对该n个中包含的每个类别的识别信息的 个数进行计数,即对各类别进行投票处理(步骤S55)。
然后,距离计算部3检测出投票结果中、最大计数值(投票数)的识别信 息,将与该识别信息对应的类别作为分类对象数据所属的类别,对应于归 属目标的类别的识别信息,对类别数据库5,存储已分类的分类对象数据(步 骤S56)。
另外,用户也可在距离计算部3中对每个识别信息预先设定用于停止 的投票数的阈值,投票数最多的识别信息的投票数未达到该阈值时,进行 不属于任何类别的处理。
例如,在对类别A, B, C的3个类别将分类对象数据进行分类时,对 类别A的识别信息的投票数为5个,对类别B的识别信息的投票数为3个, 对类别C的识别信息的投票数为2个,在这种情况下,距离计算部3检测
出投票数最多的识别信息为类别A。
但是,将对类别A的上述阈值设定作为6个时,由于对类别A的识别 信息的投票数未达到阈值,因此距离计算部3进行不属于任何类别的判定。
由此,在对于特征量与其它类别只有很小差别的类别的聚类中,能提 高分类对象数据的对类别的分类处理的可靠性。
<特征量的变换方法>
虽然期望各特征量的群体为正态分布来进行聚类,但考虑到根据特征 量的种类(面积、长度等)不同,有时不是正态分布,而是群体具有偏态分布, 此时分类对象数据和各类别之间的距离的计算、即判定分类对象数据和各 类别的相似性时的精度降低。
因此,根据特征量不同,需要利用预定方法变换群体的特征量,使其
23接近正态分布以提髙相似性判定的精度。
作为向该正态分布变换的变换方法,利用包含l0g、或平方根(7")、立 方根(3^)等11次方根、或阶乘、或由数值计算求出的函数的任一个运算式 来变换特征量。
下面,使用图11说明各特征量的变换方法的设定处理。图ll是表示 各特征量的变换方法的设定处理的动作例的流程图。此外,该变换方法对 每个类别用类别中包含的各特征量单位来设定。另外,该变换方法的设定 使用属于各类别的学习数据来进行。虽然以下的处理是作为由特征量集合 生成部1进行来说明,但也可将与该处理对应的处理部设置在他处。
特征量集合生成部1将分类对象的类别的识别信息作为关键词,从类
别数据库5中读出该类别中包含的学习数据,并算出各学习数据的特征量 (归一化处理)(步骤61)。
接着,特征量集合生成部1使用存储在内部的进行特征量变换的任一 种运算式,通过对读出的上述各学习数据进行运算,进行特征量的变换(步
骤S62)。
全部的学习数据的特征量变换结束时,特征量集合生成部1算出表示 由变换处理得到的分布是否接近正态分布的评价值(步骤S63)。
接着,特征量集合生成部l进行是否已对存储在内部的、即作为变换 方法预先设定的全部运算式算出评价值的检测,当检测到已算出由全部运 算式将特征量变换后得到的分布的评价值时,使处理进入到S65,另一方面, 当检测到利用全部运算式的特征量的算出尚未结束时,为进行下一设定的 运算式的处理,使处理返回到步骤S62(步骤S64)。
利用全部运算式的特征量的变换结束时,特征量集合生成部l检测出 由已设定的运算式得到的分布中评价值最小的分布、即最接近于正态分布 的分布,将为生成检测出的分布而使用的运算式决定作为变换方法,并作 为该类别的特征量的变换方法在内部设定(步骤S65)。
特征量集合生成部1对各类别的每个特征量进行上述的处理,对应于 各自的类别中的各特征量设定变换方法。
接着,用图12说明上述步骤S63中的评价值的计算。图12是说明求
24出利用运算式得到的分布的评价值的处理的动作例的流程图。
特征量集合生成部1利用设定的运算式来变换属于对象类别的各学习
数据的特征量(步骤S71)。
将全部的学习数据的特征量变换后,特征量集合生成部1算出由该变
换后的特征量得到的分布(群体)的平均值p及标准偏差O(步骤S72)。
然后,特征量集合生成部l使用上述群体的平均值p和标准偏差CT,
利用(x—n)/o算出z值(l)(步骤S73)。
接着,特征量集合生成部1算出上述群体中的累积概率(步骤S74)。
算出后,特征量集合生成部l利用求出的群体中的累积概率,算出z值(2)作为标准正态分布的累积分布函数的逆函数的值(步骤S75)。
然后,特征量集合生成部l求出特征量的分布的2个z值、即z值(l)和z值(2)之差,即分布中的2个z值的误差(步骤S76)。
求出z值的误差时,特征量集合生成部1算出上述2个z值的误差之和、即该误差的总和(平方和)作为评价值(步骤S77)。
上述的2个z值的误差越小,分布越接近于正态分布,若没有z值的误差,则为正态分布,另一方面,分布离正态分布越远,则误差变得越大。
接着,使用图13对进行第1 第3的实施方式中的聚类处理之前、分类对象数据的特征量的算出进行说明。图13是表示分类对象数据的特征量数据的算出的动作例的流程图。
距离计算部3对应于对各类别设定的特征量集合,从输入的分类对象数据中提取识别对象的特征量,进行已说明的归一化处理(步骤S81)。
接着,距离计算部3利用对于该类别的特征量设定的变换方法(运算式),将分类对象数据中的对分类对象的类别的分类中使用的特征量进行变换(步骤S82)。
然后,距离计算部3如第1 第3实施方式所述那样,算出和分类对象的类别的距离(步骤S83)。
接着,距离计算部3利用对应于各类别的特征量设定的变换方法,对分类对象的全部类别将特征量进行变换,并进行是否已利用该变换后的特征量计算出与类别的距离,当检测到已对分类对象的全部类别求出距离时,使处理进入到步骤S85,另一方面,当检测到剩余有分类对象的类别时,使
处理返回到步骤S82(步骤S84)。
然后,开始第1 第3各实施方式中从距离计算结束时刻开始的处理(步骤S85)。
利用上述处理,通过本实施方式而使用的马氏距离中,由于在求出分类对象数据和各类别之间的距离时,期望特征量为正态分布,因此群体的各特征量的分布越接近于正态分布,则与各类别之间越能够求出准确的距离(相似性),并可期望对各类别的分类的精度提高。
实施例
<计算例>
接着,使用上述的第1、第2及第3实施方式的聚类系统,确认利用图14所示的样本数据的、和现有例的分类的精度。虽然样本数量较少,但可知尽管使用的特征量少,却可得到现有例或其以上的正确率。该图14中,作为类别,对种类l、种类2及种类3分别各定义IO个学习数据,各学习数据具有8个特征量a, b, c, d, e, f, g, h。本例中,由图14所示的属于各类别的学习数据,决定聚类中使用的特征量集合,接着,同样使用学
习集合作为分类对象数据来进行聚类。
作为计算结果,图15表示作为现有的计算方法、使用特征量a及g作为特征量的组合并对类别1 类别3的图14所示的各学习数据运算马氏距离的判定结果。图15(a)中,类别1的列是和类别1的马氏距离,类别2的列是和类别2的马氏距离,类别3的列表示和类别3的马氏距离。另外,种类的列表示各学习数据实际所属的类别,判定结果表示学习数据和马氏距离最小的类别。种类和判定结果的数字一致的是表示正确分类后的特征量数据。
在图15(b)中,列的编号表示学习数据实际所属的类别,行的编号表示被判定的类别。例如,记号R1的「8」表示类别1的IO个类别内8个被判定作为类别l,记号R2的「2」表示类别1的IO个类别内2个被判定作为类别3。 PO表示正确解和回答的一致率,pl表示两者偶然一致的概率,k是整体校正判定率,利用下面的式子求出。该k越高,表示分类的精度越高。
<formula>formula see original document page 27</formula>上式中的a, b, c, d的关系用图16来说明。
属于类别1的数据被分类作为类别1的个数为a,属于类别1的数据被分类作为类别2的个数为b, a+b表示属于类别1的数据个数。另外,同样地,属于类别2的数据被分类作为类别2的个数为d,属于类别2的数据被分类作为类别1的个数为c, c + d表示属于类别2的数据个数。a + c是在全部数据a+b + c + d内被分类成类别1的个数,b+d是在全部数据a+b + c + d内被分类成类别2的个数。
接着,图17表示使用第1实施方式的计算方法、对类别1 类别3的图14所示的各学习数据运算马氏距离的判定结果。对于该图17(a)及(b)的看法,由于和图15相同,因此省略其说明。可知正确解率p0、偶然一致的概率pl、整体校正判定率K与图15的现有的计算方法相同。这里,使用从上述的整体的组合中、对每个类别选择具有最大的判别基准值X的组合的方法,并算出与各类别对应的特征量集合。使用特征量a及h的组合作为与类别l对应的特征量集合,使用特征量a及d的组合作为与类别2对应的特征量集合,使用特征量a及g的组合作为与类别3对应的特征量集合。
接着,图18表示使用第2实施方式的计算方法、对类别1 类别3的图14所示的各学习数据运算马氏距离的判定结果。对于图18(a)及(b)的看法,由于和图15相同,因此省略其说明。正确解率p0为0.8333,偶然一致的概率pl为0.3333,整体校正判定率K为0.75,可知与图15的现有的计算方法相比,分类精度提高。这里,使用从上述的整体的组合中、对每个类别选择具有前3位为止的判别基准值X的组合的方法,并算出与各类别对应的特征量集合。使用特征量a'h、 a'g、 d'e的3个组合作为与类别1对应的特征量集合,使用特征量a f、 a d、 a b的3个组合作为与类别2对应的特征量集合,使用特征量e'g、 a*c、 a'g的3个组合作为与类别3对应的特征量集合。另外,作为投票的判定,从马氏距离小的开始依次排列,计算从小的开始进入前3的类别的个数,将个数最多的类别作为该分类对象数据所属的类别。
接着,图19表示使用第2实施方式的计算方法、对类别1 类别3的
图14所示的各学习数据运算马氏距离并进一步对计算结果的马氏距离乘以校正系数(人)一(1/2)后进行距离的排位的判定结果。对于图19(a)及(b)的看法,由于和图15相同,因此省略其说明。正确解率p0为0.8333,偶然一致的概率pl为0.3333,整体校正判定率K为0.75,可知与图15的现有的计算方法相比,分类精度提髙。这里,使用从上述的整体的组合中、对每个类别选择具有前3位为止的判别基准值X的组合的方法,并算出与各类别对应的特征量集合。使用特征量a h、 a g、 d e的3个组合作为与类别1对应的特征量集合,使用特征量a.f、 a'd、 a,b的3个组合作为与类别2对应的特征量集合,使用特征量e'g、 a*c、 a'g的3个组合作为与类别3对应的特征量集合。
另外,作为投票的判定,从马氏距离小的开始依次排列,计算从小的开始进入前3的类别的个数,将个数最多的类别作为该分类对象数据所属的类别。
由上述的图15、 17、 18、 19所示的各分类结果可知,本实施方式与现有例相比,进行高速且高精度的聚类处理,能够确认本实施方式相对于现有例的优越性。
<本发明的应用例>
A.检查装置
如图20所示,说明对被检查物、例如玻璃基板表面的伤痕的种类进行分类的检查装置(缺陷检测装置)。图21是说明特征量集合的选择的动作例的流程图,图22是说明聚类处理中的动作例的流程图。
首先,说明特征量集合的选择的动作。图5的流程图的步骤Sl中的学习数据的采集对应于图21的流程图的步骤S101到步骤S105。
图21的步骤S2到步骤S4由于与图5的流程图相同,因此省略说明。
通过操作员的操作,采集与想要将伤痕的种类进行分类的类别分别对应的学习数据用的样本(步骤SlOl)。
图像取得部101利用照明装置102照射作为学习数据进行采集的伤痕
的形状,利用摄像装置103取得伤痕部分的图像数据(步骤S102)。
然后,从图像取得部IOI取得的图像数据中,算出各学习数据的伤痕的特征量(步骤S103)。
将得到的学习数据的特征量分别向由目视得到的分类目标进行分配,进行各类别的学习数据的确定(步骤S104)。
然后,重复从步骤S101到步骤102的处理,直到各类别的学习数据达到预定个数(预先设定好的样本个数)、例如各30个左右,达到预定个数时,聚类部105进行图5已说明的步骤S2以后的处理。这里,聚类部105是第1或第2实施方式中的聚类系统。
接着,参照图22说明图4的检查装置中的聚类处理。这里,图22的步骤S31到步骤S34、 S55及S56由于与图10的流程图相同,因此省略说明。
图20的检查装置中,检查开始时,照明装置102对作为被检査物100的玻璃基板进行照明,摄像装置103拍摄玻璃基板表面并将该拍摄图像输出到图像取得部IOI。由此,缺陷候补检测部104检测出在从图像取得部101输入的拍摄图像中与平面形状不同的部分时,将其作为应分类的缺陷候补(步骤S201)。
接着,缺陷候补检测部104从拍摄图像中取出该缺陷候补的部分的图像数据,作为分类对象数据。
然后,缺陷候补检测部104由分类对象数据的图像数据算出特征量,对聚类部105输出由提取出的特征量的集合组成的分类对象数据(步骤
对于之后的聚类处理,由于在图10的步骤中已有说明,因此省略。如上所述,本发明的检査装置能够将玻璃基板上带有的伤痕按伤痕的每个种类高精度地进行分类。
B.缺陷种类判定装置
图23所示的缺陷种类判定装置的聚类部105对应于已说明的本发明的
29聚类系统。
图像取得装置201由图20中的图像取得部101、照明装置102及摄像 装置103构成。
已取得将分类对象数据进行分类的目标的各类别的学习数据,并在聚
类装置105的类别数据库5中准备。因而,图5中的特征量集合的选择也 己结束。
从由安装在各生产装置的图像取得装置202输入的拍摄图像中检测缺 陷候补,取出该图像数据,并提取特征量输入到数据采集装置203。控制装 置200将输入到数据采集装置203的分类对象数据转送到聚类部105。然后, 如已说明的那样,聚类部105将输入的分类对象数据对与伤痕的种类对应 的各类别进行分类。
C. 生产管理装置
本发明的生产管理装置如图24所示,由控制装置300;生产装置301、 302;通知部303;存储部304;不佳装置判定部305及缺陷种类判定装置 306构成。这里,缺陷种类判定装置306与上述B项中说明的缺陷种类判 定装置相同。
缺陷种类判定装置306将来自分别设置在生产装置301及生产装置302 的图像取得装置201、 202的拍摄图像,在对应的缺陷候补检测部104中进 行图像处理并提取特征量,进行分类对象数据的分类。
接着,不佳装置判定部305具有表示已分类的类别的识别信息、和与 该类别对应的发生原因的关系的列表,从所述列表中读出与从所述缺陷种 类判定装置306输入的分类目标的类别的识别信息对应的发生原因,判定 成为发生原因的生产装置。即,不佳装置判定部305对应于类别的识别信 息,检测出产品的生产过程中的缺陷的发生原因。
然后,不佳装置判定部305从通知部303向操作员通知,并且对应于 判定的日期,将缺陷被分类后的类别的识别编号、发生原因、和该生产装 置的识别信息作为历史纪录存储到存储部304。另外,控制装置300使不佳 装置判定部305判定的生产装置停止,或对控制参数进行控制。
D. 生产管理装置本发明的另一生产管理装置如图25所示,由控制装置300;生产装置
301、 302;通知部303;存储部304及聚类部105构成。这里,聚类部105 与上述A、 B项中说明的构成相同。
聚类部105中,与上述的A C的情况不同,分类对象数据的特征数 据是根据由工业产品、例如玻璃基板的生产过程中的生产条件(材料的成 分、处理温度、压力、处理速度等)组成的特征量,按生产过程的各工序的 生产状态进行分类。所述特征量作为设置在各生产装置301或302的传感 器检测出的工序信息作为特征量输入到聚类部105。
即,聚类部105根据上述分类对象数据的特征量,将各生产装置的各 工序中的玻璃生产过程的生产状态分类成「正常状态」、「易产生缺陷需 要调整的状态」、「危险需要调整的状态」等类别。然后,聚类部105利 用通知部303向操作员通知上述分类结果,并且将分类结果的类别的识别 信息输出到控制装置300,另外,对应于判定的日期,将上述各工序的生产 状态被分类后的类别的识别编号、作为最成为问题的特征量的生产条件、 和该生产装置的识别信息作为历史记录存储在存储部304。
控制装置300具有表示类别的识别信息和将生产条件恢复正常的调整 项目及其数据的对应关系的列表,读出与从聚类部105输入的类别的识别 信息对应的、将生产条件恢复正常的调整项目及其数据,利用读出的数据 控制对应的生产装置。
此外,也可将用于实现图1中的聚类系统的功能的程序存储到计算机 可读取存储介质,通过使计算机系统读入存储在该存储介质的程序并执行, 来进行分类对象数据的聚类处理。此外,这里所谓「计算机系统」,是指 包含OS及周边设备等硬件。另外,「计算机系统」也包含具有主页提供环 境(或显示环境)的WWW系统。另外,所谓「计算机可读取存储介质」, 是指软盘、光磁盘、ROM、 CD — ROM等可移动介质、内置于计算机系统 的硬盘等存储装置。再有所谓「计算机可读取存储介质」,还包含如通过 互联网等网络或电话线路等通信线路发送程序时的成为服务器或客户机的 计算机系统内部的易失性存储器(RAM)那样的、在一定时间保持程序的介质。
31另外,上述程序也可从在存储装置等中存储该程序的计算机系统通过 传输介质或利用传输介质中的传输载波传输到其它计算机系统。这里,传 输程序的「传输介质」是指如互联网等网络(通信网)或电话线路等通信线路 (通信线)那样的具有传输信息的功能的介质。另外,上述程序也可为用于实 现上述功能的一部分的程序。还可通过与已存储在计算机系统中的程序的 组合来实现上述功能,即所谓的差分文件(差分程序)。
工业上的实用性
本发明可应用于如玻璃物品等的缺陷检测等那样将具有多种特征量的 信息以高精度进行分类和判别的领域,进一步也可用在生产状态检测装置 或产品生产管理装置中。
此外,这里引用2006年7月6日申请的日本专利申请2006—186628 的说明书、权利要求的范围、附图及说明书摘要的全部内容,作为本发明 的说明书的揭示内容而采用的。
权利要求
1. 一种聚类系统,利用输入数据所具有的特征量、将该输入数据分类成由学习数据的群体所形成的各类别,其特征在于,包含特征量集合存储部,该特征量集合存储部存储与所述各类别对应的、分类中使用的作为特征量组合的特征量集合;特征量提取部,该特征量提取部从输入数据中提取预先设定的特征量;距离计算部,该距离计算部对每个与各类别对应的特征量集合、根据该特征量集合中包含的特征量来分别计算并输出各类别的群体的中心和所述输入数据之间的距离作为集合距离;以及位次提取部,该位次提取部将所述各集合距离以从小到大的顺序排列。
2. 如权利要求l所述的聚类系统,其特征在于, 对每个类别设定多个所述特征量集合。
3. 如权利要求2所述的聚类系统,其特征在于,还具有类别分类部,该类别分类部在每个特征量集合所得到的所述集 合距离中,利用根据该集合距离的位次所设定的表示对输入数据的各类别 的分类基准的规则模式来检测所述输入数据属于哪一类别。
4. 如权利要求3所述的聚类系统,其特征在于,所述类别分类部利用所述集合距离的位次来检测所述输入数据属于哪 一类别,检测出该位次在前的集合距离较多的类别作为所述输入数据所属 的类别。
5. 如权利要求4所述的聚类系统,其特征在于,所述类别分类部具有对于位次在前的个数的阈值,在前的类别在该阈 值以上时,检测作为输入数据所属的类别。
6. 如权利要求1至5的任一项所述的聚类系统,其特征在于, 所述距离计算部对所述集合距离乘以对应于特征量集合所设定的校正系数,并将各特征量集合间的集合距离标准化。
7. 如权利要求1至6的任一项所述的聚类系统,其特征在于, 还具有生成每个类别的特征量集合的特征量集合生成部,所述特征量集合生成部对各特征量的多个组合的每个组合,以各类别 的群体的学习数据的平均值为原点,求出该原点与其它类别的群体的各学 习数据之间的距离的平均值,选择平均值最大的特征量的组合,作为用于 识别各类别与其它类别的特征量集合。
8. —种缺陷种类判定装置,其特征在于, 设置有权利要求1至7的任一项所述的聚类系统,所述输入数据是产品缺陷的图像数据,利用表示缺陷的特征量,将图 像数据中的缺陷按缺陷的种类来分类。
9. 如权利要求8所述的缺陷种类判定装置,其特征在于, 所述产品是玻璃物品,将该玻璃物品的缺陷按缺陷的种类来分类。
10. —种缺陷检测装置,其特征在于,设置有权利要求8或9所述的缺陷种类判定装置来检测产品缺陷的种类。
11. 一种生产状态判定装置,其特征在于,设置有权利要求8或9所述的缺陷种类判定装置来对产品的缺陷进行 分类,根据与对应于该种类的发生原因的对应来检测生产过程中的缺陷的发生原因。
12. —种生产状态判定装置,其特征在于, 设置有权利要求1至7的任一项所述的聚类系统, 所述输入数据是表示产品生产过程中的生产条件的特征量,将该特征量按生产过程的各工序中的生产状态来分类。
13. 如权利要求12所述的生产状态判定装置,其特征在于, 所述产品是玻璃物品,将该玻璃物品的生产过程中的特征量按生产过程的各工序中的生产状态来分类。
14. 一种生产状态检测装置,其特征在于,设置有权利要求12或13所述的生产状态判定装置来对产品生产过程 的各工序中的生产状态的种类进行检测。
15. —种产品生产管理装置,其特征在于,设置有权利要求12或13所述的生产状态判定装置来对产品生产过程的各工序中的生产状态的种类进行检测,并根据对应于该种类的控制项目 来进行生产过程的工序中的过程控制。
全文摘要
本发明提供一种能够相比现有例以高速且高精度地对分类对象数据进行分类的聚类系统。本发明的聚类系统利用输入数据所具有的特征量、将该输入数据分类成由学习数据的群体所形成的各类别,该聚类系统中,包含特征量集合存储部,该特征量集合存储部存储与各类别对应的、分类中使用的作为特征量的组合的特征量集合;特征量提取部,该特征量提取部从输入数据中提取预先设定的特征量;距离计算部,该距离计算部对每个与各类别对应的特征量集合、根据该特征量集合中包含的特征量来分别计算并输出各类别的群体的中心和所述输入数据之间的距离作为集合距离;及将各集合距离以从小到大的顺序排列的位次提取部。
文档编号G06N3/00GK101484910SQ20078002554
公开日2009年7月15日 申请日期2007年7月3日 优先权日2006年7月6日
发明者大西孝二, 楜泽信, 胜吕昭男 申请人:旭硝子株式会社