产品问题分类方法与流程

文档序号:26706268发布日期:2021-09-22 15:41阅读:358来源:国知局
产品问题分类方法与流程

1.本公开涉及汽车制造领域,尤其涉及一种基于knn分类算法的产品问题分类方法。


背景技术:

2.当前开发的智能驾驶舱系统架构及功能越来越复杂,涉及到不同的软硬件及多操作系统的整合。在产品上市初期识别设计失败对评价和提高设计质量具有重要意义。当产品硬件和软件包含大量外包组件时,情况会变得更为复杂。尤其是大多数外包组件都是围绕新开发或应用而设计的。当硬件差异反映在零件上时,随着硬件产量的增加,许多软硬件纠缠才会出现。为了在早期设计阶段捕获这些缺陷,设计团队必须建立在有限样本中检测故障症状的能力。在生产线投产阶段获取信息具有重要的应用价值。
3.虽然生产线及售后会有大量不同失效模式的问题或者缺陷被上报,但这些问题或缺陷都未进行过系统的统计分析和分类,需要对每个问题单独进行分析。
4.另一方面,产线制造人员的产品设计知识非常有限,无法在产线发生故障后立即对问题进行初步判断及分类,导致错失关键信息。其结果,一些重要问题可能在生产初期未被及时被发现并向设计团队报告,可能导致问题遗漏到终端用户导致客户投诉。
5.即使产线制造人员具备报告问题的意愿,但也极有可能向设计团队报告非设计问题,而报告因生产制造或者原材料导致的问题,造成设计部门针对非设计问题的额外工作量或资源消耗。


技术实现要素:

6.本公开的一个方面提供一种产品问题分类方法,包括:获取待分析问题的多维度现象量化参数;利用knn算法基于多维度现象量化参数对待分析问题的行为进行分类,其中knn算法从数据库中确定与待分析问题的距离最近的k个样本中占比最大的类别作为待分析问题的行为分类,距离基于多维度现象量化参数计算得到;以及对计算得到的行为分类进行过滤。
7.在一个示例实施例中,多维度现象量化参数可以基于预先制定的异常度量标准而确定,异常度量标准可以将异常的表现形式和程度与度量值相对应。
8.在一个示例实施例中,可以还包括:响应于确定数据库中不存在与待分析问题的多维度现象量化参数相对应的分类条目,用待分析问题的多维度现象量化参数及其计算出的行为分类更新数据库。
9.在一个示例实施例中,可以还包括:判断待分析问题是否为离群值。
10.在一个示例实施例中,判断是否存在离群值可以包括:判断与最接近的k个样本的距离是否均超过预先确定的阈值。
11.在一个示例实施例中,判断是否存在离群值可以通过将与最接近的k个样本的距离与已知的一个或多个分类中的一个分类下的某两个相邻样本之间的距离或者同一分类下的各个相邻样本之间的平均距离相比较来进行。
12.在一个示例实施例中,对行为分类进行过滤可以包括与历史数据进行匹配以确定引起所述待分析问题的因素的概率分布。
13.在一个示例实施例中,对行为分类进行过滤可以包括查找历史数据以便确定待分析问题的行为分类的发生是否具有周期性。
14.在一个示例实施例中,对行为分类进行过滤可以包括查找历史数据以便确定待分析问题的行为分类的发生是否与特定位置相关。
附图说明
15.图1是示出knn算法原理的示意图。
16.图2图示出根据实施例的示例分类数据库。
17.图3示出出现离群值的情况的示意图。
18.图4是示出根据实施例的示例产品问题分类方法400的流程图。
具体实施方式
19.在以下描述中,陈述了众多特定细节。然而,应当理解,可在没有这些特定细节的情况下实践本发明的实施例。在其他实例中,未详细示出公知的电路、结构和技术,以免使对本描述的理解模糊。
20.说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用表明所描述的实施例可以包括特定的特征、结构或特性,但是每个实施例不一定都包括该特定的特征、结构或特性。此外,此类短语不一定是指同一个实施例。此外,当结合实施例描述特定的特征、结构或特性时,认为结合无论是否被明确描述的其他实施例而影响此类特征、结构或特性是在本领域技术人员的知识范围之内的。
21.出于本公开的目的,短语“a和/或b”意指(a)、(b)或(a和b)。出于本公开的目的,短语“a、b、和/或c”意指(a)、(b)、(c)、(a和b)、(a和c)、(b和c)或(a、b和c)。
22.通常,产品问题可能由制造问题引起,也可能由设计缺陷引起。传统分析方式先区分实际缺陷和处理错误,然后区分设计缺陷和其他非设计缺陷。考虑生产线上的噪声信息是很困难的。当失效反复堆积时,实际缺陷表面出现。或者设计团队不得不以低效率整理出许多无关的报告。
23.在统计工具和统计过程的帮助下,本公开可以在降低资源消耗和提高产出之间达到一定平衡。本公开应用统计分类器对现场数据进行分类,过滤出失效报告,使设计者能够集中精力处理最有可能出现的设计缺陷。
24.为了对现场数据进行分类,本公开利用knn(k

nearest neighbor:k最邻近)分类算法。图1是示出knn算法原理的示意图。knn算法和核心思想是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。如图1所示,ω1、ω2、ω3分别代表训练集中的三个类别。其中,与xu最相近的5个点(k=5)如图中箭头所指,很明显与其最相近的5个点中最多的类别为ω1,因此,knn算法最终将xu的类别预测为ω1类失效。
25.虽然knn算法能够对问题进行自动分类,但由于数据限制,期望通过纯数据分析进
行深度分类是不现实的。大多数情况下,设计、生产制造及测试是产生问题的主要三个来源。通过应用分类器对数据进行统计分析的最大挑战是数据库中数据的完整性和有效性。考虑到产品的复杂性和相应的特性数量来完全定义故障状态,通常无法在查看内部日志或进行详细分析之前确定根本原因。更困难的是,详细的故障描述往往涉及个人的感知和判断。
26.为了客观而准确地分析问题,本公开尝试将数据分析与常规症状分析相结合。本公开针对已知问题进行自动归类和过滤,同时能够发现未知但彼此之间拥有相同失效特征的问题。得到的过滤后分类更具有针对性,能够大大缩减故障分析和排除耗费的精力。在示例实现中,基于多维度现象现象量化参数,利用knn分类算法预测问题的行为分类,从而能识别该问题是否与设计相关、或者与制造、测试相关,从而能帮助设计部门缩小故障范围,将更多精力用于调查潜在设计缺陷或根本原因,以找出确切的故障原因。
27.图2图示出根据实施例的示例分类数据库。在图2所示的数据库中,每一行对应于一种问题行为分类。问题行为分类指示问题的客观表现,诸如系统卡滞、黑屏、系统重启等。每一种问题行为分类包含由若干现象量化参数构成的多维度现象量化参数。在图2所示的示例中,多维度现象量化参数包含声音异常、显示异常、反应迟滞、电话声音异常、蓝牙音乐异常、导航异常、应用异常等的现象量化参数。现象量化参数可以基于客观现象表征来确定,例如可以预先制定异常度量标准。异常度量标准将异常现象的表现形式和程度与相应的度量值(打分)相对应。例如对于“显示异常”,能根据实际显示异常表现和程度(例如间断闪烁、间断黑屏、持续黑屏等),参照相应的异常度量标准来确定现象量化参数,从而得到客观的现象量化参数。
28.在图2的示例中,对于行为分类“系统卡滞”,其现象量化参数包括(5,5,5,1,1,0,2)、(5,4,4,1,1,0,2)和(4,5,5,1,1,0,3)。该情况下,若待分析问题的现象量化参数为(5,5,5,1,1,0,2)、(5,4,4,1,1,0,2)和(4,5,5,1,1,0,3)中的一者,则可以归类为“系统卡滞”。
29.类似的,“黑屏”分类的现象量化参数包括(0,5,5,1,1,0,0)、(0,5,5,1,0,0,1)和(0,5,4,1,1,0,0),“系统重启”分类的现象量化参数包括(0,0,0,1,1,4,5)、(1,0,0,1,1,4,5)和(0,0,0,1,1,5,5)。以上对各个行为分类的现象量化参数的说明仅为例示,数据库中可以包含更多分类,同一分类也可以具有其他数量的现象量化参数的组合,现象量化参数的维数也不限于图3所示的7个。
30.在计算两个样本的距离时,可以使用欧式距离。即,对于n维空间中两个点x1(x11,x12,

,x1n)与x2(x21,x22,

,x2n)间的欧氏距离d12可以表示为:
31.对于待分析问题a,假设根据上述方法确定的多维度现象量化参数为(5,5,4,1,0,0,2),则可以根据式(1)计算该待分析问题a与现象量化参数为(5,5,5,1,1,0,2)的“系统卡滞”分类(第1行)的欧式距离da1为
32.与现象量化参数为(5,4,4,1,1,0,2)的“系统卡滞”分类(第2行)的欧式距离da2为
33.与现象量化参数为(4,5,5,1,1,0,3)的“系统卡滞”分类(第3行)的欧式距离da3为
34.类似地,可以计算出待分析问题a与其他分类的欧氏距离依次为5.57(黑屏)、5.20(黑屏)、5.48(黑屏)、9.59(系统重启)、9.11(系统重启)、10.05(系统重启)。
35.若取k=5,则选取5个与待分析问题a距离最接近的分类,在图2的示例中分别为系统卡滞(1.41)、系统卡滞(1.41)、系统卡滞(2)、黑屏(5.20)和黑屏(5.48)。由于这5个类别中最多的类别为系统卡滞(3个),因此knn算法最终将待分析问题a的行为归类为“系统卡滞”。此时,可以在图2的数据库中增加现象量化参数为(5,5,4,1,0,0,2)的“系统卡滞”行为分类条目。
36.这里,k的取值可以根据需要确定。选择较小的k值,就相当于用较小的邻域中的训练实例进行预测,学习的近似误差会减小,只有与输入实例较近的训练实例才会对预测结果起作用。但缺点是学习的估计误差会增大,预测结果会对近邻的实例点分成敏感。如果邻近的实例点恰巧是噪声,预测就会出错。换句话说,k值减小就意味着整体模型变复杂,分的不清楚,就容易发生过拟合。如果选择较大k值,就相当于用较大邻域中的训练实例进行预测,其优点是可以减少学习的估计误差,但近似误差会增大,也就是对输入实例预测不准确,k值得增大就意味着整体模型变的简单。因此,可以根据数据库规模、现象量化参数的维数、噪声数量等确定k的取值。
37.在一些实施例中,可能存在一个或多个待分析问题距离其他各项分类均较远、也就是出现离群值的情况。图3示出出现离群值的情况的示意图。如图3所示,对于样本a1、a2、a3和a4,其距离其他已知分类ω1和ω2内的样本的距离均较大,例如远大于各个分类内的样本间的距离d0。该情况下,不适合将这些离群值归类为已知的类别ω2,可以单独进行分析。对于具有相近特征表现的问题、即相近现象量化参数的样本a1、a2、a3和a4,可以建立新的分类。
38.以上说明了本公开利用knn分类算法的原理。下面说明本公开的产品问题分类方法。图4是示出根据实施例的示例产品问题分类方法400的流程图。
39.在步骤s1中,获取待分析问题的多维度现象量化参数。如上所述,现象量化参数从多个维度对问题行为进行客观描述,其参数值可以基于预先制定的反应异常表现形式和程度的异常度量标准而确定。
40.在步骤s2中,利用knn分类算法对步骤s1中获得的现象量化参数进行分类。分类基于类似图2所示的数据库,通过计算待分类问题与其他各个分类的各个样本(数据库中的一行)的距离,确定距离最近的k个样本中数量最多的分类。
41.在步骤s3中,在确定最终分类前,判断待分类问题与最接近的k个样本的距离是否过大。距离可以采用欧氏距离。作为示例判断方式,例如可以预先设定距离阈值,如果与最接近的k个样本的距离均超过该阈值,则认为距离过大。在另一实施例中,可以将与最接近
的k个样本的距离与同一分类下的某两个相邻样本之间的距离(图3中的d0)或者同一分类下的各个相邻样本之间的平均距离相比较,如果远大于该单个距离或者平均距离(例如超过n倍(n>2)),则认为距离过大。
42.如果在步骤s3中判断待分类问题与最接近的k个样本的距离过大,则进入步骤s4。在步骤s4中,认为该待分类问题不属于数据库中已有的行为分类,因此在步骤s6中,向数据库与该待分类问题的多维度现象量化参数相对应的行为分类条目。应理解,步骤s3对于离群值的判断在数据库规模较大、数据完善的情况下是可以省略的,因为此时出现离群值的可能性较低。
43.如果在步骤s3中判断待分类问题与最接近的k个样本的距离没有过大,则进入步骤s5。在步骤s5中,按照步骤s2中通过knn算法计算出的分类更新数据库,也就是将与该待分类问题的多维度现象量化参数相对应的分类条目添加到数据库中,然后进入步骤s7中。当然,如果数据库中已经存在与该待分类问题的多维度现象量化参数对应的分类条目,则无需更新数据库。
44.在步骤s7中,对步骤s2中计算出的分类进行过滤。过滤用于对计算出的问题行为分类进行进一步处理,以预测待分析问题是由何种因素导致,诸如设计、制造或测试。作为过滤的一个示例,可以将计算出的问题行为分类与历史数据进行匹配,以确定引发该问题的各种因素的概率分布,例如设计原因的概率为80%。该情况下,可以优先将该结果报告给设计部门来进行设计缺陷排查,具有更高的成功率。
45.在另一实施例中,可以查找历史数据来判断该问题行为分类的发生是否具有周期性。这可以通过查找与问题相关联的时间数据来实现。周期性表明某类问题仅在特定时刻发生,这可能与特定的生产批次、设备、工位等相关,从而能够排除一部分缺陷原因。
46.在又一实施例中,可以查找历史数据来判断该问题行为分类的发生是否与特定位置相关。特定位置可以是特定的生产线、特定的设备或者特定的工位。一旦确定与特定位置相关,而在其他位置的相同产品未发生同样问题,则可以确定该问题的发生由设计问题引起的可能性较低。
47.如上所述,通过对利用knn算法得到的分类进行过滤,能够准确地排除部分问题原因。不同于以往人为的直接分类,本公开的分类方法基于更为客观的信息(即,现象量化参数),将数据分析与常规症状分析相结合,从而能够最大限度减少个人感知和主观判断的影响,得到较为准确的分类结果。
48.此外,本公开能够以有限的样本最大化利用数据,减少对关键问题的误报,从众多问题中找到最可能由设计缺陷引起的问题,从而减轻设计部门的负担,能够以更低的资源消耗解决问题,提高产量。此外,本公开能够在早期阶段发现未知分类的问题,有助于提高设计质量。
49.本文中所公开的机制的实施例可被实现在硬件、软件、固件或此类实现方式的组合中。本发明的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
50.至少一个实施例的一个或多个方面可由存储在机器可读介质上的表示处理器中的各种逻辑的表示性指令来实现,该表示性指令在由机器读取时使得该机器制造用于执行
本文中所描述的技术的逻辑。
51.此类机器可读存储介质可以包括但不限于通过机器或设备制造或形成的物品的非瞬态的有形安排,其包括存储介质,诸如:硬盘;任何其他类型的盘,包括软盘、光盘、只读光盘存储器(cd

rom)、可读写光盘存储器(cd

rw)以及磁光盘;半导体器件,诸如只读存储器(rom)、诸如动态随机存取存储器(dram)和静态随机存取存储器(sram)之类的随机存取存储器(ram)、可擦除可编程只读存储器(eprom)、闪存、电可擦除可编程只读存储器(eeprom);相变存储器(pcm);磁卡或光卡;或适于存储电子指令的任何其他类型的介质。
52.以上详细描述了本发明的优选实施方式。但应当理解为本发明在不脱离其广义精神和范围的情况下可以采用各种实施方式及变形。本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本领域技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应属于由本发明的权利要求书所确定的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1