用于为统计应用处理训练数据的系统和方法

文档序号：6512839阅读：276来源：国知局

专利名称：用于为统计应用处理训练数据的系统和方法
技术领域：
本发明涉及为统计分类应用处理训练数据。
背景技术：
统计分类有两种被广泛认可的含义。第一，基于一组观察结果或数据，统计分类试图建立数据中类或聚类的存在。这种类型的统计分类被称为无监督学习(或聚类)。第二，类的存在可能是预先知道的。在第二种情况下，统计分类试图建立单个规则或多个规则，由此，新的观察结果被分类为已知的现存类中的一个。这种类型的统计分类被称为监督式学习。
监督式学习在工业和技术应用上拥有广泛的适用性。例如，监督式学习可用于为机器视觉识别建立单个规则或多个规则。基于所建立的(一个或多个)规则的机器视觉识别可用于引导或控制自动化制造过程。
在监督式学习中，选择被认为是代表所定义的(一个或多个)分类的一组测量。基于所选择的测量，创建训练数据。根据所定义的分类标记训练数据中的每个元素。随后，基于所标记的训练数据，各种方法可用于分类以后所观察的数据元素。
“最近邻居(nearest neighbor)”分类方法测量从所观察的数据元素到训练数据中每个数据元素的距离(例如，使用合适的加权度量计算)。从训练数据中选择N个最近的数据元素。在这N个最近的数据元素中最频繁出现的类被用于分类所观察的数据元素。
这种分类方法假定训练数据元素的分类是正确的。然而，由于多种原因。分类可能有许多错误。错误分类的数量与分类方法的准确度有关。具体地说，训练数据中错误分类的数量越大，导致分类性能准确度越低。从而，分类数据的数据完整性在监督式学习应用中是个重要的考虑因素。

发明内容
示例性实施例针对于用于为监督式学习应用处理训练数据的系统和方法。在一个实施例中，计算训练数据元素的置信度值以标识训练数据元素属于所标识的类的概率。使用所计算的置信度值生成交互式散点图(scatter plot)。散点图可视地指示散点图中的点的置信度值。因此，用户能够标识出潜在的被错误分类的训练数据元素。用户可以从散点图中选择训练数据元素。在一个实施例中，一旦从散点图中选择对应的点，则显示与该训练数据元素相关联的对象的图像文件。用户可以重新分类训练数据元素。或者，用户可以删除训练数据元素。一旦重新分类，则修正对应于各种类的概率模型。使用修正的模型，可重新计算置信度值，并且可使用重新计算的置信度值显示散点图。

图1描绘了根据一个示例性实施例的交互式散点图。
图2描绘了根据一个示例性实施例，响应于选择散点图中的点，可呈现给用户的图像窗口。
图3描绘了根据一个示例性实施例，使用交互式散点图处理训练数据的流程。
图4描绘了根据一个示例性实施例，实现交互式散点图实用程序的计算机系统。
具体实施例方式
现在参照附图，图1描绘了根据一个示例性实施例使得用于监督式学习应用的训练数据能够被处理的交互式散点图。交互式散点图100是包括多个点的图形用户接口(GUI)。每个点对应于一个底层的训练数据结构。每个训练数据结构可包括与分类方案的特征相对应的成员变量(如图1中特征1和2所示)。每个训练数据结构还可包括标识该训练数据结构在多个类(如图1中类101和102所示)之中的当前所属的一个类的成员变量。
交互式散点图100中的点可视地指示对应的训练数据结构被正确分类的概率。例如，点103被示为有0.13的概率属于类101。由于交互式散点图100的可视化表现形式，用户可以有效地标识点103并更详细地检查训练数据结构以确定它实际上是否被错误分类。其他方法可用于可视地指示正确分类的概率。例如，具有低于阈值的概率的点可使用预定颜色显示。
在一个示例性实施例中，作为示例，一旦从散点图100中选择一个点，则可呈现如图2所示的图像窗口200。图像窗口200可描述特征值所得自的对象。如果需要，特征元素的值可被表示为与对象图像相关联。此外，当前分类可被注释。分类可被包括在图形用户接口控制201内，以使得用户能够在对象的可视化检查的基础上修改分类。如果训练数据结构被手工验证或重新分类，则可在散点图100内注释合适的指示(例如，将点的表示从“圆”变为另一种形状)。图像窗口200仅作为示例目的。根据示例性实施例，可采用任何合适的用户接口以使得用户能够验证和/或修改训练数据结构。
为了计算交互式散点图100的概率，指定概率模型。概率模型总结了相应的类的数据分布的位置和形状。通过采用这样的模型，可标识出训练数据中潜在的错误。为了该目的，可采用多个统计模型。模型的选择可取决于多个因素，例如准确度、易用、速度、样本大小等等。例如，“非参数模型”(例如，核密度估计器(Kernel Density Estimator))可用于以相对通用的方式定义数据分布的位置和形状。对于拥有多种模式的分布，可采用高斯混合模型(即，拥有多个高斯分量的分布)。或者，如果选择相对低复杂性模型，则可采用高斯分布。
符号P(x|θ)可用于概率模型，其中，x为数据值向量，θ为模型参数向量。在高斯模型中，P(x|θ)=P(x|μ,Σ)=1(2π)k|Σ|exp{-12(x-μ)TΣ-1(x-μ)}]]>其中，k是数据(x)的维度，μ是长度为k的均值向量，并且∑是k×k的协方差矩阵。在两类别分类问题中，指定了两个模型(每个模型对应于一类)。
在选择模型后，从训练数据元素X1，......Xn中估计模型参数。通常，训练数据元素X是长度为k的向量Xi＝(xi1，......xik)T。在一个实施例中，使用最大近似估计(MLE)方法从训练数据元素中估计模型参数。对于高斯模型，MLE方法提供了合理的估计器。均值的估计器是样本均值，即，μ＝(μ1，...，μk)T，其中，μp=1nΣi=1nxip,]]>p＝1，2，...k且n是与具体类别相关联的训练元素的数量。协方差矩阵的估计器如下给定Σ=σ11σ12…σ1kσ21σ22…σ2k…σk1σk2…σkk]]>其中，矩阵的元素如下估计σpq=1n-1Σi=1n(xip-μp)(xiq-μq),p=1,2...k,q=1,2,...k]]>在生成每个类别的估计器之后，可使用贝叶斯定理(Bayes theorem)计算置信度值(confidence value)。在上下文中，置信度是指数据点属于其所标识的类的概率。贝叶斯定理提供了一种以每个新的训练数据元素和/或以对每个现存的训练数据元素的重新分类，来更新这些概率的系统机制。
在可获得训练数据元素以及由此的测量之前，数据点在每个类中的先验概率为0.5。换句话说，一个点有相等的可能性属于任一个类。在这一阶段，可采用下面的符号l1＝P(类1)＝0.5，l2＝P(类2)＝l-l1＝0.5。一旦进行了测量(定义了训练数据元素)，则可通过使用相应的训练数据元素估计模型参数，来指定或修正类的概率模型。令P(X|类1)＝P(X|θ1)，P(X|类2)＝P(x|θ2)，其中，X代表相应的训练数据元素，θ1指代第一类的模型估计器，而θ2指代第二类的模型估计器。
贝叶斯定理把一个事件在给定另一个事件时的条件概率与两个事件的联合概率联系如下 =P1(X|θ1)11P1(X|θ1)11+P2(X|θ2)12,]]>且从而，基于在先阶段的类的概率，可采用迭代方法来精确化(refine)类概率。因此，迭代方法使得置信度值能够通过附加或修改训练数据元素被精确化。另外，贝叶斯定理既可应用于单变量模型，也可应用于多变量模型。多变量模型是指采用多个特征元素来特征化训练数据元素的模型。如果采用多变量模型，则可假定特征是统计独立的。
图3描绘了根据一个示例性实施例，使用交互式散点图，处理用于统计学习应用的训练数据结构的流程。图3的过程流可实现为由合适的处理器系统执行的软件指令。
在图3的步骤301，从存储器(例如，合适的存储外设)中获取训练数据结构。每个训练数据结构可包括一个或多个特征变量或成员。特征成员可存储与测量相关联的值。每个训练数据结构可包括分类变量或成员，以标识训练数据结构已被分配给的类。
在步骤302，迭代计算多个类的概率。在步骤303，使用类概率和模型估计器，计算每个训练数据结构的置信度值。置信度值是相应的训练数据结构属于其所标识的类的概率。如前所述，取决于具体应用，可采用多种概率模型。另外，概率模型可以是单变量的或多变量的。
在步骤304，使用训练数据结构的特征变量创建散点图。在一个实施例中，取决于点先前是否已被用户验证或重新分类，可对点使用不同的形状。在步骤305，散点图中的点可用所计算的置信度值被注释。在步骤306，可根据落入低于阈值范围的置信度值，改变散点图中的点。如果需要，阈值可由用户手工设定。在步骤307，接收用户输入以从散点图中选择点。
在步骤308，获取与所选择的点相关联的训练数据结构。在步骤309，获取与相应的训练数据结构相关联的图像文件。在步骤310，显示图像窗口。在步骤311，接收另外的用户输入，以验证当前分类、修改分类或者删除训练数据结构。在步骤312，基于用户输入进行逻辑比较。如果用户验证当前分类，则过程流返回步骤304。如果用户选择了删除选项，则过程流进行至步骤313，执行删除操作。如果用户选择了修改选项，则过程流进行至步骤314，根据用户输入改变分类成员。
从步骤313或步骤314中的任一个，过程流返回至步骤302，以基于删除或修改来修正类概率。步骤303～306也被重复，从而呈现给用户修正的散点图。具体地，由于训练数据被可疑的分类破坏，因此修正使得模型估计更为准确。模型估计准确度的提高同样使得置信度值的计算更加准确。从而可知，发生迭代过程，使得用户能够有效地验证一组训练数据的分类。
图4描绘了根据一个示例性实施例的可用于执行交互式散点图实用程序406的计算机系统400。计算机系统400包括一般的处理资源，例如处理器401、显示器402、(一个或多个)输入外设403和非易失性存储器405。非易失性存储器405(可使用任何合适的计算机可读介质实现)存储定义交互式散点图实用程序406的可执行软件代码。交互式散点图实用程序406可使用参考图3而作为示例描述的流程来实现。可根据多个例程、功能、代码段等等来组织交互式散点图实用程序406。如图4所示，交互式散点图406包括类概率计算例程407、置信度值计算例程408、散点图显示例程409、用户输入例程410和图像窗口显示例程411。交互式散点图实用程序406可访问存储在非易失性存储器405内的各种数据，例如训练数据结构412和图像文件413。
示例性实施例使得用户能够有效地处理训练数据。通过可视地标识具有相对低的置信度值的训练数据元素，可以相对快速的方式使用户注意到可疑训练数据。此外，通过使用户能够访问底层训练数据和/或图像文件，用户可以适当地验证、重新分类或删除训练数据元素。响应于该用户输入，可重新计算置信度值，并且可使用经更准确计算的置信度值重新显示散点图。
权利要求
1.一种含有用于为统计分类应用处理训练数据的可执行指令的计算机可读介质，所述计算机可读介质包括用于获取多个训练数据结构的代码，所述多个训练数据结构的每个包括与特征元素相对应的数据成员和标识多个类中的一个的数据成员；用于使用概率模型计算指示相应的训练数据结构属于其所标识的类的相应的概率以处理所述多个训练数据结构中的每个的代码，所述概率模型是所述特征元素的函数；以及用于使用所述多个训练数据结构生成散点图的代码，所述散点图可视地指示所述训练数据结构属于所标识的类的概率。
2.根据权利要求1所述的计算机可读介质，还包括用于在所述散点图中注释点以指示所述多个训练数据结构属于所标识的类的概率的代码。
3.根据权利要求1所述的计算机可读介质，其中，所述用于生成散点图的代码使用预定颜色在所述散点图中显示点，以指示具有低于阈值的概率的训练数据结构。
4.根据权利要求1所述的计算机可读介质，还包括用于标识所述散点图中与所述多个类相对应的区域的代码。
5.根据权利要求1所述的计算机可读介质，还包括用于接收来自用户的第一输入以选择与相应的训练数据结构相对应的点的代码。
6.根据权利要求5所述的计算机可读介质，还包括用于显示与所述被选择的点相对应的所述相应的训练数据结构的特征元素的值的代码。
7.根据权利要求5所述的计算机可读介质，还包括用于响应于所述用于接收第一输入的代码，显示与对象相关联的图像文件的代码，其中，特征元素得自所述对象。
8.根据权利要求5所述的计算机可读介质，还包括用于接收来自所述用户的第二输入以重新分类与所述被选择的点相对应的所述相应的训练数据结构的代码。
9.根据权利要求8所述的计算机可读介质，还包括用于响应于所述用于接收所述第二输入的代码，修正所述概率模型的代码，其中，所述用于处理的代码可操作以使用所述修正的概率模型重新计算所述多个训练数据结构属于所标识的类的概率。
10.根据权利要求5所述的计算机可读介质，还包括用于接收来自所述用户的第二输入以删除与所述被选择的点相对应的所述相应的训练数据结构的代码。
11.一种用于为统计分类应用处理训练数据的方法，所述方法包括访问多个训练数据结构，其中，每个训练数据结构包括多个特征变量和标识多个类中的一个的变量；计算所述多个训练数据结构中的每个的相应的置信度值，所述置信度值指示了所述相应的训练数据结构属于其所标识的类的概率；以及生成用于散点图的图形用户接口，所述散点图可视地指示所述多个训练数据结构的置信度值。
12.根据权利要求11所述的方法，还包括在所述散点图中用所述置信度值注释点的至少一个子集。
13.根据权利要求11所述的方法，其中，所述显示步骤使用预定颜色以标识与低于阈值的置信度值相关联的训练数据结构。
14.根据权利要求13所述的方法，其中，所述阈值是通过接收来自用户的输入而确定的。
15.根据权利要求13所述的方法，其中，所述图形用户接口标识所述散点图的与所述多个类中的每个相关联的区域。
16.根据权利要求13所述的方法，还包括接收用户输入以选择所述散点图中的点。
17.根据权利要求16所述的方法，还包括显示与所述被选择的点相对应的训练数据结构的特征元素变量的值。
18.根据权利要求16所述的方法，还包括显示与对象相关联的图像文件，其中，与所述被选择的点相对应的多个特征变量的值是从所述对象获得的。
19.根据权利要求16所述的方法，还包括响应于进一步的用户输入，删除与所述被选择的点相对应的所述训练数据结构。
20.根据权利要求16所述的方法，还包括响应于进一步的用户输入，重新分类与所述被选择的点相对应的所述训练数据结构。
21.根据权利要求11所述的方法，还包括在由用户重新分类所述多个训练数据结构中的至少一个之后，精确化概率模型；以及响应于所述精确化，重复所述计算和显示。
22.一种用于为统计分类应用处理训练数据的系统，所述系统包括用于处理多个训练数据结构以生成多个置信度值的装置，其中，所述多个训练数据结构中的所述每个定义了特征值并标识出多个类中的一个，其中，所述置信度值指示具有所述特征值的对象属于所述所标识的类的概率；和用于使用所述多个训练数据结构显示散点图的装置，所述散点图提供了点属于所标识的类的概率的可视化指示。
23.根据权利要求22所述的系统，还包括用于注释所述散点图中的点以指示所述多个训练数据结构属于所标识的类的概率的装置。
24.根据权利要求22所述的系统，还包括用于接收第一用户输入以选择所述散点图中的点的装置。
25.根据权利要求24所述的系统，还包括用于接收第二用户输入以重新分类与所述被选择的散点相对应的训练数据结构的装置。
26.根据权利要求25所述的系统，还包括用于修正与所述多个类相关联的概率模型的装置，其中，响应于所述用于修正的装置，所述用于处理的装置重新处理所述多个训练数据结构，并且所述用于显示的装置使用来自所述用于处理的装置的修正的概率来重新显示所述散点图。
全文摘要
本发明公开了用于为统计分类应用处理训练数据的系统和方法。在一个实施例中，计算训练数据元素的置信度值，以标识训练数据元素属于所标识的类的概率。使用所计算的置信度值生成交互式散点图。散点图可视地指示散点图中的点的置信度值。因此，用户能够标识出潜在的被错误分类的训练数据元素。用户可以从散点图中选择训练数据元素，并适当地重新分类训练元素。一旦重新分类，则可重新计算置信度值并修正散点图。
文档编号G06K9/62GK1677381SQ20051000513
公开日2005年10月5日申请日期2005年1月28日优先权日2004年4月2日
发明者李强申请人:安捷伦科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李强
技术所有人：安捷伦科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。