专利名称::数据透视中的异常检测的制作方法
技术领域:
:本发明涉及数据挖掘(datamining),尤其涉及用于提供数据透视中自动的数据异常检测的系统和方法。
背景技术:
:将信息数字化使大量的数据能被存储在难以置信的少量空间中。例如,该过程允许将一个图书馆的内容存储保存于一个计算机硬盘上。这是可能的,因为数据被转换成二进制状态,这种二进制数据能通过数字编码装置存储到各种类型的数字存储介质上,诸如硬盘、CD-ROM盘、以及软盘。随着数字存储技术的进步,存储装置的密度足以使更多的数据被存储在给定空间中,而数据的密度主要受物理和制造工艺的限制。随着存储能力的增长,有效数据检索的挑战性也增加了,使得能简便访问数据极为重要。例如,图书馆中有一本书但找不到它的事实并不能帮助需要阅读它的顾客。类似地,仅将信息数字化并不是一个进步,除非能简便地访问它。这已导致便于有效数据检索的数据结构的创建。这些数据结构一般称为“数据库”。数据库包含用以提供对数据有效访问的结构化格式的数据。结构化数据存储使得在检索数据时比未结构化的数据存储效率更高。也可应用索引和其它组织技术。增强该数据值的数据之间关系也可与数据一起存储。在数据库开发的早期,用户一般会看到像其被输入数据库时完全一样的“原始数据”或数据。最终开发了各种技术以使数据能以更有效的方式被格式化、处理和查看。例如,这使用户能将数学运算符应用到数据中甚至还创建报告。商业用户可访问诸如来自仅包含独立销售的数据库中数据的“总销售”。用户界面被持续开发以更便于以用户友好的格式来检索和显示数据。最终用户会了解,诸如来自独立销售的总销售数据的不同视图使他们能从数据库中的原始数据获得附加信息。这种附加数据的收集被称为“数据挖掘”并产生“元数据”(即有关数据的数据)。数据挖掘使有价值的附加信息能从原始数据提取出来。这在一些行业中特别有用,其中除了完全来自数据库的原始输入数据的结果之外,还可得到解释商业销售和产品输出的信息。因而,数据处理使得重要信息能从原始数据中提取。由于被存储数据的数字本性,这种对数据的处理是可能的。大量数字化数据可比手工尝试快得多地从不同方面查看。数据的每个新视角都使用户能获得有关数据的附加内涵。这是可导致生意有其则成功,无它则失败的非常强大的概念。例如趋势分析、因果分析、影响研究、以及预测都可从输入数据库的原始数据确定—通过对数字化信息的直觉、用户友好访问预测它们的值和时间线。目前,用以增加数据挖掘能力的数据处理需要充分的用户输入和知识以确保在各个数据透视中没有包括错误数据。这需要用户必须具有给予数据的熟悉知识,并具有对哪类错误可发生在数据上的洞察力。没有这些先决知识,用户必须尝试“hitandmiss”(“碰巧”)途径,希望能捕捉到埋藏于给定数据透视中的数据异常。该途径通常不被不定期用户所用和/或对高级用户而言太耗时。所存储数据的量通常太庞大且关系太复杂,从而用户不能有效开发一可行策略以确保发现所有的数据异常。
发明内容以下呈现了本发明的简化归纳,以便提供对本发明某些方面的基本理解。该归纳不是本发明的扩展性纵览。它并非旨在标识本发明的关键或主要元素,或旨在呈现本发明的范围。其唯一目的是以简化形式呈现了本发明的某些概念,作为以下提供的更详细描述的前言。本发明一般涉及数据挖掘,尤其涉及用于提供在数据透视中自动数据异常检测的系统和方法。数据曲线拟合技术用以提供对一数据透视的“数据管道”中数据异常的自动检测;该数据管道仅包含在一数据维上变化的数据。例如,这允许在比如电子主元表(pivottable)和/或在线分析处理(OLAP)立方体等中检测诸如屏幕上、深度探究、横向探究的数据异常。通过提供自动数据透视分析,本发明使得没有经验的用户能从数据库中简便地查找错误数据信息。这通过确定数据是否相当多地偏离通过比如应用于数据管道的分段线性函数的曲线拟合过程建立的预测值。也可由本发明采用便于确定在数据值被视为异常之前所需偏离度的阈值。例如系统和/或用户通过用户界面等动态地和/或静态地提供该阈值。此外,本发明可轻松地从顶层数据透视向用户指明被检测异常的类型和位置;而忽略用户在低层次上搜索数据异常的必要性。为实现前述及相关结果,本方面的某些说明性方面结合以下说明书和附图在此说明。但这些方面仅仅示出了本发明诸原理可在其中采用的各种方式的其中几种,且本发明旨在包括所有这些方面及其等效方案。结合附图参阅本发明的以下详细说明,本发明的其它优点和新特征会变得清楚。图1是根据本发明一方面自动数据透视异常检测系统的框图。图2是根据本发明一方面自动数据透视异常检测系统的另一框图。图3是根据本发明一方面自动数据透视异常检测系统的又一框图。图4是根据本发明一方面便于自动数据透视异常检测的方法的流程图。图5是根据本发明一方面便于自动数据透视异常检测的方法的另一流程图。图6示出其中本发明可起作用的示例操作环境。图7示出其中本发明可起作用的另一示例操作环境。具体实施例方式现在本发明参照附图进行描述,其中相同参考标记贯穿全文用来指向相同元件。在以下描述中为了进行解释,许多特定细节被陈述以便提供本发明的全面理解。然而,显然没有这些特定细节也可实现本发明。在其它实例中,众所周知的结构和装置被以框图形式显示,用来有助于描述本发明。当用于本发明时,术语“组件”旨在指计算机相关实体硬件、硬件和软件的组合、软件、或执行中的软件。例如,组件可以是,但不限于是,运行于处理器的过程、处理器、对象、可执行件、执行线程、程序和/或计算机。作为说明,运行于服务器上的应用和服务器都是组件。一个或多个组件可驻留于执行的过程和/或线程中,且组件可本地化在一台计算机上和/或分布在两台或多台计算机之间。本发明通过自动检测数据便于数据透视的分析。指示符被用以向用户提供特定视角在某些层次上有错误数据的通知。层次可以是例如屏幕上或顶层,和/或当前未显示但需要用户对数据深度探究和/或横向探究以揭露错误数据值。这样,用户可简便地确定数据异常存在,以及需要多少精力和/或什么数据视图来揭露错误数据。用户和/或系统还可静态地和/或动态地设置阈值以便于自动检测。用户还可对各种类型的数据异常选择不同的阈值。该阈值确定在将其视为异常之前数据值必须偏离多大。偏离通过比较数据值和由应用于数据管道仅具有在一变化数据维的数据曲线拟合过程提供的预测值来确定。用于曲线拟合过程的函数也可以是用户可选择的。因而,本发明使用户能简便标识他们所正审视的数据的感兴趣特征。在图1中,示出根据本发明一方面自动数据透视异常检测系统100的框图。该自动数据透视异常检测系统100包括接收数据透视104并自动确定数据异常106的自动数据透视异常检测组件102。该数据透视可包括但不限于电子主元表和/或OLAP立方体等。可任选的外部阈值输入108可由自动数据透视异常检测组件102使用以便于确定那些数据异常。阈值也可被确定为自动数据透视异常检测组件102的一部分,比如系统确定值和/或系统确定的偏离百分比等。多个用户指定阈值可由本发明采用以用于不同类型的数据异常中。自动数据透视异常检测组件102利用从数据透视应用于数据管道的曲线拟合过程以确定那些数据是异常的。曲线拟合过程还可结合用户指定函数以便于数据异常的自动检测。参看图2,示出根据本发明一方面自动数据透视异常检测系统200的另一框图。该自动数据透视异常检测系统200包括数据管道组件204和异常检测组件206的自动数据透视异常检测组件202。该数据管道组件204接收数据透视208并将数据透视208处理成数据管道。数据管道包括来自数据透视208的仅具有一变化数据维的数据片断。异常检测组件206接收数据管道并利用曲线拟合过程来确定任何数据异常。曲线拟合过程包括尝试产生能够估算数据管道中数据的函数的过程。已估算数据变成被用以确定数据管道中数据的偏离值的“已预测数据”。阈值输入212由异常检测组件206采用以确定多少偏离量是可接受的。阈值输入212可以是系统产生和/或用户产生的。任何超过由异常检测组件206确定的阈值输入212的数据可被输出为异常210。参看图3,示出根据本发明一方面自动数据透视异常检测组件300的又一框图。该自动数据透视异常检测组件300包括数据管道组件310和异常检测组件302。异常检测组件302包括曲线拟合函数组件304、数据偏离值组件306以及异常确定组件308。曲线拟合函数组件304接收来自数据管道组件310的数据管道并确定表示来自数据管道的数据的适当函数。这使预测数据能从来自数据管道的数据值产生。曲线拟合函数组件304还可接收任选的用作适当函数的用户指定函数316。这使用户能定制检测过程。数据偏离值组件306接收来自数据管道的数据,以及来自曲线拟合函数组件304的曲线拟合函数。数据偏离值组件306利用曲线拟合函数来预测数据值。然后这些值与真实的数据值相比较,并确定基于预测值偏离量的值。异常确定组件308接收偏离值并利用阈值输入314来检测超过阈值的数据。被确定在阈值之外的数据被视为异常,并被输出为数据异常312。为了更好地理解以上系统,理解数据的环境和含义是有帮助的。诸如电子主元表和/或OLAP立方体的数据透视是用于商业的关键工具。它们使用户能够快速简便地导航大数据集,,从而便于商业(以及其它)决策。实质上,诸如电子主元表和/或OLAP立方体的数据透视是数据集的n维视图。例如,对应于表格1部分所示数据的电子主元表如表2所示。表格1原始数据表格2数据透视格式在该数据透视中,示出了作为日期和“产品类别”(产品类别)函数的平均销售;且销售在区域(销售区域)上平均。在此示例中,“销售”是目标而“日期”和“产品类别”是显示维,“区域”则是集聚维。在表格2中,集聚是平均值,但是其它的集聚(例如总和、最小值、最大值)是可能的。同一数据集的其它数据透视也是可能的—例如,作为日期和产品类别函数的销售在产品类别上平均。显示的维数可大于2(参见表4)。每一维都可具有分层结构。在此示例中,日期分层结构是年、季度、星期;产品分层结构是产品类别、产品;而地点分层结构是区域、州。诸如电子主元表的数据透视的重要部分是要显示的分层结构层次。在表2中,所显示的层次是日期维中的年,产品维中的产品类别,以及地点维中的区域。用户可深度探究到(显示)维。这对应于在该维分层结构中往下移动一层(参见图5)。用户也可横跨一给定主元表通过根据目前未在主元表的维扩展它来进行探究。例如,表格4示出横跨表2主元表的区域进行探究的结果。主元表也具有包含选择要显示数据的维(如在分层结构中某些层)的页面字段。在表2中,页面字段包含区域层上的地点维。选择了所有区域上的销售。或者,用户可选择特定区域或州的销售。一般而言,数据集的主元表对应于(1)目标,(2)分层结构某些层上的显示维,(3)分层结构上某些层的页面字段维,以及(4)集聚函数。通常,诸如主元表的数据透视中的一个或多个单元可以是异常的。本发明自动检测并显示至少三类单元异常,比如(1)屏幕上异常,(2)横向探究异常,以及(3)深度探究异常等。如果单元在显示于屏幕上的其它数据的环境中异常,则它是屏幕上异常。如果横向探究该单元显露异常,则它是横向探究异常。如果深度探究该单元显露异常,则它是深度探究异常。这些类型的异常如表3所示(除了格式之外与表2一样)。表格3数据透视异常<tablesid="table4"num="004"><tablewidth="204">区域(所有)</table></tables>在表3中,单元eat2/1999是屏幕上异常,因为该单元具有比其行或列中任何其它单元更高的平均销售额。表3中的单元cat2/2001是横向探究异常。异常并不显然,直到用户横向探究数据透视到区域,如下表4所示。表格4横向探究异常在表4中,r3中的销售被示为比r1和r2的低得多。因此,表3中的cat3/2002是深度探究异常。再一次,异常并不显然,直到用户按区域深度探究产品分层结构,如下表5所示。表格5深度探究异常在表5中,prod3中的销售被示为比prod1和prod2的低得多。在这些示例中,屏幕上异常已被高亮,而横向探究和深度探究异常已用边框指出。然而,本领域技术人员将理解许多其它变化是可能的。以下是本发明的自动异常检测的一个示例。术语管道(tube)被用以指其中仅有一维变化的给定数据透视的片断。在二维数据透视中,管道仅对应于行和/或列。某些示例管道在表4的三维主元表中示出,其对应于(1)产品类别变化而日期和区域固定,(2)区域变化而产品类别和日期固定,以及(3)日期变化而产品类别和区域固定。对于由曲线拟合函数计算的单元,如果它远远偏离期望值,则它相对管道异常。与需要数据透视中的值是连续的相反,假设该数据透视是一维的并具有有序的索引。例如,数据透视可以是按时间、距离、或金钱索引的。因而,数据透视的值可以是连续的和/或离散的。然后比如“自回归”曲线拟合方法的曲线拟合方法可被应用于该视角以进行异常检测。在本发明一实例中,通过赋予与期望值偏离量的偏离值可便于异常检测。然后偏离值可与固定阈值比较以确定异常是否存在。例如,用离散数据确定数据透视中被观察值的概率。如果概率相当低,则该数据被示为异常。在本发明另一实例中,管道中连续的维数据与分段线性函数相拟合。如果满足等式1则单元异常|单元中的值-单元预测值|>阈值(等式1)其中该等式的左侧是该单元的偏离值。在本发明又一实例中,管道中离散维数据与自回归模型拟合。如果单元中值的概率比某些阈值小,则单元异常。如上明显可见,本发明对连续数据和离散数据应用不同的曲线拟合函数。然而,有多种方法来确定维是离散还是连续的。例如,用户可指定一选择(例如通过格式命令等将维标以“数字”)。或者,作为另一示例,通过检查数据,可作自动选择(例如利用如由Heckerman在1999年4月23日提交的序列号为09/298,737题为DeterminingWhetheraVariableisNumericorNon-Numeric的美国专利申请)。此例中的三类异常现在对诸如主元表的固定数据透视定义。如果单元相对任一显示管道异常则它是屏幕上异常。其它定义可包括,但不限于,(1)如果单元对于所有管道都异常则它是屏幕上异常,以及(2)如果沿屏幕上所有管道的平均偏离度都超过阈值,则它是屏幕上异常。如果有在非显示维上变化(显示维保持固定)的异常管道,则单元是横向探究异常。如果有在往更深层次向下探究的当前显示维上变化(其它显示维保持固定)的异常管道,则单元是深度探究异常。由定义横向探究和深度探究异常对用户是不可见的。揭露它们的一种机制是使用户能看到为了查看异常需要扩展哪个维和/或分层结构。在某些数据透视应用程序中,这可通过在异常单元上定点装置(例如鼠标)的右键点击来完成。除了指示哪个维和/或分层结构包含异常之外,也可指示异常程度—例如通过根据响应偏离值来对各维和分层结构排序。对于屏幕上异常,用户可能需要单元为什么异常的解释。这由本发明通过显示(高亮)偏离值超过阈值的管道来获得。在某些应用程序中也可通过利用定点装置(例如鼠标)的右键点击来采用该功能。对于阈值,有两种情形要考虑。一,讨论中的单元可向内探究或横向探究,和/或在原始数据中同一单元有多个条目。在此情形中,可利用阈值cσ,其中c是用户控制的常数,而σ是单元的一次或多次扩展所导致的数据的标准偏离。二,如果单元不能被扩展或作为所述阈值的备选项,可将c<预测值>或仅仅c作为阈值使用,其中c还是用户控制的常数。或者,可示出最上面的k个异常,其中k由用户选择。或者,未扩展的任何单元可选择不作标记。从如上所示和所述的示例性系统可见,参照流程图4-5可根据本发明实现的各方法将得到更好的理解。尽管为了进行简单地解释,各方法被示为和描述为一系列框,可以理解本发明并未限于并未限于这些框的顺序,因为根据本发明某些框可以不同顺序发生和/或与在此所示和所述的其它框同时发生。此外,并非所有所示框都是实现根据本发明方法所必须的。本发明可在由一个或多个组件的诸如程序模块的计算机可执行指令的一般环境中说明。一般而言,程序模块包括执行具体任务或实现具体抽象数据结构的例程、程序、组件、数据结构等等。通常,程序模块的功能可按需组合或分布在各个实施例中。在图4中,示出根据本发明一方面便于自动数据透视异常检测的方法400的流程图。方法400通过接收来自仅有一维变化的数据透视的数据片断的管道数据表示(404)在402开始。数据中的异常利用应用于数据的情形拟合函数自动检测(406)。该曲线拟合函数可导出和/或用户指定。异常检测还可通过由系统和/或用户提供的阈值偏离值来促进。阈值偏离值还可依赖于数据异常的种类变化。检测到的异常被输出为数据异常(408),流程结束(410)。参看图5,示出根据本发明一方面便于自动数据透视异常检测的方法500的另一流程图。方法500通过接收来自仅有一维变化的数据透视的数据片断的管道数据表示(504)开始。然后确定哪个函数能最好地表示数据管道的数据(506)。可通过诸如分段线性过程和回归树过程的自回归过程可获取连续和离散数据的函数。也可得到用户提供的该函数。然后基于曲线拟合函数给定的预测值和真实数据值确定偏离值(508)。在数据值被视为错误之前,接收确定所允许偏离量的阈值。阈值可由系统确定或由用户提供。它可以是稳态值和/或动态值。阈值还可依赖于数据异常的类型而变化。然后通过确定哪个数据值具有超过阈值的偏离值来检测数据异常(512),流程结束(514)。通常,数据异常通过诸如高亮、标出轮廓、和/或色彩编码等来传递给用户。然而,也可利用图标和其它图形指示符。指示符适用户能访问发现数据异常的那一层。它们还被用于指示数据异常的类型和/或数据异常的偏离度。本发明其它实例包括无需要查看真实异常数据的用户输入就自动向用户显示数据异常的其它操作。这大大减少了向用户分发的数据,因为要到达并查看该数据异常并不需要用户知道和理解所有的数据层指示符。为了提供本发明诸方面的其它环境,图6和以下论述旨在对本发明诸方面在其中实现的适当计算环境600提供简要、一般的说明。尽管本发明是在运行于本地和/或远程计算机上的计算机可执行指令的一般环境中说明的,本领域技术人员将认识到本发明也可结合其它程序模块和/或作为硬件和软件的组合来实现。通常,程序模块包括执行具体任务或实现具体抽象数据结构的例程、程序、组件、数据结构等等。另外,本领域技术人员将理解本发明的方法也可通过其它计算机系统配置来实践,包括单处理器或多处理器计算机系统、小型计算机、大型计算机、以及个人计算机、手持式计算装置、基于微处理器的或可编程的消费电器等等,其中每个装置在操作上与一个或多个相关联装置耦合。本发明所说明的诸方面也可在分布式计算环境中实践,其中任务由经通信网络连接的远程处理设备执行。然而,本发明的某些(如果不是全部)方面可在单机上实践。在分布式计算环境中,程序模块可置于本地和/或远程存储设备。在本申请中使用时,术语“组件”旨在指计算机相关实体硬件、硬件和软件的组合、软件、或执行中的软件。例如,组件可以是,但不限于是,运行于处理器的过程、处理器、对象、可执行组件、执行线程、程序和/或计算机。作为说明,运行于服务器上的应用和服务器都是组件。此外,组件可包括一个或多个子组件。参照图6,用于实现本发明各方面的示例性系统环境600包括常规计算机602,该计算机602具有处理单元604、系统存储器606、及系统总线608,该系统总线608将包括但不限于系统存储器606的系统组件耦合到处理单元604。处理单元604可以是任何可购买的或适当的处理器。此外,处理单元可被实现为一个以上处理器形式的诸如并行相连的多处理器。系统总线608可以是若干类总线结构的任一种,包括存储器总线或存储器控制器、外围总线、和使用各种比如PCI、VESA、微通道、ISA、EISA的常规总线架构的任一种的局部总线。系统存储器606具有只读存储器(ROM)610和随机存取存储器(RAM)612。包含如起动时在计算机602元件间传送信息的基本例程的基本输入/输出系统(BIOS)614,存储在诸如ROM、EPROM、EEPROM的非易失性存储器610上。计算机602还包括硬盘驱动器616、磁盘驱动器618(例如读取或写入可移动磁盘620)和光盘驱动器622(例如读取或写入CD-ROM624或其它光学介质)。硬盘驱动器616、磁盘驱动器618、和光盘驱动器622分别通过硬盘驱动器接口626、磁盘驱动器接口628、和光盘驱动器接口630与系统总线608相连。驱动器616-622和与之相关联的计算机可读介质向计算机602提供数据、数据结构、计算机可读指令等等的非易失性存储。尽管以上所述的计算机可读介质指向硬盘、可移动磁盘和CD,本领域技术人员将理解,其它类型的计算机可读介质,诸如zip盘、磁带盒、数字视频盘、闪存卡、盒式磁带等等,也能用于示例性操作环境600,而且,任意这种介质可包含执行本发明方法的计算机可执行指令。众多程序模块,包括操作系统632、一个或多个应用程序634、其它程序模块636、和程序数据638,可存储在驱动器616-622和RAM612中。操作系统632可以是任何适当操作系统或操作系统的组合。作为示例,应用程序634可包括根据本发明一个方面的数据透视分析方案。用户可通过如键盘640和定点装置(诸如鼠标642)的一个或多个用户输入装置向计算机602输入命令和信息。其它输入装置(未示出)可包括话筒、游戏杆、游戏垫、卫星接收器、无线遥控器、扫描仪等等。这些和其它输入装置通常通过与系统总线608耦合的串行端口642连接到处理单元604,但也可能通过其它接口相连,如并行端口、游戏端口、通用串行总线(USB)端口等等。监视器646或其它类型显示装置也通过接口,如视频适配器648和系统总线608相连。除了显示器646,计算机602通常包括其它外围输出装置(未示出),如扬声器和打印机等。可以理解,计算机602可以使用与一台或多台远程计算机660的逻辑连接在网络化环境中运行。远程计算机660可以是工作站、服务器计算机、路由器、对等装置或其它公共网络节点,而且通常包括上述与计算机602相关的许多或全部部件,尽管为简化起见在图1中仅显示了存储器存储装置662。图6所示逻辑连接包括局域网(LAN)664和广域网(WAN)666。这样的LAN和WAN网络化环境常见于办公室、企业范围计算机网络、内联网和因特网。当用于LAN网络环境中时,计算机602通过网络接口或适配器668与局域网664连接。当用于WAN网络环境中时,计算机602通常包括调制解调器(例如电话、DSL、电缆等)670、或连接于LAN上的通信服务器、或具有其它用于在广域网666如因特网中建立通讯的装置。可以是内置式或外置式、有线或无线装置的调制解调器670与系统总线608通过串行端口接口644连接。在网络化环境中,程序模块(包括应用程序634)和/或程序数据638可存储在远程存储装置662中。可以理解,所示网络连接是示例性的,且在实现本发明一方面时可使用其它在计算机602和660间建立通信链路的装置。根据本领域技术人员在计算机编程领域中的实践,本发明参照由诸如计算机602或远程计算机660的计算机执行的动作和操作的符号表示来描述,除非另有注明。这种动作和操作有时被称为计算机执行的。可以理解,动作和符号化表示的操作包括由处理单元604对表示数据比特的电子信号的处理,它导致电子信号表示的结果变换或减少,以及数据比特在存储器系统(包括系统存储器606、硬盘616、软盘620、CD-ROM624、以及远程存储器662)的存储器存储单元中的保持,从而重新配置或以其它方式改变计算机系统的操作以及其它的信号处理。保持这种数据比特的存储器存储单元是具有对应于数据比特的特定电子、磁性、或光学属性的物理存储单元。图7是本发明可与之交互的示例性计算环境700的另一框图。系统700还示出包括一个或多个客户机702的系统。客户机702可以是硬件和/或软件(例如线程、进程、计算装置)。系统700还可包括一个或多个服务器704。服务器704也可以是硬件和/或软件(例如线程、进程、计算装置)。例如,服务器704可采用本发明包容线程来执行转换。在客户机702和服务器704间的一可能通信可能是以适于在两个或多个计算机进程间传送的数据包形式进行。系统700包括可用来便于客户机702和服务器704间通信的通信框架709。客户机702可与一个或多个用来存储客户机702本地信息的客户机数据存储710在操作上连接。类似地,服务器704可与一个或多个用来存储对服务器704是本地信息的服务器数据存储器706在操作上连接。在本发明一实例中,便于数据透视分析的数据包在两个或多个数据组件之间传输,该数据包至少部分地包括有关数据透视分析系统的信息,该系统至少部分地利用应用于来自数据管道的数据的曲线拟合过程;数据管道包括具有仅有一数据维变化的数据透视的至少一个数据单元的数据片断。可以理解,本发明的系统和/或方法可在用来便于计算机组件和非计算机相关组件的数据透视分析方案中使用。此外,本领域技术人员将理解,本发明的系统和/或方法可在大量的电子相关
技术领域:
中使用,包括但不限于,计算机、服务器、和/或手持式电子装置等等。以上所述包括本发明的诸多示例。当然,为描述本发明而对组件或方法的每一能想到的组合进行描述是不可能的,但本领域普通技术人员明白,本发明的更多组合和更改是可能的。因此,本发明旨在包含所有这样的落在所附权利要求书精神和范围内的变更、修改、和变化。此外,就用于具体实施方式或权利要求书的术语“具有”而言,这种术语意在以类似于在权利要求书中术语“包括”作连接词的方式作包含意义解。权利要求1.一种便于数据透视分析的系统,其特征在于,包括一组件,接收至少一数据透视;以及一异常检测组件,自动分析所述数据透视以通过应用于来自数据管道的连续和/或离散数据的曲线拟合过程来检测至少一个数据异常;所述数据管道包括其中具有仅有一数据维变化的所述数据透视的至少一个数据单元的数据片断。2.如权利要求1所述的系统,其特征在于,所述曲线拟合过程包括至少部分地采用分段线性函数的过程。3.如权利要求2所述的系统,其特征在于,所述分段线性函数包括至少部分地利用回归树的函数。4.如权利要求1所述的系统,其特征在于,所述曲线拟合过程包括至少部分地采用用于预测数据透视中各值的概率模型的过程,其中所述概率模型以非寻常方式取决于所述数据透视中值的位置。5.如权利要求4所述的系统,其特征在于,所述概率模型包括自回归模型。6.如权利要求1所述的系统,其特征在于,所述数据异常包括基于数据值与在所述数据管道中发现的其它数据值的较大偏离的异常。7.如权利要求6所述的系统,其特征在于,所述较大偏离基于超过给定阈值的至少一个偏离值。8.如权利要求7所述的系统,其特征在于,所述偏离值至少部分地基于数据单元值与所述数据单元的预测值的比较,所述预测值从包含所述数据单元的数据管道的分段线性函数表示中导出。9.如权利要求7所述的系统,其特征在于,所述偏离值至少部分地基于数据单元值与所述数据单元的预测值的比较,所述预测值从用于预测所述数据透视中离散值的概率模型中导出,其中所述概率模型以非寻常方式取决于所述数据透视中值的位置。10.如权利要求7所述的系统,其特征在于,所述给定阈值包括从包括动态阈值和静态阈值的所述组中选取的至少一个。11.如权利要求10所述的系统,其特征在于,所述给定阈值包括从用户定义阈值和系统定义阈值的所述组中选取的至少一个。12.如权利要求11所述的系统,其特征在于,还包括提供用于不同数据异常类型的多个可选择用户定义阈值的一用户界面组件。13.如权利要求1所述的系统,其特征在于,所述数据透视包括从包括主元表和在线分析处理(OLAP)立方体的所述组中选取的至少之一。14.如权利要求1所述的系统,其特征在于,还包括向至少一个用户指示所述数据异常的一用户界面组件。15.如权利要求14所述的系统,其特征在于,所述用户界面组件通过从包括可视指示和可听指示的所述组中选取的至少之一来指示所述数据异常。16.如权利要求14所述的系统,其特征在于,所述用户界面组件通过利用从包括高亮至少一即时异常和勾划出至少一隐藏异常轮廓的所述组中选取的至少之一来便于所述数据异常的指示。17.如权利要求14所述的系统,其特征在于,所述用户界面组件包括带有基于至少一个数据异常程度调整指示级别的用户输入控制的用户界面。18.如权利要求14所述的系统,其特征在于,所述用户界面包括组件便于通过至少一个数据异常的自动屏幕上显示来指示所述数据异常。19.一种用于便于数据透视分析的方法,其特征在于,包括接收至少一个数据透视;从所述数据透视建立一数据管道;所述数据管道包括其中具有仅有一数据维变化的所述数据透视的至少一个数据单元的数据片断;确定可表示来自所述数据管道的连续和/或离散数据的曲线拟合函数;至少部分地基于真实值和由所述曲线拟合函数给出的预测数据值的差异,来计算偏离值;以及通过所述偏离值的估算和检测准则来检测数据异常。20.如权利要求19所述的方法,其特征在于,所述曲线拟合函数包括用户可选择的曲线拟合函数。21.如权利要求19所述的方法,其特征在于,还包括根据其可访问性来将所述数据异常分类;以及利用一组异常可访问性指示符向用户显示所述数据异常。22.如权利要求21所述的方法,其特征在于,还包括利用用户可选择的数据异常计数k限制向用户显示的所述数据异常,所述计数k基于其偏离值将所述数据异常限制为最上面的k个异常。23.如权利要求21所述的方法,其特征在于,还包括向用户自动显示屏幕上的至少一个数据异常。24.如权利要求21所述的方法,其特征在于,所述异常可访问性指示符包括从具有屏幕上指示符、深度探究指示符、以及横向探究指示符的所述组合中选择的至少一个指示符。25.如权利要求19所述的方法,其特征在于,所述数据透视包括从包括主元表和在线分析处理(OLAP)立方体的所述组中选取的至少之一。26.如权利要求19所述的方法,其特征在于,所述检测准则包括一阈值。27.如权利要求26所述的方法,其特征在于,所述偏离值的估算包括确定偏离值是否超过所述阈值。28.如权利要求26所述的方法,其特征在于,所述阈值包括从包括动态阈值和静态阈值的所述组中选取的至少一个。29.如权利要求28所述的方法,其特征在于,所述阈值包括从用户定义阈值和系统定义阈值的所述组中选取的至少一个。30.如权利要求29所述的方法,其特征在于,还包括根据数据异常的类型调整所述用户定义阈值。31.如权利要求26所述的方法,其特征在于,所述曲线拟合过程包括至少部分地利用分段线性函数的过程。32.如权利要求31所述的方法,其特征在于,所述分段线性函数包括至少部分地利用回归树的函数。33.如权利要求26所述的方法,其特征在于,所述曲线拟合过程包括至少部分地采用用于预测数据透视中各离散值的概率模型的过程,其中所述概率模型以非寻常方式取决于所述数据透视中值的位置。34.如权利要求33所述的方法,其特征在于,所述概率模型包括一至少部分地利用自回归模型的函数。35.一种便于数据透视分析的系统,其特征在于,包括一装置,用于接收至少一数据透视;以及一装置,用于自动分析所述数据透视以通过应用于来自数据管道的连续和/或离散数据的曲线拟合过程来检测至少一个数据异常;所述数据管道包括其中具有仅有一数据维变化的所述数据透视的至少一个数据单元的数据片断。36.一种在两个或多个计算机组件之间传输的便于数据透视分析的数据包,其特征在于,所述数据包至少部分地包括与数据透视分析系统相关的信息,所述系统至少部分地利用应用于来自数据管道的连续和/或离散数据的曲线拟合过程;所述数据管道包括其中具有仅有一数据维变化的所述数据透视的至少一个数据单元的数据片断。37.一种计算机可读介质,具有存储其上的如权利要求1所述的系统的计算机可执行组件。38.一种采用如权利要求19所述的方法的装置,其特征在于,包括从包括计算机、服务器、以及手持式电子装置的所述组合中选取的至少之一。39.一种采用如权利要求1所述的方法的装置,其特征在于,包括从包括计算机、服务器、以及手持式电子装置的所述组合中选取的至少之一。全文摘要本发明利用曲线拟合数据技术来提供从数据透视中自动检测“数据管道”中的数据异常,从而允许在例如主元表和/或OLAP立方体中进行诸如屏幕上、深度探究、以及横向探究数据异常的数据异常检测。它确定数据是否大大偏离由例如应用于数据管道的分段线性函数的曲线拟合过程所建立的预测值。本发明可采用阈值以便于在数据值被视为异常之前确定必须的偏离度。该阈值可由系统和/或用户通过用户界面动态和/或静态地提供。此外,本发明向用户提供对从顶层数据透视检测到的异常的类型和位置的指示。文档编号G01G23/01GK1713182SQ200510075848公开日2005年12月28日申请日期2005年5月27日优先权日2004年6月23日发明者A·福尔廷,B·西森,D·E·黑克曼,D·M·齐科林,E·B·威戈萨申请人:微软公司