管理事故池以进行事件和警报分析的方法和系统的制作方法

文档序号:6437086阅读:220来源:国知局
专利名称:管理事故池以进行事件和警报分析的方法和系统的制作方法
技术领域
本发明涉及数据处理,更具体地说,涉及在分布式处理系统中与事件和警报抑制有关的相关警报传送以及管理事故池以进行事件和警报分析的方法、系统和产品。
背景技术
1948年EDVAC计算机系统的开发通常被认为是计算机时代的开始。从此之后,计算机系统逐渐演变为非常复杂的设备。今天的计算机比诸如EDVAC之类的早期系统要复杂的多。计算机系统一般由硬件组件及软件组件、应用程序、操作系统、处理器、总线、存储器、 输入/输出设备等组合而成。由于半导体工艺和计算机体系结构的发展促使计算机的性能不断提高,因此开发了更复杂的计算机软件以充分利用更高的硬件系统性能,从而使得今天的计算机系统比仅仅几年前的系统功能强大得多。执行密集计算的现代分布式处理系统可具有数百万的设备,每个设备上有许多进程在运行,所有这些进程都能报告错误和状态以自动恢复错误、向系统管理员报告以及执行其他任务。在许多情况下,例如当出现错误时,此类错误报告和状态报告的绝对数量如此之大,以致于无法通过有意义的方式来处理。例如,收到几十万个错误报告的系统管理员会被这么多的报告弄得不知所措,因此总地来说,这些报告变得越来越无用和无关。

发明内容
提供了在分布式处理系统中管理事故池以进行事件和警报分析的方法、系统和计算机程序产品,包括由事故分析器从事故队列接收来自所述分布式处理系统的一个或多个组件的多个事故;由所述事故分析器创建事故池,所述池具有预定初始时段;由所述事故分析器将每个接收的事故分配到所述池;由所述事故分析器向每个事故分配包含在池中的预定最短时间;对于所述事故中的一个或多个事故,由所述事故分析器将所述池的所述预定初始时段延长被分配给所述事故的特定时段;由所述事故分析器判定是否满足关闭所述池的条件;以及如果满足关闭所述池的条件,则针对所述池中的每个事故判定该事故是否已在所述池中达到该事故的包含在池中的预定最短时间;以及如果该事故已在所述池中达到该事故的预定最短时间,则将该事故包括在关闭后的池中;以及如果该事故未在所述池中达到该事故的预定最短时间,则从关闭后的池驱逐该事故并将该事故包括在下一池中。通过下面对附图中所示的本发明的示例性实施例的更具体的描述,本发明的上述和其他目标、特征和优点将是显而易见的,在附图中,相同的标号通常表示本发明的示例性实施例的相同部分。


图I示出根据本发明的实施例的在分布式处理系统中通过事件和警报抑制实现相关警报传送的示例性系统;
图2示出包括在根据本发明的实施例通过事件和警报抑制实现相关警报传送中使用的示例性计算机的自动计算机器的方块图;图3示出根据本发明的实施例的在分布式处理系统中通过事件和警报抑制实现相关警报传送的示例性系统的方块图;图4是示出根据本发明的实施例的将事件分配到事件池的示意图;图5是示出根据本发明的实施例的将警报分配到警报池的示意图;图6是示出根据本发明的实施例的通过事件和警报抑制实现相关警报传送的实例方法的流程图;图7是示出根据本发明的实施例的在分布式处理系统中管理事故池以进行事件和警报分析的示例性方法的流程图;图8是示出根据本发明的实施例的在分布式处理系统中管理事故池以进行事件和警报分析的附加方法的流程图;以及图9是示出根据本发明的实施例的在分布式处理系统中管理事故池以进行事件和警报分析的附加方法的流程图。
具体实施例方式参考从图I开始的附图描述了根据本发明的实施例在分布式处理系统中管理事故池以进行事件和警报分析以及相关警报传送的示例性方法、系统和计算机程序产品。图 I示出根据本发明的实施例的在分布式处理系统中管理事故池以进行事件和警报分析以及相关警报传送的示例性系统。分布式处理系统通常实现为多个通过计算机网络通信的自主或半自主计算机。在此类实例分布式处理系统中,计算机经常彼此交互以便实现共同的目标。此类实例分布式系统中运行的计算机程序一般被称为分布式程序,经常使用分布式编程来描述编写此类程序的过程。在图I的实例中,分布式处理系统(101)实现为并行计算机(100),所述计算机的非易失性存储器采取数据存储设备(118)的形式,所述计算机的输出设备采取打印机
(120)的形式,以及所述计算机的输入/输出设备采取计算机终端(122)的形式。图I的实例中的并行计算机(100)还包括多个计算节点(102)。每个计算节点是包括一个或多个计算机处理器、其自己的计算机存储器以及其自己的输入/输出功能的自动计算设备。各计算节点(102)被耦合以通过包括高速以太网络(174)、联合测试行动小组(‘JTAG’ )网络(104)、针对集合操作优化的树状网络(106)以及针对点对点操作优化的环状网络(108) 的若干独立数据通信网络进行数据通信。树状网络(106)是包括与计算节点相连以将所述计算节点组织为树的数据通信链路的数据通信网络。每个数据通信网络都通过计算节点
(102)之间的数据通信链路来实现。数据通信链路为并行计算机的计算节点之间的并行操作提供数据通信。除了计算节点以外,计算机(100)还包括通过数据通信网络(174)之一与计算节点(102)相连的输入/输出(‘I/O’)节点(110、114)。I/O节点(110、114)在计算节点(102)与I/O设备(118、120、122)之间提供I/O服务。I/O节点(110、114)被连接以通过局域网(‘LAN’)(130)进行数据通信。计算机(100)还包括通过网络(104)之一与计算节点耦合的服务节点(116)。服务节点(116)提供对多个计算节点通用的服务、将程序载入计算节点、在计算节点上启动程序执行、在计算节点上检索程序操作的结果等。服务节点(116)运行服务应用(124)并通过在计算机终端(122)上运行的服务应用接口(126)与用户(128)通信。图I的分布式处理系统的许多组件(即,图I的分布式处理系统的设备或在分布式处理系统的设备上运行的进程)能够通过事件执行某种形式的错误或状态报告并且许多此类组件还能够响应于一个或多个此类事件而接收警报。通常在根据本发明的实施例使用的分布式处理系统中,数十万或数百万的组件通常可以以事件的形式提供事故或接收警报。本说明书中使用的通用术语“事故”指分布式处理系统的某个组件的诸如下面描述的事件之类的特定事件的识别或通知,事件的精细识别经常基于诸如下面描述的警报之类的事件,或者本领域的技术人员将想到的其他通知。根据本发明的各实施例,在池中管理事故以便进行事件和警报分析。事故池是按事故发生的时间、事故被记录在事故队列中的时间、包括在池中的时间,或本领域的技术人员将想到的其他时间来组织的事故集合。图I的服务节点(116)上安装有事件和警报分析模块(124),模块(124)包括至少两个事故分析器,所述事故分析器实现为能够根据本发明的实施例在分布式处理系统中管理事故池以进行事件和警报分析的事件分析器和警报分析器。事件和警报分析模块(124) 实现为能够执行以下操作的自动计算机器接收来自分布式处理系统的一个或多个组件的多个事故;创建事故池,所述池具有预定初始时段;将每个接收的事故分配到池;向每个事故分配包含在池中的预定最短时间;对于所述事故中的一个或多个事故,将所述池的所述预定初始时段延长被分配给所述事故的特定时段;判定是否满足关闭所述池的条件;以及如果满足关闭所述池的条件,则针对所述池中的每个事故判定该事故是否已在所述池中达到该事故的包含在池中的预定最短时间;以及如果该事故已在所述池中达到该事故的预定最短时间,则将该事故包括在关闭后的池中;以及如果该事故未在所述池中达到该事故的预定最短时间,则从关闭后的池驱逐该事故并将该事故包括在下一池中。事件和警报分析模块(124)还能够根据本发明的实施例在分布式处理系统中通过事件和警报抑制实现相关警报传送。图I的事件和警报分析模块(124)实现为能够执行以下操作的自动计算机器在事件队列中接收来自分布式处理系统的一个或多个组件的多个事件;由事件分析器将每个接收的事件分配到事件池;其中所述事件分析器包括事件分析规则,所述事件分析规则包括事件到达规则、事件池操作规则、事件抑制规则以及事件池关闭规则;由所述事件分析器根据所述事件到达规则和分配到所述事件池的事件识别一个或多个警报;由所述事件分析器根据所述事件池操作规则关闭所述事件池;由所述事件分析器根据所述事件抑制规则判定是否抑制关闭后的事件池中的一个或多个事件;以及由所述事件分析器根据所述事件池关闭规则和分配到所述事件池的任何未抑制事件识别一个或多个其他警报;由所述事件分析器将所述事件分析器所识别的所有警报发送给警报分析器;由所述警报分析器将所识别的警报分配到警报池;由所述警报分析器根据警报分析规则和所述警报池中的警报判定是否抑制任何警报;以及将未抑制的警报传输到所述分布式处理系统的一个或多个组件。在某些实施例中,将未抑制的警报传输到分布式处理系统的一个或多个组件。一个此类组件可以是向系统管理员进行显示的终端(122)。其他组件可以包括生成事件的组件、用于错误报告的组件、用于自动错误恢复的组件或本领域的技术人员将想到的任何其他组件。图I的事件和警报模块(124)使得诸如在任何时刻接收的事件和产生的警报之类的事故数不会给尝试识别分布式处理系统中的问题或事件的系统管理员(128)带来太大困扰。根据本发明的实施例管理事故池以进行事件和警报分析以及通过事件和警报抑制实现相关警报传送提供了用户在确定如何管理与分布式处理系统关联的功能和错误中更有意义的警报。图I中所示的构成示例性分布式处理系统的节点、网络和I/O设备的布置仅用于说明,并非对本发明进行限制。能够根据本发明的实施例管理事故池以进行事件和警报分析以及实现相关警报传送的分布式数据处理系统可以包括图I中未示出的本领域技术人员将想到的其他节点、网络、设备和体系结构。图I的实例中的并行计算机(100)包括十六个计算节点(102);能够根据本发明的实施例实现相关警报传送的并行计算机有时包括数以千计的计算节点。除了以太网和JTAG之外,此类数据处理系统中的网络还可支持许多数据通信协议,包括例如TCP(传输控制协议)、IP(网际协议)以及本领域的技术人员将想到的其他协议。除图I中示出的那些平台以外,本发明的各种实施例还可以在多种硬件平台上实现。根据本发明管理事故池以进行事件和警报分析以及通过事件和警报抑制实现相关警报传送一般使用计算机实现,也就是说,使用自动计算机器实现。在图I的系统中,例如,并行计算机的所有服务节点、I/o节点、计算节点在某种程度上至少实现为计算机。因此,为了进一步说明,图2示出包括在根据本发明的实施例实现相关警报传送中使用的示例性计算机(152)的自动计算机器的方块图。图2的计算机(152)包括至少一个计算机处理器(156)或‘CPU’以及随机存取存储器(168) ( ‘RAM’),随机存取存储器(168)通过高速存储总线(166)和总线适配器(158)与处理器(156)和计算机(152)的其他组件相连, 以及通过扩展总线与适配器相连以便与分布式处理系统(101)的其他组件通信。RAM(168)中存储有事件和警报分析模块(124),模块(124)是根据本发明的实施例实现相关警报传送的自动计算机器的模块。事件和警报分析模块(124)包括两个根据本发明的实施例的事故分析器。所述事故分析器包括事件分析器(208)和警报分析器(218)。 事件分析器(208)和警报分析器均能够根据本发明的实施例在分布式处理系统中管理事故池以进行事件和警报分析。所述事件分析器根据本发明的实施例管理事件池,其方式为由所述事件分析器从事件队列接收来自所述分布式处理系统的一个或多个组件的多个事件;由所述事件分析器创建事件池,所述池具有预定初始时段;由所述事件分析器将每个接收的事件分配到所述池;由所述事件分析器向每个事件分配包含在池中的预定最短时间;对于所述事件中的一个或多个事件,由所述事件分析器将所述池的所述预定初始时段延长被分配给所述事件的特定时段;由所述事件分析器判定是否满足关闭所述池的条件; 以及如果满足关闭所述池的条件,则针对所述池中的每个事件判定该事件是否已在所述池中达到该事件的包含在池中的预定最短时间;以及如果该事件已在所述池中达到该事件的预定最短时间,则将该事件包括在关闭后的池中;以及如果该事件未在所述池中达到该事件的预定最短时间,则从所述关闭后的池驱逐该事件并将该事件包括在下一池中。所述警报分析器根据本发明的实施例管理警报池,其方式为由警报分析器从警报队列接收来自分布式处理系统的一个或多个组件的多个警报;由所述警报分析器创建警报池,所述池具有预定初始时段;由所述警报分析器将每个接收的警报分配到所述池;由所述警报分析器向每个警报分配包含在池中的预定最短时间;对于所述警报中的一个或多个警报,由所述警报分析器将所述池的所述预定初始时段延长被分配给所述警报的特定时段;由所述警报分析器判定是否满足关闭所述池的条件;以及如果满足关闭所述池的条件,则针对所述池中的每个警报判定该警报是否已在所述池中达到该警报的包含在池中的预定最短时间;以及如果该警报已在所述池中达到该警报的预定最短时间,则将该警报包括在关闭后的池中;以及如果该警报未在所述池中达到该警报的预定最短时间,则从关闭后的池驱逐该警报并将该警报包括在下一池中。图2的事件分析器是能够根据接收的事件识别警报的自动计算机器的模块。也就是说,事件分析器通常接收事件并产生警报。在许多实施例中,并行实现多个事件分析器。 通常将此类事件分析器分配给特定的事件池并且此类事件分析器可关注来自特定组件或由特定事件导致的事件以产生更简洁的警报集。图2的警报分析器是能够识别从事件和其他警报传输的警报、能够识别要传输的其他警报,以及能够抑制事件分析器所识别的不必要的、无关的或不需要的警报的自动计算机器的模块。也就是说,警报分析器一般接收警报和事件并根据这些警报和事件产生或转发警报。在许多实施例中,并行实现多个警报分析器。通常将此类警报分析器分配给特定的警报池并且此类警报分析器可关注具有特定属性的警报以产生更简洁的警报集。图2的事件和警报分析模块(124)包括执行以下操作的计算机程序指令在事件队列中接收来自分布式处理系统(101)的一个或多个组件(例如,100、182、181、180和 170)的多个事件;由事件分析器(208)将每个接收的事件分配到事件池;由事件分析器 (208)根据事件到达规则和分配到所述事件池的事件识别一个或多个警报;由事件分析器 (208)根据事件池操作规则关闭所述事件池;由事件分析器(208)根据事件抑制规则判定是否抑制关闭后的事件池中的一个或多个事件;由事件分析器(208)根据事件池关闭规则和分配到所述事件池的任何未抑制事件识别一个或多个其他警报;由事件分析器(208)将事件分析器所识别的所有警报发送给警报分析器(218);由警报分析器(218)将所识别的警报分配到警报池;由警报分析器(218)根据警报分析规则和警报池中的警报判定是否抑制任何警报;以及将未抑制的警报传输(420)到分布式处理系统的一个或多个组件。RAM(168)中还存储有操作系统(154)。用于根据本发明的实施例实现相关警报传送的操作系统包括UNIX 、LinuxTM、Microsoft XP 、AIX 、IBM的i5/0S 以及本领域的技术人员将想到的其他操作系统。图2的实例中的操作系统(154)、事件和警报分析模块(124)、 事件分析器(208)、警报分析器(218)被示为位于RAM(168)中,但是此类软件的许多组件一般也存储在非易失性存储器中,例如,存储在盘驱动器(170)上。图2的计算机(152)包括通过扩展总线(160)和总线适配器(158)与处理器(156) 以及计算机(152)的其他组件相连的盘驱动器适配器(172)。盘驱动器适配器(172)以盘驱动器(170)的形式将非易失性数据存储装置连接到计算机(152)。在计算机中用于根据本发明的实施例实现相关警报传送的盘驱动器适配器包括集成驱动电子设备(‘IDE’ )适配器、小型计算机系统接口( ‘SCSI’)适配器以及本领域的技术人员将想到的其他适配器。 非易失性计算机存储器还可以实现为本领域的技术人员将想到的光盘驱动器、电可擦写可编程只读存储器(所谓的“EEPR0M”或闪存)、RAM驱动器等。图2的实例计算机(152)包括一个或多个输入/输出(‘I/O’)适配器(178)。I/ O适配器通过例如控制到诸如计算机显示屏之类的显示设备的输出以及控制来自诸如键盘和鼠标之类的输入设备(181)的用户输入的软件驱动器和计算机硬件来实现面向用户的输入/输出。图2的实例计算机(152)包括视频适配器(209),适配器(209)是专门设计为将图形输出到诸如显示屏或计算机监视器之类的显示设备(180)的I/O适配器的实例。视频适配器(209)通过高速视频总线(164)、总线适配器(158)以及前端总线(162)(也称为高速总线)与处理器(156)相连。图2的示例性计算机(152)包括用于与其他计算机(182)进行数据通信以及用于与数据通信网络(100)进行数据通信的通信适配器(167)。此类数据通信可以通过RS-232 连接、通过诸如通用串行总线(‘USB’ )之类的外部总线串行地执行、通过诸如IP数据通信网络之类的数据通信网络以及本领域的技术人员将想到的其他方式执行。通信适配器实现硬件级数据通信,通过此硬件级数据通信,一台计算机可以直接地或通过数据通信网络将数据通信发送给另一计算机。用于根据本发明的实施例实现相关警报传送的通信适配器实例包括用于有线拨号通信的调制解调器、用于有线数据通信网络通信的以太网(IEEE 802. 3)适配器,以及用于无线数据通信网络通信的802. 11适配器。为了进一步说明,图3示出根据本发明的实施例在分布式处理系统(102)中管理事故池以进行事件和警报分析以及实现相关警报传送的示例性系统的方块图。图4的方法包括在事件队列(206)中接收来自分布式处理系统(102)的一个或多个组件的多个事件 (202)。根据本发明的实施例的分布式处理系统的组件可以是分布式处理系统的设备或在分布式处理系统的设备上运行的进程。此类组件通常能够进行某种形式的事件传输,以便执行错误或状态报告。根据本发明的实施例的事件是分布式处理系统的组件上或组件中的特定事件的通知。根据本发明,将此类事件从发生该事件的组件或另一报告组件发送到事件和警报分析模块。事件通常是数据处理系统的组件中发生的错误的通知。事件经常实现为通过数据通信网络或共享存储器发送的消息。根据本发明的实施例的用于事件和警报分析的典型事件具有发生时间、记录时间、事件类型、事件ID、报告组件、源组件以及其他属性。发生时间是组件上发生事件的时间。记录时间是将事件包括在事件队列(206)中的时间,通常由图3的实例中的监视器(204)插入事件内。事件类型是事件的通用类型,例如电源错误、链路故障错误、与未收到消息或丢弃分组相关的错误以及本领域的技术人员将想到的其他错误。事件ID是事件的唯一标识。报告组件是报告该事件的组件的标识。源组件是发生事件的组件的标识。在许多情况下(但不是全部),报告组件和源组件是分布式处理系统的同一组件。在图3的实例中,事件和警报分析模块(124)包括接收来自分布式处理系统的组件的事件以及将接收的事件(202)放入事件队列(206)的监视器(204)。图3的监视器 (204)可以在事件运动中接收来自分布式处理系统的组件的事件、可以定期轮询分布式处理系统的一个或多个组件,或者以本领域的技术人员将想到的其他方式接收来自组件的事件。图3的系统包括事件分析器(208)。图3的事件分析器(208)是能够根据接收的
10事件识别警报的自动计算机器的模块。也就是说,事件分析器通常接收事件并产生警报。在许多实施例中,并行实现多个事件分析器。通常将事件分析器分配给特定的事件池并且此类事件分析器可关注来自特定组件或由特定事件导致的事件以产生更简洁的警报集。图3的事件分析器(208)将每个接收的事件(202)分配到事件池(212)。事件池 (212)是按事件发生的时间、事件被记录在事件队列中的时间、包括在事件池中的时间或本领域的技术人员将想到的其他时间来组织的事件集合。也就是说,事件池是按时间组织的事件集合。此类事件池经常提供分析一组与时间相关的事件以及根据所述事件识别警报的能力。此类事件池经常用于根据多个相关的事件识别更少和更多的相关警报。根据本发明的各实施例,事件池(212)由事件分析器(208)来管理。事件分析器根据本发明的实施例管理事件池,其方式为由事件分析器从事件队列接收来自分布式处理系统的一个或多个组件的多个事件;由事件分析器创建事件池,所述池具有预定初始时段; 由事件分析器将每个接收的事件分配到所述池;由事件分析器向每个事件分配包含在池中的预定最短时间;对于所述事件中的一个或多个事件,由事件分析器将所述池的所述预定初始时段延长被分配给所述事件的特定时段;由事件分析器判定是否满足关闭所述池的条件;以及如果满足关闭所述池的条件,则针对所述池中的每个事件判定该事件是否已在所述池中达到该事件的包含在池中的预定最短时间;以及如果该事件已在所述池中达到该事件的预定最短时间,则将该事件包括在关闭后的池中;以及如果该事件未在所述池中达到该事件的预定最短时间,则从关闭后的池驱逐该事件并将该事件包括在下一池中。如上所述,根据图3的方法的事件池具有预定初始时段,并且在图3的实例中,由事件分析器将每个接收的事件分配到事件池包括对于分配到事件池的每个事件,将所述预定初始时段延长分配给该事件的特定时段。通过这种方式,使用每个接收的事件延长池, 直到将可用于识别警报的事件集合分配到事件池。如上所述,在本发明的某些实施例中,多个事件分析器可以并行工作。这样,每个事件分析器可以维护一个或多个事件池以根据本发明的实施例实现相关警报传送。因此, 由事件分析器将事件分配到事件池可包括仅选择来自一个或多个特定组件的事件。在此类实施例中,可针对特定事件池选择特定组件以提供来自一个或多个组件的特定集合的与特定时段关联的事件。由事件分析器将事件分配到事件池还可以通过仅选择具有特定事件类型的事件来实现。在此类实施例中,可以针对特定事件池选择特定事件以提供来自特定事件类型集合的与特定时段关联的事件。图3的实例中的事件分析器(208)根据事件分析规则(210)和分配到事件池的事件识别一个或多个警报(214)。事件分析规则(210)是用于有目的地分析接收的事件以根据所述事件识别相关警报的预定规则集合。图3的事件分析规则(210)包括事件到达规则(230)、事件池操作规则(232)、事件抑制规则(234)以及事件池关闭规则(236)。事件到达规则(230)是用于在事件被分配到事件池时根据所述事件实时识别警报的可配置预定规则。也就是说,事件到达规则(230) 在关闭事件池之前根据事件识别警报。此类规则通常被预先确定以根据这些事件的属性识别特定警报。事件到达规则可以例如规定根据事件的特定事件类型或组件类型或该事件的其他属性识别要传输给系统管理员的特定预定警报。此类规则是灵活的并可以适合特定分布式计算系统及其功能的需要。根据本发明的各实施例的警报是根据一个以上的事件对事件发生(例如错误)的精细识别并因此在分布式处理系统内在事件工作的上下文中提供了事件发生的识别。通常,警报是根据从数据处理系统的一个或多个组件接收的多个事件识别的特定错误类型事件的通知,所述事件例如是多个设备之间的链路故障(每个设备都基于单个链路故障而产生许多事件)或引起数以千计的事件的电源故障等。警报经常实现为要通过数据通信网络或共享存储器发送的消息。根据本发明的各实施例的典型警报具有附加到所述警报的属性,基于从标识警报的事件所接收的事件属性将属性附加到警报。事件池操作规则(232)是用于控制事件池的操作的可配置预定规则。此类规则包括识别每个事件池的初始预定时段的规则、规定在将每个新事件分配到池时为池延长的时长的规则、规定在关闭池时将事件包括在事件集合中之前事件必须在池中的最短时间的规则、管理事件池的关闭的规则,以及本领域的技术人员将想到的其他规则。此类规则是灵活的并可以适合特定分布式计算系统及其功能的需要。事件抑制规则(234)是用于抑制在识别警报时使用的关闭后的事件池中的一个或多个事件的可配置预定规则。也就是说,关闭后的事件池中的事件经常是识别警报时的重复事件、冗余事件或不必要的或无用的事件。此类抑制规则通常被预先确定以删除、丢弃或以其他方式忽略那些被抑制的事件。事件抑制规则可以例如规定要抑制多于阈值数量的特定事件类型或组件类型的事件。此类规则也是灵活的并可以适合特定分布式计算系统及其功能的需要。事件池关闭规则(236)是用于根据关闭后的事件池中的未抑制事件和由事件到达规则识别的警报来识别警报的可配置预定规则。也就是说,事件池关闭规则根据关闭后的事件池中的一个或多个或甚至所有未抑制事件来识别新的警报。事件池关闭规则还根据事件到达规则(230)所识别的警报或事件到达规则(230)所识别的警报和关闭后的事件池中的一个或多个未抑制事件的组合来识别警报。图3的实例中的事件分析器(208)将事件分析器(208)所识别的所有警报(214) 发送给警报分析器(218)。图3的警报分析器是能够从事件和其他警报识别要传输的警报、 能够识别要传输的附加警报,以及能够抑制事件分析器所识别的不必要的、无关的或不需要或无用的警报的自动计算机器的模块。也就是说,警报分析器通常接收警报和事件并根据这些警报和事件产生或转发警报。在许多实施例中,并行实现多个警报分析器。将图3的实例中的警报(216)通过警报队列(216)从事件分析器(208)发送到警报分析器(218)。图3的警报分析器(218)将每个所识别的警报(214)分配到警报池(224)。警报池(224)是按导致识别警报的一个或多个事件的时间、识别警报的时间或本领域的技术人员将想到的其他时间组织的警报集合。也就是说,警报池是按时间组织的警报的集合。此类警报池经常提供根据某个时间分析被识别和包括在警报池中的一组警报的能力。此类事件池经常用于根据多个相关的事件和多个相关的警报识别更少和更多的相关警报。警报分析器根据本发明的实施例管理警报池,其方式为由警报分析器从警报队列接收来自分布式处理系统的一个或多个组件的多个警报;由所述警报分析器创建警报池,所述池具有预定初始时段;由所述警报分析器将每个接收的警报分配到所述池;由所述警报分析器向每个警报分配包含在池中的预定最短时间;对于所述警报中的一个或多个警报,由所述警报分析器将所述池的所述预定初始时段延长被分配给所述警报的特定时段;由所述警报分析器判定是否满足关闭所述池的条件;以及如果满足关闭所述池的条件,则针对所述池中的每个警报判定该警报是否已在所述池中达到该警报的包含在池中的预定最短时间;以及如果该警报已在所述池中达到该警报的预定最短时间,则将该警报包括在关闭后的池中;以及如果该警报未在所述池中达到该警报的预定最短时间,则从关闭后的池驱逐该警报并将该警报包括在下一池中。警报分析器可以根据警报的属性或从中识别这些警报的事件的属性将识别的警报分配到警报池(224)。例如,图3的警报分析器可以通过选择从来自一个或多个特定组件的事件生成的警报、与特定警报类型关联的警报以及本领域的技术人员将想到的其他警报来将警报分配到警报池(224)。图3的警报分析器(218)根据警报分析规则(222)和警报池中的警报判定是否抑制任何警报。通常通过丢弃警报、删除警报或以其他方式忽略警报或不将抑制的警报传输到分布式处理系统的组件来实现抑制警报。警报分析规则(222)是用于抑制一个或多个警报以提供更相关的警报集以便传输到分布式处理系统的组件(例如,以便显示给系统管理员)以及识别附加警报以便传输到分布式处理系统的一个或多个组件的规则的集合。例如,警报分析规则可以规定抑制重复警报、抑制传输到特定组件的特定类型的警报以及抑制本领域的技术人员将想到的其他警报。此类警报对于进行自动错误恢复的分布式处理系统的组件或对于不能通过大量原始的未分析警报以其他方式了解更多信息的系统管理员而言更有用。图3的警报分析器(218)还可访问事件队列(206)。在某些实施例中,图3的依赖于警报分析规则的警报分析器(218)可以选择事件队列中的事件并根据所选事件判定是否抑制任何警报。也就是说,警报分析规则还考虑了事件及其属性以便抑制警报和识别要传输到一个或多个组件的附加警报。此类事件可能与警报池中的警报相关,也可能与此类警报无关。图3的警报分析器(218)将未抑制的警报传输到分布式处理系统的一个或多个组件。警报分析器可以通过数据通信网络、通过共享存储器或以本领域的技术人员将想到的其他方式作为消息发送警报来将未抑制的警报传输到分布式处理系统的一个或多个组件。 在图3的实例中,未抑制的警报(220)被传输到终端(122)以显示给系统管理员(128)。图3的警报分析器(218)还能够根据警报分析规则(222)、警报池(224)中的警报以及选定事件(206)识别一个或多个附加警报并将所述警报传输到分布式处理系统的一个或多个组件。附加警报可包括未由事件分析器识别的一个或多个警报。此类附加警报可为系统管理员将附加信息提供给分布式处理系统的组件。如上所述,根据本发明的相关警报传送包括将事件分配到事件池以及根据本发明的实施例管理这些池。为了进一步说明,图4是示出根据本发明的实施例将事件分配到事件池的示意图。事件池(212)是按事件发生的时间、事件被记录在事件队列中的时间、包括在事件池中的时间,或本领域的技术人员将想到的其他时间组织的事件集合。也就是说,事件池是按时间组织的事件的集合。此类事件池经常提供分析一组时间相关的事件以及根据这些事件识别警报的能力。此类事件池经常用于根据多个相关的事件识别更少和更多的相关警报。根据本发明的实施例的事件池通常根据本身经常包括在事件分析规则中的事件池操作规则来执行操作。此类事件池操作规则是用于控制事件池操作的可配置预定规则。 此类规则包括识别每个事件池的初始预定时段的规则、规定在将每个新事件分配到池时为池延长的时长的规则、规定在关闭池时将事件包括在事件集合中之前事件必须在池中的最短时间的规则、管理事件池的关闭的规则,以及本领域的技术人员将想到的其他规则。此类规则是灵活的并可以适合特定分布式计算系统及其功能的需要。经常根据事件被记录的时间将事件分配到事件池。也就是说,通常按照在事件队列中接收事件的顺序将事件插入事件池。在图4的实例中,在时间h将首个事件‘事件 O’ (400)分配到事件池(212)时,开始事件池(212)的计时。图4的事件池在从h到tf的预定初始时段内工作。也就是说,当接收首个事件‘事件O’ (400)时,图4的事件池具有在 h开始并在tf结束的预定初始时段。所述预定初始时段可以根据本领域的技术人员将想到的许多因素进行配置,例如,分布式处理系统中的组件数、接收事件的频率、通常接收的事件的类型以及本领域的技术人员将想到的其他因素。在图4的实例中,在从h到tf的预定初始时段期间,针对每个分配到事件池的新事件将所述预定初始时段延长分配给该事件的特定时段。在图4的实例中,在将‘事件I’ (404)分配到事件池(212)时,将预定初始时段UtTtf)延长具有时间el的‘延长 I’ (406),由此在tf+el之前没有任何其他事件被分配到池的情况下,将在tf+el产生关闭事件池(212)的新时间。类似地,在图4的实例中,在将‘事件2’ (404)分配到具有时间e2的事件池时,再次通过‘延长2’(406)延长目前已延长的时段(h-tf+J,由此在tf+el+e2之前或在事件池的某个最长时间过期之前没有任何其他事件被分配到池的情况下,在时间tf+el+e2 产生关闭池的新时间。通过这种方式,在收到每个事件时延长事件池,直到将可用于识别警报的事件集合分配到事件池。在本发明的典型实施例中,事件池可具有无法再延长的最大时长。在这种情况下, 可要求将未在事件池中驻留达阈值时段的事件移至下一事件池。在某些实施例中,移至下一事件池的此类事件的属性用于与初始事件池一起实现根据本发明的实施例的相关警报传送,而在其他实施例中,此类事件的属性用于与事件所移至的下一事件池一起实现相关警报传送。在图4的实例中,当满足关闭池的条件时,事件分析器针对池(212)中的每个事件 (400,402,404)判定该事件是否已在池中达到该事件的包括在池中的预定最短时间。如果该事件已在池中达到其预定最短时间,则将该事件包括在关闭后的池中以进行事件分析以便根据本发明的实施例实现相关警报传送。如果该事件未在池中达到其预定最短时间,则从关闭后的池驱逐该事件并将该事件包括在下一池中以进行事件分析以便根据本发明的实施例实现相关警报传送。在许多实施例中,可并行使用多个事件池并将一个或多个此类事件池分配给特定事件分析器。在此类实施例中,事件分析器可针对事件池中具有特定属性的事件。如上所述,根据本发明的相关警报传送还包括将警报分配到警报池。为了进一步说明,图5是示出根据本发明的实施例的将警报分配到警报池的示意图。图5的警报池 (224)的工作方式与图4的事件池的工作方式类似。也就是说,根据图5的实例的警报池包括警报并且警报池的计时从时间h处的首个警报‘警报O’ (500)开始,并且警报池被配置为具有预定初始时段tftf。在图5的实例中,在从h到tf的预定初始时段期间,针对每个分配到警报池的新警报将所述预定初始时段延长分配给该警报的特定时段。在图5的实例中,在将‘警报I’ (502)分配到警报池(224)时,将预定初始时段(Vtf)延长具有时间el 的‘延长I’ (506),由此在tf+el之前没有任何其他警报被分配到池的情况下,将在tf+el产生关闭警报池(224)的新时间。类似地,在图5的实例中,在将‘警报2’ (504)分配到具有时间e2的警报池时,再次通过‘延长2’(508)延长目前已延长的时段,由此在tf+el+e2 之前没有任何其他警报被分配到池的情况下或在警报池的某个最长时间过期之前,在时间 tf+el+e2建立关闭池的新时间。在本发明的典型实施例中,警报池可具有无法再延长的最大时长。在这种情况下, 可要求将未在警报池中驻留达阈值时段的警报移至下一警报池。在某些实施例中,移至下一警报池的此类警报的属性用于与初始警报池一起实现根据本发明的实施例的相关警报传送,而在其他实施例中,此类警报的属性用于与警报所移至的下一警报池一起实现相关警报传送。在图5的实例中,当满足关闭池的条件时,警报分析器针对池(224)中的每个警报 (500,502,504)判定该警报是否已在池中达到该警报的包括在池中的预定最短时间。如果该警报已在池中达到其预定最短时间,则将该警报包括在关闭后的池中以进行警报分析以便根据本发明的实施例实现相关警报传送。如果该警报未在池中达到其预定最短时间,则从关闭后的池驱逐该警报并将该警报包括在下一池中以进行警报分析以便根据本发明的实施例实现相关警报传送。在许多实施例中,可并行使用多个警报池并将一个或多个此类警报池分配给特定警报分析器。在此类实施例中,警报分析器可针对警报池中具有特定属性的警报。为了进一步说明,图6是示出根据本发明的实施例的在分布式处理系统中通过事件和警报抑制实现相关警报传送的实例方法的流程图。图6的方法包括在事件队列中接收 (402)来自分布式处理系统的一个或多个组件的多个事件(202)。在根据本发明的实施例通过事件和警报抑制实现相关警报传送时使用的事件可以包括发生时间、记录时间、事件类型、事件iD、报告组件以及源组件。在事件队列中接收(402)来自分布式处理系统的一个或多个组件的多个事件 (202)可以通过以下方式实现接收数据处理系统的一个或多个组件发起的事件并根据事件发生的时间或根据接收事件的时间将事件存储在事件队列中。在事件队列中接收(402) 来自分布式处理系统的一个或多个组件的多个事件(202)还可以通过以下方式实现轮询组件的状态并作为响应而接收事件并根据事件发生的时间或根据接收事件的时间将事件存储在事件队列中。图6的方法还包括由事件分析器将每个接收的事件分配(404)到事件池(212)。 在本发明的某些实施例中,由事件分析器将每个接收的事件(202)分配(404)到事件池 (212)可以通过根据记录时间将事件分配到事件池来实现。由事件分析器将每个接收的事件(202)分配(404)到事件池(212)还可以根据事件的属性来实现。此类属性可以包括产生事件的组件的标识或类型、事件的报告组件、事件ID、事件类型以及本领域的技术人员将想到的其他属性。
根据图6的方法的事件池包括在预定初始时段内发生的事件,并且在图6的实例中,由事件分析器将每个接收的事件分配(404)到事件池包括针对每个分配到事件池的事件将所述预定初始时段延长(432)分配给该事件的特定时段。事件分析器包括事件分析规则(210),事件分析规则(210)包括事件到达规则、事件池操作规则、事件抑制规则以及事件池关闭规则。事件到达规则是用于根据事件被分配到事件池时的实时事件识别警报的可配置预定规则。也就是说,事件到达规则在关闭事件池之前根据事件识别警报。此类规则是灵活的并可以适合特定分布式计算系统及其功能的需要。根据本发明的各实施例的警报是根据一个以上的事件对事件发生(例如错误)的精细识别并因此在分布式处理系统内在事件工作的上下文中提供了事件发生的识别。通常,警报可以是根据从数据处理系统的一个或多个组件接收的多个事件识别的特定错误类型事件的通知,所述事件例如是多个设备之间的链路故障(每个设备都基于单个链路故障而产生许多事件)或引起数以千计的事件的电源故障等。警报经常实现为要通过数据通信网络或共享存储器发送的消息。根据本发明的各实施例的典型警报具有所附加的属性,基于从标识警报的事件所接收的事件属性将属性附加到警报。事件池操作规则是用于控制事件池的操作的可配置预定规则。此类规则包括识别每个事件池的初始预定时段的规则、规定在将每个新事件分配到池时为池延长的时长的规则、规定在关闭池时将事件包括在事件集合中之前事件必须在池中的最短时间的规则、管理事件池的关闭的规则,以及本领域的技术人员将想到的其他规则。此类规则是灵活的并可以适合特定分布式计算系统及其功能的需要。事件抑制规则是用于抑制在识别警报时使用的关闭后的事件池中的一个或多个事件的可配置预定规则。也就是说,关闭后的事件池中的事件经常可能是识别警报时的重复事件、冗余事件或不必要的或无用的事件。此类抑制规则通常被预先确定以删除、丢弃或以其他方式忽略那些被抑制的事件。事件抑制规则可以例如规定要抑制多于阈值数量的特定事件类型或组件类型的事件。此类规则也是灵活的并可以适合特定分布式计算系统及其功能的需要。事件池关闭规则是用于根据关闭后的事件池中的未抑制事件和由事件到达规则识别的警报来识别警报的可配置预定规则。也就是说,事件池关闭规则根据关闭后的事件池中的一个或多个或甚至所有未抑制事件来识别新的警报。事件池关闭规则还根据事件到达规则所识别的警报或事件到达规则所识别的警报和关闭后的事件池中的一个或多个未抑制事件的组合来识别警报。图6的方法还包括由事件分析器根据事件到达规则和分配到事件池的事件识别 (410) 一个或多个警报(214)。由事件分析器根据事件到达规则和分配到事件池的事件识别(410) —个或多个警报(214)可通过以下方式实现在将事件分配到事件池时根据该事件的一个或多个属性识别警报。由事件分析器根据事件到达规则和分配到事件池的事件识别(410) —个或多个警报(214)可通过以下方式实现将事件的属性与事件到达规则相比较以及作为比较的结果识别一个或多个警报。此类属性可包括从中接收事件的组件的类型、产生事件的组件的类型、产生事件的组件的标识、产生或接收事件的时间、事件中报告的错误以及本领域的技术人员将想到的许多其他内容。图6的方法还包括由事件分析器根据事件池操作规则关闭(412)事件池(212)。 由事件分析器根据事件池操作规则关闭(412)事件池(212)可通过以下方式实现判定满足事件池操作规则规定的停止将新事件分配到事件池的条件并根据这些事件池操作规则识别包括在关闭后的事件池中的特定事件。关闭事件池可以通过判定事件池的初始时段以及在初始时段的基础上延长的用于事件池中接收的事件的任何特定时段已过期来实现。在这种情况下,如果在事件池的初始时段以及在初始时段的基础上延长的用于事件池中接收的事件的任何特定时段过期之前未接收到任何新事件,则关闭池。关闭事件池还可通过判定事件池的最长时间已过期来实现。在这种情况下,无论在事件池的最长时间过期之后接收多少新事件,池都将被关闭。在此类实施例中,事件池的最长时间防止事件池包括的事件数多于根据本发明的实施例实现相关警报传送所需的事件数。图6的方法还包括由事件分析器根据事件抑制规则判定(414)是否抑制关闭后的事件池(212)中的一个或多个事件。由事件分析器根据事件抑制规则判定(414)是否抑制关闭后的事件池(212)中的一个或多个事件可通过根据关闭后的池中的一个或多个事件的属性判定是否删除、丢弃或以其他方式忽略关闭后的池中的一个或多个事件来实现。图6的方法包括由事件分析器根据事件池关闭规则和分配到事件池的任何未抑制事件识别(416) —个或多个附加警报(417)。由事件分析器根据事件池关闭规则和分配到事件池的任何未抑制事件识别(416) —个或多个附加警报(417)可通过在将事件分配到事件池时根据事件的一个或多个属性识别警报来实现。由事件分析器根据事件池关闭规则和分配到事件池的任何未抑制事件识别(416) —个或多个附加警报(417)可通过选择事件池的未抑制事件、将事件池的未抑制事件的属性与池关闭规则相比较,以及作为比较结果识别一个或多个附加警报来实现。此类属性可包括从中接收一个或多个未抑制事件的组件的类型、产生未抑制事件的组件的类型、产生未抑制事件的组件的标识、产生或接收事件的时间、事件报告的一个或多个错误、池中的事件数以及本领域的技术人员将想到的许多其他内容。图6的方法包括由事件分析器将事件分析器所识别的所有警报发送(418)给警报分析器。由事件分析器将事件分析器所识别的所有警报(214)发送(418)给警报分析器可通过将包含警报的消息从事件分析器发送给警报分析器来实现。此类消息可以跨网络,通过共享存储器或以本领域的技术人员将想到的其他方式从事件分析器发送给警报分析器。图6的方法包括由警报分析器将所识别的警报分配(420)到警报池(224)。根据图6的方法的警报池具有预定初始时段,并且在图6的实例中,由警报分析器将所识别的警报分配(420)到警报池(224)包括针对分配到警报池的每个警报,将预定初始时段延长分配给该警报的特定时段。由警报分析器将所识别的警报分配(420)到警报池(224)还可根据警报的属性来实现。此类属性可包括其中发生事件以产生用于识别警报的事件的组件的标识或类型、警报ID、警报类型以及本领域的技术人员将想到的其他属性。图6的方法包括由警报分析器根据警报分析规则(222)和警报池中的警报判定 (422)是否抑制任何警报。由警报分析器根据警报分析规则(222)和警报池中的警报判定
17(422)是否抑制任何警报可根据警报的一个或多个属性来实现。此类属性可包括其中发生事件以产生用于识别警报的事件的组件的标识或类型、警报ID、警报类型以及本领域的技术人员将想到的其他属性。在此类实施例中,由警报分析器根据警报分析规则(222)和警报池中的警报判定(422)是否抑制任何警报可通过将警报池中警报的属性与警报分析规则相比较以及作为比较结果而根据事件分析规则识别一个或多个要抑制的警报来实现。图6的方法包括将未抑制的警报传输(420)到分布式处理系统的一个或多个组件。将未抑制的警报传输(420)到分布式处理系统的一个或多个组件可通过将包含警报的消息发送到分布式处理系统的一个或多个组件来实现。在许多情况下,警报可以作为消息发送给系统管理员,提醒系统管理员分布式处理系统中发生一个或多个事件。如上所述,警报分析规则可以根据事件选择附加警报或抑制警报。在此类实施例中,判定是否抑制任何警报包括选择事件以及根据所选事件判定是否抑制任何警报。因此, 图6的方法还包括由警报分析器根据警报分析规则(222)、警报池(224)中的警报以及任何所选事件识别(426) —个或多个附加警报,并且在图6的方法中,传输(428)未抑制的警报还包括将任何附加警报传输(430)到分布式处理系统的一个或多个组件。如上所述,根据本发明的实施例的相关警报传送包括管理一个或多个事故池,所述事故包括事件、警报或本领域的技术人员将想到的其他事故。为了进一步说明,图7是示出根据本发明的实施例在分布式处理系统中管理事故池以进行事件和警报分析的示例性方法的流程图。图7的方法包括由事故分析器从事故队列接收(702)来自分布式处理系统的一个或多个组件的多个事故(704)。图7的事故可以实现为事件并且事故池可以实现为事件池。图7的事故还可以实现为警报并且事故池可以实现为警报池。由事故分析器从事故队列接收(702)来自分布式处理系统的一个或多个组件的多个事故(704)可通过如上所述由事件分析器从事件队列接收事件来实现。可以从分布式处理系统的一个或多个组件发送此类事件。由事故分析器从事故队列接收(702)来自分布式处理系统的一个或多个组件的多个事故(704)还可通过如上所述由警报分析器从警报队列接收警报来实现。可以如上所述由事件分析器产生此类警报。图7的方法包括由事故分析器创建(706)事故池(708),所述池具有预定初始时段。图7的方法中的由事故分析器创建(706)事故池(708)可通过创建包含事件或警报的数据结构并针对该数据结构建立将事件、警报或本领域的技术人员将想到的其他事故包括在该数据结构内的初始时段来实现。图7的方法还包括由事故分析器将每个接收的事故分配(710)到池。由事故分析器将每个接收的事故分配(710)到池可根据事故的属性来实现。将每个接收的事故分配 (710)到池例如可以通过根据诸如产生事件的组件、事件类型、警报类型、报告事件的组件、 报告或产生在产生警报时所依据的事件的组件以及本领域的技术人员将想到的其他属性之类的属性选择事件、警报或其他事故来实现。图7的方法还包括由事故分析器为每个事故分配(712)包含在池(708)中的预定最短时间(714)。包含在池中的预定最短时间(714)通常短于该池的初始时段,以便在关闭池时,将首个到达的事故包括在事故池中。预定最短时间可根据本领域的技术人员将想到的事故的属性而变化。允许最短时间随事故的属性而变化为根据本发明的实施例在各种形式的分布式处理系统中管理池提供了灵活性。
图7的方法包括由事故分析器针对一个或多个事故将池(708)的预定初始时段延长(716)分配给该事故的特定时段。在预定初始时段的基础上延长的特定时段依赖于诸如事故类型、事故标识、产生或传输事故的上下文以及本领域的技术人员将想到的其他内容之类的事故属性。图7的方法还包括由事故分析器判定(718)是否满足关闭池(708)的条件。由事故分析器判定(718)是否满足关闭池(708)的条件可通过判定是否已经过池的最长时间来实现。针对池建立的最长时间通常依赖于分布式处理系统的诸如分布式处理系统的大小、 分布式处理系统的组件、分布式处理系统的计算要求以及本领域的技术人员将想到的其他内容之类的因素。通常,所建立的最长时间足够长以允许将足够的事故累积到池中以便进行有意义的事件或警报分析,但是最长时间也足够短,使得不会因事故的绝对数量导致分析无法进行并允许及时地报告警报。由事故分析器判定(718)是否满足关闭池(708)的条件可通过判定在将另一事故分配到池之前是否已经过预定初始时段以及与任何分配到池的事故关联的任何时间延长来实现。在此类实施例中,通常在池的最长时间之前已经过池的预定初始时段以及所有时间延长,从而在池的最长时间之前关闭池。如果满足关闭池的条件,则图7的方法还包括针对池中的每个事故判定(720)事故是否已在池(708)中达到其包含在池中的预定最短时间(714)。针对池中的每个事故判定(720)事故是否已在池(708)中达到其包含在池中的预定最短时间(714)可通过将每个事故驻留在池中的时长与包含在池中的最短时间相比较来实现。如果事故已在池中达到其预定最短时间,则图7的方法包括将该事故包括(722) 在关闭后的池中。将事故包括(722)在关闭后的池中可通过将事故保留在关闭后的池中以进行事件分析、警报分析或本领域的技术人员将想到的其他事故分析来实现。如果事故未在池中达到其预定最短时间,则图7的方法包括从关闭后的池驱逐 (724)该事故并将该事故包括在下一池中。从关闭后的池驱逐(724)事故并将事故包括在下一池中可通过创建下一池并将事故移至下一池来实现。创建下一池并将事故移至下一池可包括为下一池建立至少与要移至该下一池的事件的最短时间一样长的预定时长。为了进一步说明,图8是示出根据本发明的实施例在分布式处理系统中管理事故池以进行事件和警报分析的附加方法的流程图。图8的方法与图7的方法的类似之处在于,图8的方法包括由事故分析器从事故队列接收(702)来自分布式处理系统的一个或多个组件的多个事故(704);由事故分析器创建(706)事故池(708),所述池具有预定初始时段;由事故分析器将每个接收的事故分配(710)到池;由事故分析器为每个事故分配(712) 包含在池中的预定最短时间;由事故分析器针对一个或多个事故将池(708)的预定初始时段延长(716)分配给该事故的特定时段;由事故分析器判定(718)是否满足关闭池的条件; 以及如果满足关闭池的条件,则针对池中的每个事故判定(720)事故是否已在池中达到其包含在池中的预定最短时间;以及如果事故已在池中达到其预定最短时间,则将事故包括 (722)在关闭后的池中;以及如果事故未在池中达到其预定最短时间,则从关闭后的池驱逐(724)该事故并将该事故包括在下一池中。图8的方法与图7的方法的不同之处在于,在图8的方法中,一个或多个事故 (704)为事件,并且图8的方法还包括根据分配到池(708)的一个或多个事件识别(716) —个或多个警报。根据分配到池(708)的一个或多个事件识别(716) —个或多个警报可通过如上所述的根据事件到达规则识别警报、如上所述的根据池关闭规则识别附加警报,以及本领域的技术人员将想到的其他方式来实现。在图8的方法中,驱逐(724)事故并将事故包括在下一池中还包括驱逐(802)至少一个事件、将驱逐的事件包括(804)在下一池中,以及将根据驱逐的事件识别的任何警报与关闭后的池相关联(806)。驱逐(724)事故并将事故包括在下一池中还包括驱逐(802) 至少一个事件,将驱逐的事件包括(804)在下一池中可通过创建下一池并将事故移至下一池来实现。将根据驱逐的事件识别的任何警报与关闭后的池相关联(806)可通过使用关闭后的池保留根据事件到达规则识别的任何警报以由警报分析器进行警报分析来实现。在此类实施例中,虽然驱逐了事件并将事件包括在下一池中,但是根据该事件识别的任何警报都使用关闭后的池进行保留以进行警报分析。为了进一步说明,图9是示出根据本发明的实施例在分布式处理系统中管理事故池以进行事件和警报分析的附加方法的流程图。图9的方法与图7和图8的方法的类似之处在于,图9的方法包括由事故分析器从事故队列接收(702)来自分布式处理系统的一个或多个组件的多个事故(704);由事故分析器创建(706)事故池(708),所述池具有预定初始时段;由事故分析器将每个接收的事故分配(710)到池;由事故分析器为每个事故分配 (712)包含在池中的预定最短时间;由事故分析器针对一个或多个事故将池(708)的预定初始时段延长(716)分配给该事故的特定时段;由事故分析器判定(718)是否满足关闭池的条件;以及如果满足关闭池的条件,则针对池中的每个事故判定(720)事故是否已在池中达到其包含在池中的预定最短时间;以及如果事故已在池中达到其预定最短时间,则将事故包括(722)在关闭后的池中;以及如果事故未在池中达到其预定最短时间,则从关闭后的池驱逐(724)该事故并将该事故包括在下一池中。图9的方法与图7的方法的不同之处在于在图9的方法中,一个或多个事故 (704)为事件(202),并且图9的方法还包括根据分配到池(708)的一个或多个事件识别 (716) —个或多个警报。根据分配到池(708)的一个或多个事件识别(716) —个或多个警报可通过如上所述的根据事件到达规则识别警报、如上所述的根据池关闭规则识别附加警报,以及本领域的技术人员将想到的其他方式来实现。在图9的方法中,驱逐(724)事故并将事故包括在下一池中还包括驱逐(902)至少一个事件、将驱逐的事件包括(904)在下一池中,以及将根据驱逐的事件识别的任何警报与关闭后的池相关联(906)。驱逐(724)事故并将事故包括在下一池中还包括驱逐(902) 至少一个事件,将驱逐的事件包括(904)在下一池中可通过创建下一池并将事故移至下一池来实现。将根据驱逐的事件识别的任何警报与下一池相关联(906)可通过将根据事件到达规则识别的任何警报与由警报分析器进行警报分析的关闭后的池取消关联并将这些警报与下一池关联来实现。在此类实施例中,驱逐事件并将事件包括在下一池中,并且还将根据该事件识别的任何警报与下一池进行关联以使用下一池进行警报分析。在某些实施例中,可以根据其他警报来识别警报。因此,在此类实施例中,根据图 9的方法的将根据驱逐的事件识别的任何警报与下一池相关联还可通过使关闭后的池中依赖于现在与下一池关联的所识别警报的所有警报或事件无效来实现。也就是说,在关闭后的池中使根据现在与下一池关联的警报识别的警报无效。使此类警报无效消除了关闭后的池中此类警报对现在与下一池关联的警报的依赖性。本领域的技术人员将理解,本发明的各方面可以实现为系统、方法或计算机程序产品。因此,本发明的各方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合了在此通常被称为“电路”、“模块”或“系统”的软件和硬件方面的实施例的形式。此外,本发明的各方面可以采取体现在一个或多个计算机可读介质(在介质中具有计算机可读程序代码)中的计算机程序产品的形式。可以使用一个或多个计算机可读介质的任意组合。所述计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是(但不限于) 电、磁、光、电磁、红外线或半导体系统、装置或设备或它们的任何适当组合。计算机可读存储介质的更具体的实例(非穷举列表)可以包括以下项具有一条或多条线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦写可编程只读存储器 (EPR0M或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备或它们的任何适当组合。在本文档的上下文中,计算机可读存储介质可以是任何能够包含或存储由指令执行系统、装置或设备使用或与所述指令执行系统、装置或设备结合的程序的有形介质。计算机可读信号介质可以包括其中包含计算机可读程序代码(例如,在基带中或作为载波的一部分)的传播数据信号。此类传播信号可以采取多种形式中的任何形式,包括但不限于电磁、光或它们的任何适当组合。计算机可读信号介质可以是任何并非计算机可读存储介质以及可以传送、传播或传输由指令执行系统、装置或设备使用或与所述指令执行系统、装置或设备结合的程序的计算机可读介质。可以使用任何适当的介质(包括但不限于无线、有线、光缆、RF等或它们的任何适当组合)来传输计算机可读介质中包含的程序代码。用于执行本发明的各方面的操作的计算机程序代码可以使用一种或多种编程语言的任意组合来编写,所述编程语言包括诸如Java、Smalltalk、C++或类似语言之类的面向对象的编程语言或者诸如“C”编程语言或类似的编程语言之类的常规过程编程语言。所述程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为独立的软件包、部分地在用户计算机上并部分地在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后者的情况中,所述远程计算机可以通过包括局域网(LAN)或广域网(WAN) 的任何类型网络与用户的计算机相连,也可以与外部计算机进行连接(例如,使用因特网服务提供商通过因特网连接)。下面参考根据本发明的各实施例的方法、装置(系统)和计算机程序产品的流程图和/或方块图对本发明的各方面进行描述。将理解,所述流程图和/或方块图的每个方块以及所述流程图和/或方块图中的方块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,以便通过所述计算机或其他可编程数据处理装置的处理器执行的指令产生用于实现在一个或多个流程图和/或方块图方块中指定的功能/操作的装置。这些计算机程序指令也可以被存储在可引导计算机、其他可编程数据处理装置或其他设备以特定方式执行功能的计算机可读介质中,以便存储在所述计算机可读介质中的指令产生一件包括实现在所述一个或多个流程图和/或方块图方块中指定的功能/操作的指令的制品。所述计算机程序指令还可被加载到计算机、其他可编程数据处理装置或其他设备,以导致在所述计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实现的过程,从而在所述计算机或其他可编程装置上执行的指令提供用于实现在一个或多个流程图和/或方块图方块中指定的功能/操作的过程。附图中的流程图和方块图示出了根据本发明的各实施例的系统、方法和计算机程序产品的可能实施方式的架构、功能和操作。在此方面,所述流程图或方块图中的每个方块都可以表示代码的模块、段或部分,所述代码包括用于实现指定的逻辑功能的一个或多个可执彳丁指令。还应指出,在某些备选实施方式中,在方块中说明的功能可以不按图中说明的顺序发生。例如,示为连续的两个方块可以实际上被基本同时地执行,或者某些时候,取决于所涉及的功能,可以以相反的顺序执行所述方块。还应指出,所述方块图和/或流程图的每个方块以及所述方块图和/或流程图中的方块的组合可以由执行指定功能或操作的基于专用硬件的系统或专用硬件和计算机指令的组合来实现。从上述描述将理解,可以在不偏离本发明的真实精神的情况下,对本发明的各种实施例做出修改和更改。本说明书中的描述仅用于例示并且不应被理解为进行限制。本发明的范围仅由以下权利要求的语言来限定。
权利要求
1.一种在分布式处理系统中管理事故池以进行事件和警报分析的方法,所述方法包括由事故分析器从事故队列接收来自所述分布式处理系统的一个或多个组件的多个事故;由所述事故分析器创建事故池;由所述事故分析器将每个接收的事故分配到所述池;由所述事故分析器向每个事故分配包含在池中的预定最短时间;由所述事故分析器判定是否满足关闭所述池的条件;以及如果满足关闭所述池的条件,则针对所述池中的每个事故判定该事故是否已在所述池中达到该事故的包含在池中的预定最短时间;以及如果该事故已在所述池中达到该事故的预定最短时间,则将该事故包括在关闭后的池中;以及如果该事故未在所述池中达到该事故的预定最短时间,则从关闭后的池驱逐该事故并将该事故包括在下一池中。
2.如权利要求I中所述的方法,其中所述事故中的一个或多个事故包括事件,并且其中所述方法还包括根据分配到所述池的一个或多个事件识别一个或多个警报;以及其中驱逐该事故并将该事故包括在下一池中进一步包括驱逐至少一个事件,将所驱逐的事件包括在所述下一池中,以及将任何根据所驱逐的事件识别的警报与所述关闭后的池相关联。
3.如权利要求I中所述的方法,其中所述事故中的一个或多个事故包括事件,并且其中所述方法还包括根据分配到所述池的一个或多个事件识别一个或多个警报;以及其中驱逐该事故并将该事故包括在下一池中进一步包括驱逐至少一个事件,将所驱逐的事件包括在所述下一池中,以及将任何根据所驱逐的事件识别的警报与所述下一池相关联。
4.如权利要求3中所述的方法,其中将任何根据所驱逐的事件识别的警报与所述下一池相关联进一步包括使所述关闭后的池中依赖于现在与所述下一池关联的所识别的警报的所有警报或事件无效。
5.如权利要求I中所述的方法,其中由所述事故分析器判定是否满足关闭所述池的条件进一步包括判定是否已经经过所述池的最大时间。
6.如权利要求I中所述的方法,其中所述事故池具有预定初始时段并且所述方法还包括对于所述事故中的一个或多个事故,由所述事故分析器将所述池的所述预定初始时段延长被分配给所述事故的特定时段;以及其中由所述事故分析器判定是否满足关闭所述池的条件进一步包括确定在将另一事故分配到所述池之前,已经经过所述预定初始时段以及与分配到所述池的任何事故关联的任何时间延长。
7.如权利要求I中所述的方法,其中所述事故包括事件,并且所述事故池包括事件池。
8.如权利要求I中所述的方法,其中所述事故包括警报,并且所述事故池包括警报池。
9.一种在分布式处理系统中管理事故池以进行事件和警报分析的系统,所述系统包括计算机处理器、在操作上与所述计算机处理器耦合的计算机存储器,所述计算机存储器内具有计算机程序指令,当由所述计算机处理器执行时,所述计算机程序指令能够使所述系统执行以下步骤由事故分析器从事故队列接收来自所述分布式处理系统的一个或多个组件的多个事故;由所述事故分析器创建事故池;由所述事故分析器将每个接收的事故分配到所述池;由所述事故分析器向每个事故分配包含在池中的预定最短时间;由所述事故分析器判定是否满足关闭所述池的条件;以及如果满足关闭所述池的条件,则针对所述池中的每个事故判定该事故是否已在所述池中达到该事故的包含在池中的预定最短时间;以及如果该事故已在所述池中达到该事故的预定最短时间,则将该事故包括在关闭后的池中;以及如果该事故未在所述池中达到该事故的预定最短时间,则从关闭后的池驱逐该事故并将该事故包括在下一池中。
10.如权利要求9中所述的系统,其中所述事故中的一个或多个事故包括事件,并且其中所述系统还包括能够根据分配到所述池的一个或多个事件识别一个或多个警报的计算机程序指令;以及其中驱逐该事故并将该事故包括在下一池中进一步包括驱逐至少一个事件,将所驱逐的事件包括在所述下一池中,以及将任何根据所驱逐的事件识别的警报与所述关闭后的池相关联。
11.如权利要求9中所述的系统,其中所述事故中的一个或多个事故包括事件,并且其中所述系统还包括能够根据分配到所述池的一个或多个事件识别一个或多个警报的计算机程序指令;以及其中驱逐该事故并将该事故包括在下一池中进一步包括驱逐至少一个事件,将所驱逐的事件包括在所述下一池中,以及将任何根据所驱逐的事件识别的警报与所述下一池相关联。
12.如权利要求11中所述的系统,其中将任何根据所驱逐的事件识别的警报与所述下一池相关联进一步包括使所述关闭后的池中依赖于现在与所述下一池关联的所识别的警报的所有警报或事件无效。
13.如权利要求9中所述的系统,其中由所述事故分析器判定是否满足关闭所述池的条件进一步包括判定是否已经经过所述池的最大时间。
14.如权利要求9中所述的系统,其中所述池具有预定初始时段并且其中所述系统包括用于对于所述事故中的一个或多个事故,由所述事故分析器将所述池的所述预定初始时段延长被分配给所述事故的特定时段的计算机程序指令;以及其中由所述事故分析器判定是否满足关闭所述池的条件进一步包括确定在将另一事故分配到所述池之前,已经经过所述预定初始时段以及与分配到所述池的任何事故关联的任何时间延长。
15.如权利要求9中所述的系统,其中所述事故包括事件,并且所述事故池包括事件池。
16.如权利要求9中所述的系统,其中所述事故包括警报,并且所述事故池包括警报池。
全文摘要
本发明涉及一种管理事故池以进行事件和警报分析的方法和系统。管理事故池包括创建事故池,所述池具有预定初始时段;将每个接收的事故分配到所述池;由事故分析器向每个事故分配包含在池中的预定最短时间;对于所述事故中的一个或多个事故,将所述池的所述预定初始时段延长被分配给所述事故的特定时段;判定是否满足关闭所述池的条件;以及如果满足关闭所述池的条件,则针对所述池中的每个事故判定该事故是否已在所述池中达到该事故的包含在池中的预定最短时间;以及如果该事故未在所述池中达到该事故的预定最短时间,则从关闭后的池驱逐该事故并将该事故包括在下一池中。
文档编号G06F11/00GK102591731SQ201110339740
公开日2012年7月18日 申请日期2011年11月1日 优先权日2010年11月2日
发明者J·E·卡雷, M·G·阿特金斯, M·W·马克兰, P·J·桑德斯 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1