用于对从系统取得的测量值进行评级的方法和系统与流程

文档序号:13767631阅读:223来源:国知局
在检测异常或非正常测量值(即所谓的异常值)的领域中,现有技术包括用于查找异常或非正常测量值的众多方法。查找非正常测量值被称为“异常值检测”或也被称为“异常检测”。例如,在[1]中,对异常值检测的使用被描述为数据挖掘领域中的主要步骤之一。在[1]中,特别注意被吸引到所使用的估计的稳健性,并且示出了基于距离测量的异常值检测、聚类方法以及空间方法的各种可能性。在[2]中,异常值检测的含义被讨论为各种应用领域以及科学领域的重要问题。首先,从现有技术中已知的各异常值检测方法在基本假设和要求方面存在不同。对于异常值检测,一些方法需要潜在分布及其参数,系统S借助这些潜在分布及其参数来生成经测量的值。此外,存在借助“局部异常值概率算法”(LoOP,[3])并结合“局部异常值因子算法”(LOF,[4])或相关的算法来计算概率值的方法。此外,[5]公开了一种用于基于作为异常值检测的任何期望分数函数的输出的分数值来获得涉及概率值(即在区间[0,1]内的值)的变换的方法。该概率值指示来自集合V的测量值是与潜在测量值集合有关的异常值的概率。这些概率用于构成包括非常可能的异常值的列表。公开[6]涉及用于进行数据过滤以减少功能和趋势线异常值偏差的系统和方法。在用于检测异常值的常规方法中,通常使用阈值或极限值。例如,有可能检测当高于或低于这样的阈值或极限值时,测量值可被认为是异常值或正常测量值。对阈值的使用是不利的,因为这样的阈值必须主要借助参与的测试和评估来检测。此外,集合V中与大部分测量值都偏离非常多但属于正常系统状态S的测量值通过使用阈值将被滤除,而没有可能根据用于确定系统的状态的所分配的概率使其也进入学习集合。参考[1]IradBen-Gal.\"Outlierdetection(异常值检测)\",in:MaimonO.andRockachL.(Eds.),“DataMiningandKnowledgeDiscoveryHandbook:ACompleteGuideforPractitionersandResearchers(数据挖掘和知识发现手册:针对实践者和研究者的完全向导)\"KluwerAcademicPublishers(克鲁维尔学术出版社),2005[2]VarunChandola,ArindamBanerjee,VipinKumar.\"OutlierDetection:ASurvey(异常值检测:纵览)\",2007,(http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.108.8502)[3]Hans-PeterKriegel,P.E.Schubert,A.Zimek.\"LoOP:LocalOutlierProbabilities(LoOP:局部异常值概率)\",inProceedingsof18thACMConferenceonInformationandKnowledgeManagement(CIKM)(第18界ACM信息和知识管理(CIKM)会议论文集),2009(http://www.dbs.ifi.lmu.de/Publikationen/Papers/LoOP1649.pdf).[4]M.M.Breunig,Hans-PeterKriegel,R.T.Ng,J.Sander.\"LOF:IdentifyingDensity-basedLocalOutliers(LOF:标识基于密度的局部异常值)\",inACMSIGMODRecord.No.29,2000,(http://www.dbs.ifi.lmu.de/Publikationen/Papers/LOF.pdf)[5]Hans-PeterKriegel,PeerErichSchubert,ArthurZimek.\"InterpretingandUnifyingOutlierScores(解释和统一异常值分数)\",inProceedingsof11thSIAMInternationalConferenceonDataMining(第11界AIAM数据挖掘国际会议论文集).2011,(http://siam.omnibooksonline.com/2011datamining/data/papers/018.pdf).[6]US2013/046727A1本发明的目的是提供一种用于对从可处于无错误/正常状态或者错误/非正常状态的系统S取得的测量值进行评级的方法和系统。该目的通过独立权利要求中的特征来解决。从属权利要求涉及本发明的优选实施例。本发明始于以下基本概念:优选机器或静态学习系统L可以按自动化方式在来自要被监视的系统S的未标记测量值V的基础上对测量值进行评级。非正常测量值可指示系统S处于错误状态。未标记意味着鉴于该测量值,不存在系统S在该测量值被取得的时刻处于哪个状态—无错误/错误—的信息。提供一种在使用学习系统之前将非常可能由系统S的错误状态导致的测量值从测量值学习集合V中移除的随机化/基于随机的方法。由此,防止这样的测量值负面地影响学习系统L的学习过程以致经学习的模型M在对将来的新测量值W进行评级时将系统S的错误状态错误地评级为正常的后果。另一方面,考虑发现这样的值对于学习系统的学习过程是有价值的,并且在可能的情况下,不应当被(完全地)移除。通过此关系,本发明考虑V可能包括以下测量值:该测量值具有与V中的其他测量值相比是异常的值,但该测量值尚未在系统S的错误状态中被检测出,并且因此应当被考虑为正常。本发明涉及一种用于对从可处于无错误/正常状态或者错误/非正常状态的系统S取得的测量值进行评级的方法,其中系统S包括至少一个通信网络、通信系统的网络组件和/或通信网络的服务,该方法包括以下步骤,这些步骤优选地采用以下次序:(a)形成来自系统S的未标记测量值v的集合V;(b)通过使用基于随机的方法对来自集合V的测量值进行移除和/或加权来为学习系统L形成包括测量值v'的经修改的学习集合V'。(c)由学习系统L从经修改的学习集合V'形成用于对来自系统S的测量值进行评级的模型M;以及,(d)由评级系统B使用模型M对来自系统S的测量值进行评级。系统S可以是具有两种系统状态(无错误/正常以及错误/非正常)的系统然而,该方法也可适用于具有不同系统状态(例如,多种系统状态)的其他系统S。根据本发明,鉴于系统S的未标记测量值v,没有必要存在关于相应的测量值是在系统S处于错误状态还是处于无错误状态的时刻被测量的可信信息。测量值是在测量系统S处取得的,并且可以是系统状态的指示符。在存在不同类型的测量值的情况下,还可将关于测量值的类型的信息分配给相应的测量值。在测量值是时间序列的情况下,可另外地针对各个体测量值v将关于测量的时间点的信息分配给集合V。根据本发明的一实施例,步骤(b)包括以下步骤,这些步骤优选地采用以下次序:(b1)通过至少一个分数函数F:V→Q,从集合V形成包括分数值q的分数值集合Q;(b2)通过至少一个变换函数T:Q→P,从分数值集合Q形成包括概率p的概率集合P;(b3)形成经修改的测量值学习集合V',其中测量值v∈V与相应的概率1-p(其中p=T(F(v)))一起被包括在该经修改的学习集合V'中,和/或其中测量值v∈V通过至少一个加权函数G被给予相应的权重。分数函数F可从学习集合V形成针对来自集合V的每一个体测量值或针对测量值的子集(例如,不同类型的测量值中处于某时间点或某种情况的各测量值)的分数值。在不限制一般性的情况下,分数值可以是实数值。例如,低分数值可与无错误测量值相关联,且高分数可与错误测量值相关联。变换函数T可将概率值(例如,在区间[0,1]内的实数)分配给分数值(例如,实数)。例如,测量值v(其中T(v)=0)在概率0的情况下不可从集合V中被移除,即可被安全地传送到经修改的学习集合V'或者保持在经修改的学习集合V'中。与此相反,测量值v(其中T(v)=1)在概率1的情况下可从集合V中被移除,即不可被传送到学习集合V'或者保持在学习集合V'中。加权函数G可针对由T确定的每一概率p计算测量值v的权重。相关联的测量值v的权重可表示在学习过程期间/在引入V'期间应当用来对测量值v进行加权的值。例如,具有高权重的测量值可对模型M具有相对较大的影响。加权函数还可通过G(p)=1-p来定义。可为各个体测量值v和测量值集合V两者定义函数F、T和G。根据本发明的进一步实施例,该方法进一步包括以下步骤:确定系统S处于无错误状态还是错误状态。此外,有可能例如为在稍后的时间点来自系统S的未标记测量值w的另一集合W,确定系统S在相应的时间点处于无错误状态还是错误状态。该确定可由经学习的模型M和/或评级系统B作出。根据本发明的进一步实施例,分数函数F可以是具有为分数值的输出的独立的优选的机器学习系统L'和评级系统B'。此外,分数函数F可以通过考虑k个次近邻和/或四分位倍数因子和/或局部异常值因子来形成。此外,分数函数F可为来自集合V的每一测量值v形成距最近近邻的距离(即该测量值v的最小距离d(v))并将该距离除以来自V的所有测量值v的平均距离m,从而以下适用:F:V→Q,此外,变换函数T可以是持续递增函数,优选地其中对于所有0≤T(x)≤1,特别优选地为正态分布、韦伯分布、β分布或连续均布。加权函数G可被定义成G(p)=1-p=1-T(F(v))。变换函数T的持续递增函数可优选地对于所有具有特征0≤T(x)≤1,其中T(-∞)≥0且T(+∞)≤1。此外,可在无需知道测量值的潜在分布的情况下操作的算法可被用于分数函数F。分数函数F还可具有局部异常值因子算法或局部异常值概率算法。根据本发明的进一步实施例,步骤(b1)到(b3)可按迭代方式被相继地执行多次。通过按迭代方式相继地执行步骤(b1)到(b3)若干次,分数函数F、变换函数T以及对来自V的测量值的随机移除和/或对来自V的测量值的加权可被相继地应用若干次。根据本发明的进一步实施例,集合V可在步骤(a)被划分成子集V_1,...,V_N(其中),并在步骤(b)中经修改的学习子集V_1',…,V_N'(其中)可被形成,并且学习集合V'可从经修改的学习子集V_1',…,V_N'中组合而成。据此,同样在(b1)可通过至少一个分数函数F从子集V_1,...,V_N形成相应的分数值集合Q_1,...,Q_N(其中)。此外,在(b2)可通过至少一个变换函数T从相应的分数值集合Q_1,...,Q_N形成相应的概率集合P_1,...,P_N(其中)。根据本发明的进一步实施例,在步骤(b),还可在测量值v的移除和/或加权期间将测量值v的至少一个最近近邻从集合V中移除。测量值v的最近近邻的移除可根据值和/或时间准则来执行。例如,可将具有与测量值v相当的值或者与测量值v非常接近的最近近邻移除。此外,例如最近近邻可根据其与测量值的时间邻近性来选择。例如,最近近邻可能已在测量值被实际移除的同时被测量或在测量值被实际移除之前或之后的时间限制内被测量。根据本发明的进一步实施例,测量值可选自包括以下的分组:计算单元的容量利用率、被使用的和空闲的存储空间、输入和输出信道的容量利用率和状态、无错误和错误分组的数目、传输队列的长度、无错误和错误服务查询、服务查询的处理时间。本发明还涉及一种用于对从可处于无错误状态或者错误状态的系统S取得的测量值进行评级的系统,其中系统S包括至少一个通信网络、通信系统的网络组件和/或通信网络的服务,该系统包括:用于形成来自系统S的未标记测量值v的集合V的设备;用于通过使用基于随机的方法对来自集合V的测量值进行移除和/或加权来为学习系统L形成包括测量值v'的经修改的学习集合V'的设备;适合用于从经修改的学习集合V'形成用于对来自系统S的测量值进行评级的模型M的学习系统L;以及,适合用于使用模型M对来自系统S的测量值进行评级的评级系统B。根据本发明的进一步实施例,用于形成经修改的学习集合V'的设备可包括:用于通过至少一个分数函数F:V→Q,从集合V形成包括分数值q的分数值集合Q的设备;用于通过至少一个变换函数T:Q→P,从分数值集合Q形成包括概率p的概率集合P的设备。用于形成经修改的学习集合V'的设备可适合用于通过将测量值v∈V与相应的概率1-p(其中p=T(F(v)))一起引入经修改的学习集合V'来从测量值形成经修改的学习集合V'。此外,用于形成经修改的学习集合V'的设备可适合用于通过用至少一个加权函数G对测量值v∈V进行加权来从测量值形成经修改的学习集合V'。根据本发明的进一步实施例,用于对从系统S取得的测量值进行评级的系统可进一步包括用于确定系统S处于无错误状态还是错误状态的设备。根据本发明的进一步实施例,用于形成分数值集合Q的设备可适合用于形成分数值集合Q若干次。此外,用于形成概率集合P的设备可适合用于形成概率集合若干次。此外,用于形成经修改的学习集合V'的设备可适合用于形成经修改的学习集合V'若干次。根据本发明的进一步实施例,用于从来自系统S的未标记测量值v形成集合V的设备可适合用于将集合V划分成子集V_1,...,V_N,其中此外,用于形成经修改的学习集合V'的设备可适合用于形成经修改的学习子集V_1',…,V_N'(其中)并从经修改的学习子集V_1',…,V_N'组合学习集合V'。根据本发明的进一步实施例,用于形成经修改的学习集合V'的设备可适合用于在测量值v的移除和/或加权期间也将测量值v的至少一个最近近邻从集合V中移除。本发明提供在一种用于对来自系统S的测量值进行评级的方法,该方法不需要阈值,而改为使用随机化/基于随机的方法。通过使用随机化/基于随机的方法,用户不必借助相关的测试和评估来确定阈值,并且与来自集合V的大多数测量值偏离非常多但属于S的正常系统状态的测量值也有机会(根据所分配的概率)被包括在测量值学习集合中。在使用阈值的方法中,难以或不可能实现该目标。根据本发明的方法不需要关于测量值的潜在分布的知识。然而,在该知识仍然被完整地或部分地呈现的情况下,该知识都可被用于选择(诸)分数函数F和(诸)变换函数T。与现有技术方法相反,根据本发明,由该随机化方法使用函数T计算的概率被用来按随机化方式形成学习集合。通过这种联系,不仅当前学习集合V可能是重要的,而且来自系统S的测量值在其上的可能行为也是重要的。所计算的概率值不仅被用于形成包括异常值的列表,而且其还在随机化方法中被用于从原始学习集合V确定减小的学习集合V'。以下,将在示例和附图的基础上更详细的描述本发明,附图中:图1示出根据现有技术的常规方法的用于对从系统取得的测量值进行评级的方法的示意图,图2示出根据本发明的用于对从系统取得的测量值进行评级的方法的优选实施例的示意图,图3示出根据本发明的用于对从系统S取得的测量值进行评级的系统的优选实施例的示意图,以及图4示出根据本发明的用于对从系统取得的测量值进行评级的方法的优选实施例的韦伯分布(其被用作传递函数)的示意图。图1示出根据现有技术的用于对从系统S取得的测量值进行评级的常规方法的示意图。在系统S(例如,网络)中,测量值v的集合V被取得。该集合V应当用作学习系统L的学习集合。来自集合V的测量值v是未标记的,即可能没有作出关于该测量值v是否为错误(即系统S在该测量值被取得时是否处于错误状态)的语句。学习系统L借助预定阈值对测量值集合V或测量值v进行评级。在本情况下,位于阈值之下的测量值v被从学习集合中移除,并且不被进一步考虑。由此所确定的学习集合V'(其仅包括大于阈值的测量值)被学习集合L用于形成模型M。鉴于所学习的测量值,模型M是无错误系统S的表示。在模型M的基础上,应当为将来的新测量值w作出关于系统S是否处于与该新测量值w有关的错误状态的语句。出于该目的,模型M被用来形成评级系统B。随后,来自新测量值集合W的要被评估的测量值w被提供给评级系统B。随后,评级系统B对来自测量值集合W的测量值w进行评级,由此考虑形成的模型M,并作出关于测量值w是否错误并由此该系统是否处于错误状态的语句。图2示出根据本发明的用于对从系统S取得的测量值进行评级的方法的优选实施例的示意图,在该优选实施例中,测量值v被再次取到系统S中,并被组合到预期为学习集合的测量值v的集合中。分数函数F被应用于测量值v并由此包括分数值q的分数值集合Q被形成。随后,变换函数T被应用于该分数值集合Q,并且由此包括概率p的概率集合P被形成。通过随机化选择,随后经修改的测量值学习集合V'被形成。测量值v被包括在具有相应的概率1-p的经修改学习集合V'中。测量值v还(或者仅)可通过合适的加权函数G被给予相应的加权,并且因此所有测量值v∈V与相应的权重一起被包括在经修改的学习集合V'中。随后,通过使用学习集合V',学习系统L形成合适的模型M,其中模型M进而是无错误系统S的表示。随后,通过使用模型M形成评级系统B。从系统新取得的测量值w∈W被提供给评级系统B,并且该评级系统对新测量值w∈W是错误的还是正常的进行评级,并据此对系统S处于错误状态还是正常状态进行评级。图3示出根据本发明的用于对从系统S取得的测量值进行评级的系统的优选实施例的示意图。用于对从系统S取得的测量值进行评级的系统100包括用于形成来自系统S的未标记测量值的集合V的设备110、用于形成经修改的学习集合V'的设备120、学习系统L130、评级系统B140以及用于确定系统S是否处于错误状态的设备150。设备110接收由系统S取得的测量值v,并且在这些所取得的测量值的基础上,形成未标记测量值v的集合V。随后,包括测量值v'的经修改的学习集合V'在设备120中被如下形成:在设备121中,借助分数函数F从包括测量值v的集合V形成包括分数值q的分数值集合Q。随后,在设备121中,借助变换函数T从包含分数值q的分数值集合Q形成包括概率p的概率集合P。随后,在设备120中,测量值v与相应的概率1-p(其中p=T(F(v))一起被包括在经修改的学习集合V'中。由此,通过对原始取得的集合V进行随机化/基于随机的处理获得经修改的学习集合V'。随后,在学习系统L130中使用经修改的学习集合V'来形成系统S的模型M。模型M是无错误系统S的表示。借助该模型M,随后在评级系统B140中对来自该系统的新测量值集合W中的要被评估的测量值w是否错误进行评级。包括要被评估的测量值w的测量值集合W也可能已由设备110形成或测量。随后,在设备150中在测量值w的评级的基础上确定系统W处于无错误状态还是处于错误状态。关于测量值w是否错误或者系统S处于错误状态还是无错误状态的相应的确定结果可随后因此例如在另外的系统中被进一步处理。图4示出根据本发明的用于对从系统取得的测量值进行评级的方法的优选实施例的韦伯分布(其被用作传递函数)的示意图。在本发明的目前描述的实施例中,在以下,在系统S处测量针对特定测量(类型)的六个测量值,并且这六个测量值稍后应当用作学习系统L中的输入。这些测量值v的测量值集合V为:V=(101,102,1,100,103,105)。在该测量值列表中,第三测量值v=1是异常值。然而,学习系统L不知道该异常值是错误测量值还是无错误测量值以及该异常值是在系统S的错误状态还是无错误状态中测量的。如果学习系统L针对学习集合V将来自V的测量值中的最小值和最大值形成为模型M,则以下将适用:-在具有测量值v=1的情况下:最小值=1,最大值=105-在没有测量值v=1的情况下:最小值=100,最大值=105如果最大值和最小值被用作用于描述无错误系统的模型M,则在当前情况下,取决于测量值1是否被添加将达成两个完全不同的实现。在最小值=1且最大值=105的情况下,针对新测量值的接受范围比最小值=100且最大值=105的情况更大。在第一种情况下,将比第二种情况下接受比正常更多的测量值。因此,在根据本发明的当前示例中,如使用为来自V的每一测量值v形成距来自V的最近测量值的距离并将该距离除以来自V的所有测量值的平均距离m的分数函数F(v),而非该函数。d(v)意指测量值v距所有其他测量值的最小距离。由此,以下适用:-d(101)=1-d(102)=1-d(1)=99-d(100)=1-d(103)=1-d(105)=2因此,平均距离m随后为:-m=(1+1+99+1+1+2)/6=105/6=17.5借助分数函数F,来自V的测量值的分数值现在可被计算为:-F(101)=1/17.5≈0.057-F(102)=1/17.5≈0.057-F(1)=99/17.5≈5.65-F(100)=1/17.5≈0.057-F(103)=1/17.5≈0.057-F(105)=2/17.5≈0.11根据本发明,随后使用转移函数T将这些分数值变换成概率。基于根据本发明的示例,具有参数k=2(即所谓的形状参数)和λ=2(即所谓的缩放参数)的韦伯分布被用作转移函数。韦伯分布T被如下定义:-x<0:T(x;k,lambda)=0.-x≥0:T(x;k,lambda)=(k/lambda)(x/lambda)^(k-1)exp(-(x/lambda)^k)其中\"^\"是求幂,并且exp()是指数函数。图3示出了根据本发明的具有这些参数的韦伯分布。借助T变换的分数值如下:-F(101)=1/17.5≈0.057,T(0.057)=0.00081-F(102)=1/17.5≈0.057,T(0.057)=0.00081-F(1)=99/17.5≈5.65,T(5.65)=0.9996-F(100)=1/17.5≈0.057,T(0.057)=0.00081-F(103)=1/17.5≈0.057,T(0.057)=0.00081-F(105)=2/17.5≈0.11,T(0.057)=0.0030在所计算的概率值的基础上,各个体测量值现在按随机化方式被从学习集合V中移除或被保留在学习集合V中。由此,测量值101、102、100、103、105非常有可能被维护在V中,并且测量值1被移除。经修改的学习集合V'由此非常可能包括以下测量值:-V’=(101,102,100,103,105)随后,通过使用学习集合V'形成合适的模型M,并且接着通过使用模型M形成评级系统B。从系统新取得的测量值w∈W可被提供给评级系统B,并且该评级系统B对该新测量值w∈W是错误的还是正常的进行评级,并对系统S因此处于错误状态还是正常状态进行评级。虽然被发明是在附图的基础上被解说并在相应描述的基础上被描述的,因此该解说和详细描述将被理解为是说明性和示例性的,而不用作限制本发明。技术人员当然可作出改变和修改,而不偏离下面的权利要求的范围和要点。具体地,本发明还包括包含之前或以下根据各实施例提出或示出的特征的任何组合的实施例。本发明还包括附图中的各个体特征,即使这些特征是在附图中结合其他特征示出的和/或这些特征没有在之前或以后被提到。此外,可将附图和描述中描述的各实施例的替换例以及各个体替换例及其特征从本发明的主题和/或所公开的主题中排除。该公开包括排他地包括权利要求书和/或其示例中描述的特征的实施例以及附加地包括其他特征的此类实施例。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1