集群日志特征提取方法、装置及存储介质与流程

文档序号:18142967发布日期:2019-07-10 11:16阅读:344来源:国知局
集群日志特征提取方法、装置及存储介质与流程

本发明涉及基架运维,具体地说,涉及一种集群日志特征提取方法、装置及存储介质。



背景技术:

在信息爆炸式增长的时代,文件大小和数据规模迈向tb级甚至pb级已成现实,集群存储系统节点数已达到64节点集群数目,管理如此庞大的集群系统已经成为数据中心所面临的严峻挑战。及时跟踪集群节点运行状态,精确定位节点出错信息变得尤为重要。在集群存储系统实际的运行中,目前常用一种集群存储系统日志管理方法,可以定时或实时发送系统日志,实现了日志的集中传输,但是没有对日志进行分析和管理,不能全局的了解整个集群存储系统的运行情况,不能快速的定位到错误信息。但是随着集群节点数的增多,对集群系统管理变得越来越复杂。从海量服务器数据中,抽取出能反映服务器性能的特征,精确定位集群节点的潜在故障,提前做好相应的性能检测显得尤为重要。



技术实现要素:

为解决以上问题,本发明提供一种集群日志特征提取方法,应用于电子装置,包括以下步骤:通过flume客户端采集服务器集群的日志,发送至hbase数据库,其中,flume客户端通过多个agent进程对应采集服务器集群中的每台服务器的日志,agent定时将对应的服务器上的日志数据收集并通过api接口发送到hbase数据库;利用hadoop对日志数据进行数据清洗,筛选出原始数据,其中原始数据至少包括服务器磁盘占用率、内存使用率、cpu占用率、业务接口调用量;对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取;运用皮尔逊相关系数筛选出有效特征,将提取的特征值分别与原始数据进行皮尔逊相关系数的运算,根据计算出的相关系数与相关度阈值进行比较,高于相关度阈值则认为是有效数据,低于相关度阈值则认为是无效数据并予以剔除。

优选地,数据清洗中采用拉依达准则剔除具有粗大误差的数据,包括以下步骤:对日志数据x1,x2...,xn,计算其算术平均值及剩余误差其中,xi为单次agent采集的日志数据;

计算标准偏差sx,

若数据xb的剩余误差vb(1≤b≤n),满足公式

则认为xb是含有粗大误差值的奇异值,并剔除奇异值。

优选地,对日志数据的奇异值用中值替代,其中所述中值是指将各个日志数据x1,x2...,xn按大小顺序排列,处于中间位置的值称为中值。

优选地,原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取,其中,

有效值采用如下公式计算:

峰值采用如下公式计算:

xp=max(xi)

方根幅值采用如下公式计算:

波形指标采用如下公式计算:

脉冲指标采用如下公式计算:

峭度指标采用如下公式计算:

其中,xi为单次agent采集的日志数据;

n为数据采集的次数;

为采集的日志数据的算术平均值;

xrms为采集的日志数据的有效值;

xp为采集的日志数据的峰值;

xr为采集的日志数据的方根幅值;

xws为采集的日志数据的波形指标;

xif为采集的日志数据的脉冲指标;

xkv为采集的日志数据的峭度指标。

优选地,皮尔逊相关系数的公式如下:

其中,xi为单次agent采集的日志数据;

yj为单次agent采集数据中提取的某一特征值;

是日志数据x1,x2...,xn的算数平均值;

是y1,y2...,yn的算数平均值;

n为日志数据采集的次数。

优选地,flume包括多个第一层级agent和一个第二层级agent,每个第一层级agent分别对应的采集一个服务器的日志数据,多个第一层级agent采集的日志数据汇集至第二层级agent,并由第二层级agent传输至hdfs中。

本发明还提供一种电子装置,该电子装置包括:存储器和处理器,所述存储器中存储有集群日志特征提取程序,所述集群日志特征提取程序被所述处理器执行时实现如下步骤:通过flume客户端采集服务器集群的日志,发送至hbase数据库,其中,flume客户端通过多个agent进程对应采集服务器集群中的每台服务器的日志,agent定时将对应的服务器上的日志数据收集并通过api接口发送到hbase数据库;利用hadoop对日志数据进行数据清洗,筛选出原始数据,其中原始数据至少包括服务器磁盘占用率、内存使用率、cpu占用率、业务接口调用量;对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取;运用皮尔逊相关系数筛选出有效特征,将提取的特征值分别与原始数据进行皮尔逊相关系数的运算,根据计算出的相关系数与相关度阈值进行比较,高于相关度阈值则认为是有效数据,低于相关度阈值则认为是无效数据并予以剔除。

优选地,数据清洗中采用拉依达准则剔除具有粗大误差的数据,包括以下步骤:对日志数据x1,x2...,xn,计算其算术平均值及剩余误差其中,xi为单次agent采集数据值;

计算标准偏差sx,

若数据xb的剩余误差vb(1≤b≤n),满足下式

则认为xb是含有粗大误差值的奇异值,并剔除所述奇异值。

优选地,对日志数据的奇异值用中值替代,其中所述中值是指将各个日志数据x1,x2...,xn按大小顺序排列,处于中间位置的值称为中值。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现以上所述的集群日志特征提取方法。

本发明能有效筛选出服务器集群中各主机的生产数据的有效信息,且从有效信息中提取出生产数据的特征值,便于生产系统的故障预测和故障分类,减少生产事故的发生。

附图说明

通过结合下面附图对其实施例进行描述,本发明的上述特征和技术优点将会变得更加清楚和容易理解。

图1是本发明实施例的集群日志特征提取方法的流程示意图;

图2是本发明实施例的电子装置的硬件架构示意图;

图3是本发明实施例的集群日志特征提取程序的模块构成图;

图4是本发明实施例的日志采集模块的单元构成图;

图5是本发明实施例的特征提取模块的单元构成图;

图6是本发明实施例的数据清洗模块的单元构成图;

图7是flume的agent进程读取数据的示意图。

具体实施方式

下面将参考附图来描述本发明所述的集群日志特征提取方法、装置及存储介质的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。

如图1所示,本实施例的集群日志特征提取方法,包括如下步骤:

步骤s10,通过flume(分布式的海量日志采集、聚合和传输系统)客户端采集服务器集群的日志,发送至hbase数据库服务器。flume以agent进程为最小的独立运行单位,一个agent进程就是一个完整的数据收集工具。如图7所示,agent包含组件source(数据收集组件)、channel(中转临时存储)、sink,三者组建了一个agent,source从服务器收集数据,传递给channel,channel保存由source组件传递过来的event(数据单元),sink从channel中读取并移除event,将event传递到后台。flume通过多个agent来对应各服务器收集日志数据。对应每一台服务器设置一个agent,定时将对应的服务器上的日志数据收集并通过api接口发送到后台。

步骤s30,利用hadoop(分布式系统基础架构)对日志数据进行数据清洗,筛选出原始数据,其中原始数据至少包括服务器磁盘占用率、内存使用率、cpu占用率、业务接口调用量。

步骤s50,对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取。

步骤s70,运用皮尔逊相关系数筛选出有效特征:将提取的特征值分别与原始数据进行皮尔逊相关系数的运算,根据计算出的相关系数与相关度阈值进行比较,高于相关度阈值则认为是有效数据,低于相关度阈值则认为是无效数据并予以剔除。

进一步地,数据清洗中采用拉依达准则剔除具有粗大误差的数据,包括以下步骤:

对日志数据x1,x2...,xn,计算其算术平均值及剩余误差其中,xi为单次agent采集的日志数据;

计算标准偏差sx,

若日志数据中的xb的剩余误差vb(1≤b≤n),满足公式

则认为xb是含有粗大误差值的奇异值,并剔除奇异值。

进一步地,采用拉依达法则能有效地识别出生产数据的奇异值,但对于剔除掉的数据则会产生空值。因此,对识别出的日志数据的奇异值用中值替代,实现对生产数据信息的预处理。其中所述中值是指将各个变量值x1,x2...,xn按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中值。

在一个可选实施例中,对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取,其中,

有效值采用如下公式计算:

峰值采用如下公式计算:

xp=max(xi)

方根幅值采用如下公式计算:

波形指标采用如下公式计算:

脉冲指标采用如下公式计算:

峭度指标采用如下公式计算:

其中,xi为单次agent采集的日志数据;

n为日志数据采集的次数;

为采集的日志数据的算术平均值;

xrms为采集的日志数据的有效值;

xp为采集的日志数据的峰值;

xr为采集的日志数据的方根幅值;

xws为采集的日志数据的波形指标;

xif为采集的日志数据的脉冲指标;

xkv为采集的日志数据的峭度指标。

运用皮尔逊相关系数筛选出有效特征,具体说,是将以上特征值分别与原始数据进行皮尔逊相关系数的运算,根据计算出的相关系数与相关度阈值来比较,高于相关度阈值则认为是有效数据,低于相关度阈值则认为是无效数据,需要予以剔除,从而可筛选出有效的数据。例如,相关度阈值为0.7,方根幅值与原始数据的相关系数为0.2,则表明方根幅值为无效数据,峭度指标与原始数据的相关系数为0.85,则认定峭度指标为有效数据。其中,皮尔逊相关系数的公式如下:

其中,xi为单次agent采集数据值;

yi为单次agent采集数据中提取的某一特征值;

是日志数据x1,x2...,xn的算数平均值;

是y1,y2...,yn的算数平均值;

n为日志数据采集的次数。

在一个可选实施例中,flume包括多个第一层级agent和一个第二层级agent,每个第一层级agent分别对应的采集一个服务器的日志数据,多个第一层级agent采集的日志数据汇集至第二层级agent,并由第二层级agent传输至hdfs(分布式文件系统)中。

参阅图2所示,是本发明电子装置的实施例的硬件架构示意图。本实施例中,所述电子装置2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图2所示,所述电子装置2至少包括,但不限于,可通过系统总线相互通信连接的存储器21、处理器22、网络接口23。其中:所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子装置2的内部存储单元,例如该电子装置2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述电子装置2的外部存储设备,例如该电子装置2上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。当然,所述存储器21还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子装置2的操作系统和各类应用软件,例如所述集群日志特征提取程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器22在一些实施例中可以是中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作,例如执行与所述电子装置2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的集群日志特征提取程序等。

所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述电子装置2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述电子装置2与推送平台相连,在所述电子装置2与推送平台之间建立数据传输通道和通信连接等。所述网络可以是企业内部网(intranet)、互联网(internet)、全球移动通讯系统(globalsystemofmobilecommunication,gsm)、宽带码分多址(widebandcodedivisionmultipleaccess,wcdma)、4g网络、5g网络、蓝牙(bluetooth)、wi-fi等无线或有线网络。

可选地,该电子装置2还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是led显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(organiclight-emittingdiode,oled)显示器等。显示器用于显示在电子装置2中处理的信息以及用于显示可视化的用户界面。

需要指出的是,图2仅示出了具有组件21-23的电子装置2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

包含可读存储介质的存储器21中可以包括操作系统、集群日志特征提取程序50等。处理器22执行存储器21中集群日志特征提取程序50时实现如下步骤:

步骤s10,通过flume(分布式的海量日志采集、聚合和传输系统)客户端采集服务器集群的日志,发送至hbase数据库服务器。flume以agent组件为最小的独立运行单位,一个agent组件就是一个完整的数据收集工具。flume通过多个agent来对应各服务器收集日志数据。对应每一台服务器设置一个agent,定时将对应的服务器上的日志数据收集并通过api接口发送到后台。

步骤s30,利用hadoop(分布式系统基础架构)对日志数据进行数据清洗,筛选出原始数据,其中原始数据至少包括服务器磁盘占用率、内存使用率、cpu占用率、业务接口调用量。

步骤s50,对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取。

步骤s70,运用皮尔逊相关系数筛选出有效特征,将提取的特征值分别与原始数据进行皮尔逊相关系数的运算,根据计算出的相关系数与相关度阈值进行比较,高于相关度阈值则认为是有效数据,低于相关度阈值则认为是无效数据并予以剔除。

在本实施例中,存储于存储器21中的所述集群日志特征提取程序可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并可由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。例如,图3示出了所述集群日志特征提取程序的程序模块示意图,该实施例中,所述集群日志特征提取程序50可以被分割为日志采集模块501、数据清洗模块502、特征提取模块503、有效特征筛选模块504。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述集群日志特征提取程序在所述电子装置2中的执行过程。以下描述将具体介绍所述程序模块的具体功能。

其中,日志采集模块501用于通过flume(分布式的海量日志采集、聚合和传输系统)客户端采集服务器集群的日志,发送至hbase数据库服务器。flume以agent组件为最小的独立运行单位,一个agent组件就是一个完整的数据收集工具。flume通过多个agent来对应各服务器收集日志数据。对应每一台服务器设置一个agent,定时将对应的服务器上的日志数据收集并通过api接口发送到后台。

数据清洗模块502用于利用hadoop(分布式系统基础架构)对日志数据进行数据清洗,筛选出原始数据,其中原始数据至少包括服务器磁盘占用率、内存使用率、cpu占用率、业务接口调用量。

特征提取模块503用于对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取。

有效特征筛选模块504运用皮尔逊相关系数筛选出有效特征,将提取的特征值分别与原始数据进行皮尔逊相关系数的运算,根据计算出的相关系数与相关度阈值进行比较,高于相关度阈值则认为是有效数据,低于相关度阈值则认为是无效数据并予以剔除。

在一个可选实施例中,如图6所示,数据清洗模块502包括拉依达准则判定单元5021,拉依达准则判定单元5021采用拉依达准则剔除具有粗大误差的数据,包括以下步骤:

对日志数据x1,x2...,xn,计算其算术平均值及剩余误差其中,xi为单次agent采集数据值;

计算标准偏差sx,

若数据xb的剩余误差vb(1≤b≤n),满足下式

则认为xb是含有粗大误差值的奇异值,并剔除该奇异值。

进一步地,数据清洗模块502还包括奇异值替换单元5022。采用拉依达法则能有效地识别出生产数据的奇异值,但对于剔除掉的数据则会产生空值。奇异值替换单元5022对识别出的日志数据的奇异值用中值替代,实现对生产数据信息的预处理。其中所述中值是指将各个变量值x1,x2...,xn按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中值。

在一个可选实施例中,如图5所示,特征提取模块503包括均值提取单元5031、有效值提取单元5032、峰值提取单元5033、方根幅值提取单元5034、波形指标提取单元5035、脉冲指标提取单元5036、峭度指标提取单元5037。分别对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取,其中,

有效值采用如下公式计算:

峰值采用如下公式计算:

xp=max(xi)

方根幅值采用如下公式计算:

波形指标采用如下公式计算:

脉冲指标采用如下公式计算:

峭度指标采用如下公式计算:

其中,xi为单次agent采集的日志数据;

n为日志数据采集的次数;

为采集的日志数据的算术平均值;

xrms为采集的日志数据的有效值;

xp为采集的日志数据的峰值;

xr为采集的日志数据的方根幅值;

xws为采集的日志数据的波形指标;

xif为采集的日志数据的脉冲指标;

xkv为采集的日志数据的峭度指标。

运用皮尔逊相关系数筛选出有效特征,具体说,是将以上特征值分别与原始数据进行皮尔逊相关系数的运算,根据计算出的相关系数与相关度阈值来比较,高于相关度阈值则认为是有效数据,低于相关度阈值则认为是无效数据,需要予以剔除,从而可筛选出有效的数据。例如,相关度阈值为0.7,方根幅值与原始数据的相关系数为0.2,则表明方根幅值为无效数据,峭度指标与原始数据的相关系数为0.85,则认定峭度指标为有效数据。其中,皮尔逊相关系数的公式如下:

其中,xi为单次agent采集数据值;

yi为单次agent采集数据中提取的某一特征值;

是日志数据x1,x2...,xn的算数平均值;

是y1,y2...,yn的算数平均值;

n为数据采集的次数。

在一个可选实施例中,如图4所示,日志采集模块501还包括agent设置单元5011,用于针对flume进行包括多个第一层级agent和一个第二层级agent的设置,每个第一层级agent分别对应的采集一个服务器的日志数据,多个第一层级agent采集的日志数据汇集至第二层级agent,并由第二层级agent传输至hdfs中。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是硬盘、多媒体卡、sd卡、闪存卡、smc、只读存储器(rom)、可擦除可编程只读存储器(eprom)、便携式紧致盘只读存储器(cd-rom)、usb存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括集群日志特征提取程序等,所述集群日志特征提取程序50被处理器22执行时实现如下操作:

步骤s10,通过flume客户端采集服务器集群的日志,发送至hbase数据库服务器。flume以agent组件为最小的独立运行单位,一个agent组件就是一个完整的数据收集工具。flume通过多个agent来对应各服务器收集日志数据。对应每一台服务器设置一个agent,定时将对应的服务器上的日志数据收集并通过api接口发送到后台。

步骤s30,利用hadoop对日志数据进行数据清洗,筛选出原始数据,其中原始数据至少包括服务器磁盘占用率、内存使用率、cpu占用率、业务接口调用量。

步骤s50,对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取。

步骤s70,运用皮尔逊相关系数筛选出有效特征,将提取的特征值分别与原始数据进行皮尔逊相关系数的运算,根据计算出的相关系数与相关度阈值进行比较,高于相关度阈值则认为是有效数据,低于相关度阈值则认为是无效数据并予以剔除。

本发明之计算机可读存储介质的具体实施方式与上述集群日志特征提取方法以及电子装置2的具体实施方式大致相同,在此不再赘述。

以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1