一种日志分析方法与装置与流程

文档序号:16087373发布日期:2018-11-27 22:35阅读:154来源:国知局
本发明涉及计算机领域,更具体地,特别是指一种日志分析方法与装置。
背景技术
:BMC(基板管理控制器)是设置于主板上并且可以对服务器进行远程操作的控制芯片,是一套独立于服务器的系统。BMC可以远程监控服务器上的一些性能指标,以及对服务器执行开关机操作、固件升级、设备查看等一系列操作。一台服务器上通常会运行多种服务,开启数十种软件,同时还会有运维人员定期维护,这一系列的操作都会产生大量的操作数据。为了服务器的安全,通常操作系统及运行的服务都会对一些关键操作进行日志记录,如用户远程登录、连接数据库、程序崩溃等。在日后出现问题时可以使用关键信息记录日志方便地进行问题定位。BMC系统可以实时收集服务器的这些日志信息,并发送至远端专有的日志服务器进行存储与查看。现有技术是在发生问题后,从服务器中人工提取相关日志,整理成表格或其他固定格式的文件,然后按照时间点找到出现问题的时刻,对该处的日志进行分析。由于日志文件可能非常多,每个文件中还会存放大量的日志记录,因此如何对其中的内容进行分析、提取出所需的告警甚至错误信息,对维护人员来说十分困难。对现有技术中难以从日志文件中提取出所需的特定信息的问题,目前尚未有有效的解决方案。技术实现要素:有鉴于此,本发明实施例的目的在于提出一种日志分析方法与装置,能够从不同日志文件或不同类型的日志文件中提取和分析日志信息,以自动推断日志内容,解放人工劳动力,降低日志分析成本。基于上述目的,本发明实施例的一方面提供了一种日志分析方法,包括以下步骤:收集既有日志并从既有日志中提取日志信息;对日志信息进行数字化处理生成日志数据;将日志数据重构为机器学习模型可处理的数据结构,数据结构包含训练集和测试集;分别使用训练集和测试集来训练并随后测试多个机器学习模型;根据测试结果来选择训练得到的机器学习模型;和使用所选择的机器学习模型来分析新产生的日志。在一些实施方式中,提取的日志信息包括文字内容信息和级别信息;生成的日志数据包括文字内容数据和级别数据。在一些实施方式中,数字化处理包括:将每个文字内容信息拆分为多个单词;使用单词总表对多个单词进行统计,在单词总表中出现的单词记数字1,未出现的记数字0;根据统计结果为每个文字内容信息生成数组作为文字内容数据。在一些实施方式中,单词总表为将所有文字内容信息拆分出的不同单词所形成的表。在一些实施方式中,数字化处理还包括:为每个日志级别赋予一个相对应的数字;将每个级别信息根据与其相对应的数字来生成级别数据。在一些实施方式中,重构为将所有文字内容数据和级别数据形成矩阵作为数据结构。在一些实施方式中,训练集的内容不同于测试集并且容量大于测试集。在一些实施方式中,根据测试结果来选择训练得到的机器学习模型包括:根据测试结果选择测试精度最高的机器学习模型。在一些实施方式中,该多个机器学习模型包括KNN算法或逻辑回归算法。本发明实施例的另一方面,还提供了一种日志分析装置,包括:至少一个处理器;存储器,存储器用于存储可在处理器上运行的程序代码,其中处理器在运行程序代码时执行上述的日志分析方法。本发明具有以下有益技术效果:本发明实施例提供的日志分析方法与装置,通过从既有日志中提取日志信息、进行数字化处理生成日志数据、重构为机器学习模型可处理的数据结构、训练和测试多个机器学习模型、根据测试选择机器学习模型以及使用选择的机器学习模型分析新产生的日志的技术方案,能够从不同日志文件或不同类型的日志文件中提取和分析日志信息,以自动推断日志内容,解放人工劳动力,降低日志分析成本。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明提供的日志分析方法的流程示意图;图2为本发明提供的日志分析方法的一个实施例的流程示意图;图3为本发明提供的执行所述日志分析方法的计算机设备的一个实施例的硬件结构示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。基于上述目的,本发明实施例的第一个方面,提出了一种能够从不同日志文件或不同类型的日志文件中提取和分析日志信息的方法的实施例。图1示出的是本发明提供的日志分析方法的实施例的流程示意图。所述日志分析方法,包括以下步骤:步骤S101,收集既有日志并从既有日志中提取日志信息;步骤S103,对日志信息进行数字化处理生成日志数据;步骤S105,将日志数据重构为机器学习模型可处理的数据结构,数据结构包含训练集和测试集;步骤S107,分别使用训练集和测试集来训练并随后测试多个机器学习模型;步骤S109,根据测试结果来选择训练得到的机器学习模型;和步骤S111,使用所选择的机器学习模型来分析新产生的日志。本发明实施例公开了在BMC系统上部署一种基于机器学习算法的日志分析方法。本方法收集大量的已有日志信息作为训练集,并构建训练模型,通过对训练集的学习与测试,形成高精度的预测模型。然后,让此模型运行在BMC系统中,自动分析采集到的每一条新的服务器日志,并预测出该条日志的严重等级。若发现是个高危等级的日志,则立即通过邮件或其他手段通知维护人员,做到及时响应处理问题。根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。图2示出的是本发明实施例的详细流程示意图。如图2所示,在步骤S201中收集既有日志并从既有日志中提取日志信息。提取的日志信息包括文字内容信息和级别信息;生成的日志数据包括文字内容数据和级别数据。通常来说日志文件中的一条日志记录通常会包含许多信息,本发明实施例的预测模型需要建立实际文字内容(如英文)与该条日志级别之间的关系,因此其他诸如发生时间、用户、所在进程等对日志级别影响不大的信息可以被忽略。当然,如果上述额外信息中的一箱货多项对于其它预测模型使必要的或有意义的,本领域技术人员也可以按需保留。在步骤S203中进行数字化处理,其中数字化处理的步骤包括:将每个文字内容信息拆分为多个单词;使用单词总表对多个单词进行统计,在单词总表中出现的单词记数字1,未出现的记数字0;根据统计结果为每个文字内容信息生成数组作为文字内容数据。在一些实施方式中,单词总表为将所有文字内容信息拆分出的不同单词所形成的表。在一些实施方式中,数字化处理还包括:为每个日志级别赋予一个相对应的数字;将每个级别信息根据与其相对应的数字来生成级别数据。计算机对数字更为敏感,因此需要通过特定方法来将文字信息转换为数字信息。对于简单的日志级别,可以为个日志级别赋予一个数字,如‘error’对应0,‘warning’对应1,‘normal’对应2等等。而日志文字内容则复杂的多,无法为每条日志用单独的数字来表示。本发明实施例将日志信息中的所有日志内容拆分为单词生成单词总表,并构建一维数组。可以确定,每条日志的文字内容只包含单词总表中的一小部分;若该条日志的文字内容包含对应单词,则记数字1,否则记数字0。举例说明:对于文字信息为“Useradminlogin”、等级为“normal”的日志记录log1,构建的一维数组如下:login……admin……User…levellog1100100102其中“…”代表出现在单词总表中的其它单词。由于日志文字内容千变万化,所以一维数组的列可能会非常多。本发明实施例将最后一列定为level,即该条日志的级别。本领域技术人员应当明白,这里公开所描述的数字化处理步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。另外,数字化处理步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质连接到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。存储介质也可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中,ASIC可以驻留在用户终端中。处理器和存储介质当然也可以作为分立组件驻留在用户终端中。在步骤S205中,重构为将所有文字内容数据和级别数据形成二维矩阵DF作为数据结构,数据结构包含训练集和测试集。多个上述形式的一维数组被作为行而集合成二维矩阵DF,即机器学习所使用的数据结构。在步骤S207中,使用训练集来训练多个机器学习模型,并使用测试集来测试多个机器学习模型。其中,训练集的内容不同于测试集并且容量大于测试集。在机器学习中,将与单词总表对应的列称为feature,日志级别称为label。通过大量已有的feature与label数据对机器学习模型进行训练,从而使其能够对未来出现的日志内容进行预测。虽然日志文字内容可能会非常繁多,但集合终究是有限的,因此可以通过对模型的大量训练来获得一个精度较高的结果。在本发明实施例中,例如获得服务器中十万条日志记录信息,从中提取文字内容信息和等级信息,编写程序进行数字化处理,形成具有十万个行的数据结构。然后随机对这十万条数据进行分割,其中九万条作为训练集,剩余一万条作为测试集,以便测试经过训练的模型精度如何。在步骤S209中,从多个机器学习模型中根据测试结果选择测试精度最高的机器学习模型。在步骤S211中,本发明实施例的服务器中新出现的每条日志信息都将被分解为feature,然后经过模型后预测出对应的label,根据label确定的level来自动通知维护人员进行后续处理。本领域普通技术人员可以理解:实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。在一些实施方式中,机器学习模型使用KNN算法或逻辑回归算法。在算法上说,由于日志分析是分类监督学习场景,因此KNN或者逻辑回归等算法的学习模型是优选的。从上述实施例可以看出,本发明实施例提供的日志分析方法,通过从既有日志中提取日志信息、进行数字化处理生成日志数据、重构为机器学习模型可处理的数据结构、训练和测试多个机器学习模型、并选择机器学习模型分析新产生的日志的技术方案,能够从不同日志文件或不同类型的日志文件中提取和分析日志信息,以自动推断日志内容,解放人工劳动力,降低日志分析成本。需要特别指出的是,上述日志分析方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于日志分析方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。基于上述目的,本发明实施例的第二个方面,提出了一种能够从不同日志文件或不同类型的日志文件中提取和分析日志信息的装置的实施例。所述日志分析装置包括至少一个处理器、和存储器,存储器存储有可在处理器上运行的程序代码,其中处理器在运行程序代码时执行上述的日志分析方法。本发明实施例公开所述的装置可为各种电子终端设备,例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。从上述实施例可以看出,本发明实施例提供的日志分析装置,通过从既有日志中提取日志信息、进行数字化处理生成日志数据、重构为机器学习模型可处理的数据结构、训练和测试多个机器学习模型、并选择机器学习模型分析新产生的日志的技术方案,能够从不同日志文件或不同类型的日志文件中提取和分析日志信息,以自动推断日志内容,解放人工劳动力,降低日志分析成本。需要特别指出的是,上述日志分析装置的实施例采用了所述日志分析方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到所述日志分析方法的其他实施例中。当然,由于所述日志分析方法实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于所述日志分析装置也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。如图3所示,为本发明提供的能够从不同日志文件或不同类型的日志文件中提取和分析日志信息的装置的一个实施例的硬件结构示意图。以如图3所示的计算机设备为例,在该计算机设备中包括一个处理器301以及一个存储器302,并还可以包括:输入装置303和输出装置304。处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接,图3中以通过总线连接为例。存储器302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的所述日志分析方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的日志分析方法。存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据日志分析装置的使用所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。本文所述的存储器可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)以及直接RambusRAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。输入装置303可接收输入的数字或字符信息,以及产生与日志分析装置的用户设置以及功能控制有关的键信号输入。输出装置304可包括显示屏等显示设备。所述一个或者多个日志分析方法对应的程序指令/模块存储在所述存储器302中,当被所述处理器301执行时,执行上述任意方法实施例中的日志分析方法。所述执行所述日志分析方法的计算机设备的任何一个实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1