一种时间序列数据分析方法及装置制造方法
【专利摘要】本发明公开了一种时间序列数据分析方法及装置,用以准确、直观地展示时间序列数据。所述方法包括:提取时间序列数据的特征信息;查找所述特征信息相同的时间序列数据;分析所述特征信息相同的时间序列数据是否由同一源代码产生;当所述特征信息相同的时间序列数据由同一源代码产生,对所述特征信息相同的时间序列数据进行聚类展示。
【专利说明】一种时间序列数据分析方法及装置
【技术领域】
[0001]本发明涉及互联网【技术领域】,特别涉及一种时间序列数据分析方法及装置。
【背景技术】
[0002]在信息技术飞速发展的今天,人们在各种社会和经济活动中产生大量的数字信息,企业信息技术基础设施建设规模不断扩大,IT监控、运维系统也得到广泛运用,同时各种传感器、智能家电产生的数据,以及各种交易系统(证券交易系统、电子商务交易系统)产生的日志数量巨大,格式也不尽相同,很难得到利用。
[0003]大量的日志信息如何查看也是一大难题。随着日志容量和类型的增长,日志数据已经超出了人类的认知能力,单凭人力已经无法跟上机器产生数据的速度。对日志内容进行分析并追踪潜在的问题越来越困难,尤其是在多日志相关性分析出现之后,需要经验丰富的操作人员跟踪事件链、过滤噪音,并最终诊断出问题出现的根本原因。
[0004]现有技术实现了对日志内容的关键字检索和结果展现,系统根据用户输入的关键字进行检索,然后依照时间戳的先后顺序将搜索结果呈现给用户。
[0005]当前对日志的检索及分析技术通常以时间戳作为日志展现顺序,在输入关键词后,用户看到的搜索结果中,某一类型的相关日志并没有集中展示,不同类型的日志混杂在一起,这需要用户自己掌握搜索技巧进行过滤操作,大大增加了查看难度和所花费的时间。
【发明内容】
[0006]本发明提供一种时间序列数据分析方法及装置,用以准确、直观地展示时间序列数据。
[0007]本发明提供一种时间序列数据分析方法,包括:
[0008]提取时间序列数据的特征信息;
[0009]查找所述特征信息相同的时间序列数据;
[0010]分析所述特征信息相同的时间序列数据是否由同一源代码产生;
[0011 ]当所述特征信息相同的时间序列数据由同一源代码产生,对所述特征信息相同的时间序列数据进行聚类展示。
[0012]可选的,所述提取时间序列数据的特征信息,包括:
[0013]根据预设的正则表达式对所述时间序列数据进行匹配;
[0014]当匹配成功时,确定所述预设的正则表达式为所述时间序列数据的特征信息。
[0015]可选的,所述提取时间序列数据的特征信息,包括:
[0016]按顺序提取所述时间序列数据中的非字母、非数字的特殊字符;
[0017]确定所述特殊字符为所述时间序列数据的特征信息。
[0018]可选的,所述提取时间序列数据的特征信息,包括:
[0019]获取所述时间序列数据的文本特征模板;
[0020]确定所述文本特征模板为所述时间序列数据的特征信息。
[0021]可选的,所述对所述特征信息相同的时间序列数据进行聚类展示,包括:
[0022]将所述特征信息相同的时间序列数据集中展示。
[0023]本发明提供一种时间序列数据分析装置,包括:
[0024]提取模块,用于提取时间序列数据的特征信息;
[0025]查找模块,用于查找所述特征信息相同的时间序列数据;
[0026]分析模块,用于分析所述特征信息相同的时间序列数据是否由同一源代码产生;
[0027]聚类展示模块,用于当所述特征信息相同的时间序列数据由同一源代码产生,对所述特征信息相同的时间序列数据进行聚类展示。
[0028]可选的,所述提取模块,包括:
[0029]匹配子模块,用于根据预设的正则表达式对所述时间序列数据进行匹配;
[0030]确定子模块,用于当匹配成功时,确定所述预设的正则表达式为所述时间序列数据的特征信息。
[0031]可选的,所述提取模块,包括:
[0032]提取子模块,用于按顺序提取所述时间序列数据中的非字母、非数字的特殊字符;
[0033]确定子模块,用于确定所述特殊字符为所述时间序列数据的特征信息;
[0034]可选的,所述提取模块,包括:
[0035]获取子模块,用于获取所述时间序列数据的文本特征模板;
[0036]确定子模块,用于确定所述文本特征模板为所述时间序列数据的特征信息。
[0037]可选的,所述聚类展示模块,用于将所述特征信息相同的时间序列数据集中展示。
[0038]本实施例中,通过将由同一源代码产生的时间序列数据聚合到一起进行展示,使得可以准确、直观地展示时间序列数据。无需用户进行复杂的搜索或过滤操作,也不需要掌握正则表达式的写法以及其他语句的运用,只需要直接上传数据内容并输入关键词进行查询即可。系统会自动将搜索结果进行聚类,并一起展现,方便用户查看和分析。
[0039]本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0040]下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
【专利附图】
【附图说明】
[0041]附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0042]图1是本发明实施例时间序列数据分析方法的流程图;
[0043]图2是本发明另一实施例时间序列数据分析方法的流程图;
[0044]图3是本发明另一实施例时间序列数据分析方法的流程图;
[0045]图4是本发明另一实施例时间序列数据分析方法的流程图;
[0046]图5是本发明另一实施例时间序列数据分析装置的框图;
[0047]图6是本发明实施例提取模块的框图;
[0048]图7是本发明实施例提取模块的框图;
[0049]图8是本发明实施例提取模块的框图。
【具体实施方式】
[0050]以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0051]本发明实施例中,主要是对时间序列数据进行分析。时间序列数据即为在不同时间点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度。例如,我国国内生产总值从1949到2009的变化就是时间序列数据。本发明实施例中的时间序列数据不仅包括日志,还包括各种传感器、智能家电以及各种交易系统(电商、银行、互联网金融)等产生的带有时间戳的所有数据。
[0052]图1是本发明实施例时间序列数据分析方法的流程图,如图1所示,该时间序列数据检索方法,包括:
[0053]步骤S11,提取时间序列数据的特征信息;
[0054]步骤S12,查找特征信息相同的时间序列数据;
[0055]步骤S13,分析特征信息相同的时间序列数据是否由同一源代码产生;
[0056]步骤S14,当特征信息相同的时间序列数据由同一源代码产生,对特征信息相同的时间序列数据进行聚类展示。
[0057]例如,某条时间序列数据为:
[0058]01/Aug/2014:12:07:39[Error]: status code is I。
[0059]通过分析,可以获得该条时间序列数据的特征信息为:
[0060]u [Error]: status code is% d,,。
[0061]可以查找到与该条时间序列数据的特征信息相同的其他时间序列数据为:
[0062]02/Aug/2014:12:08:40 [Error]: status code is 5;
[0063]03/Aug/2014:12:09:59 [Error]: status code is 10;
[0064]......
[0065]通过分析,可以获得产生上述多条时间序列数据的源代码为:
[0066]logging C [Error]: status code is% d", code)。
[0067]因此,将上述多条时间序列数据归为一类,在搜索结果中都可以集中展示,方便用户查看。
[0068]本实施例中,通过将由同一源代码产生的时间序列数据聚合到一起进行展示,使得可以准确、直观地展示时间序列数据。无需用户进行复杂的搜索或过滤操作,也不需要掌握正则表达式的写法以及其他语句的运用,只需要直接上传数据内容并输入关键词进行查询即可。系统会自动将搜索结果进行聚类,并一起展现,方便用户查看和分析。
[0069]图2是本发明另一实施例时间序列数据分析方法的流程图,如图2所示,可选的,上述步骤Sll包括:
[0070]步骤S21,根据预设的正则表达式对时间序列数据进行匹配;
[0071]步骤S22,当匹配成功时,确定预设的正则表达式为时间序列数据的特征信息。
[0072]图3是本发明另一实施例时间序列数据分析方法的流程图,如图3所示,可选的,上述步骤Sll包括:
[0073]步骤S31,按顺序提取时间序列数据中的非字母、非数字的特殊字符;
[0074]步骤S32,确定特殊字符为时间序列数据的特征信息。
[0075]例如,按顺序提取该日志中的非字母、非数字的符号(包括出现的顺序和个数),如空格、标点符号、括号、中划线、下划线等作为时间序列数据的特征信息。
[0076]图4是本发明另一实施例时间序列数据分析方法的流程图,如图4所示,可选的,上述步骤Sll包括:
[0077]步骤S41,获取时间序列数据的文本特征模板;
[0078]步骤S42,确定文本特征模板为时间序列数据的特征信息。
[0079]例如,通过数据挖掘、机器学习等途径,抽取某种时间序列数据类型的文本特征模版,将文本特征模板作为时间序列数据的特征信息。
[0080]在上述可选方案中,时间序列数据的特征信息可以通过上述三种方法中至少一种获得,通过提取时间序列数据的特征信息,以便查找到特征信息相同的时间序列数据,可确定特征信息相同的时间序列数据为同一源代码产生的。这样,可以更加准确地分析出同一源代码产生的时间序列数据,对同一源代码产生的时间序列数据进行聚类后,直观地进行展示,方便用户查看和分析。
[0081]可选的,上述步骤S14包括:
[0082]将所述特征信息相同的时间序列数据集中展示。
[0083]在可选方案中,将特征信息相同的时间序列数据,即同一源代码产生的时间序列数据,集中在一个区域进行显示,方便用户查看和分析。
[0084]图5是本发明实施例时间序列数据分析装置的框图,如图5所示,该时间序列数据检索装置,包括:
[0085]提取模块51,用于提取时间序列数据的特征信息;
[0086]查找模块52,用于查找所述特征信息相同的时间序列数据;
[0087]分析模块53,用于分析所述特征信息相同的时间序列数据是否由同一源代码产生;
[0088]聚类展示模块54,用于当所述特征信息相同的时间序列数据由同一源代码产生,对所述特征信息相同的时间序列数据进行聚类展示。
[0089]图6是本发明实施例提取模块的框图,如图6所示,可选的,所述提取模块51,包括:
[0090]匹配子模块61,用于根据预设的正则表达式对所述时间序列数据进行匹配;
[0091]确定子模块62,用于当匹配成功时,确定所述预设的正则表达式为所述时间序列数据的特征信息。
[0092]图7是本发明实施例提取模块的框图,如图7所示,可选的,所述提取模块,包括:
[0093]提取子模块71,用于按顺序提取所述时间序列数据中的非字母、非数字的特殊字符;
[0094]确定子模块72,用于确定所述特殊字符为所述时间序列数据的特征信息;
[0095]图8是本发明实施例提取模块的框图,如图8所示,可选的,所述提取模块,包括:
[0096]获取子模块81,用于获取所述时间序列数据的文本特征模板;
[0097]确定子模块82,用于确定所述文本特征模板为所述时间序列数据的特征信息。
[0098]可选的,所述聚类展示模块54,用于将所述特征信息相同的时间序列数据集中展
/Jn ο
[0099]关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0100]本实施例中,通过将由同一源代码产生的时间序列数据聚合到一起进行展示,使得可以准确、直观地展示时间序列数据。无需用户进行复杂的搜索或过滤操作,也不需要掌握正则表达式的写法以及其他语句的运用,只需要直接上传数据内容并输入关键词进行查询即可。系统会自动将搜索结果进行聚类,并一起展现,方便用户查看和分析。
[0101]本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0102]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0103]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0104]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0105]显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
【权利要求】
1.一种时间序列数据分析方法,其特征在于,包括: 提取时间序列数据的特征信息; 查找所述特征信息相同的时间序列数据; 分析所述特征信息相同的时间序列数据是否由同一源代码产生; 当所述特征信息相同的时间序列数据由同一源代码产生,对所述特征信息相同的时间序列数据进行聚类展示。
2.如权利要求1所述的方法,其特征在于,所述提取时间序列数据的特征信息,包括: 根据预设的正则表达式对所述时间序列数据进行匹配; 当匹配成功时,确定所述预设的正则表达式为所述时间序列数据的特征信息。
3.如权利要求1所述的方法,其特征在于,所述提取时间序列数据的特征信息,包括: 按顺序提取所述时间序列数据中的非字母、非数字的特殊字符; 确定所述特殊字符为所述时间序列数据的特征信息。
4.如权利要求1所述的方法,其特征在于,所述提取时间序列数据的特征信息,包括: 获取所述时间序列数据的文本特征模板; 确定所述文本特征模板为所述时间序列数据的特征信息。
5.如权利要求1所述的方法,其特征在于,所述对所述特征信息相同的时间序列数据进行聚类展示,包括: 将所述特征信息相同的时间序列数据集中展示。
6.一种时间序列数据分析装置,其特征在于,包括: 提取模块,用于提取时间序列数据的特征信息; 查找模块,用于查找所述特征信息相同的时间序列数据; 分析模块,用于分析所述特征信息相同的时间序列数据是否由同一源代码产生;聚类展示模块,用于当所述特征信息相同的时间序列数据由同一源代码产生,对所述特征信息相同的时间序列数据进行聚类展示。
7.如权利要求6所述的装置,其特征在于,所述提取模块,包括: 匹配子模块,用于根据预设的正则表达式对所述时间序列数据进行匹配; 确定子模块,用于当匹配成功时,确定所述预设的正则表达式为所述时间序列数据的特征信息。
8.如权利要求6所述的装置,其特征在于,所述提取模块,包括: 提取子模块,用于按顺序提取所述时间序列数据中的非字母、非数字的特殊字符; 确定子模块,用于确定所述特殊字符为所述时间序列数据的特征信息。
9.如权利要求6所述的装置,其特征在于,所述提取模块,包括: 获取子模块,用于获取所述时间序列数据的文本特征模板; 确定子模块,用于确定所述文本特征模板为所述时间序列数据的特征信息。
10.如权利要求6所述的装置,其特征在于,所述聚类展示模块,用于将所述特征信息相同的时间序列数据集中展示。
【文档编号】G06F17/30GK104239477SQ201410447046
【公开日】2014年12月24日 申请日期:2014年9月3日 优先权日:2014年9月3日
【发明者】陈军, 梁玫娟 申请人:北京优特捷信息技术有限公司