本发明涉及大数据技术领域,具体而言,涉及一种数据收集和调节的方法。
背景技术:
通常要解决的问题是如何管理和分析大数据,例如,大约数pb的数据。大数据被广义地定义为数据集,其大小超出了常用软件工具在合理的时间内捕获,管理,管理和处理数据的能力。世界的信息大约每两年翻一番。这些信息(或数据)包括关键情报,但对这种情报的挖掘变得成本过高,并且对于许多最终用户和应用程序而言需要太长时间。传统数据集包括填充关系数据库的历史,结构化,静态数据的狭窄子集;大数据为最终用户提供了一个特别困难的问题,因为它是无限的,可以是结构化的和非结构化的,经常可以实时获得并且可以是迭代的。对于当前的关系数据库管理系统而言,这样的大数据对于没有重要处理而言太麻烦,这是耗时的并且最终使得大部分数据过时且价值有限。
技术实现要素:
本发明提出了数据收集和调节的方法,包括:
在处理引擎处从多个数据源接收多个数据记录;
将每个多个数据记录从它们各自的本机格式中处理成相同的内部格式;
将接收和格式化的多个数据记录保存在第一个队列中以等待处理;
通过指定数量的摄取节点将格式化的多个数据记录从第一队列中拉出以进行处理;
在该方法期间连续监视第一队列大小和从第一队列中拉出格式化的多个数据记录的速率中的至少一个;
确定第一队列大小或接收率中的一个或两个都在第一个可接受的范围之外;
根据确定,在处理方法中自动向指定数量的摄取节点分配或取消分配摄取节点;
从指定数量的摄取节点近乎实时地将格式化的多个数据记录发送到第二队列;
将接收到的格式化多个数据记录保存在第二个队列中;
将接收到的格式化多个数据记录从指定数量的数据宿节点拉出第二队列进行存储;
在该方法期间连续监视第二队列大小和从第二队列中拉出接收的格式化多个数据记录的速率中的至少一个;
确定第二队列大小或接收率中的一个或两个都在第二可接受范围之外;
根据确定,在处理期间自动地将数据宿节点分配或取消分配给指定数量的数据宿节点;和
几乎实时地将每个格式化的多个数据记录发送到多个数据接收器中的至少一个以便存储在其中,其中格式化的多个数据记录可供多个应用程序使用。
所述的方法,还包括:当第二队列大小达到预定限制时,自动停止分配摄取节点。
所述的方法,还包括:
连续监视对摄取节点和数据汇聚节点之一的分配的响应,以确定是否改善了处理吞吐量;和如果确定处理吞吐量没有得到改善,则停止分配。
所述的方法,其中第一和第二队列是java消息服务(jms)队列,并且内部格式是jms格式。
所述的方法,还包括:
通过处理引擎近似实时地比较来自摄取节点的每个格式化的多个数据记录与至少第一富集规则,以确定至少第一富集规则是否适用于一个或多个中的至少一个数据元素。格式化的多个数据记录;和
如果适用的话,由处理引擎近乎实时地丰富一个或多个格式化的多个数据记录中的至少一个数据元素,该数据元素具有根据至少第一富集规则的附加数据,以形成一个或多个丰富的格式化数据记录。
所述的方法,其中将所述多个数据记录中的每一个从它们各自的本机格式中的每一个处理成相同的内部格式还包括:
通过至少一个解析器将多个数据记录中的每一个近实时地解析成多个组成部分;和通过至少一个翻译器将多个数据记录中的每一个使用其解析的多个组成部分转换成相同的内部格式,近实时地翻译。
所述的方法,其中相同的内部格式包括多个字段,其中所述多个字段中的至少第一个对于来自所述多个数据源的所有多个数据记录是共同的,并且所述多个字段中的至少第二个是唯一的多个数据记录的单个类。
所述的方法,其中所述多个数据源包括从由关系数据库,网站,rss提要,siem文件,电子邮件存档组成的组中选择的至少两个源。
所述的方法,其中所述至少一个解析器选自包括逗号分隔值解析器,电子邮件解析器,可交换图像文件格式(exif)解析器,javascript开放符号(json)的组。)解析器,libcap解析器和根据多个数据记录的一个或多个本机格式的xml解析器。
所述的方法,其中所述至少第一富集规则选自算法富集规则和维度富集规则。
所述的方法,其中所述算法丰富规则是地理位置的添加。
所述的方法,其中所述维度富集包括:
将来自每个格式化的多个数据记录的数据元素与数据丰富表中的二级数据进行比较;和根据辅助数据修改数据元素。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在图中,在不同的视图中,相同的附图标记指定对应的部分。
图1是本发明的数据收集和调节的方法示意图。
具体实施方式
为了使得本发明的目的、技术方案及优点更加清楚明白,以下结合其实施例,对本发明进行进一步详细说明;应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。对于本领域技术人员而言,在查阅以下详细描述之后,本实施例的其它系统、方法和/或特征将变得显而易见。旨在所有此类附加的系统、方法、特征和优点都包括在本说明书内、包括在本发明的范围内,并且受所附权利要求书的保护。在以下详细描述描述了所公开的实施例的另外的特征,并且这些特征根据以下将详细描述将是显而易见的。
实施例一:
如图1所示,为本发明数据收集和调节的方法的示意图,包括:包括:接收多个数据记录,进行数据处理和等待;将处理后的数据从第一队列中拉出以进行处理;在该方法期间连续监视格式化的多个数据记录的速率中的至少一个;确定大小或接收率是否在接收范围之外;将格式化的多个数据记录发送到第二队列并进行保存;在该方法期间连续监视格式化的多个数据记录的速率中的至少一个;确定大小或接收率是否在接收范围之外;根据确定,在处理期间自动地将数据宿节点分配或取消分配给指定数量的数据宿节点;和同时地将每个格式化的多个数据记录发送到多个数据接收器中的至少一个以便存储在其中,其中格式化的多个数据记录可供多个应用程序使用。
在处理引擎处从多个数据源接收多个数据记录;
将每个多个数据记录从它们各自的本机格式中处理成相同的内部格式;
将接收和格式化的多个数据记录保存在第一个队列中以等待处理;
通过指定数量的摄取节点将格式化的多个数据记录从第一队列中拉出以进行处理;
在该方法期间连续监视第一队列大小和从第一队列中拉出格式化的多个数据记录的速率中的至少一个;
确定第一队列大小或接收率中的一个或两个都在第一个可接受的范围之外;
根据确定,在处理方法中自动向指定数量的摄取节点分配或取消分配摄取节点;
从指定数量的摄取节点近乎实时地将格式化的多个数据记录发送到第二队列;
将接收到的格式化多个数据记录保存在第二个队列中;
将接收到的格式化多个数据记录从指定数量的数据宿节点拉出第二队列进行存储;
在该方法期间连续监视第二队列大小和从第二队列中拉出接收的格式化多个数据记录的速率中的至少一个;
确定第二队列大小或接收率中的一个或两个都在第二可接受范围之外;
根据确定,在处理期间自动地将数据宿节点分配或取消分配给指定数量的数据宿节点;和
几乎实时地将每个格式化的多个数据记录发送到多个数据接收器中的至少一个以便存储在其中,其中格式化的多个数据记录可供多个应用程序使用。
所述的方法,还包括:当第二队列大小达到预定限制时,自动停止分配摄取节点。
所述的方法,还包括:
连续监视对摄取节点和数据汇聚节点之一的分配的响应,以确定是否改善了处理吞吐量;和如果确定处理吞吐量没有得到改善,则停止分配。
所述的方法,其中第一和第二队列是java消息服务(jms)队列,并且内部格式是jms格式。
所述的方法,还包括:
通过处理引擎近似实时地比较来自摄取节点的每个格式化的多个数据记录与至少第一富集规则,以确定至少第一富集规则是否适用于一个或多个中的至少一个数据元素。格式化的多个数据记录;和
如果适用的话,由处理引擎近乎实时地丰富一个或多个格式化的多个数据记录中的至少一个数据元素,该数据元素具有根据至少第一富集规则的附加数据,以形成一个或多个丰富的格式化数据记录。
所述的方法,其中将所述多个数据记录中的每一个从它们各自的本机格式中的每一个处理成相同的内部格式还包括:
通过至少一个解析器将多个数据记录中的每一个近实时地解析成多个组成部分;和
通过至少一个翻译器将多个数据记录中的每一个使用其解析的多个组成部分转换成相同的内部格式,近实时地翻译。
所述的方法,其中相同的内部格式包括多个字段,其中所述多个字段中的至少第一个对于来自所述多个数据源的所有多个数据记录是共同的,并且所述多个字段中的至少第二个是唯一的多个数据记录的单个类。
所述的方法,其中所述多个数据源包括从由关系数据库,网站,rss提要,siem文件,电子邮件存档组成的组中选择的至少两个源。
所述的方法,其中所述至少一个解析器选自包括逗号分隔值解析器,电子邮件解析器,可交换图像文件格式(exif)解析器,javascript开放符号(json)的组。)解析器,libcap解析器和根据多个数据记录的一个或多个本机格式的xml解析器。
所述的方法,其中所述至少第一富集规则选自算法富集规则和维度富集规则。
所述的方法,其中所述算法丰富规则是地理位置的添加。
所述的方法,其中所述维度富集包括:
将来自每个格式化的多个数据记录的数据元素与数据丰富表中的二级数据进行比较;和
根据辅助数据修改数据元素。
实施例二:
数据收集和调节方法,包括:
在处理引擎处从多个数据源接收不同接收率的多个数据记录;
将每个多个数据记录从它们各自的本机格式中处理成相同的内部格式,其中处理包括,
通过至少一个解析器将多个数据记录中的每一个近实时地解析成多个组成部分;和
通过至少一个翻译器将多个数据记录中的每一个使用其解析的多个组成部分近似实时地翻译成相同的内部格式;
将接收和格式化的多个数据记录保存在第一个队列中以等待处理;
通过指定数量的摄取节点将格式化的多个数据记录从第一队列中拉出以进行处理;
在该方法期间连续监视第一队列大小和从第一队列中拉出格式化的多个数据记录的速率中的至少一个;
确定第一队列大小或接收率中的一个或两个都在第一个可接受的范围之外;和
在该方法期间根据确定大约等于变化的接收率中的最高值的接收率,自动地将摄取节点分配或取消分配到指定数量的摄取节点或从指定数量的摄取节点分配摄取节点。
所述的方法,其中将所述多个数据记录中的每一个从它们各自的本机格式中的每一个处理成相同的内部格式还包括:
通过至少一个解析器将多个数据记录中的每一个近实时地解析成多个组成部分;和
通过至少一个翻译器将每个多个数据记录使用其解析的多个组成部分转换成相同的内部格式来近实时地翻译。
所述的方法,其中所述相同的内部格式包括多个字段,其中所述多个字段中的至少第一个对于来自所述多个数据源的所有多个数据记录是共同的,并且所述多个字段中的至少第二个是唯一的多个数据记录的单个类。
所述的方法,其中所述多个数据源包括从由关系数据库,网站,rss提要,siem文件,电子邮件存档组成的组中选择的至少两个源。
所述的方法,其中所述至少一个解析器选自包括逗号分隔值解析器,电子邮件解析器,可交换图像文件格式(exif)解析器,javascript开放符号(json)的组。)解析器,libcap解析器和根据多个数据记录的一个或多个本机格式的xml解析器。
所述的方法,还包括:
通过处理引擎近似实时地比较来自摄取节点的每个格式化的多个数据记录与至少第一富集规则,以确定至少第一富集规则是否适用于一个或多个中的至少一个数据元素。格式化的多个数据记录;和
如果适用的话,由处理引擎近乎实时地丰富一个或多个格式化的多个数据记录中的至少一个数据元素,该数据元素具有根据至少第一富集规则的附加数据,以形成一个或多个丰富的格式化数据记录。
所述的方法,其中所述至少第一富集规则选自算法富集规则和维度富集规则。
所述的方法,其中所述算法丰富规则是地理位置的添加。
所述的方法,其中所述维度富集包括:
将来自每个格式化的多个数据记录的数据元素与数据丰富表中的二级数据进行比较;和根据辅助数据修改数据元素。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。也就是说上面讨论的方法,系统或设备等均是示例。各种配置可以适当地省略,替换或添加各种方法或组件。例如,在替代配置中,可以以与所描述的顺序不同的顺序执行方法,和/或可以添加,省略和/或组合各种阶段。而且,关于某些配置描述的特征可以以各种其他配置组合。可以以类似的方式组合配置的不同方面和元素。此外,随着技术的发展许多元素仅是示例而不限制本公开或权利要求的范围。
在说明书中给出了具体细节以提供对包括实现的示例性配置的透彻理解。然而,可以在没有这些具体细节的情况下实践配置例如,已经示出了众所周知的电路、方法、算法、结构和技术而没有不必要的细节,以避免模糊配置。该描述仅提供示例配置,并且不限制权利要求的范围,适用性或配置。相反,前面对配置的描述将为本领域技术人员提供用于实现所描述的技术的使能描述。在不脱离本公开的精神或范围的情况下,可以对元件的功能和布置进行各种改变。
此外,尽管每个操作可以将操作描述为顺序方法,但是许多操作可以并行或同时执行。另外,可以重新排列操作的顺序。一个方法可能有其他步骤。此外,可以通过硬件、软件、固件、中间件、代码、硬件描述语言或其任何组合来实现方法的示例。当在软件、固件、中间件或代码中实现时,用于执行必要任务的程序代码或代码段可以存储在诸如存储介质的非暂时性计算机可读介质中,并通过处理器执行所描述的任务。
综上,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,所述权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。