本发明涉及计算机数据数据信息存储技术领域,特别涉及一种工业过程工况数据快速随机分布存储模式。
背景技术:
工业过程工况数据是指在工业领域信息化应用中产生的数据。工业过程工况数据运用先进大数据技术,贯穿于工业的设计、工艺、生产、管理、服务等各个环节,使工业系统具备描述、诊断、预测、决策、控制等智能化功能。工业过程工况数据具有数据体量大、分布广泛、结构复杂、速度需求多样化、数据价值不均匀五大特征。
现有的工业过程工况数据存储系统结合内存数据库和磁盘历史数据库存储实时历史数据,存在数据采集成本高、实时性不高、数据丢失、用户体验差等问题,应用于实时性要求高、数据量不可预知、并发性强的大型工业系统中情况会更加严峻。工业过程工况数据的采集和处理具有高并发性、高实时性,提取海量数据处理需要花费比较多的资源和时间,并且数据存储效率比较慢,这些都降低了整个系统的实时性,同时增大了系统的运行负载。这就导致存储服务器成为了系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足工业过程工况数据存储应用的需要。
技术实现要素:
本发明的目的就是提供一种工业过程工况数据快速随机分布存储方法,提高了工况数据录入效率,满足工业过程工况数据并发性强、实时性高、数据量巨大的要求;并兼具有节约内存空间,降低系统运行负载和整体功耗的作用。
本发明的目的是通过这样的技术方案实现的,包括有以一个主数据服务器作为数据中心,以多个从数据服务器作为数据节点,数据中心分别与每个数据节点数据交互,具体步骤如下:
1)采集设备运行工况数据进行预处理后存入数据中心缓存,并在缓存中对数据种类进行编号;
2)对缓存中的工况数据进行去冗余处理;
3)计算每种数据的量占总数据量的比重
4)设置阈值向量p′1,p′2,...,p′i,0<p′1<...<p′n<1,并设定n1,n2,...,nk的值,其中n1,n2,...,nk均为大于0的整数,其中阈值向量和ni根据实际需要设置不同的个数和数值大小;
5)比较pi与p′1,p′2,...,p′i的大小:若p′i<p′1,则n1种数据存入同一从服务器中;若p′1<pi<p′2,则n2种数据存入同一从服务器中;依次类推,若pi>p′i,则该种数据存入nk个从服务器中。
进一步,步骤1)中所述在缓存中对数据种类进行编号的具体步骤如下:
1-1)对采集到的工业系统原始数据进行预处理,即对原始工况数据进行拆分、数据合法性验证、不同数据逻辑关联提取和数据格式转换;
1-2)将预处理后的工况数据存入缓存;
1-3)在缓存中对数据种类进行编号。
进一步,步骤2)中所述对缓存中的工况数据进行去冗余处理的具体步骤如下:
2-1)通过提前设定数据优先级,筛选出工况数据中的非关键信息,对它们进行丢弃处理;
2-2)提取工况数据的重复性公共信息;
2-3)采用无损压缩算法对工况数据进行压缩处理。
进一步,步骤5)中所述从服务器,根据数据热度来存储数据,多类型数据可对应同一节点,将数据节点存储空间按热度分为高速容量小、快速容量中等、中速容量大这三个层次;新鲜数据更新时,第一级按一定的分钟数放入最近更新或者访问最频繁的数据,第二级按一定的天数放入最近更新或者访问最频繁的数据,第三级按事先约定的时间周期放入更新或者访问最频繁的数据;所述数据热度,依据工业过程工况数据的访问频度和访问时间确定。
进一步,主数据服务器与从数据服务器通过心跳机制完成各个节点间的负载或死活状态的信息共享与故障检测,具体方法为:
a、从数据服务器每隔一个规定时间发一个探测包给主数据服务器;
b、从数据服务器发包时启动一个超时定时器;
c、主数据服务器接收到探测包,反馈给从数据服务器一个应答包;
d、如果从数据服务器收到主数据服务器的应答包,则说明从数据服务器工作正常,删除超时定时器;如果从数据服务器超时定时器超时,依然没有接收到应答包,说明主服务器可能出现故障,需要进行故障排查和维修。
进一步,所述主数据服务器与从数据服务器均采用结构化数据的分布式存储系统。
由于采用了上述技术方案,本发明具有如下的优点:
分布式存储系统是将数据分散存储在多台独立的设备上,采用可扩展的系统结构,利用多台存储服务器分担存储负荷,这不但提高了系统的可靠性、可用性和存取效率,还易于扩展。然而,从更高的技术层面上来说,要解决松耦合设备组成一个统一集群稳定工作的问题,远比实现一台单机的网络存储设备复杂得多,现有的分布式数据存储系统在对写入高并发性和海量性数据的处理上,能力不足,耗费更多的上层资源对数据进行抓取、处理,能耗消耗大,存取效率低。需要在此基础上对现有的分布式数据存储系统进行一定的改进以满足工业过程工况数据并发性强、实时性高、数据量巨大的要求。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。
附图说明
本发明的附图说明如下。
图1为本发明的系统结构示意图;
图2为本发明的流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
图1为工业过程工况数据分布存储系统结构图。如图所示,本发明提供的是一种工业过程工况数据快速随机分布存储模式,以一个主数据服务器作为数据中心,以多个从数据服务器作为数据节点,每个数据节点均与数据中心数据交互,并且相同类型的数据存储在同一数据节点上,同时建立数据访问与历史数据的时间戳。各数据节点是数据中心的一个数据分区,即数据中心的一部分数据,空闲时数据中心与各数据节点不保持连接状态,数据中心与各数据节点的数据均有可能发生变更。在有需要的时候,各数据节点与数据中心通过数据交换模块连接,交换必要的数据。本发明相同类型的数据记录在同一数据节点上,可以是多类型数据对应同一节点,也可以是多从服务器对应于同一个节点。这样既有利于提高存储效率,又可以降低系统成本。
本发明以一个主数据服务器作为数据中心,以多个从数据服务器作为数据节点,对工业过程原始数据进行分布数据处理,每个数据节点均与数据中心数据交互,并且相同类型的数据存储在同一数据节点上,同时建立数据访问与历史数据的时间戳,包括以下步骤:
1)采集设备运行工况数据进行预处理后存入数据中心缓存,并在缓存中对数据种类进行编号;
2)对缓存中的工况数据进行去冗余处理;
3)计算每种数据的量占总数据量的比重
4)设置阈值向量p′1,p′2,...,p′i,0<p′1<...<p′n<1,并设定n1,n2,...,nk的值,其中n1,n2,...,nk均为大于0的整数,其中阈值向量和ni根据实际需要设置不同的个数和数值大小;
5)比较pi与p′1,p′2,...,p′i的大小:若pi<p′1,则n1种数据存入同一从服务器中;若p′1<pi<p′2,则n2种数据存入同一从服务器中;依次类推,若pi>p′i,则该种数据存入nk个从服务器中。
步骤1)中所述在缓存中对数据种类进行编号的具体步骤如下:
1-1)对采集到的工业系统原始数据进行预处理,即对原始工况数据进行拆分、数据合法性验证、不同数据逻辑关联提取和数据格式转换;
1-2)将预处理后的工况数据存入缓存;
1-3)在缓存中对数据种类进行编号。
步骤2)中所述对缓存中的工况数据进行去冗余处理的具体步骤如下:
2-1)通过提前设定数据优先级,筛选出工况数据中的非关键信息,对它们进行丢弃处理;
2-2)提取工况数据的重复性公共信息;
2-3)采用无损压缩算法对工况数据进行压缩处理。
步骤5)中所述从服务器,根据数据热度来存储数据,多类型数据可对应同一节点,将数据节点存储空间按热度分为高速容量小、快速容量中等、中速容量大这三个层次;新鲜数据更新时,第一级按一定的分钟数放入最近更新或者访问最频繁的数据,第二级按一定的天数放入最近更新或者访问最频繁的数据,第三级按事先约定的时间周期放入更新或者访问最频繁的数据;所述数据热度,依据工业过程工况数据的访问频度和访问时间确定。
主数据服务器与从数据服务器通过心跳机制完成各个节点间的负载或死活状态的信息共享与故障检测,具体方法为:
a、从数据服务器每隔一个规定时间发一个探测包给主数据服务器;
b、从数据服务器发包时启动一个超时定时器;
c、主数据服务器接收到探测包,反馈给从数据服务器一个应答包;
d、如果从数据服务器收到主数据服务器的应答包,则说明从数据服务器工作正常,删除超时定时器;如果从数据服务器超时定时器超时,依然没有接收到应答包,说明主服务器可能出现故障,需要进行故障排查和维修。
所述主数据服务器与从数据服务器均采用结构化数据的分布式存储系统。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。