一种基于混合存储的流式数据自适应持久化方法及系统的制作方法
【专利摘要】本发明一种基于混合存储的流式数据自适应持久化方法及系统,包括实时采集流式数据处理系统的状态特征信息;建立基于机器学习的多元线性回归模型,根据采集的状态特征信息估计模型参数;根据当前流式数据处理系统状态特征信息和建立的回归模型,计算得出当前状态下流式数据处理系统的最优持久化窗口大小;流式数据处理系统根据第得出的持久化窗口大小更改其当前的持久化窗口,将流数据处理过程中的中间状态或计算结果保存到固态硬盘中;当固态硬盘中的数据容量达到一定程度时,再将固态硬盘中的数据保存到普通硬盘上。本发明可以根据当前及历史状态信息,计算出此刻持久化窗口的大小,进而动态适配流式数据速率不稳定的情况,保证了系统在易用性和一致性之间的平衡。
【专利说明】
一种基于混合存储的流式数据自适应持久化方法及系统
技术领域
[0001] 本发明涉及一种基于混合存储的流式数据自适应持久化方法及系统,属于软件技 术领域。
【背景技术】
[0002] 随着云计算、物联网、社交媒体等信息技术和应用模式的快速发展,流式数据逐渐 成为信息化系统中一类关键的数据形式。典型运用领域中,流式大数据具有实时性、易失 性、突发性、无序性和无限性等特征(参见文献:孙大为,张广艳,郑炜民.大数据流式计算: 关键技术及系统实例[J].软件学报,2014,25(4):839-862.)。在诸如物联网领域,我们需要 将数据流快速存储到非易失介质中,而在可靠性要求较高的金融领域;我们需要将节点的 中间状态和计算结果存储下来,保存到非易失存储介质中以便能够进行失效恢复:流式数 据处理中,数据如何及时有效的存入到非易失介质中是应用建设的一个重点。
[0003] 在存储数据时,主流的商业产品一般有两种存储方式:同步存储和异步存储。同步 存储是指在数据写入内存的同时,持久化到非易失存储介质中,如果持久化到非易失存储 介质失败,则数据写入内存也失败,这种方式具有高可靠性保证,但易用性差,延迟较高;异 步存储是指数据先缓存到例如队列这样的数据结构中,等到持久化周期到来时,一次性将 这些数据写入到非易失存储介质中,这种方法具有高吞吐量,易用性好等特点,但是非易失 存储介质中的数据相比内存中的数据会存在一定的延迟,一致性差。
[0004] 以上两种方法无论是在流数据处理情景还是在批量数据情景下都是较为通用的 方法。对数据准确性要求高而系统处理能力要求低的系统,偏向于选择同步存储的方法;而 对于数据准确性要求宽松系统处理能力要求高的系统,偏向于选择异步存储的方法。大多 数流式数据处理系统如Ha ZelCast,Puma都提供了这两种解决方案供用户选择。
[0005] 针对异步存储,较为通用的做法是设置存储窗口,当窗口到达持久化存储触发条 件时,一次性将窗口中的数据持久化到非易失存储介质中。此阶段中,窗口大小的设置成为 影响系统处理性能和数据一致性的关键问题所在。一方面,当窗口较小时,持久化周期短, 触发频率高,这样非易失存储介质中的数据一致性高,延迟低,但频繁的触发持久化,会较 多的占用CPU等系统资源,影响系统的处理性能,系统可用性降低;另一方面,当窗口较大 时,持久化周期长,触发频率低,批量写入非易失存储介质的量大,平均写入速度快,但数据 的一致性低。
[0006] 在流式数据处理需要存储数据(可能是流式数据本身,也可能是处理过程中产生 的中间状态和计算结果)的场景中,其处理性能一方面受限于持久化窗口的大小,另外一方 面受限于非持久化存储介质的读写性能。固态硬盘(SSD)在最近几年得到越来越多的关注, 各大互联网公司都有大量基于固态硬盘的运用,比较成功的案例是SAP公司推出的内存计 算产品HANA系统使用的就是固态硬盘作为存储解决方案,非常适用于需要快速存储和读取 数据的场景。而流式数据对系统的性能要求高,需要能够快速的处理和存储中间状态和处 理结果,这使得采用固态硬盘作为存储介质能够快速保存流式数据处理节点的中间状态和 处理结果。而且失效恢复时,能够快速的从固态硬盘中读取数据进行恢复。
[0007] 主流的商业产品中,都提供了流式数据的持久化接口,方便用户能够及时将内存 中的数据备份到非易失存储介质中,然而这些持久化接口中关于持久化窗口大小的配置都 是固定值。用户给定的固定值具有以下几个缺点:
[0008] (1)固定值往往很难确定,缺乏经验的用户往往无法一次性给定较为合理的窗口 大小值,而且即使是经验较为丰富的用户,在面临复杂的运用场景中,也无法准确估计窗口 大小;
[0009] (2)流式数据具有突发性的特征,即数据源发送的数据的速率往往不是一成不变 的,而是会有较大的波动,固定窗口无法自适应这种波动,若给定的窗口太小,则触发持久 化的频率过高,会占用较多的CPU等系统资源,使得节点的处理能力下降;若给定的窗口过 大,而流式数据的速率较慢,则使得系统资源闲置,且机器宕机时,丢失的信息较多,可靠性 差;
【发明内容】
[0010] 本发明的目的在于:克服现有的流式数据持久化中窗口固定不变的问题,提出一 种基于混合存储的流式数据自适应持久化方法,可以根据当前及历史状态信息,计算出此 刻持久化窗口的大小,进而动态适配流式数据速率不稳定的情况,保证了系统在易用性和 一致性之间的平衡。
[0011] 为了达到上述技术目的,本发明采用如下技术方案:
[0012] -种基于混合存储的流式数据自适应持久化方法,包括以下步骤:
[0013] 1)实时采集流式数据处理系统的状态特征信息;
[0014] 2)建立基于机器学习的多元线性回归模型,根据采集的状态特征信息估计模型参 数;
[0015] 3)根据当前流式数据处理系统状态特征信息和第(2)步建立的回归模型,计算得 出当前状态下流式数据处理系统的最优持久化窗口大小;
[0016] 4)流式数据处理系统根据第(3)步得出的持久化窗口大小更改其当前的持久化窗 口,将流数据处理过程中的中间状态或计算结果保存到固态硬盘中;
[0017] 5)当固态硬盘中的数据容量达到一定程度(固态硬盘的使用率占到了 80%)时,再 将固态硬盘中的数据保存到普通硬盘上。
[0018] 上述步骤中构建一个系统性能评价模型的方法为:
[0019] 1、选取流式数据处理系统的状态特征
[0020] 从流式数据处理系统内部运行状态和非易失性数据库运行状态这两方面来提取 特征,结果如表1所示:
[0021] 表1.流式数据处理系统特征表
[0024] 采集到以上八种系统状态特征,按照系统易用性相关和系统一致性相关分为两 类:
[0025] >系统易用性相关:CPU使用率(C),内存使用率(M),网络速率(F),固态硬盘使用 率(U);
[0026] >系统一致性相关:流式数据进入内存的速率(V),流式数据进入内存的延迟(D), 系统写入固态硬盘的速率(P),系统写入固态硬盘的延迟(Z)。
[0027] 2、构建系统性能评价模型
[0028]在选定评价系统性能特征和采集对应的参数后,将问题简化为根据X=(C,M,F,U, V,D,P,Z),来预测窗口大小W的值。这是一个多元回归分析模型。本发明采用简单实用、应用 广泛的多元线性回归模型作为回归模型,采用逐步回归方法来解模。具体方法如下:
[0029] W和乂((:,1^,1],¥,0,?,2)的线性回归模型为:
[0030] W = 00+01X1+02X2+03X3+-' -+0nXn+e (3.1)
[0031]注:这里为了叙述方便,X向量的各个分量(C,M,F,U,V,D,P,Z)分别用(X1,X2,..., xn)来表示。说为回归常数及(1彡i<n)为偏回归系数,e为随机误差,e~(0,〇 2)。对于m组观 察数据(Xi,i,xi,2,xi,2,. . .,xi,n:wi),i = l,2,3,. . .,m,线性回归模型(3.1)式可以表示为:
[0032] Wi = 0o+0ixi,1+02X1,2+03Xi,3+---+0nXi,n+ei,i = l ,2, . . . ,m (3.2)
[0033]写成矩阵形式为:
[0034] ff=XB + E (3.3)
[0035]回归理论模型确定后,利用收集、整理的样本数据对模型的未知参数给出估计。这 里采用逐步回归法构建线性模型,由于模型中变量较多而且每个变量的预测能力不同,变 量之间有存在多重共线性会降低模型精度,逐步回归是一种常用的消除多重共线性,构建 最优回归模型的方法。其基本思想是采用F检验逐个引入自变量,引入的条件是该自变量经 F检验是显著的。每次引入一个变量,需要对已经选入的变量进行检验,如果已有变量由于 新变量的引入变得不再显著,就将其剔除。反复执行这个过程,直到不再有变量被选入或剔 除位置。(参考文献:Wang Y,Witten I H.Pace regression[J].1999.)
[0036] 上述步骤中构建基于混合存储的流式数据自适应持久化框架方法为:
[0037] 基于混合存储的流式数据自适应持久化框架由监控器、分析器、决策器、执行器四 个部分组成,是轻量级框架,可以方便的嵌入到流式数据系统中。基于混合存储的流式数据 自适应持久化框架和流式数据处理系统的集成图见图1,自适应持久化框架的执行流程见 图2。
[0038]监控器,主要负责定时八种收集系统的历史状态特征信息,在决策器做决策时收 集系统的当前状态特征信息以及在框架做出决策后对模型的执行结果进行反馈;
[0039]分析器,主要负责获取监控器采集的系统历史状态特征信息并对其进行预处理, 建立多元线性回归模型,采用逐步回归方法训练模型,估计模型参数;
[0040] 决策器,主要负责根据分析器建立的模型和监控器采集得到的系统当前状态特征 信息来计算当前状态下的最优持久化窗口大小;
[0041] 执行器,根据决策器计算的最优持久化窗口和系统当前实际持久化窗口决定是否 对窗口进行调整,如果需要调整,则向流式数据处理系统发送调整窗口指令,改变流式数据 持久化窗口尺寸为决策器计算得到的最优窗口尺寸;
[0042] 所述监控器负责获取监控器采集的系统历史状态特征信息并对其进行预处理,建 立多元线性回归模型,采用逐步回归方法训练模型,估计模型参数的过程如下:
[0043] (1)建立的多元线性回归模型为:
[0044] W = 0〇+0iXl+02X2+03X3+04X4+05X5+06X6+07X7+08X8+e (3.3)
[0045] xi(l$i彡8)为采集的流式数据处理系统的特征值,即((:^,1],¥,0少,2),说为回 归常数,MKi<8)为偏回归系数,e为随机误差,e~(0,〇2)。
[0046] (2)-段时间内,构建的流式数据自适应持久化框架采集的流式数据处理系统的 特征值,假设采集了m组观察数据(xi,i,xi,2,xi,2,. . .,xi,n:wi),i = l,2,3,. . .,m,则带入该m 组数据后,该线性回归模型可以表示为: 设1 = + …+ = A) + + PlX2.2 + ^3X2,3 ^-----^ PsX2,8 +
[0047] < ' (3.4) = 00 ^ + P2xm,2 ^ p3Xm,3 + "* +
[0048] (3)采用逐步回归方法,迭代选取最优的系统状态特征信息集合。首先初始化该集 合为空集,每次从剩余的系统状态特征信息中选取一个最优特征加入到集合中,重复执行 该过程,直到系统状态特征全部被选取或者选取的系统状态特征集合的性能无法提升为 止,由此得到最优系统状态特征信息集合并根据该集合计算得到回归模型:
[0049] W = /i0 + +f)1X1 + P2X2 + P:iX3 + /?4^4 + PsxS + Pbx6 + ^lxl !%XH 0 5y
[0050] 所述执行器根据决策器计算的最优持久化窗口的过程及计算公式为:
[0051 ] (1)监控器采集分布式处理系统的当前特征值(C,M,F,U,V,D,P,Z)
[0052] (2)将当前特征值代入到公式(3.5)中,计算得到最优持久化窗口大小为:
[0053] w - yS〇 -h石_h
[0054]本发明与现有技术相比的优点在于:
[0055] (1)本发明采用机器学习模型,解决了传统方法中流式数据的持久化窗口固定不 变的问题,使得流式数据的持久化窗口能够根据当前及历史状态信息,动态调整持久化窗 口大小以匹配流式数据速率变化的情况,从而保证了系统在易用性和一致性之间的平衡。 [0056] (2)为了保证数据存储是高效快速的,本发明采用了 "SSD+HDD"的混合存储结构。 这样一方面可以使得数据恢复时,能够直接从固态硬盘中快速读取保存的中间状态和计算 结果,还能够保证拥有较高的1〇?3(1即111:/〇1^口11丨?6136〇〇11(1,每秒读写次数)的固态硬盘 能够适应动态变化的流数据写入速率,使性能好、价格高的固态盘在存储过程中发挥杠杆 作用,让系统以接近机械硬盘的价格提供近似固态盘的性能。
【附图说明】
[0057] 图1为本发明基于混合存储的流式数据自适应持久化框架和流式数据处理系统的 集成图;
[0058] 图2为本发明批量存储窗口的自适应调节框架执行流程图;
[0059] 图3为本发明监控器采集系统状态特征信息图;
[0060] 图4为本发明决策器执行过程图;
[0061 ]图5为本发明模型反馈过程图。
【具体实施方式】
[0062]以下结合具体实施例和附图对本发明进行详细说明。
[0063]本实例以Java语言为编程语言,以Hazelcast作为流式数据处理平台,应用场景为 需要对流入Hazelcast处理系统中的数据流(该数据流可以是流式处理中的中间状态和计 算结果,也可以是流式数据本身)异步持久化到非易失存储介质中。
[0064] 如图1所示,本发明提出的基于混合存储的流式数据自适应持久化系统,可以分为 监控器、分析器、决策器、执行器四个部分,底层采用"SSD+HDD"的混合存储方式对流式数据 进行持久化存储,整套方法运用于流式数据处理系统。
[0065] 如图2所示,首先,监控器会实时采集流式数据处理系统的状态特征信息,然后将 这些特征信息交给分析器,接着,分析器建立多元线性回归模型,并根据监控器采集而来的 状态特征信息估计模型参数,然后,决策器根据分析器建立的模型以及监控器采集的系统 当前状态特征信息,计算得到最优持久化窗口大小,最后,执行器调整流式数据处理系统的 持久化窗口大小为决策器计算得到的最优持久化窗口大小,同时为了进一步提高模型的精 度,评估流式数据处理系统更改持久化窗口大小后的系统性能变化,需要对分析器建立的 模型进行反馈,在这样不断迭代过程中逐步优化模型。
[0066] 下面具体阐述每个步骤:
[0067] 1、监控器监控和采集系统状态特征数据的方法
[0068] (1) CPU使用率、内存使用率、固态硬盘使用率、GC情况
[0069] CPU使用率和内存使用率可以通过Java语言编写的定时程序实时获取,Java本身 提供了 JMX来提供对Java虚拟机的监控和管理,还可以采用FuseSource公司开发的sigar包 提供的接口,来实时获取系统的运行状态,包括CPU使用率、内存使用率、磁盘使用率、网络 设备等;
[0070] (2)流式数据进入内存的速率(V),流式数据进入内存的延迟(D),系统写入固态硬 盘的速率(P),系统写入固态硬盘的延迟(Z)
[0071] 这四种数据的统计需要在流式数据处理系统中引入轻量级监控器,能够检测流式 数据的流速和延迟,编写方式非常简单,只需要在数据流入到系统前检测数据的平均流入 速率和延迟以及数据从系统持久化到固态硬盘时的平均流出速率和延迟即可。
[0072] 通过上述方法可对系统的状态特征进行监控和采样,将这些采样得到的数据持久 化到系统的log文件中,为方便系统崩溃时,可以直接从log文件中读取采样信息进行恢复。 (系统的状态特征信息参数见【附图说明】3)
[0073] 2、分析器估计模型参数方法
[0074] 为了得到较为精准的模型,摒弃无用的参数,本发明选用了逐步回归方法(参见文 献:Wang Y,Witten I H.Pace regression!!J]. 1999.)来估计模型参数。现有的机器学习包 非常多,本发明推荐使用由新西兰怀卡托大学用Java开发的数据挖掘开源软件Weka,它提 供了丰富的机器学习模型,而且提供了 Java语言API和详细的说明文档,用户可以选用其中 的逐步回归(Pace Regression)模型来进行建模和估计模型参数。
[0075] 3、决策器计算当前系统状态下的最优窗口
[0076] 决策器向监控器发送获取系统当前状态特征信息指令获取系统的当前状态,然后 根据第2步中分析器建立的多元线性回归模型来对窗口进行预测,得到当前系统状态下的 最优窗口。决策器的决策过程见图4。
[0077]如图4所示,本发明决策器执行过程:决策器计算得到最优窗口后,比较流式数据 处理系统的当前持久化窗口,如果最优窗口大小和当前持久化窗口大小的偏差在阈值范围 内,则不对当前窗口进行修改,同时决策器等待下次决策周期,并继续对窗口大小进行预 测;如果最优窗口大小和当前持久化窗口大小的偏差超过阈值,则向流式数据处理系统发 出更改窗口大小请求,修改流式数据处理系统的持久化窗口为决策器计算得到的最优窗 □ 〇
[0078] 4、执行器比较最优窗口和当前窗口并根据比较结果执行窗口变更
[0079] 执行器根据第3步中预测得出的最优窗口,跟当前流式数据处理系统中的持久化 窗口进行比较,如果差值在允许范围内(如10%),则不需要对窗口进行调整,如果超出了阈 值,需要向流式数据处理系统发送调整持久化窗口指令。
[0080] 5、模型反馈迭代优化模型
[0081] 模型反馈是指在执行器改变窗口大小之后,记录当前系统的状态特征值,根据改 变窗口对系统的影响来改进分析器模型,并将当前系统的状态特征值作为训练数据中的一 个样本点来迭代优化模型。(模型反馈过程如图5.)
[0082]提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本 发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修 改,均应涵盖在本发明的范围之内。
【主权项】
1. 一种基于混合存储的流式数据自适应持久化方法,其特征在于包括以下步骤: (1) 实时采集流式数据处理系统的状态特征信息;状态特征信息分为两类:一种是系统 易用性相关信息和系统一致性相关信息,系统易用性相关信息包括CPU使用率(C),内存使 用率(M),网络速率(F),固态硬盘使用率(U);系统一致性相关包括流式数据进入内存的速 率(V),流式数据进入内存的延迟(D),系统写入固态硬盘的速率(P),系统写入固态硬盘的 延迟(Z); (2) 建立基于机器学习的多元线性回归模型,根据采集的流式数据处理系统的状态特 征信息采用逐步回归方法估计模型参数; (3) 根据当前流式数据处理系统状态特征信息和步骤(2)建立的多元线性回归模型,计 算得出当前状态下流式数据处理系统的最优持久化窗口大小; (4) 流式数据处理系统根据步骤(3)得出的持久化窗口大小更改当前的持久化窗口,将 流数据处理过程中的中间状态或计算结果等数据保存到固态硬盘中; (5) 当固态硬盘中的数据达到一定程度即固态硬盘的使用率占到了80%时,再将固态 硬盘中的数据转移到普通硬盘上。2. 根据权利要求1所述的基于混合存储的流式数据自适应持久化方法,其特征在于:所 述步骤(2)建立基于机器学习的多元线性回归模型,根据采集的状态特征信息估计模型参 数的过程为: (21) 建立的多元线性回归模型为: W = β〇+β?Χ1+β2Χ2+β3Χ3+β4Χ4+βδΧ5+β6Χ6+β7Χ7+β8Χ8+ ^ Xl,l彡i彡8为采集的流式数据处理系统的8种状态特征信息值,即CPU使用率(C),内存 使用率(M),网络速率(F),固态硬盘使用率(U);系统一致性相关包括流式数据进入内存的 速率(V),流式数据进入内存的延迟(D),系统写入固态硬盘的速率(P),系统写入固态硬盘 的延迟(Z) 为回归常数,Pi,Ki彡8为偏回归系数,G为随机误差,e~(〇,σ2) ;W为最优 持久化窗口大小; (22) 采集一段时间内的流式数据处理系统的状态特征信息,设采集了m组样本数据 (Xi,i,xi,2,xi,2,…,xi,n:wi),i = l,2,3,…,m;n = 8;xi,k表示的是第i组数据的第k分量;Wi表 示第i组数据的持久化窗口大小; (23) 采用逐步回归方法迭代选取最优的系统状态特征集合,进而求解多元线性回归模 型,基本方法为:将最优的系统状态特征集合初始化为空集,每次从剩余的系统状态特征中 选取一个经过F检验为显著的特征信息加入到该集合中,重复执行这样的选择过程,直到所 选取的系统状态特征集合的性能无法提升为止,由此得到最优系统状态特征集合并根据该 集合计算得至I丨冋丨樟型的解为:3. 根据权利要求1所述的基于混合存储的流式数据自适应持久化方法,其特征在于:所 述步骤(3)根据当前流式数据处理系统状态特征信息和步骤(2)建立的多元线性回归模型, 计算得出当前状态下流式数据处理系统的最优持久化窗口大小的过程: (31) 采集当前的流式数据处理系统的状态特征信息,假设其值为(C,M,F,U,V,D,P,Z); (32) 将当前流式数据处理系统的状态特征值代入到上述采用逐步回归方法解出的模 型中,计算得到最优持久化窗口大小为: W = J^g + -'νβι? + /??M + β/[.ΙΙ + ββ^ "I" β^Ρ ?- 64. 一种基于混合存储的流式数据自适应持久化系统,其特征在于包括监控器、分析器、 决策器、执行器: 监控器,负责定时收集流式数据处理系统的历史状态特征信息,在决策器做决策时收 集流式数据处理系统的当前状态特征信息以及在做出决策后对分析器建立的基于机器学 习的多元线性回归模型的执行结果进行反馈,为下一次多元线性回归模型的优化提供数 据; 分析器,获取监控器采集的系统历史状态特征信息并对其进行预处理,同时建立多元 线性回归模型,采用逐步回归方法训练模型,估计模型参数; 决策器,负责根据分析器建立的模型和监控器采集得到的系统当前状态特征信息来计 算当前状态下的最优持久化窗口大小; 执行器,根据决策器计算的最优持久化窗口和系统当前实际持久化窗口决定是否对窗 口进行调整,如果需要调整,则向流式数据处理系统发送调整窗口指令,改变流式数据持久 化窗口尺寸为决策器计算得到的最优窗口尺寸,按照最新调整的数据持久化窗口定期将数 据持久化到固态硬盘中;当固态硬盘中的数据容量达到一定程度即固态硬盘的使用率占到 了 80 %时,再将固态硬盘中的数据持久化到普通硬盘上。5. 根据权利要求4所述的基于混合存储的流式数据自适应持久化系统,其特征在于:所 述分析器中,建立基于机器学习的多元线性回归模型,根据采集的状态特征信息估计模型 参数的过程为: (21) 建立的多元线性回归模型为: W = β〇+β?Χ1+β2Χ2+β3Χ3+β4Χ4+βδΧ5+β6Χ6+β7Χ7+β8Χ8+ ^ Xl,l彡i彡8为采集的流式数据处理系统的8种状态特征信息值,即CPU使用率(C),内存 使用率(M),网络速率(F),固态硬盘使用率(U);系统一致性相关包括流式数据进入内存的 速率(V),流式数据进入内存的延迟(D),系统写入固态硬盘的速率(P),系统写入固态硬盘 的延迟(Z) 为回归常数,Pi,Ki彡8为偏回归系数,G为随机误差,e~(〇,σ2) ;W为最优 持久化窗口大小; (22) 采集一段时间内的流式数据处理系统的状态特征信息,设采集了m组样本数据 (Xi,i,xi,2,xi,2,…,xi,n:wi),i = l,2,3,…,m;n = 8;xi,k表示的是第i组数据的第k分量;Wi表 示第i组数据的持久化窗口大小; (23) 采用逐步回归方法迭代选取最优的系统状态特征集合,进而求解多元线性回归模 型,基本方法为:将最优的系统状态特征集合初始化为空集,每次从剩余的系统状态特征中 选取一个经过F检验为显著的特征信息加入到该集合中,重复执行这样的选择过程,直到所 选取的系统状态特征集合的性能无法提升为止,由此得到最优系统状态特征集合并根据该 集合计算得到回归模型的解为:6. 根据权利要求4所述的基于混合存储的流式数据自适应持久化系统,其特征在于:所 述决策器中,计算当前状态下的最优持久化窗口大小的过程: (31) 采集当前的流式数据处理系统的状态特征信息,假设其值为(C,M,F,U,V,D,P,Z); (32) 将当前流式数据处理系统的状态特征值代入到上述采用逐步回归方法解出的模 型中,计算得到最优持久化窗口大小为:
【文档编号】G06F17/30GK105893541SQ201610197157
【公开日】2016年8月24日
【申请日】2016年3月31日
【发明人】黄涛, 钟华, 魏峻, 王伟, 唐震, 段世凯
【申请人】中国科学院软件研究所