基于神经网络技术的发帖预测系统的制作方法_2

文档序号:9235732阅读:来源:国知局
下一步 预测的输入来计算出进一步的预测值,进行迭代的多步预测;
[0075] 运用非线性时间序列的相空间重构相关知识,若将时间序列进行相空间重构,贝U 单变量时间序列的未来值与面前若干值之间的某种函数关系,描述如下式,其中X为嵌入 延迟:
[007引 X。" =F (X。,X。- T,A,Xn-(m-i) T )。
[0077] 进一步,BP神经网络用于多变量时间序列预测的方法:
[0078] 对多变量时间序列(xll,x21,…,xpl),狂12,X22,…,Xp2),…,它有P个时间变 量,如同单变量时间序列一样,认为时间序列的未来值与其前面的m个值之间有某种函数 关系:
[0079]
[0080] 利用神经网络拟合函数F( ?),并用它进行预测,进行多变量时间序列预测的神经 网络结构同样分为两种,单步预测网络和多步预测网络,单步预测网络输出的个数是一个 多变量时间,序列的变量个数为P,一次计算得到所有变量一步的预测值,多步预测网络的 输出个数为KXP个,一次计算可得到所有P个变量的K步预测结果,该两种网络模型同样 也可W进行迭代多步预测计算:
[0081] 同理,运用非线性时间序列的相空间重构相关知识,若将时间序列进行相空间重 构,则多变量时间序列的未来值与面前若干值之间的某种函数关系,可描述为:
[0082]
[0083] 利用传统的预测方法进行多变量时间序列的建模与预测非常复杂,而利用神经网 络进行多变量时间序列的预测方法如同单变量时间序列预测一样简单,该是传统的预测方 法无法比拟的。
[0084] 进一步,基于BP神经网络的多变量时间序列,该预测方法具体步骤如下:
[0085] (1)收集数据,按时间序列要求将数据进行整理,对时间序列数据分析并确定样本 集及影响因素变量;
[0086] (2)确定延迟时间并计算嵌入维数m,对原时间序列相空间重构;
[0087] 做建立网络,在相空间重构的基础上确定神经网络的输入,输出,及隐含层,学习 率,L-M优化算法的动量常数,并将数据做归一化处理,其中隐含层的数量需通过多次实验 得到最佳隐含层数;
[008引 (4)初始化网络,神经网络自动赋予初始化参数,包括输入层与隐含层之间的连接 权重Wih,隐含层与输出层的连接权重Who,隐含层各神经元阀值化,输出层各神经元阀值 bo ;
[0089] 妨学习阶段,从原始数据中选取部分数据输入,通过BP神经网络前向过程的得 到一个输出结果,将该结果与目标模型比较,如果存在误差,立即进行反向传播过程,并修 正网络权值,W减小误差,正向输出计算和反向权值修改交替进行,直到误差控制在允许范 围内;
[0090] (6)测试阶段,根据(5)所得参数,从原始数据中选择测试样本,预测模型的有效 性,若达到要求,进入(7)进行预测,若测试误差较大,返回(5)重新训练,或返回(3)重新 设计网络结构及调整参数设置;
[0091] (7)预测阶段,选择预测时间点,应用前面建立的模型进行预测,做好反归一化处 理。
[0092] 本发明的优点在于;基于神经网络的多变量时间序列模型有收敛快,训练误差小 的特点,所建立的模型预测精度较好,但应用中需注意神经网络训练样本范围的选择,对于 突发事件发帖的预测,可适当减少样本数,尽量不要用过早的样本。应用中还需注意异常 值对模型的破坏,找出并调整异常值,才能保证模型的预测精度,所建立的模型采用定量分 析,并取得一定精度,而且感观性能优。
【附图说明】
[0093] 下面结合附图和【具体实施方式】来详细说明本发明:
[0094] 图1是本发明数据预处理模块过程图;
[0095] 图2是本发明预测分析管理模块体系结构图;
[0096] 图3是本发明预测建模仿真软件与预测分析管理模块图;
[0097] 图4是本发明人工神经元结构图;
[0098] 图5是本发明导师学习的架构示意图;
[0099] 图6是本发明神经网络示意图;
【具体实施方式】
[0100] 为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结 合图示与具体实施例,进一步阐述本发明。
[0101] 本发明提出的基于神经网络技术的发帖预测系统,该系统采用相空间重构来实现 非线性时间序列分析,相空间重构是非线性时间序列分析的重要步骤,最初提出相空间重 构的目的在于在高维相空间中恢复混沛吸引子。混沛吸引子作为混沛系统的特征之一,体 现着混沛系统的规律性,W为混沛系统最终会落入某一特定的轨迹之中。本文使用的是延 迟矢量法,其定义是:
[010引定义1 ;设化P),(N1,P 1)是两个度量空间,如果存在映射(j5:N - N1,满 足:① 是满射;②P(X,y) =p10 (X),0 (y)),( V X,y e 脚,则称(N,P ),(N1,P1) 是等距同构的。
[0103] 定义2;如果(N1,P1)与另一度量空间(N2,P2)的子空间(NO,P0)是等距同构 的,则称(N1,P1)可W嵌入(N2,P2)。
[0104] 借鉴化kens定理:设M是y维紧流形。对于变换对(X,y),X是一个光滑 的(础矢量场,y是M上的光滑函数,则(Dx,y ;- R2U+1是一个嵌入。其中,(Dx, y(x)=(y(x),:y(0(x),…,y(0 2u(x))),而饥是 X 的一个流。
[0105] 将化kens定理应用到单变量时间序列中,贝U
[0106] {x (tj)}, j=l,2, An
[0107] 其中;时间间隔为A t。选定一延迟时间T=h* A t〇i=l,2,…),将原来的时间序 列按如下方式重构相空间状态变量,也称为相点X (tj)有m个分量,
[010引 X(tj) = [x(tj) x(tj+X ) A Ax(tj+(m-l) X )]t
[0109] 把原时间序列延拓成m维相空间的一个相型分布
[0110] x(t〇) x(ti) A x(ti) A x(tw)
[0111] X(t〇+X)X(ti+T) AX(ti+T) AX(tN+T)
[0112] X(t〇+2T)X(ti+2T)AX(ti+2T)AX(tw+2T)
[011引 M M M M
[0114] X (t〇+(m_l) T)X (ti+(m_l) T)A X (ti+(m_l) T)A X (tw+(m_l) T)
[0115] 其中m为嵌入相空间维数,T为延迟时间。每一列构成m维相空间中一个相点。 任一相点X(tj)有m个分量
[0116] x(tj) x(tj+x) x(tj+(m-l)x)
[0117] 从而建立了相空间M到嵌入空间Rm的映射,:M - Rm
[011引将单一变量的时间序列的相空间重构方法,推广到复杂的多变量的时间序列中, 假设已知M个多变量的时间序列X1,X2,…XM,其中Xi=(xi,l,xi,2xi,m),i=l,2,…M,重 构相空间每一个相点,其中ki(i=l,2,…
[0119] M)为xi的嵌入维数。
[0120] 所=(乂I,田,义 1.田h,A策1,…";化,乂三.",乂]'…,A,-石2' ' W,乂.;,打,乂;. "",A,无;.",战 W)
[0121] 需要将可能影响发帖数量的主要因素,热度、是否有挖掘、关键词、发帖人、发帖人 的影响度进行时间序列的相空间重构。
[0122] 时间序列相空间重构有两个重要参数,延迟时间X和嵌入维数m,要进行相空间 重构,必须先确定T和m。
[0123] 关于延迟时间X的确定,嵌入定理指出对于无噪声和长度为无限的时间序列,进 行相空间重构时时间延迟的选取是任意的。然而在实际中,对时间序列的采样往往是有限 的,而且由于在采集过程中的各种原因而导致的噪声是不可避免的,嵌入定理是理想化的。 因此我们认为化kens定理并没有强调X应该取多少,但实践上X取不同值时伪相空间里 重构的系统吸引子的欧几里得形状会有很大的不同,相应地计算出的系统关联维数会有一 定的误差。取得最佳延迟时,误差会最小。本发明认为化kens定理并未指出重构相空间时 只有延迟T取最佳延迟时才能无歧义地再现系统的动力学行为,同时最佳延迟概念的提 出是为了在欧几里得空间下能正确地计算系统的关联维数,假如所采用的预测模型不牵化 关联维数的计算巧日神经网络模型),则最佳延迟对该种模型无意义。通过非线性时间序列 Lorenz信号分量和Roessler信号分量用前馈神经网络进行预测建模,X从1开始随机取 值,结果证明了重构动力系统相空间时,T是否取最佳延迟,可能对计算吸引子的关联维数 有一定影响,但不会影响吸引子的拓扑结构,即不会影响吸引子无歧义地再现系统的动力 学特性,实验结果及综合考虑认为T取1最合理。
[0124] 嵌入维m是指能够完全包含W状态转移构成的吸引子的最小相空间维数,吸引子 在该相空间内没有任何交叠,或者说只有最小的自由度。嵌入维数m太小,不足W展示复杂 行为的细致结构,m太大,则会使计算工作大大复杂化,同时随之而引起的噪声的影响将不 可忽视。
[0125] 为观察嵌入维的特性,由于维数大小的嵌入定理:
[0126] m^ 2D+1
[0127] 其中;m-重构相空间维数;D-原状态空间吸引子所处空间的关联维数。
[012引 由可知m嵌入维的取值依赖于所分析和研究的关联维数,数据序列的关联维数不 同,所选取的重构相空间维数亦不同。由单变量的时间序列重构相空间时,为了保证该相 空间能包含原状态空间吸引子的特征,关联维应该取得足够大。但是由于在一般情况下缺 乏原动力系统的先验知识,选择m则具有随意性。系统特征量饱和法是使重构相空间维数 由小到大变化来计算每一个重构相空间的系统特征量,如果特征量达到饱和,则饱和时的 重构相空间维数就是所求的维数。一般情况下,确定性系统一般都会收敛到低维的相空间, 关联维数将不再随嵌入维数的增加而发生明显的改变,因此可W取关联维数作为系统特征 量,逐渐增大嵌入维数,观察关联维数是否达到饱和。在实际的分析中,需首先估计出所求 关联维的取值范围,从而得出重构相空间维数m的粗略估计值。在m粗略估计值的范围内 对m取不同的值,然后分别求取系统的关联维数
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1