(2)的交替运算,得到空间卷积网络的空间特征表达
[0053] Xi = 假设本发明实施例采用4层的空间卷积网络,需人工设 计网络结构,可采用2层卷积层,2层子采样层或者3层卷积层,1层子采样层等。
[0054] 例如:本发明实施例采用2层卷积层,2层子采样层的网络,假设输入为第0层,标 记为4:1,.,#}_>通过公式(1)即卷积层得到X1 = |^ν·φ ,再通过 公式(2)子采样层得到X2 = U12, X22, ...,<},再通过交替卷积层、子采样层分别得到X3、 X4。那么X4即为得到的空间特征表达,其作为202步骤的输入进一步进行时间卷积操作。
[0055] 需要说明的是,此部分卷积层以及子采样层的参数均为随机初始化,经过步骤204 对参数进行优化求导后,根据优化过程不断更新此部分参数。
[0056] 202 :对步骤201获取的图像序列的空间特征进行时间卷积操作得到进一步图像 序列特征表达;
[0057] 在空间卷积之后进行时间上的卷积操作以更好地捕捉动作在时间上的依 赖关系。假设步骤201中多层的神经网络之后输出的图像序列的空间特征表示为 Xi = U;,那么空间卷积层之后连接的时间卷积层特征为第i+Ι层的网络输
出,
[0058]
[0059]
[0060] 其中,表示经过时间卷积变换之后第t个图像在i+Ι层的第r个元素的值;S 表示时间卷积的窗口大小;+ s.表示步骤201中得到的空间特征中的第t+s帧图像的第 j个特征图的值;为对应的权重参数;b1+1表示空间网络上的加性偏置。
[0061] 本发明实施例中时间变换在空间变换后,且只采用一层的时间变换,时空卷积操 作到此全部完成,本发明实施例将得到的Xi+1 = Uf Sg+Y. 记为最终的图像序 列的特征φ = {Φ D Φ 2,…,Φ J。
[0062] 例如,步骤201中采用的四层空间变换后,那么空间变换之后得到第5层输出 X5 _=: {xj1, 4 ... · · , Xi5I ,即为时空卷积的特征表达 Φ = { Φ Φ2,...,Φ J。
[0063] 需要说明的是,此部分时间卷积层参数均为随机初始化,经过步骤204对参数进 行优化求导后,根据优化过程不断更新此部分参数。
[0064] 203 :构建基于时空卷积网络的深度条件随机场识别模型;
[0065] 根据步骤201以及步骤202的时空卷积变换,本发明实施例将其与条件随机场方 法进行联合学习,形成深度条件随机场识别模型。在条件随机场模型中,除了模型整体的设 计之外,势能函数的构建也极为重要,本发明实施例根据实际应用问题,提出了序列势能特 征函数的构建方法。
[0066] 本发明实施例为深度卷积条件随机场模型设计两类特征函数,即状态函数与转移 函数。状态函数即构建点与标签之间的关系,转移函数即建模各个序列节点标签之间的关 系,具体包括:
[0067] 状态函数Fv (x,y),主要获得非线性变换之后序列中的图像数据与类别标签之间 的关系,是图模型中点之间的关系,用符号V表示,具体定义为:
[0068]
(4.)
[0069] 其中,Γ表示图像序列中某一图像与标注信息(与图像相对应)的关系。Φ (X t) 表示原始图像序列中的第t帧时空卷积网络变换之后得到的特征;ytS对应第t帧图像的 类别标注信息。假设Φ (Xt)的维度为d,所有动作类别一共有I y I种,那么状态函数的个 数为I y I Xd个。
[0070] 转移特征函数F6 (X,y),是图模型一种边关系用符号e表示,具体为:
[0071]
[0072]
[0073] 其中,fe(yt,ytl)表示图像序列中当前第t帧与t-Ι帧图像类别标注信息之间的关 系;y t i为对应第t-Ι帧即前一帧图像的类别标注信息。类比公式(4),转移函数共有dXd 个;yti=y且yt=y'表示一种隐藏状态对(y,y');y'表示所有可能的动作类别标签的 集合中的一种类别标签。
[0074] 所设计的卷积条件随机场定义了一种新的转移特征函数Fve(X,y)来捕获更复杂 的序列依赖关系,具体表示为:
[0075]
m
[0076] ΠΦ (Xt), yt, yt i)表示一帧图像数据与当前图像经过时空卷积变换的特征 Φ OO、类别标签yt以及前一帧的类别标签ytl之间的关系。新的转移特征函数共有 y| XdXd 个。
[0077] 深度条件随机场框架具体为:采用层次前馈网络作为特征抽取器与条件随机场构 成的无向图模型联合训练。假设共有N个输入图像序列,其中第η个输入图像序列包含t n 个图像表示为χ<η) = {χ?η),#η>,...,χ?ηη)},对应的标注序列为_F (n:) = (yin),jP,.,那 么深度条件随机场模型定义如下:
[0078]
.....… Z (S)
[0079] 其中,
是归一化函数,保证P(yIX)的和为 J ? 一;X = (X1, χ2,... xt}为输入图像序列,y = Iy1, y2,... yt}为动作类别标签序列;y'代表 所有可能的类别标注;xt为输入图像序列中的第t帧图像;Ψ t(y,Φ ; Θ)为时空卷积表达 与输出标注信息的建模,具体表示为Ψ々,Φ;Θ) = Σ ,',,〇,其中fk为势 'k 能函数分别为公式(4)、(5)和(7)中的Γ、Γ、Γ'
[0080] 其中,? = {λ,ω}为模型要优化的参数,λ为条件随机场部分的参数。Φ = {(J)1, (i>2,...,t(M,每一个吣=Φ (xt,ω)是一个非线性变换,ω为非线性变换中的参数。 此非线性变换通过时空的卷积神经网络实现。通过以上的设计使得卷积条件随机场方法不 但针对非线性数据具有较好的高层特征表达能力,还可以有效的建模图像序列中图像之间 的依赖关系。
[0081] 深度卷积条件随机场输入为一组训练图像序列Uu),y(n)},^ ,最大化P(y |χ ; Θ) 的似然概率,那么等价于最小化log似然概率的负值。那么整个模型的优化目标J表示为:
[0082] n -.1
- ~
[0083] 其中,第一项为卷积条件随机场中log似然概率。第二项为正则化项,为了使得参 数具有更小的复杂度,假设参数符合高斯分布, σ表示高斯分布的标准差,为人工设定的参 数。优化的目标为最小化J。
[0084] 204 :深度条件随机场识别模型的优化;
[0085] 使用随机梯度下降的方式优化目标函数,整体算法采用后向传播的方式逐层对参 数Θ = {λ,ω}进行求导。 Cj ^
[0086] 其中,对λ的求导表示如下:
[0088] 其中,Ak为条件随机场部分参数向量的第k维权重。Φ为经过时空变换网络 得到的特征矩阵,矩阵中的元素 Φμ为时间为t的图像帧经过时空卷积变换之后的特征 向量Φ (Xt)中的第r个维度的值。fk(yt, yt η Φ, t)为势能函数在输入为yt, yt η Φ, t情 况下的值,由公式(4)、(5)和(7)中的fv、f' 得到的结果进行求和得到;而边缘概率 P (y,y' I Φ)即P (y,y' IX ;θ)可以通过信念传播的方式计算(具体的计算步骤为本领域技 术人员所公知,本发明实施例对此不做赘述)。fk(y,y',Φ,υ为势能函数在类别标签为所 有可能值的情况下,由公式(4)、(5)和(7)中的f v、fE、fv'E得到的结果进行求和得到的值。
[0089] 以上为对条件随机场部分的求导,而对于时空卷积神经网络参数ω的求导 c I 〇φ 十一,主要通过计算·^来实现,COg为卷积神经网络部分中第g层的参数。其与人工神 COJi O(X)i, 经网络中反向传播的求导方式相同。
[0090] 205:对待预测视频序列进行优化后的深度条件随机场识别的前向计算,得到待预 测视频序列的每一帧图像所属的动作类别标注信息。
[0091] 首先通过神经网络的前向计算得到图像序列中每帧图像的高层特征表达,形 成图像序列的特征表达Φ,然后通过条件概率最大化得到最可能的标注序列/,即每一帧 图像所属的动作类别标注信息,具体的计筧方式如下:
[0092]
til)
[0093] 其中,P(y| Φ,λ)为根据得到的特征表达φ以及条件随机场部分的参数λ计算 得到的输出类别标签为y的概率。
[0094] 综上所述,通过上述步骤201-步骤205的处理,本发明实施例实现了对图像序列 数据的时空变换建模,达到了很好的人体动作识别效果。
[0095] 实施例3