首页 理论教育 DLT深度学习跟踪方法中的特征学习与阈值选取

DLT深度学习跟踪方法中的特征学习与阈值选取

时间:2023-06-21 理论教育 版权反馈
【摘要】:在2013年的NIPS会议上,香港科技大学的Naiyan Wang和Dit-Yan Yeung等人提出了创新性的深度学习跟踪[184]。在离线训练部分,DLT方法运用非监督的特征学习方法在辅助图像数据上训练SDAE,得到具有泛化能力的图像特征。如图11.4所示的SADE结构共包含4个DAE。因此,DLT需要选取一个合适的阈值。

DLT深度学习跟踪方法中的特征学习与阈值选取

目标跟踪领域存在的一个问题是跟踪器使用的图像表示在复杂的背景环境下不够鲁棒,这对判别式跟踪器的影响比较大。现有的一些目标跟踪方法简单地使用原始的像素来作为图像的表示,还有一些方法使用传统人工特征,如哈尔特征、直方图特征、局部二值模式特征等。然而,这些特征都是离线特征,并不是专为跟踪目标任务设计的特征。与此同时,深度学习已经在一些复杂的任务中展示了非常优异的结果,如图像分类任务[24]。深度学习取得巨大成功的关键原因之一在于通过多个非线性变换学习到比较鲁棒的特征。然而目标跟踪任务的训练数据较少,通常只有第一帧标定的跟踪框作为正样本和第一帧的其他数据作为负样本。由于深度神经网络模型的训练需要大量标注的数据,因此将深度学习应用到目标跟踪任务上需要解决训练样本不足的问题。

在2013年的NIPS会议上,香港科技大学的Naiyan Wang和Dit-Yan Yeung等人提出了创新性的深度学习跟踪(Deep Learning Tracker,DLT)[184]。该方法尝试将生成式跟踪方法和判别式跟踪方法的原理相结合,在跟踪中使用学习到的图像深度特征表示。DLT方法与其他目标跟踪方法有着明显的区别:其一,DLT使用了一个堆栈式去噪自编码器(Stacked Denoising AutoEncoder,SDAE)从大量辅助图像数据中学习一个通用的图像表示,SDAE的特征通过在线学习转换为特定跟踪目标的特征;其二,与之前利用辅助数据学习通用图像表示的方法不同,在在线跟踪过程中,DLT方法能够对离线学习到的特征表示随跟踪目标变化而做出适应性调整。由于DLT使用了多个非线性变换,因此通过DLT获得的图像表示相比之前的基于主成分分析(PCA)[185]等方法得到的表示具有更强的表达力。除此之外,相对于基于稀疏编码(Sparse Coding)[186]的跟踪算法,DLT方法无须求解优化问题,更加高效且更适于在线目标跟踪的应用。

DLT跟踪器的训练可以分为两部分:利用辅助数据进行离线训练;在线跟踪微调。在离线训练部分,DLT方法运用非监督的特征学习方法在辅助图像数据上训练SDAE,得到具有泛化能力的图像特征。在在线跟踪部分,DLT方法向SDAE的编码器部分添加一个分类器层,这样编码器就成为一个具有分类功能的神经网络,用于区分跟踪目标和背景,并用当前跟踪目标来微调网络。

DLT使用Tiny Images数据集[187]作为辅助数据,用于跟踪器的离线训练。Tiny Images数据集中的图像来源于在7个不同的搜索引擎中搜索非抽象的英语名词得到的结果,包含许多现实世界中的物体和场景。该数据集中有大约8000万幅大小为32×32的图像,从中随机挑选100万幅图像,并将其转化为灰度图像,用于离线训练。图像中的每个像素都被归一化到[0,1]区间中。每幅图像用一个1024(32×32)维的向量来表示,每一维代表一个像素值。

SDAE的基础模块是去噪自编码器(Denoising AutoEncoder,DAE),这是一个单层的神经网络(图11.4(a)),它的目标是从噪声数据中恢复原始数据。DAE含有一个隐含层节点比输入层节点少的瓶颈结构,能学习到鲁棒的特征。如图11.4(b)所示的SADE结构共包含4个DAE。

假设有k个离线训练样本,对第i个样本而言,xi表示原始的样本,表示添加了噪声的样本(可以用通过遮挡、添加高斯噪声或椒盐噪声等方式获得),表示对添加噪声的样本进行恢复后得到的样本。用W、W′表示编码器、解码器的权重,用b、b′表示网络的偏置项。对于一个SADE中的每个DAE,通过优化下面的公式来学习:

式中,λ是平衡重构误差和正则项的系数;矩阵F-范数;f(·)是非线性激活函数,常用的是Sigmoid函数、tanh函数。通过优化,将添加噪声的恢复出原来的样本xi,DAE相比于传统的编码器能够有效地发掘更加鲁棒的特征。(www.zuozong.com)

为了学习更有表达力的特征,DLT在DAE隐含层的激活输出上添加稀疏限制[188],每个神经元经过Sigmoid函数的输出可以被看作它被激活的概率,DLT方法希望有较少的神经元被激活。该方法使用ρj表示第j个神经元的目标稀疏程度,表示它的被激活率。可以通过将ρj的交叉熵作为损失,使当前稀疏率逐渐向目标稀疏率靠近:

图11.4 网络结构对比

(a)DAE的网络结构示意;(b)SDAE的网络结构示意;(c)SDAE的在线跟踪部分的网络结构示意

式中,m为隐含层神经元的个数。

在利用辅助数据对DAE预训练后,对整个SDAE网络进行端到端的训练微调。SDAE网络结构的第一层使用了过完备滤波器,因为研究发现,过完备滤波器通常能够捕捉到更好的图像判别信息。编码器的网络结构是一个瓶颈结构,网络每向上一层,新层的节点数都是下一层的一半,直到只有256个隐含层节点。为了加快学习图像的局部结构的速度,DLT方法将每个32×32的图像剪出5个16×16的局部区域,包括图像的左上角、右上角、左下角、右下角和中心。用裁剪出的数据训练5个DEA,每个DAE有512个隐含节点。之后,使用这5个小DAE的隐含层权重来初始化SDAE网络的第一个隐含层。

SDAE离线训练完成后,就可以用于在线跟踪,并在此过程中对网络进行微调。在线跟踪部分的网络结构如图11.4(c)所示。在第一帧,给定跟踪目标的边框,以跟踪目标为正样本,并在跟踪目标周围收集背景作为负样本,微调SDAE。当需要在新一帧完成目标跟踪时,首先在这一帧播撒粒子,将每个粒子所在区域送入SDAE,SDAE输出每个粒子的得分pi。在这一步中,该方法的计算代价非常小,仅需完成网络的前向传播。如果某一帧中所有粒子的得分都小于设定的阈值τ,就意味当前帧跟踪目标的表观与第一帧跟踪目标的表观相比已经发生较大改变。为了解决这个问题,当所有粒子的得分都小于阈值时,DLT将前面帧所跟踪到的跟踪目标和背景图像作为训练样本,对网络进行微调。因此,DLT需要选取一个合适的阈值。如果阈值τ太小,跟踪器就不能很好地适应跟踪目标表观的变化;如果阈值τ太大,背景就可能被认为是跟踪目标,从而造成跟踪漂移

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈

相关推荐