论文速读_20200328

带来的是一些 CVPR 2019 关于目标跟踪的相关工作,是自己看完论文后的一些简单笔记,部分内容参考了互联网上一些解读,在此表示感谢。能力一般,水平有限,不足之处还请指正交流。

孪生网络

首先是孪生网络,这个网络平衡了准确性和速度,在视觉跟踪领域引起了极大关注。但存在连体追踪器中使用的骨干网络相对较浅的问题。Zhang 等 1 提出了一种新的残差模块,并改进了架构,设计了一种更深和更宽的基于孪生网络的跟踪器架构。其作者认为,感受野大小、网络填充和步幅是影响精度的关键因素。
Fan 等 2 将一种级联的区域生成网络 (Region Proposal Network, RPN) 结合到孪生神经网络中,每个 RPN 都用前一个阶段的 RPN 的输出来训练,促进了负采样,让训练样本更加平衡能够在处理复杂背景方面表现出更强大的性能。并且,作者设计了一种新的特征转换模块(feature transfer block,FTB),用来充分挖掘视觉跟踪的高层语义特征和低层空间特征。不是仅利用某层特征,而是将高层特征融合到低层的 RPN 中。最后,多个回归步骤逐步细化目标边界框,从而实现更精确的定位。

同样是结合 RPN 的工作,商汤团队提出了一种由孪生子网络和 RPN 组成的孪生网络结构 Siam-RPN3,它抛弃了传统的多尺度测试和在线跟踪,从而使得跟踪速度非常快。
SiamRPN 将跟踪问题抽象成单样本检测问题,其结合了孪生网络的跟踪性能和区域生成网络的检测性能:前者实现对跟踪目标的适应并提取特征,让算法可以利用被跟踪目标的信息,完成检测器的初始化;后者可以让算法可以对目标位置进行更精准的预测。经过两者的结合,SiamRPN 可以进行端到端的训练。
在做完 SiamRPN 之后,作者发现虽然跟踪的框已经回归地比较好了,但是响应的分数仍然相当不可靠。具体表现为在丢失目标的时候,分类的分数仍然比较高。作者认为这是因为训练过程中的样本不均衡造成的:正样本种类不够导致模型泛化性能不强,难例负样本不够导致判别能力不够。
作者通过引入现有的检测数据集充实正样本,然后用不同类之间的样本构建难例负样本。经过上述的改进,网络的判别能力变得更强,检测分数也变得更有辨别力。因此,DaSiamRPN4 可以将短时跟踪拓展到长时跟踪。
而在 DaSiamRPN 的工作中,作者发现由于卷积的 padding 会破坏严格的平衡不变性,从而导致孪生网络在使用现代化的 DNN 时存在位置偏见问题。为了缓解这一问题,SiamRPN++ 5 中提出在训练过程中加入位置均衡的采样策略。通过修改采样策略来缓解网络在训练过程中的存在的位置偏见问题,让深网络能够发挥出应有的效果。
同时,为了更好地发挥深层网络的性能,SiamRPN++ 中利用了多层融合。由于浅层特征具有更多的细节信息,而深层网络具有更多的语义信息,将多层融合起来以后,可以跟踪器兼顾细节和深层语义信息,从而进一步提升性能。

滤波

然后,关于滤波的问题,目前看到一篇改进相关滤波器的。相关滤波器 (correlation filters, CF) 是一种有效的滤波技术,但早期的 CF 方法存在两个缺陷:

  1. 循环移位的采样过程在边界位置上存在周期性的重复,一部分不真实的采样会参与训练 CF 模型。
  2. 目标定位和尺度估计通常在同一特征空间上进行,这就要求在跟踪过程中提取多尺度特征地图。
    这导致了 CF 方法虽然高效但非常慢。Dai 等 6 提出了一种自适应空间约束相关滤波器 (Adaptive Spatially-Regularized Correlation Filters, ASRCF) 来高效地学习得到空间权重以适应目标外观变化,因此可以得到更加鲁棒的目标跟踪结果。

数据库资源

此外,还看到了一篇数据库的,LaSOT7 致力于解决目前的目标追踪数据集存在的规模小,追踪时间短,类别偏见(类别数量不平衡)问题。这个数据集包含这个数据集包含 1400 个视频,70 个类别。其中,最短的视频包含 1000 帧(即 33 秒),最长的视频包含 11397 帧(即 378 秒)。
这个数据集的特色是关注目标对象可能会消失然后再次重新进入视图的长期视频,如下图例。DaSiamRPN 能够检测离开视图的对象,而这个数据集更具挑战性。

参考文献


  1. 1.Zhang Z, Peng H. Deeper and Wider Siamese Networks for Real-Time Visual Tracking[A]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)[C]. Long Beach, CA, USA: IEEE, 2019: 4586–4595.
  2. 2.Fan H, Ling H. Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking[A]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)[C]. Long Beach, CA, USA: IEEE, 2019: 7944–7953.
  3. 3.Li B, Yan J, Wu W, 等. High Performance Visual Tracking with Siamese Region Proposal Network [A]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition [C]. Salt Lake City, UT: IEEE, 2018: 8971–8980.
  4. 4.Zhu Z, Wang Q, Li B, 等. Distractor-Aware Siamese Networks for Visual Object Tracking [A]. 见: V. Ferrari, M. Hebert, C. Sminchisescu, 等. Computer Vision – ECCV 2018 [M]. Cham: Springer International Publishing, 2018, 11213: 103–119.
  5. 5.Li B, Wu W, Wang Q, 等. SiamRPN++: Evolution of Siamese Visual Tracking With Very Deep Networks [A]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)[C]. Long Beach, CA, USA: IEEE, 2019: 4277–4286.
  6. 6.Dai K, Wang D, Lu H, 等. Visual Tracking via Adaptive Spatially-Regularized Correlation Filters [A]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)[C]. Long Beach, CA, USA: IEEE, 2019: 4665–4674.
  7. 7.Fan H, Ling H, Lin L, 等. LaSOT: A High-Quality Benchmark for Large-Scale Single Object Tracking [A]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)[C]. Long Beach, CA, USA: IEEE, 2019: 5369–5378.