论文：Wei_Autoregressive_Visual_Tracking_CVPR_2023_paper

2023-11-08

Word count: 8.2k | Reading time≈ 28 min

Wei_Autoregressive_Visual_Tracking_CVPR_2023_paper

论文：https://openaccess.thecvf.com/content/CVPR2023/papers/Wei_Autoregressive_Visual_Tracking_CVPR_2023_paper.pdf

参考：https://blog.csdn.net/qq_43437453/article/details/131033203

每帧模板匹配问题（忽略了视频帧之间的时序依赖性）；将跟踪视为坐标序列解释任务（保持跟踪结果的连贯性，不需要定制的定位头和后处理步骤）；

受到Pix2Seq 的启发：将语言建模框架引入视觉对象跟踪中，对连续坐标进行离散化，以避免描述连续坐标所需的大量参数，这称为标记化。

编码器：vision Transformer (ViT)进行视觉特征编码。

解码器：使用Transformer解码器生成目标序列。

知识扩展（与本文主体内容无关）：

RAN使用循环自回归网络进行在线多目标跟踪；

SwinTrack的改进版本添加了一个新颖的运动标记来合并时间上下文以进行跟踪；

Pix2Seq将视觉任务制定为以像素标记输入为条件的语言建模任务；（ICLR）

OSTrack的ViT编码器进行视觉特征编码；（ECCV）

SIoU损失函数：更强大的边界框回归学习；

Abstract

本文提出了 ARTrack，一个用于视觉对象跟踪的自回归框架。 ARTrack 将跟踪作为一种坐标序列解释任务来处理，该任务逐步估计对象轨迹，其中当前估计是由先前的状态引起的，进而影响子序列。这种时间自回归方法对轨迹的顺序演化进行建模，以保持跨帧跟踪对象，使其优于现有的仅考虑每帧定位精度的基于模板匹配的跟踪器。 ARTrack 简单直接，消除了定制的本地化头和后处理。尽管很简单，ARTrack 在主流基准数据集上实现了最先进的性能（state-of-the-art，SOTA）。源代码位于：https://github.com/MIV-XJTU/ARTrack

Introduction

视觉对象跟踪是计算机视觉领域的一个基本目标，跟踪器致力于根据其初始状态来估计每个视频帧中任意目标的位置。尽管其表面上的定义很简单，但由于各种问题，包括但不限于对象变形、尺度变化、遮挡和类似对象的干扰，跟踪任务在现实环境中提出了重大挑战。幸运的是，视觉跟踪利用了大量的时间数据，因为它的输入包括一系列视频帧。通过观察，人类利用时间信息来获取目标变形、速度和加速度趋势的感知，使他们能够在面对不加区别或暂时不可用的视觉信息时保持一致的跟踪结果。

当前用于视觉对象跟踪的主流方法通常将其视为每帧模板匹配问题，忽略视频帧之间潜在的时间依赖性。

这些方法通常遵循三个主要阶段：（i）从搜索和模板图像中基于深度神经网络的特征提取，(ii) 使用卷积或注意机制进行特征匹配/融合的集成模块，以及 (iii) 通过角点、中心/尺度的定制头进行边界框定位估计和目标分类。在某些情况下，前两个阶段可以使用统一的架构进行组合。后处理技术通常在定位步骤中使用，例如汉宁窗罚分（Hanning window penalty）和框优化（box optimization）。一些方法结合了模板更新机制来改进目标特征表示。该类别的代表性技术包括模板图像选择、特征集成和时间演化。然而，定制的头部和后处理技术很复杂，可能需要单独的训练和推理，这会损害简单的端到端框架。此外，跟踪强调保持整个序列的定位精度，而传统的每帧训练方法优先考虑即时定位精度，导致训练和推理之间客观不匹配。

这项研究提出了一种与主流方法不同的新颖的视觉对象跟踪框架，主流方法通常采用每帧模板匹配任务。相反，作者建议将跟踪视为坐标序列解释，目的是学习用于直接轨迹估计的简单端到端模型。所提出的方法基于这样的想法：给定帧序列和初始对象框，跟踪器应该以类似于语言建模任务的方式“解释”跟踪对象的坐标序列。所提出的框架通过逐步解码整个轨迹序列来模拟跨帧的对象轨迹的顺序演化。当前的估计受到先前状态的影响，进而影响子序列，从而统一训练和推理的任务目标。此外，所提出的方法通过避免定制头和后处理，而是依赖于直接坐标回归，简化了跟踪管道。

所提出的自回归视觉跟踪框架称为 ARTrack，如图 1 所示。该框架的第一步是使用量化和序列化方案从对象轨迹构建离散标记序列。然后，该框架采用编码器-解码器架构来感知视觉信息并逐渐生成目标序列。在这个自回归框架中，先前的结果充当时空提示，将先前的运动动态传播到后续帧中，以获得更连贯的跟踪结果。值得注意的是，该模型使用结构化损失函数进行训练，该函数最大化目标序列的可能性，与测试时的任务目标一致。作者通过大量实验证明了这种方法的有效性，表明简单而简洁的 ARTrack 框架在流行的跟踪基准上取得了最先进的结果，优于其他高度定制的跟踪器。

图 1.我们的 ARTrack 框架。首先，我们嵌入模板的视觉特征并通过编码器进行搜索。然后，当前时间步的坐标标记由解码器解释，以先前的估计（作为时空提示）以及命令和视觉标记为条件。

跟踪框架。当前流行的跟踪器通常依赖于模板和搜索图像之间的匹配。核心设计是特征融合的集成模块。为了解决目标外观沿时间维度变化的问题，一些在线方法学习用于在线模板更新的目标相关模型，该模型通常需要单独的训练。它们还需要后处理，例如汉宁窗罚分和框优化。

相比之下，近年来很少有单目标跟踪方法专注于利用运动信息，而在多目标跟踪中很普遍。这些方法通常集成运动模型来利用运动信息，生成建议，然后将其与预定义检测器的结果相关联，例如RAN使用循环自回归网络进行在线多目标跟踪。最近，SwinTrack的改进版本添加了一个新颖的运动标记来合并时间上下文以进行跟踪。在本文中，提出了一种在统一框架中进行视觉模板匹配和运动建模的简单方法。

视觉跟踪中的Transformer。最近的跟踪器中已经采用了注意力机制，包括参考文献[6,10,13,56,61,64]中提到的那些。例如，TransT利用注意力来融合特征并建立长距离特征关联，同时自适应地关注相关信息。 MixFormer使用迭代混合注意力来整合特征提取和目标信息。 OSTrack应用早期候选消除模块来消除不必要的搜索区域标记。相比之下，我们的模型是一个简单的编码器-解码器架构，没有任何专门的头，从而产生了一个简单且纯粹的基于Transformer的跟踪器。

视觉语言建模。近年来，语言建模取得了重大进展。一些方法旨在为语言和视觉任务创建联合表示模型，例如[1,39,43]中提出的方法。一种特殊的方法，Pix2Seq，将视觉任务制定为以像素标记输入为条件的语言建模任务。通过将边界框和类标签表示为离散序列，该方法统一了计算机视觉任务。==受 Pix2Seq 的启发，我们将语言建模框架引入视觉对象跟踪中，构建了用于直接轨迹估计的时间自回归模型。==我们的方法简化了跟踪框架，消除了不必要的后处理，并通过连贯的时空提示逐步解码对象坐标。

Tracking as Sequence Interpretation

我们将视觉跟踪视为顺序坐标解释任务，用条件概率表示：

其中 Z 和 X^t 是给定的模板和时间步 t 的搜索图像，C 是命令标记，Y 表示与 X 相关的目标序列。模板 Z 也可以在每个时间步通过更新机制进行更新，或者只是第一个。可以看出，我们将跟踪表述为时间自回归过程，其中当前结果是最近 N 个过去的函数，以模板和搜索图像为条件。这是一个N阶自回归模型，简称AR(N)模型。具体来说，当 N = 0 时，方程 (1) 退化为每帧模型 P(Y^t |C , Z , X^t)，其不以先前状态为条件。

被引入的自回归模型与视觉跟踪兼容，因为它本身就是一个序列预测任务。当前帧中估计的目标状态受到相邻的先前目标状态的影响，并且也影响后续帧。我们将这个跟踪框架称为 ARTrack，它由以下主要组件组成。

序列构建：给定视频序列和初始对象框，视觉跟踪器预测一系列边界框。它们被映射到统一的坐标系中，并转换为具有共享词汇表的离散标记序列。
网络架构：我们使用编码器-解码器架构，其中编码器嵌入视觉特征，解码器解释目标序列。
目标函数：模型通过具有结构化损失函数的视频帧进行训练，以最大化目标序列的对数似然。我们还探索特定任务的目标来提高绩效。

Sequence Construction from Object Trajectory

我们将对象轨迹描述为具有共享词汇的离散标记序列。

标记化。受Pix2Seq框架的启发，我们对连续坐标进行离散化，以避免描述连续坐标所需的大量参数，这称为标记化。具体来说，时间步t处的对象框由四个标记组成，即[x^t _min, y^t _min, x^t _max, y^t _max]，每个标记都是[1, n_bins]之间的整数。当bin数大于或等于图像分辨率时，可以实现零量化误差。然后我们使用量化项来索引可学习词汇表以获得与坐标对应的标记。这使得模型能够用离散标记来描述对象的位置，并且还允许使用语言模型中现成的解码器进行坐标回归。这种新颖的回归避免了从图像特征到坐标的直接非线性映射，这通常是困难的。在去标记化中，我们将输出标记特征与共享词汇进行匹配，以找到最可能的位置。

轨迹坐标映射。大多数跟踪器会裁剪搜索区域以减少计算成本，而不是在全分辨率帧上进行跟踪。这意味着网络输出当前帧中对象相对于搜索区域的坐标。为了获得统一的表示，需要将不同帧的盒子映射到同一坐标系中。在我们的方法中，我们将前面 N 帧的框坐标缓存在全局坐标系中，并在搜索区域被裁剪后将它们映射到当前坐标系。然而，如果我们使用全帧进行搜索，则不再需要这个坐标映射步骤。

图 2. 序列构建和坐标映射。对象轨迹是通过使用全局坐标系中先前帧的坐标来构造的。跟踪过程中，将轨迹映射到当前坐标系以构建序列。任何超出范围的坐标都会被限制并以绿色遮盖。为了索引词汇表，我们将连续坐标离散化为量化项。词汇表的表示范围覆盖了搜索区域的范围

词汇的表示范围。词汇表的表示范围可以根据搜索区域的大小来设定，但是由于物体的快速移动，前面的轨迹序列有时会超出搜索区域的边界。为了解决这个问题，我们将表示范围扩展为搜索区域范围的倍数（例如，如果搜索区域范围为 [0.0, 1.0]，我们将其扩展为 [−0.5, 1.5]）。这使得词汇表能够包含位于搜索区域之外的坐标，这反过来又允许模型捕获更多先前的运动线索以进行跟踪并预测超出搜索区域的边界框。

Network Architecture

给定从对象轨迹构建的目标序列，我们使用编码器-解码器结构进行学习和推理。这种网络架构广泛应用于现代视觉识别和语言建模。

Encoder。编码器可以是通用图像编码器，将像素编码为隐藏特征表示，例如 ConvNet、视觉 Transformer (ViT) 或混合架构。在这项工作中，我们使用与 OSTrack 相同的 ViT 编码器进行视觉特征编码。模板和搜索图像首先被分割成补丁，展平并投影以生成一系列标记嵌入。然后，我们添加具有位置和身份嵌入的模板和搜索标记，将它们连接并输入到普通的 ViT 主干中以编码视觉特征。

Decoder。我们使用 Transformer 解码器来生成目标序列。它以前面的坐标标记、命令标记和视觉特征为条件，逐步解码整个序列。*前面的坐标标记 (Y ^t−N:t−1) 用作时空提示，将运动动力学传播到后续帧中。命令标记 © 提供轨迹建议，然后将模板 (Z) 与搜索 (X^t) 进行匹配，以获得更准确的坐标预测 (Y ^t)。*这种简单的解码方法消除了现代视觉跟踪器架构的复杂性和定制性，例如定位头和后处理，因为坐标可以立即从共享词汇中去标记。解码器有两种注意力机制。在坐标标记之间执行自注意力（带有因果掩码）以传达时空信息。交叉注意力将运动线索与视觉线索结合起来做出最终的预测。这两种操作在每个解码器层中交替执行，以混合两种嵌入。我们在图 3a 中说明了解码器的结构。为了提高跟踪效率，我们通过修改解码器层来研究改变的解码器。具体来说，自注意力层和交叉注意力层被解耦并单独堆叠。这样，我们就可以并行地对视觉特征进行交叉注意力，这是解码器中最耗时的计算。修改后的解码器如图 3b 所示。

图 3.默认和更改的解码器。我们探索两种类型的解码器：（a）以前面的坐标标记、命令标记和视觉特征为条件，逐步解码整个序列。 (b)与(a)类似，其自注意力层和交叉注意力层是解耦并单独堆叠的。并且它并行地进行与视觉特征的交叉注意。

Training and Inference

ARTrack 是一个简单的框架，可以实现端到端的训练和推理。

Training。除了每帧训练和优化之外，ARTrack 还通过视频序列进行学习。它采用结构化目标，通过 softmax 交叉熵损失函数最大化标记序列的对数似然：

其中 T 是目标序列的长度。这种学习方法统一了训练和推理之间的任务目标，即保持视频帧之间的定位精度。启动时 (t ≤ N)，缓存的时空提示 (Y ^t−N:t−1) 会填充初始提示 (Y ¹)，并逐渐用新的预测进行更新。

这是通用目标函数，忽略了令牌的物理属性，例如坐标的空间关系。尽管我们发现这种与任务无关的目标对于训练模型是有效的，但我们研究了如何整合任务知识来提高性能。具体来说，我们引入了 SIoU 损失，以更好地测量预测边界框和地面真实边界框之间的空间相关性。我们首先从估计的概率分布中得到坐标标记。由于采样是不可微的，我们用分布的期望来表达坐标。然后我们得到预测的边界框并用真实值计算它的 SIoU。整个损失函数可以写为：

其中L_ce和L_SIoU分别是交叉熵损失和SIoU损失，λ是平衡两个损失项的权重。

Inference。在推理时，我们使用 argmax 采样从模型似然 P(Y ^t |Y ^t−N:t−1, (C , Z , X^t))中采样标记。我们发现其他随机采样技术或期望的性能与 argmax 采样相当。不需要用额外的 EOS 标记（令牌，token）来结束序列预测，因为序列长度在我们的问题中是固定的。获得离散标记后，我们对它们进行反量化以获得连续坐标。

Experiments

Implementation Details

Model variants。我们训练具有不同配置的 ARTrack 的三种变体，如下所示：

ARTrack₂₅₆. Backbone: ViT-Base; Template size: [128×128]; Search region size: [256×256];
ARTrack₃₈₄. Backbone: ViT-Base; Template size: [192×192]; Search region size: [384×384];
ARTrack-L₃₈₄. Backbone: ViT-Large; Template size: [192×192]; Search region size: [384×384];

Training strategy。我们遵循传统协议来训练我们的模型。训练集由 GOT-10k [31]（我们根据[61]删除了 GOT-10k 训练分割中的 1k 序列）、LaSOT [19] 和 TrackingNet [47] 组成。特别是对于 GOT-10k 的性能评估，模型在完整的 GOT-10k 训练集上进行训练。与使用随机平移和尺度变换来模拟空间抖动的传统每帧训练不同，我们的顺序训练允许我们解释逐帧跟踪目标的坐标序列，而无需任何增强。我们用 AdamW [42] 优化了模型，主干的学习率为 4 × 10⁻⁷，其他参数为 4 × 10⁻⁶。我们将网络训练 60 个 epoch，每个 epoch 960 个视频序列。由于 GPU 内存限制，每个序列包含 16 帧。

更多的是，为了与主流跟踪器进行公平比较，我们首先预训练 AR(0) 模型，该模型可以利用 COCO2017 [41] 等图像数据集来与其他每帧训练的跟踪器保持一致。 AR(0)训练集由四个数据集组成，与DiMP[44]和STARK[61]相同。我们利用与 OSTrack [64] 相同的数据增强，包括水平翻转和亮度抖动。经过 AdamW 的优化，主干网的学习率为 8 × 10⁻⁶，其他参数的学习率为 8 × 10⁻⁵。我们的 AR(0) 模型经过 240 个时期的训练，每个时期有 60k 个匹配对。

Main Results

我们在多个基准上评估了我们提出的 ARTrack₂₅₆、ARTrack₃₈₄ 和 ARTrack-L₃₈₄ 的性能，包括 GOT-10k [31]、TrackingNet [47]、LaSOT [19]、LaSOText [18]、TNL2K [57]、UAV123 [46]和 NFS [33]。

表 1. GOT-10k [31]、TrackingNet [47]、LaSOT [19] 和 LaSOText [18] 的最新技术比较。其中 * 表示仅在 GOT-10k 上训练的跟踪器。下标中的数字表示搜索区域分辨率。最好的用粗体表示，其次最好用下划线。

GOT-10k 是一个大型数据集，包含超过 10,000 个具有高精度边界框的视频帧序列。它提倡一次性跟踪规则，这意味着训练集和测试集之间的类不重叠。

TrackingNet 是一个用于跟踪的数据集，涵盖现实世界中的各种对象类和场景。其测试集包含 511 个序列，仅提供主框架的注释。

LaSOT是一个大规模基准测试，其测试集中包含280个视频，可以有效检测长期跟踪的性能。

LaSOText 是 LaSOT 的扩展子集，其中包括来自 15 个新类别的 150 个附加视频。这些视频具有大量相似的干扰物体和快速移动的小物体，这显着增加了跟踪难度。

（i）TNL2K是一个具有自然语言标记的高质量多模态数据集；

（ii）NFS是一个具有更高帧率的数据集（ 240fps）视频；

（iii）UAV123，由不同无人机拍摄的复杂场景视频片段组成。

Analysis of the Autoregressive Model

我们分析了 ARTrack 框架的主要属性。对于以下实验研究，除非另有说明，我们遵循 GOT-10k 测试协议。默认设置以灰色标记。

Order of autoregression。ARTrack的核心是自回归，它由时空提示的长度或阶数（N）控制。该参数决定了可以利用多少先前的轨迹信息。例如，当N = 1时，我们可以根据前一个时间步推断目标的比例和纵横比，当N = 2时，我们还可以学习粗略的移动方向。增加 N 可提供更多运动信息。我们尝试使用不同的 N 值来检查其对模型的影响。

设置词汇表示范围的一种方法是使用与搜索区域相同的范围，如图 5 中的蓝色曲线（词汇范围：[1×]）所示。如图所示，结合时空提示与使用 N = 0（纯每帧模型）相比，通过 ARTrack 将 AO 分数提高了近 1.0%。此外，增加 N 会导致 AO 分数从 71.6% 显着提高到 73.1%。然而，当 N > 3 时，由于更多无效坐标落在表示范围之外，精度会下降。

正如3.1节所建议的，我们适当扩大词汇范围，以减轻由于坐标超出表示范围而导致的轨迹截断。图 5 中的红色曲线（词汇范围：[2×]）展示了这种扩展的效果。通过这样做，该模型不仅能够捕获更多先前的运动线索以获得更连贯的跟踪结果，而且还能够预测超出搜索区域的边界框。这种方法被证明是有效的，并且比朴素的 [1×] 设置好 0.4%（73.1% vs. 73.5%）。

然而，扩大表示范围对边界框的定位提出了挑战。随着范围的增加，将适当的 bin 准确地分配给其相应的坐标变得越来越困难。这就是为什么当 N 很小时，[2×] 设置会导致 AO 分数较低。类似地，尽管 [3×] 设置的精度随着与 N 的同步性的增加而提高，如黄色曲线所示，但它仍然达不到最佳性能。不幸的是，由于硬件内存限制，我们无法使用更大的 N 进行训练。

Qualitative comparison。为了更好地理解我们的时间自回归模型，我们在顺序预测坐标标记的同时生成交叉注意力图。为了测试我们模型的鲁棒性，我们使用了现实世界跟踪中遇到的复杂场景，例如运动模糊、旋转、宽高比变化和相机运动，如图 6 所示。有趣的是，在每个场景中，我们的跟踪器重点关注在预测每个坐标时在适当的四肢上，展示了我们的模型精确定位的能力。

图 6. 解码器的交叉注意力。 (a)：搜索区域和模板图像（位于左上角）。 (b)-(e)：解码器最后一层中相应的坐标标记到搜索注意力图。

当面临遮挡和干扰等更具挑战性的场景时，每帧模板匹配可能不可靠。前者中的目标可能会变得不可见，而后者中各种类似物体的存在可能会迷惑跟踪器。为了克服这些问题，我们的方法利用先前的运动线索在视觉特征不具有区分性的情况下生成合理的预测。

在图 7 中，我们逐帧展示了 ARTrack 生成的交叉注意力图，并将它们与 OSTrack [64] 估计的注意力图进行比较。为了获得实例级可视化，我们在预测每个坐标时对最后一层的交叉注意力图求和。该图的前两行演示了遮挡场景。即使在遇到完全遮挡时，我们的方法也可以通过对前面的轨迹序列进行调节来预测合理的目标边界框。另一方面，OSTrack 中的注意力被错误地分配给其他实例，这是可以理解的，因为人类很难在不观察目标的情况下定位目标。然而，鉴于目标的先前轨迹序列，人类可以跟踪不可见的物体。在最后两行描述的分心场景中也可以推断出类似的发现。当搜索图像中存在大量相似物体时，OSTrack的注意力会分散，导致错误跟踪。相反，ARTrack 可以通过考虑先前的状态来保持对目标的关注。这支持了我们的主张，即我们的方法可以有效地模拟跨帧的对象轨迹的顺序演化。

Bins per pixel。为了研究 bin 分辨率（即每个像素的 bin）对性能的影响，我们将搜索区域的分辨率固定为 256 像素，并使用表示范围是搜索区域范围两倍的词汇表。然后，我们改变每个像素的bin的数量，如表2所示。

由于当 bin 数量大于裁剪图像的长边时，量化不会造成明显误差，因此我们首先使用 512 bin（每个像素 512/[2 × 256] bin），然后增加数量。如表 2 所示，增加实现子像素量化精度的 bin 数量可以提高性能。然而，结论与[8]的结论略有不同，这表明较少数量的箱足以实现准确的物体检测。我们认为，这种差异可能是由于精确运动建模需要更高的量化精度。使用更多的 bin（例如 1600）可以显著增加词汇量并减慢训练速度。

Loss function。表 3 显示了将特定跟踪知识与任务无关目标相结合的有效性。我们观察到，将 SIoU 和 CE 损失结合起来比单独使用其中任何一个都能获得更好的性能。这可以归因于这样一个事实：在计算 SIoU 时，我们考虑了预期的边界框位置，它考虑了空间关系，从而增强了监督的鲁棒性。仅使用 SIoU 损失而不使用 CE 导致 SR0.75 显着下降，但 SR0.5 与使用 CE 损失时保持相同。我们推测这是因为该模型仅由预期的粗粒度位置进行监督，并且缺乏生成更精确的边界框的能力。

Limitation Analysis

Speed analysis and architecture variant。ARTrack 框架的一个主要限制是，由于其在解码器中的串行计算，它的效率不如最近提出的跟踪器。我们研究了一种由单独堆叠的自注意力层和交叉注意力层组成的经过修改的解码器。具体来说，几个自注意力层以自回归方式处理坐标标记，然后是并行的交叉注意力层来聚合视觉特征。修改后的解码器可以显着提高推理速度（加速 73%），但准确性会有所牺牲（AO 得分降低 0.3%），如表 4 所示。

Training strategy and command token analysis。为了与之前在不同图像数据集（例如 COCO2017 [41]）上训练的跟踪器 [10,13,40,61,64] 进行公平比较，我们首先使用 N = 0 预训练我们的模型。这允许我们的时间自回归模型暂时像每帧模型一样运行，而不依赖于之前的状态。然后，我们在 LaSOT 基准上测试了我们的模型，结果如表 5 所示，其中预训练的 AUC 分数提高了 1.2%。然而，代价是我们需要使用可学习的命令标记来启动自回归过程，并且必须保留该标记以确保每帧训练和顺序训练之间的一致性。

Conclusion

我们提出了 ARTrack，一个简单直接的端到端自回归框架，用于视觉对象跟踪。我们将视觉跟踪视为坐标序列解释任务，因此我们采用语言建模来同时进行视觉模板匹配和运动信息建模。该跟踪器是通用编码器-解码器架构，消除了定制头和后处理以简化跟踪管道。更重要的是，我们提出了时空提示，对轨迹传播运动线索的顺序演化进行建模，以获得更连贯的跟踪结果。大量的实验证明我们的跟踪器优于其他主流跟踪器，并在主流基准数据集上实现了最先进的技术。未来，我们希望这个框架可以扩展到其他视频任务。

方法:

a. 理论背景:
- 传统的视觉目标跟踪方法通常采用逐帧模板匹配的方式，忽略了视频帧之间的时间依赖关系。这种方法的主要步骤包括特征提取、特征融合和边界框定位。然而，这些方法复杂，需要单独训练，并且在训练和推断之间存在目标不匹配的问题。
- 本文提出了一种名为ARTrack的新型自回归框架用于视觉目标跟踪。ARTrack将跟踪任务视为一个坐标序列解释任务，当前估计值受到先前状态的影响，并进一步影响子序列。该自回归模型的基本思想是跟踪器应该“解释”一系列坐标，以类似于语言建模任务的方式追踪对象。ARTrack通过避免定制头部和后处理，而是依赖于直接坐标回归，简化了跟踪流程。该框架在流行的跟踪基准上进行了评估，并取得了最先进的性能。
b. 技术路线:
- ARTrack的框架由三个主要组件组成。首先，它通过离散化连续坐标并将对象轨迹映射到统一的坐标系统中构建一个令牌序列。其次，使用编码器-解码器架构进行学习和推断，其中视觉特征编码器和Transformer解码器逐步解码目标序列。最后，使用结构化损失函数训练模型，以最大化目标序列的对数似然。该框架与视觉跟踪兼容，因为它本身就是一个序列预测任务，估计的目标状态受到相邻前一个目标状态的影响，并影响后续帧。

结果:

a. 详细的实验设置:
- ARTrack在流行的基准数据集上进行了实验评估，包括了各种具有挑战性的情况，如目标变形、尺度变化、遮挡和干扰物体。
- 实验中使用了结构化损失函数来训练模型，并采用了编码器-解码器架构进行学习和推断。
b. 详细的实验结果:
- ARTrack在性能上超过了其他主流跟踪器，达到了最先进的水平。
- 实验结果表明，ARTrack在准确性方面表现出色，并且速度更快，证明了其有效性。
- 文中还探讨了一种改进的解码器，通过解耦自注意力层和交叉注意力层，并在并行处理视觉特征上进行交叉注意力，提高了跟踪效率。
- 然而，解码器中的串行计算影响了模型的速度，扩展表示范围对边界框的定位提出了挑战。

Copyright： Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.