多目标追踪——【Transformer】MOTR:EndtoEndMultipleObjectTrackingwithTRansformer

作者：淡淡木香coolgirl | 来源：互联网 | 2023-10-12 19:49

目录文章侧重点将ObjectObjectObjectQueryQueryQuery变成TrackTrackTrackQueryQueryQuery需要解决的问题总体网络结构——时序

受到DERT启发&＃xff0c;将目标检测中的 $O bj ec t$ $Q u ery$ 迁移到多目标追踪中&＃xff0c;构造了 $T r a c k$ $Q u ery$ 。这个出发点也决定MOTR也是一个基于检测的追踪。
当前许多基于检测的追踪方法是外观建模&＃43;运动建模 (后置处理&＃xff0c;如卡尔曼滤波等)&＃xff0c;而MOTR提出了时序融合网络&＃xff0c;利用 $T r a c k$ $Q u ery$ 的逐帧更新&＃xff0c;同时对外观和运动建模。
MOTR为了保证时序建模的有效性&＃xff0c;提出了基于轨迹的标签构造【tracklet-aware label assignment】训练策略&＃43;联合平均损失【collective average loss】增强模型的时序建模。

将

O bj ec t

Q u ery

变成

T r a c k

Q u ery

需要解决的问题

通常来讲&＃xff0c;虽然目标检测与目标跟踪都是CV领域&＃xff0c;但由于下端的根本任务不同&＃xff0c;所以直接套用肯定有问题&＃xff0c;所以要仔细设计。

用一个 $T r a c k$ $Q u ery$ 追踪同一个目标。 因为DERT中的 $O bj ec t$ $Q u ery$ 是基于每一帧识别&＃xff0c;每一个目标和 $O bj ec t$ $Q u ery$ 并不存在对应关系&＃xff0c;如下图(a)。但多目标追踪需要对序列中每个目标生成追踪轨迹&＃xff0c;这必然要求目标轨迹的一致性&＃xff0c;不能发生ID Switch的问题。 这就意味着目标检测&＃43;目标轨迹匹配都要用 $T r a c k$ $Q u ery$ 来实现&＃xff0c;这也是端到端的精髓了&＃xff0c;取消后置处理。本文引入基于轨迹的标签构造【tracklet-aware label assignment】训练策略&＃xff0c;使得用同一个ID的边界框去监督训练检测&＃43;匹配的过程。
对新出现目标和消失目标的处理。 因为多目标追踪中会面临某个目标突然消失或突然出现等情况&＃xff0c;所以固定长度的 $T r a c k$ $Q u ery$ 并无法满足实际的需求。故本文提出了两个变量集合—— $T r a c k$ $Q u ery$ &＃xff08;可变长度&＃xff09;和 $De t ec t$ $Q u ery$ &＃xff08;固定长度&＃xff09;来处理目标出现和消失等情况。 如上图(b)&＃xff0c;对于每一帧都要迭代式更新 $T r a c k$ $Q u ery$ &＃xff0c;将消失的目标将其对应的 $T r a c k$ $Q u ery$ 删去&＃xff0c;并且每一帧用 $De t ec t$ $Q u ery$ 检测该帧有多少目标&＃xff0c;新目标通过 $De t ec t$ $Q u ery$ 检测出来加入 $T r a c k$ $Q u ery$ 的集合中。具体过程如下图所示&＃xff1a;

总体网络结构——时序融合网络

在这里插入图片描述
可以看到&＃xff0c;上图的结构解析如下&＃xff1a;

Enc 表示特征提取阶段&＃xff1a;Backbone网络&＃43;Deformable DERT的Encoder&＃xff1b;
Dec 表示Deformable DERT的Decoder。
- 在第一帧由于追踪目标还未出现&＃xff0c;故输入是固定长度的 $q_d$ 和为空集的 $q_{tr}$ &＃xff0c;而后续帧的输入就是 $q_d$ 和上一帧传递的 $q_{tr}$ 。
- 输出是中间态特征&＃xff0c;用于生成追踪预测结果和QIM的输入。

QIM——Query交互模块

在这里插入图片描述
此模块的作用是处理目标的出现和消失等情况。图中的分数表示Head预测追踪目标的分类得分。

输入&＃xff1a;Decoder输出的中间态特征&＃xff0c;如上图最左侧输入。黄色部分表示 $q_d$ &＃xff0c;橙色为 $q_{tr}$ 。
第一步&＃xff1a;将其和Head预测追踪目标的分类得分&＃xff0c;分别输入到处理(a)目标出现、(b)目标消失两个分支中。这里分别设定了两个阈值作为filter&＃xff0c;筛选有效的query。
第二步&＃xff1a;对于 (a)目标出现分支中&＃xff0c;将分类分数大于阈值的检测目标视为新增目标。
第三步&＃xff1a;对于 (b)目标消失分支中&＃xff0c;当筛选出新的 $T r a c k$ $Q u ery$ 之前&＃xff0c;要经过【时序增强网络】TAN &＃xff0c;该网络本质是一个self-attention机制。输入是本帧的目标query $q_{tr}^i$ 、第一步(b)分支输出的中间态特征。该输出是下一帧的追踪目标。
输出&＃xff1a;第二步与第三步的输出拼接起来为下一帧的追踪目标 $q_{tr}^{i&＃43;1}$ 。

训练逻辑

Tracklet-Aware Label Assignment

【目的是为 $T r a c k$ $Q u ery$ 对轨迹与目标的一对一关系建模。】
TALA 有两种策略&＃xff0c;分别对应着 $De t ec t$ $Q u ery$ 和 $T r a c k$ $Q u ery$ 的训练策略

针对 $De t ec t$ $Q u ery$ &＃xff1a;沿用DERT中的检测策略专门来检测追踪序列中每一帧出现的新目标。训练策略是对于 $De t ec t$ $Q u ery$ 与新增目标的GroundTruth进行双向匹配。
针对 $T r a c k$ $Q u ery$ &＃xff1a;本文设计一个目标一致的训练策略。本帧的 $T r a c k$ $Q u ery$ 由上一帧的 $T r a c k$ $Q u ery$ &＃43; $De t ec t$ $Q u ery$ 。对于第一帧&＃xff0c; $T r a c k$ $Q u ery$ 为空集。

Collective Average Loss

【目的是为 $T r a c k$ $Q u ery$ 对时序信息的传递进行前后帧建模。】
通常的训练策略是计算帧的loss&＃xff0c;如此策略忽略了序列中存在的关于目标的运动信息。故本文设计了一个联合平均损失预测以video clip为基本单位的损失。联合平均损失&＃61;(单帧的追踪损失&＃43;单帧的检测损失)之和 / 帧数。
在这里插入图片描述

与强同学。
在这里插入图片描述

推荐阅读

tree
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
ip
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
ip
【Vue】表单 input 绑定

网址：https:vue.docschina.orgv2guideforms.html表单input绑定基础用法可以通过使用v-model指令，在 ... [详细]

蜡笔小新 2023-12-11 18:07:28
object
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
ip
实现下拉列表，点击其他位置自动隐藏效果的三种方式比较

目录实现效果：实现环境实现方法一：基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]

蜡笔小新 2023-12-14 15:03:14
ip
SpringBoot yml 配置多配置文件,开发环境,生产环境配置文件分开

原文地址:https:www.cnblogs.combaoyipSpringBoot_YML.html1.在springboot中，有两种配置文件，一种 ... [详细]

蜡笔小新 2023-12-14 12:39:13
object
的错误消息：

ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]

蜡笔小新 2023-12-13 20:28:08
tree
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
utf-8
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
ip
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
ip
Java学习笔记之面向对象编程（OOP）

本文介绍了Java学习笔记中的面向对象编程（OOP）内容，包括OOP的三大特性（封装、继承、多态）和五大原则（单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则）。通过学习OOP，可以提高代码复用性、拓展性和安全性。 ... [详细]

蜡笔小新 2023-12-13 08:44:30
datetime
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
ip
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
ip
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
ip
VUE2.0+ElementUI2.0表格el-table循环动态列渲染的写法详解

先看看ElementUI里关于el-table的template数据结构：<template><el-table:datatableData><e ... [详细]

蜡笔小新 2023-12-11 14:47:02

淡淡木香coolgirl

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章