DETR 论文解读
paperreading
本文字数:280 字 | 阅读时长 ≈ 1 min

DETR 论文解读

paperreading
本文字数:280 字 | 阅读时长 ≈ 1 min

DETR 基本介绍

DETR 的一个创新是端到端的目标检测,它能够将目标检测看做成集合预测问题,而不需要像之前的目标检测算法需要 anchor 或者 nms 等,总之就是一个将 CNN 和 transformer 结合的一个新颖的目标检测框架,改变预测头还可以进行分割等任务

算法框架

DETR 的整体架构如下所示,要检测的图片首先通过 CNN 提取特征,根据原文这里是提取的 ResNet 最后一层特征,然后将特征通过 Transformer 的 Encoder 与 Decoder,这里的 encoder 与 decoder 有点类似 attention is all you need 论文中的编解码器,但是有区别的是这里的 decoder 处加了 100 个 object queries,这也是本文最关键的部分吧。随后这 100 query 来搜索图中的目标并进行分类(分别有一个 bbox head 和 cls head),最后通过匈牙利算法进行匹配 GT 的 bbox 和相应的类别计算 loss

更加具体的框架图如下所示

匈牙利匹配细节

9月 09, 2024
9月 06, 2024