关键点跟踪 TAPIR: Tracking Any Point with per-frame Initialization and temporal Refinement

TAPIR: Tracking Any Point with per-frame Initialization and temporal Refinement

提出了一种新的模型,用于有效地跟踪视频序列中的查询点,称为Tracking Any Point (TAP)。我们的方法采用两个阶段:(1)匹配阶段,在每个其他帧上独立定位适合查询点的候选点匹配;(2)细化阶段,基于局部相关性更新轨迹和查询特征。所得到的模型在TAP-Vid基准测试中显著优于所有基线方法,并通过DAVIS上约20%绝对平均Jaccard(AJ)改进进行了演示。此外,我们的模型可以快速并行推理长视频序列。 TAPIR还可以以在线方式运行,在256x256视频上跟踪256个点,大约40 fps,并且可以灵活扩展到更高分辨率视频。

项目地址:https://deepmind-tapir.github.io/

验证过效果一般,不如meta出的那个效果好