前言:
自从读完DETR之后,一直对set prediction相关的工作比较感兴趣。所以又找了一篇关于transformer的query机制的工作,不过这次升级到video处理的更复杂的任务了(其实也没有多么复杂)
这篇工作是港大的几个博士生的工作。
(如有错欢迎指正)
Dataset:
Refer-DAVIS16/17 包含 ∼ 1.2k 引用表达式,用于 150 个视频(帧数为 ∼
京公网安备 11010502049817号