Generalized Decoding for Pixel, Image, and Language¶
论文地址¶
https://arxiv.org/abs/2212.11270
代码¶
https://github.com/microsoft/X-Decoder
摘要¶
Cite
我们提出了X-Decoder,一种可以无缝预测像素级分割和语言转换的通用解码模型。X-Decoder将两种类型的查询作为输入: (i)通用非语义查询和(ii)由文本输入引发的语义查询,以在同一语义空间中解码不同的像素级和令牌级输出。凭借如此新颖的设计, X-Decoder是第一款提供统一方式支持所有类型图像分割和各种视觉语言(VL)任务的作品。此外,我们的设计实现了不同粒度的任务之间的无缝交互, 并通过学习一个通用且丰富的像素级视觉语义隐藏空间,而无需任何伪标记,从而带来了互惠互利。在对有限数量的分割数据和数百万图像文本对的混合集进行预训练后, X-Decoder在zero shot和微调设置下,对广泛的下游任务具有很强的传输能力。值得注意的是,它在八个数据集上实现了(1)最先进的开放词汇分割和指代分割结果; (2) 在细分和VL任务上,与其他多面手和专家模型相比,表现更好或更具竞争力;以及(3)高效微调和新颖任务合成的灵活性(例如,参考图1所示的字幕和图像编辑)。 代码、演示、视频和可视化可在以下网站获得:https://x-decoder-vl.github.io
通用模型,支持像素级分割和语言转换,看起来很厉害的样子
方法¶
多模态特征作为查询,通用解码器适配多种下游任务
总结¶
Cite
我们介绍了X-Decoder,一种无缝支持像素级和图像级视觉语言理解的模型。通过简单而通用的设计,X-Decoder可以联合并支持通用分割、引用分割和VL任务, 从而轻松实现强大的通用性和竞争性甚至SoTA性能。我们希望这项工作能够为下一代通用视觉系统的设计提供帮助