FlexiViT: One Model for All Patch Sizes
原文:https://arxiv.org/abs/2212.08013
视觉变换器通过将图像分割成小块来将图像转换为序列。这些补丁的大小控制着速度/精度的权衡,较小的补丁导致更高的精度和更高的计算成本,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会产生一组在广泛的补丁大小范围内表现良好的权重,从而可以在部署时根据不同的计算预算定制模型。我们广泛评估了结果模型,我们称之为FlexiViT,涉及广泛的任务,包括分类、图像文本检索、开放世界检测、全景分割和语义分割,得出结论,它通常匹配,有时优于在其他相同设置中以单个补丁大小训练的标准ViT模型。因此,FlexiViT训练是对ViT的一个简单的改进,它使依赖于ViT主干架构的大多数模型都可以轻松地添加计算自适应能力。代码和预训练模型可在https://github.com/google-research/big_vision





网友评论