描述图像集合之间的差异
https://arxiv.org/abs/2312.02974
摘要
如何区分两组图像的不同?识别集合级别的差异对于理解模型行为和分析数据集至关重要,但手动筛选成千上万张图片是不切实际的。为了协助这一发现过程,我们探索了一项自动描述两组图像差异的任务,我们称之为集合差异字幕(Set Difference Captioning)。这项任务接收两个图像集合DA和DB,并输出在DA上比DB上更常见的描述。我们提出了一种两阶段方法,首先从图像集合中提出候选差异描述,然后通过检查它们区分两组的能力来重新排列候选项。我们引入了VisDiff,首先为图像加上字幕,然后用语言模型提出候选描述,再使用CLIP对这些描述进行重新排列。为了评估VisDiff,我们收集了VisDiffBench,一个包含187对图像集合和地面真实差异描述的数据集。我们将VisDiff应用于各种领域,例如比较数据集(例如ImageNet与ImageNetV2),比较分类模型(例如零样本CLIP与监督式ResNet),总结模型失效模式(监督式ResNet),描述生成模型之间的差异(例如StableDiffusionV1与V2),以及发现什么使图像难忘。使用VisDiff,我们能够发现数据集和模型中有趣且以前未知的差异,展示了其揭示细微见解的实用性。
精选图片
Figure 1. Set difference captioning. Given two sets of images DA and DB, output natural language descriptions of concepts which are
more true for DA. In this example, DA and DB are images from the “Dining Table” class in ImageNetV2 and ImageNet, respectively.
Figure 2. VisDiff algorithm. VisDiff consists of a GPT-4 proposer on BLIP-2 generated captions and a CLIP ranker. The proposer takes
randomly sampled image captions from DA and DB and proposes candidate differences. The ranker takes these proposed differences and
evaluates them across all the images in DA and DB to assess which ones are most true.
Figure 5. StableDiffusionV2 vs. V1 generated images. For the same prompt, StableDiffusionV2 images often contain more “vibrant
contrasting colors” and “artworks placed on stands or in frames”. Randomly sampled images can be found in Figure 16.
结论
在这项工作中,我们介绍了集合差异字幕的任务,并开发了VisDiff,一种旨在以自然语言识别和描述图像集合差异的算法。VisDiff首先使用大型语言模型基于图像字幕提出差异,然后采用CLIP有效地对这些差异进行排名。我们在我们策划的VisDiffBench上对VisDiff的各种设计选择进行了严格评估,并展示了VisDiff在各种实际应用中发现有趣见解的实用性。
使用扩散模型进行3D物体检测
https://arxiv.org/abs/2312.02966v1
摘要
半监督目标检测对于3D场景理解至关重要,有效解决了获取大规模3D边界框标注的限制。现有方法通常采用师生框架和伪标签来利用未标记的点云。然而,在多样化的3D空间中生成可靠的伪标签仍然具有挑战性。在这项工作中,我们提出了Diffusion-SS3D,一种通过扩散模型提高半监督3D目标检测伪标签质量的新视角。具体来说,我们加入噪声以生成受损的3D目标尺寸和类别标签分布,然后利用扩散模型作为去噪过程以获得边界框输出。此外,我们将扩散模型整合到师生框架中,以便去噪后的边界框可以用于改善伪标签生成以及整个半监督学习过程。我们在ScanNet和SUN RGB-D基准数据集上进行实验,证明我们的方法在与现有方法相比具有最先进的性能。我们还提供了广泛的分析,以理解我们的扩散模型设计如何影响半监督学习中的性能。
精选图片
Figure 1: Pseudo-label Generation. (a) Prior works [16, 53, 63] apply a teacher-student framework
where the point features serve as the only source for pseudo-label generation from the decoder output.
(b) In our method, Diffusion-SS3D also adopts the teacher-student framework (the student model
is omitted from the figure to save the space) and further integrates noisy object sizes and noisy
label distributions in the denoising process (i.e., diffusion sampling). This enables more reliable
pseudo-labels through the iterative refinement of denoising via the diffusion model.
Figure 2: Overview of Diffusion-SS3D. Diffusion-SS3D employs the teacher-student learning
framework combined with an asymmetric augmentation mechanism to incorporate both labeled and
unlabeled data during training.
Figure 3: We illustrate the process of feeding RoI features with noisy object size and label distributions to the decoder before the diffusion sampling step.
结论
在本文中,我们解决了在半监督学习中为3D目标检测生成高质量伪标签的挑战。我们提出了Diffusion-SS3D,一种采用扩散模型生成可靠伪标签的新视角,通过向3D目标尺寸和类别标签分布添加随机噪声,然后逆转扩散过程。然后我们将扩散模型纳入师生框架,这有助于去噪后的边界框候选者的学习过程,从而获得更好的伪标签。我们在ScanNet和SUN RGB-D基准数据集上评估了Diffusion-SS3D的有效性,并展示了与现有方法相比的最先进性能,以及对扩散模型如何影响SSL性能的广泛分析。我们的方法在3D目标检测SSL中探索了更广泛的合理伪标签候选范围,展示了扩散模型在这一领域的潜力。
线性时间序列建模
https://arxiv.org/abs/2312.00752
摘要
在推动深度学习中大多数令人兴奋的应用的基础模型几乎普遍基于Transformer架构及其核心注意力模块。为了解决Transformers在长序列上的计算效率问题,已经开发了许多亚二次时间架构,如线性注意力、门控卷积和递归模型,以及结构化状态空间模型(SSM),但它们在诸如语言等重要模态上的表现并不如注意力模型。我们认为这些模型的一个关键弱点是它们无法进行基于内容的推理,并做出了几项改进。首先,仅仅让SSM参数成为输入的函数就解决了它们在离散模态上的弱点,使模型可以根据当前令牌沿序列长度维度选择性地传播或遗忘信息。其次,尽管这种改变阻止了使用高效的卷积,我们还是设计了一种硬件感知的并行算法在递归模式下运行。我们将这些选择性SSM集成到一个简化的端到端神经网络架构中,不需要注意力或甚至MLP块(Mamba)。Mamba享受快速推理(比Transformers高5倍的吞吐量)和线性序列长度缩放,并且其性能在实际数据上改善了高达百万长度的序列。作为通用序列模型骨干,Mamba在几种模态(如语言、音频和基因组学)上实现了最先进的性能。在语言建模上,我们的Mamba-3B模型超越了同等大小的Transformers,并在预训练和下游评估中与其两倍大小的Transformers相匹配。
精选图片
Figure 1: (Overview.) Structured SSMs independently map each channel (e.g. 퐷 = 5) of an input 푥 to output 푦 through a higher
dimensional latent state ℎ (e.g. 푁 = 4). Prior SSMs avoid materializing this large e�ective state (퐷푁, times batch size 퐵 and sequence
length) through clever alternate computation paths requiring time-invariance: the (∆, A, B, C) parameters are constant across
time.
Figure 2: (Left) The standard version of the Copying task involves constant spacing between input and output elements and is
easily solved by time-invariant models such as linear recurrences and global convolutions. (Right Top)
Figure 3: (Architecture.) Our simpli�ed block design combines the H3 block, which is the basis of most SSM architectures, with
the ubiquitous MLP block of modern neural networks. Instead of interleaving these two blocks, we simply repeat the Mamba block
homogenously.
结论
我们为结构化状态空间模型引入了一种选择机制,使其能够进行基于上下文的推理,同时在序列长度上线性缩放。当集成到一个简单的无注意力架构中时,Mamba在多种领域实现了最先进的结果,其性能与强大的Transformer模型相当或超过。我们对选择性状态空间模型在构建不同领域的基础模型方面的广泛应用感到兴奋,特别是在需要长时间上下文的新兴模态中,如基因组学、音频和视频。我们的结果表明,Mamba是通用序列模型骨干的有力候选者。
使用新型扩散模型进行视频运动编辑
https://arxiv.org/abs/2311.18830
摘要
现有基于扩散的视频编辑模型在随时间编辑源视频的属性方面取得了巨大进步,但在保持原始主角外观和背景的同时操作动作信息方面却遇到困难。为此,我们提出了MotionEditor,一个用于视频动作编辑的扩散模型。MotionEditor将一个新颖的内容感知运动适配器整合到ControlNet中,以捕捉时间上的运动对应关系。虽然ControlNet可以基于骨骼姿势直接生成,但在修改源动作的反向噪声时遇到挑战,这是由于噪声(源)与条件(参考)之间的信号矛盾。我们的适配器通过涉及源内容来补充ControlNet,无缝传递适应后的控制信号。此外,我们构建了一个双分支架构(一个重建分支和一个编辑分支),其中包含一个高保真注意力注入机制,以促进分支间的交互。这种机制使编辑分支能够以解耦的方式从重建分支查询关键信息和值,使编辑分支保留原始背景和主角外观。我们还提出了一个骨骼对齐算法,以解决姿势大小和位置的不一致问题。实验表明,MotionEditor在质量和数量上都展现了有前途的动作编辑能力。
精选图片
Figure 2. Architecture overview of MotionEditor. In training, only the motion adapter and temporal attention in U-Net are trainable. In
inference, we first align the source and reference skeletons through resizing and translation. We then build a two-branch framework: one
for reconstruction and the other for editing. Motion adapter enhances the motion guidance of ControlNet by leveraging the information
from the source latent. We also inject the key/value in the reconstruction branch into the editing branch to preserve the source appearance.
Figure 3. Illustration of high-fidelity attention injection during inference. We leverage the source foreground masks to guide the
decoupling of key/value in the Consistent-Sparse Attention.
结论
在这篇论文中,我们提出了MotionEditor,用于解决视频动作编辑的挑战,这被认为是与以前的视频属性编辑相比的高级视频编辑。为了增强动作的可控性,我们设计了一个内容感知的运动适配器,以与源内容建立联系,实现无缝动作编辑以及时间建模。我们进一步提出了一种高保真注意力注入,以保持背景和主角的源外观。为了缓解骨骼信号的不对齐问题,我们提出了一个简单但有效的骨骼对齐方法,以规范化目标骨骼。总之,MotionEditor探索了这一鲜为人知的视频动作编辑任务,鼓励未来在这一具有挑战性的场景中进行更多研究。
无需注意力的扩散模型
https://arxiv.org/abs/2311.18257
摘要
在高保真图像生成的最新进展中,去噪扩散概率模型(DDPMs)已成为关键参与者。然而,它们在高分辨率下的应用呈现出显著的计算挑战。当前方法,如片段化,在UNet和Transformer架构中加速过程,但牺牲了表征能力。针对这一问题,我们引入了扩散状态空间模型(DiffuSSM),一种用更可扩展的状态空间模型背骨替代注意力机制的架构。这种方法有效地处理高分辨率,而不需要全局压缩,从而在整个扩散过程中保持详细的图像表征。我们专注于扩散训练中的FLOP高效架构,这是一个重要的进步。在两种分辨率下对ImageNet和LSUN数据集的全面评估表明,DiffuSSMs与现有具有注意力模块的扩散模型在FID和初始评分指标上不相上下,甚至优于,同时显著减少了总FLOP使用。
精选图片
Figure 2. Architecture of DIFFUSSM. DIFFUSSM takes a noised image representation which can be a noised latent from a variational
encoder, flattens it to a sequence, and applies repeated layers alternating long-range SSM cores with hour-glass feed-forward networks.
Unlike with U-Nets or Transformers, there is no application of patchification or scaling for the long-range block.
结论
我们引入DIFFUSSM,一种不需要使用注意力的扩散模型架构。这种方法可以处理长距离隐藏状态,而不需要表示压缩。结果表明,这种架构在256x256分辨率下使用较少的Gflops比DiT模型性能更好,并且即使训练较少,也能在更高分辨率下取得有竞争力的结果。这项工作仍有一些局限性。首先,它关注的是(无)条件图像生成,而不是完整的文本到图像方法。此外,还有一些最新方法,如掩蔽图像训练,可能会改进模型。尽管如此,这个模型为大规模学习有效的扩散模型提供了另一种方法。我们相信,去除注意力瓶颈应该会为需要长距离扩散的其他领域的应用打开可能性,例如高保真音频、视频或3D建模。








网友评论