通过一组单词构建视觉语言模型可能性研究

译者 | 朱先忠

审校 | 重楼

当前，多模式人工智能已经成为一个街谈巷议的热门话题。随着GPT-4的最近发布，我们看到了无数可能出现的新应用和未来技术，而这在六个月前是不可想象的。事实上，视觉语言模型对许多不同的任务都普遍有用。例如，您可以使用CLIP（Contrastive Language-Image Pre-training，即“对比语言-图像预训练”，链接：https://github.com/openai/CLIP）对看不到的数据集进行零样本图像分类；通常情况下，无需任何训练即可获得出色的表现。

同时，视觉语言模型也并不完美。在本文中，我们要探讨这些模型的局限性，强调它们可能失败的地方和原因。事实上，这篇文章是对我们最近将发表的论文的简短/高级描述，该论文计划将以ICLR 2023Oral论文形式发表。如果您想查看本文有关完整的源代码，只需单击链接https://github.com/mertyg/vision-language-models-are-bows。

简介

什么是视觉语言模型？

视觉语言模型利用视觉和语言数据之间的协同作用来执行各种任务，从而彻底改变了该领域。虽然目前已有的文献中已经引入了许多视觉语言模型，但CLIP（对比语言-图像预训练）仍然是最知名和最广泛使用的模型。

通过在同一向量空间中嵌入图像和标题，CLIP模型允许进行跨模式推理，使用户能够以良好的准确性执行诸如零样本图像分类和文本到图像检索等任务。并且，CLIP模型使用对比学习方法来学习图像和标题的嵌入。

对比学习简介

对比学习使得CLIP模型可以通过在共享向量空间中最小化图像之间的距离来学习将图像与其相应的标题相关联。CLIP模型和其他基于对比的模型所取得的令人印象深刻的结果证明了这种方法是非常有效的。

对比度损失用于比较批次中的图像和标题对，并优化模型以最大化匹配图像-文本对的嵌入之间的相似性，并降低批次中其他图像-文本对之间的相似度。

下图展示了可能的批处理和训练步骤示例，其中：

紫色方块包含所有标题的嵌入，绿色方块包含所有图像的嵌入。
矩阵的平方包含批次中所有图像嵌入和所有文本嵌入的点积（读作“余弦相似性”，因为嵌入是标准化的）。
蓝色正方形包含模型必须最大化相似性的图像-文本对之间的点积，其他白色正方形是我们希望最小化的相似性（因为这些正方形中的每一个都包含不匹配的图像-文本对的相似性，例如猫的图像和描述“my vintage chair”（我的复古椅子）。

通过一组单词构建视觉语言模型可能性研究

CLIP模型中的对比预训练（其中，蓝色方块是我们想要优化相似性的图像-文本对）

经过训练后，你应该可以生成一个可以在其中对图像和标题进行编码的有意义的向量空间。一旦为每个图像和每个文本嵌入了内容，你就可以做很多任务，比如看哪些图像更符合标题（例如，在2017年暑假相册中找到“dogs on the beach”（海滩上的狗）），或者找到哪个文本标签更像给定图片（例如，你有一大堆你的狗和猫的图像，你希望能够识别哪个是哪个）。

CLIP等视觉语言模型已成为通过集成视觉和语言信息来解决复杂人工智能任务的强大工具。他们将这两种类型的数据嵌入共享向量空间的能力在广泛的应用中带来了前所未有的准确性和出众表现。

视觉语言模型能理解语言吗？

我们所做的工作正是试图采取一些手段来回答这个问题。关于深度模型能否或者说能在多大程度上理解语言这个问题，当前还存在着重大的争论。在这里，我们的目标是研究视觉语言模型及其合成能力。

我们首先提出了一个新的数据集用来测试成分理解；这个新的基准被称为ARO（Attribution，Relations，and Order：属性、关系和顺序）。接着，我们探讨为什么对比损失在这种情况下可能是有限的。最后，我们为这个问题提出了一个简单但有希望的解决方案。

新基准：ARO（属性、关系和顺序）

像CLIP（以及Salesforce最近推出的BLIP）这样的模型在理解语言方面做得怎么样呢？

我们收集了一组基于属性的合成标题（例如“the red door and the standing man”（红门和站着的人））和一组基于关系的合成标题（例如“the horse is eating the grass”（马在吃草））以及相匹配的图像。然后，我们生成替代后的虚假标题，比如“the grass is eating the horse”（草正在吃马）。模型们能找到正确的标题吗？我们还探讨了混排单词的效果：难道模型更喜欢非混排标题而不是混排标题吗？

我们为属性、关系和顺序（ARO）基准创建的四个数据集如下图所示（请注意，顺序部分包含两个数据集）：

通过一组单词构建视觉语言模型可能性研究

我们创建的不同数据集包括Relation、Attribution和Order。对于每个数据集，我们显示一个图像示例和不同的标题。其中，只有一个标题是正确的，模型必须识别出这个正确的标题。

属性测试对属性的理解结果是：“the paved road and the white house”（铺好的路和白房子）与“the white road and the paved house”（白路和铺好的房子）。
关系测试对关系的理解结果是：“the horse is eating the grass”（马在吃草）和“the grass is eating the horse”（草在吃草）。
最后，Order测试了模型对顺序打乱后的弹性结果：我们随机打乱标准数据集（例如，MSCOCO）的标题。

视觉语言模型能找到与图像匹配的正确标题吗？这项任务似乎很容易，我们希望模型能够理解“马在吃草”和“草在吃草”之间的区别，对吧？我的意思是，谁见过草在吃东西？

好吧，可能是BLIP模型，因为它无法理解“马在吃草”和“草在吃草”之间的区别：

通过一组单词构建视觉语言模型可能性研究

BLIP模型不理解“草在吃草”和“马在吃草”之间的区别（其中包含来自视觉基因组数据集的元素，图片由作者提供）

现在，让我们看看实验结果：很少有模型能在很大程度上超越理解关系的可能性（例如，eating——吃饭）。但是，CLIP模型在属性和关系的边缘方面略高于此可能性。这实际上表明视觉语言模型尚存在问题。

通过一组单词构建视觉语言模型可能性研究

不同模型在属性、关系和顺序（Flick30k）基准上的性能。其中使用了CLIP、BLIP以及其他SoTA模型

检索与对比损失评判

这项工作的主要结果之一是，我们学习语言需要的可能不仅仅是标准的对比损失。这又是为什么呢？

让我们从头开始：视觉语言模型通常在检索任务中进行评估：取一个标题并找到它映射到的图像。如果你查看用于评估这些模型的数据集（例如，MSCOCO、Flickr30K），你会看到，它们通常包含用标题描述的图像，这些标题需要理解构图能力（例如，“the orange cat is on the red table”：橙色的猫在红色的桌子上）。那么，如果标题很复杂，为什么模型不能学习构图理解呢？

［说明］在这些数据集上进行检索并不一定需要对组成的理解。

我们试图更好地理解这个问题，并在打乱标题中单词的顺序时测试了模型在检索方面的性能。我们能找到标题“books the looking at people are”的正确图像吗？如果答案是肯定的；这意味着，不需要指令信息来找到正确的图像。

通过一组单词构建视觉语言模型可能性研究

我们测试模型的任务是使用打乱的标题进行检索。即使我们打乱标题，模型也可以正确地找到相应的图像（反之亦然）。这表明检索任务可能过于简单，图片由作者提供。

我们测试了不同的乱序过程，结果是肯定的：即使使用不同的乱序技术，检索性能也基本上不会受到影响。

让我们再说一次：视觉语言模型在这些数据集上实现了高性能的检索，即使指令信息无法访问。这些模型可能表现得像一堆单词，其中顺序并不重要：如果模型不需要理解单词顺序才能在检索中表现良好，那么我们在检索中实际衡量的是什么？

怎么办？

既然我们知道存在问题，我们可能想寻找解决方案。最简单的方法是：让CLIP模型明白“猫在桌子上”和“桌子在猫身上”是不同的。

事实上，我们所建议的一种途径是通过添加专门为解决这个问题而制作的硬底片来改进CLIP训练。这是一个非常简单有效的解决方案：它需要对原始CLIP损失进行非常小的编辑，而不会影响总体性能（您可以在论文中阅读一些注意事项）。我们将此版本的CLIP称为NegCLIP。

通过一组单词构建视觉语言模型可能性研究

在CLIP模型中引入硬底片（我们添加了图像和文本硬底片，图片由作者提供）

基本上，我们要求NegCLIP模型将黑猫的图像放在“a black cat sitting on a desk”（坐在桌子上的黑猫）这句话附近，但远离句子“a black desk sitting on a cat”（坐在猫身上的黑色桌子）。注意，后者是通过使用POS标签自动生成的。

该修复的效果是，它实际上可以提高ARO基准的性能，而不会损害检索性能或检索和分类等下游任务的性能。有关不同基准的结果，请参见下图（有关详细信息，请参阅本文对应论文）。

通过一组单词构建视觉语言模型可能性研究

不同基准上的NegCLIP模型与CLIP模型。其中，蓝色基准是我们介绍的基准，绿色基准来自网络文献（图片由作者提供）

您可以看到，这里与ARO基准相比有了巨大的改进，在其他下游任务上也有了边缘改进或类似的性能。

编程实现

Mert（论文的主要作者）在创建一个小型库来测试视觉语言模型方面做得很好。你可以使用他的代码来复制我们的结果，或者用新的模型进行实验。

下载数据集并开始运行只需要少数几行Python语言：

import clip
from dataset_zoo import VG_Relation, VG_Attribution

model, image_preprocess = clip.load("ViT-B/32", device="cuda")

root_dir="/path/to/aro/datasets"
#把 download设置为True将把数据集下载到路径`root_dir`——如果不存在的话
#对于VG-R和VG-A，这将是1GB大小的压缩zip文件——它是GQA的一个子集

vgr_dataset = VG_Relation(image_preprocess=preprocess, 
 download=True, root_dir=root_dir)
vga_dataset = VG_Attribution(image_preprocess=preprocess, 
 download=True, root_dir=root_dir)

#可以对数据集作任何处理。数据集中的每一项具有类似如下的形式：
# item = {"image_options": [image], "caption_options": [false_caption, true_caption]}