对比语言-图像预训练 (CLIP) 是 OpenAI 开发的一种多模态学习架构。它从自然语言监督中学习视觉概念。它通过在包含图像及其相应文本描述的大规模数据集上联合训练模型来弥合文本和视觉数据之间的差距。这类似于 GPT-2 和 GPT-3 的零样本能力。
本文将深入介绍 CLIP 如何弥合自然语言和图像处理之间的差距。特别是,您将了解到:
lCLIP 如何工作?
l架构和训练过程
lCLIP 如何解决计算机视觉领域的关键挑战
l实际应用
l实施 CLIP 时的挑战和限制
l未来的发展
CLIP 如何工作?
CLIP(对比语言-图像预训练)是 OpenAI 开发的一种从自然语言描述中学习视觉概念的模型。它的有效性源自大规模、多样化的图像和文本数据集。
对比学习是机器学习中使用的一种技术,特别是在无监督学习领域。对比学习是一种教人工智能模型识别大量数据点的相似性和差异性的方法。
假设您有一个主要项目(“锚样本”)、一个类似项目(“正样本”)和一个不同的项目(“负样本”)。目标是让模型理解锚和正样本是相似的,因此它会在脑海中将它们拉近,同时识别出负样本是不同的,并将其推开。
在对比学习的计算机视觉示例中,我们旨在训练像卷积神经网络这样的工具,使相似的图像表示更接近,并分离不相似的图像表示。
相似或“正面”图像可能与主图像或其修改版本属于同一类别(例如,狗),而“负面”图像则完全不同,通常来自另一个类别(例如,猫)。
对比语言-图像预训练 (CLIP) 使用双编码器架构将图像和文本映射到共享潜在空间。它通过联合训练两个编码器来工作。一个编码器用于图像(Vision Transformer),另一个编码器用于文本(基于 Transformer 的语言模型)。
l图像编码器:图像编码器从视觉输入中提取显著特征。此编码器将“图像作为输入”并生成高维向量表示。它通常使用 卷积神经网络 (CNN) 架构(如ResNet)来提取图像特征。
l文本编码器:文本编码器对相应文本描述的语义进行编码。它以“文本标题/标签作为输入”并生成另一个高维向量表示。它通常使用基于 Transformer 的架构(如 Transformer 或 BERT)来处理文本序列。
l共享嵌入空间:两个编码器在共享向量空间中生成嵌入。这些共享嵌入空间允许 CLIP 比较文本和图像表示并了解它们的底层关系。
步骤 1:对比预训练
CLIP 是在从互联网收集的 4 亿对(图像、文本数据)大规模数据集上进行预训练的。在预训练期间,模型会使用图像和文本标题对。其中一些对是真正的匹配(标题准确描述了图像),而另一些则不匹配。它创建了共享的潜在空间嵌入。
步骤 2:根据标签文本创建数据集分类器
对于每幅图像,都会创建多个文本描述,包括正确的描述和几个错误的描述。这会创建正样本(匹配)和负样本(不匹配)对的混合。这些描述被输入到文本编码器中,生成特定于类的嵌入。
在此阶段,一个关键函数也开始发挥作用:对比损失函数。该函数会因模型错误匹配(图像-文本)对而对其进行惩罚。但是,它会因模型在潜在空间中正确匹配(图像-文本)对而对其进行奖励。它鼓励模型学习能够准确捕捉视觉和文本信息相似性的表示。
步骤 3:零样本预测
现在,经过训练的文本编码器被用作零样本分类器。使用新图像,CLIP 可以进行零样本预测。这是通过将其传递给图像编码器和数据集分类器(无需微调)来实现的。
CLIP 计算所有图像和文本描述对的嵌入之间的余弦相似度。它优化编码器的参数以增加正确对的相似度。从而降低不正确对的相似度。
这样,CLIP 就可以学习多模态嵌入空间,其中语义相关的图像和文本彼此紧密映射。预测类别是具有最 高 logit 值的类别。
CLIP 能够将图像和文本映射到共享空间,从而实现NLP 和图像处理任务的集成 。这使得 CLIP 能够:
l为图像生成文本描述。它可以通过使用图像表示查询潜在空间来从训练数据中检索相关文本描述。进而有效地执行图像字幕。
l根据文本描述对图像进行分类。它可以直接将文本描述与潜在空间中未见图像的表示进行比较。因此,无需针对特定类别标记训练数据即可执行零样本图像分类。
l根据文本提示编辑图像。文本指令可用于修改现有图像。用户可以操纵文本输入并将其反馈给 CLIP。这将指导模型按照指定的文本提示生成或修改图像。此功能为创新的文本到图像生成和编辑工具奠定了基础。
计算机视觉的最 大障碍之一是“语义鸿沟”。语义鸿沟是指计算机从图像中提取的低级视觉特征与人类容易理解的高级语义概念之间的脱节。
传统视觉模型擅长于 物体检测 和 图像分类等任务。然而,它们往往难以掌握图像中更深层的含义和背景。这使得它们很难推理物体之间的关系、解释动作或推断意图。
另一方面,CLIP 可以理解图像中描绘的物体、活动和情绪之间的关系。给定一张孩子在公园玩耍的图像,CLIP 可以识别孩子和公园的存在。此外,它还可以推断出孩子正在玩得很开心。
另一个关键挑战是有效训练计算机视觉模型所需的大量数据。 深度学习算法需要大量标记的图像数据集来学习视觉特征和语义概念之间的复杂关系。获取和注释如此大的数据集既昂贵又耗时,限制了视觉模型的可用性和可扩展性。
同时,与传统视觉模型相比,CLIP 可以从更少的图像-文本对中进行学习。这使得它更加节省资源,并能适应数据有限的专业领域。
传统的 计算机视觉模型往往难以解释其预测背后的原因。这种“黑箱”性质阻碍了人们的信任,并限制了其在不同场景中的应用。
然而,CLIP 经过大量图像-文本对的训练,学会将视觉特征与文本描述联系起来。这允许生成解释模型推理的字幕,提高可解释性并增强信任度。此外,CLIP 能够适应各种文本提示,增强了其对未见过的情况的通用性。
对比语言-图像预训练有多种实际应用,例如:
CLIP 最令人印象深刻的功能之一是它能够执行零样本图像分类。这意味着 CLIP 可以仅使用自然语言描述对从未见过的图像进行分类。
对于传统的图像分类任务,AI 模型是在特定标记的数据集上进行训练的,这限制了它们识别训练范围之外的物体或场景的能力。借助 CLIP,您可以为模型提供自然语言描述。反过来,这使它能够根据文本输入概括和分类图像,而无需针对这些类别进行特定训练。
CLIP 能够理解图像和文本之间的联系,因此非常适合图像字幕等计算机视觉任务。给定一张图像,它可以生成描述内容和上下文的字幕。
此功能在需要像人类一样理解图像的应用中非常有用。这可能包括为视障人士提供的辅助技术或增强搜索引擎的内容。例如,它可以为视障用户提供详细描述或有助于获得更精 确的搜索结果。
CLIP 可用于语义图像搜索和检索,而不仅仅是基于关键字的简单搜索。用户可以输入自然语言查询,CLIP AI 模型将检索与文本描述最匹配的图像。
这种方法提高了搜索结果的精 确度和相关性。因此,它成为内容管理系统、数字资产管理以及任何需要高效、准确图像检索的用例中的宝贵工具。
内容审核会过滤在线平台上的不当或有害内容,例如包含暴力、裸露或仇恨言论的图片。CLIP 可以根据自然语言标准检测和标记此类内容,从而协助内容审核流程。
例如,它可以识别违反平台服务条款或社区准则的图片,或对某些群体或个人具有冒犯性或敏感的图片。此外,它还可以通过突出显示触发审核的图片或文本的相关部分来证明决策的合理性。
在图像质量不佳的情况下,例如监控录像或医学成像,CLIP 可以通过结合相关文本描述解释可用的视觉信息来提供有价值的见解。它可以根据图像的语义内容和上下文提供有关原始图像可能是什么样子的提示或线索。但是,它可以使用其生成功能或从大型数据库中检索类似图像,从模糊的输入中生成部分或完整的图像。
尽管 CLIP 具有令人印象深刻的性能和潜在的应用,但它也存在一些局限性,例如:
另一个缺点是 CLIP 的决策过程缺乏可解释性。理解模型为何以某种方式对特定图像进行分类可能具有挑战性。这可能会阻碍其在可解释性至关重要的敏感领域的应用,例如医疗诊断或法律背景。
CLIP 的理解在细粒度细节方面也受到限制。虽然它在高级任务方面表现出色,但它可能难以理解图像或文本中复杂的细微差别和微妙的区别。因此,限制了它在需要精细分析的应用中的有效性。
CLIP 对关系(尤其是情感和抽象概念)的理解仍然受到限制。它可能会误解复杂或细微的视觉线索。反过来,这会影响其在需要更深入地理解人类体验的任务中的表现。
预训练数据中存在的偏见可能会转移到 CLIP,从而可能延续和放大社会偏见。这引发了道德问题,特别是在内容审核或决策系统等 AI 应用中。在这些用例中,有偏见的结果会导致现实世界的后果。
随着 CLIP 不断重塑多模态学习格局,其融入实际应用前景广阔。数据科学家正在探索克服其局限性的方法,着眼于开发更先进、更可解释的模型。
CLIP 有望在图像识别、NLP、医疗诊断、辅助技术、先进机器人等领域取得突破。随着机器掌握不同模态的语境理解,它为更直观的人机交互铺平了道路。
CLIP 的多功能性正在塑造一个未来,即人工智能将像人类一样理解世界。未来的研究将塑造人工智能的能力,解锁新的应用,推动创新,并拓展机器学习和深度学习系统的可能性。
随着 CLIP 的不断发展,它具有巨大的潜力,可以改变我们与各种模式的信息交互方式。通过连接语言和视觉,CLIP 推动了机器真正“看”和“理解”世界的未来。
公众号 扫码咨询
![]() |
上海市闵行区中春路4999号莘庄商务楼1326室 |
![]() |
service@covond.com |
![]() |
www.covond.com |
![]() |
交换机:18017588179(孙经理) 无人机:13311882358(孙总) |