开元棋盘app官方版下载_开元棋盘app官网版下载-跑跑车 从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA

资料来源:机器中心作者:Qihoo 360人工智能研究所和Tsinghua大学

对于中国社区,本文提出的大规模跨模式基准数据集无疑是有价值的

视觉语言预训练(VLP)主要学习视觉和自然语言之间的语义对应关系。得益于大量数据的支持,出色的体系结构,例如变压器,跨模型,例如剪辑和硬件设备,一系列开创性的工作探索了VLP模型,并在各种视觉语言任务中取得了重大进展。

借助大型培训语料库(主要是英语),已证明许多VLP模型对下游任务有益。但是,中文视觉语言数据集很少开元棋app官方下载,并且存在各种局限性。鉴于大规模训练模型的经典模型以及下游任务进行了微调,中国跨模式领域缺乏数据基准,该基准包含大量高质量数据,并充分定义了预训练数据集,多个下游任务训练集和下游任务测试集。

如何建立具有高质量文本描述的完整,公平和高质量的中国跨模式基准已成为一个紧迫的问题。

最近,Qihoo 360人工智能研究所和Tsinghua University的研究人员专注于最新论文中的大规模视觉语言数据集和跨模式表示模型。研究人员提出了一个大规模的中国跨模式基准数据集零,其中包含两个称为Zero-corpus和五个下游任务数据集的预训练的数据集,在某种程度上,该数据集填补了中国图形跨模式字段数据集中的空白。此外,研究人员还提出了一个视觉语言预训练框架R2D2,用于大规模跨模式学习,基于提议的零孔数据集进行预训练,并在多个下游任务上对其进行测试。 R2D2取得了SOTA以外的多个结果。以上数据集和模型都是开源的。

研究人员还试图用2.5亿个内部数据集训练R2D2模型。与2300万个数据相比,模型效应仍然显着改善。尤其是在零样本任务中,与以前的SOTA相比,R@m在FlickR30K-CN数据集上增加到85.6%(上升4.7%),R@m增加到COCO-CN数据集上的80.5%(上升5.4%),R@m在Muge Dataset上增加到69.5%(上升到69.5%)。

847921a9c9d7ec606b17367d045e209b.png

纸张地址:

零核心预先训练的数据集由2300万个图形和文本对的完整版和230万个图形和文本对的较小子集组成。其中,完整的预训练数据集从搜索引擎中收集,包含图像和相应的文本说明,并根据用户点击率(CTR)从50亿张图片和文本中过滤。在完整版本上培训VLP模型可能需要大量的GPU资源,因此,对于学术研究,研究人员还提供了230万个版本的子集,其中包含10%的图形和文本对。

除了两个预训练的数据集外,研究人员还提供了五个高质量的下游数据集,用于长期和短文图形检索和图形匹配任务。特别值得一提的是,Flickr30k-CNA是一个手动翻译的数据集,比FlickR30K-CN更准确。它可以用来比较中国和英语跨模式模型的影响,也可以用来研究翻译语料库质量对结果的影响。

对于VLP模型,研究人员提出了一个新的培训框架R2D2,用于跨模式学习。该框架结合了双塔模型和单塔模型。基于图像模态表示和文本模态表示,它使用跨注意机制来整合图形和文本信息,并受到建议系统和在线广告等技术的启发。全局对比度预级(GCPR)用于获得交叉模式表示,最后使用细粒度排名(细粒度排名(FGR))进一步提高模型性能。

此外,研究人员还引入了一种双向蒸馏方法,包括目标引导的蒸馏(TGD)和特征引导的蒸馏(FGD)。其中,面向目标的蒸馏可提高从噪声标签中学习的鲁棒性,并以功能为导向的蒸馏旨在改善R2D2的概括。

数据集概述

预训练的数据集零语料库

现有数据收集方法中有两个主要局限性。首先,图片与通过爬行收集的文本之间的相应关系很弱,而且噪音很大。其次,图像通常只包含一个相应的文本,并且文本数据缺乏多样性。

为了克服上述局限性,研究人员为中国图形和文本预训练 - 零语料库创建了一个新的数据集。他们根据用户点击在图像搜索引擎中对50亿张图像进行了排序。顶级图片表明,用户在查询时单击最多的次数,表明图像与搜索查询文本最相关。此外,研究人员还删除了不适当和有害的文本描述,并滤除了有害图像。上面的过程最大程度地提高了图片和文本数据和过滤高质量图片之间的对应关系。研究人员根据上述方法处理了约2.5亿最相关和高质量的图片和文本对,最后随机选择了2300万张图片和文本对,以构建公共培训预训练数据集。

研究人员还为每个图像提供了多样的文本描述,包括标题(标题),内容(内容)和图像查询单词(ImageQuery)。这些信息(包括多个文本)可用于构建不同的跨模式任务,以促进图形和文本之间更全面的建模和研究跨模式关系。下图显示了一些特定的示例。

579ff744e9f8ee6fb74f7c03e1e98353.png

零孔图形和文本示例。

下游数据集

为了评估预算模型的性能,大多数工作都会在各种下游数据集上进行实验。与具有英文描述的现有下游数据集相比,很少有带有中文文本的下游数据集。

为此,研究人员构建了四个中国图形数据集,即ICM,IQM,ICR和IQR。根据训练前数据处理(通过单击排序并通过高质量内容进行过滤),通过手动标记这些下游任务的标签来确保数据的准确性。对于每个下游任务数据集,训练集,验证集和测试集的比例为8:1:1。与预训练的数据不同,对于这些下游任务,每个图像仅保留一个相应的文本。

图像捕获匹配数据集(ICM)用于长文本图形匹配分类任务。每个图像都有相应的标题文本,并且详细描述了图像。研究人员首先使用CTR选择了最相关的对,然后通过手动注释进行校准,并获得了400,000个图形和文本对,包括200,000个正样本和200,000个反样品。

图像Query匹配数据集(IQM)用于简短的文本图形匹配分类任务。它类似于ICM数据收集方法,但使用搜索查询而不是详细的描述文本。 IQM还包含200,000个阳性样品和200,000个反样品。

图像捕获检索数据集(ICR)用于长文本和文本相互检查任务。研究人员使用与ICM相同的规则收集了200,000对图形和文本。

图像问题检索数据集(IQR)用于简短的文本图形和文本共同检查任务。研究人员使用与IQM相同的规则收集了200,000对图形和文本。

从左到右,ICM,IQM,ICR和IQR数据集的图形示例。

以前,FlickR30K-CN使用机器翻译来翻译FlickR30K的训练和验证集,但机器翻译的结果通常有两种类型的问题。一方面,某些句子有一定的翻译错误。另一方面,某些句子没有平滑中文语义。

因此,研究人员邀请了六名中文和英语语言学专业人员重新翻译Flickr30k和每句话的所有数据,并最终产生了一个新的数据集,Flickr30k-Chinese All(Flickr30k-CNA),以进行图形交叉模态任务评估。

b995ad3c92c0a45ab0d90227345ce5d7.png

本文提出的Flickr30k,Flickr30k-CN的比较以及Flickr30k-CNA的示例。

方法概述

模型架构

下面的图1显示了R2D2预处理框架的体系结构概述,该框架包含文本编码器,一个图像编码器和两个交叉编码器。其中,文本编码器和图像编码器分别将文本和图像分别转换为一系列隐藏状态。然后,文本和图像隐藏状态通过交叉注意在两个交叉编码中进行交互。

0ca4b3e85063eb347382116a785a02f3.png

研究人员将罗伯塔作为文本编码器。给定文本序列,他们首先使用Roberta-wwm-ext令牌的令牌。在这里,一个特殊的[Cls]令牌附着在令牌化文本的头部,而[sep]令牌附着在尾巴上。然后将令牌化文本输入到文本编码中。

研究人员将VIT作为图像编码器。他们首先将输入图像扩展到标准大小,然后将图像分为多个补丁。然后将每个贴片线性映射并添加位置嵌入。此外,可学习的[Cls]令牌与斑块向量串联。最后,序列向量是对标准变压器模型的输入,以获得图像隐藏的状态向量。

研究人员融合了图像和文本隐藏的向量,并将其输入交叉编码器。具体来说,他们使用线性映射层更改每个文本功能和图像功能的尺寸,以保持它们的一致性。多层变压器借助交叉注意融合了两种模式的特征信息,并产生了最终的交叉模式输出。

预训练方法

为了探索图形和文本对之间的匹配关系,研究人员设计了一种预分类 +排序的机制,即全局对比度预分类(GCPR)和细粒度排序(FGR)。他们还使用蒙版语言建模(MLM)来有效学习跨模式模型的表示。

首先,全球比较预分类。传统的对比学习旨在使多模式数据(例如配对图形)的表示形式保持一致,从而最大程度地提高了正对的相似性得分并最大程度地减少了负对的分数。研究人员使用全球比较学习来完成预分级任务,他们对K GPU进行了完整的反向传播。对于每个图像i_i和相应的文本T_i,SoftMax归一化图形和文本图像的相似性得分可以定义如下:

全局比较前分类损失是通过跨透明损失L_C(·)计算的,如以下公式(2)所示:

然后是细粒度的分类。如上所述,研究人员使用全局对比度预分类来获得图像和文本的单一表示。基于这些表示形式,借助细粒度的排序损失,进一步执行了细粒度的排序任务。这是一项二进制分类任务,旨在预测图形是否匹配。

研究人员使用H_I_ [CLS]和H_T_ [CLS]作为两个交叉编码器的输出表示。给定图像表示h_i_ [cls]和文本表示H_T_ [CLS],研究人员将它们输入到完全连接的层g(·)中,以获取其各自的预测概率。令y表示为二进制分类的基础标签,研究人员对细粒分类损失进行了以下计算。

研究人员将蒙版语言建模损失应用于文本和图形交叉编码器,以提高其在令牌层面上对文本和图像之间关系建模的能力。 15%的文本令牌在输入中被遮盖了,所有文本令牌被[蒙版]代币替换。

在研究人员的模型中开元ky888棋牌官方版,蒙版语言建模任务使用掩码文本和相应的图像来denoise,从而增强了文本和图像之间的相互作用。由于细粒度的分类在很大程度上依赖于这种交互式能力,因此研究人员提出了增强培训(ET)开元棋盘app官方版下载_开元棋盘app官网版下载-跑跑车,将蒙版语言建模任务集成到了远期图形和文本对的细粒度分类的远期操作中。

双向蒸馏

图形和文本的大多数预训练数据都是通过半自动化程序收集的,从而导致数据中的噪声。标签不正确会误导模型培训。为此,研究人员提出了面向目标的蒸馏(TGD),这是一种基于教师的蒸馏,具有软目标。为了进一步提高预审预告片模型的概括性能,研究人员引入了面向特征的蒸馏(FGD)。为了方便起见,他们将这两种蒸馏的组合称为双向蒸馏(TWD)。

面向目标的蒸馏:为了减少从噪声标签学习的风险,研究人员建议使用动量更新编码器软目标(软目标)。在这里,动量更新编码器用作蒸馏的教师模型,该模型是从指数移动平均体重获得的。

研究人员通过系数α结合了相似性评分s(·,·)与单速标签y(·,·)的结合,以生成最终的软标签。将要

表示为最终软标签。经过

例如,它可以定义为:

考虑到队列中特征的有效性随时间步的增加而降低,研究人员还保持了加权队列W,以标记相应位置特征的可靠性。具体而言,除了新传入的项目外,该研究还将队列中的每个元素减弱了0.99倍,每次迭代。因此,研究人员将

用等式2中的加权交叉熵损失代替

。使用面向目标的蒸馏,

定义为:

面向特征性的蒸馏:与TGD相似,研究人员使用教师范式以角色为导向的蒸馏。以文本编码为例,学生模型是文本编码器,而教师模型是逐步更新的编码器。

为了进一步提高模型绩效,研究人员采用了掩盖策略的投入。在特定的实现中,向教师模型提供了完整的输入,并向学生提供了涵盖的输入。依靠动量机制,目标是使学生的特征更接近教师的特征。正式地,教师和学生模型的预测分布定义如下:

研究人员使用跨凝结损失进行了面向特征的蒸馏,损失L_FGD定义为:

最后,总体培训目标用于模型培训:

实验结果

从下面的表2中可以看出,研究人员提出的模型在大多数任务中都超过了先前的SOTA,即使仅使用230万样本训练(约占Wukong数据大小的2.3%)。预先培训23m样品时,结果更好。在模型级别上,R2D2VIT-L在所有数据集中也比R2D2VIT-B好,表明随着预训练模型变得更大,该算法会更好。

e0bae3ab4af367d5dd41027b90a63f3c.png

研究人员还对拟议的下游数据集进行了实验,这些实验结果成为拟议数据集的基线。特别是,在尝试FlickR30K-CNA时,研究人员使用FlickR30K-CNA的训练集对预训练的模型进行了微调,并在Flickr30k-CN的测试集上进行了测试,以进行公平比较。从表2可以看出,FlickR30K-CNA上的R2D2微调比FlickR30K-CN上的R2D2微调好,因为手动翻译的FlickR30K-CNA的质量远高于机器反式翻译的FlickR30K-CN。

与图形搜索不同,中文的图形匹配(ITM)任务几乎没有。研究人员为中文ITM任务提出了图像标题匹配数据集(ICM)和图像查询匹配数据集(IQM),并给出了相应的结果。

研究人员将AUC作为评估指标。从下面的表1可以看出,R2D2VIT-L比R2D2VIT-B获得了更好的结果。此外,ICM和IQM的R2D2VIT-L(23M)的表现分别比R2D2VIT-L(233M)高约4.97%和5.68%。这意味着更多高质量的中国数据可以提高R2D2的概括能力。

为了进一步提高性能,研究人员通过从50亿个样品中提取的2.5亿个图形对进行了预培训。从表2可以看出,通过最全面的评估指数r@m衡量,该模型超过了23m数据训练的模型,例如flickr30k-cn,coco-cn,aic-icc,aic-icc,muge,muge,flickr30k-cna,flickr30k-cna,iCR,iqr,iqr等,这意味着增加数据的含量。同时,这些结果也显着超过了Wenlan 2.0和Wukong的结果,这些结果披露了公众成果,并成为最新的SOTA。下表1中的数据显示,在图形和文本匹配任务ICM和IQM中,经过大量数据训练的预训练模型将获得更好的结果。

为了显示每种机制的作用,研究人员对零孔的子集进行了消融实验(230万个预训练数据)。为了方便起见,R2D2VIT-L在消融实验中定义为R2D2。

细粒分选(FGR)的效果。首先,研究人员使用全局对比度排序(GCPR)和双向蒸馏(TWD)训练了该模型,并将其定义为PRD2。 PRD2的设置类似于剪辑。从下面的表3的第一行和第二行,可以看出,R2D2在图形搜索任务中的性能明显好于PRD2,并且可以推断出该结果明显优于夹子,这表明了拟议的全局比较预分量预分量 +细粒度分类框架的有效性。

增强训练的影响(ET)。研究人员在删除增强培训后比较了结果。从下面表3的第三行中可以看出,R2D2(ET)在图形搜索任务上增加了@1的召回@1增加了0.95%,而AUC从80.27%增加到80.51%。 R2D2的另一个优点是,它比R2D2 W/O ET使用的计算资源少。 R2D2需要154.0 GFLOPS计算,可以以每秒1.4的迭代运行,而没有增强训练的R2D2需要168.8 GFLOPS计算,每秒只能运行1.1次迭代。以上结果证明了增强训练的有效性。

双向蒸馏的效果。研究人员提出的双向蒸馏包括面向目标的蒸馏和特征性的蒸馏。当取出双向蒸馏(TWD)时,R@m从74.06%降至73.10%,AUC从80.51%降至80.31%。当取出面向特征的蒸馏(FGD)时,R@m从74.06%下降到73.29%,性能大幅下降,这表明在训练过程中执行特征对齐非常重要。同时,删除面向目标的蒸馏(TGD)也可能导致模型性能的降解。以上结果表明,双向蒸馏是改善预训练模型的概括的有效方法。

零样本任务。为了证明该模型的概括性能,研究人员还进行了零样本的迁移实验。从下面的表4中可以看出,与当前SOTA性能的Wukongvit-L相比,R2D2VIT-L(23M)使用的数据少于1/4,但在FlickR30K-CN和COCO-CN上都取得了更好的性能。当引入了2.5亿级的预训练数据时,R2D2的准确性进一步提高了。与Wukongvit-L相比,FlickR30K-CN数据集的R@m增加到85.6%(上升4.7%),R@m在COCO-CN数据集上增加到80.5%(上升5.4%),而R@M在Muge Dataaset上增加到69.5%(上升6.3%)。

11a855a33bc9ff31aa7d8cca7eb5de93.png

基于实体的图像注意力可视化。在这项实验中,研究人员试图可视化图像对可可-CN的注意。具体来说,他们首先从中文文本中提取实体,并计算图像对实体对的注意力评分。下图2显示了图像上四个不同实体的视觉解释。这表明R2D2可以很好地学习与图像中正确的内容对齐文本。

您可能会喜欢:

单击我查看Gan的一系列专辑〜!

午餐外卖,成为简历视觉前沿中的潮流引领者!

CVPR 2022 | 25个以上的方向,最新的50篇文章

ICCV 2021 | 35个主题的摘要gan论文

超过110篇文章! CVPR 2021最完整的GAN纸分类

超过100篇文章! CVPR 2020年最完整的GAN纸评论

拆卸新甘:MixNmatch的分离表征

Stargan Edition 2:多域多样性图像生成

附件下载| “解释性机器学习”中文版本

附件下载| “ Tensorflow 2.0深度学习算法实践”

附件下载|共享“计算机视觉中的数学方法”

“基于深度学习的表面缺陷检测方法的摘要”

“零样本图像分类的摘要:十年的进度”

“基于深神网络的小样本学习的摘要”

关键词:

客户评论

我要评论