leyu乐鱼体育 - 官网入口 035-510204026

原来,阿里工程师才是隐藏的“修图妙手”!

作者:乐鱼官网入口 时间:2022-06-10 02:08
本文摘要:阿里妹导读:在现实世界中,信息通常以差别的模态同时泛起。这里提到的模态主要指信息的泉源或者形式。 例如在淘宝场景中,每个商品通常包罗标题、商品短视频、主图、附图、种种商品属性(类目,价钱,销量,评价信息等)、详情形貌等,这里的每一个维度的信息就代表了一个模态。如何将所有模态的信息举行融合,进而获得一个综合的特征表现,这就是多模态表征要解决的问题。今天,我们就来探索多模态表征感知网络,相识这项拿过冠军的技术。

乐鱼官网入口

阿里妹导读:在现实世界中,信息通常以差别的模态同时泛起。这里提到的模态主要指信息的泉源或者形式。

例如在淘宝场景中,每个商品通常包罗标题、商品短视频、主图、附图、种种商品属性(类目,价钱,销量,评价信息等)、详情形貌等,这里的每一个维度的信息就代表了一个模态。如何将所有模态的信息举行融合,进而获得一个综合的特征表现,这就是多模态表征要解决的问题。今天,我们就来探索多模态表征感知网络,相识这项拿过冠军的技术。作者 | 越丰、箫疯、裕宏、华棠摘要近些年,深度学习飞速生长,在许多领域(图像、语音、自然语言处置惩罚、推荐搜素等)展现出了庞大的优势。

多模态表征研究也举行入深度学习时代,种种模态融合计谋层出不穷。在这里,我们主要对图像和文本这两个最常见的模型融合举行探索,并在2个多模态融合场景中取得了现在最好的效果。

在文本编辑图像场景中,我们提出了双线性残差层 ( Bilinear Residual Layer ),对图像和文本两个模态的特征举行双线性表现 ( Bilinear Representation),用来自动学习图像特征和文本特征间更优的融合方式。在时尚图像生成场景中(给定文本直接生成对应的图像),我们接纳了跨模态注意力机制(Cross Attention)对生成的图像和文本特征举行融合,再生成高清晰度且切合文本形貌的时尚图像。

最后,在客观评分和主观评分上取得了最好的结果。文本编辑图像图像编辑是指对模拟图像内容的改动或者修饰,使之满足我们的需要,常见的图像处置惩罚软件有Photoshop、ImageReady等。随着人们对于图像编辑需求的日益提升,越来越多的图像要经由类似的后处置惩罚。

可是图像处置惩罚软件使用庞大且需要经由专业的培训,这导致图像编辑流程消耗了大量人力以实时间成本,为解决该问题,一种基于文本的图像编辑手段被提出。基于文本的图像编辑方法通过一段文本形貌,自动地编辑源图像使其切合给出的文本形貌,从而简化图像编辑流程。例如图1所示,通过基于文本的图像编辑技术可以通过文字下令改变模特衣服的颜色,纹理甚至名目。

图1 基于文本的图像编辑技术示例然而,基于文本的图像编辑技术现在仍然难以实现,原因是文本和图像是跨模态的,要实现一个智能的图像编辑系统则需要同时提取文本和源图像中的关键语义。这使得我们的模型需要很强的表现学习能力。现有方法现在已有一些针对基于文本的图像编辑所提出的方法。他们都接纳了强大的图像生成模型GAN(Generative adversarial network)作为基本框架。

Hao[1]训练了一个conditional GAN,它将提取出来的text embeddings作为conditional vector和图像特征毗连在一起,作为两个模态信息的混淆表现,然后通过反卷积操作生成目的图像 (如图2)。图2 使用传统conditional GAN实现的基于文本的图像编辑方案Mehmet[2]对以上方法做了革新,他认为特征毗连并不是一种好的模态信息融合方式,并用一种可学习参数的特征线性调制方法3去学习图像和文本的团结特征。

FiLM淘汰了模型的参数,同时使得团结特征是可学习的,提高了模型的表现学习能力 (如图3)。图3 使用FiLM+conditional GAN实现的基于文本的图像编辑方案我们的事情我们的事情从理论角度分析了毗连操作和特征线性调制操作间特征表现能力的优劣,并将这两种方法推广到更一般的形式:双线性 (Bilinear representation)。据此,我们提出表现学习能力越发优越的双线性残差层 (Bilinear Residual Layer),用来自动学习图像特征和文本特征间更优的融合方式。

leyu乐鱼体育官网入口

Conditioning的原始形式其中I。为输出张量。FiLM形式FiLM源自于将特征乘以0-1之间的向量来模拟注意力机制的想法,FiLM举行特征维度上的仿射变换,即:Bilinear形式以上的方法都只是线性变换,我们的事情在此基础上,提出了双线性的形式,即输出张量第i维的值由权重矩阵控制:。经由证明,Bilinear形式可以看做FiLM的进一步推广,它具有越发强大的表现学习能力。

证明如下:以上形式等同于:其中,而可以通过随机选择中的一个非零元素来结构,从而结构如下:Bilinear的Low-rank简化形式算法的整体框架如图4,网络由生成器和判别器组成,生成器有三个模块:编码模块,融合模块,解码模块。编码模块由预训练好的文本编码器和图像特征提取器组成,图像特征提取器直接使用VGG16模型conv1-4层权值。

融合模块由4个双线性残差层 (Bilinear Residual Layer, BRL)组成,解码模块则是将处置惩罚好的特征上采样成图像。组成,图像特征提取器直接使用VGG16模型conv1-4层权值。

融合模块由4个双线性残差层 (Bilinear Residual Layer, BRL)组成,解码模块则是将处置惩罚好的特征上采样成图像。图4 方法的整体框架其中,F表现融合模块。反抗训练历程中,判别器被训练以区分语义不相关的图像文本对,因此我们需要从文本库中选择不匹配的文本作为负样本,判别器的损失函数如下:其中前两项为了区分正负样本对,第三项为了尽可能识别生成图像和文本的不匹配。

同时生成器G被训练以生成和文本匹配的图像:整体目的函数即由和所组成。实验效果我们的方法在Caltech-200 bird[5]、Oxford-102 flower[6]以及Fashion Synthesis[7]三个数据集上举行了验证。定性效果如图5所示,第一列为原图,第二列表现Conditional GAN原始形式的方法,第三列表现基于FiLM的方法,最后一列是论文提出的方法。很显着前两者对于庞大图像的编辑会失败,而论文提出的方法获得的图像质量都较高。

图5 生成样本定性效果除此之外,实验还举行了定量分析,只管对于图像生成任务还很难定量评估,可是本事情接纳了近期提出的近似评价指标Inception Score (IS)[8]作为怀抱尺度。由表6可见,我们的方法获得了更高的IS得分,同时在矩阵秩设定为256时,IS得分最高。

表6 生成样本定量效果时尚图像生成在调研多模态融合技术的时候,有一个难点就是文本的形貌其实对应到图像上局部区域的特性。例如图7,Long sleeve对应了图像中衣服袖子的区域,而且是长袖。另外,整个文本形貌的特性对应的是整个图像的区域。基于这个思量,我们认为图像和文本需要全局和局部特征形貌,图像全局特征形貌对应到整个图像的特征,局部特征对应图像每个区域的特征。

乐鱼官网入口

文本的全局特征对应整个句子的特征,文本的局部特征对应每个单词的特征。然后文本和图像的全局和局部区域举行特征融合。针对这种融合计谋,我们在时尚图像生成任务上举行了实验。时尚图像生成(FashionGEN)是第一届Workshop On Computer VisionFor Fashion, Art And Design中一个角逐,这个角逐的任务是通过文本的形貌生成高清晰度且切合文本形貌的商品图像。

我们在这个角逐中客观评分和人工评分上均获得的第一,并取得了这个角逐的冠军。我们的方法我们方法基于细粒度的跨模态注意力,主要思路是将差别模态的数据(文本、图像)映射到同一特征空间中盘算相似度,从而学习文本中每个单词语义和图像局部区域特征的对应关系,辅助生成切合文本形貌的细粒度时尚图像,如图7所示。

图7 差别单词形貌图像差别区域示例传统的基于文本的图像生成方法通常只学习句子和图像整体的语义关联,缺乏对服装细节纹理或设计的建模。为了革新这一问题,我们引入了跨模态注意力机制。

如图8左边区域,已知图像的局部特征,可以盘算句子中差别单词对区域特征的重要性,而句子语义可以视为基于重要性权重的动态表现。跨模态注意力可以将图片与文字的语义关联在越发精致的局部特征层级上建模,有益于细粒度时尚图像的生成。图8 跨模态注意力机制,左图表现通过图像局部特征盘算差别单词的重要性,右图表现通过词向量盘算差别图像局部特征的重要性我们用bi-LSTM作为文本编码器,GAN作为反抗生成模型,并将生成历程分为由粗到精,逐步增加分辨率的两个阶段:第一阶段使用句子的整体语义和随机输入学习图像在大尺度上的整体结构。第二阶段使用单词层级的语义在第一阶段低分辨率输出上做局部细节的修正和渲染,获得细粒度的高分辨率时尚图像输出。

图9 整体框架概览,顶部门支使用文本整体语义学习低分辨率的图像大致结构,底部门支在上一阶段的输出上做图像细节的修正,生成越发细粒度的时尚设计或纹理。反抗生成网络传统的生成式反抗网络由判别器和生成器两部门组成,判别器的目的是判别生成图像是否在真实数据集的漫衍中,而生成器的目的是尽可能的骗过判别器生成迫近真实数据集的图像,通过两者的迭代更新,最终到达理论上的纳什平衡点。这个历程被称为反抗训练,反抗训练的提出为建设图像等庞大数据漫衍建设了可能性。

对于文本生成图像的任务,需要更改生成器的输入以及目的函数,我们将两个阶段的生成器划分设为和,整个流程可被形式化为:其中是反抗损失,是生成图像和对应形貌的相似性损失,由两部门组成:其中第一项非条件损失表现图像自己的真伪,第二项条件损失表现图像和句子语义是否匹配。对也同理。判别器,同时也被训练以最小化交织熵损失:该项对也同理。

基于跨模态注意力的相似性其中元素代表了第i个单词和第j个子区域的点积相似性。图像-文底细似性对于第i个单词,我们最终可以建设差别区域特征的加权和(越相似赋予越大的权重):其中是对应于第i个单词,图像特征的动态表述。对第i个单词,求得和的余弦相似度:综合可得图片对<V,E>的相似度为:其中超参数表现最相关的单词-图像区域对对最终相似度得分的影响水平。

在一个batch的图像-文本对中,我们最大化正确对的相似度,最小化错误对的相似度:其中,M为batchsize的巨细。文本-图像相似性同理的,文本-图像的相似性可以形式化为:全局相似性以上我们盘算了局部特征上的相似性得分,在全局区域,我们可以使用和的余弦距离作为全局相似度:综上,有:通过优化以上损失函数,我们最终获得的生成的服装图片的效果图如下所示:附上算法效果图:总结我们主要对图像和文本这两个最常见的模型融合举行探索,在文本编辑图像任务上,我们提出基于双线性残差层 (Bilinear Residual Layer)的图文融合计谋,并取得了最好的效果,相关事情已经揭晓在ICASSP 2019上,点击文末“阅读原文”即可检察论文。在时尚图像生成任务上,我们使用了细粒度的跨模态融合计谋,并在FashionGen竞赛中取得第一。

关于我们阿里宁静图灵实验室专注于AI在宁静宁静台治理领域的应用,涵盖风控、知识产权、智能云服务和新零售等商业场景,以及医疗、教育、出行等数亿用户相关的生活场景,已申请专利上百项。2018年12月,阿里宁静图灵实验室正式对外推出“宁静AI”,并总结其在知识产权掩护、新零售、内容宁静等领域举行深度应用的结果:2018年全年,内容宁静AI挪用量到达1.5万亿次;知识产权AI正在为上千个原创商家的3000多个原创商品提供电子“出生证”——线上与全平台商品图片对比,智能化完成原创性校验,作为原创商家电子存案及后续维权的重要依据;新零售场景的防盗损对小偷等识别精准度到达100%。作者:越丰。


本文关键词:leyu乐鱼体育官网,原来,阿里,工程师,才是,隐藏,的,“,修图妙手

本文来源:leyu乐鱼体育官网入口-www.zyqhxd.com