毕业论文
您现在的位置: 竖琴 >> 竖琴发展 >> 正文 >> 正文

图像版GPT3问世打破语言与视觉界线,

来源:竖琴 时间:2023/7/16
北京什么医院湿疹好 http://m.39.net/pf/a_9150598.html

继OpenAI推出史上最强语言模型GPT-3后,这家旧金山AI研究公司又有新动作。

这次,他们一连推出两款强大的多模态模型CLIP和DALLE,CLIP可以对图像进行理解、归类,而DALLE则可以直接借助文本生成图像,简直就是“图像版GPT-3”。

OpenAI在官博中介绍,DALLE是GPT-3的亿参数版本,如此庞大的数据集,足以让它发挥“想象力”创造出那些不同寻常的图像。

你只用简单描述一下想要的图像特征,比如“一个高质量的龟兔插图”“一只模仿乌龟的兔子”“一只乌龟做成的兔子”,DALLE就可以生成以下图像,堪称帮助设计师“开脑洞”的神器。

图|DALLE生成的“乌龟-熊猫”图和“乌龟-兔子”图

该模型一经发表,再次引燃AI圈。人工智能和机器学习领域的国际权威学者吴恩达,就用DALLE模型生成了多张蓝色衬衫搭配黑色长裤的图像,并发推文对OpenAI表示祝贺,他认为这个成果很酷。

图|吴恩达的推文

佐治亚理工学院(GeorgiaInstituteofTechnology)研究NLP和计算创造力的马克里德尔(MarkRiedl)说,“文本-图像转换一直是一项研究挑战,尽管已经存在一段时间了,但这组示例令人印象深刻。”

OpenAI首席科学家伊利亚萨茨克维尔(IlyaSutskever)表示,“我们生活在一个视觉世界中。从长远来看,你将拥有既能理解文本又能理解图像的模型。”“人工智能将能够更好地理解语言,因为它可以理解单词和句子的意思。”

DALLE和CLIP让AI更好的与现实连接

基于GPT-3,OpenAI展示了一个强大的自然语言处理模型,拥有亿超大参数的GPT-3让网友“玩开了花”,不仅可以写文章,还能写诗、写歌、写菜谱,凭借惊人的文本生成能力,一直保持着超高热度。

尽管GPT-3很强大,但它的输出却让人有种与现实脱节的感觉,好像它根本不知道自己在说什么,这一点人们也经常拿来调侃。

如今,OpenAI和其他机构的研究人员,正试图通过将文本根植于图像中,让语言模型用人类理解事物概念的方式来训练。他们将这些想法结合在一起,建立了两个新模型,分别名为DALLE和CLIP,将语言和图像结合在一起,使人工智能更好地理解词汇及其所代表的含义。

如果说GPT-3能模拟人类如何使用词汇,DALLE则能够预见我们所看到的,就仿佛它拥有了想象力。

如果让你想象一个牛油果形状的扶手椅,你会和它“想”的一样吗?如下图,它生成的这些扶手椅设计已经十分贴近现实了,如果再让它生成一款牛油果咖啡桌呢?这充满现代感的设计似乎真的可以为设计师提供启发。

图|DALLE生成的牛油果形状扶手椅以及咖啡桌

参与DALLE工作的阿迪亚拉梅什(AdityaRamesh)表示,“最让我惊讶的是,这个模型可以把两个不相关的概念联系在一起,并赋予其功能。”他认为牛油果与扶手椅的融合最为自然,“可能是因为牛油果被切一半,看起来有点像高背扶手椅,而果核恰好可以充当靠垫。”

就像GPT-3一样,DALLE同样是基于一个仅有解码器的Transformer架构,包含个文本和图像token(文本占个,图像占个),可以同时接收文本和图像作为单一数据流,并使用最大似然进行训练,一个接一个地生成所有token。

它的64个自注意力层(self-attention)中的每一个都具有注意力mask(掩盖词、掩膜),使每个图像token都可以匹配文本token。DALLE对文本token使用标准的因果mask,以行、列或卷积注意模式对图像token使用稀疏注意,具体取决于层数。

OpenAI团队在其博客文章中称展示的结果并不是人工挑选的,而是通过另一款模型CLIP进行排序的,CLIP会选出它认为最符合描述的32张图像。此过程也可以看作是一种语言指导的搜索,会对样本质量产生巨大影响。

如下图所示,使用CLIP对DALLE中的样本进行重新排序,可以大大提高样本的一致性和质量。

图|CLIP可以对DALLE中的样本进行重新排序

据悉,OpenAI计划在论文中提供有关DALLE架构和训练过程的详细信息。

DALLE和CLIP是从两个不同的方向来解决这个问题的。CLIP是对搜集到的图片进行理解、分类,而DALLE是根据文本生成图片,两个模型可以理解为互为逆过程。

图|CLIP的预训练过程

据了解,OpenAI用高达4亿的数据集来训练CLIP,它可以在各种各样的图像上进行训练,主打零样本学习,攻克了计算机视觉领域中数据集昂贵和狭窄的问题。

将语言建立在视觉理解上是让AI更加聪明的好方法

OpenAI这次推出的多模态模型成果惊人,但仍然不尽完美。比如DALLE根据“画着蓝色草莓的彩色玻璃窗”这一文本创建的图像就有些让人迷惑,不仅掺杂着红色草莓,而且有些图像抽象到看不出是窗户或者草莓。

图|DALLE根据“画着蓝色草莓的彩色玻璃窗”这一文本创建的图像

再比如,OpenAI工作人员Aditya认为以“竖琴做成的蜗牛”为文本生成的图像就很别扭,图像中蜗牛和竖琴以奇怪的方式结合在一起。

图|DALLE生成的“竖琴制成的蜗牛”

艾伦人工智能研究所的阿尼肯布哈维(AniKembhavi)说:“这个模型能从相当异想天开的文本中生成合成图像,这在我看来非常有趣。”他的同事JaeminCho也对此印象深刻,“现有的文本-图像生成器还没有显示出绘制多个对象的控制水平,也没有DALLE的空间推理能力,”他说。

佐治亚理工学院从事自然语言处理和计算创造力的马克里德尔(MarkRiedl)则大胆质疑该模型生成的卡通图像,“我对萝卜的例子有点怀疑,从风格上看,它可能记住了一些来自互联网的艺术作品。DALLE所基于的GPT-3在记忆方面可是出了名的。”他说。

图|DALLE根据“穿着芭蕾舞短裙遛狗的小白萝卜”这一文本生成的图像

尽管如此,大部分AI研究人员仍然认为,将语言建立在视觉理解上是让AI更加聪明的好方法。

“未来的系统将由这样的模型组成,它们都是朝着那个系统迈进的一步。”OpenAI首席科学家IlyaSutskever说。

转载请注明:http://www.0431gb208.com/sjszyzl/5622.html