去年OpenAI发布了拥有亿个参数的GPT-3,而今年OpenAI又发布了GPT-3上的重要突破:DALL·ECLIP,或许这是GPT-4的热身?
整理
郑丽媛
AI从上世纪50年代首次提出,经过几十年的发展已愈发先进。目前AI客服对于人工的替代率已高达90%以上,GPT-2续写的权游结局,似乎比原著更好,GPT-3更是能直接把需求变成代码,直抢程序员饭碗!
而刚步入年,继“威逼”客服、作家、程序员之后,人工智能非营利组织OpenAI昨日发布的DALL·E和CLIP两个模型,又让艺术家们开始头疼了。CLIP能根据视觉类别名称自己分类图像已经让人叹服,没想到DALL·E居然可以用一句话就生成对应图像!
CSDN博客专家马超(从事金融IT行业超十年,阿里云MVP、华为云MVP、华为年技术社区开发者之星)评价道:
DALL·E带给我们震撼在于这是一种跨模态的生成模型,之前不管是pix2pix,DeepFake还是大谷老师修复老北京的影像,AI还只能在图像或者文字的单模态下进行生成和模仿.跨模态模型像B站的弹幕和图像的模型只能做到认知,通过弹幕理解图像的含义,通过文字直接脑补出图像来,之前闻所未闻,从这次DALL·E展示出的能力来看,其联想能力已经接近人类四岁的儿童,而且在未来继续扩大参数规模的情况下,还展示出AI的无限可能,这出不禁让我们想尽AI的边界到底在哪?
一句话生成对应图像的DALL·E
DALL·E这个名字取自艺术家萨尔瓦多·达利(SalvadorDalí)和皮克斯动画工作室(Pixar)的《机器人总动员》(WALL·E),是GPT-3的亿参数版本。它将计算机视觉和自然语言处理(NLP)相结合,经过文本-图像对数据集的训练,即可通过给定的简短文本生成匹配的图像。
与GPT-3一样,DALL·E也是一种Transformer语言模型,以包含多达个tokens(类似于每个英文字母都是26个字母中的一个token,而在DALL·E中,图像使用个tokens,文本最多使用个BPE编码tokens)的单个数据流同时接收文本和图像,利用最大似然法(使用概率模型,寻找能够以较高概率产生观察数据的系统发生树)训练并一个接一个地生成所有tokens。
由文本“写着OpenAI的店面”DALL·E生成的图像
为了测试DALL·E处理新概念的能力,OpenAI研究人员还给了一些实际上并不存在的描述,例如“竖琴做成的蜗牛”和“鳄梨扶手椅”。意外的是,DALL·E可以将图像中的物体进行操作和重新排列,把一些无关的概念以合理的方式进行组合并应用到现有图像上。
由文本“鳄梨扶手椅”DALL·E生成的图像
但这种结合的成功率也需视情况而定。或许由于鳄梨的横截面本就形似高背扶手椅,果核可看做抱枕,因此DALL·E生成的图片并无违和感。可将文字描述换成“竖琴做成的蜗牛”,生成的图片就仅仅是将蜗牛与竖琴生硬地结合在一起。
由文本“竖琴做成的蜗牛”DALL·E生成的图像
除此之外,经测试还发现DALL·E具有创建拟人化动物及物体形象,它会将某些人类的活动和衣物转移到动物和无生命的物体上,还能以合理的方式组合不同的动物。
由文本“一个穿着芭蕾舞裙遛狗的小白萝卜”DALL·E生成的图像
由文本“一个长颈鹿做成的乌龟”DALL·E生成的图像
但同时,DALL·E也存在一些不足。通过研究人员控制文字描述属性观测DALL·E所生成的图像看来,DALL·E对于少量的属性表述还可以较为准确地把控,可一旦描述的属性过多,或者出现容易混淆的措辞和颜色之间的关联,生成正确图片的成功率就会大幅降低。此外,DALL·E处理描述文字的变动也不太灵活:有时用语义相同的描述替换,结果却得不到正确的图片了。
由文本“戴蓝色帽子、红色手套,穿绿色衬衫和黄色裤子的小企鹅表情符号”DALL·E生成的图像
不过,瑕不掩瑜。通过OpenAI对DALL·E进行的全方面探测,DALL·E还具备以下几个功能:
可以控制场景视角,将场景渲染成3D风格;内部和外部结构可视化;能推断背景细节进行图像调整;零样本视觉推理,可根据虚拟图像得到草图;具备地理知识,可根据文本指示生成相应地区有关图像。除了DALL·E,OpenAI还发布了一款连接文本和图像的多模态模型CLIP(ContrastiveLanguage–ImagePre-training)。DALL·E生成的图片排序正是由CLIP决定,它将对生成的图片进行区分,越符合文本的图片排序越前,而这又是如何实现的呢?
零样本学习的CLIP
CLIP能有效地从自然语言监督中学习视觉概念,只需提供识别的视觉类别名称,就可将CLIP应用于视觉分类基准,类似于GPT-2和GPT-3的“零样本”功能。
设计团队采用了大量可用的数据:文本和与之匹配的图像。该数据用于为CLIP创建代理训练任务:给定一幅图像,预测在个随机采样的文本数据集中与哪一个片段更匹配。以下是CLIP框架结构图:
CLIP提前训练图像编码器和文本编码器,以预测数据集中哪些图像与哪些文本相匹配;然后,利用结果将CLIP转换为zero-shot分类器;最后,将数据集的所有类别转换成文字,并预测文本的类别与给定图像的最佳对应关系。
CLIP的开发主要是为了解决基于深度学习计算机视觉中的一些问题:
数据集昂贵:深度学习需要大量的数据,而视觉模型一般都是在构建成本高昂的人工标记数据集上进行训练。以ImageNet数据集为例,需要25,多名工作人员为22,个对象类别注释万张图像。但CLIP可以从互联网上已经公开可用的文本图像对中学习。适用范围狭窄:还是以ImageNet模型为例,虽然它可以很好地预测1种ImageNet类别,但想要执行新的任务就需要再构建一个新的数据集并对模型进行微调。而CLIP可适用于执行各种视觉分类任务,而无需其他训练样本。实际应用不佳:据报道,深度学习系统在测试时,通常可以达到甚至超越人类的视觉基准,可一旦投入实际使用,其性能就大打折扣。这种仿佛是“基准绩效”与“实际绩效”之间的差异,可能是因为模型只优化了基准性能来“欺骗”大众,就像一个临时抱佛脚的学生,仅研究过去几年考试中的问题去通过考试。相反,CLIP模型可以在基准上进行评估,而不必训练其数据,它的基准性能更接近它的实际性能。CLIP本身是一个高效,并且灵活通用的多模态模型,但事无完美,它也存在一些局限。虽然CLIP在识别常见对象方面可圈可点,但面对抽象或系统性任务(计算图像中的对象数量)或复杂的任务(计算图像中最近的汽车的距离)时,误差也较大。此外,CLIP对于在训练数据集中未涵盖的图像概括性较差。即使CLIP学习了功能强大的OCR系统,但面对MNIST数据集进行评估时,准确率只有88%,远低于数据集中99.75%的人类。最后,CLIP的zero-shot分类器可能对文本或措辞较为敏感。
你怎么看?
OpenAI推出的这两个模型,很快就登上了Techmeme的首页,也在HackerNews冲上第二名,引起了许多讨论。
评论1:
人类能通过少量的示例来推断和理解一些抽象概念,但AI看起来似乎并不行。
评论2:
我预测年时,我们的手机将有很高的“智商”,能对周围的世界有深刻的理解(不论是语言还是视觉方面)。
评论3:
我希望这是一个人人都能使用的工具!
OpenAI联合创始人首席科学家IlyaSutskever曾在吴恩达编辑的TheBatch周刊年终特刊里写到:“年,语言模型将开始了解视觉世界。”此次新年刚过便推出的DALL·E和CLIP也印证了他的话,同时让人工智能更进一步理解人类的日常概念。对此,你有什么看法吗?欢迎评论区留言~
参考链接:
转载请注明:http://www.0431gb208.com/sjszjzl/5716.html