时间知识
除了探索 DALL·E 关于随空间变化的概念的知识外,OpenAI 还探索了其随时间变化的概念的知识。
文本 + 图像提示:20 年代发明的电话。
总结:方法和先前工作DALL·E 是一个仅有解码器的 Transformer 架构,它可以接收 1280 个 token 的文本和图像作为单个流(文本为 256 个 token,图像为 1024 个 token),并对它们全部进行自动回归建模。
它的 64 个自注意力层中的每一个都具有注意力 mask,使每个图像 token 都可以匹配所有文本 token。DALL·E 对文本 token 使用标准的因果 mask,以行、列或卷积注意模式对图像 token 使用稀疏注意,具体取决于层数。
OpenAI 计划在下一篇论文中提供有关 DALL·E 架构和训练过程的详细信息。
与 VQVAE-2 中使用的 rejection sampling 类似,OpenAI 使用 CLIP 对每个文本生成的 512 个采样中的前 32 个进行排名。此过程也可以看作是一种语言指导的搜索,会对样本质量产生巨大影响。
GPT-3 已经向我们展示,可以用语言来指示大型神经网络执行各种文本生成任务。Image GPT 则表明,同样类型的神经网络也可以用来生成高保真的图像。OpenAI 进一步扩展了这些发现,以表明通过语言操纵视觉概念是触手可及的。
与 GPT-3 一样,DALL·E 是一种 Transformer 语言模型。OpenAI 认为,涉及生成模型的工作可能会产生重大而广泛的社会影响。因此未来,OpenAI 会计划分析像 DALL·E 这样的模型如何与社会问题联系起来,例如对某些工作流程和专业的经济影响,模型输出中可能存在的偏见以及该技术所隐含的长期道德挑战。
最后,Henry AI Labs 在 YouTube 上分享了一个视频,简要介绍了 OpenAI 的 DALL-E 模型,并表示 “希望可以清楚说明深度神经网络中文本和图像是如何作为张量统一的。”
由于是非官方解释,仅供参考。
最后,大家对 DALL·E 这个的神经网络模型有什么应用上的期待呢?二维设计师?
又会觉得它会引导什么 AI 革命吗?又或者觉得它会存在很多不可避免的限制?