分别使用 CLIP、VAE 提取文本编码、图像编码,然后使用 transformer 使用自注意力学习。推理时,使用 CLIP 提取文本编码,然后输入
transformert 提取图片编码,最后使用 dVAE decoder 生成图片

  1. 文本 ->CLIP-> 文本编码;
  2. 图像 ->dVAE encoder-> 图像编码;
  3. 文本编码 +(图像编码)-> 自回归 -> 新图像编码 ->dVAE decoder-> 条件图片,文生图
阅读全文 »

局部图像编辑,是指仅对用户指定的区域进行编辑,同时保留图像的其余部分,生成图像要求全局上看起来一致连贯,使用 Mask 控制文本生效的区域
(图片)+Mask + 文本 ->DDPM-> 条件图片,文生图

阅读全文 »