DDIM:Denoising Diffusion Implicit Models
去躁步进可以比 1 大,生成图片更快
(图片)-> 噪声 -> 随机图片,随机图片
去躁步进可以比 1 大,生成图片更快
(图片)-> 噪声 -> 随机图片,随机图片
分别使用 CLIP、VAE 提取文本编码、图像编码,然后使用 transformer 使用自注意力学习。推理时,使用 CLIP 提取文本编码,然后输入
transformert 提取图片编码,最后使用 dVAE decoder 生成图片
本文是一个基于 CLIP 引导的 DDPM 生成模型
通过 ControlNet 可以向训练好的生成模型注入控制条件,这些条件可以是 Seg、Sketch、pose 等
(图片)+ 条件 ->DDPM-> 条件图片,条件图片
文本编码 +(图像编码)-> 自回归 -> 新图像编码 ->dVAE decoder-> 条件图片,文生图
首先生成多个关键帧,然后在帧之间采样,生成视频
通过 mask 掉注意力,避免自回归生成速度慢的问题
文本编码 +(图片编码)-> 自回归 -> 新图像编码 ->dVAE decoder-> 条件图片,文生图
随机添加条件训练,最终结果是条件引导图片和无条件引导图片的线性组合。不需要单独训练引导器
(图片)+(条件)-> 噪声 + 条件 -> 条件图片,条件图片
局部图像编辑,是指仅对用户指定的区域进行编辑,同时保留图像的其余部分,生成图像要求全局上看起来一致连贯,使用 Mask 控制文本生效的区域
(图片)+Mask + 文本 ->DDPM-> 条件图片,文生图