年轻人起来冲

DDIM：Denoising Diffusion Implicit Models

发表于 2023-10-29 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 5.5k 阅读时长 ≈ 5 分钟

去躁步进可以比 1 大，生成图片更快
(图片)-> 噪声 -> 随机图片，随机图片

发表于 2023-10-27 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 2.9k 阅读时长 ≈ 3 分钟

分别使用 CLIP、VAE 提取文本编码、图像编码，然后使用 transformer 使用自注意力学习。推理时，使用 CLIP 提取文本编码，然后输入
transformert 提取图片编码，最后使用 dVAE decoder 生成图片

发表于 2023-10-26 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 2.4k 阅读时长 ≈ 2 分钟

本文是一个基于 CLIP 引导的 DDPM 生成模型

发表于 2023-10-24 更新于 2025-02-02 分类于 2-深度学习， D-深度学习部署本文字数： 1.8k 阅读时长 ≈ 2 分钟

发表于 2023-10-24 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 2.8k 阅读时长 ≈ 3 分钟

通过 ControlNet 可以向训练好的生成模型注入控制条件，这些条件可以是 Seg、Sketch、pose 等
(图片)+ 条件 ->DDPM-> 条件图片，条件图片

发表于 2023-10-22 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 1.7k 阅读时长 ≈ 2 分钟

文本编码 +（图像编码）-> 自回归 -> 新图像编码 ->dVAE decoder-> 条件图片，文生图

发表于 2023-10-20 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 1.3k 阅读时长 ≈ 1 分钟

首先生成多个关键帧，然后在帧之间采样，生成视频

发表于 2023-10-19 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 1.6k 阅读时长 ≈ 1 分钟

通过 mask 掉注意力，避免自回归生成速度慢的问题
文本编码 +(图片编码)-> 自回归 -> 新图像编码 ->dVAE decoder-> 条件图片，文生图

发表于 2023-10-16 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 1.7k 阅读时长 ≈ 2 分钟

随机添加条件训练，最终结果是条件引导图片和无条件引导图片的线性组合。不需要单独训练引导器
(图片)+（条件）-> 噪声 + 条件 -> 条件图片，条件图片

发表于 2023-10-16 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 1.8k 阅读时长 ≈ 2 分钟

局部图像编辑，是指仅对用户指定的区域进行编辑，同时保留图像的其余部分，生成图像要求全局上看起来一致连贯，使用 Mask 控制文本生效的区域
(图片)+Mask + 文本 ->DDPM-> 条件图片，文生图