年轻人起来冲

ILVR：Conditioning Method for Denoising Diffusion Probabilistic Models

发表于 2023-11-13 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 3.2k 阅读时长 ≈ 3 分钟

无需显式训练，只需要在测试时通过分析去躁过程生成图片和条件图片的低级特征，引导生成图片过程
(图片)-> 噪声 + 条件（图片）-> 条件图片，条件图片

发表于 2023-11-12 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 745 阅读时长 ≈ 1 分钟

在 PixelCNN 的基础上进一步改进掩码卷积，解决 "盲区" 问题
第一个像素 -> 完整图片，随机图片

发表于 2023-11-10 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 511 阅读时长 ≈ 1 分钟

(图片)+ 文本 ->DDPM-> 条件图片，文生图

发表于 2023-11-09 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 4.2k 阅读时长 ≈ 4 分钟

非监督的学习过程，由一个生成网络与一个判别网络组成，其中生成网络生成样本，判别网络区分的是生成样本还是真实样本，在训练后期判别器判定概率接近 0.5，然后拿生成器去生成图像
噪声 -> 随机图片，随机图片

发表于 2023-11-06 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 1.5k 阅读时长 ≈ 1 分钟

通过 mask 掉注意力，在同一个网络内实现文生图、图生文

发表于 2023-11-04 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 1.8k 阅读时长 ≈ 2 分钟

DragGan 通过在图片定义起始点、目标点，实现起始点所在物体向目标点移动，实现图片的编辑
图 + 交互 -> 条件图片，条件图片

发表于 2023-11-03 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 2.4k 阅读时长 ≈ 2 分钟

通过交互点控制图片生成
图 + 交互 -> 条件图片，图生图

发表于 2023-11-02 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 4.2k 阅读时长 ≈ 4 分钟

训练一个 Semantic 高级语义编码器，在训练 DDIM 时作为条件输入，通过控制高级语义信息的不同位置，控制图片生成效果
(图片)+ 高级语义 -> 噪声 + 高级语义 -> 条件图片，条件图片

发表于 2023-10-31 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 924 阅读时长 ≈ 1 分钟

(图片)+ 类别 ->DDPM-> 条件图片，条件图片

发表于 2023-10-29 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 13k 阅读时长 ≈ 12 分钟

扩散模型包括两个过程，加躁过程通过定义参数计算，不包括学习参数，去躁过程使用 Unet 计算噪声，通过计算加躁前和去躁后的损失，驱动网络训练。无论加躁去躁都是在通过数学证明得到其分布，然后通过 “重参数化” 技术实现采样
(图片)-> 噪声 -> 随机图片，随机图片