年轻人起来冲

VDM

发表于 2023-12-10 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 1k 阅读时长 ≈ 1 分钟

就是原生 DDPM 过程，但是为了处理 3 D 数据，提出一个时空注意力分离的 3 D Unet 网络，最后使用条件引导自回归生成比输入更长帧数

发表于 2023-12-10 更新于 2025-02-02 分类于 2-深度学习， F-多模态模型本文字数： 2k 阅读时长 ≈ 2 分钟

CLIP 通过文本 - 图像对实现对模型预训练，上图是是 3 个文本 - 图像对，每个文本 - 图像对由一段文本 + 一张片表示，文本描述了这个图片的内容（对象类别），CLIP 模型收集 **4 亿（400million）个文本 - 图像对

发表于 2023-12-09 更新于 2025-03-01 分类于 2-深度学习， C-语言模型， 4-语言大模型LLM 本文字数： 492 阅读时长 ≈ 1 分钟

发表于 2023-12-09 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 4.1k 阅读时长 ≈ 4 分钟

和 AE 生成样本的过程类似，但是引入对隐变量的约束，利用高斯混合模型 (GMM) 的概念去逼近真实样本的分布

发表于 2023-12-06 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 390 阅读时长 ≈ 1 分钟

发表于 2023-12-05 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 1.1k 阅读时长 ≈ 1 分钟

StyleGAN 通过映射网络解决 “特征纠缠” 问题，通过向不同网络层输入噪声，控制不同层次的特征，比如可以实现单独控制头发的功能

发表于 2023-12-03 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 378 阅读时长 ≈ 1 分钟

利用 GAN 训练一个 text->image 的网络，图片表达了所给 text 的信息（越来越接近真实）

发表于 2023-12-03 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 1.1k 阅读时长 ≈ 1 分钟

StableDiffusion 利用 autoencoder 模型将图片编码到潜在空间，然后使用 classfier-free 的 DM 模型在潜在空间进行 diffusion，假设了 DM 模型生成速度慢的问题，为落地提供帮助

发表于 2023-12-01 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 2.2k 阅读时长 ≈ 2 分钟

发表于 2023-11-30 更新于 2025-02-02 分类于 2-深度学习， B-视觉模型， 2-高级视觉任务GAN ，生成图片本文字数： 1k 阅读时长 ≈ 1 分钟