相当于展开版的 RBM,即分为编码器和解码器 2 个网络,但是由于 z 是依赖于输入的,所以随机生成 z 输入解码器,一般得不到有意义的图片,故使用时只使用编码器,用于数据降维和特征抽取

阅读全文 »

一直以来都是使用卷积来处理图像数据,即使后面提出空洞卷积、特征金字塔来、注意力机制缓解其感受野受限,但是还是使用卷积计算去提取图像特征,受 NLP 中 transformer 的影响,VIT 将图像拆分为块 (patch),并将图像数据学习转为图像块序列的学习问题,这里图像块 (patches) 的处理方式同 NLP 的标记 (tokens)

阅读全文 »

为解决原始 transformer 在全局上构建注意力的成本巨大问题,Swin Transformer 引入 WIndows 的概念,在每个 Windows 内构建全局注意力,使得成本由平方变为线性。同时借鉴 CNN 的层次特征,设计多层次的 transformer block,提取图像的多尺度特征

阅读全文 »

语义分割是对像素进行分类,而像素的类别标签是由它所在的目标的类别标签决定的,通常的上下文信息是基于像素之间的,OCRNet 根据类别数量,基于 "自注意力机制" 显式地增强来自同一物体的像素贡献

阅读全文 »

一直以来,分割都是在 FCN 的基础上搭建 Encoder-Decoder 进行的,基于 CNN 的缺点,虽然有设计方法取增大感受野、引入注意力机制,但还是没有背离这个规则。SETR 以 transformer 替代 CNN 的 Encoder 部分,将 2D 图片问题转为序列注意力构建问题,能在保持分辨率不变的情况下进行特征学习,最后使用 CNN 类似的金字塔结构还原分辨率

阅读全文 »