PraNet:Learning Feature Pyramids for Human Pose Estimation
PyraNet 认为人体姿态的估计的难点在于不同关节部位的尺度不同,如上图 (a) 手和头的比例大于脚的比例,在(b)中脚的比例大于头的比例,为此,PyraNet 基于 Hourglass 网络,设计金字塔子网络去提取关节的多尺度信息,提升人体姿态估计的准确性
PyraNet 认为人体姿态的估计的难点在于不同关节部位的尺度不同,如上图 (a) 手和头的比例大于脚的比例,在(b)中脚的比例大于头的比例,为此,PyraNet 基于 Hourglass 网络,设计金字塔子网络去提取关节的多尺度信息,提升人体姿态估计的准确性
Pose Attention 是一个基于 hourglass 改进的网络,主要创新是同时结合了整体注意力和肢体部分注意力,整体注意力针对的是整体人体的全局一致性,部分注意力针对不同身体部分的详细描述。因此,能够处理从局部显著区域到全局语义空间的不同粒度内容,同时引入条件随机场 (CRF) 来进行空间相关建模,而不是使用全局 Softmax
OpenPose 是一个 down-up 的多人姿态检测模型,一次性输出所有人的关节点 heatmap 预测,为了区分同一个人的关节点,模型同时输出关键点之间的亲和力 PAFs,最终通过求二部图,得到预测结果
MSSA 认为尺度和遮挡是影响人体姿态估计的关键,因此提出多尺度监督网络 (MSS-net) 和多尺度回归网络 (MSR-net) 提升网络对不同尺度人体的学习能力
MSPN 是对 Hourglass 的改进,可用于单目标的人体姿势检测,它认为 Hourglass 的重复降采样 + 不变的通道数导致信息损失,它希望是降采样时,通过更多的通道数将信息补充回来,所以借鉴 CPN 修改了 Hourglass 的所有 satge
Hourglass 认为识别脸和手是需要局部信息的,而整体的姿态识别需要整个身体的信息。因此,整合各种尺度的信息是必要的。采取重复的自底向上、自顶向下模块学习图片特征,相当于使用不同的感受野观察图片,结合中间监督,加速模型收敛
HRNet 设计了并行的多分辨率分支,提取特征的同时,保持高分辨率,同时设计不同分支之间的特征融合,获得多尺度特征
为解决传统 SPPE 处理密集姿态估计带来的偏差,CrowdPose 设计了 Joint Candidate SPPE 生成众多的候选关节点,然后通过 KM (Keypoint Match) 算法匹配行人实例和候选关节点
DeepPose 是人体姿势估计 (HPE) 的鼻祖,类似 AlexNet 对于 CNN 的作用。DeepPose 不构建关键点之间的关系,直接利用强大的 DCNN 回归出所有关键点 (x, y)
CPN 网络使用 top-down 模式进行多人姿势估计,即先检测出单个人,再使用 CPN 进行关键点检测。CPN 提出两个子网络检测人体关键点,其中 GlobalNet 是一个功能金字塔网络,可以成功地定位 “简单” 的关键点(如眼睛和手),但可能无法准确识别被遮挡或看不见的关键点。而 RefineNet 尝试通过整合来自 GlobalNet 的多个尺度的特征,通过扩大感受野的方式以及在线的关键点难例挖掘损失来优化对难例关键点的检测