总结了 PyTorch 中关于数据加载和处理的关键概念,包括 Dataset, DataLoader, Sampler, 和自定义数据集的方法

阅读全文 »

传统的文本识别方法需要先对单个文字进行切割,然后再对单个文字进行识别。CRNN 直接从整张图出发,将图片特征输入 RNN 进行序列学习,最后通过 CTC 计算损失

阅读全文 »

当前的人体姿态估计在深度学习里的发展取得了很大成功,但是在这个领域的神经网络结构变得越来越复杂,也导致对于算法的分析和比较越来越困难。所以作者提出了一个简单但是很有效的 baseline 网络,用来鼓励大家在这个基础之上进行创新同时使用这个 baseline 方法来判断新方法的表现

阅读全文 »

STN 通过网络学习变换参数,并使用双线性插值使得网络可训练,以达到可以动态学习图片变换参数的可能,实现对不同图片的变换。可用于需要姿态校正的任务上,如 OCR 文字摆正,生成高质量的单人人体区域,3 D 数据变换

阅读全文 »