Featured image of post Reimplment MAE Work Path.md

Reimplment MAE Work Path.md

如何应用 MAE,记录一下全过程

这两天我一直在尝试复现 MAE,与我的数据进行结合,来做出一点新的东西。

Offical MAE

我首先从 meta 的官方仓库开始。我成功跑通了 demo,但是发现仍然有些问题。submitit 是 meta 开源的集群任务提交工具。这个代码使用的应该是 meta 内部使用的训练集群,基于 slurm。我无法访问这个集群。而且部署slurm 集群可能很麻烦。因此作罢。

Tips

使用开源工具是对的。内部的私有工具无法迁移到下一个团队,重新学习的成本比较高。开源工具一般没有这个限制,可以打通切换团队后的协作。

Dockerfile

1
2
3
4
5
6
7
8
9
FROM pytorch/pytorch:1.11.0-cuda11.3-cudnn8-devel

RUN pip install jupyterlab "numpy<1.20" "timm==0.4.5" matplotlib -i https://mirrors.sustech.edu.cn/pypi/simple

RUN rm /etc/apt/sources.list.d/cuda.list && \
  rm /etc/apt/sources.list.d/nvidia-ml.list && \
  apt-get update && apt-get install -y wget

CMD ["jupyter", "lab", "--ip=0.0.0.0", "--port=8888", "--no-browser", "--allow-root", "--NotebookApp.token='abcd'"]

使用上面这个 Dockerfile 可以跑通环境。

MAE-pytorch

之后我想使用 pytorch lightning 来跑一下 MAE。现在训练的显卡够用,但是 pytorch 直接写 DDP 比较麻烦。于是我参考了 mae-pytorch

但是训练之后发现,似乎对 lightning 的适配不是很好。我调整了 num_gpus 参数,训练仍然不顺。

https://gist.github.com/Svtter/f4416107d99d69d3a3c48a6eae918411

1
2
3
4
5
6
7
8
9
File /workspace/mae.py:145, in MaskedAutoencoderLIT.generate_grid_of_samples(self, true_images, pred_patch, mask)
    144 pred_images = res[sample_indices][:, [3, 2, 1]]
--> 145 true_image_grid = true_images[sample_indices][:, [3, 2, 1]]
    147 grid_images = torch.cat([true_image_grid, pred_images], dim=0)

RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1
Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.

ImageNet 的问题

而且 ImageNet 我本地没有相关的数据,重新下载也是比较麻烦。(虽然可以用 pretrain weights)。

我下载了 tiny-imagenet,但是没能起到作用。

我尝试了一下,能跑通 MNIST + resize,也就是 Tutorial.ipynb 的内容。因为并行训练的重新调优比较麻烦,我暂时放下,再去看看其他的库。

ImageNet 体积比较大,大家一般会使用小型 imagenet 来做一些测试。例如 yolo-v5 issue 中所表述的。

imagenet-100

imagenet 往往太大了,我们可用一些小型的数据集去验证模型;但是 shape 和文件结构需要与 imagenet 一致。

1
2
3
4
5
6
import kagglehub

# Download latest version
path = kagglehub.dataset_download("ambityga/imagenet100")

print("Path to dataset files:", path)

Dockerfile

1
2
3
4
5
6
7
8
9
FROM pytorch/pytorch:2.4.1-cuda11.8-cudnn9-devel

WORKDIR /workspace
COPY requirements.txt .
RUN pip install -r requirements.txt -i https://mirrors.sustech.edu.cn/pypi/web/simple && \
  pip install jupyterlab matplotlib


CMD ["jupyter", "lab", "--ip=0.0.0.0", "--port=8888", "--no-browser", "--allow-root", "--NotebookApp.token='abcd'"]

solo learn

solo-learn 是发表在 IJML 的一个工作。主要实现了 self-regression 的相关方法。他们使用了一个我之前没有使用过的库NVIDIA/DALI

我使用了 MAE_pytorch 的 Dockerfile,做了一些调整。

Start

做分类任务,参考文档 offline-linear-eval.

首先是文档有点问题,from solo.utils ... 应该改为 from solo.data...

这个库使用了 hydra 以及 omegaconf

hydra 可以比较有效的去处理配置重叠的情况。我之前写类似的东西,都是一个一个类,然后不停的嵌套嵌套。这样看,hydra 确实方便很多。

omegaconf 是一个使用 hydra 配置文件的工具;由于 hydra 配置返回的是 DictConfig,因此读取配置的时候需要使用 dict 数据结构进行访问。

不过我觉得实际上用处不是很大。除非项目很庞大,否则增加了上手的成本。

solo-learn 基本上已经不太维护了。我尝试下载了 imagenet-100,正在测试中。

尝试执行了

1
2
3
4
5
6
7
8
#!/bin/bash

python3 main_pretrain.py \
    --config-path scripts/pretrain/imagenet-100/ \
    --config-name barlow.yaml
    # add new arguments (e.g. those not defined in the yaml files)
    # by doing ++new_argument=VALUE
    # pytorch lightning's arguments can be added here as well.

遇到 cuda 内存不够用的情况。放弃了。

Dockerfile

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
FROM pytorch/pytorch:2.4.1-cuda11.8-cudnn9-devel

WORKDIR /workspace
COPY requirements.txt .
RUN pip install -r requirements.txt -i https://mirrors.sustech.edu.cn/pypi/web/simple && \
  pip install jupyterlab matplotlib

# RUN pip3 install .[dali,umap,h5] --extra-index-url https://developer.download.nvidia.com/compute/redist

CMD ["jupyter", "lab", "--ip=0.0.0.0", "--port=8888", "--no-browser", "--allow-root", "--NotebookApp.token='abcd'"]

Tips

直接使用 checkpoints 可以节省大量的训练时间。手里的卡更多的应该去用来 fine tune,或者训练自己的数据集。从头开始训练(我之前的做法)往往是不经济且速度慢的。

huggingface transformers

很出名的一个库。很多朋友都使用这个库来尝试了构建了自己的大型模型。

我想 MAE 应该是组成部分之一,我想借着这个机会使用一下看。

我尝试了一下 open sources models by huggingface。

transformers 使用起来比较简单。zero-shot image classification 入门速度很快。

使用 vit_mae,可以通过这个官方文档

使用预训练权重的 MAE

这是 huggingface 官方提供的源代码,我直接贴在这里了。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
from transformers import ViTFeatureExtractor, ViTForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

feature_extractor = ViTFeatureExtractor.from_pretrained("google/vit-base-patch16-224")
model = ViTForImageClassification.from_pretrained("google/vit-base-patch16-224")

inputs = feature_extractor(image, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

# model predicts one of the 1000 ImageNet classes
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计