数据集浏览是个比较麻烦的事情。尤其是数据集比较大的时候。
npy (numpy array) ,h5 文件是两种常见的数据存储方式。 h5 文件的缺点是很容易产生数据损坏。笔者使用的时候多次遇见 h5 文件打不开的问题。 npy 文件在读取速度,文件传输方面具有很明显的优势。缺点是一次性加载到内存中,如果服务器不行,很容易爆掉。
常见的图像数据集一般是将 label 和 image 分开放。例如 COCO 等。这样一来,也可以用文件浏览器去查看图片,可以快速的观察图片的特点。但一般情况下,我们不会在本地的电脑上查看图片,而是更多的在服务上操作数据集。
2024,结合 torch,我感觉还是 matplotlib 直接绘图会方便一些。matplotlib 直接绘图一般是展示单张图片。但是如果利用 subplot,可以同时展示更多图片。如果用了 opencv,可以将部分标签值打印上去。不过也有缺点:如果使用的是远程服务器,生成图片的传输过程需要占用较多的带宽。 具体采用什么方式,还得自己做判断呐!