Vision Transformer入門 Computer Vision Library

本日読了。

良書。Transformerの画像への応用(ViT)について、最先端がわかる。

ViTおよびその応用は、画像系タスク全般で好成績を獲得している。しかしながら、ViT最強ではなく、旧来のCNNも、ViTアンチテーゼとしてのMLP(Attention不要論)も、それぞれ一長一短であり、三国時代であると述べる。

ViTは、CNNとの比較において、事前学習データ量を増やすことで精度が向上し、物体の形状を捉えやすい(一方、CNNは物体のテクスチャに反応しやすい)。