Vision Transformer入門 Computer Vision Library

本日読了。

良書。Transformerの画像への応用（ViT）について、最先端がわかる。

ViTおよびその応用は、画像系タスク全般で好成績を獲得している。しかしながら、ViT最強ではなく、旧来のCNNも、ViTアンチテーゼとしてのMLP（Attention不要論）も、それぞれ一長一短であり、三国時代であると述べる。

ViTは、CNNとの比較において、事前学習データ量を増やすことで精度が向上し、物体の形状を捉えやすい（一方、CNNは物体のテクスチャに反応しやすい）。