
Swin Transformer 개요기존의 한계언어와 비전, 두 Modality 간의 차이스케일- 언어와 달리 이미지에는 다양한 '물체의 크기' 요소가 존재해상도- 단어로 구성된 문장은 그 길이가 상대적으로 짧음, 반면 이미지는 비교적 높은 해상도를 가짐- 세밀한 예측이 필요한 Sementic segmentation 등의 다양한 비전 task 존재- Self-attention 계산 복잡도가 이미지 크기의 제곱에 비례하므로 고해상도 이미지 처리는 어려움이러한 문제를 극복하기 위해 Swin Transformer 제안- 이미지 분류, Object Deteciton, Sementic Segmentation 등의 범용 Backbone으로 사용할 수 있음 의의(자세한 내용은 아래 구조에 대한 설명에서 더 자세하게 ..