Computer Vision

Swin Transformer 개요기존의 한계언어와 비전, 두 Modality 간의 차이스케일- 언어와 달리 이미지에는 다양한 '물체의 크기' 요소가 존재해상도- 단어로 구성된 문장은 그 길이가 상대적으로 짧음, 반면 이미지는 비교적 높은 해상도를 가짐- 세밀한 예측이 필요한 Sementic segmentation 등의 다양한 비전 task 존재- Self-attention 계산 복잡도가 이미지 크기의 제곱에 비례하므로 고해상도 이미지 처리는 어려움이러한 문제를 극복하기 위해 Swin Transformer 제안-  이미지 분류, Object Deteciton, Sementic Segmentation 등의 범용 Backbone으로 사용할 수 있음 의의(자세한 내용은 아래 구조에 대한 설명에서 더 자세하게 ..
ViT 개요의의ViT는 Transformer 인코더를 크게 변경하지 않고 이미지 처리에 적용- 기존: Attention 기법을 사용할 때 CNN과 함께 사용하거나, CNN 구조를 유지하면서 CNN 특정 구성 요소 대체에 사용- Attention만을 사용한 모델도 있었지만 CNN 기반 모델의 성능을 넘기지 못함ViT에서는 Transformer만으로 CNN 기반 모델의 성능을 뛰어넘음 장단점장점확장성이 좋다.- Tansformer 구조를 거의 그대로 사용하기 때문- 기존 Attention 기반 모델은 이론적으로 뛰어나지만, 특성화된 Attention 패턴으로 다른 네트워크에 확장하기 어려웠음Large Scale 학습에 우수하다.- Transformer의 장점을 그대로 흡수전이학습 시에 CNN보다 학습에 적은..
kk_______yy
'Computer Vision' 카테고리의 글 목록