
https://arxiv.org/pdf/2304.00685 초록(abstract)대부분의 시각 인식 연구는 딥 뉴럴 네트워크(DNN) 훈련에서 군중이 라벨링한 데이터에 크게 의존하며, 각각의 시각 인식 작업에 대해 DNN을 훈련시키는 경우가 많아 매우 번거롭고 시간이 많이 소요되는 시각 인식 패러다임을 형성하게 됩니다. 이러한 두 가지 문제를 해결하기 위해, 최근에는 웹 스케일 이미지-텍스트 쌍에서 풍부한 시각-언어 상관관계를 학습하고, 단일 Vision-Language Model(VLM)로 다양한 시각 인식 작업에 대한 제로샷 예측을 가능하게 하는 VLM이 집중적으로 연구되고 있습니다. 본 논문은 다양한 시각 인식 작업을 위한 VLM에 대한 체계적인 리뷰를 제공합니다. 리뷰 내용은 다음과 같습니다:시..