300x250 vision transformer(ViT)1 Vision Transformer(ViT) 설명 with Query Key Value Vision Transformer(ViT) Vision transformer는 2021년에 "AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE"이라는 논문에서 제안된 것으로, image classification에 그 목적이 있다. NLP 분야에서 SOTA 성능을 달성한 transformer를 이미지에도 적용하는 방법을 소개하고 있다. transformer의 주요 개념 중 하나인 self-attention이 vision task에서는 어떻게 적용될까? 바로 각 픽셀이 다른 픽셀에 어떻게 영향을 주는가?에 대한 self-attention을 구한다. 왼쪽 아래가 원래의 이미지를 9개의 patch로 잘라둔 것이다. 이미지 pa.. 2023. 5. 17. 이전 1 다음