(Vision Transformer)AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
ABSTRACT Transformer 아키텍처가 NLP task에서 de-facto standard(사실상 표준, 공인 기관에서 공식적으로 지정한 표준은 아니지만 현재 압도적으로 쓰이는 업계 표준을 의미함)된 반면에, Computer Vision에서의 Transformer 적용은 제한적인 상태이다. Vision에서는, 전반적인 아키텍처를 유지하는 상태에서, attention은 CNN과 결합하여 적용되거나, CNN 내의 특정 구성요소를 대체하는 방식으로 사용된다. 이번 연구팀에서는 이 CNN에 의존할 필요가 없고, 순수히 transformer를 image patch들의 sequence에 직접 적용하는 것이 image classification task들에 매우 잘 작동할 수 있다는 것을 보여준다. 많은 양..
2022.02.19