논문/Multimodal (10) 썸네일형 리스트형 LayoutLM: Pre-training of Text and Layout for Document Image Understanding Abstract Pre-training 기법은 다양한 NLP 작업에서 최근 몇 년 간 효과적이라고 검증되었다. 그러나 대부분의 NLP application은 text-level에 집중되어있고 문서의 layout이나 style은 무시되었다. 본 논문에서는 LayoutLM을 제안하며, text와 문서 image로부터 scan된 layout 정보의 상호작용을 효과적으로 연결한다. 또한 image feature를 leverage하여 단어의 visual 정보를 모델에 잘 녹였다. 이는 최초로 text와 layout 정보를 single framework에서 document level pre-training을 jointly하게 수행한 몇몇 downstream task에서 비약적인 성능 향상을 보였다. 1. Intro.. BEIT: BERT Pre-Training of Image Transformers Abstract BEIT는 Bidirectional Encoder representation form Image Transfomers의 약자로 self-supervised vision representation model이다. NLP에서의 BERT처럼 vision Transformers의 pretrain task로 masked image modeling을 제안한다. 각 image는 image patches (예를들어 16×16 pixels)와 visual tokens 두 가지로 분류된다. 우선, image를 visual token으로 "tokenize"한다. 이후 임의로 몇몇 image patch를 mask한 후 Transformer backbone에 넣어줍니다. Pre-training objective.. 이전 1 2 다음