ELECTRA: PRE-TRAINING TEXT ENCODERSAS DISCRIMINATORS RATHER THAN GENERATORS
ABSTRACT BERT와 같은 Masked language modeling(MLM) pre-training 방법들은 input을 몇몇 [MASK] 토큰으로 교체함으로써 손상시키고, 모델이 원래 토큰을 만들어내도록 훈련시킨다. 비록 이 방법들이 downstream NLP task들로 전이시킬 때 좋은 결과를 창출하지만, 이 방법들이 효과적이기 위해서는 일반적으로 많은 계산량이 요구된다. 대안책으로, 연구팀에서는 더 sample-efficient한 pre-training task인 소위 “replaced token detection”을 제안한다. 이는 input을 masking하는 대신에, 몇몇 토큰들을 작은 generator network 내에서 샘플링 된 그럴 듯한 대체어로 교체한다. 철저한 실험을 통..
2022.07.06