RoBERTa: A Robustly Optimized BERT Pretraining Approach
Abstract Language model pretraining은 엄청난 성능 향상으로 연구들을 이끌었지만, 조심스레 다른 접근법들과 비교되고 있다. Training의 계산 비용은 expensive하고, 각기 다른 사이즈의 private dataset들로 훈련되며, hyperparameter 선택은 최종 결과에 엄청난 영향을 끼친다. 많은 주요한 hyperparameter들과 training data size의 영향을 조심스레 비교하는 BERT pretraining에 대한 replication study(이전의 연구들을 약간 다르게 하여 재현, 반복함)를 제시할 것이다. RoBERTa 연구팀에서는 BERT가 많이 undertrained되었으며, 이 BERT 이후에 나온 모든 모델들의 성능을 따라잡거나 역..
2022.03.24