논문리뷰(10)
-
Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering
Abstract Open domain question answering을 위한 generative model들은 external knowledge에 의지하지 않는 채로 경쟁력이 있음을 증명해 왔다. 비록 이러한 접근법이 유망한 방법이지만, 파라미터가 수십억 개에 달하는 모델을 요구하는 방법이며, 이는 train 및 query를 하는 데에 비용이 많이 들게 된다. 이번 논문에서는, 연구팀에서 이러한 모델들이 얼마나 많이 text passage(잠재적으로 정답을 포함하고 있는)들을 retrieving 하는 데에 이점이 있는 지를 조사한다. 연구팀은 Natural Questions and TriviaQA open benchmark들에서 SOTA를 달성하였다. 흥미롭게도, 연구팀은 이 방법을 사용한 성능이 re..
2022.06.21 -
BART: Denoising Sequence-to-Sequence Pre-training for NaturalLanguage Generation, Translation, and Comprehension
Abstract 이번 논문에서는 BART를 소개한다. BART는 seq2seq model을 pre-training시키는 denoising autoencoder이다. BART는 (1) 임의의 noising function으로 텍스트를 손상시키고, (2) original 텍스트를 재구축하기 위한 model을 학습한다. BART는 standard Transformer-based machine translation 아키텍처를 사용하며, 이 아키텍처는 간단함에도 불구하고, BERT와 GPT 및 다른 pre-training 방법들을 일반화 시킨 것으로 보여질 수 있다. BART 연구팀은 수많은 noising 방법들을 평가하며, 그 결과 제일 좋은 성능을 보인 것은 original 문장의 순서를 랜덤하게 shuffl..
2022.03.31 -
KLUE: Korean Language Understanding Evaluation
Abstract KLUE benchmark에 대한 논문이다. 8가지 한국어 NLU task에 대한 모음이 KLUE이며, Topic Classification, Semantic Textual Similarity, Natural Language Inference, Named Entity Recognition, Relation Extraction, Dependency Parsing, Machine Reading Comprehension, Dialogue State Tracking 이렇게 8가지이다. 저작권을 지키면서 scratch에서 다양한 corpora를 써서 모든 task를 구축하였다. 또한 KLUE에 적합한 evaluation metric도 제공한다. Pre-trained 모델인 PLM, KLUE-BER..
2022.03.26 -
RoBERTa: A Robustly Optimized BERT Pretraining Approach
Abstract Language model pretraining은 엄청난 성능 향상으로 연구들을 이끌었지만, 조심스레 다른 접근법들과 비교되고 있다. Training의 계산 비용은 expensive하고, 각기 다른 사이즈의 private dataset들로 훈련되며, hyperparameter 선택은 최종 결과에 엄청난 영향을 끼친다. 많은 주요한 hyperparameter들과 training data size의 영향을 조심스레 비교하는 BERT pretraining에 대한 replication study(이전의 연구들을 약간 다르게 하여 재현, 반복함)를 제시할 것이다. RoBERTa 연구팀에서는 BERT가 많이 undertrained되었으며, 이 BERT 이후에 나온 모든 모델들의 성능을 따라잡거나 역..
2022.03.24 -
Language Models are Unsupervised Multitask Learners
Abstract Question answering, machine translation, reading comprehension, summarization과 같은 자연어 처리 task들은 전형적으로 task-specific한 데이터셋으로 supervised learning의 방식으로 접근한다. 연구팀에서는 언어 모델들이 수백만개의 웹페이지들의 새로운 데이터셋인 WebText로 훈련될 때 supervision없이 이 task들을 학습하기 시작한다는 것을 증명한다. Document에 question이 더해진 조건에서, 언어 모델로 생성된 answer들은 CoQA 데이터셋에서 55 F1 score를 달성하는데, 이는 baseline system들 중 4분의 3정도와 성능이 비슷하거나, 더 높아진 결과이다.(1..
2022.03.14 -
Improving Language Understanding by Generative Pre-Training
Abstract Natural language understanding(NLU, 자연어 이해, 컴퓨터가 사용자의 실제 의미를 추론함)은 textual entailment(두 문장이 주어졌을 때, 첫 번째 문장이 두 번째 문장을 수반하는가 혹은 위배되는가?), question answering(질의 응답), semantic similarity assessment(문서, 용어 사이의 유사성을 평가함), document classification(문서 분류, 문서에 레이블을 할당하는 것임)등의 다양하고 넓은 범위의 task들로 이루어진다. 비록 거대한 unlabeled text corpora들이 방대하게 존재하지만, 이 구체적인 task들을 학습하기 위한 labeled data는 부족하며, 이로 인해 구분되어..
2022.03.10