Naver BoostCamp AI Tech 3기(27)
-
[MRC] 01. MRC Intro & Python Basics
MRC에 대해 간략하게 묘사할 수 있는 사진이다. MRC는 Machine Reading Comprehension의 줄임말로, 기계 독해를 의미한다. 마치 국어 비문학 문제처럼, 지문이 주어지면 그 지문을 읽고, 질문에 대한 답변을 하는 것이다. 이 MRC는 크게 3가지 종류로 나눌 수 있다. 1) Extractive Answer Datasets 2) Descriptive/Narrative Answer Datasets 3) Multiple-choice Datasets 여기서 1) Extractive Answer Datasets의 경우는 question에 대한 답이 주어진 context 내의 span으로 주어진다. 앞으로 진행할 MRC 대회의 경우 이 1)에 속한다고 볼 수 있다. 예시 데이터셋으로 SQuA..
2022.04.25 -
BART: Denoising Sequence-to-Sequence Pre-training for NaturalLanguage Generation, Translation, and Comprehension
Abstract 이번 논문에서는 BART를 소개한다. BART는 seq2seq model을 pre-training시키는 denoising autoencoder이다. BART는 (1) 임의의 noising function으로 텍스트를 손상시키고, (2) original 텍스트를 재구축하기 위한 model을 학습한다. BART는 standard Transformer-based machine translation 아키텍처를 사용하며, 이 아키텍처는 간단함에도 불구하고, BERT와 GPT 및 다른 pre-training 방법들을 일반화 시킨 것으로 보여질 수 있다. BART 연구팀은 수많은 noising 방법들을 평가하며, 그 결과 제일 좋은 성능을 보인 것은 original 문장의 순서를 랜덤하게 shuffl..
2022.03.31 -
KLUE: Korean Language Understanding Evaluation
Abstract KLUE benchmark에 대한 논문이다. 8가지 한국어 NLU task에 대한 모음이 KLUE이며, Topic Classification, Semantic Textual Similarity, Natural Language Inference, Named Entity Recognition, Relation Extraction, Dependency Parsing, Machine Reading Comprehension, Dialogue State Tracking 이렇게 8가지이다. 저작권을 지키면서 scratch에서 다양한 corpora를 써서 모든 task를 구축하였다. 또한 KLUE에 적합한 evaluation metric도 제공한다. Pre-trained 모델인 PLM, KLUE-BER..
2022.03.26 -
RoBERTa: A Robustly Optimized BERT Pretraining Approach
Abstract Language model pretraining은 엄청난 성능 향상으로 연구들을 이끌었지만, 조심스레 다른 접근법들과 비교되고 있다. Training의 계산 비용은 expensive하고, 각기 다른 사이즈의 private dataset들로 훈련되며, hyperparameter 선택은 최종 결과에 엄청난 영향을 끼친다. 많은 주요한 hyperparameter들과 training data size의 영향을 조심스레 비교하는 BERT pretraining에 대한 replication study(이전의 연구들을 약간 다르게 하여 재현, 반복함)를 제시할 것이다. RoBERTa 연구팀에서는 BERT가 많이 undertrained되었으며, 이 BERT 이후에 나온 모든 모델들의 성능을 따라잡거나 역..
2022.03.24 -
Language Models are Unsupervised Multitask Learners
Abstract Question answering, machine translation, reading comprehension, summarization과 같은 자연어 처리 task들은 전형적으로 task-specific한 데이터셋으로 supervised learning의 방식으로 접근한다. 연구팀에서는 언어 모델들이 수백만개의 웹페이지들의 새로운 데이터셋인 WebText로 훈련될 때 supervision없이 이 task들을 학습하기 시작한다는 것을 증명한다. Document에 question이 더해진 조건에서, 언어 모델로 생성된 answer들은 CoQA 데이터셋에서 55 F1 score를 달성하는데, 이는 baseline system들 중 4분의 3정도와 성능이 비슷하거나, 더 높아진 결과이다.(1..
2022.03.14 -
Improving Language Understanding by Generative Pre-Training
Abstract Natural language understanding(NLU, 자연어 이해, 컴퓨터가 사용자의 실제 의미를 추론함)은 textual entailment(두 문장이 주어졌을 때, 첫 번째 문장이 두 번째 문장을 수반하는가 혹은 위배되는가?), question answering(질의 응답), semantic similarity assessment(문서, 용어 사이의 유사성을 평가함), document classification(문서 분류, 문서에 레이블을 할당하는 것임)등의 다양하고 넓은 범위의 task들로 이루어진다. 비록 거대한 unlabeled text corpora들이 방대하게 존재하지만, 이 구체적인 task들을 학습하기 위한 labeled data는 부족하며, 이로 인해 구분되어..
2022.03.10