일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 딥러닝
- 부스트캠프
- append()
- Java Script # == # === # difference # 차이
- 조건문 큰 수부터 입력받아야하는 이유
- html
- 1일차
- 변수
- false
- Python
- 합집합
- 정보를 담을 수 있는 그릇
- 조지 불
- del()
- 변수와 입출력
- pop()
- 차집합
- a=1
- index()
- 귀도 반 로섬
- 변할 수 있는
- null # undefined
- 그룹 # 그룹 해체 # 단축키 #figma #Figma
- insert()
- 불리안
- input()
- 리스트와 차이점
- 성적 입력받기
- 입출력
- 파이썬
- Today
- Total
I about me
[논문리뷰] BART: Denoising Sequence-to-Sequence Pre-training for NaturalLanguage Generation, Translation, and Comprehension 본문
[논문리뷰] BART: Denoising Sequence-to-Sequence Pre-training for NaturalLanguage Generation, Translation, and Comprehension
ssungni 2024. 11. 8. 14:14Transformer
BART도 transformer의 기본 아키텍처를 본 따 발전되어져 왔다.
잠시 집고 넘어가보면, transformer 는 Encoder와 Decoder로 구성되며,
예를 들어, "I am a student"라는 문장이 입력될 때, Encoder 는 이 문장의 의미를 벡터로 변환하고,
Encoder 로부터 정보를 전달받아 Decoder 가 “쥬 스위 에튀디앙”의 결과가 도출하게 된다.
BERT vs. GPT
Encoder 와 Decoder 는 서로 분리되어 각자의 장점을 극대화시켜 별도의 모델들로 발전하게 되었다.
대표적인 모델이 Encoder 구조의 BERT와 Decoder 구조의 GPT이다.
위 그림에서 알 수 있듯 이러한 장점이 있다.
그러나 이것의 단점은 BERT는 생성을 잘하지 못하고, GPT는 양문맥을 보는 것이 취약하는 것이다.
BART
그래서 BART는 BERT의 장점과 GPT의 장점을 합쳤구나! 라는 것을 알 수 있으며,
제목에서 알 수 있듯, Denoising(노이즈가 있는 것을 원본으로 함)한 pretraining으로 학습되었구나라고 알 수 있다.
noise 방법론
1) Token Masking
2) Text Infilling
3) Sentence Permutation
4) Document Rotation
5) Token Deletion
Fine-tuning BART
1) Sequence Classification Tasks
인코더와 디코더에 동시에 공급되고, 최종 디코더 토큰의 마지막 숨겨진 상태가 다중 클래스 분류기로 전달
2) Token Classification Tasks
기본적으로 Sequence Classification task와 똑같지만, linear 레이어를 각 토큰 위치마다 추가하여 토큰 하나하나를 각각 분류하는 task
3) Sequence Generation Tasks
BART는 autoregressive 디코더를 갖고 있으므로 인코더에 input이 주어지면 디코더에서 output을 autoregressive하게 만듦
4) Machine Translation
기존 transformer는 인코더에 A언어를 입력하고 B언어로 번역하는 것이었으나, BART는 pre-training 과정에서 노이즈가 들어간 영어 문장을 원래의 영어 문장으로 복원하는 것을 단일 언어로 학습함. 그래서 기계번역 못하나 싶지만, 위 그림과 같이 새로운 encoder를 추가해서 새로운 언어의 텍스트를 처리할 수 있도록 학습을 시작하여 번역에 finetuning한 BART를 만듦