ALBERT
- 언어 표현의 self-supervised learning을 위한 "경량화"된 BERT
- Knowledge Distillation 사용
RoBERTa
- BERT를 최적화하기 위한 fine-tuning 접근이나 pre-training 접근을 적용한 모델
- BERT와 같은 거대한 모델을 학습시키기 위해 매우 작은 데이터셋을 사용할 수 있어서 유명함
DistilBERT
- BERT와 유사하지만 BERT의 원래 가중치로 훈련된 작은 BERT
- 증류된 BERT
- Knowledge Distillation: 큰 모델의 가중치를 작은 모델로 이동시키는 것
ConvBERT
- Span 기반 동적 컨볼루션을 통해 BERT를 개선
- BERT에 혼합 어텐션 설계를 적용하고 ConvBERT 모델을 구축
XLM-RoBERTa
- Facebook에서 개발
- 100개의 다른 언어로 훈련됨
- 많은 자연어 처리 문제에 사용됨
- 2.5TB의 데이터로 훈련됨
Electra
- 구글의 트랜스포머 변형
LongFormer
- 매우 큰 시퀀스에 사용됨
'LLM' 카테고리의 다른 글
LoRA와 QLoRA (0) | 2024.08.12 |
---|---|
Hugging Face에서 가장 많이 다운로드 된 seq2seq Models: BART, PEGASUS, MT5 (0) | 2024.04.24 |
BERT를 활용한 마스킹 단어 예측 (0) | 2024.04.23 |
Reformer: The Efficient Transformer (ICLR 2020) (0) | 2024.04.23 |