LLM

Hugging Face에서 가장 많이 다운로드 된 Encoder Models: ALBERT, RoBERTa, DistilBERT, ConvBERT, XLM-RoBERTa, Electra, LongFormer

ALBERT

  • 언어 표현의 self-supervised learning을 위한 "경량화"된 BERT
  • Knowledge Distillation 사용

RoBERTa

  • BERT를 최적화하기 위한 fine-tuning 접근이나 pre-training 접근을 적용한 모델
  • BERT와 같은 거대한 모델을 학습시키기 위해 매우 작은 데이터셋을 사용할 수 있어서 유명함

DistilBERT

  • BERT와 유사하지만 BERT의 원래 가중치로 훈련된 작은 BERT
  • 증류된 BERT
  • Knowledge Distillation: 큰 모델의 가중치를 작은 모델로 이동시키는 것

ConvBERT

  • Span 기반 동적 컨볼루션을 통해 BERT를 개선
  • BERT에 혼합 어텐션 설계를 적용하고 ConvBERT 모델을 구축

XLM-RoBERTa

  • Facebook에서 개발
  • 100개의 다른 언어로 훈련됨
  • 많은 자연어 처리 문제에 사용됨
  • 2.5TB의 데이터로 훈련됨

Electra

  • 구글의 트랜스포머 변형

LongFormer

  • 매우 큰 시퀀스에 사용됨