Hugging Face에서 가장 많이 다운로드 된 Encoder Models: ALBERT, RoBERTa, DistilBERT, ConvBERT, XLM-RoBERTa, Electra, LongFormer — cherish-j devlog

ALBERT

언어 표현의 self-supervised learning을 위한 "경량화"된 BERT
Knowledge Distillation 사용

RoBERTa

BERT를 최적화하기 위한 fine-tuning 접근이나 pre-training 접근을 적용한 모델
BERT와 같은 거대한 모델을 학습시키기 위해 매우 작은 데이터셋을 사용할 수 있어서 유명함

DistilBERT

BERT와 유사하지만 BERT의 원래 가중치로 훈련된 작은 BERT
증류된 BERT
Knowledge Distillation: 큰 모델의 가중치를 작은 모델로 이동시키는 것

ConvBERT

Span 기반 동적 컨볼루션을 통해 BERT를 개선
BERT에 혼합 어텐션 설계를 적용하고 ConvBERT 모델을 구축

XLM-RoBERTa

Facebook에서 개발
100개의 다른 언어로 훈련됨
많은 자연어 처리 문제에 사용됨
2.5TB의 데이터로 훈련됨

Electra

구글의 트랜스포머 변형

LongFormer

매우 큰 시퀀스에 사용됨

'LLM' 카테고리의 다른 글

LoRA와 QLoRA (0)	2024.08.12
Hugging Face에서 가장 많이 다운로드 된 seq2seq Models: BART, PEGASUS, MT5 (0)	2024.04.24
BERT를 활용한 마스킹 단어 예측 (0)	2024.04.23
Reformer: The Efficient Transformer (ICLR 2020) (0)	2024.04.23

cherish-j

# AI #LLM # Computer Vision

티스토리툴바