Sigrid Jin
2 min readMay 30, 2024

--

과거에는 Decoder-only LLM이 다음과 같은 이유로 임베딩 작업에 적합하지 않을 것으로 여겨졌습니다:

단방향(unidirectional) 어텐션이 모델의 표현 학습 능력을 제한할 수 있다.

LLM의 스케일링으로 인해 매우 고차원의 임베딩이 생성되어 차원의 저주 문제가 발생할 수 있다.

하지만 최근 연구들은 이러한 우려와 달리 Decoder-only LLM이 Encoder 기반 모델을 능가할 수 있음을 보여주었습니다. 특히, E5-Mistral 모델은 대량의 GPT-4 생성 데이터를 활용하여 종합적인 임베딩 벤치마크(MTEB)에서 기존의 BERT, T5 기반 최신 모델들을 능가하는 성능을 달성했습니다.

이러한 성능 향상은 Decoder-only LLM의 강력한 생성 능력과 대규모 사전학습에 기인한 것으로 보입니다. 또한, 본 논문에서 제안한 NV-Embed 모델은 다음과 같은 혁신적인 기법들을 통해 Decoder-only LLM의 임베딩 성능을 더욱 끌어올렸습니다:

Latent Attention Layer를 도입하여 더 표현력 있는 pooled embedding을 얻음

Decoder-only LLM의 불필요한 causal attention mask를 제거하여 양방향 어텐션 활용

검색, 분류, 클러스터링, 유사도 측정 등 다양한 임베딩 작업을 아우르는 2단계 대조 지시 튜닝 방식 적용

그 결과, NV-Embed는 공개 데이터만을 사용하여 56개 작업으로 구성된 MTEB에서 새로운 SOTA를 달성하며 Decoder-only LLM 기반 임베딩 모델의 우수성을 입증했습니다.

--

--

No responses yet