박찬범([email protected]) 2024년 4월 29일 22:00 작성

4월 18일, 압도적 성능의 Llama 3 발표

4월 18일, meta에서 자사의 새로운 LLM Llama 3를 발표했습니다. 기존 자사의 전작, Llama 2가 2조 개의 토큰(텍스트 데이터의 최소 단위)로 학습된 것과 비교하였을 때 Llama 3은 무려 15조 개의 토큰으로 학습된 점을 비롯하여, 성능에 있어 큰 도약이 이루어졌다는 평가가 주를 이루고 있습니다. 또한 아직 학습 중이지만 곧 출시될 400B+ 모델을 GPT-4의 출시와 맞먹는 파급력을 가질 수도 있다고 하죠. 기존 LLM에 비해 얼마나 발전했는지, 그리고 이번 Llama 3가 가지는 의미는 무엇인지 함께 알아보도록 하죠.

Meta, Llama 3 발표! (출처:https://llama.meta.com/llama3/)

Meta, Llama 3 발표! (출처:https://llama.meta.com/llama3/)

Llama3 실제 사용 화면 (출처: https://llama.meta.com/llama3/)

Llama3 실제 사용 화면 (출처: https://llama.meta.com/llama3/)

다른 모델들과 비교한 Llama 3의 성능

이번에 공개된 Llama 3은 모든 지표에 있어 전작 Llama 2에 비해 발전한 모습을 보입니다. 큰 데이터셋에서 미리 훈련된 pretrained model끼리 비교한 벤치마크를 먼저 살펴보겠습니다. 인공지능이 획득한 지식을 통해 다지선다 문제를 푸는 ‘인공지능 수능’ 같은 MMLU를 비롯하여 인간 중심적인 문제 해결 능력, 상식적인 추론 능력 등을 측정한 ‘General’ 카테고리에서 Llama 3 70B (노란색)은 Llama 2 (분홍색)에 비해 모든 항목에서 발전된 모습을 보여줬습니다.

또한 웹과 위키피디아에서 수집된 텍스트를 바탕으로 지식 추론 능력을 테스트하는 TriviaQA-wiki 벤치마크로 측정한 ‘Knowledge reasoning’ 항목에서도 보다 발전한 모습을 보여줍니다.

마지막으로 독해 능력을 측정하는 SQuAD, QuAC 벤치마크에서도 전작에 비해 우수한 성능을 보여줬으며, 특히 주어진 데이터 셋에 대한 질문에 예/아니요 질문 형식으로 답하는 벤치마크인 BoolQ에서는 Llama 3 8B 모델이 Llama 70B 모델 보다 높은 점수를 보여주며 Llama 3의 발전을 보여줬습니다. (파라미터의 수가 증가할수록 더 복잡하며, 많은 데이터를 처리할 수 있는데, 8B 개의 파라미터를 가진 모델이 70B 개의 파라미터를 가진 모델보다 좋은 성능을 보여줬다는 점이 인상적입니다.)

출처: https://moon-walker.medium.com/meta-llama-3-릴리즈-gpt4급-open-source-모델의-탄생-68c8ade1a33a

출처: https://moon-walker.medium.com/meta-llama-3-릴리즈-gpt4급-open-source-모델의-탄생-68c8ade1a33a

출처: https://llama.meta.com/llama3/

출처: https://llama.meta.com/llama3/

pre-trained model을 원하는 작업에 맞춰 최적화한 Instruct model의 경우에도 Llama 3는 다른 LLM과 비교하여 우수한 벤치마크 성능을 보입니다.

특히 이번 Llama 3 개발 과정에서 Meta는 실제 시나리오에 최적화된 ‘고품질 인간 평가셋’을 개발하였는데, 이 평가 세트를 기반으로 인간 annotator들의 모델에 대한 선호도를 비교하였을 때, 다른 모든 모델보다 더 선호되는 모습을 보였습니다.

(다른 모델들과 비교하여 더 선호된 Llama 3. 출처: https://ai.meta.com/blog/meta-llama-3/)

(다른 모델들과 비교하여 더 선호된 Llama 3. 출처: https://ai.meta.com/blog/meta-llama-3/)