안녕하세요 SW마에스트로 블로그 이웃분들!
오늘은 최근에 발표된 LLM, 대규모 언어 모델 성능을 비교한 리더보드가 공개되어 소개해 드리고자 합니다!
지금부터 대규모 언어 모델 성능을 비교해보러 가볼까요?
![]()

ChatGPT, Claude, Gemini 등 근 몇 년 사이에 많은 LLM 모델이 출시되고 주목을 받고 있습니다.
다양한 LLM 모델이 나온만큼 이를 객관적으로 평가할 수 있는 지표가 필요했습니다.
그러던 중, 지난 5월 Scale AI Inc.에서 LLM 제품군의 AI 모델 순위를 매긴 SEAL 리더보드를 공개했습니다.
총 4개의 영역에서 어떤 AI 모델이 좋은 성능을 가지고 있는지 함께 살펴보시죠!

첫 번째는 ‘코딩 영역’입니다.
이 영역에서는 GPT-4 모델이 높은 성능을 보여주고 있음을 알 수 있습니다.
평가를 위해 알고리즘 및 간단한 수학을 평가하는 프로그래밍 문제 세트를 구성했으며
이를 통해 각 모델은 주어진 코드를 얼마나 잘 해석하고 새로운 코드를 구현하는지 평가했습니다.

두 번째 ‘수학 영역’에서 뛰어난 성능을 보인 것은 Claude 3 Opus 모델입니다.
SEAL 리더보드는 데이터 오염 문제를 방지하기 위해
초등학교 5학년 수준의 수학 문제를 포함한 새로운 데이터 세트인 GSM1k를 사용해 평가했습니다.

세 번째 ‘지시 이행 영역’에서 뛰어난 성능을 보인 것은 GPT 모델이었습니다.
또한 Llama 3 70B 모델 또한 우수한 성능을 보인 것이 특징입니다.
어떤 아이디어에 대하여 브레인스토밍을 지시하거나,
특정 인물처럼 행동하라는 페르소나를 반영한 지시를 통해 성능을 평가하였습니다.

마지막 영역은 ‘외국어 영역’입니다.
외국어 중에서도 스페인어를 얼마나 잘 구사하는지 평가하였는데요.
일상 대화가 가능한 챗봇과 대화하는 듯한 벤치마크를 작성하여 평가를 진행하였습니다.
GPT-4o 모델은 이전 모델에 비해 한국어 구사 능력 또한 굉장히 높아졌다고 평가받는 것으로 알려져 있는데,
실제로 현재 출시된 LLM 중 언어 능력에서 가장 우수한 성능을 나타내는 것으로 보여집니다.
![]()
![]()

오늘은 LLM 리더보드를 통해 텍스트 생성형 AI 모델의 성능을 비교해봤는데요.
앞으로 더 발전할 LLM이 더욱 기대가 됩니다!
발전 속도만큼 적응도 빨라야 한다는 피로감도 있지만,
그만큼 더욱 빠르게 성장하고 큰 도전에 가까워지는 도구로 잘 사용할 수 있으면 좋겠습니다.
앞으로도 다양한 최신 기술로 찾아뵙겠습니다.
감사합니다!
