메뉴 건너띄기
상단메뉴 바로가기 본문 바로가기

SW마에스트로 소식

요즘 대세! 생성형 언어 모델: 딥러닝과 LLM 알고리즘 소개

  • 2024-07-05 16:16
  • 홍보담당자

안녕하세요 여러분!

SW마에스트로 서포터즈입니다.

깜찍

저번에 생성형 AI, 거대 언어 모델과 그 종류에 대해 알아봤어요.

오늘은 딥러닝과 거대 언어 모델의 알고리즘을 중심으로 알아보려고 해요.



먼저 딥러닝에 대해 알아볼까요?

딥러닝이란,

신경망을 통해 인공지능이 사람처럼 데이터를 처리할 수 있게 가르치는 방법이에요.

어떻게 컴퓨터를 인간처럼 생각하게 할 수 있을지를 고민하다가

컴퓨터를 인간의 두뇌와 비슷하게 만들기로 했어요.

딥러닝의 활용 분야는 무궁무진하지만

대표적으로는 이미지를 다루는 컴퓨터 비전,

사람의 언어를 텍스트로 다루는 자연어 처리와

음성으로 다루는 음성 인식 등이 있어요.



먼저 퍼셉트론에 대해 알아볼까요?

퍼셉트론은 초기의 인공 신경망으로, 딥러닝에서 가장 중요하고 기초적인 요소예요.

퍼셉트론은 다수의 입력으로부터 하나의 결과를 내보내는 알고리즘이에요.

뭔가 우리 뇌를 구성하는 뉴런과 비슷하게 생겼죠?

그림에서 x는 입력, w는 가중치, y는 출력이에요.

여러 개의 입력에 각각의 가중치를 설정해 하나의 출력을 만듭니다.

퍼셉트론에는 임계치라는 것이 있는데, y가 이 임계치를 넘으면 1을 출력하고 그렇지 않으면 0을 출력해요.

퍼셉트론이 하나면 단층 퍼셉트론, 여러 개면 다층 퍼셉트론이라고 해요.

단층 퍼셉트론으로 XOR 문제를 해결할 수 없음이 발견되자 다층 퍼셉트론이 등장했지요.



다음은 CNN이에요.

CNN은 Convolution Neural Network의 약자로,

이미지를 다루는 컴퓨터 비전 분야에서 주로 쓰이는 강력한 알고리즘이에요.

필터로 이미지를 스캔하며 연산하는데 이때 '합성곱'이 사용되어 Convolution Layer라고 해요.

이때 이미지의 지역적인 정보를 추출해서 새로운 이미지를 구성해요.

이 과정을 반복하면서 계속 층을 늘리면,

층이 깊어질수록 이미지의 전체적인 특징을 알 수 있게 됩니다.

하트

 


다음은 트랜스포머예요.

트랜스포머는 아주 혁신적인 모델로,

자연어 처리 분야에서 쓰이다가 비전 분야로도 넘어왔어요.

기존의 순환 신경망을 대신해 등장한 모델

최근 가장 많이 사용되는 강력한 모델이에요.

트랜스포머는 크게 입력 문장을 처리하고 벡터 형태로 표현하는 인코더,

인코더에서 출력된 벡터를 가지고 출력 문장을 생성하는 디코더 단계로 구성돼요.

그 밖에 문장을 단어로 분해하고 벡터로 변환하는 임베딩,

단어와 단어 사이 연결 강도를 계산하는 셀프 어텐션 등의 기법이 사용됩니다.



이제 본격적으로 자연어 처리에 대해 알아볼게요.

자연어 처리는 Natural Language Processing이라 NLP로 많이 줄여 불러요.

인공지능을 활용하여 텍스트 데이터를 처리하고 해석하는 분야로,

주요 작업은 자연어 인식 및 생성이에요.

구조화되지 않은 텍스트 기반 데이터,

평범한 사람 언어로부터 정보를 추출하는 것이 목적이에요.

감정 분석, 문서 분석, 트렌드 추적, 콘텐츠 분류 등에 다양하게 사용된답니다.

이번 주제인 LLM이야말로 자연어 처리의 대표적인 적용 사례인데요,

방대한 양의 데이터와 자연어 처리 기술로 훈련한

고급 AI를 바로 거대 언어 모델이라고 하는 거죠.

하트

 


마지막으로 LLM의 알고리즘에 대해 알아볼까요?

저번에도 간략하게 소개했지만 오늘은 각 단계에 대해 좀 더 자세히 알아보려고 해요.

LLM의 구현은 크게 데이터 수집과 전처리, 사전학습, 튜닝으로 이루어져요.

데이터 수집과 전처리 단계는 다시 학습 데이터 수집, 평가 데이터 수집, 학습 데이터 가공으로 이루어져요.

학습 데이터는 모델을 훈련시킬 때 사용하는 데이터로, LLM의 성능을 결정합니다.

모델의 규모가 커질수록 더 방대한 데이터가 필요하죠.

참고로 각 모델을 훈련하는 데 GPT-3는 3천억 개, LLaMA-2는 2조 개의 토큰이 사용됐어요.

졸업

인공지능을 다 만들고 나면 성능을 평가할 평가 데이터도 필요해요.

언어 생성 능력, 지식 활용, 추론 능력 등을 평가 데이터로 활용하죠.

LLM에서는 데이터의 양뿐 아니라 품질이 특히 중요한데요,

필터링, 중복 제거, 비식별화 등을 통해 품질을 관리합니다.



특정 목적에 맞는 모델을 만들고 싶을 때,

모든 모델을 만들 때 처음부터 다시 만들려면 시간이 많이 걸리잖아요?

이때 학습의 효율성을 높여 주는 것이 사전학습입니다.

사전학습은 특정한 특징을 가진 모델을 만들기 위해

미리 일반적인 모델을 만들어 두는 거예요.

자연어 처리에는 인코더, 디코더, 인코더-디코더 형태의 사전학습 모델이 있고,

디코더와 인코더-디코더가 많이 사용돼요.

디코더 모델

트랜스포머의 디코더만을 활용한 단방향 모델로,

주어진 텍스트 다음에 나올 단어를 예측하는 작업에서 유리합니다.

인코더-디코더 모델은

트랜스포머의 인코더와 디코더를 모두 사용하는 모델로,

둘 다 활용할 수 있기 때문에 형태가 다른 데이터를 입출력으로 사용할 수 있어요.

크로스-어텐션 구조를 활용해 입력 정보를 출력으로 연결합니다.

이때 크로스-어텐션이란,

두 개의 시퀀스 간의 관계를 파악하는 것을 말해요.



마지막으로 튜닝에 대해 알아볼게요.

튜닝에는 Zero-Shot, One-Shot, Few-Shot 등이 있어요.

그 중 제로샷은 LLM이 발달하며 발전한 능력으로,

모델이 학습하지 않은 새로운 작업을 이미 알고 있는 지식을 활용해 해결하는 거죠.

인스트럭션 튜닝은 최근 제로샷 성능을 향상시키는 방법으로 제안되었는데,

각 태스크에 대한 문제와 답을 명시적으로 학습하는 방법이에요.

다중 태스크를 학습하고, 태스크에 대한 설명을 포함하는 지시문을 같이 학습하기 때문에

다중 태스크 프롬프트 학습이라고도 불리죠.



두 번에 걸쳐서 LLM과 딥러닝 알고리즘에 대해 알아봤는데 어떠셨나요?

하트

흥미가 있으시다면 오늘 소개해 드린 내용을 바탕으로 더 찾아보시길 권장합니다.

앞으로 전해드릴 많은 소마 소식도 기대해주세요!

칵테일

 

감사합니다.



 
첨부파일 (1)