목차
AI 모델이 클수록 더 똑똑할까요? - 모델 규모와 지능의 경계에 대한 간략한 논의
지난 몇 년 동안 인공지능 분야는 모델 규모를 중심으로 한 "군비 경쟁"을 겪었습니다. GPT-2의 15억 개 매개변수에서 GPT-3의 1,750억 개 매개변수, 그리고 보도된 바에 따르면 GPT-4의 1조 개 이상의 매개변수에 이르기까지 AI 모델의 규모는 기하급수적으로 증가했습니다. 일반적인 이야기는 매개변수가 많을수록 모델이 더 강력하고 더 "똑똑"해진다는 것을 암시하는 것 같습니다. 그러나 이 주장이 정말로 성립할까요? 규모와 지능 간의 관계가 그렇게 간단하고 직접적일까요? 이 글에서는 이 주제를 심층적으로 탐구하고 모델 규모와 AI 능력 간의 복잡한 관계를 분석합니다.
규모 효과: 왜 대규모 모델이 두각을 나타내는가
규모 효과는 분명한 사실입니다. 여러 연구와 실무에서 모델 규모의 증가와 성능 향상 사이에 분명한 상관관계가 있음을 관찰했습니다.
스탠포드 대학과 Google Brain의 2020년 연구에 따르면 모델 매개변수가 1억 개에서 100억 개로 증가했을 때 SuperGLUE와 같은 벤치마크 테스트에서 성능이 거의 대수 선형적으로 증가했습니다. DeepMind의 연구에서도 유사한 현상이 발견되었으며, 이를 "규모 법칙(scaling law)"이라고 불렀습니다. 즉, 일정 범위 내에서 성능은 모델 크기의 로그, 데이터 양의 로그 및 계산량의 로그에 비례합니다.
OpenAI는 GPT-3 논문에서 이를 보여주었습니다. 13억 개 매개변수 모델에서 1,750억 개 매개변수 모델로 많은 작업에서 성능이 지속적으로 향상되었으며 특히 소량 샘플 학습 능력에서 그러했습니다. 예를 들어 번역 작업에서 GPT-3의 성능은 GPT-2보다 거의 45% 향상되었습니다.
그러나 규모는 양적 지표의 향상뿐만 아니라 질적인 도약을 가져옵니다.
창발적 능력(Emergent abilities): 특정 능력은 모델이 특정 규모에 도달한 후에만 나타납니다. 예를 들어 모델은 작은 규모에서는 복잡한 추론을 전혀 수행할 수 없지만 특정 임계값을 초과하면 갑자기 연쇄적 사고 능력을 나타냅니다.
명령어 준수(Instruction following): 대규모 모델은 복잡한 명령어를 더 잘 이해하고 실행하는 것으로 보이며, 이는 소규모 모델에서는 종종 달성하기 어렵습니다.
컨텍스트 학습(In-context learning): GPT-3가 보여준 중요한 돌파구는 프롬프트에서 소량의 예제만으로 새로운 작업을 수행하는 방법을 배우는 능력이며, 미세 조정이 필요하지 않습니다.
규모의 한계: 클수록 항상 더 좋은 것은 아니다
그러나 단순히 규모를 추구하는 것이 AI 능력 향상을 위한 만병통치약은 아닙니다. 모델 규모가 커짐에 따라 여러 가지 어려움에 직면합니다.
1. 수익 감소 문제
학술 연구에 따르면 모델 성능과 매개변수 양의 로그 관계는 선형 성능 향상을 얻기 위해 매개변수를 기하급수적으로 늘려야 함을 의미합니다. 예를 들어 DeepMind의 Chinchilla 연구에서는 1,750억 개 매개변수에서 3,500억 개 매개변수로 늘려도 실제 작업에서 성능 향상이 몇 퍼센트 포인트에 불과할 수 있다고 지적했습니다.
구체적인 데이터에 따르면 언어 모델이 1,000억 개 매개변수에서 3,000억 개 매개변수로 증가했을 때 BIG-bench와 같은 종합 평가에서 향상은 5-7%에 불과했지만 계산 리소스 소비는 약 3배 증가했습니다.
2. 훈련 데이터 병목 현상
모델 규모가 커짐에 따라 필요한 고품질 훈련 데이터 요구 사항이 폭발적으로 증가합니다. OpenAI 연구원 Jared Kaplan은 2020년 연구에서 모델 규모와 최적 훈련 데이터 양 사이에 거의 선형적인 관계가 있다고 지적했습니다.
우려스러운 점은 인터넷상의 고품질 텍스트 데이터가 거의 소진될 수 있다는 것입니다. 2022년 한 연구에서는 현재 AI 발전 궤적에 따르면 고품질 텍스트 데이터가 새로운 데이터 소스나 훈련 방법을 찾지 않는 한 2026년경에 소진될 것으로 추정했습니다.
3. 연산 능력 및 에너지 소비 제한
초대형 모델을 훈련하는 데 필요한 계산 리소스는 상상하기 어렵습니다. ARK Invest의 연구에 따르면 GPT-4 수준의 모델을 훈련하는 데 수천만 달러의 계산 리소스가 소모될 수 있습니다. 또한 환경 영향도 간과할 수 없습니다. 한 연구에 따르면 대형 언어 모델을 훈련하면 자동차 5대의 수명 동안 배출하는 탄소 배출량과 맞먹는 탄소 배출량이 발생할 수 있습니다.
4. "알고는 있지만 왜 그런지는 모르는" 블랙박스 문제
모델이 클수록 의사 결정 과정이 더 불투명해집니다. Google 연구원들은 2021년 논문에서 모델 매개변수가 증가함에 따라 모델 결정을 설명하기가 기하급수적으로 어려워진다고 지적했습니다.
이로 인해 실제 적용에서 신뢰 위기가 발생합니다. 모델이 잘못된 또는 유해한 출력을 생성할 때 원인을 추적하고 목표에 맞게 수정하기가 어렵습니다.
똑똑한 소규모 모델: 정밀함과 세련됨을 추구하는 또 다른 방법
대규모 모델의 한계에 직면하여 학계와 산업계는 이미 더 효율적인 대안을 모색하기 시작했습니다.
1. 모델 증류 및 압축의 놀라운 효과
2023년에 발표된 여러 연구에 따르면 지식 증류와 같은 기술을 통해 원래 모델의 1/10에 불과한 매개변수 양으로 원래 모델 성능의 80-90%를 유지하는 모델을 만들 수 있습니다. 예를 들어 Microsoft 연구원은 110억 개 매개변수의 T5 모델을 10억 개 미만의 매개변수로 압축하는 데 성공했으며 SuperGLUE 벤치마크 테스트에서 성능 손실은 4%에 불과했습니다.
Meta의 LLaMA-2 시리즈 모델은 또 다른 예입니다. 70억 개 매개변수 버전은 여러 작업에서 초기 1,750억 개 매개변수의 GPT-3보다 뛰어난 성능을 보여 모델 설계 및 훈련 방법의 중요성을 보여주었습니다.
2. 특정 분야의 전문가 모델
일반적인 대규모 모델과 달리 특정 작업에 최적화된 소규모 모델은 종종 뛰어난 성능을 보입니다. 예를 들어 의료 분야에서 60억 개 매개변수의 Med-PaLM 모델은 의학 시험에서 GPT-4에 근접하거나 능가하는 결과를 보였지만 규모는 GPT-4의 일부에 불과했습니다.
금융 산업의 FinGPT 및 법률 분야의 LegalBERT와 같은 전문 모델도 분야 데이터 미세 조정을 거친 중소 규모 모델이 특정 작업에서 일반적인 대규모 모델보다 우수할 수 있음을 보여줍니다.
3. 혼합 전문가 시스템(MoE)의 부상
혼합 전문가 모델은 규모와 효율성의 균형을 유지하는 우아한 솔루션을 제공합니다. Google의 Switch Transformer와 Microsoft의 M6 모델은 이 아키텍처를 채택했습니다. 모든 뉴런이 모든 작업을 처리하도록 하는 대신 "전문가 하위 네트워크"를 육성하여 각자의 역할을 수행하도록 합니다.
DeepMind의 연구에 따르면 500억 개 매개변수의 MoE 모델은 1,750억 개의 집중 모델에 해당하는 성능을 달성할 수 있으며 추론 비용은 60% 이상 절감됩니다.
지능의 본질: 규모를 넘어 AI 능력에 대한 사고
모델 규모와 지능 간의 관계를 진정으로 이해하려면 인공지능의 핵심이 무엇인지에 대한 더 근본적인 문제로 돌아가야 합니다.
1. 데이터 품질과 다양성의 중요한 역할
연구에 따르면 동일한 규모에서 훈련 데이터의 품질과 다양성은 모델 규모 자체보다 영향력이 크거나 그에 못지않습니다. Anthropic 연구원은 필터링되고 최적화된 고품질 데이터 세트를 사용하면 동일한 성능을 달성하면서 필요한 모델 규모를 60% 이상 줄일 수 있다는 사실을 발견했습니다.
2. 아키텍처 혁신은 맹목적인 확장을 능가합니다.
모델 아키텍처의 영리한 설계는 단순한 규모 확장보다 더 효과적인 경우가 많습니다. 예를 들어 검색 증강 생성(RAG) 기술을 도입한 후 모델은 모든 정보를 매개변수에 저장할 필요 없이 필요할 때 외부 지식 베이스에서 검색하여 사실 정확도를 크게 향상시킵니다.
Google의 연구에 따르면 Transformer 아키텍처로 최적화된 60억 개 매개변수 모델은 일부 작업에서 이전 아키텍처를 기반으로 한 400억 개 매개변수 모델을 능가할 수 있습니다.
3. 학습 알고리즘 및 목표 함수의 중요성
훈련 목표 및 알고리즘 선택은 모델 능력에 큰 영향을 미칩니다. 강화 학습 및 인간 피드백(RLHF)의 도입은 모델 행동에 질적인 변화를 가져왔으며 이는 매개변수 규모와 무관합니다. Anthropic의 Constitutional AI는 단순한 규모를 늘리는 대신 훈련 방법을 개선하여 모델 능력을 향상시키는 방법을 보여줍니다.
4. 디테일이 성공을 좌우합니다. 하이퍼파라미터 튜닝
동일한 규모의 두 모델에서 하이퍼파라미터의 미세한 차이가 성능에 큰 차이를 가져올 수 있습니다. 연구에 따르면 세심하게 튜닝된 100억 개 매개변수 모델은 여러 작업에서 대략적으로 훈련된 500억 개 매개변수 모델을 능가할 수 있습니다.
미래 전망: 지능과 규모의 새로운 균형
미래를 내다보면 AI 발전은 보다 균형 잡힌 경로를 따를 수 있습니다.
적당한 규모 확장과 아키텍처 혁신 병행: 매개변수 증가는 멈추지 않겠지만 증가 속도는 둔화되고 아키텍처 혁신은 보다 효율적인 모델을 제공할 것입니다.
다중 모드 지능의 통합: 미래 모델은 시각, 언어, 소리와 같은 여러 모드를 통합하여 보다 포괄적인 지능 경험을 창출할 것입니다.
혼합 아키텍처의 보편화: 신경망과 기호 시스템을 결합한 혼합 방법이 주류가 되어 신경망의 학습 능력을 유지하면서 기호 시스템의 규칙 추론 능력을 도입할 수 있습니다.
개인화된 소규모 모델 생태계: 대형 기본 모델이 "교사" 역할을 하여 특정 작업과 사용자에 적합한 수많은 소규모 "학생" 모델을 육성합니다.
결론
"AI 모델이 클수록 더 똑똑하다"는 단순한 이야기는 인공지능 발전의 복잡성을 가립니다. 규모는 실제로 중요하지만 방정식의 일부일 뿐입니다. 진정한 돌파구는 규모, 데이터, 아키텍처, 알고리즘의 협력적 최적화와 지능의 본질에 대한 더 깊은 이해에서 비롯됩니다.
컴퓨터 과학의 선구자 Alan Kay가 말했듯이 "간단한 것은 간단해야 하고 복잡한 것은 가능해야 합니다." 미래의 AI 발전은 매개변수 수 경쟁으로 단순화되어서는 안 되며 모든 규모에서 효율적으로 실행할 수 있는 지능형 시스템을 추구해야 합니다. 이러한 탐구에서 우리는 진정한 지능 경계가 크기에 있는 것이 아니라 시스템을 설계하고 문제를 정의하는 방식에 있음을 발견할 수 있습니다.
규모에 대한 집착에서 벗어날 때 인공지능 미래로 향하는 더 넓은 길을 볼 수 있습니다.