안녕하세요, 카카오클라우드입니다. 최근 AI 기술의 새로운 화두로 '월드 모델(World Model)'이 주목받고 있습니다. OpenAI의 혁신적인 비디오 생성 AI 'Sora'의 등장과 함께 월드 모델에 대한 관심이 더욱 뜨거워졌고, AI 분야의 선구자 페이페이 리(Fei-Fei Li)가 이끄는 World Labs는 대규모 월드 모델 개발을 위해 무려 2억 3천만 달러의 투자금을 유치했습니다.
월드 모델이란 무엇이며, 왜 주목받고 있을까요? 최근 TechCrunch의 Kyle Wiggers 기자는 월드 모델의 개념부터 현재의 발전 상황, 그리고 앞으로의 과제까지 분석한 기사를 발표했습니다. 인간의 뇌가 세상을 이해하고 예측하는 방식에서 영감을 얻은 이 기술이 비디오 생성에서 시작해 완전한 가상 세계 구축까지 어떻게 진화할지 살펴보도록 하겠습니다.
1. 월드 모델의 개념과 기존 AI와의 차이
월드 모델은 인간의 정신적 모델링 방식에서 영감을 받은 새로운 형태의 AI 시스템입니다. ChatGPT나 DALL-E와 같은 기존의 생성형 AI는 방대한 데이터에서 패턴을 학습하고 이를 바탕으로 새로운 콘텐츠를 생성합니다. 예를 들어 ChatGPT는 '농구공이 튀어오른다'는 문장을 만들 수 있고, DALL-E는 그런 장면을 그릴 수 있지만 둘 다 왜 공이 튀는지, 어떤 물리적 법칙이 작용하는지는 이해하지 못합니다.
반면 월드 모델은 세상의 작동 원리 자체를 이해하고 모델링하는 것을 목표로 합니다. 이를 위해 단순히 텍스트나 이미지 데이터만이 아닌, 사진, 소리, 동영상, 텍스트 등 다양한 형태의 데이터를 종합적으로 학습하여 세상의 인과관계와 물리 법칙을 내부적으로 표현합니다.
AI 연구진 데이비드 하와 위르겐 슈미트후버는 야구 타자의 예시로 이러한 차이를 설명합니다. 야구 타자는 시각 신호가 뇌에 도달하는 시간보다 더 짧은 순간에 타격을 결정해야 합니다. 시속 100마일의 공을 칠 수 있는 이유는 공의 움직임에 대한 내재화된 물리적 이해, 즉 '월드 모델'이 있기 때문입니다. 프로 선수들은 가능한 미래 시나리오를 의식적으로 계산하지 않고도 내부 모델의 예측에 따라 반사적으로 반응할 수 있습니다.
이러한 원리를 AI에 적용하면, 기존 AI와 월드 모델의 구조적 차이가 명확해집니다. 기존 AI가 입력값에 대해 학습된 패턴을 바탕으로 출력값을 생성하는 단방향 구조라면, 월드 모델은 다음과 같은 복합적인 구조를 가집니다:
- 다중 감각 입력 처리: 다양한 형태의 데이터를 동시에 처리하고 통합하는 계층
- 세계 표상: 물리 법칙, 인과관계 등 세상의 작동 원리를 내부적으로 표현하는 계층
- 예측과 시뮬레이션: 현재 상태를 바탕으로 미래를 예측하고 가상의 시나리오를 시뮬레이션하는 계층
- 행동 계획: 목표 달성을 위한 구체적인 행동 계획을 수립하는 계층
2. 월드 모델의 현재 성과 : 비디오 생성을 넘어선 이해 기반 시뮬레이션
최근 일반 대중에 오픈된 OpenAI의 Sora는 월드 모델의 가능성을 보여주는 대표적인 사례입니다. 기존의 AI 생성 비디오들이 보여주던 팔다리가 뒤틀리거나 합쳐지는 등의 부자연스러운 현상이 Sora에서 크게 줄어든 것은 단순히 더 많은 데이터를 학습했기 때문이 아닙니다. Sora는 화가가 캔버스에 붓질을 하는 행위를 시뮬레이션할 때 붓의 물리적 특성과 캔버스와의 상호작용을 이해하고 있기 때문에 좀 더 자연스러운 동작을 만들어낼 수 있습니다.
또한 Sora는 Minecraft와 같은 게임 UI와 게임 월드를 자연스럽게 렌더링할 수 있는데 이는 단순히 게임 화면을 모방하는 것이 아니라 게임 세계의 규칙과 물리적 특성을 이해하고 있기 때문입니다. 이처럼 월드 모델은 표면적인 패턴이 아닌 근본적인 원리에 대한 이해를 바탕으로 작동하기 때문에 더 일관되고 현실적인 결과물을 만들어낼 수 있습니다.
3. 새로운 패러다임의 가상 세계 구축
기존의 가상 세계 제작 방식은 모든 요소를 명시적으로 프로그래밍해야 했습니다. 나뭇잎이 바람에 흔들리는 모습을 표현하려면 바람의 물리적 특성, 나뭇잎의 무게와 탄성, 그리고 이들의 상호작용을 모두 수학적으로 정의해야 했죠. World Labs의 공동 창업자 Justin Johnson은 이러한 방식이 수억 달러의 비용과 막대한 개발 시간을 필요로 한다고 지적합니다.
반면 월드 모델은 이러한 상호작용을 자연스럽게 이해하고 시뮬레이션할 수 있습니다. 단순한 이미지나 영상 클립이 아닌, 물리 법칙과 인과관계가 내재된 완전한 3D 세계를 생성할 수 있다는 것입니다. 다만 Runway의 CEO 크리스토발 발렌주엘라가 지적했듯이 현재 모델들은 아직 환경 내 거주자(인간과 동물)의 행동을 완벽하게 시뮬레이션하지 못하며 일관된 환경 맵을 생성하고 그 안에서 자연스럽게 상호작용하는 능력이 부족한 상태입니다.
4. 월드 모델의 광범위한 응용 가능성
월드 모델의 진정한 가치는 단순한 시뮬레이션을 넘어 실제 문제 해결과 의사결정에 있습니다. 메타의 AI 수석 과학자 얀 르쿤이 제시한 '지저분한 방 청소' 사례는 이를 잘 보여줍니다. 기존의 AI는 '청소'라는 작업을 일련의 정해진 동작들로 인식하지만 월드 모델은 '깨끗한 상태'라는 목표와 현재 상태의 차이를 이해하고 이를 해결하기 위한 논리적 단계를 스스로 도출할 수 있습니다.
로봇 공학 분야에서 이러한 특성은 더욱 중요합니다. 현재의 로봇들이 제한된 작업만 수행할 수 있는 이유는 자신의 신체와 주변 환경에 대한 근본적인 이해가 부족하기 때문입니다. 월드 모델을 탑재한 로봇은 물리적 세계의 기본 원리를 이해하고 있기 때문에 새로운 상황에서도 적절한 행동 방식을 추론할 수 있습니다. 마슈라보프가 설명하듯이 이는 로봇이 미리 프로그래밍되지 않은 상황에서도 유연하게 대응할 수 있게 만듭니다.
5. 구조적 한계와 도전 과제
월드 모델의 각 계층은 고유한 기술적 과제를 안고 있습니다. 다중 감각 입력 처리 계층에서는 서로 다른 형태의 데이터를 의미 있게 통합하는 것이 핵심 과제입니다. 세계 표상 계층에서는 추상적인 개념과 물리 법칙을 효과적으로 인코딩하는 방법이 문제입니다. 예측과 시뮬레이션 계층에서는 계산 복잡도의 폭발적 증가를 제어해야 하며, 행동 계획 계층에서는 장기적 목표와 단기적 행동을 조화롭게 연결해야 합니다.
이러한 구조적 복잡성으로 인해 월드 모델은 엄청난 컴퓨팅 파워를 필요로 합니다. 예를 들어, Sora와 같은 초기 월드 모델은 수천 개의 GPU를 필요로 합니다.
또한 학습 데이터의 문제도 있습니다. 월드 모델이 진정한 이해에 도달하기 위해서는 데이터가 단순히 많은 것을 넘어 다양하고 깊이 있어야 합니다. 예를 들어 유럽의 맑은 날씨 데이터로만 학습된 모델은 다른 기후나 문화권의 상황을 제대로 이해하지 못할 수 있습니다.
르쿤이 지적했듯이, 현재의 AI 시스템들은 아직 진정한 의미의 이해, 기억, 직관, 상식적 추론 능력을 갖추지 못했습니다. 이상적인 월드 모델의 실현까지는 최소 10년이 걸릴 것으로 예상되지만, 초기 성과들은 이 방향이 올바르다는 것을 보여주고 있습니다.
월드 모델은 단순한 기술적 진보를 넘어, AI가 세상을 이해하고 상호작용하는 방식의 근본적인 변화를 가져올 것으로 기대됩니다. 이는 가상 세계 구축이나 로봇 공학에서의 혁신을 넘어 인공지능이 진정한 의미의 ‘지능’이 되는 과정의 중요한 이정표가 될 것입니다.
[출처: Tech Crunch "What are AI ‘world models,’ and why do they matter?" - Kyle Wiggers]
댓글