젠슨 황은 AI의 발전 단계를 인식, 생성, 에이전틱을 거쳐 물리적 세계를 이해하고 상호작용하는 물리적 AI (Physical AI)로 정의하며 그 핵심 도구로 월드 모델 WFMs (World Foundation Models)을 제시했습니다.
코스모스 (Cosmos)는 텍스트와 영상을 기반으로 물리 법칙이 적용된 가상 세계를 구현하여 자율주행차와 로봇 학습에 필요한 방대한 데이터를 생성하는 통합 플랫폼 역할을 수행합니다. 이를 통해 기업들은 실제 환경의 제약 없이 정교한 시뮬레이션을 진행함으로써 자율주행의 안전성과 제조 자동화의 효율성을 획기적으로 높일 수 있습니다.
![]() |
| Autonomous Vehicle Training: NVIDIA Cosmos |
![]() |
| Autonomous Vehicle Training: NVIDIA Cosmos |
![]() |
| Video Analytics AI Agents: NVIDIA Cosmos |
1. 코스모스 WFM (World Foundation Model)의 정의
코스모스 WFM은 AI가 텍스트뿐만 아니라 현실 세계의 물리 법칙(중력, 마찰, 관성, 인과관계 등)을 이해하고 상호작용할 수 있도록 돕는 기반 모델입니다,.
- 기존의 LLM(거대언어모델)이 텍스트 데이터를 학습했다면, 코스모스 WFM은 물리적 세계의 영상 데이터를 학습하여 일종의 '디지털 트윈'을 구축합니다.
- 이를 통해 로봇이나 자율주행차와 같은 물리적 AI(Physical AI)가 실제 환경에 투입되기 전에 가상 공간에서 안전하게 학습하고 훈련할 수 있습니다.
2. 주요 기술적 구성 요소
코스모스 플랫폼은 개발자가 목적에 따라 선택할 수 있는 두 가지 핵심 모델 방식(레시피)을 제공합니다.
- 확산 모델 (Diffusion Models): 무작위 노이즈에서 시작하여 텍스트 프롬프트에 맞춰 고화질의 사실적인 비디오를 생성해내는 방식입니다. 마치 조각가가 불필요한 부분을 깎아내듯 정교한 가상 세계를 만들어냅니다.
- 자기 회기 모델 (Autoregressive Models): 언어 모델이 다음 단어를 예측하듯, 비디오의 다음 장면(프레임)을 예측하는 방식입니다. 이를 통해 미래 상황을 예측하고 빠른 추론 속도를 제공합니다,.
또한, 방대한 비디오 데이터를 효율적으로 처리하기 위해 기존 기술보다 최대 12배 빠른 비디오 토크나이저(Video Tokenizer)를 사용하여, 한 달이 걸리던 주행 데이터 처리를 단 이틀 만에 끝낼 수 있게 했습니다.
3. 주요 활용 분야
코스모스 WFM은 특히 실제 데이터 확보가 어렵거나 위험한 분야에서 핵심적인 역할을 합니다.
- 자율주행: 눈, 비가 오거나 사고가 날 뻔한 위험한 상황(Edge Case)을 가상으로 생성하여 AI를 훈련시킵니다. 벤츠, 현대차, 우버 등의 기업들이 자율주행 테스트 시나리오 생성에 활용하고 있습니다,.
- 로보틱스: 로봇이 낯선 환경에서 물체를 인식하거나 동작을 수행하는 것을 미리 시뮬레이션하여 학습시킵니다,.
- 미래 예측: 현재 상태를 기반으로 미래에 발생할 수 있는 여러 가능성을 시뮬레이션하여 AI가 최적의 경로를 선택하도록 돕습니다.
요약
엔비디아의 코스모스 WFM은 AI에게 현실 세계의 물리 법칙을 가르치는 '거대한 시뮬레이션 엔진'이자 'AI를 위한 매트릭스'라고 할 수 있습니다.
코스모스 WFMs (World Foundation Models)은 AI가 가상 세계에서 수없이 많은 시행착오를 미리 겪으며 현실에서의 완벽한 대응을 준비하도록 돕는 시스템입니다.
어벤져스의 닥터 스트레인지가 수천만 번의 미래를 미리 시뮬레이션해 보고 최적의 수를 찾아내는 상황이 WFM을 가장 직관적으로 이해할 수 있을 것 같아 아래 영상을 추가했습니다.
사진 출처: https://www.nvidia.com/en-us/ai/cosmos/


