영상에서 사람을 지워도 쓰러진 컵은 그대로였다 — 넷플릭스가 이 불편한 진실을 AI로 해결했다.
넷플릭스 리서치팀은 현지시간 3일, 물리 기반 AI 영상 편집 프레임워크 'VOID(Interaction-Aware Counterfactual Video Generation)'를 온라인 아카이브와 AI 플랫폼 허깅페이스(HuggingFace)를 통해 오픈소스로 공개했다.
기존 AI 영상 편집 기술은 특정 객체를 삭제한 뒤 배경만 채워 넣는 방식이었다. 문제는 현실 세계의 인과관계를 무시한다는 점이다. 예컨대 영상 속 인물이 컵을 건드려 쓰러뜨린 장면에서 인물만 제거하면, 컵은 이유 없이 넘어진 채 화면에 남는다. 물리 법칙이 깨지는 순간이다.
VOID는 이 문제를 정면으로 돌파한다. 핵심 개념은 "이 물체가 처음부터 없었다면?"이라는 반사실적(counterfactual) 시나리오 생성이다. AI가 단순히 화면을 지우는 것이 아니라, 해당 객체가 존재하지 않았을 때 벌어졌을 상황 전체를 새롭게 생성한다.
기술적 차별점은 크게 두 가지다. 첫째, 시각언어모델(VLM)과 영상 확산 모델을 결합해 장면의 맥락을 이해하고 물리적 변화를 예측한다. 둘째, '쿼드마스크(quadmask)' 구조와 2단계 생성 파이프라인을 적용해 시간적 흐름과 공간적 일관성을 동시에 확보했다. 학습에는 3D 물리 시뮬레이션 환경인 Kubric과 인간 동작 데이터셋 HUMOTO가 활용됐다. 실험 결과, VOID는 기존 방식 대비 시간적·물리적 일관성 모두에서 우수한 평가를 받았다.
넷플릭스가 이 기술을 독점하지 않고 오픈소스로 공개한 것도 주목할 대목이다. 넷플릭스 리서치는 개인화 추천, 콘텐츠 분석, 스트리밍 최적화 등 다양한 분야에서 외부 연구자들과 협업해왔다. VOID의 오픈소스 공개는 학계와 산업계 모두를 겨냥한 전략적 포지셔닝으로 풀이된다.
이번 공개는 넷플릭스의 가속화하는 AI 행보와 맞닿아 있다. 넷플릭스는 최근 런웨이(Runway)의 동영상 생성 AI를 콘텐츠 제작에 테스트 중이며, 벤 애플렉이 설립한 AI 기반 영화 제작사 인수에도 나선 것으로 알려졌다. VOID는 그 행보의 기술적 토대를 직접 쌓는 시도다.
세계 최대 스트리밍 플랫폼이 콘텐츠 소비자를 넘어 AI 기술 선도 기업으로 빠르게 진화하고 있다.



![[금융진단] 미 증시, 지정학 완화·빅테크 반등에 상승](https://images.jkn.co.kr/data/images/full/98/28/982892.jpg?aspect_ratio=288:168&crop_gravity=northwest&width=288)

