OpenAI Sora, 비디오 생성 AI의 시대를 열다

OpenAI가 공개한 비디오 생성 AI모델 Sora에 대해 알려드립니다. 텍스트 프롬프트를 통해 최대 1분 길이의 비디오를 생성할 수 있는 AI 모델 Sora를 통해 AGI 시대에 무엇이 필요할지 함께 고민해봅니다.

2024-02-19 | 장혜정

비디오 생성 AI모델 Sora

텍스트만 입력하면 최대 1분 길이의 영상이 뚝딱!

“도쿄 교외를 여행하는 기차 창문에 비친 반사.”

이렇게 간단한 텍스트로도 멋진 영상이 만들 수 있다면, 드릴러님은 어떤 영상을 만들고 싶으세요?
‘월터의 상상은 현실이 된다’라는 영화 제목처럼 모든 상상이 영상으로 뚝딱 만들어질 수 있는 시대가 찾아왔습니다. 바로 OpenAI의 최신 모델인 Sora의 등장으로 말이죠.

Sora는 텍스트 프롬프트를 통해 최대 1분 길이의 비디오를 생성할 수 있는 AI 모델입니다. 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 정보로 복잡한 장면을 연출할 수 있습니다.

또한 프롬프트에서 사용자가 요청한 내용뿐만 아니라 이러한 내용이 실제 세계에 어떻게 존재하는지 이해합니다.
이를 위해 OpenAI는 사람들이 실제 상호 작용이 필요한 문제를 해결하는 데 도움이 되는 모델을 학습시키는 것을 목표로, 움직이는 물리적 세계를 이해하고 시뮬레이션하는 방법을 AI에 가르치고 있다고 말합니다.

출처 : OpenAI Sora (‘도쿄 교외를 여행하는 기차 창문에 비친 반사’라는 텍스트 입력으로 만든 영상의 스크린샷)

OpenAI Sora가 놀라운 이유?

한차원 수준 높은 영상 퀄리티로, 멀티모달 AI 모델 시대를 열다

영상 생성 AI 모델은 기존에도 많은 기업이 서비스 출시를 하거나 연구 성과를 발표했기 때문에 Sora가 새로운 기능은 아닙니다.

런웨이의 ‘젠2’, 메타의 ‘메이크 어 비디오(Make-A-Video)’, 구글의 ‘비디오 포엣(Video Poet)’등 영상 생성 AI 모델 개발에 대한 빅테크 간 경쟁은 계속 심화하고 있죠.

하지만 Sora가 그동안 공개된 영상 생성 AI 모델과는 차원이 다른 수준의 퀄리티를 보여준다는 점에서 많은 사람을 놀라게 했습니다.

Sora는 최대 1080×1920, 1920×1080의 해상도로 판타지, SF, 공포, 코미디 등과 같은 다양한 장르와 테마의 영상 제작이 최대 1분까지 가능합니다.

기존 시간도 짧고 해상도가 낮았던 다른 모델과 비교해보면 그 차이를 더 확실히 느낄 수 있습니다.

출처: X (@doganuraldesign)

Sora는 텍스트 프롬프트를 분석해 주제, 행동, 장소, 시간, 분위기 등 관련 키워드를 추출합니다.

그런 다음 데이터세트에서 키워드와 일치하는 가장 적합한 동영상을 검색하고 이를 혼합하여 새로운 동영상을 만듭니다.

사용자의 선호도에 따라 비디오의 모양과 느낌을 수정할 수 있습니다.

예를 들어 사용자가 영화 스타일, 35mm 필름으로 촬영된 생생한 색상의 비디오를 원하는 경우 Sora는 조명, 색상 및 카메라 각도를 변경하여 이러한 효과를 비디오에 적용 할 수 있습니다.

또한 이미지를 기반으로 비디오를 만들거나 새로운 자료로 기존 영상을 확장이 가능합니다.

예를 들어, 사용자가 숲 이미지를 제공하면 Sora는 이미지에 애니메이션을 적용하고 동물, 새, 사람과 같은 요소를 추가할 수 있습니다.

사용자가 도로를 주행하는 자동차의 영상을 제공하면 소라는 영상을 확장하고 교통, 건물, 풍경과 같은 요소를 추가할 수 있죠.

고품질 영상 제작이 가능했던 이유

디퓨전 트랜스포머(Diffusion Transformer)

Sora는 정적인 노이즈처럼 보이는 비디오로 시작하여 여러 단계를 거쳐 노이즈를 제거하여 점차적으로 비디오를 변형시키는 디퓨전(Diffusion) 모델입니다.

또한 GPT 모델과 유사하게 Sora는 트랜스포머(Transformer) 아키텍처를 사용하여 뛰어난 확장 성능을 제공합니다.

LLM(Large Language Model : 대규모 언어 모델)에서 텍스트 토큰을 사용해서 데이터 훈련과 기능을 습득하는 것 처럼,

Sora는 비디오와 이미지를 패치라고 하는 더 작은 데이터 단위의 모음으로 표현합니다. 먼저 비디오를 압축하여 비디오를 패치로 변환하고,

이후 시공간 패치(Spacetime Patch)로 분해합니다.

데이터를 표현하는 방법을 통합함으로써 다양한 기간, 해상도 및 종횡비에 걸쳐 이전보다 더 광범위한 시각적 데이터에 대한 디퓨전 트랜스포머(Diffusion Transformer)를 학습시킬 수 있습니다.

즉, Sora는 디퓨전 트랜스포머로 디퓨전 모델링의 노이즈 모델링을 통한 고품질 샘플 생성과 트랜스포머의 모델링 성능을 결합하여 영상을 만듭니다.

https://modulabs.co.kr/wp-content/uploads/2024/02/96994_1708271375-480x124.png 480w" width="1024" />

출처: OpenAI

또한 GPT 모델과 유사하게 Sora는 트랜스포머(Transformer) 아키텍처를 사용하여 뛰어난 확장 성능을 제공합니다.

LLM(Large Language Model : 대규모 언어 모델)에서 텍스트 토큰을 사용해서 데이터 훈련과 기능을 습득하는 것 처럼,

Sora는 비디오와 이미지를 패치라고 하는 더 작은 데이터 단위의 모음으로 표현합니다.

먼저 비디오를 압축하여 비디오를 패치로 변환하고, 이후 시공간 패치(Spacetime Patch)로 분해합니다.

즉, Sora는 디퓨전 트랜스포머로 디퓨전 모델링의 노이즈 모델링을 통한 고품질 샘플 생성과 트랜스포머의 모델링 성능을 결합하여 영상을 만듭니다.

용어 설명
디퓨전 모델(Diffusion Model) : 원본 이미지를 만들려고 노력하는 과정을 기계 학습하여 새로운 이미지를 만드는 생성 모델. 원본 이미지에 노이즈를 첨가하여 끝에는 완전한 노이즈가 되도록 합니다.
트랜스포머 모델(Transformer Model) : 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망. 서로 떨어져 있는 데이터 요소들의 의미가 관계에 따라 미묘하게 달라지는 부분까지 감지합니다.

새로운 시뮬레이션 기능

Sora는 대규모로 훈련된 비디오 모델로 새로운 시뮬레이션이 가능하게 됩니다.

3D 일관성 : Sora는 역동적인 카메라 움직임으로 비디오를 생성할 수 있습니다. 카메라가 이동하고 회전하면 사람과 장면 요소가 3차원 공간에서 일관되게 움직입니다.
일관성 및 영속성 : 사람, 동물 및 물체가 가려지거나 프레임을 벗어나는 경우에도 이를 유지할 수 있습니다. 마찬가지로, 단일 샘플에서 동일한 캐릭터의 여러 장면을 생성하여 비디오 전체에서 해당 모습을 유지할 수 있습니다.
인터랙티브한 행동 : 인터랙티브한 행동을 시뮬레이션할 수 있습니다. 예를 들어, 화가는 캔버스에 시간이 지나도 지속되는 새로운 선을 남길 수 있고, 남자는 햄버거를 먹고 물린 자국을 남길 수 있습니다.
디지털 세계 시뮬레이션 : 비디오 게임과 같은 가상적인 프로세스를 시뮬레이션할 수 있습니다.

출처: OpenAI

기술적 단점

현재 Sora는 시뮬레이터로서 많은 한계를 보이고 있습니다. 복잡한 장면의 물리학을 정확하게 시뮬레이션하는 데 어려움을 겪고 원인과 결과의 특정 사례를 이해하지 못할 수도 있습니다.

예를 들어, 어떤 사람이 쿠키를 한 입 베어물었지만 나중에 쿠키에 물린 자국이 없을 수도 있습니다. 또한 유리 깨짐과 같은 많은 기본 상호 작용의 물리학을 정확하게 모델링하지 않을 수 있죠.

또한 왼쪽과 오른쪽을 혼합하는 등 프롬프트의 공간적 세부 사항을 혼동할 수 있으며, 특정 카메라 궤적을 따르는 것과 같이 시간이 지남에 따라 발생하는 이벤트에 대한 정확한 설명에 어려움을 겪을 수 있습니다.

출처 OpenAI

안전한 AI를 만들기 위한 노력

OpenAI는 Sora를 창의적 전문가인 시각 예술가, 디자이너 및 영화 제작자에게만 접근 권한을 부여할 예정입니다.

또한 실제 사용 전까지 잘못된 정보, 증오 콘텐츠, 편견과 같은 분야에 대한 테스트 및 악용사례를 방지할 수 있는 안전한 사용에 대한 모니터링 도구도 구축하고 있다고 말합니다.

예를 들어, 텍스트 분류기를 통해 극단적인 폭력, 성적인 콘텐츠, 혐오스러운 이미지, 유명인 초상 또는 타인의 IP를 요청하는 것과 같이 사용 정책을 위반하는 텍스트 입력 프롬프트를 확인하고 거부합니다.

또한 생성된 모든 비디오의 프레임을 검토하여 사용자에게 표시되기 전에 사용 정책을 준수하는지 확인하는 데 사용되는 강력한 이미지 분류자를 개발했습니다.

실제 상용화하기 전까지 다양한 테스트와 피드백 수렴에 적극적으로 나서겠다는 OpenAI의 표명처럼 기술 발전에 따라 악용 사례를 방지하기 위한 노력은 사회적으로 계속 커지고 있습니다.

오픈AI, 구글, 메타 등 빅테크 기업들은 딥페이크(이미지·목소리·영상 등을 진짜처럼 합성하는 기술) 악용을 방지하는 정책을 만들기 위한 공동협약을 맺기로 16일 개막한 독일 뮌헨안보회의에서 발표했습니다.

메타에서도 생성AI 콘텐츠가 페이스북이나 인스타그램에 게시되면 이를 식별할 수 있는 기능을 시행할 것이라고 지난 6일 발표했죠.

AI로 생성된 이미지가 페이스북이나 인스타그램 등에 게시되는 경우, 게시물에 이를 표시하는 라벨(꼬리표) (출처: Meta)

Sora를 통해 알아보는 AGI(인공일반지능)

OpenAI는 “Sora는 실제 세계를 이해하고 시뮬레이션할 수 있는 모델의 기반 역할을 하며, 이 기능은 AGI(인공일반지능)달성을 위한 중요한 이정표가 될 것이라고 믿습니다.” 라고 얘기합니다.

인공일반지능(Artificial General Intelligence)이란 일반화된 인간의 인지 능력을 갖추고 익숙하지 않은 상황에 직면해도 해결책을 찾을 수 있도록 설계된 AI를 의미합니다.

이는 Sora가 프롬프트를 스스로 이해하면서 생생하고 강력하게 현실 세계를 동영상으로 시뮬레이션 할 수 있기 때문인데요.

텍스트 기반의 모든 작업의 대체 가능성을 보여주었던 챗GPT의 열풍이 이제는 본격적인 멀티모달AI(텍스트, 이미지, 음성 등 여러 종류의 데이터를 동시에 처리할 수 있는 AI)의 시대로 확장되었다는 생각이 듭니다.

비디오 모델 학습은 언어 모델보다 더 많은 컴퓨팅 성능이 필요하고 이는 막대한 운영 및 서비스 비용 또한 예상할 수 있습니다.

미국 리버사이드 콜로라도대와 앨링턴 텍사스대 연구진이챗GPT와 한 번 대화를 하는 데 물 500㎖가 소비된다는 계산 결과를 발표했던 것처럼 말이죠.

대형 모델의 성능이 더 빨리 진화할지, 컴퓨팅 성능의 비용이 더 빨리 내려갈지도 앞으로의 AI 서비스의 상용화 측면에서 큰 영향을 미치게 될 것입니다.

일론 머스크가 소유한 뇌신경과학 스타트업 뉴럴링크는 지난 1월29일 인간의 뇌에 컴퓨터 칩을 이식하는 임상 실험을 시작했습니다.

2016년 뉴럴링크 설립 전, 머스크는 “인간의 뇌에 장치를 삽입해 두뇌를 강화하면 인공지능에 지배당하지 않을 것”이란 주장을 펼치기도 했었죠.

AI의 경우 악용사례의 파장력이 사회적으로 심각할 수 있음을 많은 사람들이 인지하고 이제는 기술의 발전 뿐만 아니라

다양한 관점에서의 안전한 사용과 윤리적 이슈의 해결을 위해 공동체의 형태로 여러 노력을 함께 하는 현상도 더 적극적으로 보여지고 있습니다.

새로운 기술의 진화가 일상과 사회의 패러다임을 바꿀 준비를 하고있는 과도기라는 생각이 듭니다. 여러분은 AGI시대 어떤 준비가 필요하다고 생각하시나요?

본 글은 모두의연구소 AIX LAB 의 퓨처드릴 뉴스레터의 글입니다.
모두의연구소 K-디지털 플랫폼에 지원 받아 진행됐습니다.

LAB은 집단 지성의 힘으로 함께 연구하며, 결과물을 만드는 연구 모임이에요.
해내고싶은 프로젝트, 대회, 논문, 연구 등 주제가 있다면 모두의연구소 LAB을 통해 연구해보세요!

최근 검색어

지금 뜨는 검색어

IT아티클

[모두의연구소] OpenAI Sora, 비디오 생성 AI의 시대를 열다