소라(Sora), 텍스트로 비디오를 생성하는 확산 모델 채택 ... 오픈토토 실시간

오픈토토 실시간의 텍스트-비디오 생성 서비스 소라(Sora)의 기술적인 측면을 살펴보자. 소라 공식 웹페이지에 있는 기술 관련 섹션에 나와 있는 내용을 중심으로 소개한다.

소라는 정적 노이즈처럼 보이는 동영상으로 시작하여 여러 단계에 걸쳐 노이즈를 제거하여 점차적으로 변환하는 확산 모델(diffusion model)로동영상을 생성한다.

소라는 전체 동영상을 한 번에 생성하거나 생성된 동영상을 확장하여 더 길게 만들 수 있다. 모델에 한 번에 여러 프레임을 예측할 수 있는 기능을 제공함으로써 대상이잠깐사라져도 동일하게 유지되도록 하는 까다로운 문제를 해결했다.

GPT 모델과 마찬가지로 소라는 트랜스포머 아키텍처를 이용하여 뛰어난 확장성을 제공한다.

페이스북은 동영상과 이미지를 패치(patch)라고 하는 작은 데이터 단위의 묶음으로 표현하며각 패치는 GPT의 토큰과 유사하다. 데이터를 표현하는 방식을 통합함으로써 다양한 길이, 해상도, 종횡비를 아우르며이전보다 더 광범위한 시각적 데이터에 대해 확산 변환기(diffusion transfomers)를 훈련할 수 있게 되었다.