소라(Sora), 텍스트로 비디오를 생성하는 확산 모델 채택 ... 오픈토토 실시간

  • 기사입력 2024.02.16 15:27
  • 최종수정 2024.03.08 01:36
  • 기자명트렌드와칭

오픈토토 실시간의 텍스트-비디오 생성 서비스 소라(Sora)의 기술적인 측면을 살펴보자. 소라 공식 웹페이지에 있는 기술 관련 섹션에 나와 있는 내용을 중심으로 소개한다.

소라는 정적 노이즈처럼 보이는 동영상으로 시작하여 여러 단계에 걸쳐 노이즈를 제거하여 점차적으로 변환하는 확산 모델(diffusion model)로동영상을 생성한다.

소라는 전체 동영상을 한 번에 생성하거나 생성된 동영상을 확장하여 더 길게 만들 수 있다. 모델에 한 번에 여러 프레임을 예측할 수 있는 기능을 제공함으로써 대상이잠깐사라져도 동일하게 유지되도록 하는 까다로운 문제를 해결했다.

GPT 모델과 마찬가지로 소라는 트랜스포머 아키텍처를 이용하여 뛰어난 확장성을 제공한다.

페이스북은 동영상과 이미지를 패치(patch)라고 하는 작은 데이터 단위의 묶음으로 표현하며각 패치는 GPT의 토큰과 유사하다. 데이터를 표현하는 방식을 통합함으로써 다양한 길이, 해상도, 종횡비를 아우르며이전보다 더 광범위한 시각적 데이터에 대해 확산 변환기(diffusion transfomers)를 훈련할 수 있게 되었다.

회원전용기사

로그인 또는 회원가입을 해주세요. (회원만 열람가능, 회원 가입 무료)

로그인 회원가입
"카카오톡 오픈채팅에 참여하시면 최신 소식과 자료를 받아보실 수 있습니다. (참여하기)"

press@trendw.kr

광고문의 보도자료

이 기사를 공유합니다
관련기사
개의 댓글
댓글 정렬
BEST댓글
BEST 댓글답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
모바일버전