본문 바로가기
경제

오픈 AI 첫 영상 생성 AI 소라란?

by 손경제 2024. 3. 8.
반응형

오픈 AI(OpenAI)의 새 인공지능 모델 ‘소라’(Sora) 출시로 광고·영상 업계가 술렁였습니다. 소라는 텍스트를 비디오로 변환할 수 있는 AI 모델으로 명령어를 입력하면 최대 1분 분량의 영상을 만들어냅니다. 샘 알트먼 월드코인 공동창립자가 개발을 주도, 지난 15일 정식 출시됐습니다.

업계에선 1분 내외 짧은 영상(숏폼)이나 광고 영상을 제작하는 업체들이 “직격탄을 맞을 것”이라는 전망이 나옵니다.

본문은 오픈 AI의 새 인공지능 모델 소라(Sora), 소라 사용에 대해 살펴보도록 합니다.

오픈 AI 첫 영상 생성 AI 소라 (Sora)란?

 

오픈에이아이(OpenAI)의 새 인공지능 모델 ‘소라’ 프롬프트(지시말)에 ‘한 세련된 여성이 따뜻하게 빛나는 네온과 생동감 넘치는 도시 간판으로 가득한 도쿄 거리를 걷고 있습니다. 그녀는 검은색 가죽 재킷, 긴 빨간색 드레스, 검은색 부츠를 착용하고, 검은색 지갑을 들고 있습니다. 그녀는 선글라스를 쓰고 빨간 립스틱을 발랐습니다. 그녀는 자신감 있고 자연스럽게 걷습니다. 길은 축축하고 반사되어 화려한 조명이 거울 효과를 만들어 냅니다. 많은 보행자가 걸어갑니다’ 내용을 입력해 생성된 영상. 

소라(Sora)는 이미지 생성 AI인 달리를 기반으로 한 비디오 생성 인공지능(AI) 모델으로 텍스트나 이미지를 비디오로 변환할 수 있습니다. 챗GPT를 사용하듯 명령어를 입력하면 최대 60초 분량의 영상을 만들어냅니다. 문자로 대화를 주고받는 챗봇 ‘챗GPT’, 명령어를 통해 이미지를 구현하는 ‘달리’를 갖춘 오픈AI가 영상 분야로까지 사업을 확장한 것입니다.

오픈AI는 소라가 기존 인공지능 영상 생성 도구와 가장 차별화한 지점으로 “실제 세계에 사물이 어떻게 존재하는지 이해한다”는 점을 들었습니다. 이어 “소라는 시각적인 품질을 유지하며 여러 캐릭터와 특정 유형의 동작, 복잡한 장면 등 최대 1분 길이의 비디오를 생성할 수 있다”고 했습니다.

오픈AI는 “(소라는) 언어에 대한 깊은 이해를 갖고 있어, 프롬프트(지시말)를 정확하게 해석하고 생생한 감정을 표현하는 매력적인 캐릭터를 생성할 수 있다”며 “사용자가 프롬프트에서 요구한 것뿐만 아니라 프롬프트 내용이 물리적 세계에 어떻게 존재하는지 이해한다”고 설명했습니다.

개발팀은 일본어로 ‘하늘’을 의미하는 ‘소라’에 대해 “무한한 창의성을 떠올리게 하기 위해서”라고 밝혔습니다.

한편, 소라가 생성한 관련 영상이 공개되자 크리스토발 발렌수엘라 런웨이 CEO는 X(트위터)에 ‘게임 시작(game on)’이라는 짤막한 글을 올렸습니다. 런웨이는 동영상 생성 AI의 선두로 평가받는 업체입니다.

 

지금까지 소라(Sora)가 생성한 영상은 매우 현실적이고 상세합니다. 솔라에 의해 생성된 비디오를 보려면 오픈AI에서 제공하는 소라(Sora) 웹페이지를 확인할 수있습니다. 해당 페이지에 공개된 영상 중 가장 긴 영상은 1분이며, 다른 영상들은 40초, 20초, 8초 등 다양한 길이로 제작되어 있습니다. 물론 오픈AI CEO 샘 알트먼(Sam Altman)의 X(구 트위터)에서 검색할 수 있습니다. 그는 최근 트윗에 여러 관련 영상을 공개했습니다.

 

소라(Sora) 특징 및 작동원리

소라는 텍스트만으로 동영상을 생성할 수 있고 기존의 이미지를 동영상으로 만들 수도 있으며 기존에 발표된 프로그램과 달리 실제 카메라를 이용하여 촬영한 영상 같이 실사에 가깝고 배경과의 이질감이나 어색함을 찾아볼 수 없는 것이 장점입니다.

실제로 소라(Sora)에는 ▲확산(Diffusion) 모델을 통한 고품질 비디오 생성 ▲최대 2048×2048의 다양한 해상도 지원 ▲정지 이미지에 애니메이션을 적용한 고급 기능 ▲피사체의 시각적 일관성 유지 ▲실제 역학 시뮬레이션 ▲트랜스포머 기반의 확장성 ▲텍스트 및 이미지 프롬프트에 대한 충실도 ▲현실처럼 동작을 시뮬레이션하고 디지털로 랜더링하는 창발 속성(emergent) 등 특징이 설명돼 있습니다.

 

기술 및 작동원리

소라는 ‘챗GPT’와 마찬가지로 트랜스포머(Transformer) 아키텍처 기반입니다. 소라는 동영상과 이미지를 ‘패치’라는 작은 데이터 단위 모음으로 표현하며, 각 패치는 언어모델의 ‘토큰’과 유사한 방식으로 작동합니다. 방식에 대해서는 대형언어모델(LLM)의 텍스트 토큰처럼, 이미지 데이터를 압축한 뒤 ‘시각적 패치’로 변환하고 이후 분해해 영상으로 표현한다고 설명했습니다. 하지만 “모델 및 구현 세부정보는 이 보고서에 포함되지 않는다”라고 밝혔습니다.

 

전체 동영상을 한번에 생성하거나 생성된 동영상을 확장해 더 길게 만들 수 있습니다. 한번에 여러 프레임을 예측할 수 있는 기능을 제공한다. 이에 따라 피사체가 일시적으로 시야에서 사라져도, 동일하게 유지하는 까다로운 문제도 해결했습니다.

소라는 텍스트 설명만으로 또는 기존의 정지 이미지를 통해서도 동영상을 생성할 수 있습니다. 기존 동영상을 가져와서 확장하거나 누락된 프레임을 채우는 기능도 갖췄습니다.

 

AI 소라의 기능

1.유연한 샘플링

오픈AI 소라(Sora)는 가로 1920×1080부터 세로 1080×1920 영상까지, 그리고 그 사이 어떤 사이즈의 영상이라도 가능합니다. 이전 Ai 동영상을 생성하는 방법들은 정해진 종횡비에 한해서만 가능했지만, Sora는 다양한 기기와 상황에 맞춰 영상을 제작할 수 있게 됩니다.

 

2.언어 이해

소라의 언어 이해는 달리3의 기술을 적용했다고 하는데요. 달리와 마찬가지로, GPT를 활용해 사용자의 프롬프트를 해석하여 길어진 길이의 자세한 캡션으로 변환하고 그것을 비디오 모델에 보냅니다. 이를 통해 Sora는 사용자의 프롬프트를 정확하게 따르는 고품질의 비디오를 생성할 수 있다고 합니다.

 

3. 3차원 일관성 유지

소라(Sora)는 마치 실제 카메라로 촬영하는 것처럼, 영상 안에서 카메라의 움직임을 만들 수 있습니다. 비디오 속의 모든 것들이 실제 3차원 공간에서 움직이는 것처럼 생생하게 표현됩니다. 카메라가 이동하고 회전함에 따라 사람과 장면 요소가 3차원 공간을 통해 일관되게 움직입니다.

 

4.디지털 세계 시뮬레이션

소라(Sora)는 실제 비디오를 만들어내는 것뿐만 아니라, 비디오 게임 같은 가상 환경에서 일어나는 일들을 모방하고 만들어낼 수도 있습니다.

예를 들어, 마인크래프트 게임 안에서 플레이어가 어떻게 움직이고, 게임 세계가 어떻게 반응하는지를 Sora가 재현할 수 있다는 의미입니다. 이것은 Sora가 단순히 영상을 만드는 것을 넘어서, 그 영상 속에서 일어나는 이야기나 환경을 실시간으로 생성하고 조정할 수 있음을 의미합니다. 예제는 단순히 “마인크래프트”를 거론했을 뿐인데 Sora가 알아서 영상을 생성해 준 것 같습니다. 여기서 ‘제로샷’ 이란 표현은 Sora가 사전에 구체적인 예시를 보지 않고도, 대규모 데이터로 인해 새로운 요구사항에 대응할 수 있었다는 표현 같습니다.

 

소라(Sora) 사용법

소라(Sora)는 텍스트를 기반으로 이미지를 생성하는 기능 외에 이미지를 영상으로 변환하는 기능(image-to-video)과 영상을 기반으로 새로운 영상을 만드는 기능(video-to-video)도 제공합니다.

또한, 영상의 전후를 확장하거나 두 개의 영상을 통합하는 기능도 제공합니다.

 

image-to-video 사용법

우선, 이미지와 함께 명령어를 입력하면 명령어 내 요청 사항이 반영된 영상으로 재탄생합니다.

 

video-to-video 사용법

영상을 기반 새로운 영상을 만드는 기능일 경우 명령어를 입력하면 명령어 내 요청 사항이 반영된 새로운 영상이 생성됩니다. 챗GPT에서 명령하듯이 손쉽게 명령할 수 있는 것으로 보입니다.

 

영상 확장 기능

최초 영상 생성 이후 영상의 전후를 확장하는 기능도 제공됩니다. 특히 시간을 거슬러 영상의 앞 부분을 확장하는 기능은 정말 놀랍습니다. 영상의 시작 부분은 서로 다르지만, 모두 같은 결말로 끝나는 것을 알 수 있습니다.

또한 두 개의 영상을 통합하는 기능도 제공됩니다.

 

소라 등록 방법 , 사용 방법 

 

이전 OpenAI에서 출시한 애플리케이션에 따르면 미래에 소라(Sora)의 등록 및 사용 단계는 다음과 같습니다.

  1. 오픈AI 공식 웹사이트로 이동하여 계정에 로그인하고 Sora를 다운로드하세요.
  2. 원하는 비디오 콘텐츠, 캐릭터, 효과 등을 포함한 텍스를 입력하십시오.
  3. 확인을 클릭하면 OpenAI Sora가 1분 길이의 비디오를 생성하며, 마음에 들지 않을 경우 조정할 수 있습니다.

소라가 영상을 생성하는 데 걸리는 시간에 대해 일부 네티즌들은 “소라가 1분짜리 영상을 생성하는 데 1시간 이상 걸릴 수도 있다”고 밝혔으나, 개선 및 출시를 거쳐 이 시간이 단축될 수도 있습니다.

 

소라(Sora) 활용하는 방법

아직까지 소라(Sora)가 공개적으로 사용되지는 않았지만, 오픈AI에서 공개한 영상을 보면 앞으로 다음과 같은 목적으로 소라가 사용될 수 있음을 알 수 있습니다.

 

1.텍스트로 영화 예고편, 단편 영화, 애니메이션, 다큐멘터리 제작

소라는 영화 제작자와 스토리텔러가 자신의 아이디어와 개념을 시각화하고 설득력 있고 독창적인 영화를 만들 수 있도록 도와줍니다. 소라는 또한 시청자가 자신의 선호도와 관심분야에 따라 새롭고 흥미로운 콘텐츠를 발견하는 데에 도움이 됩니다.

 

2.새로운 요소로 기존 비디오 개선(강화)

소라(Sora)는 비디오 편집자와 제작자가 비디오를 개선 및 수정하고 더 많은 다양성과 창의성을 추가하도록 돕습니다. 또한 시청자가 피드백과 의견을 바탕으로 더욱 개인적이고 대화형 동영상을 즐길 수 있도록 도울 수 있습니다.

예를 들어 특수 효과를 추가하거나 배경을 변경하거나 새 캐릭터를 삽입할 수 있습니다.

 

3.텍스트 요약을 기반으로 교육용 비디오를 생성

소라는 교육자와 학습자가 정보가 풍부하고 흥미로운 영화를 만들고 접근할 수 있도록 도와줌으로써 그들의 이해와 기억을 증진시킬 수 있습니다.

또한 시청자가 호기심과 질문을 바탕으로 다양한 주제와 테마를 탐색하고 자세히 이해할 수 있도록 도와줍니다. 예를 들어 과학적 개념, 역사적 사건, 문화적 현상을 설명하는 것이 포함됩니다.

 

4.소셜 미디어를 위한 맞춤형 비디오 제작

소라는 소셜 미디어 사용자와 인플루언서가 자신의 개성과 감정을 표현할 수 있는 독특하고 재미있는 영상을 만들고 공유할 수 있도록 도울 수 있습니다. 소라는 또한 시청자가 좋아요와 댓글을 기반으로 친구 및 팔로어와 연결하고 상호 작용하도록 돕습니다.  예를 들면 생일축하, 여행일기나 밈 영상을 생성될 수도 가능합니다.

 

5.텍스트를 통해 아이디어·사나리오·꿈을 시각화

소라(Sora)는 디자이너와 혁신가가 프로토타입과 비전을 제작 및 테스트하고 피드백과 제안을 받을 수 있도록 도와줍니다. 또한 소라는 시청자가 상상력과 창의성을 바탕으로 다양한 현실과 가능성을 경험하고 즐길 수 있도록 돕습니다. 예를 들어 제품 디자인, 미래 상상, 판타지 세계 탐험 등이 있습니다.

 

지금 소라(Sora) 사용 가능할까요?

소라 서비스와 결과물은 홈페이지에 공개됐지만 오픈에이아이는 누구나 접근해 사용할 수 있도록 제품으로 출시하지 않았습니다. 오픈AI는 소라를 AI 시스템의 결함과 취약점을 찾는 ‘위험기술(레드팀)’로 맡겨, 오용 가능성을 연구하고 있다며 소수의 학자와 외부 연구자그룹에만 기술을 공유하고 있다고 밝혔습니다. 소라와 같은 동영상 생성 서비스가 가짜뉴스나 딥페이크 등에 악용될 가능성이 있기 때문입니다.

또한 현재 오픈AI는 당분간 소라를 시각 예술가, 디자이너, 영화 제작자 등 제한된 수의 크리에이티브 전문가에게만 공개하고 피드백을 받고 있습니다.

그렇다면 소라는 언제 사용할 수 있나요?

현재 오픈AI는 소라가 대중에게 언제 어떻게 출시될지 발표하지 않았으며 가격이나 라이선스 모델도 발표하지 않았습니다. 따라서 레드팀에 속하거나 크리에이티브 테스터 중 한 명이 아닌 이상 기존 데모를 기다려야 합니다.

 

소라(Sora)의 한계는?

물론 대부분 동영상 AI가 그렇듯, 아직 소라도 완벽하지는 않다. 오픈AI는 복잡하고 물리적인 장면을 묘사하는 데 어려움을 겪을 수도 있고, 인과관계를 이해하지 못하는 경우도 발생한다고 밝혔습니다.

예를 들어 사람이 쿠키를 한입 베어 무는 장면에 이어 쿠키를 깨문 자국이 나타나지 않을 수 있다는 설명입니다. 또 왼쪽과 오른쪽을 혼동하거나, 특정 카메라 궤적을 따라가는 동안 발생하는 이벤트에 대해 시간 순서를 헷갈리기도 한다고 전했습니다.

딥페이크 우려 등에 대해 오픈AI는 “소라는 대중에게 공개되기 전 중요한 테스트를 거치며 안전 조치를 취할 것”이라고 했습니다. 오픈AI는 “예를 들어 극단적인 폭력이나 성적이고 혐오스러운 이미지 또는 유명인의 초상을 사용하라는 요청을 거부하게 할 것”이라며 “또한 생성된 모든 비디오를 검토해 표시되기 전 사용 정책을 준수하는지 확인하겠다”고 했습니다.

 

소라가 주목 받는 이유는?

텍스트를 영상으로 전환하는 인공지능은 기존에도 존재했지만 소라가 주목 받는 이유는 높은 수준의 영상 시연을 통해 상용화 가능성을 보여줬다는 데 있습니다. 챗GPT를 만든 오픈AI에 대한 기대감도 반영됐습니다.

앞서 지난해 9월 페이스북과 인스타그램 등을 운영하는 메타는 동영상 생성 AI 모델인 ‘메이크 어 비디오(Make-A-Video)’ 개발 성과를 공개했습니다. 구글은 지난해 12월 동영상 생성AI 모델 ‘비디오 포엣(Video Poet)’을 발표했습니다. 다만 이들 서비스는 대중에게 공개되지는 않았고 영상에 다소 어색한 면이 있었습니다. 반면 오픈AI는 우선 제한된 창작자들에게 사용을 허가하겠다고 밝혔고 실제 영화로 오인할 정도로 자연스럽습니다.

오픈AI는 소라의 기술적 성과에 관해 “범용인공지능(AGI) 달성을 위한 중요한 이정표가 될 것”이라고 했습니다. 범용인공지능은 스스로 추론하고 성장하는 자율적 인공지능을 뜻합니다. ‘궁국의 AI’를 만들기 위한 토대가 마련됐다는 것입니다.

 

소라(Sora)가 안전한가요?

생성형 AI 기술이 발전하면서 사회적으로 우려도 커지고 있습니다. 특히 동영상 생성이 가능해지면 여러 측면에서 악용될 수 있습니다.

미국의 정보기술매체 ‘기즈모도’는 지난 15일 “소라는 현실감이란 개념을 엿먹이는 서비스(OpenAI’s Sora Is a Giant ‘F*ck You’ to Reality)”라고 보도했습니다. 이 매체는 “온라인 허위정보가 커뮤니티를 분열시키고, 선거를 조작하고, 수많은 사람의 이성을 잃게 만들어 큰 문제가 되고 있지만 실제 해결에 뛰어든 사람은 없다”며 “온라인 허위정보에 가장 큰 책임이 있는 기술기업들은 문제를 기하급수적으로 악화시키기 위해 가능한 모든 일을 하려는 의도를 지닌 것으로 보인다”고 비판했습니다.

오픈AI도 우려를 인지하고 있기에 서비스 발표와 동시에 ‘안전성’을 강조했습니다. 오픈AI는 영상 전문가들이 합류한 레드팀을 만들어 문제와 취약점을 찾아내는 방식으로 안전성 테스트를 하고 있습니다. 향후 제한된 이용자에게만 서비스하는 것도 오남용 소지를 줄이려는 조치로 보입니다.

사실 오픈AI는 또한 “광범위한 연구와 테스트에도 불구하고 사람들이 우리 기술을 사용하는 유익한 방법을 모두 예측할 수 없으며 사람들이 기술을 오용하는 모든 방법을 예측할 수도 없다” 며 “이것이 바로 사람들이 우리 기술을 사용함에 따라 여전히 모든 유익한 방식을 예측할 수는 없다. 실제 사용을 통해 학습하는 것은 시간이 지남에 따라 점점 더 안전한 AI 시스템을 만들고 출시하는 데 핵심 구성 요소다” 라고 했습니다.

 

‘소라’ 영향으로 AI 코인 일제히 상승

오픈AI가 텍스트-비디오 생성 인공지능(AI) 모델인 ‘소라(Sora)’를 공개한 후 월드코인(WLD)을 비롯해 AI 코인이 꾸준한 상승세를 보이고 있습니다.

20일(현지시간) 더블록에 따르면 싱귤래러티넷(AGIX)과 월드코인 등은 지난 24시간 동안 두자릿 수 상승을 기록했습니다. 오전 6시 55분 코인마켓캡 기준으로 싱귤래러티넷의 경우 하루 동안 11% 이상 상승해 약 0.52달러에 거래되고 있으며, 월드코인은 29% 오른 7.40달러에 거래되는 모습입니다.

특히 월드코인의 경우 한때 7.95달러라는 사상 최고치를 기록했고, 시가총액도 잠시 10억달러를 넘기기도 했습니다.

이외에도 AI 토큰의 시가총액도 지난 24시간 동안 크게 상승한 것으로 나타났습니다. 코인게코 데이터에 따르면 AI 토큰 목록은 8% 이상의 이익을 기록했으며, 해당 부문 시총은 약 150억달러에 달하는 것으로 알려졌습니다

반응형