오픈 AI가 새로운 텍스트-투-비디오 생성형 AI 모델 소라(Sora)를 공개하여 세상을 놀라게 하고 있다. 이 모델은 간단한 텍스트 입력을 통해 최대 60초에 달하는 고퀄리티 영상을 생성해 내며, 그 퀄리티는 이 분야에서 믿을 수 없는 진보를 나타내고 있다. 아쉽게도, 소라는 현재 소수의 베타테스터 및 크리에이터들에게만 공개되었다.
오픈 AI의 대표 샘 올트먼은 지난 목요일에 이 모델을 공개했으며, 트위터를 통해 그가 입력한 프롬프트와 영상 결과를 확인할 수 있다. 해당 영상은 소라가 글로 쓰인 지침에 따라, 생생하고 사실적인 고화질 장면을 생성하는 능력을 갖췄음을 입증했다.
만약 집요하게 주시하지 않는다면, 대부분 사람들은 이것이 실제 영상이라고 착각할 것이다.
소라, AI 비디오 생성 분야의 기념비적인 도약
그동안 구글, 메타 플랫폼 등이 텍스트-투-비디오 모델을 선보였지만, 소라는 이 분야에서 영상 길이와 현실성, 일관성, 해상도, 디테일 측면에서 더 큰 진보를 이룬 것으로 보인다.
오픈AI가 공유한 영상에는 만화 느낌의 플러피 몬스터, 골든 러시 시대의 캘리포니아 시골 풍경, 자연에 서식하는 귀여운 동물들이 포함된다. 이들은 모두 자연스러운 장면 변화, 드라마틱한 앵글, 실제적인 물리적 표현과 활기찬 감정을 담고 있다. 이 모든 것이 단 몇 글자에서 비롯되어 완벽하게 자동으로 생성된 것이다.
일리노이 대학 교수 테드 언더우드는 “이 정도 수준의 지속적이고 일관성 있는 영상 생성 모델이 2~3년 사이에 등장할 거라고는 생각하지 못했다”라고 워싱턴 포스트에 소감을 밝혔다. 그는 모델이 생성하는 놀라운 결과물을 가리키며, “상당한 도약이 있었던 거 같다”라고 덧붙였다.
초기 텍스트-투-비디오 AI 모델 모델스코프(ModelScope)는 약 1년 전에 아래 윌 스미스가 스파게티를 먹는 영상을 생성한 적이 있다. 위의 영상과 비교해 보면, 오늘날 우리가 보는 진전이 실로 놀라운 것임을 알 수 있다.
소라는 어떻게 작동할까
소라는 혁신적인 이미지 생성 모델 DALL-E 3의 시각 데이터 처리 방식을 훈련하여 개발되었다고 한다. 덕분에 소라는 동일한 기술력을 바탕으로 영상 프레임, 이미지, 기타 포맷을 생성할 수 있다.
이것은 또한 달리의 혁신적인 요약 기술도 활용했다. 이 기술은 시각적 데이터를 바탕으로, 매우 상세한 텍스트 설명을 생성할 수 있다. 오픈 AI에 따르면, 이것 덕분에 소라가 프롬프트 지시를 더 정확하게 따를 수 있다고 한다.
이 회사는 소라를 “확산 모델”이라고 설명했다. 이는 랜덤 노이즈로 시작하여, 많은 단계에 걸쳐 점진적으로 최종 영상을 생성하는 방식을 의미한다. 이러한 변환 구조는 또한 기존 영상 AI 모델에 비해 압도적인 확장성을 허용한다.
물리학에 대한 소라의 뛰어난 이해력
소라에서 특히 부각되는 것은 실제 물리에 대한 뛰어난 이해 능력이다. 이는 사실적인 동작과 표현, 배경, 장면 변화를 가능하게 한다. 이는 심지어 강아지가 산 위에서 팟캐스트를 진행하는 어이없는 장면도 매우 사실적으로 묘사한다.
https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024
덕분에 카메라 앵글이 바뀌고 캐릭터가 움직여도, 피사체의 물리적 상태는 논리적으로 일관성을 유지하게 된다. 날씨와 같은 배경 효과가 덧붙여져도 마찬가지다.
오픈 AI는 블로그를 통해 이 모델의 능력을 설명하면서, “이 모델은 프롬프트를 통해 유저가 요구한 내용을 이해할 뿐만 아니라, 이것이 물리적인 현실에서 어떤 모습으로 존재하는지도 이해하고 있습니다”라고 소개했다.
필요한 개선사항
오픈 AI는 소라를 개발하며 겪고 있는 어려운 부분도 나누었다. 이들에 따르면 복잡한 여러 캐릭터 교차 장면에서 붕괴가 발생할 수 있다고 한다. 이를 테면 입력의 복잡성에 따라 이상한 물리 실수 또는 객체가 사라지는 현상 말이다. 또한 이벤트의 방향과 순서가 항상 정확하게 지켜지는 것은 아니라고 한다.
이 모델은 또한 행동의 광범위한 맥락이나 결과를 본질적으로 이해하지 못한다고 한다. 예를 들어 한 사람이 음식을 한입 베어 먹었을 때, 음식에 남은 이빨자국을 묘사할 수 없다고 한다.
블로그에 따르면, “이 모델은 프롬프트의 공간적 세부 사항을 혼동할 수 있습니다. 예를 들어, 좌우를 혼동하거나, 특정 카메라 궤적을 따라가는 것처럼 시간이 지남에 따라 진행되는 이벤트에 대한 정밀한 묘사에서 어려움이 발생할 수 있습니다”라고 한다.
마지막으로, 소라는 특정 사물의 복잡한 교차 및 움직임 구현에서 어려움을 겪고 있다고 하며, 특히 사람 손이 어렵다고 한다. 소라가 구현한 손은 평범해 보이지만, 이것이 움직일 때 무시하기 어려운 이질감을 일으킨다고 한다.
Sora is obviously really good, but it hasn't crossed uncanny valley yet. Just look at the woman's hands in the back.pic.twitter.com/IzltjLJefh
— Stephen Flanders (@SteveFlanders22) February 15, 2024
물론 소라의 결과물은 여전히 인상적이고 충격적이다. 새로운 모델의 등장 속도를 고려하면 무섭기까지 하다. 이러한 다양한 감정은 일반 대중은 물론이고 전문가, 규제자, 정치인, AI 전문가들 사이에서도 만연하다.
남아있는 어려운 과제 – 소라의 창의성과 위험성 사이의 균형 맞추기
오픈 AI는 소라를 공식 출시 하기 전에 광범위한 안전 테스트 및 안전장치 구축을 실시할 것이라고 한다.
여기에는 가짜 뉴스, 정치 오보 같은 잠재적 오용 사례에 대한 적대적 테스팅이 포함된다. 또한 소라가 생성한 영상을 자동으로 감지하는 도구를 개발하고, 특정 위험 또는 비윤리적 콘텐츠와 관련하여 엄격한 요구가 추가될 것이라고 한다.
오픈 AI는 소라를 통한 창의적인 가능성에 대해서도 나누었다. 영상 제작자나 예술가들이 소라를 활용하면, 스토리보드나 애니메이션, 모의 영상을 더 쉽게 제작할 수 있다.
이 회사는 모든 혜택과 오용을 전부 예측할 수는 없지만, 안전성을 높이면서 긍정적인 사용 사례를 제공하고 싶다고 한다. 하지만 이 균형을 맞추는 것은, 빠른 기술 발전 속도를 고려하면 쉽지 않을 것으로 보인다.
오픈 AI, 소라가 인공 일반 지능에서 중요한 이정표
오픈 AI는 소라를 두고, “인공 일반 지능(AGI)”에서 중요한 이정표라고 설명했다. 이 모델이 다양한 이해 모드를 연결하고, 이를 일관된 액션으로 전환할 수 있기 때문이다.
이 회사는 소라를 기반으로 구축된 새로운 모델들이 궁극적인 인공지능을 향한 혁신이 될 것으로 기대하고 있다. 이는 복잡한 실제 환경 속에서 실제 사람과 같은 현실 인지 능력을 구축하는 것을 의미한다. 마치 사람처럼 관찰하고 이해하고 이성을 갖추고 행동할 수 있는 능력 말이다.
새로운 AI가 공개될 때마다 딥페이크 및 일자리 감소 우려
반면 소라의 공개로 인해, 오늘날 만연한 딥페이크 같은 가짜 영상에 관한 우려가 심화되고 있다. 이것은 앞으로 오보, 사기, 사칭, 정치적 조작 같은 다양한 위험으로 이어질 수 있다.
오픈 AI는 정책 입안자들과 긴밀히 협력하여, 소라의 책임감 있는 배포를 보장할 것이라고 한다. 하지만 규제당국과 정책들이 인공지능과 박자를 맞추기에는 이 기술이 너무 빨리 발전하고 있다는 지적도 있다.
몇몇 크리에이티브 전문가들은 이러한 도구로 인한 경제적 우려도 제기했다. 이 기술이 마케팅, 애니메이션, 비주얼 이펙트 등 일자리 수천 개를 제거할 수 있기 때문이다.
실제로 최근 시연된 자료에 포함된 장면 레이아웃, 캐릭터 움직임, 자막, 대본 등은 오늘날 전 세계 수십만 명에게 일자리를 제공하는 영역이다. 어쩌면 이러한 모델은 몇 년 안에 영상 산업을 완전히 물갈이할 수도 있을 것이다. 실제로 이러한 인력을 몇 푼의 인공지능 구독비로 대체할 수 있다면, 이는 많은 기업에게 매력적일 것이다.
연방거래위원회, 인공지능 사칭 단속
지난 목요일 소라를 둘러싼 관심이 커지자, 연방거래위원회(FTC)는 실제 인물의 동의 없이 누군가를 사칭할 수 있는 인공지능 도구를 금지하기로 결정했다.
1. Fraudsters are using voice cloning & other AI tools to impersonate individuals with eerie precision and at scale. @FTC proposes to expand its impersonation rule to cover impersonation of individuals, so these fraudsters would pay hefty penalties.https://t.co/8ON0G63ZjL
— Lina Khan (@linakhanFTC) February 15, 2024
초현실적인 딥페이크 기술에 대해 급증하는 불만과 대중의 우려를 고려하여, 연방거래위원회는 사기, 명예훼손 같은 악의적인 인공지능 사용을 방지하는 것을 목표로 삼고 있다.
그에 따라 오늘날 신원도용이나 오용에 대한 기존 보호장치가 더 확장될 것이다. 특히 인공지능이 현실과 가상 사이의 선을 모호하게 만듦에 따라, 이러한 조치는 더 설득력을 갖출 것으로 보인다.
오픈 AI, 초기 피드백이 중요하다고 밝혀
오픈 AI에 따르면, 소라 연구를 초기에 공개하는 것은 위험하지만, 안전하고 윤리적인 고려를 위한 피드백 확보를 위해 중요하다고 한다. 특히 이 기술을 활용하는 다른 애플리케이션이 등장하기 전에 피드백을 확보하는 것이 중요하다는 논리다.
대중의 관점에서 볼 때, 이 기술은 이미 세상에 등장했다. 그리고 좋은 일과 나쁜 일 모두에 적용될 것이다. 따라서 오픈 AI와 규제당국, 입법자들은 모두 힘을 합쳐 이 최첨단 기술의 오용 방지를 위해 노력해야 할 것이다.
이 회사는 대중의 압박과 언론의 관심에도 불구하고, 이 프로젝트를 점진적이고 책임감 있게 추진할 것이라고 강조했다. 그리고 다음 단계에서 연구원, 전문 크리에이터, 정책 전문가, 소수 그룹을 대상으로 시험판을 추가 공개할 것이라고 한다.
“광범위한 연구와 테스트에도 불구하고, 우리는 모든 혜택과 오용 사례를 예측할 수 없습니다”라고 오픈 AI는 인정했다. “따라서 실제 현실 사례에서 배우는 것이 훨씬 안전한 AI 시스템을 개발하고 공개하는 것을 위해 필요합니다”.
오늘날 거의 매주마다 새로운 생성형 AI 모델의 능력이 공개되고 있다. 그에 따라, 기술과 윤리와 정부 사이의 교차점에는 더욱 극심한 바람이 불어 닥칠 것으로 기대된다.
관련 기사