"1분짜리 AI 영상도 가능?"…엔비디아 TTT로 만든 '톰과 제리'
AI 영상의 한계는 20초? 'TTT'는 1분짜리 복잡한 이야기까지 가능했다 기존의 생성형 AI는 몇 초 길이의 단편 영상만 생성할 수 있었다. 오픈AI(OpenAI)의 소라(Sora)는 최대 20초, 메타(Meta)의 무비젠(MovieGen)은 16초, 구글(Google)의 비오2(Veo 2)는 8초에 불과했다. 이러한 한계는 트랜스포머(Transformer) 구조의 특성에서 비롯됐다. 장문의 컨텍스트를 처리할수록 자원이 기하급수적으로 소모되기 때문이다. 실제로 엔비디아 연구팀은 “1분짜리 동영상은 3초짜리 영상 20개보다 11배 많은 시간과 12배 더 긴 훈련 시간이 필요하다”고 설명했다. 이를 해결하기 위해 기존에는 RNN(순환 신경망) 계열의 경량화된 구조인 '마암바(Mamba)', '델타넷(DeltaNet)' 등의 기법이 활용됐다. 하지만 이들은 단순한 장면에 국한되거나 복잡한 이야기 구조를 구현하지 못한다는 한계가 있었다. 이런 상황에서 엔비디아 연구팀이 발표한 논문은 기존 트랜스포머 모델에 '테스트 타임 트레이닝(Test-Time Training, 이하 TTT)' 레이어를 삽입함으로써 1분짜리 긴 영상도 자연스럽고 일관되게 생성하는 방법을 제시했다. 실제로 톰과 제리(Tom and Jerry) 에피소드를 기반으로 실험한 결과, 이 기법은 사람 평가 기준으로 기존 기법보다 평균 34점 높은 Elo 점수를 기록하며 품질 우위를 입증했다. 은닉 상태를 '신경망'으로… 기존 RNN보다 훨씬 풍부한 표현력 TTT 레이어는 기존의 RNN 구조에서 고정된 차원의 행렬로 저장되던 은닉 상태(hidden state)를, 신경망 자체로 바꾼 것이 핵심이다. 논문에서는 이 은닉 상태를 2층짜리 MLP(다층 퍼셉트론)로 구성해 비선형성과 표현력을 강화했다. 입력 시퀀스가 주어지면, TTT는 해당 시퀀스를 실시간으로 학습하면서 은닉 상태를 업데이트하며 출력을 생성한다. 이 과정을 '내부 루프(inner loop)' 학습이라고 하며, 테스트 중에도 새로운 데이터를 기반으로 학습이 진행된다는 점에서 기존 트랜스포머와 큰 차이를 보인다. 또한 비순차(non-causal) 구조의 트랜스포머 모델에도 TTT를 적용할 수 있도록, 입력 순서를 반전시켜 양방향으로 학습하는 '바이디렉션(bi-direction)' 기법도 적용했다. 이를 통해 과거뿐만 아니라 미래 시점의 정보를 함께 고려한 시퀀스 처리가 가능해졌다. 톰과 제리 7시간 분량으로 훈련… 3초→63초로 점차 확장 모델 훈련에는 1940년대 톰과 제리 에피소드 81편, 총 7시간 분량의 영상이 활용됐다. 영상은 3초 단위로 세분화되어 세부 장면, 배경, 등장인물, 카메라 움직임 등까지 포함된 서술형 텍스트(Format 3)로 정제되었다. 이를 기반으로 모델은 3초 → 9초 → 18초 → 30초 → 63초로 점진적으로 길이를 확장하는 멀티스테이지 파인튜닝(multi-stage fine-tuning)을 거쳤다. 이 방식은 기존 모델의 지식을 보존하면서도 긴 시퀀스 생성 능력을 강화할 수 있는 실용적인 방법으로 제시됐다. 훈련 속도와 메모리 효율을 높이기 위해 엔비디아(NVIDIA) Hopper GPU 아키텍처의 DSMEM 기능을 활용한 온칩 텐서 병렬화(On-Chip Tensor Parallelism)도 적용되었다. 이 기술은 대형 신경망을 여러 스트리밍 멀티프로세서(SM)에 분산해 병렬로 처리할 수 있도록 해 TTT 레이어의 효율적인 실행을 가능하게 했다. 인간 평가에서 34점 차이로 1위…동작 자연스러움·장면 일관성 탁월 TTT 기반 모델은 다양한 평가 지표에서 기존 RNN 기반 기법을 압도했다. 인간 평가자들이 텍스트 적합성, 동작 자연스러움, 미적 품질, 시간적 일관성 등 네 가지 항목에 대해 1:1로 비교한 결과, TTT-MLP가 모든 항목에서 최고 점수를 기록했다. 특히 동작의 자연스러움과 장면 간 일관성에서 각각 39점, 38점의 Elo 점수 차이를 보이며 확연한 우위를 나타냈다. 예를 들어, 톰이 파이를 먹고 제리가 그것을 훔치는 장면에서, TTT-MLP는 톰과 제리의 동작을 자연스럽게 이어지도록 표현했고, 배경의 조명과 물체의 위치도 장면 전환 시 일관되게 유지됐다. 반면 슬라이딩 윈도우 어텐션(sliding-window attention)이나 게이트드 델타넷(Gated DeltaNet) 등의 기법은 조명 변화나 캐릭터 중복 등의 오류를 자주 보였다. 추론 속도는 여전히 느리고, 부자연스러운 장면도… 한계와 다음 단계 TTT-MLP는 품질 면에서는 우수하지만, 효율성 측면에서는 개선 여지가 있다. 같은 길이의 영상 생성 시, 추론 속도는 게이트드 델타넷보다 1.4배, 학습 속도는 2.1배 느렸다. 또한 생성된 영상에는 여전히 공중에 뜬 치즈처럼 부자연스러운 움직임이나 조명이 갑자기 바뀌는 등 일부 시각적 아티팩트가 남아 있다. 이는 사전 학습에 사용된 CogVideo-X 5B 모델의 한계에서 비롯된 것으로 추정된다. 향후 연구에서는 보다 큰 규모의 은닉 상태(예: 트랜스포머 자체)를 활용하거나, TTT를 사전 학습 단계부터 통합하는 방법, 또는 더 정교한 병렬화 커널 개발 등을 통해 품질과 효율성 모두를 끌어올릴 수 있을 것으로 기대된다. FAQ Q. 지금도 AI가 영상 생성하는데, 'TTT'는 뭐가 다른가요? A. 기존의 AI 영상 생성 모델은 3~20초 사이의 짧은 단일 장면만 만들 수 있었어요. 하지만 'TTT(Test-Time Training)'는 학습 중이 아닌 실행(테스트) 중에도 스스로 학습을 이어가는 방식이라, 1분짜리 영상처럼 긴 이야기 구조와 여러 장면 전환이 필요한 콘텐츠도 일관성 있게 생성할 수 있어요. Q. 영상 품질은 얼마나 좋아졌나요? 사람이 봐도 괜찮을까요? A. 연구팀은 실제 사람 평가자 100명을 대상으로 여러 AI 영상 생성 기법을 비교했는데요, TTT 모델이 평균 34점 더 높은 Elo 점수를 기록했어요. 특히 동작의 자연스러움, 장면 간 연결, 시각적 매끄러움에서 높은 평가를 받았습니다. 예를 들어, 톰이 파이를 먹고 제리가 몰래 훔쳐가는 장면도 자연스럽고 매끄럽게 이어졌어요. Q. 이 기술이 상용화되면 어떤 데에 쓰일 수 있나요? A. TTT 기반의 긴 영상 생성 기술은 AI 애니메이션 제작, 유튜브 콘텐츠 자동 생성, 교육용 시뮬레이션 영상, 나아가 게임 스토리 영상 자동 생성 등 다양한 분야에 활용될 수 있어요. 특히 장면 전환과 내러티브가 중요한 콘텐츠 제작에 강점을 보입니다. ■ 이 기사는 AI 전문 매체 'AI 매터스'와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. (☞ 기사 원문 바로가기)