• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
창간특집
인공지능
배터리
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'말하는 영상'통합검색 결과 입니다. (1건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

인물 사진만 찍으면 '말하는 영상'이 나온다

중국에서 인물의 사진만 있으면 말하는 영상을 얻을 수 있는 인공지능(AI) 기술이 공개됐다. 3일 중국 알리바바그룹의 연구진이 '립싱크'에 사용할 수 있는 EMO(Emote Portrait Alive) 프레임워크를 발표했다. 인물 사진과 오디오만 입력하면 사진 속 인물이 중국어, 영어, 한국어 등을 말하는 영상을 구현할 수 있다. EMO는 엔비디아의 오디오2비디오(Audio2Video) 확산 모델을 기반으로 만들어졌다. 연구진은 이 AI 프레임워크를 얻기 위한 훈련에 250시간 이상의 전문 영상을 사용했다고 설명했다. 연구진은 EMO 프레임워크에서 생성된 몇 편의 데모 영상을 공개했다. 보고서에 따르면 이 프레임워크의 작동 과정은 두 단계로 나뉜다. 먼저 참조 네트워크(ReferenceNet)를 사용해 참조 이미지와 동작 프레임에서 특징을 추출한 이후, 사전 훈련된 오디오 인코더를 사용해 사운드를 처리하고 삽입한다. 이후 다중 프레임 노이즈와 얼굴 영역 마스크를 결합해 영상을 생성한다. 이 프레임워크에는 두 가지의 어텐션메커니즘(Attention Mechanism)과 시간 모듈이 결합돼 있어 영상에서 캐릭터 정체성의 일관성과 자연스러운 동작을 보장한다. 연구진은 모델의 작동 원리를 아시브(ArXiv)에 게시했다. 관심이 있는 사람은 깃허브에 방문해 프로젝트를 확인할 수 있다. 아시브는 출판되기 전 논문이 저장되는 무료 웹사이트다.

2024.03.04 08:27유효정

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

‘블록버스터’ 국산 신약 개발하려면 ‘통큰’ 정부 지원 필요하다

"책 대신 '아이패드'로 수업을"…디지털이 바꾼 교실 풍경은

과학자들, 납으로 금 만들었다…'연금술사의 꿈' 실현되나

SKT 감염서버 23대 확인...자료유출 확인 안돼

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현