• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
인공지능
배터리
양자컴퓨팅
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'영상 인공지능'통합검색 결과 입니다. (27건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

[영상] "오픈AI '소라'보다 낫다"…메타, '무비 젠'으로 동영상 생성 AI 시장 흔들까

오픈AI가 만든 '소라'에 맞서 동영상 생성 인공지능(AI) 모델들이 쏟아지고 있는 가운데 '페이스북' 모회사 메타 플랫폼이 우수한 기술을 앞세워 최근 새로운 무기를 공개해 주목 받고 있다. 6일 업계에 따르면 메타는 지난 4일 공식 블로그를 통해 동영상 생성 AI 모델 '무비 젠(Movie Gen)'을 공개했다. 영상은 물론 오디오를 동시에 생성하는 것이 특징으로, 영상 중 일부분만 편집할 수 있는 등 강력한 기능도 갖추고 있다. '무비 젠'은 텍스트 입력으로 최대 16초 길이의 새 동영상을 만들 수 있다. 기존 동영상을 편집할 수도 있고 오디오를 생성할 수도 있으며 사진을 사용해 실제 인물이 등장하는 맞춤형 동영상도 만들 수 있다. 메타는 이번 연구가 2022년 공개한 '메이크 어 신(Make-A-Scene)', '메이크 어 비디오(Make-A-Video)' 등을 통해 쌓은 노하우를 반영했다고 강조했다. 더불어 하마가 물속에서 헤엄치고 코알라가 서핑을 즐기는 한편, 남극의 펭귄이 옷을 갈아입는 등 '무비 젠'을 이용한 만든 동영상도 공개했다. 메타는 "할리우드에서 성공하기를 희망하는 영화 제작자 지망생이든, 동영상 제작을 즐기는 크리에이터이든, 누구나 창의력을 향상시키는 데 도움이 되는 도구를 이용할 수 있어야 한다고 생각한다"고 설명했다. 기능은 이제까지 등장한 영상 모델 중 가장 강력한 편으로 평가된다. 최대 16FPS로 16초짜리의 사실적이고 개인화된 HD 비디오와 48kHz 오디오를 제작할 수 있으며 비디오 편집 기능도 제공한다. '무비 젠'은 일부 내부 직원과 일부 영화 제작자를 포함한 소수의 외부 파트너에게만 우선 제공된다. 메타는 내년에 인스타그램과 왓츠앱, 메신저 등 자사의 소셜미디어 앱에 탑재할 계획이다. 이번 일로 동영상 생성 AI 시장 경쟁은 과열되는 분위기다. 올해 2월 오픈AI가 '소라(Sora)'를 선보인 이후 구글 동영상 생성 AI '비오(Veo)'와 중국 콰이쇼우 '클링', 미국 루마 AI '드림 머신', 런웨이 '젠-3 알파' 등이 지금까지 공개됐다. 오픈AI의 '소라'는 최대 1분 길이의 동영상을 제작할 수 있으며 연내 일반인들도 이용할 수 있을 것으로 예상된다. 구글도 '비오'를 조만간 출시할 예정이다. 런웨이는 지난 7월부터 마케팅과 광고 등 콘텐츠 제작자를 대상으로 '젠-3 알파'를 유료로 제공하고 있다. 앞서 지난해 11월에는 스태빌리티 AI가 '스테이블 비디오 디퓨전'을 선보였다. 올해 1월에는 마이크로소프트(MS)가 비디오 프레임의 움직임을 조작하는 동영상 생성 모델 '드래그누와'를, 바이트댄스는 '매직비디오-V2'를 공개했다. 애플도 2월 대형언어모델(LLM)을 활용해 동영상을 생성하는 '키프레이머'를 내놨다. 이 같은 상황 속에 메타는 "'무비 젠'이 작업 전반에서 업계 유사 모델보다 우수한 성능을 보였다"며 경쟁사들을 겨냥했다. 코너 헤이즈 메타 생성형 AI 제품 부사장은 "더 많은 사람이 동영상 게시물을 만들거나 편집하도록 장려하는 것이 목표"라고 말했다. 업계 관계자는 "오픈AI '소라'가 등장하며 많은 기업들에게 동영상 생성 AI 모델에 대한 강력한 동기가 생겼다"며 "여러 모델들이 하반기에 한꺼번에 풀리면 산업계, 특히 미디어 시장에 엄청난 반향을 일으킬 것으로 보인다"고 말했다.

2024.10.06 10:29장유미

딥페이크 범죄 '급증'…글로벌 테크 기업 대응 나섰다

최근 딥페이크 성범죄와 허위 뉴스 영상 제작이 급격히 증가하면서 이를 탐지·대응하는 기술이 주목받고 있다. 국내외에서 딥페이크 범죄가 사회적 문제로 떠오르자 관련 기업들의 움직임에 대한 시장 기대감이 높아지고 있다. 19일 업계에 따르면 경찰은 올해 500건 넘는 딥페이크 사건을 수사 중이며 특히 10대들이 연루된 사례가 급증하고 있다. 국내외 가해자들은 텔레그램 등 익명성이 보장된 플랫폼을 통해 음란물을 유포하고 있으며 주로 여성인 피해자들이 심각한 피해를 입고 있다. 해외에서도 상황은 심각하다. 유로뉴스에 따르면 유럽에서 제작된 딥페이크 영상 96%가 여성과 청소년을 대상으로 한 음란물이다. 미국에서는 최근 스칼렛 요한슨과 테일러 스위프트 등 유명인들이 딥페이크 포르노의 피해자가 되기도 했다. 딥페이크 음란물뿐만 아니라 가짜뉴스로 인한 문제도 부각되고 있다. 정치인이나 공공 인물의 발언을 조작하거나 허위 정보를 담은 영상을 제작해 유포하는 사례가 증가하고 있기 때문이다. 지난 2022년 국내 지방 선거 당시 윤석열 대통령이 특정 후보를 지지하는 딥페이크 영상이 퍼져 큰 논란이 된 바 있다. 이와 관련해 딥페이크 선거 사용 방지법이 지난 1월 통과됐지만 해외에서는 딥페이크를 통한 가짜뉴스 남용이 여전히 큰 문제가 되고 있다. 이런 상황에서 딥페이크 탐지 기술에 대한 수요가 급증하고 있다. 글로벌 시장조사업체 마켓앤마켓에 따르면 글로벌 딥페이크 탐지 시장은 지난 2022년 5억 달러(한화 6천500억원)였지만 오는 2027년에는 18억 달러(한화 2조3천400억원) 규모로 성장할 것으로 예상된다. 이미 마이크로소프트는 지난 2020년 AI와 머신러닝을 결합한 '비디오 인증기(Video Authenticator)'를 공개한 바 있다. 이 도구는 사진이나 비디오를 분석해 미디어가 조작되었을 가능성을 백분율로 나타내는 신뢰도 점수를 제공한다. 특히 실시간으로 동영상을 프레임 단위로 분석해 각 프레임에서 조작 가능성을 보여준다. 미국뿐 아니라 유럽 스타트업들도 이에 가세했다. 그 중 에스토니아의 센티넬 AI는 클라우드 기반 솔루션을 통한 실시간 딥페이크 탐지를 제공하는 것으로 알려졌다. 이 회사는 얼굴 랜드마크 분석과 시간적 일관성 등을 활용해 딥페이크를 식별한다. 특히 최근 딥페이크 탐지 경연대회에서 135만 달러의 상금을 획득하며 기술력을 인정받았다. 요하네스 타메캔드 센티넬 AI 대표는 자사 제품을 소개하며 "우리는 잘못된 디지털 기술의 활용이 민주주의에 가장 큰 위협 중 하나라는 것을 잘 알고 있다"며 "사회가 잘못된 정보에 빠지는 것을 막기 위해 최선을 다할 것"이라고 밝혔다. 네덜란드의 센시티 AI도 실시간 딥페이크 탐지 플랫폼을 제공하고 있다. 이 회사는 얼굴 조작, 음성 합성, 전신 조작 등 다양한 유형의 딥페이크를 식별하며 인공지능(AI) 기반 분석으로 조작된 미디어의 출처를 추적한다. 조르지오 파트리니 센시티 AI 대표는 "딥페이크 기술의 발전 속도가 매우 빠르기 때문에 우리의 탐지 시스템도 지속적으로 진화해야 한다"며 "디지털 미디어 생태계의 신뢰성을 유지하는 것이 우리의 목표"라고 말했다. 이렇게 유럽에서 딥페이크 탐지 기술이 발전한 것은 민주주의와 인권이 딥페이크 위협에 직접적으로 노출되었기 때문이라고 전문가들은 지적한다. 개인정보 보호를 중요시하는 유럽의 규제 환경이 딥페이크 기술 오용에 대한 경각심을 높였다는 것이 이들의 분석이다. 국내에서도 다양한 테크 기업들이 딥페이크의 폐해를 예방하기 위해 노력을 기울이고 있다. 특히 라온시큐어는 올 하반기에 개인이 쉽게 딥페이크 여부를 체크할 수 있는 탐지 서비스를 자사의 개인용 모바일 백신 애플리케이션에 탑재할 계획이다. 라온시큐어의 딥페이크 탐지 기술은 합성된 얼굴과 정상 얼굴을 각각 학습해 이를 상호 비교 분류할 수 있도록 AI를 학습시킨다. 이미지부터 동영상, 안면 추출, 주파수 계열 변환 등 다양한 기술을 적용해 생성형 AI의 특징을 탐지한다. 이때 딥페이크 탐지 정확도를 높이기 위해 여러 모델을 동시에 사용한다. 특정 학습 유형에 맞춰 설계된 각각의 모델이 따로 존재하기 때문에 한 가지 모델에 의존했을 때 발생하는 탐지 정확도 저하를 방지할 수 있다. 이를 통해 얼굴의 부자연스러운 형태· 움직임·오디오 등을 종합적으로 분석해 더욱 정교한 탐지가 가능할 것으로 전망된다. 박현우 라온시큐어 AI연구센터장은 "딥페이크가 보편 기술이 돼 이를 악용한 범죄가 퍼지는 와중에 간편하게 딥페이크 여부를 탐지할 수 있는 기술도 보편화돼야 한다"며 "자사 보안 앱인 '라온 모바일 시큐리티'에 딥페이크 탐지 기능을 탑재하는 등 모든 개인들을 위한 잠재적 피해 예방에 매진하겠다"고 강조했다. 딥브레인AI도 '딥페이크 탐지 솔루션'을 개발해 주목받고 있다. '딥페이크 탐지 솔루션'은 사진의 경우 12분, 짧은 영상은 57분 내에 딥페이크 여부를 판별할 수 있다. 이미지와 비디오를 픽셀 단위로 분석하고 음성은 주파수, 시간, 노이즈 등 다양한 요소를 종합적으로 고려해 탐지하는 것으로 알려졌다. 이렇게 국내 기업들이 약진하는 가운데 딥페이크 방지 기술의 개발만으로 실제 범죄를 완전히 막기에는 한계가 있다는 지적도 나온다. AI 기술이 기하급수적으로 발전하고 있기 때문이다. 익명을 요청한 국내 AI 기업 관계자는 "딥페이크 기술은 계속해서 발전하고 있어 탐지 기술만으로는 완벽한 대응이 어렵다"며 "기술의 오용을 막기 위한 사회적 합의와 강력한 처벌 등이 병행돼야 한다"고 강조했다.

2024.09.19 17:40조이환

첨단 영상 분석으로 딥페이크 신종범죄 잡는다

한국전자기술연구원(KETI·원장 신희동)은 국립과학수사연구원(원장 이봉우)과 과학수사 분야 연구 협력을 위한 업무협약(MoU)을 체결했다고 밝혔다. KETI와 국과수는 업무협약을 계기로 인공지능(AI) 기반 영상·음성 분석 등 첨단 분야 공동 기술 개발을 추진함과 동시에 과학수사 분야 내 기술 확산을 지원하는데 합의했다. KETI는 딥러닝 기반 영상 인식추적·영상 화질개선 등 지능형 영상처리 기술, 멀티모달 인터랙션 및 추론, 자연어 처리 등의 인공지능 기술 등 첨단 지능 분야 핵심 기술 육성에 집중하고 있다. 국과수는 행정안전부 소속 과학수사 감정연구기관으로, CCTV·비디오·사진을 포함하는 각종 영상·음성 판독/개선 기술 등 범죄수사에 필요한 법공학 분야 연구개발을 수행 중이며, 주요 범죄 사건사고에 필요한 해석과 감정을 지원한다. KETI와 국과수는 이번 협약을 통해 ▲과학수사에 필요한 영상 및 음성 분석 기술 교류 ▲영상 및 음성 분석 기술 활용을 위한 인적 교류 ▲과학 수사 분야 신기술 수요 공동 발굴 및 정부 전략 수립 지원 등 첨단 분야에서의 R&D 협력을 강화할 계획이다. 협약식에서는 KETI 지능정보연구본부의 지능형영상처리연구센터 및 인공지능연구센터, 국과수 법공학부의 디지털과와 법과학교육연구센터 주요 관계자가 참석해 첨단 과학수사 분야 주요 협력 기술을 논의했다. KETI 지능정보연구본부는 인물의 행동 양식을 모방하는 극사실적 인물 구현 등의 동영상 합성·판별 기술을 바탕으로 딥페이크 영상과 음성을 판별하는 탐지 기술을 보유 중이다. 신희동 KETI 원장은 “다가오는 미래 치안의 핵심은 첨단 과학 기술 개발이며, KETI는 유망 ICT 기술 구현과 확산에 필요한 최적의 파트너”라며 “두 기관의 협약이 향후 국민 안전을 보장하는 과학치안 사회로 이어지길 기원한다”고 밝혔다. 이봉우 국과수 원장은 “최근 인공지능 기술 발달에 따라 딥페이크와 같은 신종범죄로 인해 국민 안전이 위협받고 있다”며 “두 기관의 힘을 모아 기술을 연구·개발해 국민이 안전한 사회를 구현할 수 있도록 노력하겠다”고 말했다.

2024.07.10 08:25주문정

버즈니, CJ온스타일에 커머스AI 구독 서비스 제공

버즈니(대표 남상협·김성국)는 CJ온스타일과 인공지능 활용 기반 비즈니스 협업을 맺고 버즈니 커머스 AI 구독 서비스 'A Plus AI'를 제공한다고 27일 밝혔다. 버즈니는 2008년 세계 검색 대회 TREC 에서 1위(KLE팀)를 하면서 출발한 인공지능 기술 기반 서비스 회사다. 기술 개발과 함께 모바일 커머스 플랫폼 '홈쇼핑모아'를 10년 넘게 운영하며 이커머스 서비스 경험을 쌓았고, 올해부터 자사 커머스 AI기술을 제품화해 AI 도입이 필요한 이커머스사에 커머스 AI 구독 서비스를 제공하고 있다. 현재 버즈니 '에이플러스 AI'에서 제공하고 있는 AI 구독 서비스는 ▲A Plus 검색 AI ▲쇼핑 어이스턴트AI ▲숏폼 편집 AI ▲하이라이트 AI ▲리뷰분석 AI ▲추천 AI 등이 있다. 이번에 버즈니가 CJ온스타일에 공급하는 기술은 A Plus 숏폼 AI를 비롯해 카테고리 자동 분류, 고객문의 자동분류, 광학문자 인식 분석 기술이다. 이중 A Plus 숏폼 AI는 영상 편집자의 작업 효율을 제고하기 위한 서비스로 AI를 활용해 긴 영상에서 하이라이트로 예상되는 클립 구간을 자동 선별해 편집 시간을 효과적으로 단축시킨다. 버즈니 숏폼 AI는 편집자가 원하는 장면 검색 기능을 함께 제공해, AI와 영상 전문가 간의 시너지를 극대화한다. 또 하이라이트 구간을 추출하는 단계부터 숏폼 템플릿에 맞는 디자인 편집까지 전 과정을 자동화해 영상 편집자의 다양한 필요에 대응할 수 있다. 남상협 버즈니 대표는 "숏폼 AI의 경우 비즈니스 과정에서 숏폼 비디오를 활용하는 모든 이커머스 기업과 협업이 가능하다"며 "앞으로도 커머스 도메인에 특화된 ' A Plus AI'를 통해 파트너사의 AI기반 디지털 전환과 실질적인 매출 성장에 도움 되고자 한다"고 말했다.

2024.06.27 17:13백봉삼

"초음파 진단기가 못 본 것도 보여 드립니다"

꿈은 삶의 이정표이자 동력이다. 꿈은 곧 미래의 삶이다. 꿈은 그래서 소중하다. 꿈은 사람마다 다르고 다른 만큼 다채롭다. 스타트업이 꾸는 꿈도 그럴 것이다. 소중하고 다채롭다. '이균성의 스타트업 스토리'는 누군가의 꿈 이야기다. 꿈꾸는 사람이 자신의 이야기를 들려주고 다른 꿈꾸는 사람을 소개하는 릴레이 형식으로 진행된다. [편집자주] “초음파 진단기가 못 본 것도 보여 드립니다” 초음파 진단기는 MRI나 X레이 등 다른 의료 영상 장치에 비해 몇 가지 장점이 있다. 인체에 해롭지 않고, 휴대가 가능하며, 가격이 저렴하다는 것이 큰 특징이다. 이 때문에 세계적으로 광범위하게 보급되어 있다. 초음파 진단기는 그러나 더 개선해야 할 한계도 있다. 영상이 흐릿해 알아보기가 쉽지 않고, 주관적 경험에 의존해 판독해야 하며, 촬영한 인체 조직에 대한 정보도 충분하지 않다. 배럴아이 김명기 공동창업자는 이런 한계를 극복하고자 한다. ■배럴아이라는 심해어를 아시나요? 배럴아이(barreleye)는 빛이 잘 들어오지 않는 깊은 바다에 사는 심해어다. 수심 400~2,500m에 서식한다. 대서양 동부(기니만)·태평양 서부(일본·오스트레일리아· 뉴질랜드)·열대 인도양 등에 분포하며 생김새가 기괴하다. 두개골이 투명하며 눈은 커다란 원동형인 게 특징다. 미세하게 들어오는 빛을 모아 사물을 분별하기 위해 독특하게 진화한 것이다. “우리 회사의 비전은 'Beyond Ultrasound: Seeing the Unseen'이에요. 현재의 초음파 진단기로는 볼 수 없었던 것을 볼 수 있도록 해주는 솔루션을 내놓는 것이죠. 우리의 일이 빛이 거의 들어오지 않는 심해에서 배럴아이가 사물을 보는 것과 비슷하다고 생각했죠. 그래서 회사이름도 배럴아이로 지었어요.” ■초음파 영상에서 보이지 않는 것들 초음파는 주파수 20kHz 이상의 음파다. 사람 귀로는 들을 수 없다. 이 음파를 인체 내부로 전파시키면 체내 연조직과 부닥친 뒤 반사하게 된다. 반사는 조직에 따라 다르다. 그렇게 반사된 음파를 통해 영상을 얻는다. 이 영상으로 조직의 크기나 특성을 알 수 있다. “초음파 영상은 눈으로 볼 수 없는 인체 내부 조직을 보여주죠. 조직에서 반사된 음파를 영상으로 바꾸는 방식으로 볼 수 있는 거죠. 그런데 반사된 음파를 영상으로 바꿀 때 소실된 정보도 적지 않아요. 영상으로 바꾸는 과정에서 음파 전체를 사용하는 게 아니라 음파 윤곽만 사용한다고 보면 이해하기 쉽죠. 실제 음파의 파동은 획득된 영상보다 훨씬 미세하고 더 많은 정보를 가지고 있는데 많은 부분이 생략된 셈이죠. 영상은 또 형태학적 정보만 가지고 객관적이기보다는 주관적 경험으로 판독하고 진단할 수밖에 없어요.” ■“AI를 통해 소실된 정보까지 정량적으로 보여줍니다” 배럴아이가 하고자 하는 일은 인공지능(AI)을 이용해 초음파 진단기에서 소실된 정보까지 더해 조직 특성을 정량적으로 제시하는 것. 흐릿한 형태학적 흑백 영상을 조직의 생태학적 특성을 반영한 칼라 영상으로 바꿔주고, 무엇보다 세포의 병리학적 변화에 민감한 바이오마커(biomarker)를 복원했다. “초음파 영상을 통한 진단에 필요한 바이오마커를 정량적으로 제시할 수 있다는 게 가장 큰 특징이고, 이를 세계 최초로 상용화했다고 보시면 됩니다. 이를 테면 양성종양인지 악성종양(암)인지를 진단할 때 과거에는 형태학적 영상을 보고 의사의 주관적인 축적된 경험을 통해 판단해왔다면 우리 솔루션은 그 판단의 지표, 즉 바이오마커를 정량적으로 제시해주는 것이죠. 바이오마커는 크게 네 가지인데, 음파가 조직에서 반사되는 속도, 음파가 소실되는 정도, 세포의 크기, 일정 공간에서 세포의 양 등이 그것입니다. 이 지표를 수치로 측정해 양성종양인지 악성종양인지를 판별할 수 있게 해주죠. 임상 결과 우리 솔루션을 덧붙이게 되면 초음파 진단기만 쓸 때보다 진단정확도(Diagnostic performance)가 90%에서 95%로 5% 포인트 높아지고, 진단에 드는 시간은 14초에서 4초로 71% 단축되는 것으로 나왔어요.” 배럴아이는 이 초음파 진단 보조 솔루션을 유방암 진단에 먼저 투입하고, 추후에 지방간 심장질환 폐질환 등에도 투입할 계획이다. ■카이스트 연구소 기반의 기술 창업 배럴아이는 KAIST 연구소 기반 기술 스타트업이다. 배현민 KAIST 전기 및 전자공학부 교수가 창업자이자 대표이사(CEO)를 맡았다. 배 교수는 KAIST창업원장이기도 하다. 그동안 여러 기술 기업 창업에 관여했다. 김명기 공동창업자는 배 교수의 제자다. 사내 직함은 수석. 기술 분야를 총괄한다. 김 수석은 카이스트에 입학하면서 즐겁게 기술을 개발하고 그것이 인류에 도움이 되는 방향을 고민해왔다고 한다. 그러던 중 배 교수가 여러 제자와 연구실 창업을 하고 그 아이템이 인류에 도움이 된다는 사실을 발견했다. 김 수석은 그 길로 배 교수 연구실에 인턴으로 들어가 이후 석박사 과정까지 마쳤다. 정량적 초음파 진단 솔루션은 그 과정에서 얻은 아이템이다. 세계적으로 필요성이 제기되고 논문도 다수 나왔지만 상용화되지 않았다는 사실에 주목했다. 2016년부터 개념을 잡고 3년 여간 온갖 시행착오 끝에 2018년부터 본격적인 모델 설계에 나설 수 있었다. 그리고 이 아이템으로 2021년에 본격 창업했다. 이 과정에서 논문 15건을 발표했으며 국내외 특허 14건을 등록했다. 배럴아이는 아직 매출이 발생하지 않고 있다. 오는 8월 식약처 인허가를 완료할 예정이며 이후 매출이 발생할 것으로 보고 있다. 올해 5억원, 2025년 20억원, 2026년 50억원, 2027년 250억원 등으로 매출이 늘어날 것으로 보고 있다. 2025년 하반기에는 미국 FDA 승인도 받을 수 있을 것으로 예상되고 있다. "서비스 창업보다는 기술 창업을 하고 싶었어요. 아이디어보다는 원천 기술에 기반한 창업이 더 안정적이라고 본 것이죠. 우리가 세계 최초로 상용화한 기술로 초음파 진단의 패러다임을 변화시킬 수 있다는 데 보람을 느껴요." 덧붙이는 말씀: 김명기 배럴아이 공동창업자가 다음 인터뷰 대상으로 추천한 사람은 인공지능 기반의 신약개발 회사 히츠의 임재창 공동창업자입니다.

2024.06.13 13:18이균성

中 콰이서우, 오픈AI '소라' 대적할 AI 영상 생성 기술 출시

중국 동영상 플랫폼 콰이서우가 미국 오픈AI의 '소라'에 대적하겠다며 초거대 인공지능(AI) 모델을 기반 이미지 생성 기술을 발표했다. 소라는 명령어를 입력하면 1분 분량의 영상을 만들어주는 AI 서비스다. 6일 중국 언론 IT즈자에 따르면 콰이서우는 '텍스트투이미지', '이미지투이미지' 기능을 제공하는 AI 초거대 모델 '칼라스(KOLORS, 중국어명 可灵)'를 발표하고 공식 홈페이지와 위챗 등을 통해 서비스한다고 밝혔다. 칼라스는 텍스트 입력을 통해 1080P의 2분 길이(30fps) 영상을 생성할 수 있으며 화면 비율을 자유롭게 조정할 수 있다. 유화, 컴퓨터그래픽, 핸드페인팅, 중국 판화, 3D 등 다양한 이미지 스타일 제작과, 8K의 고화질 이미지 생성을 지원한다는 게 콰이서우의 설명이다. 주요 기능은 '텍스트투이미지' 기능으로, 텍스트를 입력하면 다양한 스타일과 높은 화질을 갖춘 이미지를 생성한다. 입력된 테스트를 토대로 다양한 스타일의 이미지를 생성해주며 사용자가 참조 이미지를 업로드할 수도 있다. 이미지의 스타일, 테마, 세부 사항을 기반으로 새 작품을 생성한다. 'AI 이미지 커스터마이징' 기능은, 사용자가 인물 사진을 업로드하면 다양한 가상 이미지로 만들어주는 것이다. 일명 '인물 보존 기술'을 이용해 인물의 자연스러운 특성을 유지하면서 다양한 스타일의 인물 이미지를 생성해주는 것이다. 콰이서우는 "칼라스 초거대 모델은, 콰이서우의 AI팀이 자체 개발했으며, 소라와 유사한 기술 노선을 채택하면서 여러 자체 개발 기술 혁신을 결합해 소라에 맞대결 할 것"이라고 전했다. 콰이서우에 따르면, 칼라스의 초거대 모델 매개변수 규모는 10억 개 수준으로, 오픈소스 커뮤니티 소스 및 자체 AI 기술을 더했다. 텍스트투이미지 기능의 긴 텍스트와 복잡한 의미의 텍스트 입력을 위해 강화학습보상모델기술(RLHF)도 적용했다. 매체에 따르면 콰이서우는 칼라스 초거대 모델에 더 많은 기능이 구현하고, 표정과 신체 움직임이 동시에 구현되는 새로운 'AI 노래와 춤' 서비스도 출시할 예정이다. 한 장의 사진만 있으면, 노래하고 춤추는 영상을 얻을 수 있는 기능이다. 콰이서우는 지난해 연말 기준 평균 월 활성 사용자 수가 7억 명을 넘어선 중국의 주요 영상 플랫폼이다.

2024.06.07 09:08유효정

알리바바 "사진 올리면 춤추는 영상으로 바꿔줘요"

중국 알리바바가 인공지능(AI)을 이용해 인물의 정지 사진을 춤추는 영상으로 바꿔주는 서비스를 시작했다. 4일 중국 언론 진룽졔에 따르면 알리바바클라우드의 초거대 AI '퉁이쳰원' 앱에 무료 신기능인 '퉁이우왕'이 개시됐다. 사용자가 안내에 따라 사진을 업로드하면 10분 안에 신체적 특징을 반영한 댄스 동영상이 생성된다. 이 동영상은 원본 이미지의 얼굴 표정, 신체 비율, 의상, 배경과 기타 특징이 다 유지된다. 현재 퉁이쳰원은 몽골 댄스 등 최근 중국에서 유행하는 12개의 인기 댄스 템플릿을 사용자에게 제공한다. 이 기능의 알고리즘으로는 알리바바 퉁이실험실에서 자체 개발한 영상 생성 모델 '애니메이트 애니원(Animate Anyone)이 사용됐다. 이 모델은 지난해 11월 말 트위터, 유튜브 등 해외 소셜미디어 플랫폼에서 인기를 끌며 관련 영상 조회수 1억 회를 돌파하기도 했다. 이날 알리바바가 발표한 기술은 앞서 지난 달 중국 바이트댄스와 싱가포르국립대학이 공동으로 개발한 '매직애니메이트(MagicAnimate)'와 유사한 기술이다. 한 장의 사진만 있으면 일련의 내장된 셋트 동작과 결합해 댄스 영상을 생성할 수 있다. 사진만 있으면 AI를 이용해 외모와 표정 및 분위기, 배경이 유지된 댄스 영상을 만들 수 있다는 점이 같다.

2024.01.05 08:09유효정

  Prev 1 2 Next  

지금 뜨는 기사

이시각 헤드라인

이재용 회장, 10년 사법리스크 끊고 경영 무대 전면에…'뉴삼성' 시동

135억원 투입해 'G-클라우드' 확장…정부, 공공시스템 대전환 나선다

"테슬라와 경쟁하지 않아...B2B 자율주행 선두 되겠다"

"새 장관님은 ENTJ"...취임 직후 직원소통 나선 배경훈 장관

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.