• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
인공지능
스테이블코인
배터리
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'영상 인공지능'통합검색 결과 입니다. (26건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

캐럿, 구글 최신 영상 생성 AI '비오2' 탑재

인공지능(AI) 영상 생성 플랫폼 '캐럿' 운영사 패러닷(대표 장진욱)이 구글 딥마인드가 개발한 차세대 고성능 영상 생성 AI 모델 '비오2'를 탑재했다고 31일 밝혔다. 비오2는 기존 모델 대비 물리 법칙과 인간 움직임에 대한 이해도가 높다. 따라서 다양한 구도를 활용해 영상을 제작할 수 있으며, 결과물 품질 또한 더욱 자연스럽고 사실적이다. 아울러 우수한 프롬프트 이행 능력으로 사용자 의도를 영상에 정확히 반영하며, 다양한 렌즈 효과, 영화적 기법 등을 학습해 제작자 창의성을 더욱 폭넓게 구현할 수 있다. 캐럿은 구글 승인을 받아 비오2의 정식 서비스 제공을 시작했다. 현재 비오2는 비공대 베타 테스트 단계로, 일부 기업에게만 제공하고 있다. 캐럿은 현재 720p 화질로 5초 영상 생성을 지원하지만, 향후 4K 화질, 최대 2분까지 수준을 높일 계획이다. 또한 비오2 탑재를 기념해 사용자를 대상으로 해당 기능을 7일까지 30% 할인가에 제공한다. 장진욱 패러닷 대표는 "캐럿이 국내 대표 AI 영상 플랫폼으로서 비오 2를 고객에게 선보일 수 있어 기쁘다"며 "앞으로도 사용자들이 글로벌 AI 콘텐츠 트렌드를 손쉽게 따라갈 수 있도록 최신 모델을 발빠르게 탑재하겠다"고 말했다. 캐럿은 이미지 및 영상 콘텐츠 제작을 특화시켰다. 현재 이마젠3, 플럭스 등 이미지 생성 모델 7개, 비오 2, 클링 등 영상 생성 모델 9개를 지원한다. 각 모델을 개별 구독할 필요 없이 캐럿에서 제공하는 멤버십에 가입하거나 포인트를 충전, 사용하는 일 만으로 합리적인 가격에 고품질 콘텐츠를 제작할 수 있다.

2025.03.31 08:44백봉삼

"中에 220배 뒤처져"...자율주행차 발목잡는 규제

“지난해까지 중국 바이두가 쌓은 자율주행 운행 기록이 1억1천만km였다. 국내 1위 업체로 평가받는 오토노머스에이투지가 50만km로 약 220배 차이가 난다. 방대한 데이터 차이를 극복하려면 양질의 데이터를 수집할 수 있게 해야 한다.” 이상동 한국자율주행산업협회 팀장은 지난 27일 열린 '자율주행 산업 지원 국회 토론회'에서 이같이 말했다. 최근 중국 스타트업이 내놓은 AI 모델 '딥시크'가 저성능 칩으로 충격적인 성능을 보여주자 BYD와 지리 등 현지 자동차 기업들이 잇따라 자율주행 기술에 딥시크를 활용하겠다고 나섰다. 일찍이 자율주행 기술을 내세워온 테슬라도 지난해 말 완전자율주행(FSD) 소프트웨어 최신 버전을 업데이트하고, 오는 6월 이를 기반으로 한 로보택시 서비스를 예고하는 등 기술 고도화에 집중하는 추세다. 해외 기업들이 실제 주행 데이터를 수집하고, 이를 토대로 기술을 고도화하는 반면 우리나라는 데이터 수집 제한 규제로 양적 격차가 크게 벌어지고 있다는 지적이다. 이상동 팀장은 “AI 기업과 자율주행 기업, 완성차 기업들이 경계선 없이 넘나들면서 협업을 하며 AI 학습을 위한 데이터 수집과 활용이 중요하게 됐다”며 “국내에 자율주행차가 돌아다니려면 국내 환경에 맞는 최적화 데이터가 꼭 필요하다”고 강조했다. 특히 국가 차원에서 양질의 주행 데이터를 수집하는 것이 바람직하다고 봤다. 영세한 스타트업도 산업에 진입할 수 있게 하자는 취지다. 지난 2023년 개인정보보호법 개정에 따라 '이동형 영상정보처리기기'라는 개념으로 주행 영상을 데이터로 활용할 수 있는 법적 근거가 마련됐다. 그러나 데이터의 질적 측면에서 미국, 중국 등 자율주행 기술에 공들이는 국가 대비 여건이 불리하다는 지적이다. 이 팀장은 “테슬라로 예를 들면, 500만대 차량이 도로를 주행하며 사고가 발생하면 당시 영상을 그대로 본사에 전송함에 따라 그 데이터를 자율주행 AI 성능 개선에 활용하고 있다”며 “이런 회사와 규제 샌드박스 차량 몇십 대의 주행 데이터를 토대로 기술을 개발하는 (우리나라) 회사 간 경쟁력이 어디에 있겠나”라고 강조했다. 특히 현 제도 하에서 주행 영상 데이터를 활용할 때 개인정보 비식별화 처리 과정을 거치게 하는 점을 문제 삼았다. 비식별 처리된 영상을 학습한 AI보다 원본 영상을 학습한 AI가 객체 인식이나 주행 판단의 정확도가 17% 이상 높아졌다는 연구 결과를 소개했다. 이 팀장은 “특히 야간 주행, 악천우 등 복잡한 도심 환경에서 원본 주행 영상의 활용 가치가 더욱 올라간다”고 덧붙였다. 우리나라에선 설정된 규칙에 따라 자율주행 AI 모델이 주어진 상황을 인지하고 제어하는 반면, 테슬라 등 선도 기업들은 AI가 사람처럼 새로운 상황에서도 적절한 판단을 할 수 있도록 엔드투엔드(E2E) 방식을 쓰고 있는 점에도 주목했다. E2E 방식 자율주행 AI 성능을 개선하기 위해 더욱 양질의 주행 데이터가 요구되고 있다는 분석이다. 이 팀장은 “결국 모든 사례를 사전에 정의할 수 없기 때문에, 정의된 내용을 벗어나는 사례에서 자율주행 AI가 어떻게 대응할지 모른다는 기술적 어려움이 있다”고 첨언했다. 규제 샌드박스를 통해 원본 주행 데이터 활용이 일부 허용되고 있지만, 대규모 개발 프로젝트에는 한계가 있어 많은 기업들이 비식별 처리된 영상 데이터를 사용할 수밖에 없는 상황이다. 이 팀장은 “규제 샌드박스는 일시적인 예외를 두는 제도인데 자율주행 산업은 계속 고도화해나갈 산업”이라며 “원본 주행 데이터 활용에 대한 지속적인 법적 근거가 마련돼야 한다”고 주장했다.

2025.02.28 18:37김윤희

알리바바, 오픈소스 '완2.1' 출시…글로벌 AI 영상 시장 '공략'

알리바바 클라우드가 인공지능(AI) 영상 생성 모델을 오픈소스로 공개해 기술 개방성을 강화한다. 브랜드 이미지를 제고하는 동시에 자사 클라우드 플랫폼의 글로벌 활용을 확대하려는 조치다. 알리바바 클라우드는 비디오 파운데이션 모델 '통이 완샹(Tongyi Wanxiang)'의 최신 버전인 '완2.1(Wan2.1)'의 140억 및 13억 패러미터 모델 4종을 출시했다고 27일 밝혔다. 해당 모델은 AI 모델 커뮤니티인 '모델스코프(ModelScope)'와 프랑스의 오픈소스 AI 플랫폼 '허깅페이스(Hugging Face)'에서 다운로드할 수 있다. 이번에 공개된 모델은 ▲T2V-14B ▲T2V-1.3B ▲I2V-14B-720P ▲I2V-14B-480P 등 4종으로 텍스트와 이미지 입력을 기반으로 고품질의 영상과 이미지를 생성하도록 설계됐다. 특히 'T2V-14B' 모델은 복잡한 동작이 포함된 고품질 영상 생성에 특화돼 있으며 'T2V-1.3B' 모델은 연산 효율성과 생성 품질의 균형을 맞춰 연구 및 개발을 위한 최적의 솔루션을 제공한다. 'Wan2.1' 시리즈는 텍스트 효과를 지원하는 최초의 AI 영상 생성 모델로, 픽셀 품질을 향상시키고 물리적 원칙을 준수하며 명령 수행 정확도를 최적화하는 데 강점을 지닌다. 이러한 성능을 바탕으로 영상 생성 AI 모델의 종합 벤치마크인 'V벤치' 리더보드에서 종합 점수 86.22%를 기록하며 1위를 차지했다. 또 허깅페이스의 'V벤치' 리더보드 상위 5개 모델 중 유일한 오픈소스 모델로 자리매김했다. 'T2V-1.3B' 모델은 일반적인 개인용 노트북에서도 480p 해상도의 5초 길이 영상을 약 4분 만에 생성할 수 있다. 이를 통해 연구자 및 개발자들이 보다 쉽고 효율적으로 AI 영상 생성 모델을 활용할 수 있는 환경이 조성될 것으로 기대된다. 또 'I2V-14B-720P' 및 'I2V-14B-480P' 모델은 이미지 기반 영상 생성 기능까지 지원한다. 사용자는 한 장의 이미지와 간단한 텍스트 설명만 입력하면 역동적인 영상 콘텐츠를 제작할 수 있으며 특정 크기 제한 없이 다양한 해상도의 이미지를 정상적으로 처리할 수 있다. 알리바바 클라우드는 AI 모델을 오픈소스로 공개한 최초의 글로벌 테크 기업 중 하나다. 지난해 8월에는 자체 개발한 대규모 AI 모델 '큐원(Qwen-7B)'을 첫 공개했으며 이후 허깅페이스의 오픈 LLM 리더보드에서 지속적으로 상위권을 유지하고 있다. 현재까지 큐원을 기반으로 개발된 파생 모델이 10만 개를 넘어서며, 세계 최대 규모의 AI 모델군 중 하나로 자리 잡았다. 알리바바 클라우드 관계자는 "영상 생성 AI 모델을 훈련에는 막대한 컴퓨팅 자원과 대량의 고품질 학습 데이터가 요구된다"며 "이번 모델의 오픈소스 개방은 AI 활용의 장벽을 낮추어 보다 효율적이고 경제적으로 고품질 영상 콘텐츠를 제작을 가능하게 할 것으로 기대된다"고 밝혔다.

2025.02.27 17:03조이환

"AI 영상 생성, 1시간에 250만원"…구글, '비오 2' 초고품질 전략 성공할까

인공지능(AI) 기반 비디오 생성 시장의 경쟁이 본격화되는 가운데 구글이 자사 영상 AI인 '비오 2'의 가격을 공개했다. 4K 초고품질 영상을 지원하나, 오픈AI의 '소라'보다 가격이 높아 비용 대비 경쟁력이 있을지에 대한 의문이 제기되고 있다. 두 모델 모두 환각 및 물리 법칙 구현 등 기술적 한계를 드러내고 있다는 점도 해결 과제다. 24일 테크크런치에 따르면 구글은 AI 비디오 생성 모델 '비오 2'의 가격을 초당 50센트(한화 약 700원)로 책정했다. 이는 시간당 1천800달러(한화 약 250만원), 분당 30달러(한화 약 4만2천원)에 해당하는 수준으로, 구글은 '비오 2'를 통해 고품질 영상 시장을 공략하며 영상 생성의 상업적 활용도를 높이려는 전략을 펼치고 있다. '비오 2'는 최대 4K 해상도를 지원하는 고급형 비디오 생성 모델이다. 구글 클라우드의 '버텍스 AI(Vertex AI)' 플랫폼을 통해 제공되며 고해상도와 정밀한 디테일을 구현하는 데 초점을 맞췄다. 다만 비용이 초당 50센트로 책정되면서 일반 사용자보다는 전문가 및 기업 시장을 겨냥한 서비스로 보인다. 특히 오픈AI의 비디오 생성 AI인 '소라'와의 가격 정책 차이가 주목된다. 오픈AI는 크레딧 기반의 구독 모델을 통해 '소라'를 운영하고 있으며 1천80p 기준 초당 20센트(한화 약 280원)로 '비오 2'보다 상대적으로 저렴한 가격을 제시하고 있다. 오픈AI의 비디오 AI 가격 구조는 이용자의 구독 플랜에 따라 달라지며 저해상도에서는 보다 낮은 비용으로 비디오를 생성할 수 있다. 현재 '소라'는 월 20달러(한화 약 2만8천원)의 챗GPT '플러스'와 월 200달러(한화 약 28만원)의 '프로' 플랜을 통해 제공되며 각각 1천 크레딧과 1만 크레딧을 지급하는 방식이다. 480p 해상도의 경우 초당 4크레딧으로 약 8센트(한화 약 110원), 1천80p 해상도에서는 초당 100크레딧으로 약 20센트(한화 약 280원)이 소모된다. '소라'는 현재 4K 해상도를 지원하지 않지만 비용 효율성 면에서는 '비오 2'보다 경쟁력이 높은 것으로 보인다. 다만 실제 영상 제작 현장에서는 두 모델 모두 완벽하지 않다는 지적이 나온다. 최근 업계 평가에 따르면 '비오 2'는 손가락, 눈동자, 피부 질감 등 세부 표현에서 비현실적인 결과가 발생하며 물리 법칙에 부합하지 않는 액체 유동성 표현 등의 문제가 드러난다. 또 '소라'는 인체 움직임에서 부자연스러운 관절 회전과 신체 비율 왜곡 현상이 잦으며 보행 시 다리 움직임이 로봇처럼 경직되는 문제를 보인다. 이 외에도 장면 전환 시 객체의 색상 및 크기 변화가 불안정해 시간적 일관성을 유지하는 데 어려움을 겪고 있다. 이 같은 기술적 한계는 두 모델이 아직 실제 영상 수준에 미치지 못하는 부분을 여실히 보여준다. 전문가들은 물리 엔진 통합 등 추가 개발이 필요하다고 지적하며 특히 의류 주름 시뮬레이션과 액체-고체 상호작용 구현이 시급한 과제라고 평가한다. 향후 개선된 기술이 도입될 경우 보다 현실적인 AI 영상 제작이 가능할 것으로 기대된다. 디나 베라다 유튜브 제품 담당 이사는 "'비오 2'는 현실 세계의 물리 법칙과 인간의 움직임을 더 잘 이해해 세밀하고 현실적인 결과물을 만든다"며 "스타일, 렌즈, 시네마틱 효과까지 지정할 수 있어 쉽고 재미있게 영상을 표현한다"고 강조했다.

2025.02.24 10:55조이환

"영상 AI의 챗GPT 순간 열까"…트웰브랩스, '페가수스-1.2' 공개

트웰브랩스가 차세대 영상언어 생성 모델을 공개해 산업 현장에서의 인공지능(AI) 활용성을 극대화한다. 트웰브랩스는 자사가 최근 개발한 '페가수스-1.2'가 다양한 길이의 영상을 분석할 수 있다고 12일 밝혔다. 이 모델은 성능이 대폭 향상돼 텍스트 요약·질의응답·하이라이트 생성 등 고도화된 영상 처리가 가능하다. 트웰브랩스는 이번 모델에 고급 비전 인코딩 전략과 토큰 감소 기술을 적용해 모델의 효율성과 이해도를 높였다. 이를 통해 기존 초거대 모델 대비 가벼운 크기로도 높은 성능을 구현했다. 특히 'GPT-4o'·'제미니 1.5 프로' 등 경쟁 모델보다 응답 속도가 빠르고 비용 효율성이 뛰어난 점이 강점으로 꼽힌다. '페가수스-1.2'는 트웰브랩스의 자체 멀티모달 임베딩 모델인 '마렝고'와 결합돼 보다 정교한 영상 이해 능력을 갖췄다. 이를 통해 엔터테인먼트·교육·보안 등 다양한 산업에서 활용될 전망이다. 일례로 방송·미디어 업계에서는 영상 콘텐츠 자동 분류, 하이라이트 추출, 교육 분야에서는 강의 요약 및 핵심 내용 정리에 활용될 것으로 기대되며 보안 산업에서는 CCTV 영상 분석과 이상 징후 탐지 등에 적용될 것으로 보인다. 트웰브랩스는 지난 2021년 설립 이후 멀티모달 신경망 기술을 기반으로 빠르게 성장했다. 글로벌 리서치 기업 CB 인사이트가 선정한 'AI 100'에 3년 연속 이름을 올렸으며 '세계 50대 생성형 AI 스타트업'에도 포함됐다. 지난해 12월에는 이승준 CTO가 포브스 '30세 미만 30인' AI 리더로 선정되며 기술력을 인정받았다. 이승준 트웰브랩스 최고기술책임자(CTO)는 "영상 속 객체의 공간적 관계와 시간적 변화를 정확히 분석하는 AI 모델이 필요하다"며 "'페가수스-1.2'는 혁신적인 시공간 정보 이해 방식을 도입해 다양한 산업 요구를 충족할 것"이라고 말했다.

2025.02.12 15:12조이환

"삼성 TV는 AI 더한 세계 베스트셀러"

삼성전자가 미국 라스베이거스에서 열리는 세계 최대 전자 전시회 'CES 2025' 개막에 앞서 공개한 TV를 '인공지능(AI)이 더해진 세계 베스트셀러'라고 미국 블룸버그통신이 평가했다. 블룸버그는 6일(현지시간) 삼성전자는 '비전 AI'라는 브랜드로 TV에 새로운 인공지능 기능을 추가해 인공지능 시장을 공략하고 있다며 이같이 보도했다. 삼성전자는 사용자의 취향·의도를 파악해 개인에게 맞춘 서비스를 제공하는 TV를 전날 선보였다. ▲영상을 보면서도 한 번 클릭하면 사용자가 원하는 정보를 알 수 있는 '클릭 투 서치' ▲외국어 영상의 자막을 실시간으로 우리말로 바꿔주는 '실시간 번역' ▲사용자 취향과 선호도를 반영해 이미지를 만드는 '생성형 배경화면' 등 기능을 공개했다. 삼성전자는 20년 동안 세계에서 가장 많이 TV를 판 업체라며 다양한 회사와 협업해 비전 AI 제품을 늘릴 것이라고 블룸버그는 분석했다. 삼성전자는 마이크로소프트와 구글 등 기업들과 손잡고 AI 서비스를 제공하기로 했다.

2025.01.06 17:20유혜진

  Prev 1 2 Next  

지금 뜨는 기사

이시각 헤드라인

기로에 선 현대차, '알파마요' 도입해 자율주행 새출발 할까

금융권 출신 가상자산 업체 대표가 본 디지털자산 업계의 속사정은?

김광수 대표, 해태아이스크림 품고 '빙그레' 할까

배경훈 "독파모 평가, 기술·정책·윤리 측면서 상세히 공개"

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.