• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
인공지능
배터리
양자컴퓨팅
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'텍스트 생성 AI'통합검색 결과 입니다. (5건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

오픈AI, 기술 한계 직면했나…'소라' 출시 직후 연일 '먹통'

오픈AI의 야심작인 동영상 생성 인공지능(AI) 모델 '소라(Sora)'가 서비스 정식 출시와 동시에 마비됐다. 시장 내 '게임체인저'가 될 것이란 기대감과 달리 사전 대비가 소홀했다는 지적이 나오면서 AI 기술 주도권을 쥔 오픈AI가 오점을 남겼다는 평가다. 11일 업계에 따르면 오픈AI '소라'를 경험하기 위한 이용자들이 일시적으로 몰리면서 이날 오후 4시 14분(한국시간) 현재도 '소라닷컴'에 접속이 되지 않고 있다. 서비스는 이달 10일(현지 시간 9일) 오픈됐지만 트래픽이 심해 일시적으로 비활성화 조치가 내려졌다. 오픈AI '소라'가 무료가 아닌 유료 이용자들을 대상으로 서비스 된다는 점에서 이번 일은 상당한 실망감을 가져다줬다. '소라'는 현재 '챗GPT 플러스', '챗GPT 프로'에 포함돼 기존 유료 이용자들은 이 동영상 AI 모델 이용에 대한 추가 비용을 지불할 필요 없이 이용할 수 있다. 월 20달러를 지불하는 '챗GPT 플러스' 이용자들은 매월 50개(480p 또는 그 이하 해상도), 월 200달러인 '챗GPT 프로' 구독자들은 매월 500개의 영상을 생성할 수 있다. 챗GPT 팀, 엔터프라이즈, 에듀 계정에선 소라를 쓸 수 없다. 사실상 유료 서비스인 셈이다. 하지만 서비스 정식 출시 후 3일째가 된 이날도 여전히 정상화되지 않고 있다는 점에서 이용자들은 점차 불만을 터트리고 있다. '소라'를 이용하기 위해 '챗GPT 플러스'를 다시 구독하기 시작한 이용자들도 상당히 있지만, 사이트가 '먹통'이 된 탓에 많은 아쉬움을 드러내고 있다. 일각에선 국내와 달리 해외 기업의 서비스 먹통에 대한 민감도가 낮은 듯 하다고 지적했다. 앞서 카카오의 경우 지난 2022년 10월 SK C&C 데이터센터 화재로 서비스가 줄줄이 중단돼 많은 비난이 쏟아진 바 있다. 카카오는 카카오톡 등 무료 서비스에 대해서도 서비스 중단에 대한 책임을 지기 위해 보상안을 마련하며 여론을 달래기 위해 노력했다. 하지만 오픈AI는 유료 고객을 대상으로 한 서비스가 제대로 작동하고 있지 않음에도 개선책은커녕 보상안에 대해서도 제대로 내놓지 못하고 있어 눈살을 찌푸리고 있다. 오픈AI는 '소라닷컴' 알림창에 "현재 트래픽이 심해 소라 계정 생성을 일시적으로 비활성화했다"고만 공지한 상태다. 또 언제 서비스 정상화가 될 수 있냐는 질문에는 명확한 답변을 내놓지 못했다. 이에 대해 샘 올트먼 오픈AI 최고경영자(CEO)는 자신의 X(옛 트위터)에 "소라에 대한 수요를 상당히 과소 평가했다"고만 말했다. 업계 관계자는 "접속 채널에 동시 접속자가 많으면 많을수록 비용이 많이 든다"며 "그만큼 인프라를 확보해 둬야 하기 때문"이라고 설명했다. 이어 "한정된 자원과 예산으로 동시에 들어올 수 있는 인원수를 제한하려고 하다 보니 이 같은 일이 벌어진 듯 하다"며 "유료 구독자를 대상으로 하는 서비스임에도 기술적 한계와 비용 투입이 제대로 일어나지 않아 이 같은 일이 벌어진 듯 해 아쉽다"고 덧붙였다. 그러면서 "영상을 AI로 제작하는 서비스인 만큼 컴퓨팅 리소스를 엄청나게 소모할 듯 한 데 이를 오픈AI가 최적화하지 못한 측면도 있지 않을까 싶다"며 "유료 임에도 SLA(최저보장속도)을 보장해주지 않았다는 점에서 사용자들의 권리를 침해한 것으로 보여 비즈니스 모델로서도 성공적인 시작을 하진 못한 듯 하다"고 평가했다.

2024.12.11 16:19장유미

中 콰이서우, 오픈AI '소라' 대적할 AI 영상 생성 기술 출시

중국 동영상 플랫폼 콰이서우가 미국 오픈AI의 '소라'에 대적하겠다며 초거대 인공지능(AI) 모델을 기반 이미지 생성 기술을 발표했다. 소라는 명령어를 입력하면 1분 분량의 영상을 만들어주는 AI 서비스다. 6일 중국 언론 IT즈자에 따르면 콰이서우는 '텍스트투이미지', '이미지투이미지' 기능을 제공하는 AI 초거대 모델 '칼라스(KOLORS, 중국어명 可灵)'를 발표하고 공식 홈페이지와 위챗 등을 통해 서비스한다고 밝혔다. 칼라스는 텍스트 입력을 통해 1080P의 2분 길이(30fps) 영상을 생성할 수 있으며 화면 비율을 자유롭게 조정할 수 있다. 유화, 컴퓨터그래픽, 핸드페인팅, 중국 판화, 3D 등 다양한 이미지 스타일 제작과, 8K의 고화질 이미지 생성을 지원한다는 게 콰이서우의 설명이다. 주요 기능은 '텍스트투이미지' 기능으로, 텍스트를 입력하면 다양한 스타일과 높은 화질을 갖춘 이미지를 생성한다. 입력된 테스트를 토대로 다양한 스타일의 이미지를 생성해주며 사용자가 참조 이미지를 업로드할 수도 있다. 이미지의 스타일, 테마, 세부 사항을 기반으로 새 작품을 생성한다. 'AI 이미지 커스터마이징' 기능은, 사용자가 인물 사진을 업로드하면 다양한 가상 이미지로 만들어주는 것이다. 일명 '인물 보존 기술'을 이용해 인물의 자연스러운 특성을 유지하면서 다양한 스타일의 인물 이미지를 생성해주는 것이다. 콰이서우는 "칼라스 초거대 모델은, 콰이서우의 AI팀이 자체 개발했으며, 소라와 유사한 기술 노선을 채택하면서 여러 자체 개발 기술 혁신을 결합해 소라에 맞대결 할 것"이라고 전했다. 콰이서우에 따르면, 칼라스의 초거대 모델 매개변수 규모는 10억 개 수준으로, 오픈소스 커뮤니티 소스 및 자체 AI 기술을 더했다. 텍스트투이미지 기능의 긴 텍스트와 복잡한 의미의 텍스트 입력을 위해 강화학습보상모델기술(RLHF)도 적용했다. 매체에 따르면 콰이서우는 칼라스 초거대 모델에 더 많은 기능이 구현하고, 표정과 신체 움직임이 동시에 구현되는 새로운 'AI 노래와 춤' 서비스도 출시할 예정이다. 한 장의 사진만 있으면, 노래하고 춤추는 영상을 얻을 수 있는 기능이다. 콰이서우는 지난해 연말 기준 평균 월 활성 사용자 수가 7억 명을 넘어선 중국의 주요 영상 플랫폼이다.

2024.06.07 09:08유효정

링크, MTEB 텍스트 검색평가서 엔비디아·구글 제치고 1위 달성

미국 생성형 AI 전문 스타트업 링크는 거대 임베딩 모델 '링크'가 허깅페이스의 '대량 텍스트 임베딩 벤치마크 리더보드(MTEB)' 텍스트 검색 평가에서 엔비디아·세일즈포스·구글,오픈에이아이 등을 제치고 세계 1위를 차지했다고 5일 밝혔다. MIT 전기컴퓨터 공학과 박사 출신 최찬열 대표가 2022년 미국에서 설립한 이 업체는 법률, 보험, 금융, 헬스케어와 같은 전문분야에서 생성 AI 솔루션을 제공하고 있다. 허깅페이스의 대량 텍스트 임베딩 벤치마크 리더보드는 생성AI 검색 모델의 핵심인 임베딩모델의 성능을 ▲분류(Classification) ▲클러스터링(Clustering) ▲쌍분류(PairClassification) ▲재순위(Reranking) ▲검색(Retrieval) ▲텍스트 의미적 유사도(STS, Semantic Textual Similarity) ▲요약(Summarization) 등 7개 분야에 대해 평가데이터를 기반으로 순위를 정한다. 링크의 임베딩 모델은 텍스트 검색 분야에서 최초로 60점을 넘어 1위를 차지했다. 그 외의 분야에서도 우수한 성능을 확보, 종합 3위를 차지했다. 임베딩 모델은 생성 AI에서 가장 큰 문제로 대두되는 거대언어모델(LLM)의 환각 문제 (Hallucination)를 해결하는 데 결정적인 역할을 하는 검색증강생성(RAG) 기술에 쓰이는 핵심적인 모델이다. 검색증강생성은 거대언어모델에 없는 최신데이터나 외부 유출이 없어야 하는 회사 내부 문서를 가져와서 신뢰도 있는 형태로 결과물을 생성하는 기술이다. 이 프로젝트를 주도한 김준성 박사는 "우리는 사람이 라벨링한 데이터와 비슷한 품질의 데이터를 LLM 을 통해서 효율적으로 만들었고, 이를 통해 MTEB 벤치마크 데이터셋에 대해 최고의 검색 성능을 달성할 수 있었다"며 "효율적인 검색증강생성을 위한 임베딩 모델을 빠르고 비용효율적으로 만드는 방법을 고안하게 돼 기쁘다"고 말했다. 최찬열 링크 대표는 "기업이 생성 AI를 안전하게 도입하는데 있어 회사 내부 데이터 검색 정확도가 가장 중요하다. 이 검색에서 가장 핵심적인 엔진인 임베딩 모델을 성공적으로 개발하여 자랑스럽다"면서 "금융이나 법률과 같이 텍스트 검색의 정확도가 매우 중요한 분야에서 검색 정확도를 보장해주는 엔진인 임베딩 모델을 전문 분야를 중심으로 확장하고 고도화해 나갈 것"이라고 설명했다. 최 대표는 2023년이 챗GPT 의 등장으로 생성 AI 의B2C 활용사례가 많이 생겼다면, 2024년부터는 정확도와 보안기술이 개선되면서 B2C(기업간거래)가 활성화되기 시작할 것으로 내다봤다. 2022년 창업한 링크(구 위커버)는 MIT 전기컴퓨터공학과를 졸업한 최찬열 대표가 MIT 계산과학공학과 방수빈 박사 등의 인재들을 모아 창업한 회사다. 최찬열 대표는 2021년 AI 뇌모방컴퓨팅 연구결과를 기반으로 미국 내에서 포브스 30세 이하 30인 이하 과학부문에 선정됐다. 링크는 2022년 카카오벤처스·스마일게이트인베스트먼트·옐로우독 등으로부터 초기투자를 받았다.

2024.06.05 16:10백봉삼

中, 생성형 AI로 애니메이션 제작…글로벌 방영

텍스트를 입력해 영상이 만들어지는 인공지능(AI) 기술을 이용한 생성형 애니메이션이 중국에서 처음으로 방영된 데 이어 세계를 향하고 있다. 11일 중국 CCTV에 따르면 CCTV가 만든 중국 첫 텍스트 투 비디오(Text to Video) 기술 생성형 인공지능 애니메이션 시리즈 '포엠스 오브 타임리스 어클레임(poems of timeless acclaim, 시대를 초월한 명시, 중국어명 千秋诗颂)' 영어 버전이 CGTN에서 정식 상영됐다. CGTN은 CCTV의 국제 방송이란 점에서 AI 기술을 이용한 콘텐츠 글로벌화를 시도하는 셈이 됐다. 이 애니메이션은 중국이 자체적으로 개발한 AIGC 기술로 제작한 첫 시리즈 애니메이션이다. CCTV 방송국의 'CCTV 청취 미디어 초거대 모델'을 기반으로 만들어졌다. 내용은 중국 교과서에 실리는 시를 AI 기술을 이용해 중국 스타일의 애니메이션으로 변환한 것이다. 텍스트로 영상을 생성했다는 점에서 오픈AI의 '소라(Sora)' 기술과 유사하다. 앞서 지난 2월 26일부터 3월 2일까지 CCTV 채널에서 애니메이션 6부작이 방송돼 시청률이 중국 전국의 애니메이션 중 1위를 차지했다. 영어 버전 역시 방송국의 최신 AI 기술을 이용해 번역 및 더빙된 것으로 알려졌다. CGTN은 AI 언어 모델을 사용해 중국어 대본을 번역 및 윤색하고 더빙 과정에서 '텍스트 투 사운드', '사운드 복제', 'AI 영상 처리' 등 기술을 이용해 중국어 더빙의 음색과 감성을 복원했다. 또한 번역 및 더빙팀은 해외 시청자들의 시청 습관을 고려해 영상에 중국의 역사적 배경을 소개하거나 인물의 주석 정보를 추가하기도 했다. CGTN에서 포엠스 오브 타임리스 어클레임은 6부를 순차적으로 방영한 이후 AI 애니메이션 시리즈 다국어 버전도 글로벌 출시할 예정이다.

2024.03.12 08:37유효정

스테이블디퓨전3 미리보기 공개

텍스트-이미지 모델 '스테이블 디퓨전'의 세번째 버전이 초기 미리보기로 공개됐다. 품질 및 철자 기능 향상, 다중 주제 프롬프트 등이 특징이다. 22일(현지시간) 스태빌리티AI는 차세대 텍스트-이미지 모델 '스테이블디퓨전 3' 초기 미리보기를 발표했다. 사용을 원하는 경우 미리보기 대기자명단에 등록해 이용할 수 있다. 접근권한을 얻게 되면 디스코드 서버 초대 메일을 받게 된다. 스테이블디퓨전은 2022년 2.0 버전 공개로 이미지 생성 AI 모델의 획기적 진보를 보여줬다. 세번째 버전은 기존 아키텍처와 달리 디퓨전 트랜스포머 아키텍처와 플로우 매칭을 결합했다. 디퓨전 트랜스포머 아키텍처는 일반적으로 사용되는 U-Net 백본을 트랜스포머로 대체해 이미지 디퓨전 모델을 훈련한다. 이 방식은 효율적으로 확장하고 더 높은 품질의 이미지를 생성할 수 있다. 플로우 매칭은 랜덤 노이즈에서 구조화된 이미지로 원환하게 전환하는 방법을 학습해 이미지를 생성하는 AI 모델을 만드는 기술이다. 스테이블디퓨전3는 이전 모델보다 더 나은 성능과 품질로 이미지를 만들어낸다. 한 프롬프트에 여러 주제를 넣을 수 있다. 철자 생성의 정확도도 더 높아졌다. 스테이블디퓨전3의 크기는 다양하다. 8억에서 80억개의 매개변수를 제공한다. 스테이블디퓨전은 기본적으로 오픈소스 라이선스를 따른다. 모델의 소스코드에 접근할 수 있고 미세조정이 가능하다. 현재 스테이블디퓨전3의 소스코드와 기술문서는 공개돼 있지 않다. 회사측은 미리보기 단계에서 성능과 안정성을 개선할 것이라고 밝혔다.

2024.02.23 10:43김우용

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

전자담배 온라인·무인 판매 이대로 괜찮을까

꽁꽁 얼었던 상반기 채용 시장...하반기엔 풀릴까

"강남역 사수하라"...350평 올리브영 등장에 시코르 ‘긴장’

삼성 파운드리, 2나노 3세대 공정 2년내 구현..."고객이 다시 찾게 하자"

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.