• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
창간특집
인공지능
배터리
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'달리3'통합검색 결과 입니다. (3건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

"생각한 이미지를 그대로" 달리, 이미지 편집기 추가

머릿속 이미지를 더욱 정확하게 시각화 하도록 돕는 편집 기능이 이미지 생성 AI 모델 '달리3(DALL-E 3)'에 추가됐다. 3일(현지시간) 미국 지디넷 등 외신에 따르면 오픈AI는 달리 에디터를 업데이트를 통해 추가했다고 밝혔다. 달리 에디터는 사용자들이 AI로 생성한 이미지를 간단하게 필요한 부분을 편집할 수 있도록 돕는 기능이다. 달리 에디터는 챗GPT에서도 생성한 이미지를 클릭하는 것만으로 간단하게 사용할 수 있으며 웹과 모바일 버전 모두 가장 특징적인 부분은 이미지에서 변경을 원하는 부분만 지정할 수 있다는 점이다. 이를 통해 이미지에서 원치 않는 배경이나 사물 등을 지정해 다른 변화 없이 해당 부분만 없애거나 다른 객체로 바꿀 수 있다. 예를 들어 사용자는 숲 사진에서 특정 나무를 지정해 제거하거나 이미지 내 특정 지역을 지정해 새로운 객체를 추가할 수도 있다. 특정 인물이나 캐릭터를 지정해 표정 등을 지정하는 것도 가능하다. 실행 취소 및 다시 실행 기능도 추가해 바뀐 이후에도 바로 복구하는 등 자유로운 편집을 지원한다.

2024.04.04 10:34남혁우

AI 모델 크기 3/1로 축소···성능은 '달리3'보다 5배 향상

한국전자통신연구원(ETRI, 원장 방승찬)은 생성형 인공지능과 시각지능 기술을 결합해 문장 입력 시 2초 만에 이미지를 만드는 기술을 일반에 공개한다고 26일 밝혔다. ETRI는 문장을 입력해 이미지를 만드는데 기존 대비 5배 빠른 '코알라(KOALA)' 3종 모델과 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각언어모델 '코라바(Ko-LLaVA)' 2종 등 총 5종 모델을 선보였다. '코알라(KOALA)' 모델은 공개SW 모델의 2.56B(25억 개) 파라미터를 지식 증류 기법을 적용해 700M(7억 개)로 획기적으로 줄였다고 ETRI는 설명했다. 파라미터 수가 크면 연산량이 많아 시간이 오래 걸리고 서비스 운영 비용도 증가한다. ETRI 연구진은 모델 크기를 3분의 1로 축소한 반면 고해상도 이미지는 기존 대비 2배, 또 달리(DALL-E)3 대비 5배가량 개선했다고 설명했다. 또 모델 생성 속도를 2초 내외로 만들고 모델 크기도 대폭 줄여, 8GB 저용량 메모리의 저가 그래픽처리장치(GPU)에서도 구동할 수 있다고 덧붙였다. ETRI는 자체 개발한 파라미터별 '코알라(KOALA)' 3종 모델을 미국 뉴욕 소재 AI스타트업 허깅페이스(HuggingFace)가 만든 AI환경에서 공개했다. 실제 연구진이 '달 아래 화성에서 책을 읽고 있는 우주비행사 사진'이라는 문장을 입력하자, ETRI가 만든 코알라 700M(7억 개)는 1.6초 만에 이미지를 만들어 냈다. 반면 '칼로(카카오브레인)'는 3.8초, '달리 2(오픈AI)'는 12.3초, '달리 3(오픈AI)'는 13.7초 걸렸다고 설명했다. ETRI는 기존 공개SW인 스테이블 디퓨전 모델 2종, 기업에서 공개한 BK-SDM, 칼로(Karlo), 달리(DALL-E) 2, 달리(DALL-E) 3 등 4종을 포함해 총 9개 모델을 비교, 체험할 수 있는 사이트 및 모델 제공 사이트를 만들어 공개했다. 연구진은 또 챗GPT와 같은 대화형 인공지능에 시각지능 기술을 더해 이미지나 비디오를 불러와 한국어로 이미지나 비디오에 관해 질의응답할 수 있는 대화형 시각언어모델인 '코라바(Ko-LLaVA)' 모델도 함께 공개했다. 특히 '코라바(Ko-LLaVA)' 모델은 미국 위스콘신대학교 매디슨과 ETRI 연구진의 국제공동연구로 개발했고, 인공지능 분야 최우수학회인 '뉴립스(NeurIPS'23)'에 발표했는데, GPT-4 수준의 이미지 해석 능력을 지닌 오픈소스 '라바(LLaVA)'를 활용했다. 연구진은 이미지를 포함한 멀티모달 모델의 대안으로 떠오르고 있는 '라바' 모델을 기반으로 한글을 더욱 잘 이해할 수 있고 기존에 없는 비디오 해석을 할 수 있도록 확장 연구를 진행했다. 아울러, 자체 개발한 한국어 기반 소형 언어 이해 생성 모델(KEByT5)도 사전 공개했다. 또 공개한 모델(330M(Small), 580M(Base), 1.23B(Large) 급)은 신조어와 학습하지 않은 단어를 처리할 수 있는 토큰-프리 기술을 적용했다. 학습 속도는 2.7배 이상, 추론에서는 1.4배 이상 강화했다. 연구진은 현재 생성형 인공지능 시장이 문장 위주의 생성형 모델에서 점차 멀티모달 생성형 모델로 변화가 이뤄지고 있으며, 모델의 크기 경쟁에서 점차 작고 효율적인 모델이 출현할 것으로 예상했다. ETRI는 "이번에 모델을 공개하는 이유는 모델이 크면 수천 대의 서버가 필요한데 모델을 줄여 중소기업 이용을 활성화해 관련 시장 생태계를 조성한다는 취지"라면서 "앞으로 생성형 AI의 대표적인 공개 언어모델에 시각지능 기술이 더해진 한글 크로스모달 모델에 대한 수요가 많을 것"이라고 예측했다. 특히 연구진은 이번 기술의 핵심 특허가 지식 증류 기반 경량화된 스테이블 디퓨전 기술이라고 설명했다. 인공지능을 활용, 지식을 쌓아 작은 모델로 대형모델 역할을 수행할 수 있는 기술이다. ETRI는 이번 기술을 일반에 공개한 뒤 이미지 생성서비스, 창작교육 서비스, 콘텐츠 제작 및 사업자 등에 기술이전을 할 계획이다. 또 세계 생성형 인공지능 연구가 문장 입력에서 문장 응답으로 이어지는 유형을 넘어 사진이나 영상을 문장으로 응답해주는 유형, 문장에서 이미지나 비디오로 응답해주는 유형으로 진화하는 것에 발맞춰 세계적 수준의 연구역량을 선보일 방침이다. ETRI 이용주 시각지능연구실장은 "향후 생성형 인공지능 기술의 다양한 시도를 통해 크기는 작지만, 성능이 뛰어난 다양한 모델을 공개할 계획"이라면서 "글로벌 연구를 통해 기존 거대모델에 대한 의존성을 탈피하고 국내 중소기업이 인공지능 기술을 효과적으로 활용할 기회를 제공할 예정"이라고 밝혔다. 미국 위스콘신대학교 매디슨의 이용재 교수는 “라바(LLaVA) 프로젝트를 총괄하며 GPT-4에 맞서 오픈소스 기반의 시각언어모델 연구를 통해 더 많은 사람이 활용할 수 있는 연구를 진행했다"면서 "향후 ETRI와 국제공동연구를 통해 멀티모달 생성모델에 관한 연구도 지속할 예정"이라고 밝혔다. ETRI의 이번 성과는 과학기술정보통신부와 정보통신기획평가원(IITP)이 지원하는 한국어 대형 언어모델 기술개발사업 일환으로 '효율적 사전학습이 가능한 한국어 대형 언어모델 사전학습 기술 개발' 과제를 통해 수행했다.

2024.01.26 08:30방은주

생성형 AI로 신년 축하 이미지 만들어 보니

오픈AI의 이미지 생성 도구 '달리3'와 스태빌리티AI의 '스테이블 디퓨전'으로 신년 축하 이미지를 만들어 봤다. 현재 달리3에서 한국어로 이미지를 생성할 수 있지만, 스테이블 디퓨전에선 한국어 패치를 별도로 설치해야 한다. 형평성을 위해 두 도구에 명령어를 영문으로 요청했다. 먼저 달리3에 접속했다. 2024년은 청룡의 해다. 달리3에 '2024년 새해를 축하하기 위해 청룡을 멋있게 그려달라'고 요청했다. 신년인 만큼 이미지에 축제 분위기가 있었으면 좋겠다고도 했다. 이미지를 최대한 알록달록하게 생성해 달라고 명령했다. 달리3는 이를 통해 이미지 여러 컷을 생성했다. 요청 사항을 모두 반영해 이미지를 생성했다. 알록달록한 배경 한가운데에 청룡을 배치했으며, 축제 분위기 나는 분위기를 만들었다. 인간 디자이너가 직접 그린 것처럼 퀄리티도 나쁘지 않았다. 이미지 생성 시간은 약 10초 걸렸다. 달리3는 기존 이미지를 수정할 수도 있다. 달리3에 '해피 뉴 이어(Happy New Year)'와 '2024' 문구를 그림 속에 넣어달라고 했다. 달리3는 이를 반영해 이미지를 업그레이드했다. 해당 이미지를 저장해 지인들에게 축하 메시지를 공유했다. 다만 달리3는 이미지 내 문구 생성 능력을 100% 발휘하지 못할 때도 있었다. Happy New Year 스펠링을 살짝 틀리거나, 2024를 2224로 쓰는 등 문구를 이미지에 완벽하게 새기지 못했다. 이런 현상은 한국어로 명령할 때 나타났다. 문자를 이해·처리하는 GPT 모델의 언어 데이터셋 90% 이상이 영어로 이뤄져 나타나는 현상으로 보인다. 이때 사용자는 해당 문구를 고쳐 달라고 요청하면 된다. 달리3는 올해 10월 챗GPT에 통합됐다. 챗GPT 유료 버전인 프리미엄 개인 고객과 엔터프라이즈 회원만 달리3에 접근할 수 있다. 스태빌리티AI의 이미지 생성기 스테이블 디퓨전에서 동일한 체험을 했다. 명령어에 달리3 명령어와 동일한 프롬프트를 입력했다. 달리3처럼 청룡도 만들어 주고, 축제 분위기를 연상하는 분위기도 조성했다. 다만 2024와 Happy New Year를 삽입해 달라는 명령을 인식하지 못했다. 이미지 생성은 약 1분 걸렸다. 스태빌리티AI는 여러 학술 연구원과 비영리 단체와 손잡고 스테이블 디퓨전을 만들었다. 달리3와 달리 오픈소스로 공개된 상태다. 이미지로 이미지를 생성하거나, 텍스트를 이미지로 바꾸는 기능을 갖췄다.

2024.01.01 12:05김미정

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

"요금 올리거나, 무료 풀거나"…OTT, 전략 분화

"책 대신 '아이패드'로 수업을"…디지털이 바꾼 교실 풍경은

과학자들, 납으로 금 만들었다…'연금술사의 꿈' 실현되나

[써보고서] 괴물 카메라를 가진 폰 '샤오미 15 울트라'

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현