• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
창간특집
인공지능
배터리
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'이미지 생성'통합검색 결과 입니다. (22건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

피규어·지브리 프사 만들기?…"챗GPT 개인정보 유출 위험"

인공지능(AI) 챗봇 '챗GPT'로 유행 따라 사진을 피규어나 일본 지브리스튜디오 애니메이션처럼 만들다가는 개인정보를 털릴 수 있다고 미국 잡지 와이어드는 1일(현지시간) 보도했다. 운영사 오픈AI는 새로운 GPT-4o 기반 이미지 생성기로 챗GPT의 사진 편집, 텍스트 렌더링 기능을 키웠다고 와이어드는 평가했다. 챗GPT 무료 계정과 사진만 있으면 재미있고 쉽게 이미지를 만들 수 있다. 그러나 피규어나 지브리 같은 그림을 만들려면 오픈AI에 많은 정보를 넘겨야 한다고 와이어드는 지적했다. 오픈AI는 이 정보로 인공지능을 학습시킬 수 있다. 유럽 OPIT(Open Institute of Technology)의 톰 바즈다 사이버보안학과장는 “챗GPT에 사진을 올릴 때마다 메타데이터 덩어리를 넘겨주는 셈”이라며 “사진 촬영 시간, 촬영 장소의 (GPS) 좌표 등 그림 파일에 첨부된 정보가 포함된다”고 말했다. 메타데이터(Metadata)란 다른 정보를 나타내는 정보를 뜻한다. 오픈AI는 챗GPT에 접속하는 기기 정보도 모으는 것으로 알려졌다. 기기 유형, 운영 체제, 브라우저 버전, 고유 식별자 등이다. 바즈다 학과장은 “챗GPT는 대화하듯 작동하기에 입력한 내용, 요청한 그림 종류, 인터페이스와의 상호 작용 방식, 동작 빈도와 같은 행동 정보도 수집한다”며 “생성형 AI를 훈련하는 금광”이라고 표현했다. 얼굴만 그런 게 아니다. 위험 관리 회사 GRC인터내셔널그룹의 캠든 울븐 AI제품 마케팅 책임자는 “고해상도 사진을 올리면 피사체뿐 아니라 배경, 다른 사람, 방 안의 물건, 문서처럼 읽을 수 있는 모든 것을 오픈AI에 주는 격”이라고 설명했다. 오픈AI는 생성형 AI를 학습시키려고 개인정보를 적극적으로 수집하지 않으며 인터넷 공개 정보로 사용자 프로필을 구축하고 광고하거나 정보를 팔지 않는다고 와이어드에 밝혔다. 그러나 오픈AI의 개인정보 보호 정책에 따라 챗GPT로 올라온 이미지는 보관되고, 생성형 AI를 개선하는 데 쓰일 수 있다고 와이어드는 비판했다. 챗GPT에서 정보를 지킬 가장 효과적인 방법은 채팅 기록을 끄는 일이라고 와이어드는 소개했다. 파일에서 메타데이터를 지우고 올려도 좋다. 사진 편집 도구를 쓰면 된다. 바즈다 학과장은 “사용자는 민감한 개인정보를 챗GPT에 쓰지 말고 정보를 알 수 있는 배경이 있는 사진이나 단체 사진은 올리지 말아야 한다”며 “이렇게 하면 내 정보가 챗GPT 훈련에 쓰이지 않도록 할 수 있다”고 조언했다.

2025.05.03 07:48유혜진

"글로벌 수준"...카카오, 멀티모달 언어모델 'Kanana-o' 성능 공개

카카오가 새로운 인공지능 모델을 통해 기술 경쟁력 강화를 이어간다. 카카오(대표 정신아)는 공식 테크블로그를 통해 통합 멀티모달 언어모델 'Kanana-o'와 오디오 언어모델 'Kanana-a'의 성능과 개발 후기를 1일 공개했다. 통합 멀티모달 언어모델인 Kanana-o는 텍스트와 음성, 이미지까지 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 모델이다. 텍스트, 음성, 이미지 중 어떠한 조합으로 질문을 입력하더라도 처리 가능하며, 상황에 맞는 텍스트나 자연스러운 음성으로 응답 가능한 구조로 설계됐다. 카카오는 '모델 병합' 기술을 기반으로 이미지 처리에 특화된 모델 'Kanana-v'와 오디오 이해 및 생성에 특화된 'Kanana-a' 모델을 통합, 단기간 내 효율적으로 Kanana-o를 개발했다. 통합 후에는 이미지, 오디오, 텍스트 데이터를 동시에 학습하는 '병합 학습'을 통해 시각과 청각 정보를 동시에 이해하고, 텍스트와 연결 지을 수 있도록 통합 훈련을 거쳤다. 이런 과정을 통해 기존 LLM 구조에서 이미지 이해 능력과 음성 인식과 합성, 감정 이해 등 고도화된 오디오 능력을 확장시킨 통합 멀티모달 언어모델이 구현됐다. Kanana-o는 음성 감정 인식 기술을 통해 사용자의 의도를 올바르게 해석하고, 상황에 맞는 적절한 반응과 답변을 제공해준다. 억양, 말투, 목소리 떨림 등 비언어적 신호를 분석하고, 대화 맥락에 맞는 감정적이고 자연스러운 음성의 응답을 생성하는 것이 특징이다. 대규모 한국어 데이터셋을 활용해 한국어의 특수한 발화 구조, 억양, 어미 변화 등을 정밀하게 반영하기도 했다. 특히 제주도, 경상도 등 지역 방언을 인식하고 이를 표준어로 변환해 자연스러운 음성을 생성할 수 있다. 지속적인 성능의 고도화를 위해 카카오는 현재 독자적인 한국어 음성 토크나이저(오디오 신호를 일정 단위로 작게 분해하는 도구) 개발을 진행 중이다. 스트리밍 방식의 음성합성 기술을 적용해 사용자가 긴 대기 시간 없이 응답을 제공하는 강점도 보유했다. 예를 들어, 이미지와 함께 "이 그림에 어울리는 동화를 만들어 줘"라고 입력하면, Kanana-o는 해당 음성을 이해하고 사용자의 억양과 감정 등을 분석해 자연스럽고 창의적인 이야기를 실시간으로 생성해 들려준다. Kanana-o는 한국어 및 영어 벤치마크에서 글로벌 최고 모델들과 유사 수준을 기록했으며, 한국어 벤치마크에서는 높은 우위를 보였다. 특히, 감정인식 능력에서는 한국어와 영어 모두에서 큰 격차를 기록하며, 감정까지 이해하고 소통할 수 있는 AI 모델의 가능성을 입증했다. 이미지와 음성을 통합적으로 이해해야 하는 '이미지-음성 QA(질의응답)' 태스크에서도 강력한 성능을 달성하며, 통합 멀티모달 언어모델로서의 글로벌 경쟁력을 확인했다. 카카오는 향후 Kanana-o를 통해 ▲다중 턴 대화 처리 ▲양방향 데이터 동시 송수신 기술 대응 능력 강화 ▲부적절한 응답 방지를 위한 안전성 확보 등을 목표로 연구 개발을 지속해 갈 계획이다. 이를 통해 다중 음성 대화 환경에서의 사용자 경험을 혁신하고, 실제 대화에 가까운 자연스러운 상호작용을 실현해가는 것이 목표다. 카카오 김병학 카나나 성과리더는 "카나나 모델은 복합적인 형태의 정보를 통합적으로 처리함으로써 기존의 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI로 진화하고 있다"며 "독자적인 멀티모달 기술을 바탕으로 자사의 인공지능 기술 경쟁력을 강화하는 한편, 지속적 연구 결과 공유를 통해 국내 AI 생태계 발전에 꾸준히 기여할 계획"이라고 말했다.

2025.05.01 10:13백봉삼

"트래픽 폭주에 발목"…오픈AI, 신규 유저에 '소라' 영상 생성 제한

오픈AI가 자사 멀티모달 생성형 인공지능(AI) 영상 서비스 '소라(Sora)'의 영상 생성 기능을 일부 사용자에 한해 제한했다. 지브리풍 이미지 생성 기능이 화제를 모으며 사용자가 급증한 데 따른 후속 조치다. 1일 테크크런치에 따르면 오픈AI는 최근 소라 영상 생성 기능을 신규 계정에서 사용할 수 없도록 설정했다. 소라에 최초 로그인한 사용자에겐 이미지 생성 기능만 제공되며 영상은 차단된다. 이번 제한 조치는 지난주 소라에 새롭게 추가된 이미지 생성 기능이 공개된 이후 내려졌다. 해당 기능은 미야자키 하야오 감독의 '스튜디오 지브리' 스타일을 재현할 정도로 뛰어난 품질을 자랑하며 소셜미디어를 중심으로 폭발적인 반응을 이끌었다. 다만 예상치를 훌쩍 웃도는 사용자 유입으로 서버 과부하 문제가 불거졌다. 오픈AI는 이에 따라 트래픽 조절이 시급하다고 판단해 신규 계정 중심으로 영상 기능을 잠정 차단한 것으로 보인다. 영상 생성을 차단한 오픈AI의 공식 지원 페이지에는 "현재 트래픽이 급증해 신규 계정에 대해 영상 생성을 임시로 비활성화했다"는 공지가 게재됐다. 기존 사용자 계정은 여전히 영상 생성이 가능하다. 샘 알트먼 오픈AI 최고경영자(CEO)는 지난 주말 X(구 트위터)를 통해 "출시 이후 지금까지 수요를 따라잡지 못하고 있다"며 "서비스 유지를 위해 직원들이 야근과 주말 근무까지 하고 있다"고 밝힌 바 있다.

2025.04.01 12:17조이환

[써보고서] 그림도 글도 한 번에…'챗GPT 이미지 생성기' 미래 바꾼다

"이번에 업데이트된 '챗GPT' 이미지 생성기를 확인해봤습니다. 단순히 기존 이미지를 조합하는 수준이 아니라 텍스트의 의미를 더 깊이 이해하고 새로운 스타일과 구성, 언어 표현까지 가능합니다. 한글도 꽤나 잘 표현되고 긴 문장도 잘 소화합니다. 이제 그림과 관련해 뭐가 안 될 거라고 말하기가 무서울 정도네요." 한 국내 인공지능(AI) 전문가는 30일 자신의 소셜미디어를 통해 '챗GPT 이미지 생성기(ChatGPT Image Generator)'의 최신 업데이트 버전을 이같이 평했다. 그만의 생각이 아니다. 실제로 소셜미디어 곳곳에서는 해당 서비스에 대해 수많은 유저들이 뜨겁게 반응하며 새로운 사용사례를 발굴하고 다양한 실험을 이어가고 있다. '챗GPT 이미지 생성기'는 오픈AI가 자사의 거대언어모델(LLM)인 '챗GPT'의 '4o' 버전에 통합한 이미지 생성 기능이다. 지난 25일 기존 '달리' 이미지 생성기에서 새롭게 업데이트된 이번 버전은 기존 대비 뛰어난 언어 이해력과 창의성을 기반으로 훨씬 자연스럽고 풍부한 이미지 생성이 가능해졌다는 평가를 받고 있다. 이번에 공개된 버전은 단순한 그림 제작을 넘어, 사실상 '무엇이든 가능한 수준'에 도달했다는 평가다. ▲텍스트와 그래픽 요소가 결합된 시각자료 제작 ▲기존 이미지의 특정 글자나 오브젝트만 정밀하게 수정하는 리터칭 ▲실사 이미지의 형태를 유지하면서 전혀 다른 테마로 재해석하는 작업까지 대부분 구현이 가능하다. "AI가 만든 인포그래픽"…그림뿐 아니라 '시각 설명'까지 완성 무엇보다 주목할 점은 '그림과 글자 조합'에 대한 처리 능력이다. 우리가 일상적으로 확인하고 처리하는 대부분의 시각 자료는 이미지와 텍스트의 조합으로 구성돼 있다. 이 생성기는 이제 그런 형태의 콘텐츠라면 어지간한 수준까지 대부분 구현할 수 있을 만큼 진화했다. 일례로 최근 기자가 국내 AI 기업인 S2W를 인터뷰한 기사를 준비하며 회사와 밀접히 연관된 개념인 '온톨로지'와 '지식그래프' 같은 개념을 시각적으로 설명할 삽화가 필요했던 사례가 있다. 이 개념들은 본질적으로 매우 추상적이어서 그림으로는 설명이 어려울 수 있다. 그런데 이번 이미지 생성기는 그런 우려를 뛰어넘었다. 기자가 두 개념을 상징하는 그림들을 그려달라고 콘셉트와 설명을 입력하자 개념을 직관적으로 시각화한 고품질 그래픽을 수십 초 만에 생성해냈다. 지식그래프는 '데이터 간의 관계'를 시각적으로 보여주는 구조이고 '온톨로지'는 그 안의 개념과 의미를 정의한 일종의 '표준 사전'이다. 생성된 그림은 이 개념들을 처음 접하는 사람도 쉽게 이해할 수 있을 만큼 명확하게 표현해 줬다. 발표자료나 기사 내 삽화로도 손색이 없을 정도의 직관적 간단함을 보여줬다. 여기에 활용도를 한층 끌어올린 요소는 바로 영어 텍스트 처리 능력이다. 과거 이미지 생성기들은 영어조차 정확히 표현하지 못하는 경우가 많았다. 'AI' 같은 단어는 무난했지만 '국가안보(National Security)'처럼 긴 단어의 경우 알파벳이 일부 누락되거나 다른 글자로 바뀌는 문제가 흔했다. 이번 업데이트 이후에는 영어 문장을 거의 완벽하게 반영해 이제 굳이 외주를 맡기지 않아도 될 정도로 안정적인 결과물을 얻을 수 있다. 이 강점은 인포그래픽 제작에서 빛을 발한다. 예를 들어 앞서 언급한 '지식그래프'와 '온톨로지' 개념을 영어 발표자료로 만드는 실험을 해보기 위해 기자는 '챗GPT'에게 "이 기사 내용을 바탕으로 1슬라이드짜리 인포그래픽을 만들 수 있게 개념을 정리해줘"라고 지시했다. 이에 '챗GPT'는 즉각 구체적인 구성안을 제시했고 "이 구성을 기반으로 텍스트나 디자인 워딩도 만들어줄 수 있다"며 "필요하면 파워포인트, 피그마, 웹용, 포스터 등 포맷에 맞춰 최적화도 가능하다"는 제안까지 곁들였다. 이에 기자는 '스타트업 감성'과 '노랑-하양' 계열 톤을 지정하며 포스터 형태로 직관적으로 이해 가능한 버전을 요청했다. 결과는 기대 이상이었다. 영어 문장 표현이 완벽하게 구현됐고 복잡한 개념도 깔끔하게 시각화됐다. 발표 자료로 바로 활용해도 손색이 없을 만큼의 완성도였고 제작에 걸린 시간은 1분 남짓이었다. 가정용 레이저 컬러 프린터에서 컬러 사진을 출력하는 속도다. 이미지 속 대사·표정·배경까지 자유자재…테마 전환도 '척척' 또 다른 주목할만한 특징은 '기존 이미지를 수정하는 기능'이다. 이제는 '챗GPT 4o'에 그림이나 사진을 입력한 뒤 그 안의 글자나 오브젝트를 일부 수정하는 것도 가능하다. 이는 더 이상 포토샵이나 전문적인 그래픽 디자인 툴 없이도 어느 정도의 시각적 편집 작업을 누구나 할 수 있게 됐다는 의미다. 일례로 기자는 인터넷에서 밈으로 유명한 김성모 화백의 만화 컷에서 등장인물의 대사인 "더이상의 자세한 설명은 생략한다"를 바꾸고 싶었다. '챗GPT'에게 이 이미지를 주고 "이 문장을 '자세한 설명이 필요하므로 다음 컷에 해주겠다'로 바꿔달라"고 요청하자 해당 문장을 깔끔하게 수정한 이미지를 바로 생성해줬다. 캐릭터의 외형은 약간의 차이가 있지만 전체적인 스타일은 거의 완벽하게 재현됐다. 공식 문서나 기획안 등 고해상도 일러스트가 필요한 상황이 아니라면 충분히 활용할 수 있을 정도다. 그림에 대한 소폭 수정도 자연스럽게 처리된다. 기자는 앞선 김성모 캐릭터에서 '목폴라를 벗기고 70년대식 콧수염을 붙여달라'고 요청했는데 역시 기대한 대로 처리됐다. 이외에도 캐릭터의 표정 변화, 옷이나 헤어스타일 교체, 배경 변경 등 다양한 시도가 가능했다. 다만 이 과정에서 한글 텍스트가 처음엔 조금 어색하게 표현되기도 했으나, 다시 "한글 자연스럽게 수정해줘"라고 요청하면 또 문제없이 보완해주는 구조다. 오브젝트의 테마나 분위기를 바꾸는 작업 역시 수준급이다. 최근 소셜미디어를 뜨겁게 달군 '지브리 테마 변환'이 대표적인 사례다. 최근에는 더 락, 백악관 보좌관 등 유명 인사, 인플루언서들이 이 기능을 이용해 카카오톡 프로필이나 SNS 프로필 사진을 새롭게 꾸미는 사례가 확산되고 있다. 이에 동참해 기자는 스스로의 사진을 입력한 뒤 "지브리 애니메이션 분위기로 바꿔달라"고 요청했고 실제로 스튜디오 지브리를 연상시키는 따뜻한 색감과 몽환적인 배경, 부드러운 일러스트 스타일이 적용된 결과물이 나왔다. 또 하나 흥미로운 점은 단순히 캐릭터 스타일을 바꾸는 것을 넘어 이미지의 '전체 테마' 자체를 완전히 변환할 수 있다는 것이다. 단순히 눈이나 옷차림만 바꾸는 수준이 아니라 사진이 지닌 분위기와 배경까지 포함한 '서사적 연출'이 가능해진 셈이다. 최근 오픈AI 아태지역 홍보 담당자인 제이크 윌친스키는 자신의 링크드인에 새로운 사용 사례를 공개했다. 그는 '챗GPT 이미지 생성기'에 "우리 집 강아지를 최대한 나쁜 남자(Bad*ss)처럼 만들어달라"고 요청했고 그 결과 선글라스, 초커, 가죽 재킷을 착용한 터프한 강아지 이미지가 생성됐다. 기존 반려동물의 귀여운 이미지를 완전히 뒤엎는 콘셉트 전환이 구현된 것이다. 기자도 유사한 시도를 했다. 반려견 사진을 입력한 뒤 "이 강아지를 런던 동부의 불량 청소년처럼 바꿔달라"고 프롬프트를 주자 결과물은 놀라웠다. 푸들이었던 강아지는 그대로 유지됐지만 배경은 그래피티가 가득한 동런던 거리로 바뀌었고 모자, 아디다스 재킷, 귀걸이 등 각종 아이템으로 꾸며져 있었다. 한마디로 '코크니 억양으로 밤거리에서 맥주를 흔들며 인사를 건넬 것 같은' 이미지가 완성된 셈이다. 여전히 존재하는 한계…그럼에도 우리 삶 '게임 체인저'로서 잠재력 보여 물론 모든 기능이 완벽하게 구현되는 것은 아니다. 특히 텍스트 표현에서는 일부 한계가 남아 있다. 영어는 대부분 정확하게 처리되지만 문장이 너무 길거나 단어가 복잡할 경우 일부 글자가 누락되는 경우가 종종 발생한다. 기사 한 편 수준의 긴 문장을 이미지에 삽입하는 고난도 작업은 아직 포토샵 등 전문 편집 도구가 더 유리할 수 있다. 한글은 그보다 제약이 크다. 짧은 문장은 비교적 잘 표현되지만 한 문단 이상만 되어도 오타나 띄어쓰기 오류가 생길 가능성이 높다. 수정 요청을 통해 보완은 가능하지만 '한 번에 완성형'을 기대하기는 아직 무리다. 이미지 리터칭 역시 100% 재현이라고 보긴 어렵다. 김성모 화백의 만화 대사를 바꾼 예처럼 스타일과 구도는 거의 흡사하지만 선의 굵기 같은 디테일은 다소 달랐다. 반려견 사례에서도 강아지의 특징은 대부분 반영됐지만 실물과 완벽히 일치하기보다는 유사한 개체의 특징이 혼합된 결과물이었다. 이는 생성형 AI 특유의 '확률적 생성 방식'에 기반한 한계로 기술적으로는 어쩔 수 없는 영역이기도 하다. 다만 이런 단점을 감안하더라도 '챗GPT 4o 이미지 생성기'는 충분히 '게임 체인저'로서의 자격을 갖췄다. 핵심은 글과 그림이라는 인간 커뮤니케이션의 두 축을 AI가 모두 다룰 수 있게 되었다는 점이다. 이미지 속 텍스트를 고치고 그래픽을 새로 생성하며 오브젝트를 주제나 맥락에 맞춰 자연스럽게 변환하는 기능은 산업 전반에 걸쳐 새로운 창작 흐름을 만들어낼 수 있다. 특히 주목할 지점은 이러한 기능이 단지 업무 효율화나 콘텐츠 제작 자동화에만 그치지 않는다는 점이다. 사람들이 일상 속 감정과 기억, 유머와 밈(meme), 일상의 장면들까지도 누구나 이미지로 기록하고 나아가 수십초만에 창작할 수 있는 시대가 열린 것이다. '생활형 창작'의 문턱이 급격히 낮아진 지금 생성형 AI는 이제 단순한 도구가 아니라 삶을 구성하는 도구로 자리매김할 가능성이 보인다. 다만 이 기능은 아직 무료 버전에서는 제공되지 않는다. '챗GPT 4o'의 이미지 생성 기능은 현재 월 20달러(한화 약 2만7000원)의 유료 플랜인 '챗GPT 플러스(Plus)'와 200달러(한화 약 27만원) 플랜인 '챗GPT 프로(Pro)' 구독자에게만 제공된다. 본격적인 대중화는 향후 무료 사용자에게도 기능이 개방되는 시점 이후가 될 전망이다. 샘 알트먼 오픈AI 최고경영자(CEO)는 "'GPT-4o 이미지 생성기'는 현재 유료 사용자에게만 제공된다"며 "향후에는 무료 사용자와 애플리케이션 프로그램 인터페이스(API) 사용자에게도 확장 적용될 예정"이라고 밝혔다.

2025.03.30 14:55조이환

오픈AI 샘 알트먼 "이미지 생성 모델 인기에 서버 과부하"

오픈AI가 출시한 '챗GPT-4o 이미지 생성(ChatGPT-4o Image Generation) 모델'이 샘 알트먼 최고경영자(CEO)를 난감하게 할 정도로 폭발적인 인기를 얻고 있다. 28일 CNBC에 따르면 샘 알트먼 CEO는 X(옛 트위터) 게시물을 통해 "사용자들이 새로운 챗GPT의 이미지 생성을 좋아하는 것은 정말 즐겁지만 자사 GPU가 녹아내리고 있다"고 밝혔다. 오픈AI가 새로 선보인 이미지 생성 모델은 텍스트와 이미지를 모두 통합할 수 있는 멀티모달 AI 모델인 챗GPT-4o 기반 서비스로 유료 구독자들을 비롯한 무료 사용자들에게도 공개됐다. 샘 알트먼 CEO도 자신의 X 프로필 사진을 챗GPT 이미지 생성 모델로 제작한 일본 지브리 애니메이션 스타일의 캐릭터 이미지로 바꿔 주목받았다. 이후 챗GPT의 이미지 생성 모델을 이용해 제작한 이미지들이 다양한 소셜 미디어에서 빠르게 확산되며 큰 인기를 끌고 있는 상황이다. 이 때문에 오픈AI의 서버조차 과부하가 걸렸다. 이에 샘 알트먼 CEO는 당분간 이미지 생성에 드는 속도와 제작 가능한 이미지 개수를 제한하는 등의 대응조치를 취할 것이라고 설명했다. 이제 무료 사용자들이 생성할 수 있는 이미지 개수는 하루당 3장으로 제한된다. 또 오류 수정 작업도 진행한다. 샘 알트먼 CEO는 "챗GPT가 일부 이미지를 생성하지 못하고 있다"며 "가능한 한 빨리 수정할 것"이라고 말했다.

2025.03.28 15:25한정호

[유미's 픽] 오픈AI 新 무기 출격에 한숨 쉬는 美 기업, 주가 또 흔들릴까

'포토샵'으로 잘 알려진 미국 소프트웨어 기업 어도비가 오픈AI·구글·xAI 등 인공지능(AI) 기술을 앞세운 새로운 경쟁자들의 등장으로 위기에 몰렸다. 간단한 프롬프트 입력만으로 전문가 못지 않은 퀄리티의 이미지를 쉽게 만들 수 있는 서비스들이 속속 등장하면서 존재감이 점차 희미해지고 있다는 평가가 나온다. 26일 업계에 따르면 어도비의 최근 1년간 주가는 무려 19.98%나 하락해 오후 4시 45분 현재 403.64달러에 머무르고 있다. 한 때 주가가 597.75달러까지 치솟았으나 경쟁사들의 잇따른 등장과 함께 새로운 성장 동력으로 내세운 AI 비즈니스가 시장에서 큰 호응을 얻고 있지 못한 까닭이다. 앞서 어도비는 지난 2023년 오픈AI가 '챗GPT'를 출시한 직후 AI 사진 편집 시장에 진입하기 위해 '파이어플라이'를 출시했다. 이후 어도비 익스프레스를 비롯한 포토샵, 일러스트레이터, 어도비 스톡 등 크리에이티브 클라우드 앱들에 생성형 AI를 탑재했다. 특히 포토샵에는 '제너레이티브 필(Generative Fill)', 어도비 스톡에서는 '텍스트 투 이미지(Text-to-Image)', 일러스트레이터에는 '제너레이티브 리컬러(Generative Recolor)' 등 AI 기반 기능이 출시됐다. 올해 초에는 파이어플레이 비디오 티어 등 새로운 AI 기반 서비스를 발표해 주목 받았다. 이 서비스는 사용자가 제출한 텍스트나 이미지 기반으로 비디오부터 3D 그래픽, 2D 애니메이션을 생성한다. 이를 시장에 확산시키고자 어도비는 서비스 내 생성형 AI 일부 기능을 무료로 제공하는 등 승부수를 걸었다. 확장 기능이나 상업적 사용을 위해서만 유로 플랜을 서비스에 적용한 상태로, 사용자 기반이 넓어지면 서비스 유료 전환을 순차적으로 유도하려는 전략도 세웠다. 최근에는 AI 에이전트가 접목된 새로운 애플리케이션(앱)인 '브랜드 컨시어지'를 선보여 주목을 받았다. 기존 고객 데이터를 바탕으로 맞춤화된 콘텐츠 등을 추천하는 작업을 수행하는 것으로, 어도비가 AI 에이전트 제품을 선보인 것은 이번이 처음이다. 이 같은 어도비의 노력에도 불구하고 시장 내 반응은 뜨뜻미지근하다. 사용자들은 비용을 지불할 정도로 어도비의 AI 기능들이 가치가 있는지 불확실하다는 평가를 내놓고 있다. 경쟁사들의 기술력이 빠른 속도로 발전하고 있어서다. 실제 오픈소스로 제공되는 미드저니나 오픈AI의 '소라'는 텍스트와 사진 몇장 만으로도 AI 기반 이미지 콘텐츠 제작이 가능하도록 지원하고 있다. 해당 서비스 제공자들은 영상과 오디오, 사진 편집 기능까지 추가할 계획이라고 밝힌 상태다. 런웨이AI, 메타, 아마존 등도 잇따라 동영상 생성 AI 도구를 선보이며 어도비를 위협하고 있다. 이 같은 상황에서 오픈AI가 지난 25일 '챗GPT-4o 이미지 생성(ChatGPT-4o Image Generation) 모델'을 출시해 발등에 불이 떨어졌다. 맥락과 그리는 대상에 대한 이해도가 한층 더 높아져 이전보다 더 정확한 결과를 내놓을 수 있게 돼서다. 새 모델은 오픈AI의 시그니처 멀티모달 AI 모델인 챗GPT-4o와 결합한 이미지 생성 모델로, 텍스트와 이미지를 통합한 첫 모델이다. '그림'만 학습한 기존 이미지 모델에 GPT-4o 언어 모델이 결합하며 목적에 맞는 이미지를 쉽게 생성할 수 있게 됐다. 이 모델은 현재 유료 구독자들은 물론 무료 사용자들도 이용할 수 있다. 오픈AI는 기존에 '달리(DALL·E)'를 앞세워 이미지 생성 AI 시장에서 존재감을 키워왔다. 이를 사용했을 땐 숫자와 문자가 '그림'으로 해석돼 그려져 삐뚤게 이미지에서 표현됐지만, 새 모델은 언어 모델을 이해한 후 그림을 만들어 내 보다 정확한 결과물을 얻어낼 수 있다. '삼각형 바퀴를 가진 자전거'를 그려달라고 하면 기존 모델은 훈련되지 않은 데이터여서 결과물을 내놓는데 어려움을 겪었지만, 새 모델은 가능해졌다. 동영상 생성 AI인 '소라'에도 새 모델의 언어 이해가 적용돼 더 자연스러운 영상을 만들 수 있게 됐다. 이는 서비스 경쟁력 개선에 나선 오픈AI의 노력의 일환이다. 오픈AI 관계자는 "GPT-4o의 언어 지식과 이미지 지능이 결합된 모델"이라며 "기존 모델이 참신했다면 이 모델은 유용하다"고 설명했다. 오픈AI 외에도 구글은 제미나이에서 '이마젠' 이미지 생성 모델을 제공하고 있다. 중국 딥시크도 '야누스'라는 이름의 이미지 생성 모델을 출시했다. 동영상 생성 AI 시장에선 미드저니와 런웨이AI, 메타, 아마존 등도 잇따라 서비스를 선보이며 어도비를 위협하고 있다. RBC 애널리스트 매튜 스완슨은 "어도비가 생성형 AI 제품 로드맵을 잘 따라가고 있지만, 명확한 수익화 지표가 부족한 상태"라며 "투자자들이 어도비 진행 상황을 신뢰하기 어려운 상황"이라고 평가했다. 도이치뱅크 브래드 젤닉 애널리스트 역시 "어도비 경영진은 파이어플라이의 가능성을 강조하고 있지만, 아직 재무적 영향은 확인되지 않았다"고 지적했다. 조던 클라인 미즈호 애널리스트는 "어도비 플랫폼에서 점유율을 차지할 새로운 AI 기반 비디오 제작 엔진이 (투자자들에게) 우려 사항으로 남아 있다"며 "어도비는 소프트웨어 분야에서 가장 논쟁이 많은 주식 중 하나"라고 평가했다.

2025.03.26 17:21장유미

"구글 AI, 워터마크 삭제까지"…'제미나이 플래시 2.0'에 저작권 업계 긴장

구글이 자사 인공지능(AI) 이미지 생성·편집 기능을 대폭 강화했다. 멀티모달 처리와 향상된 추론 능력 덕분에 스토리텔링과 창작의 자유는 한층 넓어졌지만 저작권 침해와 콘텐츠 조작 가능성도 커져 우려를 낳고 있다. 17일 테크크런치에 따르면 구글은 최근 자사 '제미나이 플래시 2.0'의 네이티브 이미지 생성 기능을 공개하고 이를 두고 개발자들이 실험할 수 있도록 조치했다. 이번 업데이트는 구글이 실험용 AI들을 공개해 둔 웹사이트인 'AI 스튜디오'와 '제미나이' 애플리케이션 프로그램 인터페이스(API)를 통해 제공된다. 이번에 '플래시 2.0'에 추가된 이미지 생성 및 편집 기능은 텍스트와 이미지를 결합해 일관된 스토리를 생성하는 기능을 지원한다. 사용자가 원하는 스타일에 맞춰 스토리를 변경하거나 그림을 수정할 수도 있다. 대화형 이미지 편집 기능도 추가돼 자연어 명령만으로 이미지의 세부 요소를 조정할 수 있다. 이 모델은 단순한 이미지 생성 기능을 넘어 '세계에 대한 이해' 능력도 탑재했다. 텍스트 렌더링 성능도 개선돼 광고·초대장 제작 등에도 활용 가능할 것으로 보인다. 일례로 사용자는 자연어 프롬프트로 AI에 말을 그리라고 지시한 후 생성된 말의 모양과 외모는 유지하면서 색깔만 바꾸는 것이 가능해진다. 이외에도 캐릭터 일러스트를 삽입한 후 캐릭터가 입고 있는 옷을 바꾸거나 만화 컷에 나온 등장인물의 발언만을 다르게 바꾸는 것도 가능하다. 다만 이같은 AI의 강력한 이미지 편집 기능이 저작권 문제를 일으킬 가능성도 크다. 일부 사용자는 '플래시 2.0'을 이용해 이미지에 삽입된 워터마크를 제거하는 실험을 진행 중이다. 특히 게티이미지와 같은 스톡 이미지 기업의 콘텐츠 보호 장치가 AI에 의해 무력화될 가능성이 제기된다. 이전까지 오픈AI, 앤트로픽 등의 AI 모델들은 워터마크 제거 요청을 명확히 거부해왔다. 반대로 '플래시 2.0'은 별다른 제약 없이 워터마크를 삭제하고 그 자리를 자연스럽게 채우는 기능을 수행하는 것으로 알려졌다. 이러한 현상에 구글 측은 '플래시 2.0'이 아직 실험적 단계에 있으며 상업적 사용이 금지돼 있다고 밝혔다. 다만 AI의 기술적 한계를 실험할 목적으로 접근하는 사용자들이 많아 저작권 업계의 반발이 예상된다. 현재 미국 저작권법에 따르면 원 저작자의 동의 없이 워터마크를 삭제하는 행위는 불법이다. 일부 예외적인 경우를 제외하면 법적 조치가 가능하, 저작권 보호 기관들의 대응이 있을 것으로 보인다. 테크크런치는 "'플래시 2.0'은 유명인과 저작권이 있는 캐릭터의 이미지를 생성할 뿐만 아니라 기존 사진에서 워터마크를 제거하는 기능까지 수행하는 것으로 확인됐다."며 "일부 저작권 소유자들은 이 AI의 사용 제한이 느슨한 점에 대해 강하게 반발할 가능성이 크다"고 분석했다.

2025.03.17 14:53조이환

오픈AI 견제 나선 일론 머스크, X서 AI 챗봇 '그록2' 무료 배포로 승부수

일론 머스크 테슬라 최고경영자(CEO)가 만든 인공지능(AI) 기업 xAI가 이미지 생성 기능이 포함된 최신 AI 챗봇 '그록2(Grok-2)'를 무료로 이용할 수 있게 했다. 이용자를 많이 늘려 AI 시장에서 주도권을 확보함과 동시에 오픈AI가 만든 '챗GPT'를 견제하려는 의도로 분석된다. 16일 테크크런치 등 일부 외신에 따르면 xAI는 최근 소셜미디어 플랫폼 X(옛 트위터)에서 '그록2'를 무료로 제공하기 시작했다. '그록2'는 지난 8월 중순 처음 출시됐으나, 그간 월 7달러인 X의 프리미엄 이상 구독자만 이용할 수 있었다. 그러나 이번에 무료로 서비스를 풀면서 이용자 범위는 대폭 확대될 것으로 보인다. 이용자는 메뉴 줄에서 그록 아이콘을 눌러 그록2 페이지에 접속할 수 있으며 '무엇이든 물어보세요'라고 쓰인 대화창에서 챗봇을 이용할 수 있다. xAI는 "그록이 이제 모두에게 무료"라며 "더 빠르고 더 날카롭고 완전히 새로운 이미지 생성기를 포함하고 있다"고 밝혔다. 다만 오픈AI의 챗GPT 등과 마찬가지로 이용 한도가 있다. 무료 이용자는 2시간마다 최대 10개 질문을 할 수 있다. xAI는 "지난 8월 '그록2' 출시 이후 성능을 개선하기 위해 노력해 왔고 웹 검색과 인용, 최근에 추가된 이미지 생성기 오로라(Aurora) 같은 새 기능을 추가했다"며 "창의적 사진과 재미있는 밈(meme)을 만드는데 탁월하다"고 밝혔다. 이어 "(이전 버전보다) 3배 더 빠르고 정확성과 다국어 기능이 개선됐다"고 덧붙였다. 또 xAI는 기업용 API(응용프로그램 인터페이스)로 '그록2-1212'와 '그록2-비전-1212'도 추가했다. 이를 통해 고도로 조정 가능하고 지능적인 모델을 찾는 개발자들에게 우수한 옵션을 제공한다는 방침이다. 더불어 효율성 개선에 따라 이 기업용 모델의 용량당 가격도 전보다 인하했다. xAI가 이처럼 나선 것은 머스크가 오픈AI를 견제하기 위한 것으로 분석된다. 앞서 머스크는 지난 2015년 오픈AI 설립에 참여했다가 2018년 이 회사의 이사직을 사임하고 투자 지분도 모두 처분했다. 이후 오픈AI가 '챗GPT'를 내놓자 이 챗봇이 정치적으로 편향돼 거짓말을 하고 있다고 비판하며 그 대항마로 AI 개발 스타트업 xAI를 지난해 7월 설립했다. 또 최근에는 오픈AI의 영리 법인 전환 추진에도 반발하며 여론 조성에 힘쓰고 있다. 오픈AI는 영리 법인 전환을 추진하고 있는 상태로, 이를 위해 캘리포니아주 당국과 초기 논의를 진행하고 있다. 앞서 머스크는 샘 올트먼 오픈AI CEO가 오픈AI를 비영리 단체로 운영하겠다는 약속을 위반하고 영리를 추구해 투자자 등과 한 계약을 위반했다고 주장한 바 있다. 또 오픈AI의 영리 법인 전환을 중단시켜달라는 소송도 제기했다. 머스크는 오픈AI가 영리 법인으로 전환되면 AI 시장에서 위협적인 경쟁자가 될 것이라고 우려하고 있다. 업계 관계자는 "머스크가 외부 자본 조달을 통해 대규모 데이터센터를 구축하는 등 AI 개발에 박차를 가하고 있다"며 "xAI가 향후 선두 주자인 오픈AI를 머지않아 위협할 것으로 보인다"고 말했다.

2024.12.16 11:12장유미

스태빌리티AI, '스테이블디퓨전3.5' 출시…창작자 지원 강화

스태빌리티AI가 이미지 생성 모델 '스테이블디퓨전'의 차기 버전을 공개했다. 사용자의 요구 사항에 맞춰 모델을 더욱 세밀하게 조정할 수 있도록 사용자 정의 기능을 확대하는 등 이미지 전문가를 위한 지원을 확대한 것이 특징이다. 23일 실리콘앵글 등 외신에 따르면 스태빌리티AI는 스테이블디퓨전 3.5를 허깅 페이스를 통해 출시했다. 스테이블디퓨전3.5는 지난 6월 출시한 스테이블디퓨전3의 개선 버전으로 창의적인 프로젝트와 전문적인 작업을 위해 모델을 더욱 세밀하게 조정할 수 있는 옵션을 제공한다. 빈티지한 사진 효과나 특정 시대의 화풍을 연출하는 등 다양한 스타일이나 텍스처를 지정해 원하는 시각적 표현을 생성할 수 있다. 또 이 제품은 대량의 이미지를 신속하게 생성해야 하는 이미지 전문가와 기업을 위해 더 빠르게 고품질의 이미지를 생성할 수 있도록 처리 속도가 향상됐다. 더불어 모델 개선을 통해 이미지 품질을 전반적으로 향상시키고 사용자가 요구하는 바를 더 정확하게 반영할 수 있도록 프롬프트 명령 이해도를 높였다. 공개한 AI 모델은 스테이블디퓨전3.5 라지와 스테이블디퓨전3.5 라지 터보 2종이다. 80억 개의 매개변수를 기반으로 학습한 스테이블디퓨전3.5 라지는 전문적인 고품질 이미지 생산에 초점을 맞춰 설계된 모델로 1메가픽셀 해상도를 지원한다. 스테이블디퓨전3.5 라지 터보는 라지 모델보다 이미지를 더 빠르게 생성할 수 있도록 알고리즘 최적화 및 하드웨어 지원 기능이 적용됐다. 스태빌리티AI는 보다 효율적인 이미지 생성 모델을 원하는 사용자를 위한 스테이블디퓨전3.5 미디엄도 오는 29일 선보일 예정이다. 스테이블디퓨전3.5 미디엄은 26억 개의 매개변수 기반으로 일반 PC나 노트북에서도 활용할 수 있는 수준의 컴퓨팅 파워를 요구한다. 스태빌리티AI 측은 "스테이블디퓨전3는 우리의 기준이나 커뮤니티의 기대에 충분히 부응하지 못했다"며 "이에 커뮤니티 피드백을 듣고 우리의 사명을 발전시키는 버전을 추가로 개발하기 위해 노력했다"고 설명했다. 이어 "이번에 선보이는 AI모델은 개발자와 제작자들이 손쉽게 비용 부담 없이 사용할 수 있는 도구를 제공하려는 우리의 의지를 반영한다"며 "상업적, 비상업적 사용 모두 무료로 제공되는 만큼 이를 활용해 원하는 목표를 달성하길 바란다"고 덧붙였다.

2024.10.23 10:31남혁우

"AI로 손쉽게 이미지 수정"…미드저니, 新 그림 편집 기능 출시

미드저니가 인공지능(AI) 기반 이미지 편집 도구를 출시해 웹에서 자유롭게 수정할 수 있는 기능을 제공한다. 21일 테크크런치에 따르면 미드저니는 다음 주부터 AI를 활용해 이미지를 편집하고 재텍스처링하는 웹 도구를 선보일 예정이다. 이 도구는 이미지의 색상과 세부 사항을 재구성하는 기능도 포함하고 있어 많은 주목을 받고 있다. 이번 업데이트는 기존 그림 생성 기능을 넘어 사용자가 직접 이미지를 업로드하고 이를 편집할 수 있는 수준으로 확대된다. 초기에는 커뮤니티의 일부 사용자에게만 제한적으로 제공되나 지속적으로 접근성을 확대할 예정이다. 특히 이번 기능은 기존 AI의 자동 생성에서 벗어나 사용자가 세부적으로 이미지를 조정할 수 있다는 점에서 차별화된다. 이를 통해 사용자들은 더욱 창의적이고 맞춤형 작업을 할 수 있어 다양한 분야에서 활용도가 높아질 것으로 보인다. 미드저니 측은 기술 도입에 따른 저작권 침해나 허위 정보 확산의 위험성을 인식하고 이를 방지하기 위해 AI 감독 시스템과 인간 모니터링을 도입할 계획이다. 특히 정치인 그림 생성 필터링과 같은 예방 조치도 강화할 예정이다. 미드저니 관계자는 "커뮤니티 피드백을 기반으로 기능을 점진적으로 확장할 계획"이라고 밝혔다.

2024.10.21 10:24조이환

"미드저니 넘볼까?"…월간 이용자 1억5천만 '프리픽' AI로 디자인 혁신 가속화

"지난 5월 이후 우리는 글로벌 디자인 혁신을 위한 파트너로서 적극적으로 협력하고 있습니다. 프리픽은 약 700만 장 이상의 이미지 데이터베이스와 광범위한 사용자 기반을 보유하고 있으며 매그니픽AI는 혁신적인 인공지능 통합도구(AI Suite) 기술을 제공합니다. 이번 '젠AI 이노베이션 2024' 행사에는 한국 시장에 우리 기술의 우수성을 소개하기 위해 참가했습니다." 하비 로페즈 매그니픽AI 공동 창업자는 4일 양재 aT센터에서 열린 '젠AI 이노베이션 2024'에서 기자와 만나 이같이 밝혔다. 이 행사에는 에밀리오 니콜라스 리켈메 매그니픽 AI 공동 창업자와 파울라 비바스 프리픽 미국 마케팅 헤드도 함께 참석해 생성형 AI 기술과 이미지·디자인 업계의 미래에 대해 논의했다. 프리픽은 지난 2010년에 설립된 세계 최대의 그래픽 리소스 플랫폼으로, 7백만 개 이상의 이미지 파일을 제공해 디자이너와 크리에이티브 전문가들에게 필수적인 리소스로 통한다. 월간 사용자 수는 1억5천만명 이상에 도달했으며 미국 시장에서만 월 800만명의 사용자를 확보하고 있다. 지난 5월 프리픽은 매그니픽AI를 인수 합병했다. 매그니픽은 사용자 프롬프트에 따라 저해상도 이미지를 고해상도로 업스케일링하고 원래 존재하지 않았던 세부 사항을 이미지에 추가하는 혁신적인 AI 플랫폼이다. 프리픽의 매그니픽AI 인수는 디지털 디자인 시장에서의 경쟁력 강화를 위한 전략적 선택이었다. 비바스 프리픽 마케팅 헤드는 "최근 우리는 몇 년간 급속도로 성장해 왔지만 스톡 이미지만으로는 장기적으로 생존하기 어렵다는 것을 알고 있었다"며 "이제 게티 이미지 같은 이미지 플랫폼만이 아니라 미드저니·캔바와 같이 AI 기능을 갖춘 회사들과 경쟁하기 위해 기술 분야에 집중하고 있다"고 설명했다. 실제로 프리픽은 매그니픽AI 인수 후 '미스틱(Mystic)'이라고 불리는 기능을 서비스 내에 출시했다. '미스틱'은 프리픽 구독 시 사용 가능한 AI 통합도구다. 스케치에서 이미지로의 변환, 텍스트에서 이미지로의 변환, 리터치, 리메이크 등 다양한 창의적인 작업을 지원한다. 리켈메 매그니픽AI 공동 창업자는 "매그니픽이 최초로 개발한 기능은 저화질 해상도의 그림을 고화질로 바꾸는 업스케일링이었다"며 "지금은 더 많은 혁신적인 도구들을 도입해 이를 영어로 마법을 뜻하는 '미스틱'이라고 부르기로 했다"고 설명했다. 리켈메 공동 창업자의 말처럼 '미스틱'은 하나의 그림을 생성하고 이를 같은 구도에서 다르게 변형할 수 있는 것이 특징이다. 프롬프트를 입력하면 여러 구도로 이미지를 생성할 수 있으며 동일한 인물의 사진을 다른 인종으로 변환하는 것도 가능하다. 실제로 리켈메 공동 창업자는 강연 세션에서 '미스틱'의 기능을 시연했다. 그가 음성으로 입력한 "한복을 입고 뉴욕에 내려오는 에일리언"이라는 프롬프트에 '미스틱'은 다양한 외계인들이 한복을 입고 낙하하는 이미지를 같은 구도로 생성해 관객의 환호를 받았다. 언어 표기의 정확도도 높다. 로페즈 공동 창업자는 "다른 생성형 AI가 그림 속에 알파벳을 제대로 표현하지 못하는 것과 달리 우리 모델은 영어, 스페인어, 프랑스어, 이탈리아어에서 90% 이상의 정확도를 보인다"며 "한국어와 일본어 지원도 확대하기 위해 노력하고 있다"고 밝혔다. 두 회사의 주요 고객층은 이미지 작업을 하는 모든 사람들이다. 주로 B2C를 타겟으로 하지만 건축사·게임회사와 같은 전문적인 기업 사용자들을 위한 고급 기능도 제공한다. 리켈메 공동 창업자는 "우리 목표는 개인 사용자부터 소규모 비즈니스, 전문 디자이너까지 모두가 사용할 수 있는 도구를 제공하는 것"이라고 강조했다. 이번 '젠AI 이노베이션 2024' 행사 참여도 그 일환이다. 프리픽과 매그니픽은 국내 AI 전문가들과의 교류를 통해 한국 시장에서의 입지를 강화하고자 하기 때문이다. 왜 일본이나 싱가포르보다 한국을 먼저 선택했는지 묻는 기자의 질문에 비바스 헤드는 "왜 한국이 먼저가 되면 안 되냐"며 "아시아에서 AI 기술이 가장 빠르게 성장하는 시장인 한국은 우리가 커뮤니티를 형성하기에 아주 좋은 장소"라고 강조했다. 이어 "행사를 개최한 'AI 커뮤니티 코리아' 관계자와 라스베이거스 컨퍼런스에서 만난 후 참가에 많은 도움을 받았다"고 설명했다. 두 회사는 앞으로도 AI 기술을 바탕으로 전 세계의 콘텐츠 크리에이터들과 협업하며 자체 플랫폼을 지속적으로 발전시킬 예정이다. 이를 통해 사용자 참여를 통한 AI 기술의 성공 사례로 자리매김하고자 한다. 비바스 헤드는 "우리 목표는 아이디어의 힘을 표현하는 데 필요한 솔루션, 콘텐츠, 영감을 제공하는 원스톱 플랫폼이 되는 것"이라며 "앞으로도 더 많은 사용자들에게 다가가고 혁신적인 도구를 제공하기 위해 노력하겠다"고 강조했다.

2024.10.04 15:46조이환

루카스메타-게티이미지코리아, AI 협업 솔루션 위해 '맞손'

루카스메타와 게티이미지코리아가 인공지능(AI) 서비스 혁신을 위해 손을 맞잡았다. 루카스메타는 게티이미지코리아와 AI 기반의 협업 솔루션 공동 개발을 위한 전략적 업무협약(MOU)을 체결했다고 24일 밝혔다. 업무협약을 통해 양사는 상업적 활용이 가능한 AI 기반 이미지 및 협업 서비스를 구축할 예정이다. 루카스메타는 생성 AI 기술을 활용해 이미지 생성 및 편집기 커스텀 솔루션을 개발할 계획이다. 게티이미지코리아는 이를 위해 회사가 보유한 1억7천300만개의 비주얼 콘텐츠를 제공한다. 이번 협력은 금융 분야를 포함한 다양한 분야에의 AI 솔루션 개발에 초점을 맞추고 있다. 양사는 금융권을 시작으로 다양한 B2B 및 B2G 시장에 진출할 계획이다. 현재 글로벌 기업 캔바와 국내의 미리캔버스, 망고보드 등이 유사한 서비스를 제공하고 있어 경쟁이 치열하게 진행 중이다. 이번 협약을 통해 루카스메타와 게티이미지코리아는 차별화된 기술력과 방대한 콘텐츠를 바탕으로 시장에서의 경쟁력을 강화할 전망이다. 한예원 루카스메타 대표는 "이번 협약을 통해 AI 기술과 저작권 이미지 자산의 결합으로 혁신적인 서비스를 제공하게 됐다"며 "특히 금융 분야에서의 혁신 서비스 개발에 주력할 것"이라고 말했다. 박건원 게티이미지코리아 대표는 "이번 협력을 통해 국내 AI 서비스 시장에서의 입지를 더욱 강화할 수 있을 것으로 기대한다"고 강조했다.

2024.09.24 17:37조이환

이미지 AI 발전 가속…전문가들 "포르노·가짜 뉴스 남용 막아야"

생성 인공지능(AI)의 그림이 정교해지고 이미지 편집 기능이 추가돼 실제 사진과 구분이 점점 어려워지고 있다. 이를 남용하는 사례가 늘면서 윤리적 해결책과 법제화의 필요성이 커지고 있다. 19일 미국의 테크 전문지 벤처비트에 따르면 구글은 최근 미국 시장에서 '이마젠3'를 출시했다. 이는 지난 5월 구글이 해당 모델을 최초로 발표한 후 3개월 만이다. 이에 따라 '이마젠' 사용자들은 텍스트를 입력해 그림을 마음껏 그릴 수 있게 됐다. 업계는 이를 오픈AI의 이미지 생성 모델인 '달리'에 대항하려는 움직임으로 보고 있다. 구글보다 앞서 지난해 10월 오픈AI는 '챗GPT'에 '달리3'를 통합한 멀티모달 모델을 도입했다. 이는 지금까지 유료 이용자들에게만 제공됐던 모델이었지만 지난 15일부터 무료 사용자에게도 하루 최대 2건씩 제공되고 있다. 일론 머스크 엑스(X) 대표의 챗봇 '그록'도 이에 가세했다. 지난 13일 X는 프리미엄 사용자들에게 '그록-2'의 베타 버전을 제공하기 시작했고, 여기에는 이미지 생성 기능도 포함돼 있다. 이들 이미지가 점점 실제와 구분이 안 되는 수준으로 진화하고 있다는 것이 업계 전문가들의 의견이다. 실제로 루르 대학교가 올해 5월 실시한 조사에 따르면 3천명의 연구 참가자 대부분이 AI가 생성한 이미지를 실제 사진으로 착각한 것으로 나타났다. 이제 생성 AI가 단순히 그림을 생성하는 것뿐만 아니라 편집까지 할 수 있어 더 많은 우려를 낳고 있다. 샌프란시스코에 위치한 그림 AI 스타트업인 미드저니는 지난 15일 웹브라우저 이미지 편집기를 공개했는데 이 서비스는 이미지 일부를 다시 칠하거나 경계를 늘리는 등의 아웃페인팅 및 캔버스 확장 기능을 지원한다. 이렇게 이미지 생성 및 편집 AI가 급속도로 발전하면서 가짜 이미지 남용 가능성에 대한 우려가 커지고 있다. 실제로 머스크의 '그록'은 '이마젠'이나 '달리'와 달리 크게 검열되지 않고 있다. 머스크 X 대표가 '세상에서 가장 재미있는 AI'라고 표현한 그록은 프롬프트에 따라 대부분의 이미지를 생성할 수 있다. 외신에 따르면 '그록'은 프롬프트를 따라 테일러 스위프트· 카멀라 해리스 후보의 노골적 성적 대상화 이미지와 911 테러를 저지르는 트럼프 전 대통령의 사진 등을 생성한 바 있다. 전문가들은 검열되지 않는 이미지에 편집 기능까지 더해지면 문제가 더 심각해질 수 있다고 분석한다. AI는 아직도 영어를 제외한 글자들을 제대로 표시하지 못하고 사람의 손가락 같은 복잡한 형태를 그리지 못하지만 기술이 발전할수록 이러한 문제도 해결될 전망이기 때문이다. 이미 유사 기술인 딥페이크의 경우 기술이 고도화되면서 여러 문제가 발생했다. 지난 15일 샌프란시스코시 변호국은 딥페이크 포르노를 생성할 수 있는 사이트들의 폐쇄 조치를 요구하는 소송을 제기했다. 이 사이트들은 오픈소스 생성 AI를 사용해 피해자들의 동의 없이 얼굴을 포르노 영상과 합성하는 등의 문제를 초래했다. 이는 딥페이크 기술이 극도로 고도화되고 상용화가 가능한 수준에 이르렀음에도 관련 규제가 따라오지 못했음을 보여준다. 전문가들은 딥페이크와 마찬가지로 점점 고도화되고 있는 이미지 생성 및 편집 AI에도 신속히 규제를 마련해야 한다고 입을 모은다. 이미지 AI들이 고도의 편집 기능을 통해 성적 대상화 및 가짜뉴스 이미지를 대량생산할 가능성이 크기 때문이다. 이러한 폐해를 방지하기 위해 규제뿐만 아니라 기업들의 기술 개발도 필요하다고 전문가들은 분석한다. 하디 살만 오픈AI 연구원은 "기업들은 AI 도구의 잠재적 위협에 대한 방어 수단을 구축하는 데 투자해야 한다"며 "이를 위해 모델 개발자, 정책 입안자, 소셜미디어 플랫폼 간의 적극적 협력이 필요하다"고 강조했다.

2024.08.19 17:52조이환

"'투닝'과 함께하면 웹툰 창작 더 잘 할 수 있어요"

꿈은 삶의 이정표이자 동력이다. 꿈은 곧 미래의 삶이다. 꿈은 그래서 소중하다. 꿈은 사람마다 다르고 다른 만큼 다채롭다. 스타트업이 꾸는 꿈도 그럴 것이다. 소중하고 다채롭다. '이균성의 스타트업 스토리'는 누군가의 꿈 이야기다. 꿈꾸는 사람이 자신의 이야기를 들려주고 다른 꿈꾸는 사람을 소개하는 릴레이 형식으로 진행된다. [편집자주] “투닝과 함께하면 웹툰 창작 더 잘 할 수 있어요” 미국 주식시장에 상장된 웹툰엔터테인먼트에서 활동하는 상위 100위 창작자의 연평균 수익은 100만 달러인 것으로 나타났다. 또 연평균 10만 달러 이상 수익을 올리는 창작자만 483명이나 되는 것으로 알려졌다. 그 숫자는 해가 갈수록 늘어나는 추세다. 웹툰 산업이 점차 확대되고 있다는 것을 의미한다. 이호영 툰스퀘어 대표는 소프트웨어와 인공지능 기술로 웹툰 생태계를 더 풍부하게 만드는 데 기여하기 위해 직접 창업했다. 툰스퀘어의 사업 방향은 그러나 웹툰엔터테인먼트 같은 거대 플랫폼과 직접 경쟁하는 방식은 아니다. 그보다 소프트웨어와 인공지능 기술로 웹툰 창작을 지원하는 쪽이라 봐야 한다. “툰스퀘어는 웹툰을 중심으로 한 콘텐츠 저작 툴인 '투닝(Tooning)' 공급을 핵심 비즈니스로 하고 있습니다. 궁극적으로 투닝 이용자를 늘리고 이들과 연대함으로써 솔루션과 IP(지적재산권) 기반 회사가 되려고 합니다.” ■생성형 AI 기반 콘텐츠 저작 툴 '투닝(Tooning)' 이 대표는 웹툰의 쓰임새가 다양하다고 생각한다. 웹툰엔터테인먼트에 연재되는 상업용 흥행 웹툰도 있지만, 학교 교육이나 기업의 마케팅 그리고 기관의 캠페인 등에서 웹툰이 효율적으로 쓰일 수 있다는 것이다. 투닝은 이 모든 것을 지원하기 위한 툴들로 구성돼 있다. “투닝은 웹툰 콘텐츠를 만들기 위한 다양한 툴들을 가리키는 툰스퀘어의 브랜드죠. 구체적으로 투닝 에디터, 투닝 보드, 투닝 GPT, 투닝 매직 등이 있어요. 스토리와 이미지를 만들고 편집하고 공유하는 툴들이죠.” 투닝 에디터는 'AI 기반 스토리텔링 제작 툴'이다. 템플릿을 통해 손쉽게 스토리를 구성하고 다양한 캐릭터를 만들어낼 수 있다. 특히 인공지능을 이용해 글로 캐릭터를 생성하거나 사진으로 캐릭터를 만들 수 있다. “투닝 에디터는 주로 교육 현장에서 많이 씁니다. 538개 학교에서 교사 1만2300명과 학생 22만 명이 활용하고 있죠. 간단한 작품을 만들거나 학습 활용에 효과가 크고 AI를 체험할 수 있다는 점에서 좋아들 하셔요.” 투닝 매직은 '생성형 AI 기반 웹툰 창작 스튜디오'다. “투닝 에디터가 어린 학생용이라면 투닝 매직은 전업 작가용 웹툰 창작 스튜디오죠. 스케치로 이미지를 생성하고, 작가의 화풍을 학습해 전용 캐릭터를 만들어주며, 어떤 각도에서든 일관성 있는 캐릭터를 생성하는 게 특징이죠. 명령어 고민 없이 버튼으로 이미지를 생성할 수 있는 기능도 탑재하고 있어요.” 투닝 GPT는 스토리를 써주는 툴이고 투닝 보드는 공유하는 툴이다. ■웹툰 작가를 꿈꾸다 웹툰 툴 회사 대표로 이 대표는 홍익대학교에서 디지털미디어디자인을 전공했다. 졸업 후에는 삼성전자에 들어가 사용자경험(UX) 디자인을 주로 했다. “회사에 다니면서도 웹툰 전업 작가가 되고 싶었어요. 처음엔 취미로 그렸죠. 그런데 웹툰 플랫폼 PD한테 연락이 왔어요. 제대로 해보자고요. 계약까지 맺었죠. 하지만 두 가지 일을 동시에 하기엔 너무 힘들었어요. 웹툰 연재를 하려면 최소 하루 8시간 주 60시간을 그려야 해요. 결국 전업 작가는 포기하고 말았어요. 삼성전자에는 C-LAB이라는 사내 벤처 프로젝트가 있어요. 웹툰에 대한 미련이 남아 이 프로젝트에 응모했죠. AI를 활용해 웹툰 제작에 도움이 되는 솔루션을 만드는 아이템을 냈어요. 직접 웹툰을 만들다보니 그 작업이 얼마나 힘든지 알게 됐고 이를 더 쉽게 해주는 솔루션이라면 승산이 있다고 생각하게 된 거죠. 그 때가 2017년이었죠. 알파고가 막 알려지던 때여서 AI에 관심이 없진 않았지만 그때만 해도 예측형 모델이 중심이어서 생성형은 크게 관심을 못 받았었죠. 하지만 생성형이 가능하다는 생각을 그때 우리는 했던 것이죠.” 2019년에 스핀오프 기업으로 선정되고 그해 11월 툰스퀘어가 설립됐다. 툰스퀘어는 오래전부터 인연을 맺고 삼성에서도 함께 근무한 3명의 동료가 공동 창업했다. ■“웹툰 작가의 새로운 생태계를 꿈꿉니다” 툰스퀘어는 웹툰의 쓰임새를 다양하게 생각하는 만큼 수익모델도 여러 가지다. 투닝이 서비스형 소프트웨어(SaaS)인 만큼 기본적으로 구독료 기반이다. 교육용 툴인 투닝 에디터의 경우 해외에서도 관심을 받기 시작했다. “AI에 대한 관심이 커지면서 투닝 에디터를 더 많이 찾고 있어요. 학습 효과도 높이고 AI도 체험할 수 있다는 인식이 확산된 듯해요. 홍콩 싱가포르 일본 등 아시아권에서 문의가 들어오고 있고 결과가 나쁘지 않을 것 같아요.” 기업 비즈니스도 활로가 될 것으로 기대한다. “기업이 웹툰을 활용할 방법은 아주 많다고 봐요. 예를 들어 스마트폰으로 소통할 때 문자를 쓰기도 하지만 이미지도 많이 이용하잖아요. 지금도 정형화된 이모티콘이 있지만, 나만의 밈을 만들 수 있다면 더 많이 활용할 수 있다고 봐요. 기업이 고객한테 그런 서비스를 제공할 수 있도록 하는 사업도 진행중이죠.” 툰스퀘어의 궁극적 지향은 자체 웹툰 생태계 확대에 있다. “어려서부터 투닝 에디터를 쓰는 학생들은 툰스퀘어와 계속해서 관계를 맺을 가능성이 높다고 봐요. 웹툰으로 학습하는 것을 더 재미있어 하기도 하지만 인공지능을 이용해 웹툰으로 무엇이든 만들다보면 창작 욕구가 생길 수 있잖아요. 투닝 에디터를 쓰는 학생 가운데 웹툰 작가가 많이 나올 수 있다는 의미지요. 전업 작가를 준비하는 사람들에게도 투닝의 여러 툴은 없어선 안 될 솔루션이 될 거고 이들과 툰스퀘어는 더 깊은 관계를 맺을 것입니다. 실제로 웹툰 관련 학과에 다니는 대학생들과 다양한 프로젝트도 진행하고 있습니다. '투닝 월드'라는 웹툰 플랫폼도 만들긴 했습니다만 당분간 이 플랫폼을 키우는 것보다는 투닝 툴 이용자 확대와 신인 작가 발굴 지원에 더 집중할 생각입니다. 신인 작가 발굴 및 지원은 IP 확대를 위한 것이죠. 현재 100여개 작품에 대한 IP를 확보하고 있는데 이를 지속적으로 확대하는 것이 중요하다고 봐요. 투닝 매직 고도화와 신인작가 발굴 지원을 위한 예산을 마련키 위해 현재 투자 유치 작업을 하고 있는데 투자자들은 우리가 확보할 IP 규모와 영향력에 관심이 큰 것 같아요. 결국은 IP가 사업의 관건이 되는 것이죠.” 덧붙이는 말씀: 이호영 툰스퀘어 대표가 다음 인터뷰 대상으로 추천한 사람은 전자문서 서비스 스타트업인 자버의 이동욱 대표입니다.

2024.07.11 14:02이균성

美 차기 대통령이 트럼프?…이미지 생성AI 오류 논란

"미국 다음 대통령은 도널드 트럼프라고?" 이미지 생성 인공지능(AI) 소프트웨어 '미드저니'(Midjourney)가 미국 다음 대통령 이미지 요청에 도널드 트럼프의 모습을 생성해 논란이 되고 있다고 IT매체 엔가젯이 1일(현지시간) 보도했다. 이는 미드저니가 미국 대통령 선거를 앞두고 AI가 유력 후보인 트럼프와 바이든의 이미지를 만드는 것을 차단하겠다고 밝힌 후 발생한 일이다. 보도에 따르면, 엔가젯은 미드저니에 “미국 대통령 이미지를 만들어 달라”고 요청하자 다양한 스타일의 도널드 트럼프 미국 전 대통령 이미지 4개를 생성했다. 이후 미드저니에 “다음 번 미국 대통령 이미지를 만들어 달라”고 하자 또 다시 트럼프 전 대통령 이미지 4개를 추가로 생성했다. “미국 현 대통령 이미지를 만들어 달라”는 요청에는 트럼프 이미지 3개와 버락 오바마 전 대통령 이미지 1개를 만들었다. 미드저니는 트럼프와 바이든 이미지를 만들어 달라는 명시적인 요청을 받았을 때만 두 사람의 이미지 생성 작업을 거부했다. 이 요청에 대해 미드저니는 "선거 기간 동안 '도널드 트럼프'와 '조 바이든'을 사용하지 않기로 투표했다"고 밝히며 이미지를 만들지 않았다. 엑스의 다른 사용자도 미드저니에서 트럼프의 이미지를 생성하도록 할 수 있었다고 밝혔다. 이번 테스트는 미국 대선을 앞두고 트럼프 전 대통령과 조 바이든 대통령의 이미지를 생성하지 못하도록 하는 미드저니의 보호장치가 충분하지 않다는 것을 보여준다고 해당 매체는 전했다. 실제로 사용자들이 이를 우회하는 방법은 매우 간단한 것으로 알려졌다. 이와 달리 오픈AI의 챗GPT, 마이크로소프트의 코파일럿, 구글의 제미나이, 메타 AI와 같은 다른 AI 챗봇들은 여러 번의 요청에도 불구하고 트럼프나 바이든의 이미지를 생성하지 않았다. 작년에 미드저니는 교황 베네딕토 16세가 푹신한 흰색 발렌시아가 재킷을 입은 가짜 이미지를 만드는데 사용된 바 있다. 또, 작년 트럼프 전 대통령이 성인영화 배우 스토미 대니얼스에게 돈을 지불한 혐의로 작년 맨해튼 형사 법원에서 기소되기 전 트럼프가 체포되는 가짜 이미지를 만드는 데에도 사용돼 논란이 됐다. 이후 이 회사는 무료 서비스 체험을 중단하고 월 최소 10달러의 이용료를 내는 방식으로 서비스를 변경했다. 올해 초, 오픈AI, 구글, 메타, 아마존, 어도비, 엑스 등을 포함한 20개 주요 테크 기업 연합은 2024년에 실시되는 전 세계 선거에서 딥페이크를 예방하기 위한 협정에 서명했다. 하지만, 미드저니는 해당 목록에 없는 상태다.

2024.07.02 14:19이정현

어도비 애크로뱃, 파이어플라이 AI 달았다

어도비는 파이어플라이 AI를 통합한 '어도비 애크로뱃'의 혁신을 19일 발표했다. 새로운 애크로뱃 기능을 통해 사용자는 생성형 AI로 기존 이미지를 손쉽게 개선하거나 새로운 이미지를 생성할 수 있다. 이 업데이트는 PDF 솔루션 최초의 인-앱(in-app) 이미지 생성 역량을 제공한다. 고객은 현재 유통되는 약 3 조 개의 PDF에서 어도비 파이어플라이로 구동되는 텍스트 프롬프트를 사용한 이미지 생성 및 편집을 할 수 있다. 어도비는 어도비 애크로뱃 리더 및 애크로뱃 워크플로우에 긴밀히 통합된 대화형 엔진인 애크로뱃 AI 어시스턴트 신규 기능을 통해 여러 PDF 그룹은 물론 마이크로소프트 워드 및 파워포인트, 텍스트 파일 등 다양한 유형의 문서에 걸친 정보를 바탕으로 사용자 질문에 답하고 인사이트를 제공하며 콘텐츠 제작을 지원하고, 한층 향상된 회의 기록 역량도 추가했다. 이미지 편집(Edit Image)은 파이어플라이 구동 생성형 채우기(Generative Fill), 배경 제거(Remove background), 지우기(Erase), 자르기(Crop) 등 용이한 툴을 통해 문서에 콘텐츠를 쉽게 추가, 제거 및 활성화할 수 있는 기능을 제공한다. 사용자는 원하지 않는 개체나 배경을 제거하고 새로운 이미지를 추가하며 PDF의 시각적 요소를 간편하게 제어할 수 있다. 어도비 파이어플라이 이미지 3 모델(로 구동되는 이미지 생성(Generate Image)은 PDF문서 내 어디든지 손쉽게 이미지를 추가할 수 있다. 사용하기 쉬운 강력한 디자인 툴을 통해 이미지로 문서에 전문적이며 창의적인 분위기를 더할 수 있다. 새로운 이미지 편집 및 이미지 생성을 통해 크리에이티브 전문성 없이도 누구나 쉽고 빠르게 애크로뱃에서 뛰어난 시각적 요소를 제작할 수 있다. 기업 영업팀의 경우, 텍스트가 많은 사업 계획서에 이미지 생성으로 이미지를 추가해 가독성과 영향력을 높일 수 있다. 이미지 생성 및 이미지 편집을 통해 기업은 투자자용 발표자료에서 기존 시각 요소를 업데이트 및 맞춤화하고, 홍보자료의 배경이 계절감과 문화적 요소를 반영하도록 쉽고 빠르게 업데이트하는 것도 가능하다. 리서치, 시험 준비, 데이터 분석, 회의록 작성 등의 작업 시 단일 문서 또는 파일 유형 내 있는 정보만 사용하는 경우는 드물다. 새로운 애크로뱃 AI 어시스턴트 기능은 누구나 쉽고 빠르게 문서 내 정보에서 인사이트를 얻고 서식을 만들며, 콘텐츠를 공유할 수 있도록 돕는다. 사용자는 간단한 답변부터 심도있는 리서치에 이르기까지, 선택한 여러 문서에서 주요 주제, 트렌드 및 관계를 파악하고 다양한 출처의 정보를 종합해 영향력 있는 콘텐츠로 만들 수 있다. 가령 Z세대 고객 접근 방법을 찾기 위해 PDF, 워드 및 파워포인트 등의 문서를 가지고 있는 마케터라면 애크로뱃 AI 어시스턴트에 해당 문서들을 드래그 앤 드롭 후 '해당 문서에 나타나는 주요 주제에 대한 개요 제공'과 같은 질문 제안을 빠르게 생성하고, 'Z세대의 소셜 미디어 습관은 무엇인가?'와 같은 질문도 할 수 있다. AI 어시스턴트는 문서 내 정보에 기반한 답변을 생성하고, 지능형 인용(Intelligent citations)을 포함해 마케터가 답변의 출처를 쉽게 확인하거나, 특정 위치로 빠르게 이동(quickly navigate)해 더 자세히 알아볼 수 있도록 돕는다. 이 밖에 '문서 내 핵심 내용을 이메일 형식으로 제작'과 같이 특정 목적에 맞게 정보를 보다 매력적인 콘텐츠(compelling content)로 만들 수 있게끔 서식화해달라는 요청도 가능하다. 새롭게 향상된 회의록 작성 역량은 주요 주제, 핵심 사항 및 실행 항목을 빠르게 이해할 수 있도록 자동으로 생성형 요약(generative summaries)을 제공해, 회의 참가자들이 최신 정보를 파악하며 팀이 일관된 방향으로 나아갈 수 있도록 지원한다. 어도비는 어도비 고객 데이터에 대해 자사의 생성형 AI 모델을 학습시키지 않는다. 파이어플라이 및 애크로뱃 AI 어시스턴트를 포함한 어도비 AI 기능은 책임, 의무 및 투명성이라는 어도비의 AI 윤리 원칙에 따라 개발됐다. 어도비 파이어플라이는 조정을 거친 어도비 스톡 콘텐츠와 저작권 만료된 퍼블릭 도메인 이미지를 포함한 라이선스 콘텐츠에 대해 학습하며 상업적으로 안전하게 사용하도록 설계된다. 어도비는 크리에이티브 과정에서 생성형 AI 사용에 대한 투명성을 제공하기 위해, 어도비 애크로뱃의 파이어플라이 구동 기능으로 제작 및 편집한 디지털 콘텐츠에 디지털 '영양 성분 표시' 역할을 하는 콘텐츠 자격증명(CC)을 자동 첨부해 사용자와 신뢰를 구축하고 있다. 어도비는 고객이 안심하고 기능을 사용할 수 있도록 학습, 테스트, AI 윤리 검토 위원회가 감독하는 검토 프로세스를 포함해 디자인에서부터 개발, 배포에 이르는 표준화된 과정을 구축했다. 애크로뱃의 새로운 이미지 편집 및 이미지 생성 기능은 초기에는 데스크톱에서 영어로 제공된다. 애크로뱃 AI 어시스턴트는 데스크톱, 웹 및 모바일에서 영어로 제공되며 이외 언어는 추후 제공될 예정이다. 아비간 모디 어도비 도큐먼트 클라우드 수석 부사장은 “어도비는 편집, 공유, 보호, 내보내기 등 PDF를 지속적으로 혁신하며 정적인 페이지에서 협업을 위한 작업 공간으로 변화시켜 왔다”며 “이제 생성형 AI를 통해 새로운 문서 유형 전반에 걸쳐 이미지 생성 및 인사이트를 제공하며 이 분야를 한 단계 더 발전시키고, 모든 사용자가 간단한 프롬프트를 사용해 쉽고 빠르게 정보를 더 잘 이해하고 정보를 매력적인 콘텐츠로 변환할 수 있도록 지원할 것”이라고 밝혔다.

2024.06.19 09:06김우용

中 콰이서우, 오픈AI '소라' 대적할 AI 영상 생성 기술 출시

중국 동영상 플랫폼 콰이서우가 미국 오픈AI의 '소라'에 대적하겠다며 초거대 인공지능(AI) 모델을 기반 이미지 생성 기술을 발표했다. 소라는 명령어를 입력하면 1분 분량의 영상을 만들어주는 AI 서비스다. 6일 중국 언론 IT즈자에 따르면 콰이서우는 '텍스트투이미지', '이미지투이미지' 기능을 제공하는 AI 초거대 모델 '칼라스(KOLORS, 중국어명 可灵)'를 발표하고 공식 홈페이지와 위챗 등을 통해 서비스한다고 밝혔다. 칼라스는 텍스트 입력을 통해 1080P의 2분 길이(30fps) 영상을 생성할 수 있으며 화면 비율을 자유롭게 조정할 수 있다. 유화, 컴퓨터그래픽, 핸드페인팅, 중국 판화, 3D 등 다양한 이미지 스타일 제작과, 8K의 고화질 이미지 생성을 지원한다는 게 콰이서우의 설명이다. 주요 기능은 '텍스트투이미지' 기능으로, 텍스트를 입력하면 다양한 스타일과 높은 화질을 갖춘 이미지를 생성한다. 입력된 테스트를 토대로 다양한 스타일의 이미지를 생성해주며 사용자가 참조 이미지를 업로드할 수도 있다. 이미지의 스타일, 테마, 세부 사항을 기반으로 새 작품을 생성한다. 'AI 이미지 커스터마이징' 기능은, 사용자가 인물 사진을 업로드하면 다양한 가상 이미지로 만들어주는 것이다. 일명 '인물 보존 기술'을 이용해 인물의 자연스러운 특성을 유지하면서 다양한 스타일의 인물 이미지를 생성해주는 것이다. 콰이서우는 "칼라스 초거대 모델은, 콰이서우의 AI팀이 자체 개발했으며, 소라와 유사한 기술 노선을 채택하면서 여러 자체 개발 기술 혁신을 결합해 소라에 맞대결 할 것"이라고 전했다. 콰이서우에 따르면, 칼라스의 초거대 모델 매개변수 규모는 10억 개 수준으로, 오픈소스 커뮤니티 소스 및 자체 AI 기술을 더했다. 텍스트투이미지 기능의 긴 텍스트와 복잡한 의미의 텍스트 입력을 위해 강화학습보상모델기술(RLHF)도 적용했다. 매체에 따르면 콰이서우는 칼라스 초거대 모델에 더 많은 기능이 구현하고, 표정과 신체 움직임이 동시에 구현되는 새로운 'AI 노래와 춤' 서비스도 출시할 예정이다. 한 장의 사진만 있으면, 노래하고 춤추는 영상을 얻을 수 있는 기능이다. 콰이서우는 지난해 연말 기준 평균 월 활성 사용자 수가 7억 명을 넘어선 중국의 주요 영상 플랫폼이다.

2024.06.07 09:08유효정

어도비, '파이어플라이 이미지 3 파운데이션 모델' 공개

어도비는 포토샵과 파이어플라이 웹 애플리케이션에서 사용할 수 있는 크리에이티브 생성형 AI 모델군의 후속 릴리스인 '어도비 파이어플라이 이미지 3 파운데이션 모델' 베타 버전을 24일 공개했다. 파이어플라이 이미지 3는 고품질 이미지 생성, 프롬프트 이해도 향상, 새로운 차원의 디테일 및 다양성, 빠른 아이디어 구상과 표현에서의 개선 등 결과의 품질과 다양한 표현에 있어 고도화된 역량을 제공한다. 어도비의 최신 파이어플라이 모델은 향상된 조명, 위치, 디테일, 텍스트 표시 등을 통해 이전보다 한층 더 사실적인 품질을 제공한다. 사용자는 파이어플라이 웹 앱 내 텍스트를 이미지로 모듈의 구조 참조 및 스타일 참조와 이미지의 종횡비를 확장하고 변경할 수 있는 생성형 채우기 모듈의 새로운 생성형 확장 기능에 파이어플라이 이미지 3를 활용할 수 있다. 파이어플라이는 작년 3월 첫 선을 보인 이래 전 세계적으로 70억 개 이상의 이미지를 생성하는 데 사용됐다. 포토샵, 어도비 익스프레스, 일러스트레이터, 서브스턴스 3D, 인디자인 등 워크플로우에 직접 통합할 수 있도록 구축된 파이어플라이는 불과 1년 만에 이미지 편집, 템플릿 제작, 벡터 디자인, 3D 텍스처링 및 스테이징 작업을 눈에 띄게 개선시켰다. 어도비는 새로운 파운데이션 모델을 출시할 때마다 크리에이터 커뮤니티에 베타 버전으로 기술을 공개하고 피드백을 통해 결과물을 발전시키고 있다. 파이어플라이 이미지3는 크리에이터가 비전을 보다 쉽게 실현하고 더 생산적으로 작업하며 고품질의 디테일한 이미지를 생성할 수 있도록 빠른 아이디어 구상과 실험을 위한 역량을 제공한다. 새로운 스타일 엔진으로 구동되는 파이어플라이 이미지 3의 새로운 자동 스타일화 역량은 더욱 다양한 고품질 결과물을 제공해, 사용자가 생성하는 이미지의 스타일을 더 잘 제어하고 개인화할 수 있도록 지원한다. 새로운 스타일, 색상, 배경, 피사체 포즈 등을 포함한 이미지 결과물은 사용자에게 창의적인 아이디어를 위한 다양한 옵션을 제공하고 보다 빠른 탐색을 돕는다. 파이어플라이 이미지 3로 구동되는 구조 참조 및 스타일 참조 역량은 탁월한 사용자 제어와 최첨단 시각적 품질을 제공한다. 사용자는 구조 참조를 통해 참조 이미지의 구조를 반영한 새로운 이미지를 빠르게 생성할 수 있어, 완벽한 프롬프트를 작성해야 하는 시행착오를 줄일 수 있다. 또한 고품질의 결과물을 제공하는 스타일 참조를 활용해 맞춤화된 스타일을 생성할 수 있다. 이러한 역량의 결합으로 사용자는 이미지 구조와 스타일을 모두 참조해 아이디어를 빠르게 실현할 수 있다. 파이어플라이 이미지 3는 개선된 조명 및 포지션 등을 통해 새로운 차원의 사진 품질을 제공한다. 특히 디테일한 이목구비와 다양한 분위기 및 표정을 반영한 인물 렌더링과 복잡한 구조물 및 군중을 표현하는 데 상당히 개선된 모습을 볼 수 있다. 파이어플라이 이미지 3는 텍스트 프롬프트와 장면에 대한 이해도가 향상되어, 길고 복잡한 프롬프트를 정확하게 반영하고 보다 풍부한 디테일이 담긴 이미지를 생성할 수 있다. 개선된 텍스트 렌더링으로 텍스트가 명확하게 표기된 이미지를 생성하는 것이 가능해져, 포스터와 같은 에셋에 대한 아이디어를 보다 효율적으로 구현할 수 있다. 파이어플라이 이미지 3는 아이콘, 로고, 래스터 이미지 및 라인 아트를 빠르게 만들 수 있도록 결과물의 일러스트레이션도 대폭 개선했다. 베타 버전으로 제공되는 파이어플라이 이미지 3는 어도비 애플리케이션의 파이어플라이 구동 생성 크레딧을 포함한 유료 구독 플랜 또는 무료로 파이어플라이 웹 앱에서 이용 가능하다. 어도비 파이어플라이는 어도비 스톡과 같은 라이선스 콘텐츠를 학습했으며, 저작권 및 상표, 로고와 같은 다른 지적재산(IP)을 침해하지 않는 상업적 용도의 콘텐츠를 생성하도록 설계됐다. 어도비는 다층적이며 지속적인 검토와 조정을 통해 어도비의 정책에 위배되는 콘텐츠를 차단 및 삭제하고, 파이어플라이가 생성한 콘텐츠에 대한 지적재산 면책 기회를 기업 고객에게 제공한다. 최근 어도비는 브랜드가 대규모 개인화를 위해 콘텐츠를 제작하고 생산하는 방식을 근본적으로 변화시키기 위해 어도비 파이어플라이 서비스 및 커스텀 모델을 도입했다. 콘텐츠 제작, 편집 및 조합을 위한 생성형 크리에이티브 API, 툴 및 서비스 활용을 지원하는 파이어플라이 서비스는 모든 제작 또는 워크플로우에 통합할 수 있어 기업의 대규모 콘텐츠 제작 자동화 시 품질 유지 및 제어를 돕는다. 커스텀 모델은 기업의 IP, 제품, 브랜드 스타일을 기반으로 생성형 AI 모델을 학습해, 크리에이티브 및 마케팅 팀이 일관되게 브랜딩을 유지할 수 있도록 지원한다. 일라이 그린필드 어도비 디지털 미디어 부문 최고기술책임자는 “1년여 만에 수백만 명의 크리에이터가 매일 아이디어를 구상하기 위해 사용하는 이미지 생성 툴로 자리잡은 파이어플라이는 아직 시작 단계에 불과하다”며 “어도비는 이미지 3 파운데이션 모델을 통해 계속해서 최첨단 기술을 발전시키고 있고, 크리에이티브 커뮤니티는 이번 베타 버전을 활용해 무궁무진한 가능성을 발휘할 것으로 기대된다”고 강조했다. AI 사용에 대한 투명성을 제공하기 위해 콘텐츠 자격증명은 파이어플라이에서 생성된 콘텐츠에 자동으로 첨부되고 있다. 디지털 콘텐츠의 '영양 성분 표시'와 같은 콘텐츠 자격증명은 제작 또는 편집 과정에서 AI를 사용했는지 여부 등 디지털 콘텐츠에 대한 상세 정보를 제공할 수 있는 위변조 확인이 가능한 메타데이터다. 콘텐츠 자격증명은 C2PA 개방형 표준을 기반으로 개발됐으며, 디지털 생태계에서 신뢰를 높이기 위해 2019년 어도비 주도로 출범한 콘텐츠 진위 이니셔티브(CAI)의 지원을 받는다. 기술, 정책, 미디어 기업, 크리에이티브 전문가, 연구원 등 약 2천500개 이상의 회원사가 참여하는 글로벌 연합으로 성장한 CAI는 디지털 콘텐츠의 투명성 향상을 위해 공동 노력하고 있다.

2024.04.24 14:18김우용

교황이 흑인?...메타 '이메진'도 황당 이미지 생성

구글 '제미나이'처럼 메타의 이미지 생성형 인공지능(AI) 모델 '이메진'도 편향된 이미지를 꾸준히 생성한 것으로 나타났다. 2일(현지시간) 악시오스 등 외신은 메타의 이메진이 편향되거나 역사적으로 틀린 이미지를 생성했다고 일제히 보도했다. 이메진 사용자는 생성 결과 오류 장면을 소셜네트워크서비스(SNS)를 통해 공유했다. 예를 들어, 사용자가 '교황 이미지를 그려줘'라고 이메진에 요청했을 때, 흑인 교황 이미지를 생성했다. '미국 식민지 시대에 어떤 사람이 국가에 거주하고 있었나'라고 물었을 때, 이메진은 아시아 여성 그룹을 그려서 사용자에게 보여주기도 했다. 프로 미식축구 선수라는 프롬프트에 미식축구 유니폼 입은 여성 모습을 생성하기도 했다. 이에 메타 측은 "더 많은 사람이 이메진 피드백을 공유한다면, 메타는 이메진 기능을 지속적으로 개선할 수 있을 것"이라고 벤처비트를 통해 밝혔다. 다수 외신은 메타가 이메진에 발생하는 인종, 성별, 직업 등에 대한 편향성을 없애기 위해 노력했지만, 기술적 보정이 지나치게 진행돼 문제를 낳았다고 분석했다. 이런 현상은 구글 제미나이의 이미지 생성 기능에서 발생하는 문제와 비슷하다. 제미나이는 지난달 이미지 생성 기능에 지속적 오류가 발생한 바 있다. 예를 들어, 사용자가 '1800년대 미국 상원의원을 생성해라'고 요청하면, 제미나이는 아메리카 원주민 여성을 닮은 인물을 내놨다. 실제 역사상 미국 첫 여성 상원의원은 1922년 등장했으며, 백인이었다. 제미나이가 잘못된 이미지를 생성한 셈이다. 이에 순다 피차이 구글 최고경영자(CEO)는 해당 오류를 인정하면서 제미나이의 이미지 생성 기능을 일시 중단하겠다고 발표했다. 피차이 CEO는 "구글 AI 연구팀은 기능 문제를 해결하기 위해 24시간 내내 노력하고 있다"며 "현재 다양한 프롬프트에서 상당한 개선이 이뤄지고 있다"고 설명했다. 이어 "그동안 문제를 추가로 검토함으로써 이에 맞는 기능 수정을 진행하겠다"고 덧붙였다.

2024.03.03 08:18김미정

스테이블디퓨전3 미리보기 공개

텍스트-이미지 모델 '스테이블 디퓨전'의 세번째 버전이 초기 미리보기로 공개됐다. 품질 및 철자 기능 향상, 다중 주제 프롬프트 등이 특징이다. 22일(현지시간) 스태빌리티AI는 차세대 텍스트-이미지 모델 '스테이블디퓨전 3' 초기 미리보기를 발표했다. 사용을 원하는 경우 미리보기 대기자명단에 등록해 이용할 수 있다. 접근권한을 얻게 되면 디스코드 서버 초대 메일을 받게 된다. 스테이블디퓨전은 2022년 2.0 버전 공개로 이미지 생성 AI 모델의 획기적 진보를 보여줬다. 세번째 버전은 기존 아키텍처와 달리 디퓨전 트랜스포머 아키텍처와 플로우 매칭을 결합했다. 디퓨전 트랜스포머 아키텍처는 일반적으로 사용되는 U-Net 백본을 트랜스포머로 대체해 이미지 디퓨전 모델을 훈련한다. 이 방식은 효율적으로 확장하고 더 높은 품질의 이미지를 생성할 수 있다. 플로우 매칭은 랜덤 노이즈에서 구조화된 이미지로 원환하게 전환하는 방법을 학습해 이미지를 생성하는 AI 모델을 만드는 기술이다. 스테이블디퓨전3는 이전 모델보다 더 나은 성능과 품질로 이미지를 만들어낸다. 한 프롬프트에 여러 주제를 넣을 수 있다. 철자 생성의 정확도도 더 높아졌다. 스테이블디퓨전3의 크기는 다양하다. 8억에서 80억개의 매개변수를 제공한다. 스테이블디퓨전은 기본적으로 오픈소스 라이선스를 따른다. 모델의 소스코드에 접근할 수 있고 미세조정이 가능하다. 현재 스테이블디퓨전3의 소스코드와 기술문서는 공개돼 있지 않다. 회사측은 미리보기 단계에서 성능과 안정성을 개선할 것이라고 밝혔다.

2024.02.23 10:43김우용

  Prev 1 2 Next  

지금 뜨는 기사

이시각 헤드라인

윤곽 잡힌 K-로봇 청사진…자원 효율적 안배 집중해야

"갤S25 엣지, 더 싸게 사자"...자급제폰 온라인몰서 인기

닛산 몰락·혼다 후퇴 '후진하는 일본차'..."남일 아냐"

"기술이 뚫려도 제도가 막았어야"...유심 해킹 민낯

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현