검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'이미지 생성'통합검색 결과 입니다. (26건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

中 콰이서우, 오픈AI '소라' 대적할 AI 영상 생성 기술 출시

중국 동영상 플랫폼 콰이서우가 미국 오픈AI의 '소라'에 대적하겠다며 초거대 인공지능(AI) 모델을 기반 이미지 생성 기술을 발표했다. 소라는 명령어를 입력하면 1분 분량의 영상을 만들어주는 AI 서비스다. 6일 중국 언론 IT즈자에 따르면 콰이서우는 '텍스트투이미지', '이미지투이미지' 기능을 제공하는 AI 초거대 모델 '칼라스(KOLORS, 중국어명 可灵)'를 발표하고 공식 홈페이지와 위챗 등을 통해 서비스한다고 밝혔다. 칼라스는 텍스트 입력을 통해 1080P의 2분 길이(30fps) 영상을 생성할 수 있으며 화면 비율을 자유롭게 조정할 수 있다. 유화, 컴퓨터그래픽, 핸드페인팅, 중국 판화, 3D 등 다양한 이미지 스타일 제작과, 8K의 고화질 이미지 생성을 지원한다는 게 콰이서우의 설명이다. 주요 기능은 '텍스트투이미지' 기능으로, 텍스트를 입력하면 다양한 스타일과 높은 화질을 갖춘 이미지를 생성한다. 입력된 테스트를 토대로 다양한 스타일의 이미지를 생성해주며 사용자가 참조 이미지를 업로드할 수도 있다. 이미지의 스타일, 테마, 세부 사항을 기반으로 새 작품을 생성한다. 'AI 이미지 커스터마이징' 기능은, 사용자가 인물 사진을 업로드하면 다양한 가상 이미지로 만들어주는 것이다. 일명 '인물 보존 기술'을 이용해 인물의 자연스러운 특성을 유지하면서 다양한 스타일의 인물 이미지를 생성해주는 것이다. 콰이서우는 "칼라스 초거대 모델은, 콰이서우의 AI팀이 자체 개발했으며, 소라와 유사한 기술 노선을 채택하면서 여러 자체 개발 기술 혁신을 결합해 소라에 맞대결 할 것"이라고 전했다. 콰이서우에 따르면, 칼라스의 초거대 모델 매개변수 규모는 10억 개 수준으로, 오픈소스 커뮤니티 소스 및 자체 AI 기술을 더했다. 텍스트투이미지 기능의 긴 텍스트와 복잡한 의미의 텍스트 입력을 위해 강화학습보상모델기술(RLHF)도 적용했다. 매체에 따르면 콰이서우는 칼라스 초거대 모델에 더 많은 기능이 구현하고, 표정과 신체 움직임이 동시에 구현되는 새로운 'AI 노래와 춤' 서비스도 출시할 예정이다. 한 장의 사진만 있으면, 노래하고 춤추는 영상을 얻을 수 있는 기능이다. 콰이서우는 지난해 연말 기준 평균 월 활성 사용자 수가 7억 명을 넘어선 중국의 주요 영상 플랫폼이다.

2024.06.07 09:08유효정

어도비, '파이어플라이 이미지 3 파운데이션 모델' 공개

어도비는 포토샵과 파이어플라이 웹 애플리케이션에서 사용할 수 있는 크리에이티브 생성형 AI 모델군의 후속 릴리스인 '어도비 파이어플라이 이미지 3 파운데이션 모델' 베타 버전을 24일 공개했다. 파이어플라이 이미지 3는 고품질 이미지 생성, 프롬프트 이해도 향상, 새로운 차원의 디테일 및 다양성, 빠른 아이디어 구상과 표현에서의 개선 등 결과의 품질과 다양한 표현에 있어 고도화된 역량을 제공한다. 어도비의 최신 파이어플라이 모델은 향상된 조명, 위치, 디테일, 텍스트 표시 등을 통해 이전보다 한층 더 사실적인 품질을 제공한다. 사용자는 파이어플라이 웹 앱 내 텍스트를 이미지로 모듈의 구조 참조 및 스타일 참조와 이미지의 종횡비를 확장하고 변경할 수 있는 생성형 채우기 모듈의 새로운 생성형 확장 기능에 파이어플라이 이미지 3를 활용할 수 있다. 파이어플라이는 작년 3월 첫 선을 보인 이래 전 세계적으로 70억 개 이상의 이미지를 생성하는 데 사용됐다. 포토샵, 어도비 익스프레스, 일러스트레이터, 서브스턴스 3D, 인디자인 등 워크플로우에 직접 통합할 수 있도록 구축된 파이어플라이는 불과 1년 만에 이미지 편집, 템플릿 제작, 벡터 디자인, 3D 텍스처링 및 스테이징 작업을 눈에 띄게 개선시켰다. 어도비는 새로운 파운데이션 모델을 출시할 때마다 크리에이터 커뮤니티에 베타 버전으로 기술을 공개하고 피드백을 통해 결과물을 발전시키고 있다. 파이어플라이 이미지3는 크리에이터가 비전을 보다 쉽게 실현하고 더 생산적으로 작업하며 고품질의 디테일한 이미지를 생성할 수 있도록 빠른 아이디어 구상과 실험을 위한 역량을 제공한다. 새로운 스타일 엔진으로 구동되는 파이어플라이 이미지 3의 새로운 자동 스타일화 역량은 더욱 다양한 고품질 결과물을 제공해, 사용자가 생성하는 이미지의 스타일을 더 잘 제어하고 개인화할 수 있도록 지원한다. 새로운 스타일, 색상, 배경, 피사체 포즈 등을 포함한 이미지 결과물은 사용자에게 창의적인 아이디어를 위한 다양한 옵션을 제공하고 보다 빠른 탐색을 돕는다. 파이어플라이 이미지 3로 구동되는 구조 참조 및 스타일 참조 역량은 탁월한 사용자 제어와 최첨단 시각적 품질을 제공한다. 사용자는 구조 참조를 통해 참조 이미지의 구조를 반영한 새로운 이미지를 빠르게 생성할 수 있어, 완벽한 프롬프트를 작성해야 하는 시행착오를 줄일 수 있다. 또한 고품질의 결과물을 제공하는 스타일 참조를 활용해 맞춤화된 스타일을 생성할 수 있다. 이러한 역량의 결합으로 사용자는 이미지 구조와 스타일을 모두 참조해 아이디어를 빠르게 실현할 수 있다. 파이어플라이 이미지 3는 개선된 조명 및 포지션 등을 통해 새로운 차원의 사진 품질을 제공한다. 특히 디테일한 이목구비와 다양한 분위기 및 표정을 반영한 인물 렌더링과 복잡한 구조물 및 군중을 표현하는 데 상당히 개선된 모습을 볼 수 있다. 파이어플라이 이미지 3는 텍스트 프롬프트와 장면에 대한 이해도가 향상되어, 길고 복잡한 프롬프트를 정확하게 반영하고 보다 풍부한 디테일이 담긴 이미지를 생성할 수 있다. 개선된 텍스트 렌더링으로 텍스트가 명확하게 표기된 이미지를 생성하는 것이 가능해져, 포스터와 같은 에셋에 대한 아이디어를 보다 효율적으로 구현할 수 있다. 파이어플라이 이미지 3는 아이콘, 로고, 래스터 이미지 및 라인 아트를 빠르게 만들 수 있도록 결과물의 일러스트레이션도 대폭 개선했다. 베타 버전으로 제공되는 파이어플라이 이미지 3는 어도비 애플리케이션의 파이어플라이 구동 생성 크레딧을 포함한 유료 구독 플랜 또는 무료로 파이어플라이 웹 앱에서 이용 가능하다. 어도비 파이어플라이는 어도비 스톡과 같은 라이선스 콘텐츠를 학습했으며, 저작권 및 상표, 로고와 같은 다른 지적재산(IP)을 침해하지 않는 상업적 용도의 콘텐츠를 생성하도록 설계됐다. 어도비는 다층적이며 지속적인 검토와 조정을 통해 어도비의 정책에 위배되는 콘텐츠를 차단 및 삭제하고, 파이어플라이가 생성한 콘텐츠에 대한 지적재산 면책 기회를 기업 고객에게 제공한다. 최근 어도비는 브랜드가 대규모 개인화를 위해 콘텐츠를 제작하고 생산하는 방식을 근본적으로 변화시키기 위해 어도비 파이어플라이 서비스 및 커스텀 모델을 도입했다. 콘텐츠 제작, 편집 및 조합을 위한 생성형 크리에이티브 API, 툴 및 서비스 활용을 지원하는 파이어플라이 서비스는 모든 제작 또는 워크플로우에 통합할 수 있어 기업의 대규모 콘텐츠 제작 자동화 시 품질 유지 및 제어를 돕는다. 커스텀 모델은 기업의 IP, 제품, 브랜드 스타일을 기반으로 생성형 AI 모델을 학습해, 크리에이티브 및 마케팅 팀이 일관되게 브랜딩을 유지할 수 있도록 지원한다. 일라이 그린필드 어도비 디지털 미디어 부문 최고기술책임자는 “1년여 만에 수백만 명의 크리에이터가 매일 아이디어를 구상하기 위해 사용하는 이미지 생성 툴로 자리잡은 파이어플라이는 아직 시작 단계에 불과하다”며 “어도비는 이미지 3 파운데이션 모델을 통해 계속해서 최첨단 기술을 발전시키고 있고, 크리에이티브 커뮤니티는 이번 베타 버전을 활용해 무궁무진한 가능성을 발휘할 것으로 기대된다”고 강조했다. AI 사용에 대한 투명성을 제공하기 위해 콘텐츠 자격증명은 파이어플라이에서 생성된 콘텐츠에 자동으로 첨부되고 있다. 디지털 콘텐츠의 '영양 성분 표시'와 같은 콘텐츠 자격증명은 제작 또는 편집 과정에서 AI를 사용했는지 여부 등 디지털 콘텐츠에 대한 상세 정보를 제공할 수 있는 위변조 확인이 가능한 메타데이터다. 콘텐츠 자격증명은 C2PA 개방형 표준을 기반으로 개발됐으며, 디지털 생태계에서 신뢰를 높이기 위해 2019년 어도비 주도로 출범한 콘텐츠 진위 이니셔티브(CAI)의 지원을 받는다. 기술, 정책, 미디어 기업, 크리에이티브 전문가, 연구원 등 약 2천500개 이상의 회원사가 참여하는 글로벌 연합으로 성장한 CAI는 디지털 콘텐츠의 투명성 향상을 위해 공동 노력하고 있다.

2024.04.24 14:18김우용

교황이 흑인?...메타 '이메진'도 황당 이미지 생성

구글 '제미나이'처럼 메타의 이미지 생성형 인공지능(AI) 모델 '이메진'도 편향된 이미지를 꾸준히 생성한 것으로 나타났다. 2일(현지시간) 악시오스 등 외신은 메타의 이메진이 편향되거나 역사적으로 틀린 이미지를 생성했다고 일제히 보도했다. 이메진 사용자는 생성 결과 오류 장면을 소셜네트워크서비스(SNS)를 통해 공유했다. 예를 들어, 사용자가 '교황 이미지를 그려줘'라고 이메진에 요청했을 때, 흑인 교황 이미지를 생성했다. '미국 식민지 시대에 어떤 사람이 국가에 거주하고 있었나'라고 물었을 때, 이메진은 아시아 여성 그룹을 그려서 사용자에게 보여주기도 했다. 프로 미식축구 선수라는 프롬프트에 미식축구 유니폼 입은 여성 모습을 생성하기도 했다. 이에 메타 측은 "더 많은 사람이 이메진 피드백을 공유한다면, 메타는 이메진 기능을 지속적으로 개선할 수 있을 것"이라고 벤처비트를 통해 밝혔다. 다수 외신은 메타가 이메진에 발생하는 인종, 성별, 직업 등에 대한 편향성을 없애기 위해 노력했지만, 기술적 보정이 지나치게 진행돼 문제를 낳았다고 분석했다. 이런 현상은 구글 제미나이의 이미지 생성 기능에서 발생하는 문제와 비슷하다. 제미나이는 지난달 이미지 생성 기능에 지속적 오류가 발생한 바 있다. 예를 들어, 사용자가 '1800년대 미국 상원의원을 생성해라'고 요청하면, 제미나이는 아메리카 원주민 여성을 닮은 인물을 내놨다. 실제 역사상 미국 첫 여성 상원의원은 1922년 등장했으며, 백인이었다. 제미나이가 잘못된 이미지를 생성한 셈이다. 이에 순다 피차이 구글 최고경영자(CEO)는 해당 오류를 인정하면서 제미나이의 이미지 생성 기능을 일시 중단하겠다고 발표했다. 피차이 CEO는 "구글 AI 연구팀은 기능 문제를 해결하기 위해 24시간 내내 노력하고 있다"며 "현재 다양한 프롬프트에서 상당한 개선이 이뤄지고 있다"고 설명했다. 이어 "그동안 문제를 추가로 검토함으로써 이에 맞는 기능 수정을 진행하겠다"고 덧붙였다.

2024.03.03 08:18김미정

스테이블디퓨전3 미리보기 공개

텍스트-이미지 모델 '스테이블 디퓨전'의 세번째 버전이 초기 미리보기로 공개됐다. 품질 및 철자 기능 향상, 다중 주제 프롬프트 등이 특징이다. 22일(현지시간) 스태빌리티AI는 차세대 텍스트-이미지 모델 '스테이블디퓨전 3' 초기 미리보기를 발표했다. 사용을 원하는 경우 미리보기 대기자명단에 등록해 이용할 수 있다. 접근권한을 얻게 되면 디스코드 서버 초대 메일을 받게 된다. 스테이블디퓨전은 2022년 2.0 버전 공개로 이미지 생성 AI 모델의 획기적 진보를 보여줬다. 세번째 버전은 기존 아키텍처와 달리 디퓨전 트랜스포머 아키텍처와 플로우 매칭을 결합했다. 디퓨전 트랜스포머 아키텍처는 일반적으로 사용되는 U-Net 백본을 트랜스포머로 대체해 이미지 디퓨전 모델을 훈련한다. 이 방식은 효율적으로 확장하고 더 높은 품질의 이미지를 생성할 수 있다. 플로우 매칭은 랜덤 노이즈에서 구조화된 이미지로 원환하게 전환하는 방법을 학습해 이미지를 생성하는 AI 모델을 만드는 기술이다. 스테이블디퓨전3는 이전 모델보다 더 나은 성능과 품질로 이미지를 만들어낸다. 한 프롬프트에 여러 주제를 넣을 수 있다. 철자 생성의 정확도도 더 높아졌다. 스테이블디퓨전3의 크기는 다양하다. 8억에서 80억개의 매개변수를 제공한다. 스테이블디퓨전은 기본적으로 오픈소스 라이선스를 따른다. 모델의 소스코드에 접근할 수 있고 미세조정이 가능하다. 현재 스테이블디퓨전3의 소스코드와 기술문서는 공개돼 있지 않다. 회사측은 미리보기 단계에서 성능과 안정성을 개선할 것이라고 밝혔다.

2024.02.23 10:43김우용

마이크로소프트, 슈퍼볼 광고 맞춰 '코파일럿' 디자인 개편

마이크로소프트가 생성형 인공지능(AI) 서비스 '코파일럿'의 디자인 업데이트를 발표했다. 7일(현지시간) 마이크로소프트는 미국 슈퍼볼 광고 출시에 맞춰 마이크로소프트 코파일럿의 업데이트를 실시한다고 밝혔다. 새로운 마이크로소프트 코파일럿의 디자인은 이미지 생성 기능에 초점을 맞췄다. 회전하는 여러 생성 이미지 예시로 시작화면을 꾸몄다. 채팅으로 이미지 생성을 요청하면 후보 이미지 여러장을 보여주는데 곧바로 이미지를 클릭해 입맛에 맞게 편집할 수 있다. 개체를 강조해 향상된 색상으로 돋보이게 만들거나, 이미지 배경을 흐리게 해 피사체를 빛나게 하거나, 픽셀 아트 같은 효과를 넣는 등의 작업이 가능하다. 코파일럿 프로 가입자의 경우 채팅 종료 없이 정사각형과 가로 모드 간 이미지 크기를 쉽게 조정할 수 있다. 마이크로소프트는 곧 코파일럿에서 아이디어를 시각화하는 몰입형 전용 캔버스 '디자이너 GPT 인사이드 코파일럿'을 출시할 예정이라고 밝혔다. 마이크로소프트 코파일럿은 기본 무료로 이용 가능하다. 엣지, 크롬, 파이어폭스, 사파리 등에서 이용할 수 있고, iOS와 안드로이드용 모바일 앱으로도 사용가능하다. 유서프 메흐디 마이크로소프트 수석부사장은 "오늘은 빙 챗 사용자에게 AI 기반 경험을 시작한지 정확히 1년되는 날"이라며 "그해 우리는 많은 것을 새로 배웠고 현재까지 50억개 넘는 채팅과 50억개 이미지를 생성해 코파일럿 경험의 사용이 폭발적으로 증가해 엣지와 빙 공유가 지속적으로 성장하는 것을 봤다"고 밝혔다. 그는 "AI 생성을 통해 더 많은 것을 얻으려는 사람을 위한 독특한 경험인 코파일럿을 통해 더 많은 이미지 생성 기능을 소개했다"고 강조했다. 한편, 마이크로소프트는 미국 미식축구리그(NFL) 제53회 슈퍼볼 경기에서 방영될 비디오 광고를 공개했다. 광고 영상은 일상에서 소프트웨어의 중요성을 상기시키고 마이크로소프트 코파일럿 앱을 사용하는 모습으로 채웠다.

2024.02.08 08:58김우용

게티이미지와 엔비디아가 손잡고 마케팅, 소셜미디어, 온라인 광고 등에 상업적으로 안전하게 사용할 수 있는 인공지능(AI) 기반 이미지 생성기를 공개했다. 8일(현지시간) 미국 지디넷에 따르면, 게티는 엔비디아와 협력해 '아이스톡 생성형 AI(Generative AI by iStock)'를 출시한다고 발표했다. 게티 아이스톡의 생성형 AI는 오픈AI의 달리3처럼 자연어 지시로 이미지를 생성해주는 AI 모델이다. 이 모델은 저작권에 관계없이 온라인에서 사용가능한 이미지를 학습해 지적재산권 침해 없는 산출물을 만들어낸다. 최근 AI 기반 이미지 생성기는 저작권 침해로 몸살을 앓고 있다. 유명 작가의 작품을 무단으로 학습하고 거의 그대로 재현한 이미지를 마구잡이로 배포하고 있다는 이유로 소송에 직면했다. 어도비, 게티 등의 기업은 생성 AI의 이미지 산출물에 대한 저작권 문제를 해결하려 애써왔다. 정식 라이선스된 이미지를 AI 모델에 학습시켜 침해 가능성을 없애는 방식이다. 아이스톡 AI 이미지 생성 모델은 엔비디아의 피카소를 기반으로 만들어졌다. 여러 시각적 파운데이션 모델을 활용하며, 파운데이션 모델의 학습에 게티이미지 라이브러리 내 독점 데이터가 활용됐다. 아이스톡 이용자는 15달러를 지불하면 AI 이미지 생성을 100건을 제공받는다. 이미지를 생성하라는 메시지마다 한 건의 생성으로 본다. 각 명령에 따라 4장의 생성 이미지 옵션 중 하나를 선택할 수 있다. 사용자는 하나 또는 4개 모두 다운로드할 수 있다. 아이스톡의 생성 AI 모델로 만들어진 이미지는 아이스톡 크리에이티브 라이브러리에 추가되지 않고, 다른 사람에게 제공되지 않는다. 게티이미지는 사용자에게 최대 1만달러의 법적 배상을 지원한다.

2024.01.09 10:11김우용