검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'이미지 AI'통합검색 결과 입니다. (54건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

"큰 모델보다 쓰임새"…네이버클라우드, 옴니모달 AI 전략 승부수

네이버클라우드가 범용 대규모언어모델(LLM) 경쟁을 넘어 텍스트·이미지·음성·도구 활용을 하나의 모델로 통합하는 '옴니모달 인공지능(AI)' 전략을 전면에 내세웠다. 상대적으로 작은 모델부터 시작해 점진적으로 고도화하는 방식으로, 현실 환경을 이해하고 행동하는 AI 에이전트 구현을 목표로 차세대 파운데이션 모델 경쟁에서 기술적 차별화를 강조했다. 네이버클라우드는 30일 과학기술정보통신부와 정보통신산업진흥원(NIPA)이 서울 코엑스에서 개최한 '독자 AI 파운데이션 모델 1차 대국민 발표회'에서 옴니모달 기반 파운데이션 모델과 이를 적용한 다양한 AI 서비스를 공개했다. 이날 네이버클라우드는 옴니 파운데이션 모델 전략을 제시했다. 전시 부스에서는 텍스트·이미지·오디오 등 서로 다른 형태의 데이터를 단일 모델에서 처음부터 함께 학습하는 네이티브 옴니모달 구조의 '하이퍼클로바X 시드 8B 옴니'와 복합 추론 능력을 강화한 '하이퍼클로바X 시드 32B 씽크' 두 가지 모델을 공개했다. 8B급 옴니모델은 규모는 비교적 작지만 멀티모달 입력을 단일 모델 구조에서 처리할 수 있도록 설계된 것이 특징이다. 텍스트·이미지·음성을 각각 다른 모델로 처리해 결합하는 기존 방식과 달리, 처음부터 하나의 의미 공간에서 학습해 응답 속도와 효율성을 높였다. 네이버클라우드는 이 모델을 시작점으로 삼아 데이터 확장과 학습 고도화를 통해 단계적으로 스케일업할 계획이다. 함께 공개된 32B급 씽크 모델은 옴니모달 입력을 바탕으로 추론과 문제 해결에 초점을 맞췄다. 이미지 이해, 음성 대화, 도구 활용 능력을 결합해 복합적인 요청을 처리하는 에이전트형 AI 경험을 구현하며 수학 문제 풀이나 시각 정보 기반 추론 등 고난도 작업을 수행하는 시연이 이뤄졌다. 부스에서는 이들 모델을 적용한 다양한 체험형 서비스도 공개됐다. 이미지 촬영만으로 문제를 이해하고 풀이 과정을 설명하는 AI 수학 에이전트, 민원 행정 상담을 돕는 AI 아바타, 법률 상담 챗봇, 감정 상담을 지원하는 마음 케어 아바타 등 공공·생활 밀착형 서비스가 관람객의 이목을 끌었다. 네이버클라우드는 이번 독자 AI 파운데이션 모델 프로젝트를 통해 대규모 파라미터 경쟁보다는 작은 모델을 촘촘하게 다져 키운다는 전략이다. 실제 서비스 환경에서 비용과 개발 부담을 줄이기 위해 8B·32B급 모델에서 옴니모달 구조와 추론 성능을 충분히 검증한 뒤 단계적으로 모델 규모를 확대하겠다는 구상이다. 이를 바탕으로 산업 및 공공 영역으로의 확장도 염두에 두고 있다. 네이버클라우드는 농기계와 모빌리티 등 다양한 산업 현장에서 음성·시각·공간 정보를 동시에 이해하는 AI 에이전트 활용 가능성을 제시하며 물리적 환경과 상호작용하는 피지컬 AI로의 진화를 준비 중이라고 설명했다. 네이버클라우드 관계자는 "옴니모달 AI는 단순히 모델을 크게 만드는 문제가 아니라, 현실 세계의 맥락을 얼마나 정교하게 이해하느냐가 핵심"이라며 "8B급 모델부터 차근차근 고도화해 나가며 산업과 일상에서 실제로 쓰이는 옴니 AI 에이전트를 구현해 나가겠다"고 말했다.

2025.12.30 14:40한정호 기자

인포뱅크, AI 오케스트레이션 '오르카' 출시…기업 시장 공략 가속

인포뱅크가 30년간 축적해 온 자체 개발 역량을 기반으로 기업 커뮤니케이션을 넘어 인공지능(AI)·데이터 중심 솔루션 영역으로 사업을 확장한다. 인포뱅크는 자사 AI 협업 플랫폼 '인세븐'에 자체 개발한 AI 오케스트레이션 시스템 '오르카'를 정식 출시했다고 22일 밝혔다. 최근 엔비디아를 비롯한 글로벌 기업들은 '툴오케스트라' 개념을 제시하며 다중 AI 모델 활용을 차세대 핵심 기술 방향으로 제안하고 있다. 그러나 실제 기업 현장에서는 업무별로 서로 다른 AI 모델을 개별 구독해야 하는 구조로 인해 비용 부담과 운영 복잡성이 커지는 상황이다. 이러한 비효율이 AI 전환(AX)을 가로막는 주요 장애 요인으로 지적돼왔다. 이번에 공개된 오르카는 다양한 글로벌 대규모언어모델(LLM)을 자동으로 선택·조합해 업무 상황에 가장 적합한 모델을 실시간으로 적용하는 AI 오케스트레이터로, 다중 모델을 유기적으로 활용하는 글로벌 AI 기술 흐름에 대응해 개발됐다. 업무 목적과 질문 난이도를 분석해 최적의 AI 모델을 자동 라우팅함으로써, 기업이 모델 선택에 대한 부담 없이 성능과 비용을 동시에 최적화할 수 있도록 지원한다. 이번 시스템은 실무 활용 시나리오를 기준으로 총 4종의 라인업으로 구성됐다. ▲반복 업무와 검색·요약에 적합한 경량 모델 '오르카 라이트' ▲번역과 보고서 작성 등 범용 업무를 지원하는 '오르카 플러스' ▲고급 추론과 전략적 의사결정을 돕는 '오르카 프로' ▲개발·코딩 업무에 특화된 '오르카 코더' 등으로 구성돼 직무와 목적에 따라 유연한 활용이 가능하다. 인세븐은 오르카 라인업 내 고사양 모델을 기존 대비 약 10% 낮은 비용으로 제공한다. 자동 라우팅 기능과 비용 최적화 로직을 결합해 기업의 AI 모델 사용 비용을 구조적으로 절감하도록 설계됐다. 또 복수 모델을 개별 구독해야 했던 기존 방식과 달리 오르카 기반의 단일 인터페이스만으로 필요한 모델을 자동 활용할 수 있어 운영 효율성 향상도 돕는다. 아울러 인세븐은 구글 제미나이 기반 이미지 생성 모델 '나노 바나나'의 플래시·프로 버전도 새롭게 선보였다. 사용자는 텍스트 질의만으로 고속 이미지 생성은 물론 장면 재구성이나 기존 이미지 요소를 유지한 편집까지 즉시 수행할 수 있어 마케팅·디자인·기획 등 시각 중심 업무의 효율을 높일 수 있다. 특히 인세븐의 자연어 처리 기능과 결합해 텍스트 분석 결과를 이미지로 바로 구현하는 '텍스트-이미지 통합 워크플로우' 활용도 가능하다. 인세븐은 최신 글로벌 AI 모델을 신속하게 도입하고 산업별 요구에 맞춘 오케스트레이션과 딥리서치 기능을 지속 고도화할 예정이다. 이를 통해 제조·금융·유통·헬스케어 등 다양한 산업 군을 아우르는 기업용 AI 분석 생태계를 단계적으로 확장해 나갈 계획이다. 인포뱅크 강진범 최고기술책임자(CTO)는 "글로벌 AI 기업들이 다중 모델 오케스트레이션을 핵심 경쟁 기술로 제시하고 있는 가운데, 인세븐은 국내에서 가장 빠르게 독자적인 오케스트레이션 시스템을 구축했다"며 "오르카는 기업이 모델 선택을 고민하지 않고도 최고 성능을 최소 비용으로 활용할 수 있게 해주는 출발점이 될 것"이라고 강조했다. 이어 "앞으로 직무별·산업별 특화 모델과 에이전트를 지속 고도화해 단순 답변 생성을 넘어 기업의 실질적인 디지털 전환을 가속화하는 AI 파트너로 자리매김할 것"이라고 덧붙였다.

2025.12.22 16:10한정호 기자

이미지 생성 AI 모델 경쟁 심화…오픈AI, 'GPT 이미지 1.5' 공개

오픈AI가 이미지 생성과 편집 성능을 강화한 새로운 모델을 선보이며 생성형 인공지능(AI) 이미지 시장 경쟁에 다시 불을 지폈다. 기존보다 정교한 지시 수행과 빠른 처리 속도를 앞세워 이미지 생성 도구를 실험 단계를 넘어 실사용 중심의 창작·업무 도구로 끌어올린다는 전략이다. 17일 테크크런치에 따르면 오픈AI는 새로운 이미지 생성 모델 'GPT 이미지 1.5'를 기반으로 한 챗GPT 이미지의 업데이트를 발표했다. 이번 모델은 지시 이행 정확도 향상, 세밀한 이미지 편집, 최대 4배 빠른 이미지 생성 속도가 특징으로, 모든 챗GPT 사용자에 순차적으로 제공된다. GPT 이미지 1.5는 오픈AI가 구글의 제미나이 시리즈와 이미지 생성 모델 경쟁을 본격화하는 과정과 맞물려 공개됐다. 구글이 최신 플래그십 모델과 이미지 생성기 '나노 바나나 프로'로 시장 점유율을 확대하는 가운데, 오픈AI가 이미지 모델 출시 시점을 앞당긴 것으로 풀이된다. 오픈AI의 이전 이미지 모델 출시는 지난 4월이었다. 이번 업데이트의 핵심은 반복 편집과 일관성이다. 기존 생성형 이미지 도구들이 특정 요소만 수정해 달라는 요청에도 이미지 전체를 다시 해석하는 한계가 있었던 반면, GPT 이미지 1.5는 얼굴 생김새, 조명, 구도, 색감 등 핵심 시각 요소를 유지한 채 요청한 부분만 정밀하게 수정할 수 있다. 이를 통해 실용적인 사진 보정은 물론 의상·헤어스타일 시뮬레이션, 원본 이미지를 유지한 스타일 변환 작업이 가능해졌다. 텍스트 렌더링 성능도 개선됐다. 작은 글자나 복잡한 텍스트 배치에서도 가독성이 높아졌으며 다수의 인물이 등장하는 이미지에서 얼굴 표현의 자연스러움도 향상됐다. 오픈AI는 이러한 개선을 통해 단순 이미지 생성뿐 아니라 마케팅·디자인·이커머스·커뮤니케이션 등 비즈니스 워크플로우 전반에서 활용도를 높일 수 있다고 설명했다. 사용자 경험 측면에서도 변화가 있다. 챗GPT 내부에 이미지 전용 공간이 새롭게 마련돼 모바일 앱과 웹 사이드바에서 접근할 수 있다. 사전 설정된 필터와 트렌드 기반 프롬프트를 활용해 보다 직관적인 이미지 탐색과 반복 시도가 가능해졌다. 오픈AI는 이 공간을 '크리에이티브 스튜디오'에 가깝게 설계했다고 밝혔다 . 다만 오픈AI는 이번 업데이트가 의미 있는 진전이지만 완성 단계는 아니라고 평가했다. 다양한 테스트 사례에서 성능 개선이 확인됐으나, 여전히 반복적인 개선이 필요한 영역이 남아 있으며 향후 업데이트를 통해 품질을 지속적으로 끌어올릴 계획이다. 피지 시모 오픈AI 애플리케이션 부문 CEO는 "챗GPT 사용자의 생각과 그것을 현실로 구현하는 능력 사이의 거리를 계속 좁혀 나가겠다"고 강조했다.

2025.12.17 15:04한정호 기자

바이트플러스 "AI, 이제 '사람' 아닌 'AI'가 통제"

바이트플러스가 이제는 사람이 인공지능(AI)을 컨트롤하는 시대가 아닌 'AI가 AI를 컨트롤 하는 시대'가 될 것이란 전망을 내놨다. 이미나 바이트플러스 솔루션즈 아키텍트는 11일 서울 중구 신라호텔에서 열린 'ACC 2025'에서 "이것이 바이트플러스가 제안하는 자동화의 미래"라며 "자사 생성형 AI 솔루션은 단순히 콘텐츠를 만드는 것이 아니라 스스로 검증하고 분석하고 지휘한다"고 강조했다.'ACC 2025'는 지디넷코리아가 주관, 주최하고 과학기술정보통신부, 바이트플러스, 네이버 등이 후원하는 행사다. 먼저 이 솔루션즈 아키텍트는 생성형 AI를 활용한 콘텐츠 제작이 여전히 어려운 이유로 프롬프트 작성의 어려움, 수동 반복 생성, 파편화된 워크 플로우, 일관성의 부재, 부족한 제어 가능성, 수동 후반 작업을 꼽았다. 그는 이같은 문제를 해결하기 위한 방법으로 자사 크리에이티브 에이전트를 제시했다. 바이트플러스의 크리에이티브 에이전트는 AI 에이전트가 초거대 언어모델(LLM) 뿐만 아니라 이미지 생성 모델, 영상 생성 모델, 디지털 휴먼, 3D 모델에 이르기까지 수많은 생성형 AI 솔루션을 통합 지휘하는 것이 특징이다. 이 솔루션즈 아키텍트는 "크리에이티브 에이전트는 생성형 AI 솔루션 뿐만 아니라 기타 솔루션까지 모두 통합 지휘해 고품질 콘텐츠를 순식간에 만들어 주는 멀티모달 자동화 파이프라인"이라고 설명했다. 크리에이티브 에이전트를 구현하는 데는 바이트플러스의 이미지 생성 모델 '씨드림(seedream)' 4.5, 영상 생성 모델 '씨댄스(seedance)' 1.0, 디지털 휴먼 모델 '옴니휴먼(omnihuman) 1.0'이 필요하다. 그는 바이트플러스의 크리에이티브 에이전트의 장점으로 낮은 비용과 빠른 제작속도, 일관성 등을 들었다. 이 솔루션즈 아키텍트는 "비용은 극적으로 낮아지고 또 제작 속도는 혁신적으로 올라간다"며 "이 모든 콘텐츠는 압도적인 일관성을 가지게 되고 누구나 고품질 콘텐츠를 만들 수 있어 (콘텐츠) 제작 장벽 자체가 사라진다"고 말했다. 또 이 솔루션즈 아키텍트는 "더 이상 사람이 AI 컨트롤 하는 시대가 아니다"며 "AI가 AI를 컨트롤함으로써 복잡한 작업 과정을 완벽하게 자동화시킨다"고 마무리했다.

2025.12.11 14:48박서린 기자

"3개월 만에 기업가치 3배"…멀티모달 AI 열풍 주역 美 스타트업, 투자자도 반했다

최근 생성형 인공지능(AI)이 텍스트 기반 거대언어모델(LLM)을 넘어 이미지·영상·오디오·3D까지 아우르는 멀티모달로 빠르게 확장되면서 미국 AI 스타트업 팔(Fal)에 대한 투자자들의 관심이 급증하고 있다. 멀티모달 활용 시 기업들의 복잡한 운영 부담을 덜어준다는 점에서 향후 성장성이 높다고 평가 받고 있어서다. 10일 블룸버그통신에 따르면 팔은 최근 세쿼이아캐피털이 주도한 시리즈D 투자를 통해 1억4천만 달러(약 2천16억원) 규모의 신규 투자 유치에 성공했다. 올 들어 세 번째 시리즈 투자로, 이번 투자에는 안데르센 호로위츠, 엔비디아, 세일즈포스, 쇼피파이 등 기존 투자자들도 참여했다. 이번 투자로 팔의 기업가치는 45억 달러로 평가됐다. 올해 7월 1억2천500만 달러 규모의 시리즈C 투자를 받을 당시 평가액의 약 3배에 달한다. 이곳은 올해 10월에도 세콰이아캐피털 등을 통해 시리즈D 투자 전 '브릿지격'으로 약 2억5천만 달러의 자금을 조달 받는데 성공했다. 이는 회사가 조달한 1억4천만 달러와 기존 투자자들의 지분 매각을 합산한 금액이다. 2021년 설립된 팔은 이미지, 비디오, 오디오, 3D 등에 쓰이는 여러 AI 모델들을 개발자가 쉽게 쓰도록 '호스팅과 API(application Programming Interface), 추론 인프라'를 제공하는 기업이다. 코인베이스 머신러닝 리더 출신 버르카이 구르와 AWS 개발자였던 고르켐 유르트세벤이 세운 곳으로, 어도비, 쇼피파이, 캔바 등 굵직한 기업들을 고객으로 확보하는 데 성공하며 빠른 속도로 덩치를 키우고 있다. 실제 이곳의 올해 매출은 지난 10월 기준 2억 달러를 이미 돌파한 상태다. 팔의 클라우드 플랫폼은 600개 이상의 이미지, 오디오, 영상 생성 AI 모델을 제공한다는 점이 강점이다. 오픈AI의 소라2, 구글이 최근 출시한 나노 바나나 프로와 같은 대표 모델뿐 아니라 다수의 오픈소스 알고리즘도 포함돼 있다. 이 모든 기능은 단일 API를 통해 접근 가능하다는 점에서 개발자들의 진입 장벽을 확 낮췄다는 평가를 받는다. 또 팔은 사용자 정의 모델을 실시간으로 구동할 수 있는 팔 서버리스(fal Serverless) 서비스도 운영 중이다. 이는 수천 개의 그래픽처리장치(GPU) 클러스터를 거의 즉시 가동할 수 있는 확장성을 지원하며, 엔비디아 H200, H100과 같은 최신 GPU에 대한 고속 접근성과 모니터링 도구도 제공한다. 보다 전문적인 요구사항을 가진 기업을 위해서는 전용 GPU 자원을 제공하는 팔 컴퓨트(fal Compute)도 마련돼 있다.자체 모델 개발에도 적극 나서고 있다는 점도 매력 요소다. 팔은 최근 이미지 생성 모델 오라플로우 v0.3을 공개했는데, 속도 중심의 '플로우 매칭' 구조를 적용해 보다 빠른 추론 성능을 실현했다는 평가를 받았다. 이는 기존 확산 모델 기반 생성 AI보다 효율성을 높였다는 점에서 개발자와 연구자 모두의 관심을 받고 있다. 이 같은 분위기 속에 팔은 투자자들로부터 유례없는 관심을 받고 있다. 멀티모달 AI 모델을 실제 서비스에서 운영하려는 수요가 폭발적으로 늘어나면서 이를 안정적으로 처리할 수 있는 인프라 시장의 가치가 급격히 커지고 있기 때문이다. 이에 텍스트 생성에서 이미지·영상·오디오로 확장되는 AI 경쟁이 본격화되자, 자체 인프라 구축 대신 즉시 적용 가능한 플랫폼을 찾기 시작한 기업들이 팔을 대안으로 선택하고 있다는 분석이 나온다. 업계 관계자는 "생성형 AI를 실시간 서비스 수준으로 끌어올리기 위해서는 대규모 GPU 자원과 높은 수준의 최적화가 필요하다"며 "팔은 이를 전적으로 맡아 처리함으로써 기업이 겪는 기술적 장벽을 크게 낮췄다"고 설명했다. 이어 "그 결과 사용자는 다양한 AI 모델을 단순 API 호출만으로 활용할 수 있게 됐다"며 "고비용 인프라 투자 없이도 빠르게 AI 기반 서비스를 추가할 수 있게 됐다"고 덧붙였다. 이 같은 확장성과 효율성은 팔의 기업가치를 단기간에 끌어올린 요인으로 평가된다. 멀티모달 AI가 산업 전반에서 필수 기술로 자리잡는 가운데 더 많은 기업이 팔의 AI 생성 기능을 기본 요소로 채택할 것으로 평가되는 것도 한 몫 했다. 업계 관계자는 "팔에 대한 투자는 멀티모달 AI 전환을 둘러싼 '인프라 전쟁'의 전선을 보여주는 사례"라며 "투자자들이 텍스트 중심 LLM 이후의 시대를 준비하는 상황에서 팔이 앞으로 빅테크와 경쟁 스타트업들 사이에서 얼마나 경쟁력을 보여줄 수 있을지가 관건이 될 것"이라고 분석했다.

2025.12.10 18:03장유미 기자

온다, 호스피탈리티 특화 멀티모달 AI 모델 개발

호스피탈리티 AI 기업 온다(대표 오현석)가 자체 개발한 멀티모달 AI 모델을 허깅 페이스에 공개하며, 국내 숙박 산업에서 실증된 AI 기술력을 입증했다고 18일 밝혔다. 이번에 공개된 모델은 8천여 장의 자체 구축 객실 이미지 데이터셋과 한국어 특화 자연어처리 기술을 결합한 하이브리드 AI다. 서로 다른 공급사로부터 제공되는 객실 정보를 자동으로 표준화해 96.5%의 높은 정확도를 달성했다. 온라인여행플랫폼(OTA)을 비롯한 숙박 유통 플랫폼은 다수의 공급사로부터 동일 호텔의 객실 데이터를 수집하지만, 공급사마다 객실명 표기 방식이 상이해 심각한 데이터 불일치 문제가 발생한다. 온다 AI Lab은 이 문제를 해결하기 위해 비전 트랜스포머 기반의 이미지 분류 모델과 한국어 특화 언어모델을 결합한 하이브리드 아키텍처를 설계했다. 이미지 모델은 침실, 거실, 욕실 등 객실 구성요소를 자동 인식하도록 학습됐다. 텍스트 모델은 '디럭스', '오션뷰', '얼리체크인' 등 숙박 도메인의 특화 용어의 의미를 분석하여 객실 유사도를 정밀하게 측정한다. 또 두 모델의 출력값을 가중 융합해 최종 유사도 점수를 산출하는 앙상블 기법을 적용, 동일한 침대 이미지를 사용하나 뷰가 다른 객실처럼 단일 이미지나 텍스트로는 구분이 어려운 엣지 케이스에서도 높은 정확도를 유지했다. 온다는 AI의 한계를 인정하고, 신뢰도 기반 하이브리드 워크플로우를 구축했다. 모델이 산출한 각 예측 결과에 신뢰도 점수를 부여하고, 설정된 기준 점수 이하의 케이스는 숙박 도메인 전문가가 최종 검토하는 AI-전문가 협업 구조를 도입해 실무 환경에서의 안정성과 신뢰성을 동시에 확보했다. 오현석 온다 대표는 "AI 시대에 진짜 경쟁력은 모델 자체가 아니라 모델을 학습시킬 수 있는 양질의 도메인 데이터와 실무 적용 능력"이라며 "온다는 8년간 쌓아온 데이터와 호스피탈리티 산업에 대한 깊은 이해를 바탕으로, 실제로 작동하는 AI를 만들 수 있는 몇 안 되는 기업"이라고 말했다. 온다는 향후 이 기술을 확장해 객실 어메니티 자동 인식, 뷰 타입 분류, 이미지 품질 평가 등 다양한 AI 기반 자동화 솔루션을 상용화할 계획이다.

2025.11.18 16:18백봉삼 기자

퍼플렉시티, AI 검색에 게티 이미지 사용한다

인공지능(AI) 검색 전문업체 퍼플렉시티가 게티이미지의 사진을 사용할 수 있게 됐다. 퍼플렉시티가 세계 최대 사진·영상 콘텐츠업체인 게티이미지와 다년 저작권 계약을 체결했다고 로이터를 비롯한 주요 외신들이 31일(현지시간) 보도했다. 두 회사는 정확한 계약 규모와 시간은 공개하지 않았다. 게티는 API를 통해 퍼플렉시티에 사진을 제공할 예정이다. 퍼플렉시티는 검색에 사용된 사진에 저작자와 출처 링크를 함께 표시할 계획이다. 이번 계약은 AI업체를 상대로 한 저작권 소송이 끊이지 않고 있는 가운데 나온 것이라 관심을 끈다. 뉴욕타임스는 오픈AI를 상대로 저작권 침해 소송을 진행 중이며, 게티 역시 스태비러티AI를 이미지 무단 사용 혐의로 제소했다. 퍼플렉시티도 현재 니케이, 아사히신문을 비롯한 여러 업체로부터 저작권 침해 혐의로 제소된 상태다. 반면 타임, 슈피겔 등 일부 언론사들과는 매출 공유를 기반으로 하는 제휴 계약을 체결했다.

2025.11.01 10:18김익현 미디어연구소장

머스크 xAI, '월드 모델' 개발 착수…AI가 직접 게임 만든다

일론 머스크가 이끄는 xAI가 물리적 공간을 인지하고 설계할 수 있는 차세대 인공지능(AI) '월드 모델' 개발에 나선다. 13일 파이낸셜타임스(FT)에 따르면 xAI는 텍스트 기반 언어모델을 넘어 영상·로봇 데이터를 학습한 AI 기술을 활용해 직접 만든 게임을 내년 공개할 계획이다. 월드 모델은 메타와 구글 등 주요 빅테크가 집중하는 차세대 AI 기술로, 물리적 공간을 이해하고 시뮬레이션하는 능력을 구현하는 것이 목표다. 앞서 xAI는 엔비디아 출신 전문가들을 다수 영입해 영상과 로봇 데이터를 기반으로 실제 환경을 학습하는 AI 모델 개발을 진행 중이다. 특히 이 기술을 활용해 상호작용 가능한 3D 게임 환경을 자동 생성하는 등 게임 산업 적용을 목표로 하고 있으며 향후 로봇 제어 시스템에도 응용할 계획이다. 일론 머스크 xAI 대표는 자사 SNS 플랫폼 X를 통해 "내년 말까지 AI가 직접 생성한 게임을 선보일 것"이라고 밝혔으며 최근 대규모 업그레이드를 거친 이미지·영상 생성 모델을 무료로 공개하기도 했다. 현재 오픈AI의 '소라'와 같은 영상 생성 AI는 학습 데이터를 기반으로 연속된 이미지 프레임을 예측하는 수준이다. 이에 반해 월드 모델은 물리 법칙과 사물 간 상호작용을 실시간으로 이해해 훨씬 높은 수준의 현실 시뮬레이션을 가능케 하는 것으로 알려졌다. xAI는 이미지·비디오 생성 엔지니어를 포함해 다양한 멀티모달 콘텐츠 제작 인력을 모집 중이다. 특히 자사 AI 챗봇 '그록'에게 게임 제작을 학습시키는 업무 담당자도 채용하고 있다. xAI를 비롯한 구글·메타 등이 월드 모델 개발에 집중하는 가운데, 업계에서는 실제 세계를 묘사할 데이터 확보와 막대한 비용 문제 해결을 주요 과제로 꼽고 있다. 라리안 스튜디오의 마이클 다우스 퍼블리싱 총괄은 "AI가 게임 산업의 가장 큰 문제인 리더십과 비전을 해결해 주진 못한다"며 "수학적으로 계산된 게임 루프보다 사람들이 진심으로 몰입하고 싶어 하는 세계를 표현하는 것이 더 중요하다"고 말했다.

2025.10.13 14:43한정호 기자

xAI, '월드 모델' AI 개발…엔비디아 출신 전문가 영입

인공지능(AI) 스타트업 xAI가 소위 '월드 모델'이라고 불리는 차세대 AI 시스템 개발 경쟁에 본격적으로 뛰어들었다. 이 기술은 경쟁사인 메타와 구글도 주력하고 분야로, AI가 물리적 환경을 탐색하고 설계할 수 있도록 하는 것을 목표로 하고 있다. 12일(현지시간) 파이낸셜타임스 등 외신에 따르면 xAI는 미국 반도체 기업 엔비디아 출신 전문가를 고용해 로봇과 영상 데이터로부터 현실 세계를 학습하는 차세대 AI 모델을 개발하기 시작했다. 엔비디아는 자사 옴니버스 플랫폼을 통해 시뮬레이션을 구축하고 실행하는 월드 모델 분야의 선도 기업이다. xAI가 개발에 착수한 월드 모델은 텍스트 기반의 대규모 언어모델(LLM)을 넘어서는 기술로 평가된다. 현재 오픈AI 챗GPT와 xAI 챗봇 그록과 같은 생성형 AI는 텍스트 데이터로만 훈련되지만, 월드 모델은 물리 법칙과 실제 환경 속 사물 간의 상호작용을 이해할 수 있는 AI를 개발하려는 시도로 해석된다. 사안에 정통한 관계자에 따르면 xAI는 월드 모델을 게임 분야에 우선 적용하는 것을 계획하고 있다. 이 기술은 AI가 직접 상호작용 가능한 3D 환경을 생성하는 데 사용될 수 있으며 이후에는 로봇용 AI 시스템에도 적용될 수 있다. 머스크 최고경영자(CEO)는 엑스(X)에서 “내년 말까지 AI가 만든 훌륭한 게임을 출시할 것”이라고 밝혔다. 월드 모델은 실시간으로 물리 법칙과 사물 간 인과 관계를 이해해 현실 세계 동작을 더욱 정확하게 시뮬레이션할 수 있다. xAI는 이미지 및 비디오 생성 기술 인력을 모집 중이며 이들이 합류할 '옴니 팀'은 텍스트를 넘어 이미지·영상·음성 등 다양한 형태의 콘텐츠를 이해하고 생성하는 팀이다. 구인하는 인력의 연봉은 18만~44만 달러(약 2억5천677만~6억2천766만원)에 달한다. 또 xAI는 '비디오 게임 튜터' 직책도 공개했는데, 이 역할은 그록이 AI 기반 게임을 제작하고 사용자가 AI와 함께 게임 디자인을 실험할 수 있도록 훈련시키는 것이다. 시급은 45~100달러 (6만4천200~14만2천650원) 수준이다.

2025.10.13 10:17박서린 기자

"챗GPT 제쳐"…구글, '나노 바나나' 출시로 美 앱스토어 1위

구글이 '나노 바나나'로 알려진 이미지 생성 모델 '제미나이 2.5 플래시 이미지'를 제미나이 애플리케이션에 추가한 뒤 모바일 시장에서 성과를 거둔 것으로 나타났다. 17일 테크크런치 등 외신에 따르면 앱 인텔리전스 기업 앱피겨스는 이달 제미나이 글로벌 다운로드가 전월 대비 45% 증가한 1천260만 건을 기록했다고 밝혔다. 특히 제미나이는 미국 앱스토어에서 이달 12일 기준 오픈AI 챗GPT를 제치고 1위에 올랐다. 올해 1월 미국 앱스토어 3위가 최고 기록이었으나 이번 성과로 단숨에 글로벌 톱으로 도약한 것이다. 구글 플레이스토어에서도 이달 8일 미국 26위에서 2위까지 상승했다. 다만 구글의 자체 플랫폼인 안드로이드에서는 여전히 챗GPT가 1위다. 테크크런치는 이런 앱 인기가 소비자 지출 증가로 이어졌다고 분석했다. 올해 iOS에서 발생한 인앱 결제와 구독 매출, 앱 내 소비자 지출 630만 달러(약 868천만원) 중 160만 달러(약 22억540만원)가 8월에 집중됐다. 이는 1월 11만5천 달러 대비 1천291% 급증한 수치다. 이달도 8월 성과를 따라잡거나 넘어설 가능성이 높은 상황이다. 구글은 나노 바나나 모델 출시 후 신규 이용자 2천300만 명이 유입됐고 이들이 공유한 이미지는 5억 장을 넘어섰다고 발표했다. 이를 통해 복잡한 편집을 쉽고 실제처럼 구현할 수 있다는 호평이 이어지고 있다. 제미나이 앱은 올해 들어 1억370만 회 다운로드를 기록했으며 출시 이후 누적 다운로드는 1억8천540만 회에 달한다. 나노 바나나는 구글이 지난달 출시한 제미나이 2.5 플래시 이미지 가칭이다. 사용자가 동일한 캐릭터를 다른 배경이나 환경에 배치하고 여러 각도에서 보여줘도 외형적 특징을 그대로 보존할 수 있다. 이를 통해 일관된 브랜드 자산을 생성하거나 부동산 매물 카드, 통일된 직원 배지 같은 시각적 템플릿 제작이 가능하다. 조시 우드워드 구글 제미나이 및 구글 랩스 부사장은 "제미나이 등 앱의 급격한 성장세는 AI 앱 시장 전반에 영향을 주고 있다"고 개인 소셜미디어를 통해 밝혔다.

2025.09.17 09:54김미정 기자

AI 어디까지 가나..."사진이나 영상 흐려도 말끔하게 복원"

인공지능(AI)이 한없이 진화하고 있다. 이번엔 활영 사진이나 영상 등이 흐릿해도 말끔하게 복원하는 기술이 개발돼 관심을 끈다. KAIST는 바이오및뇌공학과 장무석 교수와 김재철AI대학원 예종철 교수 연구팀이 움직이는 산란 매질(신호복제 환경) 너머의 숨겨진 영상을 복원할 수 있는 '비디오 디퓨전 기반 영상 복원 기술을 세계 처음 개발했다고 31일 밝혔다. 이 기술은 시간상으로 변한 영상 이미지 환경을 통해 흐릿하거나 손상된 부분을 디퓨전 모델 같은 생성형 AI모델로 되살린다. 안개·연기·불투명 유리·피부 조직 등과 같은 산란매질 때문에 '무엇인가에 가려 흐릿하게 보이는' 이미지를 마치 가려진 유리 뒤를 들여다보듯 복원한다. 연구팀은 기존 인공지능 복원 기술이 훈련된 데이터 범위에서만 성능을 발휘하는 한계를 극복하기 위해, 광학 모델과 비디오 디퓨전 모델을 결합했다. 특히 시간에 따라 산란 환경이 변하는 경우(바람에 흔들리는 커튼 너머 풍경 등)에도 안정적으로 복원할 수 있도록 연속된 영상의 시간적 상관관계를 학습한 디퓨전 모델을 적용했다. 이로인해 다양한 거리·두께·잡음 조건에서도 기존 대비 월등히 뛰어난 복원이 가능하다는 것. 기존 최고 성능의 복원 모델을 뛰어넘는 결과를 얻었다. 권성태 연구원은 "별도의 추가 학습 없이도 안개 제거, 영상 화질 개선(고해상도 프레임 생성), 블라인드 디블러링(흐린 영상 선명화) 등 다양한 상황에서 영상을 복원할 수 있는 최적화 기법을 도입해, 범용 복원 프레임워크로 확장할 가능성을 입증했다"고 설명했다. 장무석 교수 및 예종철 교수는 "혈액이나 피부 속을 들여다보는 비침습적 의료 진단, 화재 현장 연기 속 인명 구조, 벽에서 반사된 빛으로 영상을 복원하는 비시선 영상, 안개 낀 도로에서의 안전 운전 보조, 불투명 유리나 플라스틱 내부의 산업 검사, 흐린 물속 시야 확보 등 일상과 산업 전반에 활용될 수 있을 것"으로 기대했다. 연구는 KAIST 바이오및뇌공학과 권태성·송국호 박사과정이 공동 제1 저자로 참여했다. 인공지능 국제 학술지 IEEE TPAMI에 지난 13일 게재됐다. 과학기술정보통신부 및 한국연구재단 우수신진 연구자 사업, 뇌선도연구센터사업, 삼성미래기술육성사업, AI 스타펠로우십으로부터 연구 지원을 받았다.

2025.08.31 12:00박희범 기자

베일 벗은 '나노 바나나'…구글, AI 이미지 시장 '참전'

구글이 여러 이미지에 걸쳐 동일한 인물을 구현하고 자연어 명령만으로 특정 부분을 수정하는 인공지능(AI) 이미지 모델을 선보였다. 기존 모델의 한계로 지적된 품질과 제어 기능을 대폭 개선해 개발자와 창작자에게 고도화된 도구를 제공할 수 있게 된 것이다. 27일 구글 공식 블로그에 따르면 이 회사는 신규 이미지 생성·편집 모델 '제미나이 2.5 플래시 이미지'를 공식 출시했다. 이 모델은 제미나이 응용 프로그램 인터페이스(API)와 구글 AI 스튜디오, 엔터프라이즈용 버텍스 AI를 통해 즉시 사용할 수 있다. 새 모델의 가장 큰 특징은 캐릭터 일관성 유지 기능이다. 사용자는 동일한 캐릭터를 다른 배경이나 환경에 배치하고 여러 각도에서 보여줘도 외형적 특징을 그대로 보존할 수 있다. 구글은 이를 활용해 일관된 브랜드 자산을 생성하거나 부동산 매물 카드, 통일된 직원 배지 같은 시각적 템플릿 제작도 가능하다고 설명했다. 간단한 텍스트 지시만으로 정교한 편집을 수행하는 능력도 갖췄다. 사진 배경을 흐리게 만들거나 옷에 묻은 얼룩을 지우고 특정 인물을 사진에서 삭제하는 작업이 가능하다. 피사체의 포즈를 바꾸거나 흑백 사진에 색을 입히는 등 기존 이미지 편집 도구에서 수 시간이 걸리던 작업을 몇 초 만에 끝낼 수 있다. 두 개 이상의 이미지를 자연스럽게 합치는 '다중 이미지 융합' 기능도 핵심이다. 특정 제품 이미지를 새로운 배경 장면에 넣거나 방 사진에 특정 질감 이미지를 적용해 인테리어를 바꾸는 식의 활용이 가능하다. 또 모델이 가진 방대한 현실 세계 지식을 바탕으로 손으로 그린 다이어그램을 이해하고 교육적 질문에 답하는 대화형 튜터로도 작동한다. 이 모델은 출시 전 '나노 바나나'라는 가칭으로 먼저 알려지며 온라인에서 폭발적인 화제를 모았다. 지난 14일경 이미지 편집 성능 비교 플랫폼 'LM 아레나'에 아무런 예고 없이 등장해 압도적인 성능으로 순식간에 입소문을 탔다. 당시 나노 바나나는 두 개의 AI 모델이 생성한 결과물 중 더 나은 것을 고르는 '배틀' 방식으로 무작위 배정됐음에도 "포토샵을 대체할 수 있다"는 극찬을 받았다. 특히 만화 캐릭터를 실사 피규어처럼 바꾸거나 인물의 얼굴과 분위기를 그대로 유지한 채 다른 구도를 연출하는 능력은 이용자들을 놀라게 했다. 업계 관계자는 "AI 시장의 무게중심이 텍스트에서 비주얼로 이동하는 상황"이라며 "이미지 분야에서 구글 등의 성과가 빠르게 쌓이면서 오픈AI의 선도적 위치가 약해질 가능성도 있다"고 밝혔다.

2025.08.27 16:43조이환 기자

"독자 개발만으론 한계"…메타, 미드저니와 AI 동맹

페이스북 모회사 메타가 인공지능(AI) 이미지·영상 생성 스타트업 '미드저니' 기술 라이선스를 획득할 예정이다. AI 영역에서 독자 개발 중심 전략에서 벗어나 외부 파트너와 협력하는 방향으로 전환하며 경쟁력 강화에 나선다. 22일(현지시간) 파이낸셜타임즈 등 외신에 따르면 메타 신임 최고 AI 책임자인 알렉산드르 왕은 엑스(X)에 “향후 모델과 제품에 미드저니 미적 기술을 라이선스해 수십억명에게 아름다움을 제공할 것”이라고 양사 연구팀 간 기술적 협업을 예고했다. 이어 “자사가 사람들에게 최고의 제품을 제공하려면 모든 방식을 동원하는 접근이 필요하다”며 “이는 세계적인 수준 인재, 야심찬 컴퓨터 로드맵, 업계 최고 기업들과의 협력을 의미한다”고 덧붙였다. 미드저니는 2021년 데이비드 홀츠가 설립한 이미지 생성 기업으로 지난 6월에는 기존 이미지를 기반으로 짧은 영상을 생성할 수 있는 비디오 모델 'V1'을 선보였다. 이번 제휴를 통해 메타는 자사 앱에 멀티미디어 AI 생성 기능을 개발·통합할 수 있게 될 전망이다. 마크 저커버그 메타 최고경영자(CEO)는 플랫폼에서 AI 생성 콘텐츠가 점점 더 중요한 위치를 차지할 것이라고 언급한 바 있다. 메타의 이번 행보는 저커버그 CEO가 인간 지능을 뛰어넘는 '초지능' 개발에 수십억달러를 투입하는 과정에서 나온 것이다. 그는 최근 몇 달 간 경쟁사로부터 최고 수준의 AI 연구자를 적극적으로 영입했고 AI 인프라 투자도 대폭 늘렸다. 또한 AI 음성 기술 기업 플레이 AI를 인수하고 데이터 라벨링 기업 스케일 AI에도 지분을 투자했다. 아울러, 메타는 이번 주 자사 AI 조직을 재편한다고 발표했다. 메타의 AI 부서는 최근 메타 초지능 랩으로 이름이 변경됐으며 이번 개편으로 4개의 별도 팀으로 나뉘었다. 이는 지난 6개월 동안 네 번째 조직 개편에 해당한다. 메타와 미드저니의 협력은 메타의 기존 자체 AI 모델과 제품이 경쟁사에 밀리기 시작하면서 나온 것이다. 또 모든 것을 내부에서만 구축하려는 메타의 방식을 버리고 외부와 손잡는 전환점이다. 지난해 메타는 텍스트 프롬프트로 이미지를 생성하는 도구 '이매진'을 출시했다. 같은 해 10월에는 텍스트 프롬프트를 기반으로 영상을 생성, 편집할 수 있는 영화 생성 모델 '무비 젠'에 대한 연구 논문을 발표하며 이를 올해 인스타그램에 완전히 통합하겠다고 발표했다. 그러나 통합은 아직 이뤄지지 않았으며 이를 두고 업계 관계자들은 이미 해당 모델이 구글의 비오 3(Veo 3)나 오픈AI의 소라와 같은 최신 공개 모델과 비교해 구식으로 보인다고 평가하기도 했다. 이외에도 메타는 핵심 대형 언어 모델 비헤모스를 대외 공개하려던 계획도 접고 새로운 모델 구축에 집중하고 있는 것으로 알려졌다. 내부적으로는 코딩과 같은 업무에서 서드파티 모델을 사용하기 시작했다.

2025.08.24 09:25박서린 기자

"딥 에이전트 덕"…한국딥러닝, 상반기 수주 실적 397% 올라

한국딥러닝이 '딥 에이전트' 출시 두 달 만에 10억원대 계약을 체결하면서 수주 실적을 끌어올렸다. 한국딥러닝은 2025년 상반기 수주액이 전년 동기 대비 397% 올랐다고 19일 밝혔다. 이 중 절반 이상은 올해 3월 출시한 딥 에이전트에서 발생한 것으로 전해졌다. 딥 에이전트는 문서 내 시각 구조와 언어 의미를 동시에 해석해 핵심 정보를 추출하고, 이를 기반으로 실질적인 업무 조치를 수행하는 서비스다. 이에 단순 광학 문자 인식(OCR) 서비스와 차별화됐다. 고객이 계약서를 딥 에이전트에 업로드하면, 에이전트가 문서 전체를 분석해 핵심 조항을 요약하고 리스크 조항을 자동으로 식별하는 식이다. 조건에 따라 전사적자원관리(ERP) 시스템에 자동 등록까지 진행할 수 있다. 별도 학습 없이도 동작하는 '논 트레이닝 AI'으로 작동해 평균 도입까지 2주 내, 정확도는 97~99% 수준이다. 딥 에이전트는 출시 두 달 만에 10억9천만원 규모의 계약을 체결했다. 이는 지난해 월평균 매출의 약 4배에 해당하는 수치다. 초기 도입 비용은 절반으로 줄었고, 구축 기간은 66일에서 10일로 단축돼 기업 고객 만족도가 크게 올랐다는 평가도 이어지고 있다. 한국딥러닝은 2019년 설립 이후 현재까지 누적 매출 100억원을 기록했다. 금융을 비롯한 공공, 제조, 의료 등 다양한 산업군에 걸쳐 80개 이상의 고객사를 확보했다. 외부 투자 없이도 흑자 기조를 유지하며 자체 성장 기반을 다져왔다. 특히 지난 5년간 4억 장 이상의 문서를 학습한 비전 언어 모델(VLM) '딥 이미지'로 경쟁력을 구축했다. 김지현 한국딥러닝 대표는 "문서를 단순히 읽는 것이 아니라 이해하고 처리하는 AI에 대한 수요가 증가하고 있다"며 "하반기에는 더 많은 기업이 문서 처리 자동화의 혜택을 누릴 수 있도록 시장 확대에 집중할 계획"이라고 밝혔다.

2025.08.19 15:51김미정 기자

네이버, 이미지 검색에 AI 적용..."핵심 내용만 알려드려요"

네이버는 스마트렌즈에 이미지와 텍스트를 함께 이해하는 인공지능(AI)을 적용한 '렌즈 x AI 브리핑'을 지난 31일 출시했다고 1일 밝혔다. 해당 기능은 사용자가 스마트렌즈로 ▲식물 ▲와인 ▲패션 아이템 등 이미지를 입력하면 AI가 이를 분석해 관련성 높은 문서를 찾고 핵심 내용을 요약해 제공한다. 기존에는 이미지 검색 결과를 유사 이미지나 지식백과 위주로 제공했었다. 예를 들어 스마트렌즈로 꽃을 촬영하면 다양한 출처의 콘텐츠들을 분석해 ▲꽃의 이름 ▲개화 시기 ▲특징 ▲꽃말 ▲관리법 등 핵심 정보들을 제공한다. 와인 라벨을 촬영하면 ▲품종 ▲생산지 ▲페어링 등 다양한 정보를 한눈에 확인할 수 있고 코디나 패션 아이템 이미지도 AI 브리핑을 통해 ▲제품 정보 ▲브랜드 ▲스타일 특징 등의 정보를 확인할 수 있다. 네이버는 기존 텍스트 중심의 AI 브리핑을 이미지 검색까지 확장하는 동시에 AI 브리핑 적용 범위를 지속 확대하며 일상 속 정보 탐색을 더욱 편리하게 발전시켜 나갈 계획이다. 김상범 네이버 검색 플랫폼 리더는 “렌즈 x AI 브리핑은 사용자가 이미지만 촬영해도 AI가 관심 있는 정보를 빠르게 요약해주는 것이 핵심이며 기존 텍스트 중심의 AI 브리핑이 이미지 검색으로도 확장한 사례”라며 “앞으로도 다양한 탐색 상황에서 네이버 검색이 'AI 에이전트'로써 편리함을 제공할 수 있도록 지속적으로 고도화해 나가겠다”고 말했다.

2025.08.01 10:57박서린 기자

네이버, 플레이스에 AI 접목한 이미지 필터 적용

네이버(대표 최수연)는 플레이스에 인공지능(AI)을 접목한 이미지 필터를 새롭게 선보인다고 18일 밝혔다. 네이버는 플레이스 상세페이지의 사진 탭에 AI 기술을 도입해 하위 이미지 필터를 고도화했다. 이미지 필터는 ▲내부 ▲외부 ▲음식·음료 등 장소의 세부 주제에 대한 이미지들을 분류해 노출하는 기능이다. AI 기술이 활용돼 더욱 정확도 높고 세분화된 이미지 탐색이 가능해졌다고 네이버는 설명했다. 장소의 업종에 따라 사용자들이 자주 찾는 정보를 반영한 맞춤형 필터들이 적용된다. 식당의 경우 ▲음식·음료 ▲메뉴 ▲풍경 등의 하위 필터가 적용되며, 숙박 시설은 ▲객실 ▲전망 ▲수영장 등의 테마, 미용실의 경우 ▲커트 ▲펌 ▲염색 ▲남성 등 테마에 따라 AI가 이미지를 분류해 제공한다. 이외에도 네일샵, 골프장 등 업종에 대해 맞춤 테마가 노출된다. 또 새롭게 업데이트된 필터에서는 AI가 이미지의 특성을 분석해 테마별로 적합한 이미지들을 분류해 제공한다. 최지훈 네이버 플레이스 검색&콘텐츠 총괄 리더는 “업종에 따라 맞춤형으로 제공되는 다양한 테마를 AI가 학습해 이미지 분류의 정확도를 향상했다”며 “향후에도 서비스 전반에 AI 기술을 접목해 더욱 고도화된 장소 탐색 경험을 제공할 것”이라고 말했다.

2025.07.18 10:13박서린 기자

KAIST-네이버AI랩, 창의성 강화한 AI 기술 개발..."뻔한 건 안그려"

KAIST(총장 이광형)는 김재철AI대학원 최재식 교수 연구팀이 네이버 AI 랩과 공동으로 추가 학습 없이 인공지능(AI) 생성 모델의 창의적 생성을 강화하는 기술을 개발했다고 19일 밝혔다. 이 기술은 '뻔한' 이미지는 절대 그리지 않는다. 텍스트 기반 이미지 생성 모델의 내부 특징 맵을 증폭해 창의적 생성을 강화하는 식이다. 연구팀은 모델 내부의 얕은 블록들이 창의적 생성에 중요한 역할을 한다는 것을 발견하고, 특징 맵을 주파수 영역으로 변환 후 높은 주파수 영역에 해당하는 부분의 값을 증폭했다. 이 결과 연구팀은 노이즈나 작게 조각난 색깔 패턴의 형태가 유발되는 것을 확인했다. 권다희 연구생(박사과정, 공동제1저자)은 "얕은 블록의 낮은 주파수 영역을 증폭했더니 창의적 생성이 강화됐다"고 설명했다. 연구팀은 또 생성 모델 내부 각 블록 별로 최적의 증폭 값을 자동으로 선택하는 알고리즘도 개발했다. 이 알고리즘은 사전 학습된 스테이블 디퓨전 모델의 내부 특징 맵을 적절히 증폭해 추가적인 분류 데이터나 학습 없이 창의적 생성을 강화한다. 한지연 연구생(박사과정, 공동제1저자)은 "SDXL-터보 모델에서 발생하는 모드 붕괴 문제를 완화, 이미지 다양성이 증가한 것을 확인했다"고 말했다. 최재식 교수(교신저자)는 "생성 모델을 새로 학습하거나 미세조정 학습하지 않고 생성 모델의 창의적인 생성을 강화하는 최초의 방법론ˮ이라며 "학습된 인공지능 생성 모델 내부에 잠재된 창의성을 특징 맵 조작을 통해 강화할 수 있게 됐다"고 덧붙였다. 최 교수는 또 “이번 연구는 기존 학습된 모델에서도 텍스트만으로 창의적 이미지를 손쉽게 생성할 수 있게 됐으며, 이를 통해 창의적인 상품 디자인 등 다양한 분야에서 새로운 영감을 제공하고, 인공지능 모델이 창의적 생태계에서 실질적으로 유용하게 활용될 수 있도록 기여할 것"으로 기대했다. 연구결과는 국제 학술지 `국제 컴퓨터 비전 및 패턴인식 학술대회(CVPR)'에서 지난 15일 발표됐다. 연구는 KAIST-네이버 초창의적 AI 연구센터, 과학기술정보통신부의 재원으로 수행됐다.

2025.06.19 11:37박희범 기자

디즈니·유니버설, 'AI 표절'에 칼 빼들었다…미드저니에 IP 침해 소송

생성형 인공지능(AI)이 창작하는 이미지가 기존 인기 콘텐츠의 저작권을 침해한다는 논란이 불거지며 AI 기업과 엔터테인먼트 산업 간 충돌이 본격화되고 있다. 13일 BBC 등 외신에 따르면 디즈니와 유니버설이 이미지 생성 AI 스타트업 미드저니를 저작권 침해 혐의로 미국 연방법원에 제소했다. 디즈니와 유니버설은 미드저니의 생성형 AI 도구가 스타워즈의 다스베이더, 겨울왕국 엘사, 슈퍼배드의 미니언즈 등 자사 인기 캐릭터를 무단으로 복제하고 있다고 주장했다. 이번 소송은 AI 기술을 둘러싼 엔터테인먼트 업계의 복합적인 태도를 보여준다. 업계는 AI의 창작 보조 가능성에는 기대하면서도 자사 지식재산(IP)이 무단 도용되는 데는 강경한 입장을 취하고 있다. 소장에 따르면 미드저니는 텍스트 프롬프트만으로 캐릭터 외형과 스타일을 정교하게 모방한 이미지를 무수히 생성해 왔으며 스타워즈의 요다, 마블의 스파이더맨·헐크·아이언맨 등도 저작권 침해 사례에 포함됐다. 디즈니의 호라시오 구티에레즈 법무 책임자는 "AI가 인간 창의성을 증진시키는 책임 있는 도구가 될 수 있다는 점에 낙관적이지만, 표절은 AI 기업이라 해도 예외가 아니다"라고 밝혔다. 소장에 따르면 미드저니는 지난해에만 약 3억 달러(한화 약 4천100억원)를 벌었으며 영상 생성형 서비스 출시도 준비 중이다. 이에 대해 시러큐스대 슈바 고시 법학 교수는 "미드저니 이미지들은 기존 캐릭터를 새로운 배경에만 배치한 경우가 많아 창의적 변형이라 보기 어렵다"고 지적했다. 다만 미국 홀 에스틸 로펌의 랜디 맥카시 IP 전문 변호사는 "소송 결과를 예단할 수 없다"며 "미드저니 이용 약관과 공정 이용 여부 등 다양한 쟁점이 법원에서 다뤄져야 한다"고 말했다.

2025.06.13 14:50한정호 기자

'문서 AI'가 더 똑똑해졌다…"서류 속 문맥·구조까지 파악"

문서 인공지능(AI) 기술이 단순 텍스트 인식을 넘어 문맥·구조까지 이해하는 방향으로 진화했다. 복잡한 문서에서도 주요 정보를 자동 식별하고 고도화된 자동화 처리까지 가능해졌다. 11일 IT 업계에 따르면 최근 문서 처리 시장에서는 비전언어모델(VLM) 기반 광학 문자 인식(OCR) 기술이 주목받고 있다. 이 기술은 계약서, 보고서 등 여러 형식과 맥락으로 이뤄진 문서 속 표, 조항, 제목, 본문을 AI로 식별해 구조화된 데이터로 변환할 수 있다. VLM은 이미지와 언어 정보를 동시에 이해하는 AI 모델이다. 일종의 '이미지 전문가'와 '언어 전문가'가 한 팀처럼 협업하는 방식으로 작동한다. 우선 이 모델은 문서에서 표, 문장, 도장, 손글씨 등 다양한 이미지 요소를 구분한다. 이후 각 영역의 텍스트를 분석해 의미를 파악하고, 이를 종합적으로 해석한다. 이 과정에서 시각 정보와 언어 정보가 실시간으로 상호작용하며 정답을 조율한다. 정보 하나가 잘못 인식되면 다른 정보가 이를 보완하고, 누락된 부분은 이미지 단서를 활용해 추론하는 식이다. 예를 들어, 사용자가 계약서에 VLM 기반 OCR을 적용하면 '계약 당사자'와 '계약 기간' '주요 조항' '서명란' 등을 자동으로 식별해 체계적으로 정리할 수 있다. 이를 통해 문서 처리 자동화 수준을 높이고 반복 작업과 인적 오류를 줄일 수 있다. 기존 OCR은 이미지 속 텍스트를 디지털 문자로 바꾸는 데만 초점 맞췄다. 문서 레이아웃이나 의미적 맥락은 이해하지 못해 데이터 활용에 한계가 있었다. 이에 추가 인력이 이를 수작업으로 정리해야만 했다. VLM OCR, 정확도·사업성 모두 잡아 한국딥러닝은 '딥 OCR 플러스' 출시로 VLM OCR 서비스를 이미 상용화했다. 이 솔루션은 별도 학습 없이 여러 형식 문서를 처리할 수 있다. 한국어·영어·숫자·특수문자가 섞인 복잡한 구조도 정확하게 인식할 수 있도록 설계됐다. 딥 OCR 플러스는 문서의 표나 문단을 자동 분석해 핵심 정보를 요약하고, 추출 데이터를 표준 포맷으로 제공해 업무 시스템과 연동된다. 한국딥러닝은 이 솔루션으로 문서 검토 시간을 최대 80% 줄이고, 일관된 데이터 품질을 유지할 수 있다고 강조했다. 앞서 업스테이지도 AI 기반 문서 구조화 솔루션 '다큐먼트 파스'를 출시해 보험, 금융, 의료 등 산업 현장에서 문서 자동화를 지원하고 있다. 고정밀 벤치마크에서 아마존·마이크로소프트 모델보다 높은 정확도를 기록한 것으로 전해졌다. 올해 6월 모델 '솔라'를 결합한 '솔라 다큐브엘엠'도 출시한다. 솔라 타큐브엘엠은 시각 정보와 언어 정보 통합 처리 역량을 강화해 문서 기반 요약, 질의응답, 자동 분류까지 수행할 수 있도록 구성됐다. 특히 비정형 문서나 복잡한 레이아웃 문서에서도 높은 인식률을 보일 것이란 평가를 받고 있다. 김지현 한국딥러닝 대표는 "비전 OCR은 돈 버는 AI"라며 "정확도와 사업성을 모두 잡을 수 있는 실용 기술"이라고 강조했다.

2025.05.11 14:40김미정 기자

피규어·지브리 프사 만들기?…"챗GPT 개인정보 유출 위험"

인공지능(AI) 챗봇 '챗GPT'로 유행 따라 사진을 피규어나 일본 지브리스튜디오 애니메이션처럼 만들다가는 개인정보를 털릴 수 있다고 미국 잡지 와이어드는 1일(현지시간) 보도했다. 운영사 오픈AI는 새로운 GPT-4o 기반 이미지 생성기로 챗GPT의 사진 편집, 텍스트 렌더링 기능을 키웠다고 와이어드는 평가했다. 챗GPT 무료 계정과 사진만 있으면 재미있고 쉽게 이미지를 만들 수 있다. 그러나 피규어나 지브리 같은 그림을 만들려면 오픈AI에 많은 정보를 넘겨야 한다고 와이어드는 지적했다. 오픈AI는 이 정보로 인공지능을 학습시킬 수 있다. 유럽 OPIT(Open Institute of Technology)의 톰 바즈다 사이버보안학과장는 “챗GPT에 사진을 올릴 때마다 메타데이터 덩어리를 넘겨주는 셈”이라며 “사진 촬영 시간, 촬영 장소의 (GPS) 좌표 등 그림 파일에 첨부된 정보가 포함된다”고 말했다. 메타데이터(Metadata)란 다른 정보를 나타내는 정보를 뜻한다. 오픈AI는 챗GPT에 접속하는 기기 정보도 모으는 것으로 알려졌다. 기기 유형, 운영 체제, 브라우저 버전, 고유 식별자 등이다. 바즈다 학과장은 “챗GPT는 대화하듯 작동하기에 입력한 내용, 요청한 그림 종류, 인터페이스와의 상호 작용 방식, 동작 빈도와 같은 행동 정보도 수집한다”며 “생성형 AI를 훈련하는 금광”이라고 표현했다. 얼굴만 그런 게 아니다. 위험 관리 회사 GRC인터내셔널그룹의 캠든 울븐 AI제품 마케팅 책임자는 “고해상도 사진을 올리면 피사체뿐 아니라 배경, 다른 사람, 방 안의 물건, 문서처럼 읽을 수 있는 모든 것을 오픈AI에 주는 격”이라고 설명했다. 오픈AI는 생성형 AI를 학습시키려고 개인정보를 적극적으로 수집하지 않으며 인터넷 공개 정보로 사용자 프로필을 구축하고 광고하거나 정보를 팔지 않는다고 와이어드에 밝혔다. 그러나 오픈AI의 개인정보 보호 정책에 따라 챗GPT로 올라온 이미지는 보관되고, 생성형 AI를 개선하는 데 쓰일 수 있다고 와이어드는 비판했다. 챗GPT에서 정보를 지킬 가장 효과적인 방법은 채팅 기록을 끄는 일이라고 와이어드는 소개했다. 파일에서 메타데이터를 지우고 올려도 좋다. 사진 편집 도구를 쓰면 된다. 바즈다 학과장은 “사용자는 민감한 개인정보를 챗GPT에 쓰지 말고 정보를 알 수 있는 배경이 있는 사진이나 단체 사진은 올리지 말아야 한다”며 “이렇게 하면 내 정보가 챗GPT 훈련에 쓰이지 않도록 할 수 있다”고 조언했다.

2025.05.03 07:48유혜진 기자

Prev 1 2 3 Next