검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'이미지 AI'통합검색 결과 입니다. (54건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

"글로벌 수준"...카카오, 멀티모달 언어모델 'Kanana-o' 성능 공개

카카오가 새로운 인공지능 모델을 통해 기술 경쟁력 강화를 이어간다. 카카오(대표 정신아)는 공식 테크블로그를 통해 통합 멀티모달 언어모델 'Kanana-o'와 오디오 언어모델 'Kanana-a'의 성능과 개발 후기를 1일 공개했다. 통합 멀티모달 언어모델인 Kanana-o는 텍스트와 음성, 이미지까지 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 모델이다. 텍스트, 음성, 이미지 중 어떠한 조합으로 질문을 입력하더라도 처리 가능하며, 상황에 맞는 텍스트나 자연스러운 음성으로 응답 가능한 구조로 설계됐다. 카카오는 '모델 병합' 기술을 기반으로 이미지 처리에 특화된 모델 'Kanana-v'와 오디오 이해 및 생성에 특화된 'Kanana-a' 모델을 통합, 단기간 내 효율적으로 Kanana-o를 개발했다. 통합 후에는 이미지, 오디오, 텍스트 데이터를 동시에 학습하는 '병합 학습'을 통해 시각과 청각 정보를 동시에 이해하고, 텍스트와 연결 지을 수 있도록 통합 훈련을 거쳤다. 이런 과정을 통해 기존 LLM 구조에서 이미지 이해 능력과 음성 인식과 합성, 감정 이해 등 고도화된 오디오 능력을 확장시킨 통합 멀티모달 언어모델이 구현됐다. Kanana-o는 음성 감정 인식 기술을 통해 사용자의 의도를 올바르게 해석하고, 상황에 맞는 적절한 반응과 답변을 제공해준다. 억양, 말투, 목소리 떨림 등 비언어적 신호를 분석하고, 대화 맥락에 맞는 감정적이고 자연스러운 음성의 응답을 생성하는 것이 특징이다. 대규모 한국어 데이터셋을 활용해 한국어의 특수한 발화 구조, 억양, 어미 변화 등을 정밀하게 반영하기도 했다. 특히 제주도, 경상도 등 지역 방언을 인식하고 이를 표준어로 변환해 자연스러운 음성을 생성할 수 있다. 지속적인 성능의 고도화를 위해 카카오는 현재 독자적인 한국어 음성 토크나이저(오디오 신호를 일정 단위로 작게 분해하는 도구) 개발을 진행 중이다. 스트리밍 방식의 음성합성 기술을 적용해 사용자가 긴 대기 시간 없이 응답을 제공하는 강점도 보유했다. 예를 들어, 이미지와 함께 "이 그림에 어울리는 동화를 만들어 줘"라고 입력하면, Kanana-o는 해당 음성을 이해하고 사용자의 억양과 감정 등을 분석해 자연스럽고 창의적인 이야기를 실시간으로 생성해 들려준다. Kanana-o는 한국어 및 영어 벤치마크에서 글로벌 최고 모델들과 유사 수준을 기록했으며, 한국어 벤치마크에서는 높은 우위를 보였다. 특히, 감정인식 능력에서는 한국어와 영어 모두에서 큰 격차를 기록하며, 감정까지 이해하고 소통할 수 있는 AI 모델의 가능성을 입증했다. 이미지와 음성을 통합적으로 이해해야 하는 '이미지-음성 QA(질의응답)' 태스크에서도 강력한 성능을 달성하며, 통합 멀티모달 언어모델로서의 글로벌 경쟁력을 확인했다. 카카오는 향후 Kanana-o를 통해 ▲다중 턴 대화 처리 ▲양방향 데이터 동시 송수신 기술 대응 능력 강화 ▲부적절한 응답 방지를 위한 안전성 확보 등을 목표로 연구 개발을 지속해 갈 계획이다. 이를 통해 다중 음성 대화 환경에서의 사용자 경험을 혁신하고, 실제 대화에 가까운 자연스러운 상호작용을 실현해가는 것이 목표다. 카카오 김병학 카나나 성과리더는 "카나나 모델은 복합적인 형태의 정보를 통합적으로 처리함으로써 기존의 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI로 진화하고 있다"며 "독자적인 멀티모달 기술을 바탕으로 자사의 인공지능 기술 경쟁력을 강화하는 한편, 지속적 연구 결과 공유를 통해 국내 AI 생태계 발전에 꾸준히 기여할 계획"이라고 말했다.

2025.05.01 10:13백봉삼 기자

플리토, AI로 이미지 속 문자 번역…콘텐츠 품질 강화

플리토가 인공지능(AI) 기반 이미지 번역 서비스를 출시해 글로벌 시장을 노리는 기업 경쟁력 강화에 나섰다. 플리토는 이미지 내 텍스트를 번역하는 '이미지 번역' 서비스를 출시했다고 28일 밝혔다. 이번 서비스는 이미지 속 텍스트를 번역하면서 글자 배치와 배경, 색감 등 원본 디자인 요소를 유지하는 것이 특징이다. 특히 HTML 포맷은 검색 엔진 최적화(SEO) 효과를 통해 검색 노출을 높일 수 있어 고객사의 디지털 마케팅 경쟁력 제고에 기여할 것으로 기대된다. 플리토는 고객 전용 모니터링 시스템을 통해 번역과 디자인 최적화 과정을 한 번에 관리할 수 있도록 했다. 수작업이나 반복적 커뮤니케이션 없이 실시간 진행 상황을 확인할 수 있어 로컬라이제이션 업무 효율이 크게 향상될 전망이다. 플리토는 AI 번역 엔진, 광학문자인식(OCR), 인페인팅 기술을 결합해 이커머스 기업들의 이미지 기반 콘텐츠 수요를 적극 대응하고 있다. 자체 플랫폼의 1천400만 유저 언어 데이터를 활용해 도메인 맞춤형 고품질 번역을 제공하고 있으며 올리브영, 졸스 등 글로벌 뷰티 플랫폼에 서비스를 공급 중이다. 이정수 플리토 대표는 "AI 이미지 번역은 고품질 번역과 고객사의 브랜드 감성까지 그대로 살리는 맞춤 현지화 서비스"라며 "디지털 환경에서 이미지 기반 콘텐츠의 중요성이 커지는 만큼 이번 서비스가 이커머스 기업들의 글로벌 경쟁력 강화에 기여하길 바란다"고 밝혔다.

2025.04.28 15:09김미정 기자

포바이포-미리디, 콘텐츠 제휴 업무협약 체결

콘텐츠 AI 솔루션 기업 포바이포(대표 윤준호)가 디자인 플랫폼 기업 미리디와 초고화질 영상 및 이미지 스톡 콘텐츠 제휴에 대한 전략적 업무협약을 체결했다고 23일 밝혔다. 포바이포와 이번 업무협약을 체결한 미리디는 약 53만개 이상의 템플릿을 보유해 누구나 고품질 디자인 결과물을 만들 수 있는 디자인 올인원 플랫폼 '미리캔버스'와, 온라인 인쇄 서비스 및 소상공인 브랜드, 홍보까지 아우르는 '비즈하우스' 등을 운영하고 있다. 최근 ▲AI 프레젠테이션 ▲AI 라이팅 ▲AI 이미지 생성 ▲AI 이미지 편집 기능을 새롭게 도입하며 AI 컴퍼니로 거듭나고 있는 업계 선도 기업이다. 이번 협약을 통해 포바이포는 회사에서 운영하는 스톡 플랫폼 '키컷스톡'에서 유통하는 4K 이상 초고화질 영상 및 이미지, 미디어아트, 그래픽, 영상 템플릿, 썸네일 스톡 등을 미리디가 제공하는 다양한 디자인 플랫폼에 활용할 수 있도록 제공하게 된다. 또 초고화질 영상 콘텐츠로 특화된 기업 답게 미리디가 운영 중인 플랫폼과 자체 제작하는 마케팅 콘텐츠가 최상의 효과를 낼 수 있도록 자체 AI솔루션을 활용, 영상의 화질 및 용량 최적화 방법을 지속적으로 제안해 나갈 예정이다. 향후 포바이포의 콘텐츠 전문성과 미리디의 광범위한 플랫폼 및 고객들을 결합해 디지털 사이니지 전용 영상 디자인, 글로벌 마케팅 콘텐츠 제작 등 새로운 시장 진출도 공동 추진하기로 약속했다. 강창석 미리디 대표는 "포바이포와의 협력을 통해 미리디는 고객들에게 초고화질의 영상 스톡을 제공할 수 있게 됐다"며 "양사의 시너지를 통해 새로운 시장을 개척하고 고객 만족도를 극대화할 수 있기를 기대한다"고 말했다. 키컷스톡 서희환 팀장은 "미리디의 비즈니스 모델과 포바이포 키컷스톡의 서비스가 결합되면 분명 높은 시너지를 만들어 낼 것"이라며 "이번 업무협약은 서로에게 필요한 기술과 상품을 상호 교환함으로써 양사 모두에게 더욱 차별화된 서비스로 발돋움할 수 있는 기회가 될 것으로 기대하고 있다"고 밝혔다.

2025.04.23 08:51백봉삼 기자

캐럿, LG유플러스에 기업용 AI 영상 제작 서비스 '캐럿 Biz' 공급

인공지능(AI) 영상 생성 플랫폼 '캐럿' 운영사 패러닷(대표 장진욱)이 LG유플러스에 기업용 AI 영상 제작 솔루션 '캐럿 Biz'를 공급한다고 21일 밝혔다. 캐럿 Biz는 기업을 대상으로 세계적인 이미지·영상 생성 모델을 실행 횟수 제한 없이 제공한다. 구글 이마젠3, 런웨이, 플럭스 등 각종 AI모델을 개별 구독하는 경우와 비교해 최소 약 75% 저렴한 가격에 이용할 수 있다. 인물이 등장하는 영상에 더빙 음성 및 입 움직임을 더하는 '영상 립싱크', 특정 인물 및 사물을 학습해 콘텐츠에 반영시켜주는 '이미지 학습' 등 제작자 친화적인 기능까지 탑재했다. 앞으로 LG 유플러스는 캐럿을 활용해 직접 광고 및 마케팅 영상을 제작할 계획이다. 인공지능 중심 사업 전환(AX)을 위한 전략 일환이다. 운영사 패러닷은 LG유플러스 실무자들이 AI 창작을 신속히 익힐 수 있도록 라이언오슬링, 연신내호랭이, 김땡땡 등 유수 AI 크리에이터를 배치해 멘토링 서비스를 지원한다. 장진욱 패러닷 대표는 “어느 분야에서든 AI는 실무자 업무 역량을 10배 이상 성장시킬 수 있는 '생산성 혁신'을 일으킬 가능성이 충분하다”며 “캐럿은 앞으로 콘텐츠 및 엔터테인먼트 업계에서 유용하게 활용할 수 있는 기능을 다수 탑재한 AI 에이전트를 개발하고 제공할 계획”이라고 말했다.

2025.04.21 09:04백봉삼 기자

미리캔버스, AI 디자인 툴 '미리클' 글로벌 동시 출시

미리디(대표 강창석)에서 운영하는 비주얼 커뮤니케이션 플랫폼 '미리캔버스'가 디자인 맞춤 AI 기술을 탑재한 '미리클'을 국내와 글로벌에 동시 출시했다고 17일 밝혔다. 미리클은 미리캔버스와 기적을 뜻하는 미라클이 결합한 이름으로 미리캔버스의 새로운 AI 기술 브랜드다. 미리캔버스가 구축해 온 디자인 혁신에 AI 기술력을 더해 지금까지와 전혀 다른 새로운 형태의 디자인 작업물을 만들 수 있다는 의미를 담았다. 미리클의 핵심 기능은 ▲AI 프레젠테이션 ▲AI 라이팅 ▲AI 이미지 생성 ▲AI 이미지 편집으로, AI 기술을 통해 누구나 손쉽고 빠르게 전문가급 결과물을 만들어 주는 것이 특징이다. 'AI 프레젠테이션'은 이용자들이 주제와 내용을 입력하면 3분 이내에 프레젠테이션 초안을 만들고 콘텐츠 내용에 따라 자동으로 페이지 구성까지 제안한다. 뿐만아니라 자료 성격에 맞춰 디자인 추천 및 내용 수정·보완 등의 피드백도 제공한다. 여기에 간단한 키워드 또는 짧은 문장 입력으로 원하는 글을 생성해 주는 'AI 라이팅'까지 사용하면 프레젠테이션의 완성도를 한층 더 높일 수 있다. 'AI 이미지 생성'은 이용자 요청에 따라 초고화질의 결과물을 제작하고, 작업 중인 디자인에 어울리는 이미지를 추천한다. 특히 현재 글로벌 시장에서 주목받고 있는 멀티 모달 AI 대비 동양인 인물 표현에서는 수준 높은 결과물을 보여준다. 'AI 이미지 편집'은 간단한 조작으로 화질 개선 등의 편집이 가능한 것은 물론 인물과 사물 등을 정밀하게 분리해 준다. 따라서 배경 제거 작업 시 더욱 섬세한 결과물을 얻을 수 있다. 미리캔버스는 미리클 출시에 앞서 2023년 2월부터 1년 반 동안 AI 기능을 서비스에 탑재, 글로벌 이용자를 대상으로 테스트를 진행했다. 그 결과 별도의 홍보·마케팅 없이도 496만 명 이상의 고객이 미리캔버스의 AI 기능을 적극 활용했으며, 매월 이용자가 꾸준히 증가하는 추세다. 이에 미리캔버스는 글로벌 AI 비주얼 커뮤니케이션 플랫폼으로 해외 시장 진출을 본격화하며, 현재 서비스 되고 있는 미국, 영국, 유럽, 일본 등에 미리클을 동시 공개했다. 한국어, 일어, 영어 등의 언어를 지원하며, 향후 서비스 언어는 계속해서 늘려갈 계획이다. 강창석 미리디 대표는 "미리클은 누구나 간편하게 고퀄리티 결과물을 얻도록 디자인에 맞춤 설계된 AI 기술 서비스"라며 "이용자 친화적인 국내 대표 디자인 플랫폼으로서 미국, 유럽, 일본 등 해외 디자인 강국에서도 미리캔버스가 안착할 수 있도록 서비스 경쟁력을 더욱 강화하겠다"고 말했다.

2025.04.17 18:19백봉삼 기자

"트래픽 폭주에 발목"…오픈AI, 신규 유저에 '소라' 영상 생성 제한

오픈AI가 자사 멀티모달 생성형 인공지능(AI) 영상 서비스 '소라(Sora)'의 영상 생성 기능을 일부 사용자에 한해 제한했다. 지브리풍 이미지 생성 기능이 화제를 모으며 사용자가 급증한 데 따른 후속 조치다. 1일 테크크런치에 따르면 오픈AI는 최근 소라 영상 생성 기능을 신규 계정에서 사용할 수 없도록 설정했다. 소라에 최초 로그인한 사용자에겐 이미지 생성 기능만 제공되며 영상은 차단된다. 이번 제한 조치는 지난주 소라에 새롭게 추가된 이미지 생성 기능이 공개된 이후 내려졌다. 해당 기능은 미야자키 하야오 감독의 '스튜디오 지브리' 스타일을 재현할 정도로 뛰어난 품질을 자랑하며 소셜미디어를 중심으로 폭발적인 반응을 이끌었다. 다만 예상치를 훌쩍 웃도는 사용자 유입으로 서버 과부하 문제가 불거졌다. 오픈AI는 이에 따라 트래픽 조절이 시급하다고 판단해 신규 계정 중심으로 영상 기능을 잠정 차단한 것으로 보인다. 영상 생성을 차단한 오픈AI의 공식 지원 페이지에는 "현재 트래픽이 급증해 신규 계정에 대해 영상 생성을 임시로 비활성화했다"는 공지가 게재됐다. 기존 사용자 계정은 여전히 영상 생성이 가능하다. 샘 알트먼 오픈AI 최고경영자(CEO)는 지난 주말 X(구 트위터)를 통해 "출시 이후 지금까지 수요를 따라잡지 못하고 있다"며 "서비스 유지를 위해 직원들이 야근과 주말 근무까지 하고 있다"고 밝힌 바 있다.

2025.04.01 12:17조이환 기자

[써보고서] 그림도 글도 한 번에…'챗GPT 이미지 생성기' 미래 바꾼다

"이번에 업데이트된 '챗GPT' 이미지 생성기를 확인해봤습니다. 단순히 기존 이미지를 조합하는 수준이 아니라 텍스트의 의미를 더 깊이 이해하고 새로운 스타일과 구성, 언어 표현까지 가능합니다. 한글도 꽤나 잘 표현되고 긴 문장도 잘 소화합니다. 이제 그림과 관련해 뭐가 안 될 거라고 말하기가 무서울 정도네요." 한 국내 인공지능(AI) 전문가는 30일 자신의 소셜미디어를 통해 '챗GPT 이미지 생성기(ChatGPT Image Generator)'의 최신 업데이트 버전을 이같이 평했다. 그만의 생각이 아니다. 실제로 소셜미디어 곳곳에서는 해당 서비스에 대해 수많은 유저들이 뜨겁게 반응하며 새로운 사용사례를 발굴하고 다양한 실험을 이어가고 있다. '챗GPT 이미지 생성기'는 오픈AI가 자사의 거대언어모델(LLM)인 '챗GPT'의 '4o' 버전에 통합한 이미지 생성 기능이다. 지난 25일 기존 '달리' 이미지 생성기에서 새롭게 업데이트된 이번 버전은 기존 대비 뛰어난 언어 이해력과 창의성을 기반으로 훨씬 자연스럽고 풍부한 이미지 생성이 가능해졌다는 평가를 받고 있다. 이번에 공개된 버전은 단순한 그림 제작을 넘어, 사실상 '무엇이든 가능한 수준'에 도달했다는 평가다. ▲텍스트와 그래픽 요소가 결합된 시각자료 제작 ▲기존 이미지의 특정 글자나 오브젝트만 정밀하게 수정하는 리터칭 ▲실사 이미지의 형태를 유지하면서 전혀 다른 테마로 재해석하는 작업까지 대부분 구현이 가능하다. "AI가 만든 인포그래픽"…그림뿐 아니라 '시각 설명'까지 완성 무엇보다 주목할 점은 '그림과 글자 조합'에 대한 처리 능력이다. 우리가 일상적으로 확인하고 처리하는 대부분의 시각 자료는 이미지와 텍스트의 조합으로 구성돼 있다. 이 생성기는 이제 그런 형태의 콘텐츠라면 어지간한 수준까지 대부분 구현할 수 있을 만큼 진화했다. 일례로 최근 기자가 국내 AI 기업인 S2W를 인터뷰한 기사를 준비하며 회사와 밀접히 연관된 개념인 '온톨로지'와 '지식그래프' 같은 개념을 시각적으로 설명할 삽화가 필요했던 사례가 있다. 이 개념들은 본질적으로 매우 추상적이어서 그림으로는 설명이 어려울 수 있다. 그런데 이번 이미지 생성기는 그런 우려를 뛰어넘었다. 기자가 두 개념을 상징하는 그림들을 그려달라고 콘셉트와 설명을 입력하자 개념을 직관적으로 시각화한 고품질 그래픽을 수십 초 만에 생성해냈다. 지식그래프는 '데이터 간의 관계'를 시각적으로 보여주는 구조이고 '온톨로지'는 그 안의 개념과 의미를 정의한 일종의 '표준 사전'이다. 생성된 그림은 이 개념들을 처음 접하는 사람도 쉽게 이해할 수 있을 만큼 명확하게 표현해 줬다. 발표자료나 기사 내 삽화로도 손색이 없을 정도의 직관적 간단함을 보여줬다. 여기에 활용도를 한층 끌어올린 요소는 바로 영어 텍스트 처리 능력이다. 과거 이미지 생성기들은 영어조차 정확히 표현하지 못하는 경우가 많았다. 'AI' 같은 단어는 무난했지만 '국가안보(National Security)'처럼 긴 단어의 경우 알파벳이 일부 누락되거나 다른 글자로 바뀌는 문제가 흔했다. 이번 업데이트 이후에는 영어 문장을 거의 완벽하게 반영해 이제 굳이 외주를 맡기지 않아도 될 정도로 안정적인 결과물을 얻을 수 있다. 이 강점은 인포그래픽 제작에서 빛을 발한다. 예를 들어 앞서 언급한 '지식그래프'와 '온톨로지' 개념을 영어 발표자료로 만드는 실험을 해보기 위해 기자는 '챗GPT'에게 "이 기사 내용을 바탕으로 1슬라이드짜리 인포그래픽을 만들 수 있게 개념을 정리해줘"라고 지시했다. 이에 '챗GPT'는 즉각 구체적인 구성안을 제시했고 "이 구성을 기반으로 텍스트나 디자인 워딩도 만들어줄 수 있다"며 "필요하면 파워포인트, 피그마, 웹용, 포스터 등 포맷에 맞춰 최적화도 가능하다"는 제안까지 곁들였다. 이에 기자는 '스타트업 감성'과 '노랑-하양' 계열 톤을 지정하며 포스터 형태로 직관적으로 이해 가능한 버전을 요청했다. 결과는 기대 이상이었다. 영어 문장 표현이 완벽하게 구현됐고 복잡한 개념도 깔끔하게 시각화됐다. 발표 자료로 바로 활용해도 손색이 없을 만큼의 완성도였고 제작에 걸린 시간은 1분 남짓이었다. 가정용 레이저 컬러 프린터에서 컬러 사진을 출력하는 속도다. 이미지 속 대사·표정·배경까지 자유자재…테마 전환도 '척척' 또 다른 주목할만한 특징은 '기존 이미지를 수정하는 기능'이다. 이제는 '챗GPT 4o'에 그림이나 사진을 입력한 뒤 그 안의 글자나 오브젝트를 일부 수정하는 것도 가능하다. 이는 더 이상 포토샵이나 전문적인 그래픽 디자인 툴 없이도 어느 정도의 시각적 편집 작업을 누구나 할 수 있게 됐다는 의미다. 일례로 기자는 인터넷에서 밈으로 유명한 김성모 화백의 만화 컷에서 등장인물의 대사인 "더이상의 자세한 설명은 생략한다"를 바꾸고 싶었다. '챗GPT'에게 이 이미지를 주고 "이 문장을 '자세한 설명이 필요하므로 다음 컷에 해주겠다'로 바꿔달라"고 요청하자 해당 문장을 깔끔하게 수정한 이미지를 바로 생성해줬다. 캐릭터의 외형은 약간의 차이가 있지만 전체적인 스타일은 거의 완벽하게 재현됐다. 공식 문서나 기획안 등 고해상도 일러스트가 필요한 상황이 아니라면 충분히 활용할 수 있을 정도다. 그림에 대한 소폭 수정도 자연스럽게 처리된다. 기자는 앞선 김성모 캐릭터에서 '목폴라를 벗기고 70년대식 콧수염을 붙여달라'고 요청했는데 역시 기대한 대로 처리됐다. 이외에도 캐릭터의 표정 변화, 옷이나 헤어스타일 교체, 배경 변경 등 다양한 시도가 가능했다. 다만 이 과정에서 한글 텍스트가 처음엔 조금 어색하게 표현되기도 했으나, 다시 "한글 자연스럽게 수정해줘"라고 요청하면 또 문제없이 보완해주는 구조다. 오브젝트의 테마나 분위기를 바꾸는 작업 역시 수준급이다. 최근 소셜미디어를 뜨겁게 달군 '지브리 테마 변환'이 대표적인 사례다. 최근에는 더 락, 백악관 보좌관 등 유명 인사, 인플루언서들이 이 기능을 이용해 카카오톡 프로필이나 SNS 프로필 사진을 새롭게 꾸미는 사례가 확산되고 있다. 이에 동참해 기자는 스스로의 사진을 입력한 뒤 "지브리 애니메이션 분위기로 바꿔달라"고 요청했고 실제로 스튜디오 지브리를 연상시키는 따뜻한 색감과 몽환적인 배경, 부드러운 일러스트 스타일이 적용된 결과물이 나왔다. 또 하나 흥미로운 점은 단순히 캐릭터 스타일을 바꾸는 것을 넘어 이미지의 '전체 테마' 자체를 완전히 변환할 수 있다는 것이다. 단순히 눈이나 옷차림만 바꾸는 수준이 아니라 사진이 지닌 분위기와 배경까지 포함한 '서사적 연출'이 가능해진 셈이다. 최근 오픈AI 아태지역 홍보 담당자인 제이크 윌친스키는 자신의 링크드인에 새로운 사용 사례를 공개했다. 그는 '챗GPT 이미지 생성기'에 "우리 집 강아지를 최대한 나쁜 남자(Bad*ss)처럼 만들어달라"고 요청했고 그 결과 선글라스, 초커, 가죽 재킷을 착용한 터프한 강아지 이미지가 생성됐다. 기존 반려동물의 귀여운 이미지를 완전히 뒤엎는 콘셉트 전환이 구현된 것이다. 기자도 유사한 시도를 했다. 반려견 사진을 입력한 뒤 "이 강아지를 런던 동부의 불량 청소년처럼 바꿔달라"고 프롬프트를 주자 결과물은 놀라웠다. 푸들이었던 강아지는 그대로 유지됐지만 배경은 그래피티가 가득한 동런던 거리로 바뀌었고 모자, 아디다스 재킷, 귀걸이 등 각종 아이템으로 꾸며져 있었다. 한마디로 '코크니 억양으로 밤거리에서 맥주를 흔들며 인사를 건넬 것 같은' 이미지가 완성된 셈이다. 여전히 존재하는 한계…그럼에도 우리 삶 '게임 체인저'로서 잠재력 보여 물론 모든 기능이 완벽하게 구현되는 것은 아니다. 특히 텍스트 표현에서는 일부 한계가 남아 있다. 영어는 대부분 정확하게 처리되지만 문장이 너무 길거나 단어가 복잡할 경우 일부 글자가 누락되는 경우가 종종 발생한다. 기사 한 편 수준의 긴 문장을 이미지에 삽입하는 고난도 작업은 아직 포토샵 등 전문 편집 도구가 더 유리할 수 있다. 한글은 그보다 제약이 크다. 짧은 문장은 비교적 잘 표현되지만 한 문단 이상만 되어도 오타나 띄어쓰기 오류가 생길 가능성이 높다. 수정 요청을 통해 보완은 가능하지만 '한 번에 완성형'을 기대하기는 아직 무리다. 이미지 리터칭 역시 100% 재현이라고 보긴 어렵다. 김성모 화백의 만화 대사를 바꾼 예처럼 스타일과 구도는 거의 흡사하지만 선의 굵기 같은 디테일은 다소 달랐다. 반려견 사례에서도 강아지의 특징은 대부분 반영됐지만 실물과 완벽히 일치하기보다는 유사한 개체의 특징이 혼합된 결과물이었다. 이는 생성형 AI 특유의 '확률적 생성 방식'에 기반한 한계로 기술적으로는 어쩔 수 없는 영역이기도 하다. 다만 이런 단점을 감안하더라도 '챗GPT 4o 이미지 생성기'는 충분히 '게임 체인저'로서의 자격을 갖췄다. 핵심은 글과 그림이라는 인간 커뮤니케이션의 두 축을 AI가 모두 다룰 수 있게 되었다는 점이다. 이미지 속 텍스트를 고치고 그래픽을 새로 생성하며 오브젝트를 주제나 맥락에 맞춰 자연스럽게 변환하는 기능은 산업 전반에 걸쳐 새로운 창작 흐름을 만들어낼 수 있다. 특히 주목할 지점은 이러한 기능이 단지 업무 효율화나 콘텐츠 제작 자동화에만 그치지 않는다는 점이다. 사람들이 일상 속 감정과 기억, 유머와 밈(meme), 일상의 장면들까지도 누구나 이미지로 기록하고 나아가 수십초만에 창작할 수 있는 시대가 열린 것이다. '생활형 창작'의 문턱이 급격히 낮아진 지금 생성형 AI는 이제 단순한 도구가 아니라 삶을 구성하는 도구로 자리매김할 가능성이 보인다. 다만 이 기능은 아직 무료 버전에서는 제공되지 않는다. '챗GPT 4o'의 이미지 생성 기능은 현재 월 20달러(한화 약 2만7000원)의 유료 플랜인 '챗GPT 플러스(Plus)'와 200달러(한화 약 27만원) 플랜인 '챗GPT 프로(Pro)' 구독자에게만 제공된다. 본격적인 대중화는 향후 무료 사용자에게도 기능이 개방되는 시점 이후가 될 전망이다. 샘 알트먼 오픈AI 최고경영자(CEO)는 "'GPT-4o 이미지 생성기'는 현재 유료 사용자에게만 제공된다"며 "향후에는 무료 사용자와 애플리케이션 프로그램 인터페이스(API) 사용자에게도 확장 적용될 예정"이라고 밝혔다.

2025.03.30 14:55조이환 기자

오픈AI 샘 알트먼 "이미지 생성 모델 인기에 서버 과부하"

오픈AI가 출시한 '챗GPT-4o 이미지 생성(ChatGPT-4o Image Generation) 모델'이 샘 알트먼 최고경영자(CEO)를 난감하게 할 정도로 폭발적인 인기를 얻고 있다. 28일 CNBC에 따르면 샘 알트먼 CEO는 X(옛 트위터) 게시물을 통해 "사용자들이 새로운 챗GPT의 이미지 생성을 좋아하는 것은 정말 즐겁지만 자사 GPU가 녹아내리고 있다"고 밝혔다. 오픈AI가 새로 선보인 이미지 생성 모델은 텍스트와 이미지를 모두 통합할 수 있는 멀티모달 AI 모델인 챗GPT-4o 기반 서비스로 유료 구독자들을 비롯한 무료 사용자들에게도 공개됐다. 샘 알트먼 CEO도 자신의 X 프로필 사진을 챗GPT 이미지 생성 모델로 제작한 일본 지브리 애니메이션 스타일의 캐릭터 이미지로 바꿔 주목받았다. 이후 챗GPT의 이미지 생성 모델을 이용해 제작한 이미지들이 다양한 소셜 미디어에서 빠르게 확산되며 큰 인기를 끌고 있는 상황이다. 이 때문에 오픈AI의 서버조차 과부하가 걸렸다. 이에 샘 알트먼 CEO는 당분간 이미지 생성에 드는 속도와 제작 가능한 이미지 개수를 제한하는 등의 대응조치를 취할 것이라고 설명했다. 이제 무료 사용자들이 생성할 수 있는 이미지 개수는 하루당 3장으로 제한된다. 또 오류 수정 작업도 진행한다. 샘 알트먼 CEO는 "챗GPT가 일부 이미지를 생성하지 못하고 있다"며 "가능한 한 빨리 수정할 것"이라고 말했다.

2025.03.28 15:25한정호

[유미's 픽] 오픈AI 新 무기 출격에 한숨 쉬는 美 기업, 주가 또 흔들릴까

'포토샵'으로 잘 알려진 미국 소프트웨어 기업 어도비가 오픈AI·구글·xAI 등 인공지능(AI) 기술을 앞세운 새로운 경쟁자들의 등장으로 위기에 몰렸다. 간단한 프롬프트 입력만으로 전문가 못지 않은 퀄리티의 이미지를 쉽게 만들 수 있는 서비스들이 속속 등장하면서 존재감이 점차 희미해지고 있다는 평가가 나온다. 26일 업계에 따르면 어도비의 최근 1년간 주가는 무려 19.98%나 하락해 오후 4시 45분 현재 403.64달러에 머무르고 있다. 한 때 주가가 597.75달러까지 치솟았으나 경쟁사들의 잇따른 등장과 함께 새로운 성장 동력으로 내세운 AI 비즈니스가 시장에서 큰 호응을 얻고 있지 못한 까닭이다. 앞서 어도비는 지난 2023년 오픈AI가 '챗GPT'를 출시한 직후 AI 사진 편집 시장에 진입하기 위해 '파이어플라이'를 출시했다. 이후 어도비 익스프레스를 비롯한 포토샵, 일러스트레이터, 어도비 스톡 등 크리에이티브 클라우드 앱들에 생성형 AI를 탑재했다. 특히 포토샵에는 '제너레이티브 필(Generative Fill)', 어도비 스톡에서는 '텍스트 투 이미지(Text-to-Image)', 일러스트레이터에는 '제너레이티브 리컬러(Generative Recolor)' 등 AI 기반 기능이 출시됐다. 올해 초에는 파이어플레이 비디오 티어 등 새로운 AI 기반 서비스를 발표해 주목 받았다. 이 서비스는 사용자가 제출한 텍스트나 이미지 기반으로 비디오부터 3D 그래픽, 2D 애니메이션을 생성한다. 이를 시장에 확산시키고자 어도비는 서비스 내 생성형 AI 일부 기능을 무료로 제공하는 등 승부수를 걸었다. 확장 기능이나 상업적 사용을 위해서만 유로 플랜을 서비스에 적용한 상태로, 사용자 기반이 넓어지면 서비스 유료 전환을 순차적으로 유도하려는 전략도 세웠다. 최근에는 AI 에이전트가 접목된 새로운 애플리케이션(앱)인 '브랜드 컨시어지'를 선보여 주목을 받았다. 기존 고객 데이터를 바탕으로 맞춤화된 콘텐츠 등을 추천하는 작업을 수행하는 것으로, 어도비가 AI 에이전트 제품을 선보인 것은 이번이 처음이다. 이 같은 어도비의 노력에도 불구하고 시장 내 반응은 뜨뜻미지근하다. 사용자들은 비용을 지불할 정도로 어도비의 AI 기능들이 가치가 있는지 불확실하다는 평가를 내놓고 있다. 경쟁사들의 기술력이 빠른 속도로 발전하고 있어서다. 실제 오픈소스로 제공되는 미드저니나 오픈AI의 '소라'는 텍스트와 사진 몇장 만으로도 AI 기반 이미지 콘텐츠 제작이 가능하도록 지원하고 있다. 해당 서비스 제공자들은 영상과 오디오, 사진 편집 기능까지 추가할 계획이라고 밝힌 상태다. 런웨이AI, 메타, 아마존 등도 잇따라 동영상 생성 AI 도구를 선보이며 어도비를 위협하고 있다. 이 같은 상황에서 오픈AI가 지난 25일 '챗GPT-4o 이미지 생성(ChatGPT-4o Image Generation) 모델'을 출시해 발등에 불이 떨어졌다. 맥락과 그리는 대상에 대한 이해도가 한층 더 높아져 이전보다 더 정확한 결과를 내놓을 수 있게 돼서다. 새 모델은 오픈AI의 시그니처 멀티모달 AI 모델인 챗GPT-4o와 결합한 이미지 생성 모델로, 텍스트와 이미지를 통합한 첫 모델이다. '그림'만 학습한 기존 이미지 모델에 GPT-4o 언어 모델이 결합하며 목적에 맞는 이미지를 쉽게 생성할 수 있게 됐다. 이 모델은 현재 유료 구독자들은 물론 무료 사용자들도 이용할 수 있다. 오픈AI는 기존에 '달리(DALL·E)'를 앞세워 이미지 생성 AI 시장에서 존재감을 키워왔다. 이를 사용했을 땐 숫자와 문자가 '그림'으로 해석돼 그려져 삐뚤게 이미지에서 표현됐지만, 새 모델은 언어 모델을 이해한 후 그림을 만들어 내 보다 정확한 결과물을 얻어낼 수 있다. '삼각형 바퀴를 가진 자전거'를 그려달라고 하면 기존 모델은 훈련되지 않은 데이터여서 결과물을 내놓는데 어려움을 겪었지만, 새 모델은 가능해졌다. 동영상 생성 AI인 '소라'에도 새 모델의 언어 이해가 적용돼 더 자연스러운 영상을 만들 수 있게 됐다. 이는 서비스 경쟁력 개선에 나선 오픈AI의 노력의 일환이다. 오픈AI 관계자는 "GPT-4o의 언어 지식과 이미지 지능이 결합된 모델"이라며 "기존 모델이 참신했다면 이 모델은 유용하다"고 설명했다. 오픈AI 외에도 구글은 제미나이에서 '이마젠' 이미지 생성 모델을 제공하고 있다. 중국 딥시크도 '야누스'라는 이름의 이미지 생성 모델을 출시했다. 동영상 생성 AI 시장에선 미드저니와 런웨이AI, 메타, 아마존 등도 잇따라 서비스를 선보이며 어도비를 위협하고 있다. RBC 애널리스트 매튜 스완슨은 "어도비가 생성형 AI 제품 로드맵을 잘 따라가고 있지만, 명확한 수익화 지표가 부족한 상태"라며 "투자자들이 어도비 진행 상황을 신뢰하기 어려운 상황"이라고 평가했다. 도이치뱅크 브래드 젤닉 애널리스트 역시 "어도비 경영진은 파이어플라이의 가능성을 강조하고 있지만, 아직 재무적 영향은 확인되지 않았다"고 지적했다. 조던 클라인 미즈호 애널리스트는 "어도비 플랫폼에서 점유율을 차지할 새로운 AI 기반 비디오 제작 엔진이 (투자자들에게) 우려 사항으로 남아 있다"며 "어도비는 소프트웨어 분야에서 가장 논쟁이 많은 주식 중 하나"라고 평가했다.

2025.03.26 17:21장유미 기자

"구글 AI, 워터마크 삭제까지"…'제미나이 플래시 2.0'에 저작권 업계 긴장

구글이 자사 인공지능(AI) 이미지 생성·편집 기능을 대폭 강화했다. 멀티모달 처리와 향상된 추론 능력 덕분에 스토리텔링과 창작의 자유는 한층 넓어졌지만 저작권 침해와 콘텐츠 조작 가능성도 커져 우려를 낳고 있다. 17일 테크크런치에 따르면 구글은 최근 자사 '제미나이 플래시 2.0'의 네이티브 이미지 생성 기능을 공개하고 이를 두고 개발자들이 실험할 수 있도록 조치했다. 이번 업데이트는 구글이 실험용 AI들을 공개해 둔 웹사이트인 'AI 스튜디오'와 '제미나이' 애플리케이션 프로그램 인터페이스(API)를 통해 제공된다. 이번에 '플래시 2.0'에 추가된 이미지 생성 및 편집 기능은 텍스트와 이미지를 결합해 일관된 스토리를 생성하는 기능을 지원한다. 사용자가 원하는 스타일에 맞춰 스토리를 변경하거나 그림을 수정할 수도 있다. 대화형 이미지 편집 기능도 추가돼 자연어 명령만으로 이미지의 세부 요소를 조정할 수 있다. 이 모델은 단순한 이미지 생성 기능을 넘어 '세계에 대한 이해' 능력도 탑재했다. 텍스트 렌더링 성능도 개선돼 광고·초대장 제작 등에도 활용 가능할 것으로 보인다. 일례로 사용자는 자연어 프롬프트로 AI에 말을 그리라고 지시한 후 생성된 말의 모양과 외모는 유지하면서 색깔만 바꾸는 것이 가능해진다. 이외에도 캐릭터 일러스트를 삽입한 후 캐릭터가 입고 있는 옷을 바꾸거나 만화 컷에 나온 등장인물의 발언만을 다르게 바꾸는 것도 가능하다. 다만 이같은 AI의 강력한 이미지 편집 기능이 저작권 문제를 일으킬 가능성도 크다. 일부 사용자는 '플래시 2.0'을 이용해 이미지에 삽입된 워터마크를 제거하는 실험을 진행 중이다. 특히 게티이미지와 같은 스톡 이미지 기업의 콘텐츠 보호 장치가 AI에 의해 무력화될 가능성이 제기된다. 이전까지 오픈AI, 앤트로픽 등의 AI 모델들은 워터마크 제거 요청을 명확히 거부해왔다. 반대로 '플래시 2.0'은 별다른 제약 없이 워터마크를 삭제하고 그 자리를 자연스럽게 채우는 기능을 수행하는 것으로 알려졌다. 이러한 현상에 구글 측은 '플래시 2.0'이 아직 실험적 단계에 있으며 상업적 사용이 금지돼 있다고 밝혔다. 다만 AI의 기술적 한계를 실험할 목적으로 접근하는 사용자들이 많아 저작권 업계의 반발이 예상된다. 현재 미국 저작권법에 따르면 원 저작자의 동의 없이 워터마크를 삭제하는 행위는 불법이다. 일부 예외적인 경우를 제외하면 법적 조치가 가능하, 저작권 보호 기관들의 대응이 있을 것으로 보인다. 테크크런치는 "'플래시 2.0'은 유명인과 저작권이 있는 캐릭터의 이미지를 생성할 뿐만 아니라 기존 사진에서 워터마크를 제거하는 기능까지 수행하는 것으로 확인됐다."며 "일부 저작권 소유자들은 이 AI의 사용 제한이 느슨한 점에 대해 강하게 반발할 가능성이 크다"고 분석했다.

2025.03.17 14:53조이환 기자

사진 몇 장만으로도 3D 영상 만드는 AI 알고리즘 개발

건국대학교 김원준 교수(전기전자공학부) 연구팀이 적은 수의 이미지 입력만으로 특정 장면의 모든 시점 이미지를 생성할 수 있는 인공지능(AI) 알고리즘을 개발했다. 이번 연구 성과는 오는 6월 미국 내슈빌에서 열리는 '컴퓨터 비전 및 패턴 인식 학술대회(IEEE/CVF CVPR·Conference on Computer Vision and Pattern Recognition)'에서 발표될 예정이다. CVPR은 컴퓨터 비전·AI 분야에서 권위 있는 학술대회 중 하나다. 연구팀은 3차원 장면을 표현하는 핵심 기술인 'Gaussian Splatting' 기법을 보다 적은 입력 데이터만으로도 정밀하게 수행할 수 있도록 'Dropping 기반 학습 전략'을 새롭게 제안했다. 연구팀 관계자는 “이 방법은 특정 신경망 구조에 종속되지 않으면서 추가 메모리 사용 없이 적용할 수 있어 범용성이 높다”며 “기존 기술보다 적은 수의 입력 이미지만으로도 높은 정밀도의 3차원 장면 렌더링이 가능해졌다”고 설명했다. 이번 연구는 3차원 장면 이해 및 콘텐츠 생성, 이머시브(Immersive) 서비스 등 다양한 분야에서 핵심적으로 활용될 전망이다. 논문 제1저자는 박현우 석사과정 학생이며, 김원준 교수가 교신저자로 참여했다.

2025.03.13 12:42주문정 기자

SK하이닉스, CIS 사업서 철수…"AI 메모리에 역량 집중"

SK하이닉스가 회사의 비주력인 CMOS 이미지센서(CIS) 사업에서 손을 뗀다. 관련 시장의 수요 감소, 중국 후발주자들의 진입 등으로 사업성이 미미하다는 분석이 작용한 것으로 관측된다. SK하이닉스는 6일 CIS 사업부문 구성원 소통 행사에서 "글로벌 AI 중심 기업으로서의 입지를 굳건히 하기 위해 동 사업부문이 지닌 역량을 AI 메모리 분야로 전환한다"고 밝혔다. SK하이닉스는 이날 "CIS 사업부문은 2007년 출범한 이후 여러 어려움을 극복하고 모바일 시장에 진입해 소기의 성과를 달성했다"며 "여기서 우리는 메모리만으로는 경험할 수 없는 로직 반도체 기술과 커스텀(Custom) 비즈니스 역량을 얻게 됐다"고 말했다. 이어 "최근 AI 시대가 도래하며 회사는 AI 메모리 분야에서 큰 성과를 거뒀고, 현재는 AI 산업의 핵심 기업으로 거듭나기 위한 대전환기를 맞이했다"고 강조하며 "CIS 사업부문이 보유한 기술과 경험은 회사의 AI 메모리 경쟁력을 강화하는데 꼭 필요한 만큼 전사의 역량을 한데 모으기 위해 이번 결정을 했다"고 설명했다. 앞서 SK하이닉스는 2008년 CIS 개발업체 실리콘화일을 인수하면서 이미지센서 시장에 진출한 바 있다. 2019년에는 일본에 CIS 연구개발(R&D) 센터를 개소하고, 같은해 이미지센서 브랜드 '블랙펄'을 출시했다. 이후 삼성전자의 폴더블폰 시리즈인 '갤럭시Z3'와 중국 스마트폰에 CIS를 납품하는 등 성과를 거뒀으나, 사업을 크게 확장시키지는 못했다. 스마트폰 시장의 수요 감소, 중국 후발주자들의 추격 등이 작용한 것으로 풀이된다. SK하이닉스는 "이번 결정이 회사의 AI 메모리 경쟁력을 한단계 성장시키며 '풀 스택 AI 메모리 프로바이더(Full Stack AI Memory Provider)'로서 회사의 위상을 공고히 하는데 기여할 것으로 기대한다"며 "또한 이를 통해 주주 가치도 극대화하고자 한다"고 밝혔다. 임직원들의 전환 과정에서 대해서는 "기존 CIS 소속 구성원들이 새로운 조직으로 이동하는 데 있어 각 개인의 전문 역량을 충분히 발휘할 수 있도록, '원팀 마인드' 차원에서 지원을 아끼지 않을 방침"이라고 설명했다.

2025.03.06 15:06장경윤 기자

한국딥러닝 "문맥까지 이해하는 OCR 시대 왔다…업무 자동화 핵심 될 것"

"광학문자인식(OCR) 성장 잠재력은 무궁무진합니다. 문서 디지털화로 OCR 역할이 늘어날 것이기 때문입니다. 이럴수록 정확하면서도 안전한 OCR 서비스가 필요합니다. 한국딥러닝은 자체 모델 '딥 이미지'를 통해 이런 OCR 서비스를 맞춤형으로 공급하고 있습니다. OCR을 단순히 문서 인식하는 기술이 아닌 업무 자동화 핵심으로 만들 것입니다." 김지현 한국딥러닝 대표는 지디넷코리아 인터뷰에서 자사 OCR 서비스 특장점을 소개하며 이같이 밝혔다. 김지현 대표는 2019년 한국딥러닝을 설립했다. 22세 대학생이던 때다. 학창 시절부터 개발자 부모 영향으로 자연스럽게 코딩을 접했다. 스타트업에서 대학생 인턴으로 근무하며 창업을 결심했다. 그는 "당시 딥러닝 기술이 확산하던 때"였다며 "AI 기술이 다양한 산업에 스며들 것으로 판단해 회사를 설립했다"고 밝혔다. 김 대표는 창업 전부터 텍스트와 이미지, 영상, 음성 데이터를 수집했다. 이를 통해 자체 거대비전언어모델(LVLM) 딥 이미지를 내놨다. 딥 이미지는 텍스트와 이미지를 동시에 처리·생성할 수 있다. 텍스트·이미지 데이터가 상호작용하며 분석을 수행한다는 점에서 멀티모달 모델과 다르다. 이 모델은 현재 1억 장 넘는 이미지를 학습했다. 이를 기반으로 광학문자인식(OCR)을 비롯한 객체 검출, 영상 이해, 이미지 생성, 3D 모델 생성 등 다양한 비전 AI 솔루션을 제공한다. 한국딥러닝은 모델 개발과 운영을 위해 자체 그래픽처리장치(GPU) 서버와 분산처리시스템을 온프레미스 형태로 갖췄다. 김 대표는 "모델 초기 투자비와 유지비 부담이 컸다"며 "고효율 분산 학습 알고리즘을 통해 비용을 줄였다"고 설명했다. 이어 "서버는 스케일아웃 방식으로 확장 가능하도록 설계했다"며 "비용 문제는 고객사와 기술협력·장기계약을 통해 해결했다"고 덧붙였다. "기업 맞춤형으로 제공…정확도·보안·유연성 높아" 김지현 대표는 자사 OCR 특장점으로 높은 정확도, 유연성, 보안성을 꼽았다. 한국딥러닝은 각 태스크와 프로젝트 특성을 반영한 맞춤형 OCR을 제공한다. 단순히 글자를 인식하는 데 그치지 않고, 문서 맥락과 레이아웃을 고려해 필요한 정보를 정확히 추출하는 것이 강점이다. 김 대표는 "문서 폼이 다양하면 OCR 인식 정확도가 떨어진다"며 "이는 OCR 기술이 주로 정형화된 폼에만 최적화됐기 때문"이라고 설명했다. 그는 "딥이미지의 OCR은 다양한 폼의 문서 수십만 건을 분석하고 필요한 데이터를 일관성 있게 정리할 수 있다"고 말했다. 김 대표는 자사 OCR이 높은 보안성을 갖췄다고 강조했다. 현재 온프레미스 형태로 OCR 서비스를 제공하고 있어서다. 이에 문서 데이터가 외부로 나가지 않고 기업 내부에서 처리된다. 반면 타사 OCR 서비스는 인터넷 기반의 클라우드 환경에서 작동한다. 사용자가 문서 파일을 외부 서비스에 올려야 한다는 의미다. 이 과정에서 민감 정보가 외부로 전송될 수 있다. 한국딥러닝은 온프레미스 외에도 프라이빗 클라우드와 가상 프라이빗 클라우드(VPC)상에서 서비스를 지원한다. 김 대표는 OCR 서비스가 키-밸류 추출과 맞춤형 폼 변환 기능을 통해 높은 유연성을 갖췄다고 설명했다. 키-밸류 추출은 문서에서 중요한 정보(키)와 그에 해당하는 값(밸류)을 자동으로 찾아내는 기능이다. 예를 들어 신청서에서 이름과 생년월일, 전화번호가 키다. 여기에 입력된 내용이 밸류다. 김지현 대표는 "보통 OCR은 문서 속 텍스트만 인식한다"며 "필요한 정보를 찾기 위해 추가 작업이 필요하다"고 말했다. 이어 "자사 OCR은 문서 구조를 분석해 필요한 정보만 정확히 추출한다"며 "고객은 원하는 데이터를 빠르게 찾을 수 있다"고 강조했다. "OCR 잠재력 무한대"…이미지 분석으로 해외 공략 김지현 대표는 OCR 사업 확장 가능성이 더 커질 것이라고 내다봤다. 그는 "앞으로 문서는 디지털 데이터로 변환될 것"이라며 "OCR이 이 부분에서 큰 역할을 할 것"이라고 예측했다. 또 "거대언어모델(LLM) 기술이 발전하면서 OCR과 챗봇, 에이전트 연계 활용도 가능해질 것"이라며 "이에 따른 OCR 사업 확장 가능성도 높다"고 덧붙였다. 김 대표는 솔루션을 해외 시장에 적극 공급할 예정이다. 현재 인도네시아 건설사에 도로와 터널 균열을 감지하는 이미지 분석 솔루션을 제공하고 있다. 그는 "언어 장벽이 있는 OCR 대신 이미지 디텍션, 세그멘테이션, 분류 서비스로 해외 시장을 노릴 것"이라고 말했다. 한국딥러닝은 올해 OCR 기반 데이터 수집·정제 작업에 집중할 계획이다. 김 대표는 "OCR로 변환한 문서를 디지털화한 후 챗봇이나 전사적자원관리(ERP) 시스템에 적용할 수 있도록 가공하는 것이 목표"라며 "OCR을 단순히 문서를 인식하는 기술이 아닌 업무 자동화 핵심 요소로 만들 것"이라고 강조했다.

2025.02.07 15:07김미정 기자

"AI로 부진한 실적 회복"…게티이미지, 셔터스톡 인수

인공지능(AI)과 스마트폰 등장으로 이미지 콘텐츠 제공사 영향력이 약화했다는 지적이 나오는 가운데 게티이미지가 셔터스톡을 인수해 성장 동력 확보에 나섰다. 8일 CNBC 등 외신에 따르면 게티이미지가 경쟁사인 셔터스톡를 인수한다고 발표했다. 합병회사 규모는 부채를 포함해 37억 달러(약 5조3천900억원)다. 게티이미지는 이번 거래에서 셔터스톡에 현금 3억3천100만 달러(약 4천800억원)와 주식 3억1천940만주를 지급하는 데 합의했다고 밝혔다. 게티이미지는 셔터스톡 주주에게 1주당 약 28.88달러를 배당한다. 주주들은 이를 전액 현금으로 받거나 현금과 게티 주식을 혼합해 수령할 수 있다. 게티이미지 주주는 거래 후 합병 회사 약 54.7%를 보유한다. 나머지는 셔터스톡 주주 몫이다. 합병 회사의 최고경영자(CEO)는 크레이그 피터스 게티이미지 CEO가 맡는다. 다수 외신은 두 기업이 합병을 통해 콘텐츠 제작 서비스를 확대하고 비용을 절감해 수익성을 높일 것으로 봤다. 최근 AI가 콘텐츠 생성 시장을 장악하고 휴대전화 카메라 사용 증가가 스톡 사진 가치를 떨어뜨렸다는 이유에서다. 전날 종가 기준 게티이미지 주가는 2022년 7월 상장 이후 약 73% 떨어졌다. 같은 기간 셔터스톡 주가는 약 50% 하락했다. CNBC는 "이번 합병 건이 도널드 트럼프 미국 대통령 당선인의 첫 심사 대상이 될 것"이라며 "새 정부가 기업 인수합병에 어떤 입장을 보일지 확인할 수 있는 사례"라고 평했다.

2025.01.08 11:11김미정 기자

Prev 1 2 3 Next

ZDNet 검색 페이지

'이미지 AI'통합검색 결과 입니다. (54건)

"글로벌 수준"...카카오, 멀티모달 언어모델 'Kanana-o' 성능 공개

플리토, AI로 이미지 속 문자 번역…콘텐츠 품질 강화

포바이포-미리디, 콘텐츠 제휴 업무협약 체결

캐럿, LG유플러스에 기업용 AI 영상 제작 서비스 '캐럿 Biz' 공급

미리캔버스, AI 디자인 툴 '미리클' 글로벌 동시 출시

"트래픽 폭주에 발목"…오픈AI, 신규 유저에 '소라' 영상 생성 제한

[써보고서] 그림도 글도 한 번에…'챗GPT 이미지 생성기' 미래 바꾼다

오픈AI 샘 알트먼 "이미지 생성 모델 인기에 서버 과부하"

[유미's 픽] 오픈AI 新 무기 출격에 한숨 쉬는 美 기업, 주가 또 흔들릴까

"구글 AI, 워터마크 삭제까지"…'제미나이 플래시 2.0'에 저작권 업계 긴장

사진 몇 장만으로도 3D 영상 만드는 AI 알고리즘 개발

SK하이닉스, CIS 사업서 철수…"AI 메모리에 역량 집중"

한국딥러닝 "문맥까지 이해하는 OCR 시대 왔다…업무 자동화 핵심 될 것"

"AI로 부진한 실적 회복"…게티이미지, 셔터스톡 인수

지금 뜨는 기사

이시각 헤드라인

"웨어러블 로봇이 피지컬 AI의 가장 현실적인 핵심 축"

'레이밴 메타' AI 글래스 쓰고 홍콩·마카오 여행 가보니

블록체인 웹3 '차세대 게임 생태계' 어떤 모습일까

SK하이닉스, 25년만에 삼성전자 시총 첫 추월...우선주 제외시

ZDNet Power Center