• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
  • AI의 눈
MWC26
스테이블코인
AI의 눈
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'이미지 생성 모델'통합검색 결과 입니다. (5건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

바이트플러스 "AI, 이제 '사람' 아닌 'AI'가 통제"

바이트플러스가 이제는 사람이 인공지능(AI)을 컨트롤하는 시대가 아닌 'AI가 AI를 컨트롤 하는 시대'가 될 것이란 전망을 내놨다. 이미나 바이트플러스 솔루션즈 아키텍트는 11일 서울 중구 신라호텔에서 열린 'ACC 2025'에서 "이것이 바이트플러스가 제안하는 자동화의 미래"라며 "자사 생성형 AI 솔루션은 단순히 콘텐츠를 만드는 것이 아니라 스스로 검증하고 분석하고 지휘한다"고 강조했다.'ACC 2025'는 지디넷코리아가 주관, 주최하고 과학기술정보통신부, 바이트플러스, 네이버 등이 후원하는 행사다. 먼저 이 솔루션즈 아키텍트는 생성형 AI를 활용한 콘텐츠 제작이 여전히 어려운 이유로 프롬프트 작성의 어려움, 수동 반복 생성, 파편화된 워크 플로우, 일관성의 부재, 부족한 제어 가능성, 수동 후반 작업을 꼽았다. 그는 이같은 문제를 해결하기 위한 방법으로 자사 크리에이티브 에이전트를 제시했다. 바이트플러스의 크리에이티브 에이전트는 AI 에이전트가 초거대 언어모델(LLM) 뿐만 아니라 이미지 생성 모델, 영상 생성 모델, 디지털 휴먼, 3D 모델에 이르기까지 수많은 생성형 AI 솔루션을 통합 지휘하는 것이 특징이다. 이 솔루션즈 아키텍트는 "크리에이티브 에이전트는 생성형 AI 솔루션 뿐만 아니라 기타 솔루션까지 모두 통합 지휘해 고품질 콘텐츠를 순식간에 만들어 주는 멀티모달 자동화 파이프라인"이라고 설명했다. 크리에이티브 에이전트를 구현하는 데는 바이트플러스의 이미지 생성 모델 '씨드림(seedream)' 4.5, 영상 생성 모델 '씨댄스(seedance)' 1.0, 디지털 휴먼 모델 '옴니휴먼(omnihuman) 1.0'이 필요하다. 그는 바이트플러스의 크리에이티브 에이전트의 장점으로 낮은 비용과 빠른 제작속도, 일관성 등을 들었다. 이 솔루션즈 아키텍트는 "비용은 극적으로 낮아지고 또 제작 속도는 혁신적으로 올라간다"며 "이 모든 콘텐츠는 압도적인 일관성을 가지게 되고 누구나 고품질 콘텐츠를 만들 수 있어 (콘텐츠) 제작 장벽 자체가 사라진다"고 말했다. 또 이 솔루션즈 아키텍트는 "더 이상 사람이 AI 컨트롤 하는 시대가 아니다"며 "AI가 AI를 컨트롤함으로써 복잡한 작업 과정을 완벽하게 자동화시킨다"고 마무리했다.

2025.12.11 14:48박서린 기자

머스크 xAI, '월드 모델' 개발 착수…AI가 직접 게임 만든다

일론 머스크가 이끄는 xAI가 물리적 공간을 인지하고 설계할 수 있는 차세대 인공지능(AI) '월드 모델' 개발에 나선다. 13일 파이낸셜타임스(FT)에 따르면 xAI는 텍스트 기반 언어모델을 넘어 영상·로봇 데이터를 학습한 AI 기술을 활용해 직접 만든 게임을 내년 공개할 계획이다. 월드 모델은 메타와 구글 등 주요 빅테크가 집중하는 차세대 AI 기술로, 물리적 공간을 이해하고 시뮬레이션하는 능력을 구현하는 것이 목표다. 앞서 xAI는 엔비디아 출신 전문가들을 다수 영입해 영상과 로봇 데이터를 기반으로 실제 환경을 학습하는 AI 모델 개발을 진행 중이다. 특히 이 기술을 활용해 상호작용 가능한 3D 게임 환경을 자동 생성하는 등 게임 산업 적용을 목표로 하고 있으며 향후 로봇 제어 시스템에도 응용할 계획이다. 일론 머스크 xAI 대표는 자사 SNS 플랫폼 X를 통해 "내년 말까지 AI가 직접 생성한 게임을 선보일 것"이라고 밝혔으며 최근 대규모 업그레이드를 거친 이미지·영상 생성 모델을 무료로 공개하기도 했다. 현재 오픈AI의 '소라'와 같은 영상 생성 AI는 학습 데이터를 기반으로 연속된 이미지 프레임을 예측하는 수준이다. 이에 반해 월드 모델은 물리 법칙과 사물 간 상호작용을 실시간으로 이해해 훨씬 높은 수준의 현실 시뮬레이션을 가능케 하는 것으로 알려졌다. xAI는 이미지·비디오 생성 엔지니어를 포함해 다양한 멀티모달 콘텐츠 제작 인력을 모집 중이다. 특히 자사 AI 챗봇 '그록'에게 게임 제작을 학습시키는 업무 담당자도 채용하고 있다. xAI를 비롯한 구글·메타 등이 월드 모델 개발에 집중하는 가운데, 업계에서는 실제 세계를 묘사할 데이터 확보와 막대한 비용 문제 해결을 주요 과제로 꼽고 있다. 라리안 스튜디오의 마이클 다우스 퍼블리싱 총괄은 "AI가 게임 산업의 가장 큰 문제인 리더십과 비전을 해결해 주진 못한다"며 "수학적으로 계산된 게임 루프보다 사람들이 진심으로 몰입하고 싶어 하는 세계를 표현하는 것이 더 중요하다"고 말했다.

2025.10.13 14:43한정호 기자

xAI, '월드 모델' AI 개발…엔비디아 출신 전문가 영입

인공지능(AI) 스타트업 xAI가 소위 '월드 모델'이라고 불리는 차세대 AI 시스템 개발 경쟁에 본격적으로 뛰어들었다. 이 기술은 경쟁사인 메타와 구글도 주력하고 분야로, AI가 물리적 환경을 탐색하고 설계할 수 있도록 하는 것을 목표로 하고 있다. 12일(현지시간) 파이낸셜타임스 등 외신에 따르면 xAI는 미국 반도체 기업 엔비디아 출신 전문가를 고용해 로봇과 영상 데이터로부터 현실 세계를 학습하는 차세대 AI 모델을 개발하기 시작했다. 엔비디아는 자사 옴니버스 플랫폼을 통해 시뮬레이션을 구축하고 실행하는 월드 모델 분야의 선도 기업이다. xAI가 개발에 착수한 월드 모델은 텍스트 기반의 대규모 언어모델(LLM)을 넘어서는 기술로 평가된다. 현재 오픈AI 챗GPT와 xAI 챗봇 그록과 같은 생성형 AI는 텍스트 데이터로만 훈련되지만, 월드 모델은 물리 법칙과 실제 환경 속 사물 간의 상호작용을 이해할 수 있는 AI를 개발하려는 시도로 해석된다. 사안에 정통한 관계자에 따르면 xAI는 월드 모델을 게임 분야에 우선 적용하는 것을 계획하고 있다. 이 기술은 AI가 직접 상호작용 가능한 3D 환경을 생성하는 데 사용될 수 있으며 이후에는 로봇용 AI 시스템에도 적용될 수 있다. 머스크 최고경영자(CEO)는 엑스(X)에서 “내년 말까지 AI가 만든 훌륭한 게임을 출시할 것”이라고 밝혔다. 월드 모델은 실시간으로 물리 법칙과 사물 간 인과 관계를 이해해 현실 세계 동작을 더욱 정확하게 시뮬레이션할 수 있다. xAI는 이미지 및 비디오 생성 기술 인력을 모집 중이며 이들이 합류할 '옴니 팀'은 텍스트를 넘어 이미지·영상·음성 등 다양한 형태의 콘텐츠를 이해하고 생성하는 팀이다. 구인하는 인력의 연봉은 18만~44만 달러(약 2억5천677만~6억2천766만원)에 달한다. 또 xAI는 '비디오 게임 튜터' 직책도 공개했는데, 이 역할은 그록이 AI 기반 게임을 제작하고 사용자가 AI와 함께 게임 디자인을 실험할 수 있도록 훈련시키는 것이다. 시급은 45~100달러 (6만4천200~14만2천650원) 수준이다.

2025.10.13 10:17박서린 기자

KAIST-네이버AI랩, 창의성 강화한 AI 기술 개발..."뻔한 건 안그려"

KAIST(총장 이광형)는 김재철AI대학원 최재식 교수 연구팀이 네이버 AI 랩과 공동으로 추가 학습 없이 인공지능(AI) 생성 모델의 창의적 생성을 강화하는 기술을 개발했다고 19일 밝혔다. 이 기술은 '뻔한' 이미지는 절대 그리지 않는다. 텍스트 기반 이미지 생성 모델의 내부 특징 맵을 증폭해 창의적 생성을 강화하는 식이다. 연구팀은 모델 내부의 얕은 블록들이 창의적 생성에 중요한 역할을 한다는 것을 발견하고, 특징 맵을 주파수 영역으로 변환 후 높은 주파수 영역에 해당하는 부분의 값을 증폭했다. 이 결과 연구팀은 노이즈나 작게 조각난 색깔 패턴의 형태가 유발되는 것을 확인했다. 권다희 연구생(박사과정, 공동제1저자)은 "얕은 블록의 낮은 주파수 영역을 증폭했더니 창의적 생성이 강화됐다"고 설명했다. 연구팀은 또 생성 모델 내부 각 블록 별로 최적의 증폭 값을 자동으로 선택하는 알고리즘도 개발했다. 이 알고리즘은 사전 학습된 스테이블 디퓨전 모델의 내부 특징 맵을 적절히 증폭해 추가적인 분류 데이터나 학습 없이 창의적 생성을 강화한다. 한지연 연구생(박사과정, 공동제1저자)은 "SDXL-터보 모델에서 발생하는 모드 붕괴 문제를 완화, 이미지 다양성이 증가한 것을 확인했다"고 말했다. 최재식 교수(교신저자)는 "생성 모델을 새로 학습하거나 미세조정 학습하지 않고 생성 모델의 창의적인 생성을 강화하는 최초의 방법론ˮ이라며 "학습된 인공지능 생성 모델 내부에 잠재된 창의성을 특징 맵 조작을 통해 강화할 수 있게 됐다"고 덧붙였다. 최 교수는 또 “이번 연구는 기존 학습된 모델에서도 텍스트만으로 창의적 이미지를 손쉽게 생성할 수 있게 됐으며, 이를 통해 창의적인 상품 디자인 등 다양한 분야에서 새로운 영감을 제공하고, 인공지능 모델이 창의적 생태계에서 실질적으로 유용하게 활용될 수 있도록 기여할 것"으로 기대했다. 연구결과는 국제 학술지 `국제 컴퓨터 비전 및 패턴인식 학술대회(CVPR)'에서 지난 15일 발표됐다. 연구는 KAIST-네이버 초창의적 AI 연구센터, 과학기술정보통신부의 재원으로 수행됐다.

2025.06.19 11:37박희범 기자

"글로벌 수준"...카카오, 멀티모달 언어모델 'Kanana-o' 성능 공개

카카오가 새로운 인공지능 모델을 통해 기술 경쟁력 강화를 이어간다. 카카오(대표 정신아)는 공식 테크블로그를 통해 통합 멀티모달 언어모델 'Kanana-o'와 오디오 언어모델 'Kanana-a'의 성능과 개발 후기를 1일 공개했다. 통합 멀티모달 언어모델인 Kanana-o는 텍스트와 음성, 이미지까지 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 모델이다. 텍스트, 음성, 이미지 중 어떠한 조합으로 질문을 입력하더라도 처리 가능하며, 상황에 맞는 텍스트나 자연스러운 음성으로 응답 가능한 구조로 설계됐다. 카카오는 '모델 병합' 기술을 기반으로 이미지 처리에 특화된 모델 'Kanana-v'와 오디오 이해 및 생성에 특화된 'Kanana-a' 모델을 통합, 단기간 내 효율적으로 Kanana-o를 개발했다. 통합 후에는 이미지, 오디오, 텍스트 데이터를 동시에 학습하는 '병합 학습'을 통해 시각과 청각 정보를 동시에 이해하고, 텍스트와 연결 지을 수 있도록 통합 훈련을 거쳤다. 이런 과정을 통해 기존 LLM 구조에서 이미지 이해 능력과 음성 인식과 합성, 감정 이해 등 고도화된 오디오 능력을 확장시킨 통합 멀티모달 언어모델이 구현됐다. Kanana-o는 음성 감정 인식 기술을 통해 사용자의 의도를 올바르게 해석하고, 상황에 맞는 적절한 반응과 답변을 제공해준다. 억양, 말투, 목소리 떨림 등 비언어적 신호를 분석하고, 대화 맥락에 맞는 감정적이고 자연스러운 음성의 응답을 생성하는 것이 특징이다. 대규모 한국어 데이터셋을 활용해 한국어의 특수한 발화 구조, 억양, 어미 변화 등을 정밀하게 반영하기도 했다. 특히 제주도, 경상도 등 지역 방언을 인식하고 이를 표준어로 변환해 자연스러운 음성을 생성할 수 있다. 지속적인 성능의 고도화를 위해 카카오는 현재 독자적인 한국어 음성 토크나이저(오디오 신호를 일정 단위로 작게 분해하는 도구) 개발을 진행 중이다. 스트리밍 방식의 음성합성 기술을 적용해 사용자가 긴 대기 시간 없이 응답을 제공하는 강점도 보유했다. 예를 들어, 이미지와 함께 "이 그림에 어울리는 동화를 만들어 줘"라고 입력하면, Kanana-o는 해당 음성을 이해하고 사용자의 억양과 감정 등을 분석해 자연스럽고 창의적인 이야기를 실시간으로 생성해 들려준다. Kanana-o는 한국어 및 영어 벤치마크에서 글로벌 최고 모델들과 유사 수준을 기록했으며, 한국어 벤치마크에서는 높은 우위를 보였다. 특히, 감정인식 능력에서는 한국어와 영어 모두에서 큰 격차를 기록하며, 감정까지 이해하고 소통할 수 있는 AI 모델의 가능성을 입증했다. 이미지와 음성을 통합적으로 이해해야 하는 '이미지-음성 QA(질의응답)' 태스크에서도 강력한 성능을 달성하며, 통합 멀티모달 언어모델로서의 글로벌 경쟁력을 확인했다. 카카오는 향후 Kanana-o를 통해 ▲다중 턴 대화 처리 ▲양방향 데이터 동시 송수신 기술 대응 능력 강화 ▲부적절한 응답 방지를 위한 안전성 확보 등을 목표로 연구 개발을 지속해 갈 계획이다. 이를 통해 다중 음성 대화 환경에서의 사용자 경험을 혁신하고, 실제 대화에 가까운 자연스러운 상호작용을 실현해가는 것이 목표다. 카카오 김병학 카나나 성과리더는 "카나나 모델은 복합적인 형태의 정보를 통합적으로 처리함으로써 기존의 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI로 진화하고 있다"며 "독자적인 멀티모달 기술을 바탕으로 자사의 인공지능 기술 경쟁력을 강화하는 한편, 지속적 연구 결과 공유를 통해 국내 AI 생태계 발전에 꾸준히 기여할 계획"이라고 말했다.

2025.05.01 10:13백봉삼 기자

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

코스피 9% 반등…개인돈 1조8천억원 몰렸다

LG전자, 토요타에 미국 표준특허 16건 양도

'안전쇼' 논쟁…오픈AI와 앤트로픽은 왜 다른 길을 가나

삼성디스플레이, BOE서 특허 로열티 받았다...5000억원 웃돈 듯

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.