검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'젬마'통합검색 결과 입니다. (10건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

엔비디아, 구글 '디퓨전젬마' 지원…"로컬 AI 추론 속도 높여"

엔비디아가 구글딥마인드 디퓨전 언어 모델을 그래픽처리장치(GPU)와 개인용 인공지능(AI) 시스템에 최적화했다. 엔비디아는 구글딥마인드 '디퓨전젬마'를 지포스 RTX GPU와 RTX 프로 플랫폼, DGX 스파크 시스템 전반에서 더 빠르게 실행할 수 있도록 최적화했다고 12일 밝혔다. 디퓨전젬마는 텍스트를 한 단어씩 순차 생성하는 기존 자기회귀 방식과 달리 여러 단어를 병렬로 생성한다. 각 단계에서 최대 256개 토큰을 디노이징해 텍스트 블록 전체를 출력하는 구조다. 이 방식은 대화형 채팅과 에이전틱 루프, 온디바이스 어시스턴트처럼 응답 속도가 중요한 단일 사용자 작업에 적합하다. 개발자와 연구자, AI 사용자는 로컬 기기에서 기존보다 빠른 텍스트 생성을 활용할 수 있다. 디퓨전젬마는 젬마 4 기반으로 구축됐다. 젬마 4는 260억 개 파라미터를 갖춘 전문가 혼합 모델이며, 단계마다 38억 개 파라미터를 활성화한다. 엔비디아는 디퓨전젬마가 동급 자기회귀 모델보다 최대 4배 빠른 성능을 제공한다고 설명했다. 단일 엔비디아 H100 텐서 코어 GPU에서는 초당 1천 개 토큰, DGX 스파크에서는 초당 150개 토큰, DGX 스테이션에서는 최대 초당 2천 개 토큰 성능을 낸다. 구글딥마인드는 디퓨전젬마를 연구·실험 목적용이라고 당부했다. 속도와 병렬 생성에 초점을 맞춘 만큼 전체 출력 품질은 기존 자기회귀 기반 젬마4 모델보다 낮다고 밝혔다. 디퓨전젬마는 아파치 2.0 라이선스 기반 오픈 웨이트 모델로 제공된다. RTX와 DGX 스파크에서 완전히 실행될 수 있으며 클라우드나 토큰당 비용 없이 허깅페이스 트랜스포머, vLLM, 언슬로스에서 기본 지원된다. 엔비디아는 DGX 스파크와 RTX 프로 6000 워크스테이션, DGX 스테이션에서 디퓨전젬마 실행을 지원한다. 지포스 RTX 그래픽처리장치에서는 향후 라마.cpp 지원도 추가될 예정이다. 개발자는 허깅페이스 트랜스포머를 통해 지포스 RTX 5090이나 DGX 스파크에서 디퓨전젬마를 테스트할 수 있다. 더 높은 처리량이 필요한 경우 vLLM을 활용할 수 있으며 언슬로스와 엔비디아 네모 프레임워크를 통해 파인튜닝도 가능하다.

2026.06.12 11:13김미정 기자

"텍스트 생성 더 빠르게"…구글, '디퓨전젬마' 공개

구글이 기존보다 4배 빠른 텍스트 생성 속도를 갖춘 '젬마' 버전을 내놨다. 구글딥마인드는 10일(현지시간) 텍스트 디퓨전 방식을 적용한 오픈소스 실험 모델 '디퓨전젬마(DiffusionGemma)'를 출시했다고 공식 블로그에 밝혔다. 이 모델은 '아파치 2.0 라이선스'로 배포되며 전체 260억개 파라미터 규모전문가혼합(MoE) 구조를 기반으로 이뤄졌다. 디퓨전젬마의 핵심은 기존 거대언어모델(LLM)처럼 토큰을 한 개씩 순차 생성하지 않는다는 점이다. 256개 토큰 블록을 한 번에 생성한 뒤, 여러 차례 수정과 보완을 거쳐 최종 결과를 만드는 텍스트 디퓨전 방식으로 작동한다. 이를 통해 그래픽처리장치(GPU)에서 최대 4배 빠른 텍스트 생성 속도를 구현했다. 구글딥마인드는 "이 모델은 단일 엔비디아 'H100'에서는 초당 1000개 이상 토큰을 생성한다"며 "엔비디아 '지포스 RTX 5090'에서는 초당 700개 이상 토큰을 처리할 수 있다"고 밝혔다. 해당 모델은 전체 260억개 파라미터를 갖고 있지만 실제 추론 과정에서는 38억개 파라미터만 활성화한다. 양자화 기준으로 18기가바이트(GB) 비디오램(VRAM) 환경에서도 구동할 수 있어 고급 소비자용 GPU에서도 활용 가능한 셈이다. 또 모든 토큰이 서로를 참조하는 양방향 어텐션 구조를 적용했다. 인라인 편집과 코드 인필링, 아미노산 서열 생성, 수학 그래프 생성 등 비선형 작업에 강한 것으로 알려졌다. 디퓨전젬마는 생성 과정에서 전체 텍스트를 한 번에 검토하며 오류를 수정하는 자기 정제 기능도 갖췄다. 복잡한 마크다운 형식을 정확하게 마무리하거나 코드 생성과 렌더링을 거의 실시간으로 수행할 수 있는 셈이다. 구글딥마인드는 디퓨전젬마를 연구·실험 목적용이라고 당부했다. 속도와 병렬 생성에 초점을 맞춘 만큼 전체 출력 품질은 기존 자기회귀 기반 젬마4 모델보다 낮다고 설명했다. 또 디퓨전젬마 성능 이점으로 로컬 또는 낮은 동시성 환경에서 가장 크게 나타난다고 밝혔다. 대규모 클라우드 서비스 환경에서는 자기회귀 모델도 높은 연산 활용률을 확보할 수 있어 속도 우위가 줄어들 수 있다고 덧붙였다. 구글딥마인드는 "이번 모델은 속도가 중요한 인터랙티브 로컬 워크플로를 탐색하는 연구자와 개발자를 위해 설계됐다"고 밝혔다.

2026.06.11 09:35김미정 기자

구글, '젬마 4 12B' 출시…"음성·이미지 처리 간소화"

구글이 이미지·음성 같은 멀티모달 작업을 노트북에서 처리할 수 있는 경량 인공지능(AI) 모델을 내놨다. 구글은 3일(현지시간) 최신 모델 '젬마 4 12B'를 공식 홈페이지를 통해 공개했다. 이 모델은 엣지 친화형 모델과 고성능 전문가 혼합 모델 사이 간극을 메우기 위해 설계됐다. 젬마 4 12B는 표준 벤치마크에서 전문가 혼합 모델에 가까운 성능을 낸 것으로 나타났다. 메모리 사용량을 절반 이하로 줄여 16GB급 그래픽메모리(VRAM)나 통합 메모리를 갖춘 일반 노트북에서도 기기 안에서 실행할 수 있도록 했다. 해당 모델은 다단계 추론과 에이전틱 워크플로도 지원한다. 구글은 이를 통해 사용자가 자신의 기기에서 강력한 멀티모달과 에이전틱 경험을 구현할 수 있다고 강조했다. 구글은 젬마 4 12B가 기존 멀티모달 AI의 복잡한 처리 과정을 줄였다고 설명했다. 기존 모델은 이미지나 음성을 먼저 별도 인코더로 해석한 뒤 언어 모델에 넘겼지만, 젬마 4 12B는 이 중간 단계를 생략한 구조로 이뤄져서다. 이미지 처리 방식도 단순화했다. 기존처럼 무거운 비전 인코더가 이미지를 따로 분석하는 대신 가벼운 변환 장치만 거쳐 언어 모델 본체가 시각 정보를 직접 처리하도록 했다. 음성 처리 방식은 더 간단하다. 구글은 별도 오디오 인코더를 없애고, 음성 신호를 언어 모델이 다룰 수 있는 형태로 바로 바꿔 입력하도록 설계했다고 설명했다. 젬마 4 12B는 아파치 2.0 라이선스로 공개됐다. 개발자 생태계 전반의 지원을 받을 수 있도록 했으며 지연 시간을 줄이기 위한 멀티토큰 예측 드래프터도 탑재했다. 구글은 젬마 4 모델이 개발자 커뮤니티를 통해 1억 5000만 다운로드를 넘어섰다고 밝혔다. 구글은 "젬마 4 12B는 모바일 우선의 효율성과 고도화된 추론 능력을 결합해 고성능 멀티모달 지능을 노트북에서 직접 구현할 수 있도록 설계됐다"며 "속도나 추론 능력을 줄이지 않으면서도 일상적인 하드웨어에 고도화된 멀티모달 기능을 제공한다"고 밝혔다.

2026.06.04 09:40김미정 기자

[써보고서] 와이파이 끊어도 AI는 살아있다…구글 'AI 엣지 갤러리'

구글이 스마트폰에서 인터넷 연결 없이 인공지능(AI) 서비스를 직접 구동할 수 있는 모바일 앱 'AI 엣지 갤러리'에 최신 오픈소스 모델 '젬마4'를 탑재했다. 클라우드 서버를 거치지 않고 기기 하드웨어에서 직접 AI 연산이 이뤄지는 온디바이스 AI 대중화를 겨냥한 행보다. 구글 AI 엣지 갤러리 앱은 구글 플레이스토어와 애플 앱스토어에서 무료로 내려받을 수 있다. 이 앱이 제공하는 AI 챗, 에이전트 스킬, 에스크 이미지 등 주요 기능을 사용하려면 먼저 모델을 설치해야 한다. 구글 젬마4 '이펙티브 2B(E2B)'와 '이펙티브 4B(E4B)'는 안드로이드 스마트폰 등 경량 디바이스에 최적화된 모델들이다. 배터리와 메모리 제약 환경에서도 AI를 실행할 수 있도록 설계됐다. 기자는 모델 라인업 중 범용성이 가장 높은 E2B 모델을 내려받기로 했다. 와이파이 연결 상태로는 5분가량 설치가 이어지다 실패 창이 떴다. 모바일 데이터로 전환한 뒤에야 약 2분 만에 설치됐다. 먼저 AI 챗 기능을 사용해 봤다. 비행기 모드를 켠 상태에서 "2026년 현재 한국 대통령이 누구야"라고 묻자 "저는 2025년 1월을 기준으로 학습된 모델이기 때문에 알 수 없습니다"라는 답변이 4.8초 만에 돌아왔다. 서버 없이도 응답은 빨랐지만 학습 데이터 컷오프(마감 시점) 이후 변경된 정보는 반영되지 않는다는 한계가 드러났다. 평소 AI 챗봇을 쓸 때 PC와 모바일 간 대화 기록 연동에 익숙했던 탓에 비행기 모드에선 기록이 저장되지 않는 점도 불편했다. 프롬프트 입력창의 '+' 버튼으로 과거 질문을 다시 불러올 수는 있지만 답변까지 저장되진 않는다. 물론 모든 연산이 기기 안에서 처리되는 구조상 프롬프트·이미지 등 민감 데이터가 외부 서버로 전송되지 않는다는 점은 확실한 강점이다. 학습 데이터 컷오프와 무관한 질문에선 준수한 성능을 보였다. "애플 앱스토어와 구글플레이의 차이를 알려줘"라고 입력하자 관리 기준, 결제 모델, 생태계 통합성 항목을 표 형태로 구조화해 출력했다. 클라우드 기반 AI 챗봇과 비교해 응답 깊이가 유사한 수준으로, 인터넷 없이 스마트폰 안에서 처리됐다는 점에서 특히 실용적이었다. 멀티모달 기능인 에스크 이미지에선 엇갈린 결과가 나왔다. 러쉬 고체 치약을 찍어서 첨부하자 라벨의 영문 텍스트를 읽어 제품명과 기능을 한국어로 풀어냈다. 대신 치킨과 떡볶이 사진을 올리고 칼로리를 묻자 치킨은 정확히 인식했지만 떡볶이는 "매콤한 닭갈비 계열 볶음"으로 잘못 짚었다. "너 떡볶이 모르니?"라고 되묻자 "그렇게 볼 수 있겠군요. 죄송합니다"라며 곧바로 정정하고 치킨과 떡볶이 조합 기준 1인당 약 1500칼로리 수준의 영양성분 분석을 다시 내놨다. 사진만으로 한국 음식을 처음부터 정확히 구분하지는 못했지만 추가 맥락을 주자 유연하게 재추론하는 모습을 보였다. 에이전트 스킬도 눈여겨볼 만했다. 지도 렌더링 등 외부 데이터를 활용하는 기능 특성상 이 항목만 와이파이를 켠 상태에서 시험했다. "구글 본사 위치 지도로 보여줘"라고 입력하자 모델이 JS 스크립트를 직접 호출해 6.8초 만에 미국 캘리포니아주 마운틴뷰 일대 구글 본사 위치가 표시된 인터랙티브 지도를 화면에 렌더링했다. 구글은 상업적으로 자유로운 아파치(Apache) 2.0 라이선스로 모델 가중치를 공개했으며 앱 소스코드도 깃허브에 올려 개발자 커뮤니티 기여를 열어뒀다. 다만 앱은 현재 개발 중으로, 성능이 기기 중앙처리장치(CPU)·그래픽처리장치(GPU)에 따라 달라질 수 있다고 명시하고 있다. 젬마4는 오프라인 구동과 프라이버시 보호라는 강점을 갖췄지만 실시간 정보 반영과 한국 문화 특화 인식에선 아쉬움이 남았다. 구글이 AI 엣지 갤러리 오픈소스 생태계와 커뮤니티 기여를 통해 이를 어떻게 보완할지 주목된다.

2026.04.12 11:47이나연 기자

구글, 젬마4 스마트폰에 심는다…오프라인 AI 시대 본격화

구글이 인터넷 연결 없이 스마트폰에서 거대언어모델(LLM)을 직접 구동할 수 있는 모바일 애플리케이션을 공식 출시하며 온디바이스 인공지능(AI) 대중화에 시동을 걸었다. 구글은 2일(현지시간) 공식 개발자 블로그를 통해 안드로이드와 iOS 모두에서 사용할 수 있는 'AI 엣지 갤러리' 앱에 최신 오픈소스 모델 젬마4를 탑재했다고 밝혔다. 모든 AI 연산이 서버가 아닌 스마트폰 하드웨어에서 직접 처리되며 인터넷 연결 없이도 작동한다. 젬마4는 서버로 데이터를 전송하지 않고도 고급 추론·논리·창의 기능을 활용할 수 있도록 설계된 온디바이스 최적화 모델이다. 기기 하드웨어에서 직접 모든 연산이 이뤄져 프롬프트·이미지·민감 데이터 등이 외부로 유출되지 않는다. 앱에는 다양한 기능이 함께 탑재됐다. 위키피디아 검색·인터랙티브 맵 등 외부 도구를 활용해 다단계 자율 작업을 온디바이스에서 처리하는 에이전트 스킬이 핵심 기능으로, 젬마4 패밀리부터 지원되는 '씽킹 모드'를 통해 모델의 추론 과정을 단계별로 확인할 수 있다. 이 외에도 카메라·갤러리를 활용한 이미지 분석 기능 '이미지 질문(Ask Image)', 음성 녹음을 실시간으로 텍스트·번역으로 변환하는 '음성 기록(Audio Scribe)', 프롬프트 테스트 공간인 '프롬프트 랩(Prompt Lab)' 등이 포함됐다. AI 엣지 갤러리 앱은 구글 플레이스토어와 애플 앱스토어에서 무료로 내려받을 수 있다. 소스코드는 깃허브에 공개돼 있다. 안광섭 세종대학교 경영학과 교수는 "비행기 모드에서도 LLM 멀티모달 입력이 가능한 수준까지 왔다"고 말했다.

2026.04.07 17:22이나연 기자

[AI는 지금] "스마트폰서도 AI 추론"…구글, '젬마4'로 클라우드 중심 판 흔든다

구글이 오픈웨이트 인공지능(AI) 모델 '젬마4(Gemma 4)'를 공개하며 AI 실행 환경을 클라우드에서 디바이스로 확장하는 전략을 본격화했다. 스마트폰부터 워크스테이션까지 다양한 하드웨어에서 복잡한 추론과 자율형 에이전트 구현이 가능해지면서 온디바이스 AI 확산과 오픈 모델 생태계 변화에 큰 영향을 줄 것으로 전망된다. 구글 딥마인드는 2일(현지시간) 공식 블로그를 통해 '젬마4'를 공개했다. 이번 모델은 '제미나이3(Gemini 3)'와 동일 계열의 연구 및 기술을 기반으로 개발됐으며 로컬 환경에서 고급 AI 기능을 수행할 수 있도록 설계됐다. 젬마4는 이펙티브 2B(E2B), 이펙티브 4B(E4B), 26B 전문가 혼합(Mixture of Experts, MoE), 31B 덴스(Dense) 등 4종으로 구성된다. 이 가운데 E2B와 E4B 모델은 안드로이드 스마트폰과 라즈베리파이 등 경량 디바이스에 최적화됐으며 배터리와 메모리 제약 환경에서도 AI를 실행할 수 있도록 설계됐다. 반면 26B MoE와 31B 덴스 모델은 워크스테이션급 환경에서 고성능 추론을 수행하도록 설계돼 디바이스부터 고성능 컴퓨팅 환경까지 폭넓은 계층을 아우른다. 26B MoE 모델은 추론 과정에서 약 38억 개의 파라미터만 활성화하는 구조를 통해 처리 속도를 높이면서도 대형 모델 수준의 성능을 유지하도록 설계됐다. 31B 모델은 품질 중심 구조로 고도화된 추론 능력을 제공한다. '젬마4'는 단순 대화형 모델을 넘어 실제 작업 수행을 지원하는 '에이전트형 AI' 구현을 핵심 방향으로 제시했다. 이 모델은 함수 호출과 구조화된 JSON(Javascript Object Notation) 출력 기능을 네이티브로 지원해 외부 도구 및 API와 연동한 다단계 작업 수행이 가능하다. 이는 AI가 정보 생성에서 실행 중심으로 진화하고 있음을 보여주는 변화다. 또 모든 모델이 이미지와 비디오 입력을 처리할 수 있으며 E2B와 E4B 모델은 오디오 입력을 지원해 기기 내 음성 이해 기능을 제공한다. 구글은 "개발자 생태계를 제한 없이 지원하기 위해 상업적으로 자유로운 아파치(Apache) 2.0 라이선스로 공개했다"며 "데이터와 인프라, 모델에 대한 통제권을 개발자에게 제공하는 것이 목표"라고 밝혔다. '젬마4'는 모델 가중치를 공개하는 오픈 웨이트 형태로 제공되면서 기업과 개발자가 자체 인프라에서 AI를 직접 구축·운영할 수 있는 기반을 제공한다. 이에 따라 클라우드 의존도를 낮추고 비용 구조를 재편하는 한편, 기업 맞춤형 AI 개발과 데이터 통제 요구가 높은 산업을 중심으로 활용이 확대될 가능성이 제기된다. 모델은 구글 클라우드를 비롯해 허깅페이스, 캐글, 올라마 등 다양한 플랫폼에서 제공된다. 젬마4 출시는 오픈 모델 경쟁 구도에도 변화를 예고한다. 기존 메타 '라마(Llama)' 시리즈에 더해 알리바바 '큐웬(Qwen)', 즈푸AI 'GLM', 문샷AI '키미(Kimi)' 등 중국 기업 모델이 빠르게 부상하는 가운데 구글은 성능 대비 효율성과 온디바이스 실행을 결합한 전략으로 차별화를 시도한 모습이다. 젬마4가 구글의 기존 대형 모델 '제미나이'와 병행되는 전략적 포지션을 갖는다는 점도 눈여겨 볼 요소다. 제미나이가 클라우드 기반 초대형 모델 역할을 담당하는 반면, 젬마는 로컬 및 경량 환경을 맡는 식이다. 구글은 이를 통해 클라우드와 디바이스를 아우르는 AI 플랫폼 전략을 구축하고 있다. 젬마4는 오픈모델의 성능 고도화와 온디바이스 AI 확산, 에이전트 기반 자동화를 동시에 겨냥한 모델로 평가된다. 이는 AI 활용 방식이 중앙 서버 중심에서 분산형 구조로 이동하고 있음을 보여주는 흐름으로, 향후 기업의 AI 도입 전략과 비용 구조에도 변화를 가져올 가능성이 제기된다. 업계 전문가는 "젬마4는 고성능 AI를 클라우드 밖으로 확장해 디바이스까지 끌어내린 모델"이라며 "손바닥 크기의 컴퓨터에서도 복잡한 추론이 가능한 수준까지 발전했다는 점에서 앞으로 AI 경쟁은 성능뿐 아니라 어디에서 실행되느냐가 핵심 변수로 작용할 것"이라고 말했다.

2026.04.03 09:46장유미 기자

"스마트폰 배터리 1%도 안 쓴다"…구글, 초경량 AI '젬마3 270M' 공개

구글이 저전력 환경에서도 작동 가능한 초소형 인공지능(AI) 모델 '젬마3 270M'을 출시했다. 2억7천만 개 파라미터로 구성된 이 모델은 스마트폰, 태블릿, 소형 가전 등에서도 무리 없이 실행 가능하며 각 업무에 따라 빠르고 저렴하게 조정할 수 있는 것이 강점이다. 17일 실리콘앵글 등 외신에 따르면 구글은 젬마3 270M을 AI 오픈소스 플랫폼인 허깅페이스를 통해 공개했다. 젬마3 270M은 작업별 미세 조정을 위해 설계된 경량 AI 모델로 강력한 지침 따르기(instruction following)와 텍스트 구조화 기능을 갖추고 훈련된 것이 특징이다. 총 2억7천만 개의 매개변수 중 약 1억7천만 개는 임베딩 파라미터이며 나머지 1억 개는 트랜스포머 블록으로 구성돼 있다. 이같은 구조는 크기 대비 성능 효율이 뛰어나며 특정 업무 목적에 맞춰 빠르게 훈련할 수 있도록 설계됐다. 이 모델의 가장 큰 장점은 경량성과 에너지 효율성이다. 구글 딥마인드의 엔지니어 오마르 산세비에로는 "이 모델은 토스터에서도 작동할 수 있다"고 X(구 트위터)를 통해 소개했다. 실제로 젬마3 270M은 고성능 GPU나 클라우드 연결이 필요 없는 라즈베리 파이 같은 초소형 컴퓨터나 저사양 임베디드 기기에서도 원활히 작동한다는 것이 구글 측의 설명이다. 성능 면에서도 높은 완성도를 보여줬다. 구글에 따르면 젬마3 270M의 지시 기반 추가 학습(instruction tuning) 버전은 AI 성능 벤치마크인 IFeval에서 51.2%의 정확도를 기록했다. 이는 동급 초경량 모델 중에서도 우수한 수준이며 일부 10억 개 이상의 파라미터를 가진 대형 모델과 비교해도 뒤지지 않는 결과다. 구글은 지시 기반 추가 학습 기반의 AI가 실제 산업 현장에서도 성과를 내고 있다고 설명했다. 대표 사례로 SK텔레콤과 AI 스타트업 어댑티브 ML(Adaptive ML)이 공동 수행한 프로젝트를 들었다. SK텔레콤은 다국어로 구성된 콘텐츠를 정밀하게 관리해야 하는 과제를 안고 있었고 이를 해결하기 위해 대규모 범용 모델이 아닌 구글의 40억 파라미터 모델인 '젬마3 4B'를 특정 업무에 맞춰 미세 조정했다. 그 결과 해당 모델은 SK텔레콤이 기존에 운용하던 더 큰 자체 모델보다 특정 작업에서 더 뛰어난 성능을 보였으며 처리 효율성과 정확도 모두에서 높은 평가를 받았다. 구글은 젬마3 270M을 개발자들이 손쉽게 사용할 수 있도록 다양한 도구와 함께 공개했다. 관련 문서와 파인튜닝 레시피도 함께 제공돼 개발자들은 자신의 환경이나 요구사항에 맞춰 모델을 직접 조정하거나 응용할 수 있다. 전력 소모 측면에서도 실질적인 활용 가능성을 보여줬다. 구글의 내부 테스트 결과에 따르면 INT4 양자화 된 젬마3 270M을 픽셀9 프로 스마트폰에 설치해 25회 이상 대화형 AI를 실행한 결과 배터리 소모는 0.75%에 불과했다. 배터리 수명에 민감한 모바일 환경이나,제한된 전력을 사용하는 사물인터넷(IoT) 기기에서도 효율적으로 구동될 수 있다는 점을 시사한다. 업계에서는 젬마3 270M이 초경량 AI 시장의 전환점을 마련할 수 있을 것으로 보고 있다. 고성능 중심의 대규모 언어 모델(LLM) 흐름에서 벗어나 보다 실용적이고 보편적인 기기에서 AI를 구현할 수 있도록 기반을 제공한다는 점에서 의미가 크다. 특히 네트워크 연결이 어렵거나 데이터 전송 비용이 부담되는 환경에서도 활용 가능성이 높아 개발도상국은 물론 산업 현장, 교육 환경 등 다양한 분야에서 실질적 수요를 충족할 수 있을 것으로 기대된다. 구글은 젬마3 270M을 통해 AI 기술의 접근성을 높이는 동시에 지속가능한 AI 생태계 조성을 위한 기반 기술을 강화하겠다는 계획이다. 구글의 올리비에 라콤브 제품 관리자는 "액자를 거는 데 큰 해머를 쓰지 않듯 엔지니어링에서 성공은 단순한 힘이 아니라 효율성으로 정의되며 이는 AI에도 동일하게 적용된다"고 강조했다. 이어 "젬마3 270M은 그런 철학을 바탕으로 특정 업무에 적합한 실용적인 AI 도구를 구현한 사례"라고 설명했다.

2025.08.17 14:00남혁우 기자

레드햇-구글클라우드, 엔터프라이즈 AI 추론 강화 협력

레드햇이 구글클라우드와 협력을 확대해 인공지능(AI) 추론 성능을 높이고 대규모 배포를 지원하는 환경을 구축한다. 레드햇과 구글클라우드는 레드햇의 오픈소스 기술과 구글클라우드의 맞춤형 인프라 ·구글의 개방형 모델 제품군 '젬마'를 결합해 엔터프라이즈 애플리케이션용 AI를 향상하기 위한 협력을 확대한다고 29일 밝혔다. 레드햇은 구글의 젬마 모델과 가상거대언어모델(vLLM)을 결합해 AI 추론 효율을 높일 방침이다. 대규모언어모델분산(llm-d) 프로젝트 론칭·에이전트투에이전트(A2A) 프로토콜 참여로 에이전틱 AI 확장을 도모할 계획이다. 레드햇은 젬마3 배포판에서 vLLM의 0일차 지원을 제공해 생성형 AI 애플리케이션의 출력 속도를 높인다. vLLM은 오픈소스 추론 서버로 빠르고 비용 효율적인 AI 플랫폼을 제공해 엔터프라이즈 고객의 반응성을 강화한다. 구글클라우드 텐서처리장치(TPU) 및 그래픽처리장치(GPU) 기반 가상머신에서 vLLM 사용이 가능해지면서 개발자는 성능과 효율성을 극대화할 수 있다. 또 레드햇은 llm-d 오픈소스 프로젝트를 통해 이기종 리소스 전반에서 AI 추론의 확장성·비용 최적화·워크로드 효율성을 개선한다. 레드햇 AI 인퍼런스 서버는 구글 클라우드 상에서 최신 커뮤니티 개선 사항을 반영해 기업용 모델 추론 최적화를 지원한다. 이를 통해 기업은 신뢰할 수 있는 인프라에서 대규모 AI 모델을 빠르고 안정적으로 배포할 수 있게 된다. 레드햇 브라이언 스티븐스 AI 부문 수석 부사장 겸 최고기술책임자는 "이번 협력 확대를 통해 획기적 AI 혁신을 주도할 것"이라며 "vLLM과 오픈소스 기술로 개발자는 최적화된 추론 기반의 고성능 AI 솔루션을 구축할 리소스를 확보할 수 있다"고 밝혔다. 구글클라우드 마크 로마이어 AI 및 컴퓨팅 인프라 부문 부사장 겸 총괄은 "이번 협력은 AI 잠재력을 고객에게 제공한다는 양사 비전의 결과"라며 "조직이 AI 추론을 효과적으로 확장하고 고성능 에이전틱 AI를 구현할 길을 열었다"고 말했다.

2025.05.29 14:53김미정 기자

미스트랄AI, 경량 코딩 모델 '데브스트랄' 공개

프랑스의 대표 인공지능(AI) 기업 미스트랄AI가 코딩에 초점을 맞춘 새로운 AI 모델을 공개해 주목받고 있다. 22일 테크크런치 등 외신에 따르면 미스트랄AI는 AI 기업 올 핸즈 AI와 협력해 상업적으로 이용 가능한 코딩 특화 AI인 '데브스트랄(Devstral)'을 개발했다. 데브스트랄은 240억 개의 매개변수를 갖춰 다른 상용 AI 모델 대비 비교적 규모가 작은 편이다. 그럼에도 미스트랄AI는 데브스트랄이 코딩 기술을 측정하는 벤치마크에서 구글의 '젬마3 27B'와 중국 딥시크의 'V3' 등 다른 공개 모델보다 우수한 성능을 보였다고 주장했다. 미스트랄AI는 "데브스트랄은 코드베이스 탐색, 파일 편집, 소프트웨어(SW) 엔지니어링 에이전트 구동을 위한 도구 활용에 우수하다"며 "데브스트랄은 단일 엔비디아 RTX 4090 또는 32GB 램(RAM)이 장착된 맥(Mac)에서도 실행할 수 있을 만큼 가벼워 로컬 배포 및 기기 내 사용에 이상적"이라고 설명했다. 앞서 미스트랄AI는 코드 생성 모델인 '코드스트랄(Codestral)'을 출시하며 보조 프로그래밍 분야에 진출한 바 있다. 다만 코드스트랄은 개발자가 상용 애플리케이션에서 이 모델을 사용할 수 있도록 허용하는 라이선스로 출시되지 않아 사용에 제약이 있었다. 이에 새로운 대중적인 AI 코딩 어시스턴트인 데브스트랄을 출시해 애플리케이션 프로그래밍 작업 최적화를 지원한다는 전략이다. 데브스트랄은 현재 허깅 페이스를 비롯한 AI 개발 플랫폼에서 다운로드할 수 있으며 미스트랄AI의 API를 통해서도 이용할 수 있다. 가격은 입력 토큰 100만 개당 0.1달러, 출력 토큰 100만 개당 0.3달러다. 미스트랄AI는 "향후 몇 주 안에 출시될 더 큰 에이전트 코딩 모델을 구축하는 데 박차를 가하고 있다"고 밝혔다.

2025.05.22 14:03한정호 기자

돌고래 언어도 해독하는 시대…구글, AI 모델 '돌핀젬마' 개발

돌고래의 언어를 해석하고 인간과의 소통을 가능케 하는 인공지능(AI)이 등장해 주목받고 있다. 구글은 15일 기술 블로그를 통해 돌고래의 발성을 해독하는 거대언어모델(LLM)인 '돌핀젬마(DolphinGemma)'를 개발했다고 발표했다. 돌핀젬마는 구글과 조지아 공대 연구진, 야생 돌고래 프로젝트(WDP)의 협력을 통해 개발됐다. 이를 통해 인간과 돌고래 이종 간 소통을 실현해 해양생물학 연구를 진보시킨다는 목표다. 돌핀젬마는 구글의 경량형 오픈소스 AI 모델인 젬마를 기반으로 구축됐다. 4억 개의 매개변수로 구성된 오디오 중심의 AI로, 구글 '픽셀폰'으로 구동할 수 있게 설계됐다. 학습 데이터로는 WDP가 40년간 축적한 대서양 점박이 돌고래 음향 데이터가 활용됐다. 여기에는 돌고래와 해양 포유류의 음성 통신의 음향 신호인 버스트 펄스 소리와 어미 돌고래가 새끼를 부를 때 나오는 휘파람, 먹이를 탐색할 때 활용되는 클릭 버즈 등의 음향 데이터가 담겨있다. 이같은 복잡한 돌고래 음성 구조를 인간이 직접 해석하는 데는 한계가 있었으나, 돌핀젬마는 방대한 데이터 학습을 통해 패턴을 추론할 수 있다. 또 구글이 보유한 사운드스트림 기술을 기반으로 복잡한 고주파 수중음을 효과적으로 표현할 수 있게 구성됐다. 돌핀젬마는 인간 언어 처리와 유사한 방식으로 돌고래 소리를 분석하고 다음에 이어질 소리를 예측하는 시퀀스 기반 학습을 통해 돌고래 발성의 의미 구조를 도출해낸다. 구글 픽셀폰으로 이 기술을 제공해 현장에서 바로 활용할 수 있도록 한 것도 강점이다. 젬마돌핀을 기반으로 구글 픽셀폰에서 작동되는 핵심 시스템은 고래 청각 증강 원격 측정 시스템, 일명 챗(CHAT)이다. 챗은 돌고래의 복잡한 자연어를 직접 해독하는 것이 아니라 인간과 돌고래 사이에서 더 단순하고 공통적인 어휘를 구축하도록 설계된 수중 컴퓨터다. 챗은 분석에 필요한 복잡한 하드웨어 없이 스마트폰과 골전도 헤드폰만으로 실행 가능해 실험 장비 경량화, 유지비 절감, 반응 속도 향상이라는 실용적 측면에서 큰 기대를 받고 있다. WDP 연구진은 돌핀젬마가 돌고래의 자연 발성에서 문법적 패턴과 의미 단위를 더욱 정교하게 추출할 수 있을 것으로 기대하고 있다. 또 인공 휘파람과 실제 행동 간의 연계 실험을 통해 돌고래가 능동적으로 요청·반응·피드백을 반복하는 상호작용 구조를 구축할 방안을 마련 중이다. 연구진은 올여름부터 돌핀젬마와 픽셀폰에 탑재된 챗 시스템을 활용해 돌고래와의 실시간 소통에 착수할 계획이다. 구글은 돌핀젬마를 오픈소스 AI 모델로 공개해 전 세계 연구자들이 다른 고래류 소통 연구에도 활용할 수 있도록 한다는 방침이다. 구글 측은 "WDP는 픽셀 6 스마트폰을 사용해 돌고래 발성 해독과 소통 작업을 수행해 왔다"며 "픽셀 9으로 장비를 업그레이드하면 이 스마트폰 하나로 딥러닝 모델과 음향 패턴 인식 알고리즘을 동시에 실행할 수 있다"고 밝혔다.

2025.04.15 15:56한정호 기자

Prev 1 Next

ZDNet 검색 페이지

'젬마'통합검색 결과 입니다. (10건)

엔비디아, 구글 '디퓨전젬마' 지원…"로컬 AI 추론 속도 높여"

"텍스트 생성 더 빠르게"…구글, '디퓨전젬마' 공개

구글, '젬마 4 12B' 출시…"음성·이미지 처리 간소화"

[써보고서] 와이파이 끊어도 AI는 살아있다…구글 'AI 엣지 갤러리'

구글, 젬마4 스마트폰에 심는다…오프라인 AI 시대 본격화

[AI는 지금] "스마트폰서도 AI 추론"…구글, '젬마4'로 클라우드 중심 판 흔든다

"스마트폰 배터리 1%도 안 쓴다"…구글, 초경량 AI '젬마3 270M' 공개

레드햇-구글클라우드, 엔터프라이즈 AI 추론 강화 협력

미스트랄AI, 경량 코딩 모델 '데브스트랄' 공개

돌고래 언어도 해독하는 시대…구글, AI 모델 '돌핀젬마' 개발

지금 뜨는 기사

이시각 헤드라인

급한 불 끈 홈플러스...경영 정상화는 ‘산 넘어 산’

미국 우버가 독일 딜리버리히어로 품는 이유

글로벌 AI 시장, 미·중 모델 고집 여전...한국 현주소는

전국민에 ‘모두의 AI’ 보급...반도체·AIDC·피지컬AI 집중 육성

ZDNet Power Center