검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'인퍼런스'통합검색 결과 입니다. (6건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

"데이터 있는 곳에 AI 심는다" 클라우데라, 온프레미스 추론 기능 공개

클라우데라가 엔비디아 기술을 기반으로 온프레미스 환경에서 인공지능(AI) 추론과 데이터 분석을 본격적으로 운영할 수 있는 기능을 공개했다. 클라우데라는 클라우데라 AI 인퍼런스와 트리노(Trino) 기반 데이터 웨어하우스의 온프레미스 확장을 10일 발표했다. 데이터센터 환경에서도 대규모 언어 모델과 고급 분석, 시각화를 통합 운영할 수 있도록 지원 범위를 넓혔다는 설명이다. 이번에 공개된 클라우데라 AI 인퍼런스는 엔비디아 기술로 구동된다. 기업은 자체 데이터센터에서 대규모언어모델(LLM), 이상 거래 탐지, 컴퓨터 비전, 음성 AI 등 다양한 AI 모델을 직접 배포하고 확장할 수 있다. 엔비디아 네모트론 오픈 모델을 포함해 다양한 모델을 지원하며, 엔비디아 블랙웰 GPU, 다이나모-트리톤 추론 서버, NIM 마이크로서비스 기반으로 고성능 AI 추론을 제공한다. 클라우데라는 이를 통해 기업이 클라우드 비용 변동성을 피하고 지연 시간, 데이터 프라이버시, 규제 준수를 완벽하게 통제할 수 있다고 강조했다. AI가 실험 단계를 넘어 실제 운영 단계로 전환되는 상황에서 장기적인 비용 예측 가능성과 엔터프라이즈급 거버넌스를 동시에 확보할 수 있다는 설명이다. 트리노 기반 클라우데라 데이터 웨어하우스 역시 온프레미스 환경을 지원한다. 데이터센터 내 모든 데이터를 대상으로 중앙화된 보안과 거버넌스, 가시성을 확보하면서도 인사이트 접근 속도를 높였다. AI 기반 분석과 시각화 기능이 통합돼 있어, 민감한 데이터를 외부로 이동시키지 않고도 실행 가능한 분석 결과를 도출할 수 있다. 클라우데라 데이터 비주얼라이제이션도 AI와 분석 역량을 강화했다. 차트와 시각 자료에 대한 요약과 맥락 정보를 자동으로 생성하는 AI 어노테이션 기능을 제공해 데이터 해석 부담을 줄였다. AI 쿼리 로깅과 추적 기능을 통해 메시지 ID, 타임스탬프, 질의 내용을 기록하며, 운영 투명성과 문제 해결 속도도 개선했다. 관리 설정 역시 단순화돼 SSO 기반 환경에서 권한 관리와 운영 효율을 높였다. 레오 브루닉 클라우데라 최고제품책임자(CPO)는 "이번 온프레미스 확장은 기업에 전례 없는 수준의 AI 통제력과 유연성을 제공한다"며 "데이터센터에서 클라우데라 AI 인퍼런스와 데이터 웨어하우스, 데이터 비주얼라이제이션을 활용하면 데이터를 이동하지 않고도 AI와 분석을 안전하게 배포할 수 있다"고 말했다. 이어 "이는 데이터 보안과 규제 준수, 운영 효율성을 동시에 확보하는 현실적인 방법"이라고 덧붙였다. 팻 리 엔비디아 전략적 기업 파트너십 부사장은 "기업 데이터의 가치는 AI를 데이터가 존재하는 어느 곳에 안전하고 유연하게 배포할 수 있을 때 실현된다"며 "클라우데라와 협력을 통해 엔비디아 블랙웰 GPU와 다이나모-트리톤, NIM 마이크로서비스 기반 AI 인퍼런스를 확장할 수 있고, 데이터센터 효율성과 예측 가능한 경제성을 확보할 수 있다"고 밝혔다.

2026.02.10 17:30남혁우 기자

"AI는 누구나 쓸 수 있어야"…레드햇이 제시하는 인프라 장벽 해결방안은?

인공지능(AI)은 이제 산업 전체를 바꾸는 거대한 흐름으로 자리잡고 있다. 하지만 많은 기업들은 아직 그 속도를 따라가지 못하고 있는 상황이다. AI 학습과 활용을 위한 그래픽처리장치(GPU)는 비싸고 전문 인력은 부족하다. 복잡한 모델과 배포 환경은 기술력을 갖춘 일부 기업만의 영역처럼 여겨지고 있다. 레드햇(Red Hat)은 이러한 문제를 해결하기 위한 방안으로 가상언어모델(vLLM)을 제시했다. 레드햇 브라이언 스티븐스 최고기술책임자(CTO)는 2일 여의도 레드햇코리아 사옥에서 "AI는 모든 기업이 활용해야 할 기술이지 일부 빅테크 기업의 전유물이 돼선 안 된다"며 "레드햇은 인프라 부담을 없애는 방식으로 AI의 대중화를 실현하려 한다"고 강조했다. 복잡한 인프라 없이도 AI활용… 오픈소스 기반 AI 플랫폼 'vLLM' 지난달 한국산업기술진흥협회가 연구개발(R&D) 조직을 보유한 국내 기업 1천479곳을 대상으로 '기업 AI 활용 실태'를 조사한 결과 전체 응답 기업의 76.9%가 'AI 도입이 필요하다'고 응답했다. 하지만 실제 업무에 활용하거나 도입을 검토하는 기업은 절반에도 못 미치고 있는 것으로 나타났다. 브라이언 스티븐스 CTO는 기업에 AI 도입이 어려운 이유로 그들이 처한 현실을 지적했다. 기술보다 환경의 문제라는 것이다. 그는 "많은 기업들이 AI를 써보려는 생각은 하지만 현실적인 장벽이 너무 많다"며 "GPU 가격은 너무 비싸고 엔비디아 스택은 배우기 어려우며 AI 엔지니어 확보 경쟁은 치열하다"고 설명했다. 이어 "지속되는 불황으로 투자 여유가 없는 상황에서 'AI는 각 기업에게 상관없는 기술'처럼 느껴지게 된다"고 밝혔다. 레드햇은 AI 활용을 위한 여러 장벽 중 가장 문제로 지적되는 인프라를 해결하기 위한 방안으로 vLLM을 선보이고 있다. vLLM은 오픈소스 기반의 AI 추론 서버 플랫폼이다. GPT 같은 대규모 언어모델(LLM)을 기업 내부 서버나 클라우드에서 구동할 수 있게 도와주는 소프트웨어(SW)다. 스티븐스 CTO는 vLLM을 서버나 클라우드를 운영하기 위한 핵심 운영체제(OS)인 리눅스(Linux)에 비유했다. 그는 "vLLM은 특정 하드웨어에 종속되지 않고 복잡한 설정 없이 모델을 실행할 수 있다"며 "엔비디아, AMD, 인텔 등 어떤 GPU든 상관을 뿐 아니라 AI 엔지니어가 아니어도 명령어 하나만 입력하면 모델을 구축하고 운영할 수 있다"고 설명했다. vLLM은 오픈소스 플랫폼 허깅페이스와 연동되며 사용자 친화적인 API와 관리 인터페이스도 제공한다. 중소기업도 서버 한두 대만 있으면 최신 AI 모델을 실행할 수 있으며 대기업은 데이터센터 단위로 확장 가능한 구조다. "GPU는 줄이고 속도는 4배로"…레드햇의 경량화 기법 레드햇이 vLLM을 통해 해결하고자 한 또 하나의 과제는 바로 AI 운영 효율성이다. 최근 LLM의 규모는 갈수록 커지고 있다. 자연어를 이해하고 생성하는 능력이 향상되면서 모델이 처리해야 할 데이터 양도 함께 늘어나고 있기 때문이다. 이렇게 모델이 커질수록 이를 실제로 돌리기 위해서는 고성능의 GPU가 더 많이 필요하고 메모리도 많이 차지한다는 점이다. 이로 인해 전력 소비와 장비 비용이 눈덩이처럼 커진다. 레드햇은 이 문제에 대한 해법으로 모델 경량화 기술인 '양자화(Quantization)'를 제시했다. 이는 AI 모델이 계산에 사용하는 숫자의 표현 단위를 줄여 연산 부담은 낮추면서도 결과의 정확도는 유지할 수 있도록 돕는 기술이다. 그는 "기존 AI 모델은 계산을 위해 소수점 네 자리 정도까지 표현할 수 있는 숫자 형식인 FP16을 사용한다"며 "이 방식은 GPU 메모리를 많이 차지하고 처리 속도도 느리다는 단점이 있다"고 지적했다. 이어 "레드햇은 이를 FP8이나 FP4처럼 절반 이하 수준의 더 간단한 형식으로 바꾸는 기술을 갖추고 있다"고 설명하며 "덕분에 모델 크기는 작아지고 연산 속도는 빨라진다. 실제로 처리 속도는 최대 4배까지 향상됐고 GPU 메모리 사용량도 크게 줄었다"고 소개했다. 레드햇은 'LLM 컴프레서'라는 자체 기술을 통해 이 양자화를 오픈소스로 공개했다. 이 덕분에 정확도는 99% 이상 유지하면서도 모델 경량화가 가능하다. 실제로 허깅페이스에서 매달 100만 건 이상 관련 모델이 다운로드되고 있다. "설정 없이 바로 쓴다"…기업을 위한 '완성형 AI 인프라' 이와 함께 레드햇은 오픈소스 기반의 vLLM과 양자화 기술을 한데 묶은 상용 서비스인 레드햇 AI 인퍼런스 서버도 출시했다. 이 제품은 AI 추론 서버를 기업이 실제 환경에서 바로 쓸 수 있도록 구성했다. vLLM 기반으로 기업에 최적화된 AI 모델, 양자화 도구, 보안 업데이트, 기업용 기술지원이 함께 제공된다. 레드햇 엔터프라이즈 리눅스(RHEL), 오픈시프트(OpenShift) 등 레드햇이 제공하는 서비스와 모두 호환되며 기술지원을 위한 서비스수준협약(SLA)도 제공한다. 그는 "오픈소스 vLLM이 개발자들을 위한 도구라면 인퍼런스 서버는 기업을 위한 완성된 제품"이라며 "컨테이너 형태로 제공돼 누구나 바로 배포하고 운영할 수 있는 것이 강점"이라고 강조했다. 이어 "AI는 더 이상 선택이 아닌 생존의 조건으로 지금은 복잡한 기술을 공부할 때가 아니라 우리 기업의 어디에 AI를 적용할지 고민해야 할 때"라며 "레드햇은 그 진입 장벽을 최대한 낮추기 위해 노력할 것"이라고 덧붙였다.

2025.07.02 10:59남혁우 기자

레드햇이 제시한 '비용 효율적 AI' 전략은?

레드햇이 오픈소스 생태계 기반으로 생성형 인공지능(AI)을 효과적으로 활용할 수 있는 방향을 제시한다. 레드햇은 내달 5일 서울 그랜드 인터컨티넨탈 서울 파르나스 그랜드볼룸에서 열리는 '컨버전스 인사이트 서밋(CIS) 2025'에서 'AI 대중화를 넘어서 비용 효율적인 AI로'를 주제로 기업을 위한 생성형 AI 전략을 발표할 예정이다. 발표는 한국레드햇 유혁 상무가 진행한다. 이날 레드햇은 AI 전략 두 가지를 소개한다. AI 오픈소스 커뮤니티에 대한 기여와 엔터프라이즈 오픈소스 AI 솔루션 관련 내용이다. 레드햇은 IBM 리서치와 협력해 오픈소스화한 그래니트 모델과 인스트럭트랩의 거대언어모델(LLM) 학습 도구를 통해 커뮤니티에 기여해 왔으며, 레드햇 엔터프라이즈 리눅스 AI(RHEL AI)와 레드햇 오픈시프트 AI를 통해 각각 로컬 환경에서 AI 개발 기능과 통합 ML옵스 플랫폼을 제공해 왔다. 유 상무는 레드햇 서밋에서 공개된 '레드햇 AI 인퍼런스 서버'도 소개한다. 레드햇 AI 인퍼런스 서버는 고성능 AI 추론을 위한 오픈소스 엔진인 vLLM 기반으로 엔터프라이즈 환경에서 최적화된 추론을 위한 다양한 특장점을 제공한다. 기업 지원 측면에서는 상용 환경 에스컬레이션을 위한 서비스 수준 계약(SLA), 전문 개발자의 이슈 해결, 안정적인 빌드와 모델 검증 등을 제공한다. 해당 서버는 사전 최적화된 모델 가든을 통해 라마와 큐원, 미스트랄, 딥시크 등 다양한 모델을 지원하며 프로덕션 배포에 최적화됐다. 레드햇은 올해 1월 vLLM 분야의 전문 기업인 뉴럴매직을 인수해 여러 최적화 기술을 확보한 바 있다. 이를 통해 OpenAI API 호환성, 양자화, 멀티 로라 서빙, 옵저버빌리티, 구조화된 생성, 추측 디코딩 등 강력한 기능들을 지원한다. 레드햇 AI 인퍼런스 서버는 RHEL AI와 레드햇 오픈시프트 AI에 포함되는 새로운 구성요소로, 최적화된 생성형 AI 추론을 제공함으로써 하이브리드 클라우드 환경에서 더 빠르고 비용 효율적이며 확장 가능한 모델 배포를 지원한다. 레드햇 이외의 환경인 제3자 리눅스 및 쿠버네티스 환경에도 배포 가능하다. 2025년 5월 이후 RHEL AI는 확장돼 기존 그래니트과 인스트럭트랩에 더해 인퍼런스 서버, 최적화 모델 가든, OSS 모델 검증을 추가 제공할 예정이다. 이번 레드햇 AI 포트폴리오는 물리적 환경부터 가상 환경, 프라이빗·퍼블릭 클라우드, 엣지 컴퓨팅까지 다양한 인프라에서 일관된 AI 기반 구축을 지원한다. 이는 모든 클라우드에서 모든 가속기에 모든 모델을 배포할 수 있으면서도, 과도한 비용 없이 우수한 사용자 경험을 제공하고자 하는 레드햇의 목표에 부합하는 플랫폼이다. CIS 2025는 사전 등록을 통해 행사에 참여할 수 있으며, 사전등록과 등록 문의는 공식 웹사이트를 통해 가능하다. 레드햇 "이번 발표를 통해 오픈소스 생태계를 중심으로 누구나 효율적으로 AI를 개발하고 운영할 수 있는 기반을 제공하겠다는 비전을 강조하겠다"며 "기업이 필요로 하는 신뢰성과 확장성, 비용 효율성을 모두 갖춘 솔루션을 통해 생성형 AI의 실질적 활용을 넓혀가겠다"고 전략을 밝혔다.

2025.05.28 10:50김미정 기자

"AI 추론 시장 공략"…레드햇, 'AI 인퍼런스 서버' 출시

레드햇이 생성형 인공지능(AI) 모델 추론 강화를 위한 서버를 공개했다. 레드햇은 23일까지 미국 보스턴에서 열리는 '레드햇 서밋'에서 추론 서버 '레드햇 AI 인프런스 서버'를 출시했다고 밝혔다. 기업은 해당 서버를 통해 AI 모델을 보다 효율적이고 안정적으로 프로덕션 환경에 배포할 수 있는 기반을 마련할 수 있다. 이 서버는고속 대규모 언어모델 추론 엔진(vLLM) 오픈소스 프로젝트와 뉴럴매직 기술을 통합해 개발했다. 고속 추론 처리와 클라우드 환경 전반에 걸친 AI 가속기 지원, 비용 효율성 확보가 주요 특징이다. 레드햇 AI 인퍼런스 서버는 독립형 배포 또는 레드햇 엔터프라이즈 리눅스 AI(RHEL AI), 레드햇 오픈시프트 AI와 통합 형태로 제공된다. 추론 성능 병목을 해결하고, AI 모델 복잡성 증가에 따라 높아지는 리소스 요구를 줄이기 위한 목표다. 이 서버는 지능형 모델 압축 기능으로 자원 소비를 줄이고 정확도를 유지하거나 올릴 수 있다. 허깅페이스 플랫폼을 통한 모델 저장소 최적화뿐 아니라 검증된 고성능 모델에 대한 빠른 접근성을 제공한다. 레드햇은 이 제품을 통해 vLLM 기반 AI 추론을 기업용으로 확장하고 있다. vLLM은 대용량 입력 컨텍스트 처리, 연속 배치, 다중 그래픽처리장치(GPU) 지원 등으로 생성형 AI 추론의 새로운 표준으로 부상하고 있다. vLLM은 딥시크, 젬마, 라마, 미스트랄, 파이 같은 모델과도 높은 호환성을 보인다는 평가를 받고 있다. 라마 네모트론 같은 개방형 모델과 제로데이 통합도 지원한다. 기업은 다양한 모델과 가속기, 인프라 환경에서 선택할 수 있다. 레드햇 AI 인퍼런스 서버는 비레드햇 기반 리눅스나 쿠버네티스 환경에도 배포 가능하다. 서드파티 지원 정책을 통해 확장성과 유연성을 확보했다. 레드햇 제롬 루코 AI 제품 총괄은 "우리는 리눅스를 현대 IT 인프라 기반으로 전환해왔던 것처럼 AI 추론의 미래를 설계하는 데도 앞장서고 있다"며 "vLLM은 생성형 AI 추론의 핵심이며 이를 기업에 제공하는 것이 이번 제품의 핵심 목표"라고 밝혔다.

2025.05.21 14:17김미정 기자

지코어, 렛츠AI에 AI 인프라 제공…"이미지 생성 속도·유연성↑"

지코어가 렛츠AI의 기술 고도화를 도와 맞춤형 이미지 생성 속도와 서비스 확장 가능성을 높였다. 지코어는 렛츠AI에 AI 인프라와 AI 추론 솔루션 '에브리웨어 인퍼런스'를 제공했다고 15일 밝혔다. 렛츠AI는 사용자가 업로드한 이미지나 제품 기반으로 AI가 맞춤형 이미지를 실시간 생성하는 플랫폼이다. 지코어의 엔비디아 H100 그래픽처리장치(GPU) 기반 클라우드 인프라와 에브리웨어 인퍼런스를 적용해 이미지 생성 속도를 높이고 지연 시간을 줄였다. 또 GPU 단위 자원 제공 방식으로 인프라 구축 부담을 최소화하고, 비용 효율성을 이뤘다고 밝혔다. 현재 렛츠AI는 지코어 인프라로 다양한 브랜드와 협업 프로젝트를 진행 중이다. 한 레스토랑 브랜드는 피자 이미지 생성 이벤트에, 스포츠 브랜드 퓨마는 가상 인플루언서의 유니폼 이미지 생성에, 속옷 브랜드 슬로기는 마케팅 이미지 실험에 해당 플랫폼을 활용했다. 지코어는 AI 애플리케이션의 실시간 서비스를 위해 엣지 네트워크 기반 초저지연 환경도 제공하고 있다. 추론 요청을 전 세계 180여 개 엣지 지점 중 사용자와 가장 가까운 위치로 자동 라우팅해 속도를 최적화했다. 미쉬 스트로츠 렛츠AI 대표는 "지코어 덕분에 클릭 몇 번으로 글로벌 배포가 가능해졌고, GPU도 수 시간 내에 온보딩돼 안정적이고 유연한 운영이 가능했다"며 "개발과 인프라팀 작업 효율을 크게 높아졌다"고 말했다. 지코어 세바 베이너 디렉터는 "렛츠AI는 AI 인프라 기반으로 대규모 학습과 추론을 동시 운영하고 있다"며 "향후 영상 생성 등 기능 확장에도 우리 제품이 중심이 될 것"이라고 강조했다.

2025.04.15 11:00김미정 기자

"AI 추론 유연하고 빠르게"…지코어, '에브리웨어 인퍼런스' 업데이트

지코어가 인공지능(AI) 솔루션을 업데이트해 추론 환경에 유연성과 확장성을 높였다. 지코어는 '에브리웨어 인퍼런스'를 업데이트했다고 21일 밝혔다. 유연한 배포 옵션 지원과 스마트 라우팅, 멀티테넌시 기능 등을 새로 추가해 비용 관리부터 데이터 보안까지 효율성을 강화했다. 에브리웨어 인퍼런스는 클라우드와 온프레미스, 하이브리드 환경 등을 포함한 다양한 배포 옵션을 지원한다. 이를 통해 추론 배포 유연성을 높이고 AI 애플리케이션을 위한 초저지연 환경을 제공한다. AI 추론 배포를 위해 다양한 클라우드 제공업체와 온프레미스 시스템을 조율하는 복잡성도 해결한다. 이 제품은 스마트 라우팅 기능으로 추론 워크로드를 180개 넘는 광범위한 지코어 네트워크 중 최종 사용자와 가장 가까운 컴퓨팅 리소스로 자동 배치할 수 있다. 이를 통해 초저지연을 보장하면서 배포 효율성을 높일 수 있다. 고객은 선호하는 지역으로 워크로드를 전환할 수 있다. 데이터규제와 업계 표준을 준수하면서 데이터 보안 수준까지 강화할 수도 있다. 해당 솔루션은 AI 워크로드를 위한 지코어만의 멀티테넌시 기능을 제공한다. 기존 인프라에서 여러 추론 작업을 동시에 실행할 수 있도록 돕는다. 이런 멀티테넌시 접근 방식으로 고객은 리소스 활용을 최적화해 자원 활용도를 높일 수 있다. 이 외에도 지코어 솔루션의 새롭고 유연한 배포 옵션을 통해 기업은 민감한 정보를 온프레미스 상에서 안전하게 격리해 보호할 수 있다. 지코어 세바 베이너 엣지 클라우드 및 엣지 AI 제품 디렉터는 "이번 에브리웨어 인퍼런스의 업데이트는 AI 추론 환경의 유연성과 확장성을 대폭 향상시켜 스타트업부터 대기업에 이르는 다양한 규모의 모든 기업에 최적화된 솔루션을 제공한다"며 "누구나 어디서든 초지연 AI 애플리케이션을 손쉽게 구현할 수 있다"고 강조했다.

2025.01.21 13:52김미정 기자