• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
  • AI의 눈
AI의 눈
HR컨퍼런스
디지털트러스트
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'레드햇 서밋'통합검색 결과 입니다. (3건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

[현장] LLM보다 20배 자원 쓰는 에이전틱 AI…레드햇 "해법은 추론 최적화"

"에이전틱 AI는 하나의 질문에도 모델을 여러 번 호출하며 일반 챗봇 대비 GPU 자원을 5배에서 최대 20배까지 더 소모하는 구조입니다. 기업이 이를 도입해 수익을 창출하려면 비용 통제와 성능 확보, 서비스 안정성을 동시에 달성할 수 있는 추론 최적화가 필수입니다." 이호진 레드햇 솔루션 아키텍트는 26일 서울 마곡 LG사이언스파크에서 열린 'LG CNS AI 테크 서밋 2026'에서 이같이 강조했다. 그는 '에이전틱 AI로의 진화와 추론 최적화 전략'을 주제로 발표하며, 생성형 AI를 넘어 에이전틱 AI 시대로 전환되는 흐름과 이에 따른 인프라 전략 변화를 짚었다. 이 아키텍트는 가트너와 IDC 리서치를 인용하며 올해 기업 애플리케이션 40%가 업무 특화 AI 에이전트를 탑재하거나 AI 에이전트와 함께 일하게 될 것이라고 설명했다. 단순 질의응답을 수행하는 생성형 AI에서 벗어나, 멀티스텝 업무 자동화와 워크플로우 판단·실행까지 수행하는 구조로 진화하고 있다는 분석이다. 문제는 자원 소모다. 에이전틱 AI는 하나의 요청에도 모델 호출과 도구 실행, 검색과 재시도를 반복한다. 그 결과 일반 챗봇 대비 GPU 자원이 5배에서 최대 20배까지 더 필요할 수 있다. 그는 "이 구조에서는 추론 비용이 급격히 증가할 수밖에 없다"며 "추론 최적화 없이 에이전틱 AI를 확장하는 것은 현실적으로 어렵다"고 말했다. 이어 추론의 개념과 운영 환경에서의 과제를 설명했다. 대규모언어모델(LLM) 추론은 입력을 토큰으로 변환하고 토큰 간 관계를 계산해 답변을 생성하는 과정이다. 현재 AI 시장의 예산과 컴퓨팅 중심이 학습에서 추론 영역으로 이동하고 있으며 상시 운영 환경에서는 성능과 비용 최적화의 효과가 더욱 크게 나타난다고 강조했다. 특히 엔터프라이즈 환경에서는 GPU 자원 효율화뿐 아니라 보안 검증, 모델 안정성 확보, 지연 편차 관리까지 함께 고려해야 한다고 짚었다. 레드햇은 이를 해결하기 위한 전략으로 가상대규모언어모델(vLLM), LLM 컴프레서, 검증된 모델 컬렉션, 대규모 분산 추론 기술(LLM-D)을 제시했다. vLLM은 고성능 모델 서빙 엔진으로, 신규 모델과 다양한 AI 가속기를 지속적으로 지원하며 업계 표준처럼 활용되고 있다고 설명했다. LLM 컴프레서는 양자화를 통해 모델 크기와 GPU 메모리 사용량을 줄이면서도 정확도를 유지하는 기술이다. 실제 70B 모델을 GPU 8장에서 2장으로 줄이면서 99% 이상의 정확도를 확보한 사례도 소개했다. 또한 오픈시프트 기반으로 검증·최적화된 모델을 제공해 엔터프라이즈 AI의 품질과 안정성을 빠르게 확보할 수 있다고 밝혔다. LLMD는 대규모 분산 추론을 지원하는 기술로 여러 서버에 모델을 분산 배치하고 라우팅과 로드밸런싱, KV 캐시 효율화를 통해 고성능과 비용 효율을 동시에 달성할 수 있도록 돕는다고 설명했다. BC카드 사례도 공유했다. 초기에는 오라마 기반으로 최대 20건 요청을 처리했으나, vLLM 전환과 API 캐싱, 튜닝을 거치며 최대 25만건 요청을 처리하는 구조로 확장했다. 특히 LLM 컴프레서를 통한 양자화로 모델 크기를 절반으로 줄이고 성능은 3배 높이면서도 정확도 차이는 0.01% 수준에 그쳤다고 밝혔다. 이 과정에서 기업이 모든 기술 레이어를 자체적으로 감당하기보다 안정적인 플랫폼을 기반으로 전문 역량을 결합하는 전략이 필요하다고 강조했다. 이호진 아키텍트는 "에이전틱 AI 시대에는 추론이 곧 경쟁력"이라며 "레드햇 AI 플랫폼과 전문 역량, 컨설팅을 통해 고객의 추론 최적화와 AI 혁신을 지원하겠다"고 말했다.

2026.02.27 08:38남혁우 기자

AI 시대 핵심은 '통제권'… 레드햇, 오픈소스 기반 '소버린 AI' 비전 제시

레드햇이 급격히 확산되는 인공지능(AI) 시대 속에서 소버린 AI의 중요성을 강조했다. 특정 벤더나 폐쇄형 플랫폼에 종속되지 않고 기업과 정부가 데이터와 인프라를 직접 통제할 수 있는 환경을 구축해야 한다는 것이다. 이를 실현하기 위한 해법으로 오픈소스와 하이브리드 클라우드를 기반으로 한 개방형 혁신 전략을 내세우며 AI의 주권과 신뢰를 동시에 확보할 수 있는 방향을 제시했다. 레드햇은 28일 서울 강남구 웨스틴 서울 파르나스 호텔에서 '레드햇 서밋 커넥트 2025' 기자간담회를 톨해 오픈소스 기반의 'AI 주권(Sovereign AI)' 전략과 차세대 엔터프라이즈 AI 혁신 방향을 발표했다. 레드햇 서밋 커넥트 2025는 아시아태평양 지역 최대 규모의 오픈소스 기술 행사로 기업과 개발자, 기술 파트너가 한자리에 모여 최신 IT 트렌드와 오픈소스 혁신 전략을 공유하는 자리다. 올해 '기술의 전환점, 함께 성장할 시대(Unlock What's Next)'를 주제로 AI·클라우드·자동화를 아우르는 다양한 세션과 데모를 통해 기업이 복잡한 IT 환경 속에서 어떻게 오픈소스 기술로 혁신을 가속화할 수 있는지 구체적인 방안을 제시했다. 이에 따라 레드햇 빈센트 칼데이라 아태지역(APAC) 최고기술책임자(CTO)와 김경상 한국레드햇 대표가 AI와 클라우드가 간담회에서 기술 전략을 제시했다. 빈센트 칼데이라 CTO는 급변하는 환경에서 필수적인 요소는 소버린 AI라며 이를 실현하는 핵심 기술로 오픈소스를 강조했다. 소버린 AI가 단순히 기술의 문제가 아니라 국가와 기업이 AI 활용 과정에서 통제력과 신뢰를 확보하기 위한 전략적 선택이라는 설명이다. 그는 "AI는 더 이상 기술적 진보의 문제가 아니라 데이터와 인프라에 대한 통제와 신뢰 확보가 경쟁력의 본질이 되고 있다"며 "특히 최근 AI가 정부 행정, 금융, 의료 등 사회 전반의 의사결정 과정에 깊숙이 들어오면서 데이터가 어디에 저장되고 어떤 기준으로 처리되는지가 중요해졌다"고 강조했다. 이에 따라 각국 정부와 기업은 외부 기술 종속을 줄이고 자국 내에서 데이터를 통제할 수 있는 기술적 주권을 확보해야 한다는 것이다. 칼데이라 CTO는 "오픈소스는 투명성과 감사 가능성을 바탕으로, 기업과 정부가 특정 벤더에 종속되지 않고 자율적으로 AI 인프라를 구축하고 운영할 수 있도록 한다"며 "특히 오픈 하이브리드 클라우드 환경에서는 AI 워크로드를 유연하게 배치하고, 각국이 데이터 주권을 유지한 채 기술 혁신을 지속할 수 있다”고 설명했다. 이어 “AI의 신뢰성과 규제 준수는 폐쇄형 시스템보다 개방형 생태계에서 더 효과적으로 구현된다"며 "레드햇은 오픈소스를 통해 고객이 데이터와 인프라를 직접 통제하면서도 글로벌 오픈 커뮤니티의 기술 혁신을 적극적으로 활용할 수 있도록 지원하고 있다"고 덧붙였다. 칼데이라 CTO는 소버린 AI의 4대 구성 요소로 ▲데이터 통제와 거버넌스 ▲보안 및 신뢰성 확보 ▲하이브리드 클라우드 컨트롤 ▲로컬 생태계 구축을 꼽았다. 그는 "레드햇은 오픈 하이브리드 클라우드 플랫폼을 통해 고객이 자체 클라우드와 AI 환경을 구축하고 관리할 수 있도록 돕고 있다"며 "이는 기술 주권과 디지털 자립을 위한 오픈소스의 실질적 구현"이라고 덧붙였다. 칼데이라 CTO는 AI 확산 과정에서 기업들이 가장 큰 어려움을 겪는 부분으로 '추론 효율성'을 지적했다. 많은 기업이 개념 검증(PoC) 단계에서는 AI가 잘 작동한다고 평가하지만 실제 서비스 환경에서 수천·수백만 요청이 발생하면 비용이 급격히 증가하며 투자수익률(ROI)을 만족시키지 못한다는 것이다. 특히 그는 GPU 인프라 활용률 문제를 지적하며 "GPU를 확보한 기업 중 7%만이 85% 이상의 활용률을 달성하고 있다"고 밝혔다. GPU 자원의 공유와 효율적 분배가 어려워 비용 낭비가 커지고 AI 확산의 발목을 잡고 있다는 것이다. 레드햇은 이러한 한계를 극복하기 위해 오픈소스 기반의 효율적 대규모언어모델 추론 엔진(vLLM)과 분산 대규모언어모델 추론 프레임워크(llm-d) 기술을 제시했다. vLLM은 페이지드 어텐션과 연속 배칭 기술을 적용해 GPU 메모리 사용을 크게 개선하고 처리량을 대폭 높인다. llm-d는 쿠버네티스 네이티브 분산 추론 프레임워크로 vLLM을 기반으로 AI-인식 라우팅, 동적 오토스케일링 등을 통해 다양한 클라우드 및 가속기 환경에서 대형 언어모델 추론을 확장 가능하게 한다. 칼데이라 CTO는 "AI 효율성을 높이는 일은 단순히 비용 절감이 아니라, AI를 실제 비즈니스로 전환할 수 있는 핵심 조건"이라며 "vLLM과 llm-d를 통해 기업은 클라우드 네이티브 환경에서 보다 유연하고 비용 효율적인 AI 운영이 가능해질 것"이라고 말했다. 레드햇은 이날 차세대 통합 AI 플랫폼 '레드햇 AI 3(Red Hat AI 3)'도 공식 발표했다. AI 3는 효율적인 추론, 에이전틱(Agentic) AI 혁신, 데이터와 모델의 연결, 하이브리드 클라우드 전반의 확장성이라는 4가지 영역을 중심으로 설계됐다. 이번 버전에는 분산 추론 기능과 향상된 vLLM, 생성형 AI 스튜디오, 모델 컨텍스트 프로토콜(MCP), 라마스택(Llama Stack) API가 포함됐다. 또한 문서 처리 툴킷 '도클링(Docling)' 기반의 데이터 전처리, 합성 데이터 생성, 훈련 허브(Training Hub), 서비스형 GPU(GPUaaS)와 서비스형 모델(MaaS), 데이터 드리프트 감지 등 기능이 새롭게 추가됐다. 칼데이라 CTO는 "레드햇 AI 3는 오픈시프트 위에서 구동되며, 고객이 이미 익숙한 클라우드 운영 방식을 유지한 채 AI 워크로드를 손쉽게 확장할 수 있게 한다"며 "레드햇은 고객에게 완전히 새로운 플랫폼을 요구하지 않는다. 오픈시프트의 기반 위에 AI를 얹어, 이미 구축된 인프라 자산을 최대한 재활용할 수 있도록 지원하고 있다"고 덧붙였다. 김경상 한국레드햇 대표는 지난해부터 레드햇이 추진해 온 핵심 전략으로 AI 대중화를 꼽았다. 그는 올해 들어 AI 오픈소스 커뮤니티의 활성화와 엔터프라이즈 환경에서 사용할 수 있는 오픈소스 AI 플랫폼 제공이라는 두 가지 방향에서 의미 있는 성과를 거뒀다고 평가했다. 그는 국내 시장에서 특히 '오픈 협력 생태계' 구축에 속도를 내고 있다고 강조했다. 레드햇은 국산 반도체 스타트업 리벨리온과 협력해 NPU(신경처리장치)의 오픈시프트(OpenShift) 인증을 완료했으며 이를 기반으로 AI 인프라 최적화를 지원하고 있다. 또 개발자와 기업 고객을 대상으로 한 첫 번째 공식 vLLM 밋업을 개최해 오픈소스 AI 기술을 공유하고 협업 생태계를 확대했다. 김 대표는 레드햇의 차세대 AI 플랫폼 '레드햇 AI 3(Red Hat AI 3)'를 중심으로 국내 기업들의 AI 전환을 본격적으로 지원하겠다는 계획도 밝혔다. 그는 "많은 기업이 AI 파일럿 단계를 넘어 상용화를 추진하고 있지만, 여전히 고비용 GPU 인프라와 맞춤형 AI 구축의 부담이 크다"며 "레드햇은 GPU 가상화와 자원 효율화 기술을 통해 비용을 줄이고, 각 기업의 데이터와 환경에 맞는 맞춤형 AI 플랫폼을 제공하고 있다"고 설명했다. 또한 레드햇의 핵심 운영체제인 '레드햇 엔터프라이즈 리눅스(RHEL)'의 역할도 강조했다. 그는 "RHEL은 이미 통신, 금융, 유통 등 산업 전반에서 안정적인 인프라로 자리 잡았다"며 "내년에는 AI 환경에 최적화된 RHEL 10을 통해 고객들이 AI와 클라우드를 더욱 긴밀하게 통합할 수 있도록 지원할 것"이라고 밝혔다.

2025.10.28 17:27남혁우 기자

"AI 추론 시장 공략"…레드햇, 'AI 인퍼런스 서버' 출시

레드햇이 생성형 인공지능(AI) 모델 추론 강화를 위한 서버를 공개했다. 레드햇은 23일까지 미국 보스턴에서 열리는 '레드햇 서밋'에서 추론 서버 '레드햇 AI 인프런스 서버'를 출시했다고 밝혔다. 기업은 해당 서버를 통해 AI 모델을 보다 효율적이고 안정적으로 프로덕션 환경에 배포할 수 있는 기반을 마련할 수 있다. 이 서버는고속 대규모 언어모델 추론 엔진(vLLM) 오픈소스 프로젝트와 뉴럴매직 기술을 통합해 개발했다. 고속 추론 처리와 클라우드 환경 전반에 걸친 AI 가속기 지원, 비용 효율성 확보가 주요 특징이다. 레드햇 AI 인퍼런스 서버는 독립형 배포 또는 레드햇 엔터프라이즈 리눅스 AI(RHEL AI), 레드햇 오픈시프트 AI와 통합 형태로 제공된다. 추론 성능 병목을 해결하고, AI 모델 복잡성 증가에 따라 높아지는 리소스 요구를 줄이기 위한 목표다. 이 서버는 지능형 모델 압축 기능으로 자원 소비를 줄이고 정확도를 유지하거나 올릴 수 있다. 허깅페이스 플랫폼을 통한 모델 저장소 최적화뿐 아니라 검증된 고성능 모델에 대한 빠른 접근성을 제공한다. 레드햇은 이 제품을 통해 vLLM 기반 AI 추론을 기업용으로 확장하고 있다. vLLM은 대용량 입력 컨텍스트 처리, 연속 배치, 다중 그래픽처리장치(GPU) 지원 등으로 생성형 AI 추론의 새로운 표준으로 부상하고 있다. vLLM은 딥시크, 젬마, 라마, 미스트랄, 파이 같은 모델과도 높은 호환성을 보인다는 평가를 받고 있다. 라마 네모트론 같은 개방형 모델과 제로데이 통합도 지원한다. 기업은 다양한 모델과 가속기, 인프라 환경에서 선택할 수 있다. 레드햇 AI 인퍼런스 서버는 비레드햇 기반 리눅스나 쿠버네티스 환경에도 배포 가능하다. 서드파티 지원 정책을 통해 확장성과 유연성을 확보했다. 레드햇 제롬 루코 AI 제품 총괄은 "우리는 리눅스를 현대 IT 인프라 기반으로 전환해왔던 것처럼 AI 추론의 미래를 설계하는 데도 앞장서고 있다"며 "vLLM은 생성형 AI 추론의 핵심이며 이를 기업에 제공하는 것이 이번 제품의 핵심 목표"라고 밝혔다.

2025.05.21 14:17김미정 기자

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

美 연방정부 AI 활용 2년 새 4배…MS·구글·팔란티어가 깔았다

車산업 SDV 전환 속도내지만…SW·AI 인력 확보는 '난항'

과금보다 '재미'…넷마블 '게임 본질' 집중 전략, 글로벌 적중

삼성전자, 1분기 태블릿 출하량 12.6% 감소...애플은 7.9%↑

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.