검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'GPU 클러스터'통합검색 결과 입니다. (6건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

아이티센씨티에스, 공공 SMR 플랫폼 개발 슈퍼컴 구축…풀스택 AI 입증

아이티센씨티에스가 공공 슈퍼컴퓨터 구축 사업을 수행하며 인공지능(AI)·고성능컴퓨팅(HPC) 인프라 기술력을 입증했다. 엔비디아 H200 기반 그래픽처리장치(GPU)와 자체 AI 운영 플랫폼을 결합해 풀스택 AI 인프라 역량을 확보했다는 평가다. 아이티센씨티에스는 한국원자력연구원의 SMR 가상 원자로 플랫폼(V-SMR) 개발을 위한 슈퍼컴퓨터 구축 프로젝트에 대규모 GPU 클러스터 플랫폼 도입과 시스템 구축을 완료했다고 14일 밝혔다. 이번 사업은 정부가 추진하는 '글로벌 톱 전략연구단' 사업의 일환으로 한국원자력연구원과 한국과학기술정보연구원(KISTI), 한국전자통신연구원(ETRI)이 공동 참여하는 대형 융합 프로젝트다. 사업은 2029년까지 단계적으로 추진될 예정이다. 프로젝트는 엔비디아 H200 기반 GPU 클러스터를 활용해 SMR 핵심 기술인 고신뢰도 원자로 시뮬레이션 환경을 구축하는 것이 목표다. 회사는 대규모 병렬 연산이 필요한 연구 환경에 맞춰 GPU 서버뿐 아니라 고속 네트워크와 스토리지, 관리 서버, 작업 스케줄러, 모니터링 체계 등을 통합한 HPC 인프라를 구축했다. 아이티센씨티에스는 이번 구축을 통해 원자로 고신뢰도 해석과 신속 해석 기술 개발을 위한 연구 기반을 마련했다고 설명했다. 향후 SMR 설계 검증과 안전성 평가를 지원해 국내 SMR 기술의 글로벌 경쟁력 제고에도 기여한다는 방침이다. 인프라 구축과 함께 연구 환경에 최적화한 AI 인프라 운영관리 체계도 구현했다. 오픈소스 기반 작업 스케줄러와 관리·모니터링 소프트웨어를 연구원 운영 환경에 맞게 커스터마이징해 작업 제출부터 GPU 자원 배분, 사용 현황 확인, 장애 대응까지 지원하는 HPC 운영 체계를 구축했다. 자체 개발한 AI 운영 플랫폼도 적용했다. 플랫폼은 중앙처리장치(CPU)와 GPU, 스토리지, 기반 설비의 사용량과 전력 소비를 실시간으로 모니터링하고 워크로드 변화에 따라 자원을 동적으로 재분배한다. 또 장애 발생 시 자동 복구 기능을 제공해 AI 전문 운영 인력이 부족한 환경에서도 안정적인 AI·HPC 인프라 운영을 지원한다. 아이티센씨티에스는 이번 프로젝트를 계기로 공공 연구기관과 기업을 대상으로 AI 인프라 구축부터 운영관리까지 아우르는 풀스택 AI 인프라 서비스를 확대한다는 방침이다. 남영수 아이티센씨티에스 부사장은 "이번 프로젝트는 우리가 단순 하드웨어 공급업체를 넘어 고객 AI 여정을 처음부터 끝까지 함께하는 풀스택 서비스 파트너임을 증명한 사례"라며 "검증된 인프라 기술력과 자체 운영 플랫폼을 바탕으로 국내 기업·공공기관이 가장 믿고 맡길 수 있는 AI 인프라 서비스 표준을 만들어가겠다"고 말했다.

2026.07.14 12:25한정호 기자

AI 데이터센터 성능·효율성 좌우하는 나노초 정밀 동기화

생성 AI 확산으로 데이터센터와 클라우드 인프라 투자가 빠르게 늘면서, AI 인프라 경쟁력의 핵심 요소도 크게 변화하고 있다. 과거에는 GPU를 얼마나 많이, 빠르게 확보하느냐가 중요했다면 최근에는 대규모 병렬 처리 환경에서 데이터 정확도를 유지하고 오차 시간을 최소화하는 역량의 중요성이 커지고 있다. 특히 대규모 데이터가 여러 노드를 거치는 AI 데이터센터는 수 많은 서버와 네트워크 장비가 동시에 움직이는 구조인 만큼, 데이터 흐름의 오차와 지연을 최소화하는 '정밀 타이밍 기술'이 핵심 인프라 요소로 주목받고 있다. 주요 시장조사업체에 따르면 오차 시간을 최소화하는 글로벌 타이밍 디바이스 시장 규모는 2023년 58억 달러(약 8조 7226억원)에서 2030년 96억 달러(약 14조 4374억원)까지 성장할 것으로 전망된다. 데이터 전송 시점·시스템 동기화 돕는 정밀 타이밍 솔루션 대규모 CPU·GPU가 동원된 AI 데이터센터에서는 서버·네트워크 간 동기화 정밀도가 AI 연산 효율과 전력 효율에도 영향을 미친다. 미국 국립표준기술연구소(NIST)와 IEEE 등은 초저지연 네트워크 환경에서 나노초(ns) 단위의 시간 동기화 중요성을 강조하고 있다. 정밀 타이밍 솔루션은 특수 소자인 크리스탈(Crystal)과 오실레이터(Oscillator) 기반으로 데이터 전송 시점을 정교하게 맞추고 시스템 간 동기화를 유지하며, 고도화된 AI 인프라의 안정성과 효율을 뒷받침하는 기반 기술로 평가된다. 최근에는 AI 데이터센터와 5G 통신 인프라 확산에 따라 초정밀 오실레이터(OCXO)와 고안정성 클럭 디바이스 수요도 증가하는 추세다. 이에 따라 글로벌 주파수 제어 및 타이밍 디바이스 시장을 선점하기 위한 주요 기술 기업들의 기술 경쟁도 한층 치열해질 것으로 예상된다. 엡손 "쿼츠 기반 타이밍 기술 산업계에 공급" 29일 엡손 관계자는 “AI 인프라 내 정밀 타이밍 솔루션 수요가 확대되는 가운데, 엡손이 오랜 기간 축적한 마이크로디바이스 기술이 다양한 산업 영역에서 활용되고 있다”고 설명했다. 엡손은 석영 기반 수정 진동자를 이용해 정밀하게 시간을 제어하는 쿼츠(Quartz) 기반 초정밀 타이밍 제어 기술을 보유하고 있다. 현재 글로벌 주파수 제어·타이밍 디바이스 시장에서 전통적인 쿼츠 기반 타이밍 제어 기술은 반도체 대비 여전히 주류 시장을 형성하고 있다. 엡손 관계자는 "엡손의 쿼츠 기반 기술은 현재 실시간클록(RTC) 모듈, 크리스탈(Crystal Unit) 및 오실레이터, 고정밀 센서 등을 아우르는 마이크로디바이스 사업으로 확대되고 있다"고 설명했다. "원천 소재 '합성 쿼츠'부터 직접 생산" 엡손은 통신 장비와 컴퓨터, 디지털 카메라, 자동차, 이동통신 기지국 등 다양한 전자·네트워크 인프라 분야에 관련 디바이스를 공급하고 있다. 핵심 소재인 '합성 쿼츠(Synthetic Quartz)'까지 자체적으로 육성·생산하며, 소재 단계부터 정밀 제어 기술을 내재화한 수직 통합형 생산 체계를 구축해왔다는 점도 특징이다. 이 같은 핵심 소재 및 공정의 내재화 방식은 지정학적 리스크와 전 세계적인 부품 공급망 불안정성 속에서 안정적인 고품질 제품 공급을 보장하는 전략적 기반이 된다. 동기화 오차 제어, HPC·AI 클러스터 효율 좌우 엡손 관계자는 “엡손의 사업 영역은 단순 전자부품 사업을 넘어 시스템 전체의 정확도와 안정성을 지원하는 방향으로 확대돼 왔다”고 설명했다. 이어 “물리적인 쿼츠 가공 기술과 미세전자기계시스템(MEMS) 기술을 결합해 다양한 산업 환경에서 요구되는 안정성과 정밀도를 구현해왔다”고 덧붙였다. 업계에서는 AI 데이터센터 고도화와 함께 관련 생태계 내에서 정밀 타이밍 기술과 마이크로디바이스 분야의 중요성도 점차 커질 것으로 예상한다. 이 같은 시장 변화에 발맞춰 글로벌 하드웨어 기업들 역시 B2C에서 고부가가치 B2B 인프라 영역으로 대대적인 체질 개선에 나서고 있다. 엡손 관계자는 "엡손은 전통적으로 프린터 중심의 B2C 이미지가 강했지만, 최근에는 통신·네트워크·산업·자동차 등 B2B 수요 기반 영역까지 사업 포트폴리오를 확대하고 있다"고 밝혔다. 이어 "최근 발표한 'ENGINEERED FUTURE 2035' 비전을 통해 80년 이상 축적해 온 '고효율·초소형·초정밀' 기술과 엔지니어링 역량을 기반으로 산업 및 사회 인프라 영역에서 사업 경쟁력을 강화하겠다는 전환 뱡항을 제시했다"고 덧붙였다.

2026.05.29 13:30권봉석 기자

GPU 국책과제 '그랜드슬램' 이노그리드, AI 인프라 풀스택 기업 도약

이노그리드가 정부 그래픽처리장치(GPU) 원천 기술 개발을 주도하며 클라우드 기업을 넘어 '인공지능(AI) 인프라 풀스택 사업자'로의 도약에 박차를 가한다. 단순 GPU 인프라 공급을 넘어 자원 공유와 클러스터 운영, 멀티 클라우드 기반 AI 반도체 통합 관리, GPU 서비스 표준화까지 AI 인프라 전 영역 기술 확보한다는 목표다. 이노그리드는 과학기술정보통신부와 정보통신기획평가원(IITP)이 추진하는 GPU 관련 원천 기술 과제 4건을 수행한다고 12일 밝혔다. AI 인프라 핵심 기술 전 영역을 아우르는 연구개발 역량을 확보했다는 평가다. 이번 사업은 AI·클라우드 원천기술 확보를 목표로 추진되는 총 256억원 규모 연구개발(R&D) 프로젝트다. 이노그리드는 ▲GPU 자원 공유 ▲GPU 클러스터 오케스트레이션 ▲이기종 AI 반도체 기반 AI 클라우드 관리 플랫폼(CMP) ▲서비스형 GPU(GPUaaS) 표준 기술 등 GPU 인프라를 구성하는 핵심 4대 기술 스택 전반을 확보하며 이른바 'GPU 그랜드슬램'을 달성했다고 강조했다. 특히 이번 과제 수행은 이노그리드가 올해 제시한 '프롬 xPU 투 AI 플랫폼(From xPU to AI Platform)' 기술 로드맵을 본격 실행하는 행보로 풀이된다. 기존 클라우드 인프라 사업 중심 구조에서 벗어나 중앙처리장치(CPU)·GPU·신경망처리장치(NPU) 등 이기종 컴퓨팅 자원을 통합 제어하는 AI 인프라 플랫폼 기업으로 사업 영역을 확장하는 전략이다. 이노그리드는 이번 과제를 통해 GPU 단위 자원 관리부터 클러스터 운영, 멀티 클라우드 기반 AI 반도체 통합 관리, GPU 서비스 표준화까지 이어지는 AI 인프라 전주기 기술 포트폴리오를 확보하게 됐다. 회사는 오는 2030년까지 누적 기준 총 100억원 규모 정부 R&D 재원도 확보하게 된다. 첫 번째 과제는 단일 노드 환경에서 GPU 자원을 분할·재구성하고 자원 간 간섭을 최소화하는 'GRIM-GPU' 기술 개발이다. 고가 GPU 활용률을 극대화하고 AI 인프라 운영 비용을 절감할 수 있는 핵심 기술로 평가된다. 두 번째는 대규모 GPU 클러스터 환경에서 자원을 자동 배치·확장·최적화하는 GPU 오케스트레이션 기술이다. 생성형 AI와 초거대언어모델(LLM) 확산으로 증가하는 AI 워크로드 수요에 대응하기 위한 기반 기술 개발에 나선다. 아울러 GPU뿐 아니라 NPU·데이터처리장치(DPU) 등 다양한 AI 반도체 자원을 멀티 클라우드 환경에서 통합 운영하기 위한 AI CMP 기술도 개발한다. 기존 CMP 기술을 AI 인프라 환경에 맞게 고도화해 이기종 AI 반도체를 단일 관점에서 제어·관리할 수 있는 체계를 구축한다는 목표다. 마지막으로 GPU 자원을 안정적인 서비스 형태로 제공하기 위한 GPUaaS 표준 기술 개발을 수행한다. 이는 향후 공공과 민간 시장에서 GPU 서비스 확산을 위한 기반 기술로 활용 범위가 확대될 전망이다. 이노그리드는 이번 과제를 통해 확보한 기술을 자사 AI 클라우드 생태계 '클라우디버스'와 연계해 AI 인프라 사업 경쟁력을 강화할 계획이다. 특히 합병을 앞둔 NHN클라우드의 GPUaaS 및 GPU 라이브 서비스와의 연계도 추진해 GPU 기반 AI 클라우드 서비스 확산 시너지를 창출한다는 방침이다. 김명진 이노그리드 대표는 "이번 GPU 원천 기술 과제 수행은 GPU 자원 레벨에서부터 클러스터 운영, 멀티 클라우드 관리, GPU 서비스 표준화까지 AI 인프라 전 영역 기술을 확보할 수 있는 중요한 계기"라며 "기술개발 과제 수행 결과가 회사의 실질적인 기술 자산으로 축적되고 현장에서 바로 활용 가능한 성과로 이어질 수 있도록 최선을 다하겠다"고 밝혔다.

2026.05.12 11:14한정호 기자

[AI 고속도로] '베라루빈' 도입·연내 구축 가능할까…정부 GPU 확충 쟁점은

정부가 '인공지능(AI) 고속도로' 구현을 위한 2조원 규모 최신 그래픽처리장치(GPU) 확충 사업에 착수한다. 엔비디아가 공개한 차세대 GPU '베라루빈' 도입 가능성까지 포함되면서 사업 방향과 세부 기준에 대한 업계 관심이 높아지고 있다. 과학기술정보통신부와 정보통신산업진흥원(NIPA)은 20일 서울 포스코타워 역삼에서 '2026년 AI컴퓨팅자원 활용기반 강화사업(GPU 확보·구축·운용지원)' 공모 사업설명회를 개최했다. 이날 현장에선 사업 구조와 평가 기준, 데이터센터 요건 등을 설명하고 현장 질의응답을 진행했다. 이병묵 NIPA AI인프라확충팀장은 "단기간 성패가 좌우되는 AI 시장에서 국가 차원의 첨단 GPU를 수요가 높은 곳에 조기 확보해 서비스로 지원할 계획"이라며 "민관 협력을 통해 AI 컴퓨팅 인프라를 즉각 확충하고 생태계 활력과 글로벌 경쟁 기반을 동시에 확보하겠다"고 밝혔다. 이날 설명회에는 지난해 사업에 선정된 네이버클라우드·NHN클라우드·카카오엔터프라이즈를 비롯해 KT클라우드 등 국내 클라우드 서비스 제공사(CSP)와 엘리스그룹이 자리했다. 또 삼성SDS·LG CNS 등 SI 기업과 메가존클라우드·디딤365, 레드햇·클러쉬, 델·HPE·IBM·넷앱·슈퍼마이크로 등 인프라 기업, 엔비디아·AMD·인텔, MS·구글 클라우드, SK텔레콤·쿠팡 등 60여개 기업 200여 명이 참석했다. 현장 질의응답에선 차세대 GPU 도입 기준을 비롯해 데이터센터 구축 방식, 글로벌 공급망 위협과 환율 변동에 따른 비용 부담, 연내 구축 일정 등 주요 쟁점을 중심으로 사업 참여를 검토하는 기업들의 질의가 이어졌다. 특히 베라루빈 도입 여부와 구축 일정 간 균형, 국내 인프라 중심 운영 원칙 등이 핵심 관심사로 부각됐다. 최신 GPU 중심 평가…베라루빈 도입 기준·일정 변수는 -사업 요건의 비용 대비 높은 GPU 성능은 어떤 기준으로 평가되나. "경제성 항목은 단순히 장비 수량을 많이 확보하는 개념이 아니라, 최신 GPU 기준으로 성능 대비 얼마나 효율적으로 제안하느냐를 보는 것이다. 동일한 예산 안에서 최신 아키텍처 GPU를 얼마나 확보할 수 있는지가 핵심이다. 구형 GPU를 대량으로 제안하는 방식보다는 최신 GPU 중심으로 실제 AI 학습과 추론에 적합한 성능을 확보했는지가 평가 포인트가 된다. 성능 대비 비용, 그 성능이 실제 AI 활용에 얼마나 적합한지를 종합적으로 볼 것이다." -베라루빈 제안 시 클러스터 구축 기준은 어떻게 적용되나. "베라루빈은 아직 구체적인 구성 방식이나 클러스터 단위가 완전히 정형화되지 않은 차세대 GPU다. 기존 블랙웰 계열과 동일한 기준을 그대로 적용하기는 어려울 수 있다. 이 부분은 칩 제조사와 공급망을 통해 확인해야 하는 영역이다. 제안 단계에선 가능한 범위에서 구성 계획을 제시하되, 세부 기준은 제조사 스펙과 실제 공급 조건을 반영해 판단하게 된다. 중요한 것은 차세대 GPU 도입 의지와 실현 가능성이다." -특정 제조사의 GPU만을 고려해 평가가 이뤄지는지. "이번 사업은 특정 칩 제조사를 배제하거나 제한하려는 것이 아니라, 국가 차원에서 AI 인프라를 가장 빠르게 확보하는 것이 목적이다. 현재 시장에서 대규모 AI 모델 학습과 서비스에 가장 널리 활용되는 최신 GPU를 중심으로 판단하게 된다. 다양한 선택지가 있을 수 있지만 실제 활용성과 안정성, 공급 가능성을 종합적으로 고려할 수밖에 없다." -베라 루빈 출시 일정과 연내 구축 목표가 충돌할 경우 기준은. "기본적으로 이번 사업은 연내 구축과 서비스 개시가 중요한 목표다. 다만 차세대 GPU 도입은 평가에서 우대 요소로 반영된다. 베라 루빈의 경우 일반적인 글로벌 공급 일정과 달리 국내 도입 시점이 앞당겨질 가능성도 있다. 관계 부처와 제조사 간 협의를 통해 국내 물량 확보를 추진해 왔다. 결국 일정과 최신성 두 요소를 함께 고려하되, 현실적인 공급 상황을 반영해 판단할 것이다." -GPU 납기 지연 등 변수 발생 시 일정 조정이 가능한가. "사업자가 최종 선정된 이후 협약 단계에서 시장 상황을 반영해 일부 조정은 가능하다. 기본 원칙은 유지하되, 실제 납기나 공급 이슈가 불가피하게 발생하는 경우까지 일률적으로 적용하기는 어렵다. 협약 과정에서 합리적으로 논의할 수 있는 여지는 있다." "국내 데이터센터 집적이 원칙"…냉각 인프라도 예산에 포함 -복수 데이터센터를 활용한 구축·운용이 가능한가. "데이터센터를 여러 개 제안하는 것은 가능하다. 다만 사업에서 요구하는 최소 클러스터 단위는 반드시 동일 공간 또는 동일 층에 물리적으로 집적돼야 한다. 대규모 AI 연산을 위해서는 GPU 간 통신 지연을 최소화하는 구조가 필요하기 때문이다. 따라서 분산 배치는 가능하지만, 핵심 클러스터는 집적형으로 구성해야 한다." -동일 제조사 내 서로 다른 GPU 모델을 혼합해 제안할 수 있나. "가능은 하지만 단순 혼합이 아니라, 각각의 GPU 구성에 대한 명확한 목적과 타당성을 제시해야 한다. 어떤 워크로드에 어떤 GPU를 쓰는지, 클러스터 단위 기준을 어떻게 충족하는지를 설명해야 한다. 단순히 여러 모델을 섞는 방식은 설득력이 떨어질 수 있다." -해외 데이터 연동이나 네트워크 활용은 원천 불가능한가. "사업의 기본 원칙은 국내 데이터센터에서 GPU를 직접 운영·통제하는 것이다. 국가 AI 인프라라는 특성상 데이터 주권과 보안이 중요하다. 다만 실제 운영 과정에서 필요한 세부 사항은 추가 논의를 통해 정리할 수 있다." -수냉 배관 등 데이터센터 공사 비용도 사업 지원비에 포함되나. "GPU 서버가 최고 성능을 낼 수 있도록 필요한 환경이라면 통합 구축 범위에 포함해 제안할 수 있다. 단순히 장비만 도입하는 것이 아니라 실제 운영 가능한 인프라를 구축하는 것이 목적이다. 전력·냉각·네트워크까지 포함한 전체 시스템 관점에서 제안하는 것이 중요하다." -콜드플레이트 등 냉각 구성 요소는 어떻게 반영해야 하나. "세부적인 하드웨어 구성은 서버 벤더와 칩 제조사 기준을 따르는 것이 바람직하다. GPU 성능을 충분히 발휘할 수 있는 구성이라면 관련 부대장비까지 포함해 제안하면 된다. 단순 장비 나열이 아니라 완성된 인프라로서 제안해야 한다." 환율 변수에도 제안가 기준…"사업 종료 후 관리는 정부가" -환율 변동에 따른 가격 차이는 추후 어떻게 반영되나. "기본적으로는 제안 시점에서 확보한 가격을 기준으로 본다. 공모 사업 특성상 사후 정산 구조이기 때문에 가격 변동이 발생하더라도 그 기준을 중심으로 관리하게 된다." -환율 급등 등 외부 변수 발생 시 대응은. "원칙은 제안 가격 기준이다. 다만 전쟁이나 글로벌 공급망 충격과 같은 불가피한 상황이 발생할 경우에는 협약 단계에서 논의가 필요할 수 있다. 모든 변수를 사전에 규정하기는 어렵지만 현실적인 범위에서 대응할 예정이다." -정부 활용분과 기업 자체 활용분은 어떤 기준으로 산정되나. "정부 활용분에 대해 요구되는 최소 클러스터 규모를 먼저 충족해야 하고 그 이후 남는 자원을 자체 활용분으로 설정하는 구조다. GPU 종류나 성능이 서로 다른 경우에는 단순 장수 기준만으로 판단하지 않고 도입 비용과 활용 목적까지 함께 고려해 전체 구성의 타당성을 평가한다. 단순 비율이 아니라 정부 활용 목적에 부합하는지와 자원 배분의 합리성을 종합적으로 볼 것이다." -정부 활용분 GPU에 대한 수요는 보장되나. "수요 모집과 배분은 정부가 담당한다. 사업자는 인프라를 제공하고 운영을 지원하는 역할을 수행하게 된다. 수요 확보 부담을 사업자에게 전가하는 구조는 아니다." -사업 종료 후 GPU 자산은 어떻게 되나. "GPU와 부대장비는 NIPA 자산으로 관리된다. 이후 처리 방식은 관련 규정과 절차에 따라 결정된다. 매각이나 이전 등 다양한 방안을 검토할 예정이다."

2026.03.20 17:58한정호 기자

NHN클라우드, 크래프톤 GPU 클러스터 사업 수주…운영 기술력 입증

NHN클라우드가 대규모 그래픽처리장치(GPU) 클러스터를 서비스형 GPU(GPUaaS)로 구축·운영하는 기술력과 역량을 입증했다. NHN클라우드는 크래프톤이 발주한 GPU 클러스터 사업 최종 사업자로 선정돼 계약을 체결하고 GPUaaS 기반 인프라를 제공한다고 19일 밝혔다. 이번 사업은 크래프톤이 지난해 10월 인공지능(AI) 퍼스트를 경영 핵심 전략으로 선언한 이후 AI 활용을 본격 확대하는 과정에서 증가하는 AI 연산 수요에 대응하기 위해 추진됐다. GPU 클러스터는 AI 플랫폼과 데이터 통합·자동화 기반 고도화 등 중장기 AI 전략을 안정적으로 실행하기 위한 핵심 기반으로, NHN클라우드가 제공하는 GPUaaS를 활용해 인프라를 유연하게 확장하고 운영 효율을 높이는 데 초점을 맞췄다. NHN클라우드는 이번 사업에서 대규모 GPU 클러스터를 제공함으로써 크래프톤의 AI 전략 실행을 뒷받침한다. NHN클라우드가 광주 국가 AI 센터를 자체 설계·구축하고 2021년부터 현재까지 GPUaaS 서비스를 안정적으로 제공해 온 기술력을 보유한 점과 수년간 다수 공공·민간 고객을 대상으로 AI 인프라 서비스를 운영해 온 경험이 이번 사업 파트너로 선정된 배경으로 꼽힌다. 또 고객 요구사항을 면밀히 분석해 함께 시스템을 설계·구축해 온 컨설팅 및 사업 수행 역량도 강점으로 작용했다. NHN클라우드는 이번 사업에서 엔비디아 최신 GPU인 블랙웰 울트라 1천여 장으로 구성된 GPU 팜을 멀티 클러스터 구조로 구성해 대규모 AI 연산 환경을 구축한다. 여기에 XDR-800G급 초고속 인피니밴드 네트워크를 적용해 GPU 간 대용량 데이터를 저지연·고속으로 전송할 수 있도록 설계한다. 이를 통해 여러 GPU를 동시에 사용하는 환경에서도 데이터 전송 지연을 최소화하고 고성능 GPU를 효과적으로 활용해 AI 모델 학습 속도를 높이는 한편 전반적인 AI 작업을 안정적으로 운영할 수 있도록 할 계획이다. NHN클라우드는 GPU 클러스터 구성 요소를 효율적으로 조합해 동일 예산 대비 실제 활용 가능한 GPU 연산 자원을 극대화했으며 장기적인 운영 효율까지 고려한 구조로 설계했다. 특히 GPU를 여러 작업이 함께 사용할 수 있도록 동적 관리 구조를 적용한다. 이를 통해 AI 개발·학습·추론 등 다양한 작업이 동시에 진행되더라도 GPU 자원을 필요에 따라 유연하게 나눠 쓰고 조정할 수 있어 유휴 자원을 최소화하고 전체 클러스터 활용 효율을 높일 계획이다. 이같은 GPU 리소스 동적 관리 방식은 소규모 AI 개발 환경부터 대규모언어모델(LLM) 학습까지 AI 작업 규모와 특성에 맞춰 GPU 활용도를 탄력적으로 조정할 수 있다. 아울러 NHN클라우드는 맞춤형 GPUaaS로 AI 개발과 운영 전반에 유연한 환경을 제공한다. 대규모 AI 학습과 연산 특성에 맞춰 쿠버네티스와 고성능 컴퓨팅(HPC) 환경에 적합한 슬럼 기반 자원 관리 솔루션을 적용해 다양한 AI 작업이 동시에 진행되는 환경에서도 안정적인 운영이 가능하다. 이에 더해 다양한 AI 개발 도구와 외부 시스템을 연동할 수 있는 구조를 갖춰 AI 서비스 개발 속도와 전반적인 업무 효율을 함께 높일 수 있도록 지원할 계획이다. 이번 블랙웰 울트라 GPU 인프라는 NHN클라우드 판교 NCC 센터에 구축된다. 판교 NCC는 고집적 연산을 원활히 운영할 수 있는 전력·냉각 인프라와 우수한 네트워크 연결성을 갖춰 대규모 AI 워크로드 처리에 적합한 시설이다. 해당 인프라는 오는 7월 중 구축을 완료하고 본격 가동될 예정이다. 크래프톤 관계자는 "AI 퍼스트 전략을 추진하는 과정에서 GPU 클러스터는 전사 AI 운영 핵심 기반"이라며 "NHN클라우드의 우수한 GPUaaS 서비스를 통해 AI 연구와 서비스 전반의 확장성과 효율성을 강화할 수 있을 것으로 기대한다"고 말했다. NHN클라우드 관계자는 "이번 프로젝트는 대규모 GPU 클러스터를 GPUaaS 형태로 구축·운영할 수 있는 우리 기술력과 운영 역량을 입증한 사례"라며 "7월 가동을 시작으로 크래프톤의 AI 퍼스트 전략을 실질적으로 뒷받침할 수 있도록 안정적인 클러스터 제공과 운영 기술 지원에 집중하겠다"고 밝혔다.

2026.01.19 10:51한정호 기자

'AI 고속도로' 주역된 네이버·카카오·NHN…민관 GPU 1.3만장 가동

정부가 1조4천600억원을 투입해 첨단 그래픽처리장치(GPU) 1만3천장을 확보하는 초대형 인공지능(AI) 인프라 사업을 본격 추진한다. 이번 사업은 국내 AI 컴퓨팅 자원의 부족 문제를 해소하고 소버린 AI 생태계 구축을 본격화하는 첫 단추로 평가된다. 과학기술정보통신부는 'AI 컴퓨팅자원 활용기반 강화사업'의 일환으로 추진한 'GPU 확보·운용지원' 사업의 최종 사업자로 네이버클라우드·NHN클라우드·카카오 등 3개사를 선정했다. 총 4개 기업이 신청서를 제출했지만 쿠팡은 최종 탈락했다. 최종 사업자로 선정돼 클라우드 3사는 대규모 GPU 클러스터를 구축하고 연내부터 산학연과 스타트업 등에 순차적으로 지원에 나선다. 이번 사업은 정부가 지난 5월 국회에서 확보한 1조4590억원 규모의 1차 추경 예산을 바탕으로 기획됐다. 엔비디아의 최신 GPU를 신속히 확보해 국내 AI 스타트업, 학계, 연구기관 등이 사용할 수 있도록 지원하는 것이 핵심이다. 당초 정부는 '국가AI컴퓨팅센터' 구축 사업과 연계해 이 사업을 진행하려 했으나, 해당 사업이 두 차례 유찰되면서 별도로 추진됐다. 그 결과 GPU 구매·운영 경험과 인프라 역량을 모두 갖춘 클라우드 3사가 낙점됐다. "실행력과 경험이 갈랐다"…클라우드 3사, 평가 앞선 이유는 정부는 사업자 선정에 있어 단순한 GPU 구매 가격만이 아니라, 실행 역량과 기술 내재화를 중점적으로 평가한 것으로 알려졌다. 평가 항목은 크게 ▲사업 이해도 및 추진역량 ▲구축계획의 우수성 ▲운영역량 및 사업관리 ▲AI 생태계 기여 계획 등이다. 가장 많은 점수를 차지한 것은 '구축계획의 우수성'이었다. 대규모 클러스터를 직접 구성할 수 있는 기술 내재화, 최신 GPU 확보 속도, 연내 서비스 가능성 등이 주요 관건으로 작용했다. 최종 선정된 클라우드 3사는 이미 자체 데이터센터를 보유하고 있으며 GPU 클러스터링 운영 경험도 충분해 안정적인 인프라 운용 능력을 인정받았다. 특히 서비스형 GPU(GPUaaS) 상용 서비스 경험이 있어 정부가 요구하는 빠른 실행력과 기술력 확보에서 앞섰다는 평가다. 네이버클라우드는 '각 춘천'과 '각 세종' 등 자체 데이터센터뿐만 아니라 올 초부터 LG CNS 죽전 데이터센터, LG유플러스 가산 데이터센터 등 외부 데이터센터 임차를 진행 중이다. NHN클라우드는 '광주 AI 데이터센터'를 운용해 왔으며 이번 사업에는 영등포 양평 데이터센터와 일산 삼송 데이터센터를 제시한 것으로 알려졌다. 카카오 역시 자체 데이터센터인 '카카오 데이터센터 안산'을 지난해부터 운영 중이다. 반면 쿠팡은 싱가포르계 엠피리온 디지털 데이터센터를 임차해 사업에 참여할 계획이었으나 클라우드 인프라 자체 운영 경험이 사업에 선정된 3사 대비 부족하다는 점에서 낮은 평가를 받은 것으로 알려졌다. 업계 한 관계자는 "이번 사업은 단순히 장비를 들여오는 것이 아니라 그것을 어떻게 안정적으로 운영하고 서비스로 전환하느냐에 방점이 찍힌 평가였다"며 "데이터센터 기반부터 클러스터링 운용 능력, GPUaaS 사업 경험까지 총체적 실행 역량을 검증한 것"이라고 설명했다. 엔비디아 B200·H200 1.3만장 확보…대형 클러스터 본격 가동 이번 사업으로 정부와 민간이 확보하는 GPU는 총 1만3천장으로, 엔비디아 B200 1만80장과 H200 3천56장을 확보할 계획이다. 이 중 정부가 직접 활용하는 GPU는 B200 8160장, H200 2296장 규모다. 구축될 GPU는 대규모 AI 워크로드에 대응할 수 있도록 클러스터 형태로 구성된다. 대표적으로 정부는 ▲B200 510노드(4천80장) ▲255노드 2세트(2천40장) ▲H200 255노드(2천40장)를 각각 클러스터링해 초대형 AI 연산 작업에 활용할 계획이다. 세 사업자가 확보한 GPU 물량을 살펴보면 먼저 NHN클라우드는 B200 총 7천656장 확보하며 가장 많은 물량을 담당할 예정이다. 이 중 6천120장은 정부 활용분이며 510노드·255노드 형태로 구성해 고밀도 수냉식 클러스터로 운용할 계획이다. 네이버클라우드는 H200 총 3천56장을 확보한다. 이 중 2천296장이 정부 활용분이다. H200 기반 255노드와 32노드 클러스터를 구성해 연내부터 본격 가동할 계획이다. 카카오는 B200 총 2천424장을 확보하고 정부 활용분인 2천40장은 255노드 단일 클러스터로 구성될 예정이다. GPU 활용은 어떻게? '통합지원 플랫폼'으로 접근성↑ 정부와 사업자들은 연내부터 확보한 GPU 자원을 필요로 하는 산학연과 스타트업 등에 순차적으로 배분한다. 이를 위해 온라인 기반의 'GPU 통합지원 플랫폼(가칭)'도 함께 구축하기로 합의했다. 해당 플랫폼이 구축되면 사용자는 GPU 자원을 자유롭게 신청하고 평가를 거쳐 적정 자원을 배정받게 된다. 유휴 자원이 발생할 경우 대기 수요자에게 자동으로 재분배하는 체계도 마련될 전망이다. 이번 사업의 운영 기간은 2030년까지로, 향후 국가AI컴퓨팅센터나 독자 AI 파운데이션 모델 프로젝트 등 국가 단위 AI 사업과도 연계될 가능성이 크다. 업계 관계자는 "지금까지는 GPU가 있어도 정작 필요한 곳에 닿지 못해 활용률이 낮은 경우가 많았다"며 "GPU 통합지원 플랫폼이 제대로 작동하면 컴퓨팅 자원이 특정 기업이나 연구기관에 편중되지 않고 스타트업이나 대학도 실질적으로 활용할 수 있는 생태계가 마련될 수 있을 것"이라고 말했다. 배경훈 장관 "AI 고속도로 바탕으로 소버린 생태계 본격 확장" 이번 GPU 확보 사업은 고성능 AI 연산 자원이 부족한 국내 현실에서 커다란 전환점을 마련했다는 게 업계 평가다. 그동안 AI 스타트업이나 대학, 중소기업은 대규모 모델 학습이나 추론 환경을 제대로 갖추지 못한 채 글로벌 클라우드 서비스에 의존한 사례가 많았다. 이제 정부 주도의 대규모 GPU 클러스터가 공공 형태로 공급되면 ▲초거대 AI 모델 학습 ▲멀티모달 AI 개발 ▲AI 응용 서비스 고도화 등이 보다 넓은 생태계 안에서 가능해질 전망이다. 업계 관계자는 "GPU 1만장 이상을 정부와 민간이 공동으로 확보하고 오픈된 구조로 운영하는 모델은 긍정적인 방향"이라며 "한국형 AI 생태계를 본격적으로 시작할 수 있는 자산이 될 것"이라고 강조했다. 이번 사업으로 정부는 다음 달 초부터 사업자 협약 체결과 GPU 발주를 본격화한다. 4분기부터는 베타 서비스를 시작하고 빠르면 연내 정식 서비스로 전환할 방침이다. 배경훈 과기정통부 장관은 "이번 첨단 GPU 확보는 대한민국이 AI 강국으로 도약하는 출발점"이라며 "AI 고속도로를 바탕으로 소버린 AI 생태계를 본격 확장해 나가겠다"고 밝혔다.

2025.07.29 11:01한정호 기자