"GPU만 늘려선 AI 못 돌린다"…韓 데이터 인프라 한계 경고
AI 경쟁이 세계적으로 격화되는 가운데, 한국이 핵심 경쟁 요소인 데이터 인프라에서 뒤처지고 있다는 지적이 나오고 있다. 막대한 투자가 GPU(그래픽처리장치) 확보에만 쏠리면서, 정작 AI 학습 성능을 좌우하는 메모리·데이터 경로(data pipeline) 개선에는 상대적으로 관심이 부족하다는 것이다. 8일 반도체 업계 안팎에서는 AI 학습 과정에서 반복적으로 나타나는 병목 현상의 핵심 원인으로 '기존 서버 구조에 머문 데이터 인프라'를 꼽는다. AI 모델의 규모와 학습량은 기하급수적으로 증가하고 있지만, 데이터를 GPU로 충분히 공급하는 기반은 여전히 CPU 중심의 전통적 구조에 놓여 있다는 진단이다. 그 결과 GPU는 계산 능력을 모두 활용하지 못한 채 대기하고, 데이터베이스(DB)는 처리량 한계에 부딪히며 SSD는 입출력(I/O) 병목을 초래하는 현상이 시스템 전반에서 반복되고 있다. GPU는 더 빨라졌지만…데이터는 따라가지 못해 현재 고성능 GPU는 초당 수 테라바이트(TB/s)급 대역폭을 제공하는 HBM(고대역폭 메모리)을 탑재하고 있다. 그러나 가장 최신 AI 반도체인 엔비디아 B200 용량이 192GB(기가바이트) 수준으로, GPT-4·5 같은 대형 모델이 요구하는 5~10TB 메모리양에는 턱없이 부족하다. HBM 용량이 부족해지는 순간 GPU는 외부 메모리에서 데이터를 가져와야 한다. 이때 CPU 서버의 D램 용량은 충분하지 않고, 부족분은 SSD에서 읽어야 한다. SSD는 속도가 D램 대비 최대 1천배 느리다. 결국 GPU는 연산을 수행할 수 있어도 필요한 데이터가 제때 도착하지 않아 지연되는 시간이 길어진다. 업계 안팎에서 실제 GPU 평균 활용률이 35% 수준에 그친다는 평가가 나오는 이유다. 프라임마스 박일 대표는 “GPU가 쉬고 있는 이유는 알고리즘 때문이 아니라 데이터를 제때 공급받지 못해서다”라며 “AI 시대의 병목은 연산이 아니라 데이터 인프라에서 발생한다”고 지적했다. 대안은 CXL 기반 '초대용량 메모리 풀링' 이같은 병목을 해결하기 위한 기술로 전 세계에서 주목하는 것이 CXL(컴퓨트 익스프레스 링크)다. CXL은 고성능 서버에서 CPU(중앙처리장치)와 함께 사용되는 GPU 가속기, D램, 저장장치 등을 효율적으로 활용하기 위한 차세대 인터페이스다. 이를 활용하면 메모리를 모듈 단위로 확장하거나 여러 서버가 메모리를 풀 형태로 공동 활용할 수 있어, GPU가 데이터를 기다리는 시간을 크게 줄일 수 있다. 반도체 업계 관계자는 “GPU 성능을 아무리 높여도, GPU가 쉬지 않게 만드는 데이터 인프라가 받쳐주지 않으면 의미가 없다”며 “CXL 기반 메모리 확장은 앞으로 AI 인프라의 기본 전제가 될 것”이라고 말했다. CXL 시장 개화 더뎌...생태계 미성숙·비용 부담 등 이유 업계에서는 CXL의 필요성에는 이견이 없지만, 실제 시장 도입은 예상보다 더디게 진행되고 있다고 평가한다. 가장 큰 이유는 생태계 미성숙이다. CXL을 활용하려면 CPU, 메모리 모듈, 스위치, 서버 운영체제, 소프트웨어 스택 등 전 영역에서 표준과 호환성을 확보해야 한다. 그러나 아직까지는 제조사별 구현 방식이 다르고, 서버 업체가 이를 통합해 안정적으로 제공하기까지 시간이 필요하다는 지적이 제기된다. 또 다른 걸림돌로는 비용 부담이 꼽힌다. CXL 메모리 확장 모듈은 초기 단계인 만큼 가격이 높고, 이를 활용하기 위한 서버 구조 변경에도 추가 비용이 발생한다. 반도체 업계 관계자는 “GPU 구축에도 수십억 원이 들어가는데, 여기에 CXL 기반 메모리 풀링 시스템까지 갖추려면 기업 입장에서 비용 부담이 커진다”고 말했다. 또한 기존 데이터센터와 다른 방식으로 리소스를 풀링해야 하기 때문에, 시스템 아키텍처와 OS를 깊이 이해한 전문 인력의 확보가 필요하다는 점도 확산을 늦추는 요소로 꼽힌다. 韓, GPU 쏠림 심각… 데이터 인프라 경쟁력 확보해야 문제는 한국이 GPU 확보 경쟁에는 적극적이지만, AI 데이터 인프라 자체에 대한 투자와 전략은 상대적으로 부족하다는 점이다. 정부와 기업들이 경쟁적으로 GPU 클러스터 도입 계획을 발표하고 있지만, 정작 데이터 경로·메모리 확장·스토리지 I/O 개선 등 핵심 기반을 강화하려는 논의는 충분히 이뤄지지 않고 있다. 이런 상태에서는 GPU 보드를 아무리 많이 도입하더라도 실제 학습 효율은 낮고, 전력 비용과 데이터센터 운영 부담만 증가하는 악순환이 반복될 수 있다는 우려가 나온다. 박 대표는 “AI 주권을 이야기한다면 GPU보다 먼저 데이터 인프라 주권을 확보해야 한다”며 “GPU가 쉬지 않게 만드는 시스템이 진짜 AI 경쟁력”이라고 했다.