검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'메모리 병목'통합검색 결과 입니다. (2건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

[AI는 지금] "메모리 병목 뚫었다"…구글, '터보퀀트'로 AI 인프라 판 바꿀까

구글이 생성형 인공지능(AI) 운영의 최대 걸림돌로 꼽히는 '메모리 병목 현상'을 소프트웨어 혁신으로 풀어낸 차세대 압축 기술을 선보여 AI, 클라우드 업계도 들썩이고 있다. 하드웨어 추가 투입 없이 알고리즘만으로 메모리 사용량을 6배 줄이고 연산 속도를 최대 8배 높이는 혁신 기술인 만큼 비용 절감뿐 아니라 AI 인프라의 효율과 경쟁 구도를 동시에 흔들 수 있는 변수가 될 지 주목된다.26일 업계에 따르면 구글은 지난 24일 공식 블로그를 통해 '터보퀀트' 기술을 공개하고 대규모언어모델(LLM)과 벡터 검색 전반에서 메모리 병목을 완화할 수 있는 압축 알고리즘을 제시했다. 터보퀀트는 LLM의 임시 기억장치인 'KV 캐시'를 3비트 수준으로 압축해 정확도 손실 없이 메모리 사용량을 최소 6배 줄이는 기술이다. LLM은 고차원 벡터 데이터를 기반으로 작동하는 구조로, 이 데이터를 저장하는 'KV 캐시'가 막대한 메모리를 요구한다. 이로 인해 처리 속도와 비용이 동시에 증가하는 문제가 지적돼 왔다. 터보퀀트는 기존 압축 방식과 달리 데이터 값을 직접 줄이는 대신, 벡터의 표현 구조를 재구성하는 방식으로 접근한다. 좌표계를 변환해 데이터 구조를 단순화하는 '폴라퀀트'와 고차원 데이터의 거리와 관계를 유지하면서 오차를 최소화하는 'QJL(Quantized Johnson-Lindenstrauss)' 기법을 결합해 최소한의 손실로 압축 효율을 극대화했다. 구글은 "이 기술은 대규모 벡터 데이터를 최소한의 메모리로 처리하면서도 의미적 유사도를 정확하게 유지할 수 있도록 설계됐다"며 "LLM뿐 아니라 대규모 벡터 검색 시스템에서도 속도와 효율을 동시에 개선할 수 있다"고 설명했다. 이 기술은 오는 4월 열리는 ICLR 2026에서 정식 발표될 예정으로, 구체적인 성능과 적용 범위에 대한 추가 검증 결과도 공개될 전망이다. 업계에선 이 기술이 AI 모델 경쟁의 축이 변화하고 있음을 보여준다고 평가했다. 그동안 생성형 AI는 파라미터 규모 확대를 중심으로 발전해 왔지만, 실제 운영 단계에서는 메모리 사용과 데이터 이동이 주요 병목으로 작용해왔다. 터보퀀트는 연산량을 일부 늘리는 대신 메모리 사용을 줄이는 방식으로 이 균형을 재조정하며 동일한 하드웨어로 더 많은 작업을 처리할 수 있는 기반을 제공한다. 소프트웨어 측면에서도 의미가 크다. 터보퀀트는 모델을 재학습하지 않고 추론 단계에서 바로 적용할 수 있는 기술로, 기존 AI 모델과 인프라를 그대로 활용하면서 효율을 개선할 수 있다. 이는 AI 경쟁이 모델 개발 중심에서 실행 효율과 시스템 최적화 중심으로 이동하고 있음을 시사한다. 향후에는 KV 캐시 관리, 메모리 기반 스케줄링, 추론 엔진 최적화 등이 핵심 기술 영역으로 부상할 전망이다. AI 인프라 구조에도 변화가 예상된다. 지금까지는 GPU 연산 성능 확보가 핵심 과제로 꼽혔지만, 실제로는 메모리 대역폭과 용량이 성능을 좌우하는 경우가 많았다. 터보퀀트는 메모리 병목을 완화함으로써 GPU 활용도를 높이고 동일 자원으로 더 많은 추론 작업을 처리할 수 있게 한다. 이는 데이터센터 운영 효율을 크게 끌어올리는 요인으로 작용할 수 있다. 클라우드 사업자 입장에서는 비용 구조와 경쟁 전략 모두에 영향을 미친다. 메모리 사용 감소는 단위 추론 비용을 낮추는 동시에 더 많은 트래픽을 처리할 수 있는 여력을 제공한다. 비용이 낮아질수록 AI 서비스 사용량이 증가하는 특성을 감안하면 총 수요는 감소하기보다 확대될 가능성이 높다. 시장에선 터보퀀트 발표 이후 메모리 반도체 수요 둔화 가능성을 반영해 관련 종목이 약세를 보이기도 했다. 다만 업계에선 효율 개선이 오히려 더 긴 문맥 처리, 더 많은 사용자, 더 복잡한 서비스로 이어지면서 새로운 수요를 창출할 수 있다는 시각도 있다. 이 기술에 따른 온디바이스 AI 확산 가능성도 주목된다. 메모리 제약으로 인해 제한적이었던 모바일 환경에서도 보다 복잡한 LLM을 구동할 수 있는 여지가 생기기 때문이다. 이는 개인화 AI, 프라이버시 중심 서비스, 스마트폰 기반 AI 에이전트 확산으로 이어질 수 있을 것이란 기대감을 높이고 있다. 이종욱 삼성증권 연구원은 "효율적인 AI 모델은 전체 비용을 낮춰 더 많은 AI 계산 수요를 불러온다"며 "최적화 모델들은 반도체 자원을 줄이는 것이 아니라 같은 자원으로 더 높은 성능의 AI 서비스를 구현하는 데 사용되고 있다"고 분석했다.그러면서 "AI 업체들이 비용 경쟁이 아니라 성능 경쟁을 하는 한 비용 최적화는 반도체 수요에 영향을 미치지 않을 것"이라며 "(반도체 업계가) 걱정해야 할 순간은 AI로 더 할 수 있는 기능이 별로 없거나 AI 업체들이 경쟁을 멈출 때"라고 덧붙였다.

2026.03.26 16:43장유미 기자

SK하이닉스, GPU 넘는 메모리 중심 AI 가속기 구상

인공지능(AI)이 답을 내는 데 시간이 걸리는 진짜 이유가 '메모리 부족'이라 보고, SK하이닉스가 메모리 중심 가속기를 연구 중이다. 그래픽처리장치(GPU)보다 메모리를 훨씬 많이 탑재해 대형 언어모델(LLM) 추론 속도를 끌어올리겠다는 계획이다. 주영표 SK하이닉스 연구위원은 24일 서울 강남구 코엑스에서 진행된 제8회 반도체 산·학·연 교류 워크숍에서 'AI 시대를 위한 미래 메모리 솔루션 형성'이라는 제목으로 이같은 내용을 발표했다. 그는 “GPU와 다른 연산·메모리 비율을 갖는 추론형 가속기 구조를 고민하고 있다”며 “연산기보다는 메모리를 훨씬 더 많이 탑재해, 데이터 접근 대역폭을 극대화하는 방향으로 연구가 진행 중”이라고 밝혔다. “GPU보다 메모리를 더 많이 탑재한 추론형 가속기” 주 연구위원이 밝힌 추론형 가속기 구조는 메모리 특화 가속기다. 이 칩은 기존 GPU 대비 메모리 비중을 대폭 높인 추론형 칩이다. 패키지당 메모리 용량을 확대하, 메모리-연산기 간 접점 면적(쇼어라인)을 넓혀 연산기에 더 많은 대역폭을 공급하는 것이 목표다. 즉, 칩당 메모리 용량을 대폭 키우는 동시에, GPU가 메모리 병목 없이 데이터를 빠르게 공급받을 수 있게 하는 것이 핵심이다. 그는 “기존에는 중앙에 GPU, 주변에 HBM(고대역폭메모리)을 배치했지만, 앞으로는 HBM보다 더 많은 메모리를 탑재하고 인터페이스 쇼어라인을 확대해 대역폭을 극대화하는 구조를 지향한다”고 설명했다. LLM 추론 병목의 본질은 '연산' 아닌 '메모리' 메모리 특화 가속기가 필요한 이유로는 병목 현상을 지목했다. AI 추론 과정에서 메모리 병목이 GPU 효율을 크게 떨어뜨린다는 이유에서다. 주 연구위원은 “LLM 디코드 단계는 GPU 연산 자원을 20~30%밖에 활용하지 못한다”며 “대부분의 시간이 데이터를 읽고 쓰는 과정에 소모돼, GPU 성능이 아니라 메모리 대역폭이 병목으로 작용하고 있다”고 지적했다. 이러한 문제를 해결하기 위해 SK하이닉스는 HBM 외에 LPDDR(저전력 D램), 호스트 메모리 등과의 계층적 결합도 연구 중이다. 계층적 결합은 여러 종류 메모리를 계층으로 묶어, 데이터를 효율적으로 배치하고 이동시키는 방식이다. 필요한 데이터를 상황에 맞게 옮겨쓸 수 있다. 이를 통해 GPU가 LPDDR에 직접 접근하거나, CPU(인텔·ARM 기반) 메모리를 공유하는 방식으로 확장성을 확보한다는 구상이다. 그는 “AI 추론 환경의 병목은 이제 연산이 아니라 메모리 접근에 있다”며 “밴드위스(대역폭)를 극대화하기 위해 메모리-SoC 간 쇼어라인을 늘리고, 나아가 3D 적층 구조로 확장하는 방향이 유력하다”고 말했다. 이어 “업계 전반이 연산을 메모리 가까이 두는 구조로 전환 중"이라며 "하이닉스 역시 CXL·HBM·하이브리드 메모리 등 다양한 솔루션을 병행 연구하고 있다"고 덧붙였다.

2025.10.24 17:43전화평 기자