검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'AI 병목'통합검색 결과 입니다. (4건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

[AI는 지금] 구글, 학습·추론 모두 효율로 승부…AI 인프라 판 흔든다

구글이 여러 데이터센터에 나뉜 연산 자원으로 대규모 인공지능(AI) 모델을 학습시키는 기술을 공개했다. 통신량과 장애 영향을 줄인 구조로, 초거대 AI 인프라 경쟁에서도 성능 못지않게 효율이 핵심 변수로 떠오르고 있다. 구글 딥마인드는 23일(현지시간) 공식 블로그를 통해 '디커플드 디로코(Decoupled DiLoCo)'를 발표했다. 대규모 학습 작업을 여러 개의 독립된 연산 단위로 나누고, 이들 사이에 비동기식으로 데이터를 주고받는 구조다. 동일한 칩을 하나의 대형 클러스터로 묶어 동기 상태를 유지하는 기존 방식과 달리 떨어진 데이터센터의 연산 자원을 여러 학습 단위로 나눠 운영하는 것이 핵심이다. 디커플드 디로코는 여러 지역에 나뉜 연산 자원을 묶어 학습을 이어가는 분산 학습 구조다. 특정 구역에서 장애가 발생해도 전체 학습이 멈추지 않도록 설계했다. 구글은 이 구조를 적용해 미국 4개 지역에서 120억 개 매개변수(12B) 모델을 2~5기가비피에스(Gbps) 광역망으로 학습시켰고, 기존 동기화 방식 대비 20배 이상 빠른 결과를 냈다. 또 별도 전용망 없이도 광역 네트워크 수준에서 생산급 분산 사전학습이 가능하다는 점도 강조했다. 장애 상황을 가정한 실험도 진행했다. 카오스 엔지니어링(chaos engineering) 방식으로 하드웨어 장애를 넣은 환경에서 일부 학습 단위가 중단된 뒤에도 전체 학습을 이어갔다. 또 복구된 단위는 다시 체계에 편입됐다. 특정 장비나 특정 구역의 문제가 전체 학습 작업으로 번지는 영향을 줄이도록 설계한 구조란 점에서 주목된다. 디커플드 디로코는 기존 디로코(DiLoCo)를 확장한 기술이다. 구글 딥마인드는 지난 2023년 연결성이 낮은 여러 연산 구역에서도 언어모델을 학습할 수 있는 저통신 분산 학습 기술인 디로코를 공개했다. 당시 8개 작업 단위 기준 완전 동기식 최적화와 유사한 성능을 내면서도 통신량은 500배 줄였다고 밝힌 바 있다. 이번에는 여기에 비동기 데이터 흐름과 장애 격리 구조를 더했다. 이는 구글의 6세대 텐서처리장치(TPU)인 트릴리움 운용 전략과도 연결된다. 구글은 디커플드 디로코를 통해 'TPU v6e'와 'TPU v5p' 등 서로 다른 세대의 칩을 하나의 학습 작업에 함께 투입할 수 있다고 설명했다. 신형 칩이 모든 지역에 동시 배치되지 않는 만큼, 최신 칩 확보뿐 아니라 기존 설비 활용도도 AI 인프라 경쟁력을 가르는 요소로 부상하고 있다. 이와 별개로 구글은 추론 병목 완화에도 속도를 내고 있다. 특히 구글 리서치가 지난 3월 공개한 '터보퀀트(TurboQuant)'는 생성형 AI 운영의 최대 걸림돌로 꼽히는 메모리 병목을 압축 기술로 줄일 수 있다는 점에서 업계의 높은 관심을 받았다. 터보퀀트는 LLM의 임시 기억장치인 'KV 캐시'를 3비트 수준으로 압축해 정확도 손실 없이 메모리 사용량을 최소 6배 줄이는 기술이다. 이를 통해 구글은 디커플드 디로코로 학습 단계에서 네트워크와 장애 영향을 줄이고, 터보퀀트로 추론 단계에서 메모리 병목을 낮추는 방식으로 AI 인프라 전반의 효율 개선에 나선 것으로 보인다. 경쟁사들도 비슷한 방향으로 움직이고 있다. 엔비디아는 블랙웰 계열에서 추론 성능과 함께 토큰당 비용 절감, 전력 효율을 강조하고 있다. 마이크로소프트(MS)는 마이아 200(Maia 200)을 AI 토큰 생성의 경제성을 높이기 위한 추론 가속기로 소개했다. 메타는 MTIA 로드맵을 공개하며 맞춤형 반도체를 인공지능 인프라 전략의 중심에 두겠다고 밝혔다. 아마존웹서비스(AWS)도 트레이니엄3 울트라서버를 내놓으며 비용 효율과 에너지 효율을 전면에 내세웠다. 다만 구글은 칩 성능이나 서비스 단가에만 초점을 맞추지 않았다는 점에서 차별화된 모습을 보이고 있다. 학습 단계에선 데이터센터 간 분산 학습 구조를 손보고, 추론 단계에선 메모리 병목을 줄이는 방식으로 접근 범위를 넓혔다. 서로 다른 세대의 하드웨어를 함께 쓰는 구조까지 제시한 점도 특징이다. 업계 관계자는 "이제 AI 인프라 경쟁은 더 많은 칩 확보에서 끝나지 않는다"며 "분산된 자원을 얼마나 안정적으로 묶어 학습시키고, 추론 비용을 얼마나 낮추느냐가 핵심 경쟁력으로 떠오르고 있다"고 설명했다.

2026.04.24 16:43장유미 기자

[AI는 지금] "메모리 병목 뚫었다"…구글, '터보퀀트'로 AI 인프라 판 바꿀까

구글이 생성형 인공지능(AI) 운영의 최대 걸림돌로 꼽히는 '메모리 병목 현상'을 소프트웨어 혁신으로 풀어낸 차세대 압축 기술을 선보여 AI, 클라우드 업계도 들썩이고 있다. 하드웨어 추가 투입 없이 알고리즘만으로 메모리 사용량을 6배 줄이고 연산 속도를 최대 8배 높이는 혁신 기술인 만큼 비용 절감뿐 아니라 AI 인프라의 효율과 경쟁 구도를 동시에 흔들 수 있는 변수가 될 지 주목된다.26일 업계에 따르면 구글은 지난 24일 공식 블로그를 통해 '터보퀀트' 기술을 공개하고 대규모언어모델(LLM)과 벡터 검색 전반에서 메모리 병목을 완화할 수 있는 압축 알고리즘을 제시했다. 터보퀀트는 LLM의 임시 기억장치인 'KV 캐시'를 3비트 수준으로 압축해 정확도 손실 없이 메모리 사용량을 최소 6배 줄이는 기술이다. LLM은 고차원 벡터 데이터를 기반으로 작동하는 구조로, 이 데이터를 저장하는 'KV 캐시'가 막대한 메모리를 요구한다. 이로 인해 처리 속도와 비용이 동시에 증가하는 문제가 지적돼 왔다. 터보퀀트는 기존 압축 방식과 달리 데이터 값을 직접 줄이는 대신, 벡터의 표현 구조를 재구성하는 방식으로 접근한다. 좌표계를 변환해 데이터 구조를 단순화하는 '폴라퀀트'와 고차원 데이터의 거리와 관계를 유지하면서 오차를 최소화하는 'QJL(Quantized Johnson-Lindenstrauss)' 기법을 결합해 최소한의 손실로 압축 효율을 극대화했다. 구글은 "이 기술은 대규모 벡터 데이터를 최소한의 메모리로 처리하면서도 의미적 유사도를 정확하게 유지할 수 있도록 설계됐다"며 "LLM뿐 아니라 대규모 벡터 검색 시스템에서도 속도와 효율을 동시에 개선할 수 있다"고 설명했다. 이 기술은 오는 4월 열리는 ICLR 2026에서 정식 발표될 예정으로, 구체적인 성능과 적용 범위에 대한 추가 검증 결과도 공개될 전망이다. 업계에선 이 기술이 AI 모델 경쟁의 축이 변화하고 있음을 보여준다고 평가했다. 그동안 생성형 AI는 파라미터 규모 확대를 중심으로 발전해 왔지만, 실제 운영 단계에서는 메모리 사용과 데이터 이동이 주요 병목으로 작용해왔다. 터보퀀트는 연산량을 일부 늘리는 대신 메모리 사용을 줄이는 방식으로 이 균형을 재조정하며 동일한 하드웨어로 더 많은 작업을 처리할 수 있는 기반을 제공한다. 소프트웨어 측면에서도 의미가 크다. 터보퀀트는 모델을 재학습하지 않고 추론 단계에서 바로 적용할 수 있는 기술로, 기존 AI 모델과 인프라를 그대로 활용하면서 효율을 개선할 수 있다. 이는 AI 경쟁이 모델 개발 중심에서 실행 효율과 시스템 최적화 중심으로 이동하고 있음을 시사한다. 향후에는 KV 캐시 관리, 메모리 기반 스케줄링, 추론 엔진 최적화 등이 핵심 기술 영역으로 부상할 전망이다. AI 인프라 구조에도 변화가 예상된다. 지금까지는 GPU 연산 성능 확보가 핵심 과제로 꼽혔지만, 실제로는 메모리 대역폭과 용량이 성능을 좌우하는 경우가 많았다. 터보퀀트는 메모리 병목을 완화함으로써 GPU 활용도를 높이고 동일 자원으로 더 많은 추론 작업을 처리할 수 있게 한다. 이는 데이터센터 운영 효율을 크게 끌어올리는 요인으로 작용할 수 있다. 클라우드 사업자 입장에서는 비용 구조와 경쟁 전략 모두에 영향을 미친다. 메모리 사용 감소는 단위 추론 비용을 낮추는 동시에 더 많은 트래픽을 처리할 수 있는 여력을 제공한다. 비용이 낮아질수록 AI 서비스 사용량이 증가하는 특성을 감안하면 총 수요는 감소하기보다 확대될 가능성이 높다. 시장에선 터보퀀트 발표 이후 메모리 반도체 수요 둔화 가능성을 반영해 관련 종목이 약세를 보이기도 했다. 다만 업계에선 효율 개선이 오히려 더 긴 문맥 처리, 더 많은 사용자, 더 복잡한 서비스로 이어지면서 새로운 수요를 창출할 수 있다는 시각도 있다. 이 기술에 따른 온디바이스 AI 확산 가능성도 주목된다. 메모리 제약으로 인해 제한적이었던 모바일 환경에서도 보다 복잡한 LLM을 구동할 수 있는 여지가 생기기 때문이다. 이는 개인화 AI, 프라이버시 중심 서비스, 스마트폰 기반 AI 에이전트 확산으로 이어질 수 있을 것이란 기대감을 높이고 있다. 이종욱 삼성증권 연구원은 "효율적인 AI 모델은 전체 비용을 낮춰 더 많은 AI 계산 수요를 불러온다"며 "최적화 모델들은 반도체 자원을 줄이는 것이 아니라 같은 자원으로 더 높은 성능의 AI 서비스를 구현하는 데 사용되고 있다"고 분석했다.그러면서 "AI 업체들이 비용 경쟁이 아니라 성능 경쟁을 하는 한 비용 최적화는 반도체 수요에 영향을 미치지 않을 것"이라며 "(반도체 업계가) 걱정해야 할 순간은 AI로 더 할 수 있는 기능이 별로 없거나 AI 업체들이 경쟁을 멈출 때"라고 덧붙였다.

2026.03.26 16:43장유미 기자

양자 보안 시대, NPU가 핵심 인프라로 떠오르는 이유

양자컴퓨터 시대를 대비한 양자내성암호(PQC) 전환이 본격화되면서, NPU(신경망처리장치)가 차세대 보안 인프라의 핵심 요소로 부상하고 있다. NPU가 PQC 연산을 직접 수행하는 것은 아니지만, PQC 도입으로 증가하는 시스템 부담을 흡수하는 역할을 맡으면서 존재감이 커지고 있다는 평가다. PQC는 기존 암호 체계를 대체하는 차세대 보안 기술로, 양자컴퓨터 환경에서도 안전성을 유지하는 것을 목표로 한다. 그러나 PQC는 대규모 행렬·다항식 연산을 요구해 연산량과 전력 소모가 크게 늘어나게 된다. 이로 인해 인증, 통신, 업데이트 과정에서 CPU 부담이 증가한다. 특히 엣지 디바이스 환경에서는 성능 저하와 지연이 문제로 지적된다. PQC 도입이 만든 시스템 부담 30일 반도체 업계에서는 PQC로의 전환을 단순한 암호 알고리즘 교체가 아니라 시스템 설계 전반의 문제로 보고 있다. 연산량 증가로 인한 CPU 병목을 어떻게 완화하느냐가 PQC 도입의 현실성을 좌우한다는 분석이다. PQC를 위한 암호 연산 자체는 여전히 CPU와 HSM(하드웨어 보안 모듈), TPM(하드웨어 기반 보안 칩) 등 보안 영역에서 수행된다. 신뢰 경계와 보안 요구사항 때문이다. NPU가 PQC 연산을 직접 처리하는 구조는 아닌 셈이다. 문제는 PQC 도입으로 인해 CPU에 연산이 집중된다는 점이다. 이를 그대로 둘 경우 시스템 전체의 효율과 안정성이 급격히 떨어질 수 있다. 이 때문에 업계에서는 PQC 전환 과정에서 연산 부하를 분산할 수 있는 구조가 필요하다는 지적이 나온다. NPU, 연산을 대신하지 않고 부담을 나눈다 이 과정에서 NPU의 역할이 부각되고 있다. NPU는 AI 추론을 위해 설계된 가속기로, 저지연과 전력 효율이라는 구조적 강점을 갖는다. 김현호 AMD 재팬 연구원은 “NPU의 가치는 단순한 성능 수치보다 저지연과 전력 효율에 있다”며 “PQC처럼 시스템 전반의 연산 부담을 키우는 기술이 도입될수록 이런 특성이 더욱 중요해진다”고 설명했다. NPU는 AI·데이터 처리 등 기존 CPU 워크로드 일부를 오프로딩함으로써 CPU가 암호 연산에 집중할 수 있는 여유를 만든다. 오프로딩은 CPU 부담을 다른 가속기로 분산하는 구조를 의미한다. 김 연구원은 “NPU가 PQC 연산을 직접 수행하는 것은 아니지만, 그 과정에서 발생하는 유사한 연산 부담을 분산시켜 시스템 차원에서 PQC를 가능하게 한다”고 말했다. 업계에서는 PQC 연산과 NPU 연산이 구조적으로 유사한 점이 많지만 완전히 동일하지는 않다고 보고 있다. 이로 인해 NPU의 역할이 단순화돼 전달되는 경우도 있었지만, 시스템 관점에서 보면 PQC 전환 흐름 속에서 NPU가 자연스럽게 핵심 인프라로 자리 잡고 있다는 분석이 나오는 이유다. 다만 국내 업계에서는 보다 신중한 시각도 제기된다. NPU가 PQC 구현의 중심으로 보기에는 다소 이르다는 의견이다. 오히려 PQC 병목 해결의 현실적인 방법으로 NTT(Number Theoretic Transform) 최적화를 제시했다. 국내 팹리스 ICTK 관계자는 “PQC 성능의 핵심 병목은 여전히 다항식 연산, 특히 NTT 최적화에 있다”며 “현재로서는 CPU와 전용 암호 가속기를 중심으로 성능을 끌어올리는 접근이 가장 현실적”이라고 말했다. 이어 “NPU는 시스템 부하 완화 측면에서 의미가 있지만, PQC 구현의 중심 축으로 보기는 이르다”고 덧붙였다.

2025.12.31 09:09전화평 기자

SK하이닉스, GPU 넘는 메모리 중심 AI 가속기 구상

인공지능(AI)이 답을 내는 데 시간이 걸리는 진짜 이유가 '메모리 부족'이라 보고, SK하이닉스가 메모리 중심 가속기를 연구 중이다. 그래픽처리장치(GPU)보다 메모리를 훨씬 많이 탑재해 대형 언어모델(LLM) 추론 속도를 끌어올리겠다는 계획이다. 주영표 SK하이닉스 연구위원은 24일 서울 강남구 코엑스에서 진행된 제8회 반도체 산·학·연 교류 워크숍에서 'AI 시대를 위한 미래 메모리 솔루션 형성'이라는 제목으로 이같은 내용을 발표했다. 그는 “GPU와 다른 연산·메모리 비율을 갖는 추론형 가속기 구조를 고민하고 있다”며 “연산기보다는 메모리를 훨씬 더 많이 탑재해, 데이터 접근 대역폭을 극대화하는 방향으로 연구가 진행 중”이라고 밝혔다. “GPU보다 메모리를 더 많이 탑재한 추론형 가속기” 주 연구위원이 밝힌 추론형 가속기 구조는 메모리 특화 가속기다. 이 칩은 기존 GPU 대비 메모리 비중을 대폭 높인 추론형 칩이다. 패키지당 메모리 용량을 확대하, 메모리-연산기 간 접점 면적(쇼어라인)을 넓혀 연산기에 더 많은 대역폭을 공급하는 것이 목표다. 즉, 칩당 메모리 용량을 대폭 키우는 동시에, GPU가 메모리 병목 없이 데이터를 빠르게 공급받을 수 있게 하는 것이 핵심이다. 그는 “기존에는 중앙에 GPU, 주변에 HBM(고대역폭메모리)을 배치했지만, 앞으로는 HBM보다 더 많은 메모리를 탑재하고 인터페이스 쇼어라인을 확대해 대역폭을 극대화하는 구조를 지향한다”고 설명했다. LLM 추론 병목의 본질은 '연산' 아닌 '메모리' 메모리 특화 가속기가 필요한 이유로는 병목 현상을 지목했다. AI 추론 과정에서 메모리 병목이 GPU 효율을 크게 떨어뜨린다는 이유에서다. 주 연구위원은 “LLM 디코드 단계는 GPU 연산 자원을 20~30%밖에 활용하지 못한다”며 “대부분의 시간이 데이터를 읽고 쓰는 과정에 소모돼, GPU 성능이 아니라 메모리 대역폭이 병목으로 작용하고 있다”고 지적했다. 이러한 문제를 해결하기 위해 SK하이닉스는 HBM 외에 LPDDR(저전력 D램), 호스트 메모리 등과의 계층적 결합도 연구 중이다. 계층적 결합은 여러 종류 메모리를 계층으로 묶어, 데이터를 효율적으로 배치하고 이동시키는 방식이다. 필요한 데이터를 상황에 맞게 옮겨쓸 수 있다. 이를 통해 GPU가 LPDDR에 직접 접근하거나, CPU(인텔·ARM 기반) 메모리를 공유하는 방식으로 확장성을 확보한다는 구상이다. 그는 “AI 추론 환경의 병목은 이제 연산이 아니라 메모리 접근에 있다”며 “밴드위스(대역폭)를 극대화하기 위해 메모리-SoC 간 쇼어라인을 늘리고, 나아가 3D 적층 구조로 확장하는 방향이 유력하다”고 말했다. 이어 “업계 전반이 연산을 메모리 가까이 두는 구조로 전환 중"이라며 "하이닉스 역시 CXL·HBM·하이브리드 메모리 등 다양한 솔루션을 병행 연구하고 있다"고 덧붙였다.

2025.10.24 17:43전화평 기자