검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'AI 반도체 최적화'통합검색 결과 입니다. (2건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

[유미's 픽] "엔비디아 쿠다 장벽 넘자"…AI 반도체, SW 경쟁 불붙었다

인공지능(AI) 반도체 기업들이 잇따라 모델 최적화 소프트웨어 역량 확보에 나서고 있다. 칩 설계만으로는 AI 인프라 경쟁에서 우위를 점하기 어려워지면서 한정된 컴퓨팅·메모리 자원으로 더 많은 연산을 처리하는 소프트웨어 기술의 가치가 부각되는 분위기다. 퀄컴은 지난달 24일 AI 소프트웨어 기업 모듈러를 약 40억 달러 규모 주식 거래로 인수하겠다고 발표했다. 모듈러는 AI 모델을 다양한 칩에서 실행할 수 있도록 돕는 소프트웨어 기업이다. 로이터는 이번 인수가 퀄컴을 엔비디아 '쿠다(CUDA)'와 경쟁하는 소프트웨어 플랫폼 경쟁에 올려놓는 움직임이라고 평가했다. 국내에서도 비슷한 흐름이 나타났다. AI 반도체 기업 리벨리온은 지난달 30일 AI 추론 최적화 기업 스퀴즈비츠 인수를 발표했다. 스퀴즈비츠는 대형 AI 모델을 더 적은 연산·메모리 자원으로 구동하기 위한 모델 압축과 양자화, 추론 최적화 기술을 보유한 기업이다. 리벨리온은 이번 인수를 통해 신경망처리장치(NPU) 하드웨어와 소프트웨어 최적화, 추론 서빙을 함께 제공하는 통합 AI 인프라 기업으로 사업 범위를 넓힌다는 계획이다. 업계 관계자는 "AI 반도체 기업 입장에선 자체 칩 위에서 고객 모델을 빠르고 안정적으로 실행시키는 역량이 영업 경쟁력과 직결된다"며 "칩을 공급하는 데 그치지 않고 실제 워크로드 성능까지 입증해야 하는 수요가 커진 셈"이라고 설명했다.AI 모델 최적화 기업 노타도 같은 날 퓨리오사AI의 데이터센터용 NPU 환경에서 LG AI연구원의 엑사원 236B 최적화 결과를 공개해 주목받았다. 엑사원 236B는 약 2360억 개 파라미터 규모의 대형 AI 모델로, 노타는 모델 크기를 약 71% 줄이면서도 주요 평가 항목에서 원본과 유사한 수준의 정확도를 유지했다. 데이터센터 인프라 최적화 기업 망고부스트도 AI 실행 효율 경쟁의 한 축으로 꼽힌다. 망고부스트는 데이터처리장치(DPU)를 앞세워 네트워킹·스토리지·보안 등 데이터센터 인프라 작업을 중앙처리장치(CPU)에서 분리하는 기술을 개발해왔다. AI 모델 자체를 줄이는 방식은 아니지만 GPU와 서버 자원을 AI 연산에 더 집중시키는 구조라는 점에서 모델 최적화 기업들과 같은 수요를 겨냥하고 있다는 평가를 받는다. 이처럼 AI 반도체 시장에서 성능 최적화 소프트웨어 기업들이 주목받게 된 것은 생성형 AI 활용 방식이 달라지면서 모델 실행 능력이 더욱 중요해지고 있어서다. 대형언어모델(LLM)이 단순 실험 단계를 넘어 서비스와 업무 시스템에 적용되면서, 기업들은 칩의 이론 성능보다 실제 운영 환경에서 응답 속도와 처리량을 유지하면서 비용을 낮추는 역량을 더 중시하고 있다. 하지만 모델 규모가 커질수록 기업들의 비용 부담은 갈수록 늘어나는 추세다. 특히 LLM은 파라미터 규모가 클수록 추론 과정에서 많은 메모리와 연산 자원을 필요로 한다. 여기에 긴 문맥 처리, 검색증강생성(RAG), AI 에이전트처럼 반복 호출이 많은 서비스가 늘면서 데이터 이동량과 지연시간 관리 부담도 함께 증가하고 있다. 이로 인해 메모리 효율도 AI 인프라 경쟁의 핵심 변수로 떠오르고 있다. 고성능 메모리 확보 경쟁이 이어지고 있지만 모든 기업이 충분한 GPU와 메모리를 확보하기는 어렵다. 같은 하드웨어라도 모델 압축, 양자화, 컴파일러, 런타임, 추론 서빙 구조에 따라 필요한 서버 수와 운영비가 달라질 수 있어 최적화 소프트웨어의 중요성이 커지고 있다.엔비디아가 GPU 시장에서 구축한 소프트웨어 생태계도 반도체 기업들의 움직임을 자극하고 있다. 엔비디아는 GPU 성능뿐 아니라 쿠다를 중심으로 한 개발자 생태계와 소프트웨어 도구를 앞세워 AI 인프라 시장에서 우위를 확보했다. 이에 후발 AI 반도체 기업들은 하드웨어 성능만으로 고객을 설득하기 어려워졌고, 모델 실행과 개발 편의성을 함께 제시해야 하는 압박을 받고 있다. 국내 기업들도 이 같은 구도 변화에 맞춰 전략을 조정하고 있다. 리벨리온은 스퀴즈비츠 인수로 NPU와 최적화 소프트웨어 결합에 나섰고, 퓨리오사AI는 노타와 협력해 대형 모델의 NPU 구동 가능성을 넓히고 있다. 망고부스트는 DPU 기반 인프라 오프로딩으로 데이터센터 내부 병목을 줄이는 방식으로 AI 실행 효율 경쟁에 참여하고 있다. 업계에선 AI가 데이터센터를 넘어 산업 현장으로 확산될수록 최적화 수요가 더 커질 것으로 예상했다. 자동차, 로봇, 제조 설비 등은 전력과 지연시간, 보안 요건이 데이터센터와 다른 만큼, 범용 모델을 그대로 배포하기보다 각 산업과 칩 환경에 맞게 조정하는 역량이 AI 인프라 기업의 경쟁력이 될 것으로 보인다. 이 같은 분위기 속에 AI 반도체 시장이 하드웨어 공급 경쟁을 넘어 소프트웨어 스택 경쟁으로 재편될 가능성도 높아지고 있다. 특히 칩 설계, 모델 최적화, 런타임, 추론 서빙, 인프라 오프로딩을 촘촘하게 묶어 제공하는 기업이 고객 확보에서 유리한 위치를 차지할 것으로 전망된다. 업계 관계자는 "AI 반도체 기업이 고객을 설득하려면 벤치마크 수치뿐 아니라 실제 모델을 자사 칩에서 얼마나 효율적으로 돌릴 수 있는지를 제시해야 한다"며 "소프트웨어 최적화 역량이 없는 칩은 데이터센터와 산업 현장에서 채택 속도가 느릴 수밖에 없다"고 말했다. 그러면서 "AI 인프라 비용 부담이 커질수록 기업들은 같은 서버 자원으로 더 많은 추론을 처리할 수 있는 기술을 찾게 된다"며 "앞으로 AI 반도체 경쟁력은 칩 성능과 함께 모델 최적화, 메모리 효율, 데이터센터 운영 효율을 함께 제공할 수 있느냐에 따라 갈릴 것"이라고 덧붙였다.

2026.07.01 10:53장유미 기자

[유미's 픽] "연산보다 메모리"…구글 '터보퀀트' 등장에 엔비디아도 '긴장'

구글이 생성형 인공지능(AI) 운영의 핵심 병목으로 꼽혀온 '메모리 문제'를 소프트웨어 방식으로 풀어내는 기술을 공개하면서 AI 인프라 경쟁의 방향이 바뀌고 있다. 모델 규모 확대 중심이던 기존 경쟁 구도가 실행 효율과 메모리 최적화 중심으로 이동하고 있다는 분석이 나온다. 27일 업계에 따르면 최근 대규모언어모델(LLM) 운영에서는 연산 성능보다 메모리 처리 효율이 전체 성능을 좌우하는 사례가 늘고 있다. LLM은 답변 생성 과정에서 이전 정보를 반복적으로 참조하는 구조를 갖고 있어 데이터 접근 과정에서 발생하는 지연이 속도와 비용을 동시에 제한하는 요인으로 작용한다. 현재 엔비디아 H100 등 최신 그래픽처리장치(GPU) 도입으로 연산 성능은 크게 향상됐지만, 메모리 대역폭과 데이터 이동 효율은 상대적으로 제한돼 있다. 실제 서비스 환경에서는 GPU 연산보다 메모리 접근이 병목으로 작용하는 경우가 적지 않다. 이 같은 흐름 속에서 AI 추론 시스템을 구성하는 기술 구조에 대한 이해도 중요해지고 있다. AI 추론은 모델, 메모리 구조, 실행 소프트웨어, 하드웨어가 단계적으로 결합된 형태로 작동한다. 우선 모델은 연산 과정에서 생성된 정보를 메모리에 저장하고 이를 반복적으로 참조한다. 이 과정에서 메모리 사용량이 급격히 증가하며 병목이 발생한다. 이를 해결하기 위한 접근이 메모리 압축 기술로, 데이터 표현을 줄이는 양자화(Quantization) 방식과 데이터 구조를 효율적으로 인코딩하는 방식이 함께 발전하고 있다. 이 가운데 구글이 지난 24일 공개한 터보퀀트(TurboQuant)는 데이터 표현 방식을 재구성하는 양자화 기반 접근으로, 메모리 사용량을 줄이면서도 정확도를 유지하는 데 초점을 맞춘 기술로 평가받는다. 엔비디아 역시 같은 문제를 두고 다른 접근을 시도하고 있다. 특히 최근에는 KV 캐시를 효율적으로 저장하기 위한 'KV 캐시 트랜스폼 코딩(KV Cache Transform Coding)' 기반 기술을 앞세우고 있다. 이는 데이터를 단순히 제거하는 방식이 아닌, 정보 구조를 효율적으로 인코딩해 저장 효율을 높이는 접근에 가깝다. 다만 모델별 특성에 맞춘 보정 과정이 필요하다는 점에서 적용 방식에는 차이가 있다. 두 기술 모두 메모리 압축을 목표로 하지만 접근 방식에는 차이가 있다. 터보퀀트가 양자화를 기반으로 정확도 손실을 최소화하는 데 초점을 둔 반면, KV 캐시 트랜스폼 코딩은 인코딩 효율을 높여 압축률을 끌어올리는 기술로 분석된다. 두 기술은 기존 메모리 최적화 기술의 연장선에선 의미 있는 진전으로 평가된다. KV 캐시의 정밀도를 낮추는 양자화 기법은 GPTQ, AWQ 등 오픈소스 진영과 스타트업을 중심으로 확산돼 왔고, 중요도가 낮은 토큰을 선택적으로 제거하는 방식이나 슬라이딩 윈도우 기반 메모리 관리 기법도 일부 모델에 적용돼 왔다. 또 메모리 접근을 줄이는 어텐션 최적화 기술은 데이터 전송 횟수를 줄여 속도를 높이는 플래시어텐션(FlashAttention) 등으로 발전하며 주요 AI 기업과 연구 커뮤니티에서 활용되고 있다. 업계 관계자는 "양자화나 토큰 프루닝 같은 기법은 이미 널리 쓰이고 있지만, 실제 서비스에서는 정확도나 안정성 문제 때문에 적용 범위가 제한적인 경우가 많다"며 "KV 캐시 자체를 압축 대상으로 삼는 접근은 구현 난이도는 높지만, 제대로 적용되면 체감 성능을 크게 바꿀 수 있는 영역"이라고 밝혔다. 메모리 압축과 더불어 모델 실행 방식 자체를 개선하려는 소프트웨어 경쟁도 확대되고 있다. vLLM, 텐서RT-LLM(TensorRT-LLM)을 비롯해 라마(llama.cpp) 등 다양한 추론 엔진들이 등장하며 요청 처리 방식과 메모리 관리 효율을 높이는 방향으로 발전하고 있다. 특히 vLLM은 미국 UC버클리 연구진이 주도해 개발한 오픈소스 추론 엔진으로, 요청을 효율적으로 묶어 처리하고 페이지드어텐션(PagedAttention) 구조를 통해 메모리를 동적으로 관리하는 방식으로 처리 효율을 높인다. 엔비디아가 개발한 텐서RT-LLM(TensorRT-LLM) 역시 GPU 연산을 최적화해 추론 속도를 개선하는 소프트웨어로, 데이터센터 환경에서 널리 활용되고 있다. 추론 엔진은 모델 자체를 변경하지 않고도 실행 방식만으로 성능을 개선할 수 있다. 동일한 모델이라도 어떤 실행 소프트웨어를 사용하느냐에 따라 처리 속도와 비용이 달라지는 구조다. 업계 관계자는 "같은 모델이라도 vLLM이나 텐서RT 같은 추론 엔진 설정에 따라 처리량 차이가 크게 난다"며 "실제 서비스에서는 모델보다 실행 스택이 성능을 좌우하는 경우도 적지 않다"고 설명했다. 메모리 압축 기술과 추론 엔진이 결합된 뒤 최종 연산은 GPU에서 수행된다. 특히 최신 GPU 환경에서는 연산 성능보다 메모리 활용 효율이 전체 성능을 좌우하는 경우가 많아지면서 소프트웨어 기반 최적화의 중요성이 더욱 커지고 있다. 이와 함께 AI 경쟁의 방향도 변화하고 있다. 그동안 생성형 AI는 더 많은 데이터를 학습하고 더 큰 모델을 구축하는 데 집중해 왔지만, 최근에는 동일한 모델을 얼마나 빠르고 비용 효율적으로 운영할 수 있는지가 핵심 경쟁력으로 부상하고 있다. 업계 관계자는 "대규모 서비스에서는 모델 성능보다 추론 효율이 비용 구조를 좌우하는 경우가 더 많다"며 "메모리 구조와 추론 엔진을 함께 최적화하지 않으면 GPU를 늘려도 수익성을 맞추기 어려운 단계에 들어섰다"고 말했다.

2026.03.27 12:11장유미 기자