손 안에 AI 담는다...삼성, 온디바이스 최적화 기술 혁신
"삼성리서치는 제품 중심 연구를 통해 자체 설계한 압축 알고리즘으로 사용자의 손 안에서 직접 체감되는 AI 경험 개선을 목표로 하고 있다. 또한 AI의 성능을 높이는 AI 실행기, AI의 설계도 역할을 하는 아키텍처도 활발히 개발 중이다." 21일 함명주 삼성리서치 AI센터 마스터는 삼성전자 공식 뉴스룸과의 인터뷰를 통해 온디바이스AI 구현을 위한 핵심 기술에 대해 이같이 말했다. 사용자 언어를 이해하고 자연스러운 답변을 만들어내는 생성형 AI의 중심에는 거대언어모델(LLM)이 있다. 온디바이스 AI의 첫 단계는 이 거대한 모델이 모바일 기기 안에서도 잘 작동할 수 있도록 작게, 효율적으로 만드는 일이다. 함명주 마스터는 “수십억 개의 연산을 수행하는 초고도 지능 모델을 모바일 기기나 노트북에서 그대로 구동한다면 배터리가 빠르게 소모되고, 기기 발열이 심해지거나 응답 속도가 느려져 사용자 경험이 크게 저하될 것”이라며 이를 해결하기 위해 등장한 것이 '모델 압축' 기술이라고 소개했다. 압축이 중요한 온디바이스AI…삼성, 자체 알고리즘 개발 거대언어모델은 본래 매우 복잡한 숫자로 연산을 수행한다. 모델 압축 기술은 이 숫자를 보다 효율적으로 표현하기 위해 단순한 정수 형태로 바꾸는데, 이 과정을 '양자화(Quantization)'라고 한다. 함 마스터는 “고해상도 사진을 압축해 용량은 줄였지만 육안으로는 화질 차이가 거의 없는 상태를 유지하는 것과 비슷하다”며 “예를 들어, 32비트 부동소수점 실수로 계산하던 것을 8비트나 4비트 정수로 단순화하면 메모리 용량과 연산량이 크게 줄어 응답 속도가 빨라진다”고 설명했다. 양자화 과정에서 숫자의 정밀도가 낮아지면, 모델의 정확도가 떨어질 수 있다. 삼성리서치는 속도와 정확성의 균형을 잡기 위해 압축 이후의 성능을 세밀하게 측정하고 보정하는 알고리즘과 개발 도구를 함께 설계하고 있다. 함 마스터는 “모델 압축의 핵심은 단순히 작게 만드는 것이 아니라, 작지만 정확하고 빠른 모델을 만드는 것”이라고 강조했다. 그는 “최적화 알고리즘을 통해 압축 과정에서 모델의 손실 함수를 세밀하게 분석하고, 원래 결과값과 거의 근접한 값이 나올 때까지 학습시키거나 오차가 큰 구간을 부드럽게 다듬는다”며 “모델의 가중치마다 중요도가 다르므로, 중요한 가중치는 정밀하게 유지하고 덜 중요한 부분은 과감하게 압축하는 방식으로 효율을 극대화하면서도 정확도를 유지할 수 있다”고 말했다. 삼성리서치는 모델 압축 기술을 연구 수준에서 구현하는 데 그치지 않고, AI 폰과 가전 등 실제 제품 환경에 맞춰 직접 개발하고 상용화한다. 함 마스터는 “기종마다 메모리 구조나 연산 성능이 모두 다르기 때문에, 일반적인 접근으로는 클라우드 기반 AI 수준의 성능을 내기 어렵다”며 “삼성리서치는 제품 중심 연구를 통해 자체 설계한 압축 알고리즘으로 사용자의 손 안에서 직접 체감되는 AI 경험 개선을 목표로 하고 있다”고 설명했다. AI 성능을 끌어올리는 숨은 엔진, AI 실행 소프트웨어 AI 모델을 아무리 잘 압축하더라도, 기기 안에서 어떻게 구동되는지에 따라 체감 성능은 크게 달라진다. 삼성리서치는 모델이 실제로 작동하는 단계에서 기기의 메모리와 연산 자원을 가장 효율적으로 활용할 수 있는 'AI 실행기'를 개발하고 있다. 함 마스터는 “AI 실행기는 모델의 '엔진 제어장치'와 같다”며 “모델이 CPU, GPU, NPU 등 서로 다른 연산 장치에서 동시에 작동할 때, 어떤 연산을 어느 칩에서 처리할지 자동으로 배분하고 메모리 접근을 최소화해 AI의 성능을 높인다”고 설명했다. AI 실행기는 동일한 기종의 기기 내에서 더 크고 정교한 모델도 같은 속도로 실행할 수 있게 해 준다. AI 서비스의 응답 지연 시간이 줄어들 뿐만 아니라, 더 높은 정확도와 자연스러운 대화, 정교한 이미지 처리 등 AI 품질 자체가 향상될 수 있다. 함 마스터는 “온디바이스 AI에서 가장 큰 병목은 메모리 대역폭과 저장장치 접근 속도”라며 “메모리와 연산 간의 균형을 지능적으로 조정하는 최적화 기술을 개발하고 있다”고 말했다. 예를 들어, 모든 데이터를 메모리에 올려두지 않고 필요한 시점에만 불러올 수 있도록 설계해 효율을 높이는 방식이다. 함 마스터는 “삼성리서치는 모델 크기가 16GB 이상인 300억 파라미터 규모의 생성형 모델도 3GB 이하의 메모리로 구동할 수 있는 수준의 기술력을 갖췄다”고 덧붙였다. “더 가볍고 똑똑한 AI 모델 설계” 새로운 아키텍처 연구 AI의 설계도 역할을 하는 아키텍처(Architecture) 연구도 활발하게 진행되고 있다. 함 마스터는 “온디바이스 환경에서는 연산 자원과 메모리가 제한적이기 때문에, 모델이 기기에서 원활하게 동작할 수 있도록 구조 자체를 재설계해야 한다”며 “삼성리서치의 아키텍처 연구는 하드웨어 효율을 극대화하는 모델 설계에 집중하고 있다”고 설명했다. 거대언어모델의 학습에는 막대한 시간과 비용이 투입되는데, 초기에 모델 구조를 잘못 설계하면 이 비용이 크게 늘어날 수 있다. 삼성리서치는 학습 과정에서의 자원 낭비를 최소화하기 위해 학습 이전 단계에서 하드웨어 효율을 미리 예측하고, 구조적으로 최적화된 아키텍처를 설계하고 있다. 함 마스터는 “온디바이스 AI 시대에서 핵심 경쟁력은 같은 자원으로 얼마나 높은 효율을 끌어낼 수 있느냐에 있다”며 “작은 칩 안에서 최대의 지능을 구현하는 것이 우리가 지향해야 할 기술적 방향성”이라고 말했다. 현재 대부분의 거대언어모델은 '트랜스포머(Transformer)' 아키텍처를 기반으로 한다. 트랜스포머 아키텍처는 문장 전체를 한 번에 확인하며 단어 간 관계를 계산하는 방식으로, 문맥 이해에는 뛰어나지만 문장이 길어질수록 계산량이 기하급수적으로 증가한다는 한계가 있다. 함 마스터는 “트랜스포머 아키텍처의 한계를 극복하기 위해 다양한 기술적 접근 방식을 검토하는 동시에, 실제 기기 환경에서 얼마나 효율적으로 작동할 수 있는지를 중심으로 평가하고 있다”며 “단순히 기존 방법을 개선하는 수준을 넘어 새로운 방법론을 도입한 '다음 단계의 아키텍처'를 만드는 데 집중하고 있다”고 강조했다.