이주평 삼성SDS 상무 "제조AI 핵심 데이터는 시계열"
"제조AI의 규모 경제는 데이터를 어떻게 모으느냐에 달려있습니다. 이 문제를 먼저 해결한 곳이 AI 코딩 에이전트입니다. AI코딩 에이전트가 어떻게 주류가 됐는지 연구해 벤치마킹할 필요가 있습니다." 이주평 삼성SDS 상무(SPC개발팀장)는 산업부가 5일 서울 강남 한국산업기술센터에서 개최한 '제 3회 M.AX 전문가 컨퍼런스'에서 발제자로 나서 이 같이 밝혔다. 'M.AX'는 Manufacturing AI Transformation의 약어로 제조AX를 말한다. 성공적인 제조업의 AI 대전환을 위해서는 양질 제조 데이터를 확보하고, 이를 적극적으로 활용할 수 있는 기반을 구축해야 한다. 이에 산업부는 이재명 정부 출범 1주년을 맞아 제조AX를 성공하기 위한 방안을 모색하는 분야별 전문가 컨퍼런스를 연속 개최하고 있다. 이날 컨퍼런스는 제조 데이터가 M.AX 추진 과정에서 왜 중요한지, 또 양질의 제조 데이터를 확보 및 활용하기 위해서는 어떤 인프라를 구축해야 하는지를 놓고 참석 전문가들이 발제하고 토의를 했다. 이 상무는 KAIST 학사, 석사, 박사 출신이다. 삼성전자 종합기술원 연구원과 삼성전자 메모리사업부 연구원, 미국 메타 소프트웨어엔지니어를 거쳐 2024년 삼성SDS에 입사했다. 이날 이 상무는 '제조AX 확산을 위한 AI데이터센터 역할'을 주제로 발제했다. 그는 AI데이터센터를 "학습과 추론을 위한 전용 인프라"라고 정의하며 "네오 클라우드와 AI팩토리라고도 부른다"고 설명했다. AI데이터센터 설계시 고려해야 할 다섯 가지도 제시했다. ▲부지 및 전력 인프라 선정 ▲AI 워크로드 정의(학습 및 추론 비중, 목표 서비스 및 LLM 규모, 레이턴시 쓰루풋 목표) ▲컴퓨팅 인프라 선정(GPU와 NPU 벤더 모델 선정과 CPU· 메모리·GPU 상세 스펙 결정)▲네트워크 및 스토리지 아키텍처(인피니밴드, RoCE 등 네트워크 기술과 고성능 스토리지 구성) ▲냉각 및 운영체계(공냉식과 수냉식 냉각 방식, 운영 자동화 및 안정성 확보) 등이다. 이어 AI인프라가 학습에서 추론 중심으로 이동하고 있다면서 "올해 전체 AI데이터센터 워크로드의 31%가 추론인데 이 비중이 2030년에는 40%로 확대할 것"이라고 내다봤다. 기존 데이터센터는 수많은 독립 서버의 집합이다. 반면 AI데이터센터는 수천 개 GPU가 초고속 네트워크로 연결돼 하나의 슈퍼컴퓨터처럼 동작한다. 이 상무는 AI데이터센터 특징 두 가지를 소개했다. 첫째, GPU 서버간 저지연(low-latency) 네트워크 연결이다. 수천~수백개 GPU가 동기화하므로 일부 노드의 미세한 지연도 전체 학습 효율 저하로 이어질 수 있다면서 "AI학습에서는 가장 느린 GPU가 전체 학습 속도를 결정한다"고 짚었다. 둘째, 단일 학습(trainnug job)을 수행하는 경우 폴트 톨로런스(fault-tolerance,장애 허용성, 컴퓨터 시스템이나 네트워크, 서비스의 일부에 장애가 발생하더라도 전체 시스템이 중단되지 않고 계속 동작할 수 있도록 하는 것)가 역시 매우 중요하다. 이 상무는 "메타는 라마3를 54일간 학습하면서 466회의 장애가 발생했다. 제대로 처리하지 않으면 학습을 처음부터 재수행해야 한다"고 들려줬다. AI 인프라의 폭발적 성장 예도 메타를 사례로 들었다. 이 상무는 메타에서 2018년부터 2024년까지 약 6년간 근무하기도 했다. 2020년만해도 메타는 AI클러스터당 256개 GPU를 소비(장착)했는데 2023년에는 2만4000개로 껑충뛰었다. 2024년에는 5개 데이터센터를 비워 12만9000개 GPU 클러스터를 구성했다. 2025년에는 엔비디아 GB200을 도입했고, 2026년에는 1기가와트(1GW)급 클러스터를 구축하고 있다. LLM 데이터와 제조데이터간 차이점도 설명하며 "제조AI의 핵심 데이터는 시계열(Time-Series) 데이터"라고 밝혔다. 반면 LLM데이터는 텍스트로 이뤄져 있다. 데이터 원천도 LLM은 인터넷과 오픈소스 인데 반해 제조데이터는 센서와 산업장비로 다르다. 생성패턴도 차이가 있어 비정기(LLM)와 지속적(제조데이터)이다. 특히 민감정보 마스킹과 익명화가 LLM은 쉬운데 반해 제조데이터는 매우 어렵다. 대표 AI는 LLM이 라마와 GPT고 제조데이터는 타임FM(TimesFM), 크로노스(Chronos), 팩토리넷(FactoryNet)이다. 이 상무는 "제조데이터 학습은 어렵다"면서 그 이유로 첫째, 제조 제이터 민감 정보는 더 암묵적이며 둘째, 시계열과 영상데이터로 인해 규모가 매우 크며 셋째, 정답(Label) 확보가 어렵다고 진단했다. 이어 제조AI는 엔터프라이즈 파인 튜닝(기업 특화), 제조파운데이션모델(제조 도메인), 오픈월드모델(범용기반)과 같은 여러 계층이 결합, 전체 제조AI 모델을 구성한다면서 "제조AI데이터센터 규모 경제는 제조데이터 공유와 활용에 달려있다"고 밝혔다. 디지털 트윈도 강조했다. 디지털 트윈은 실물 운영 데이터를 활용해 물리 환경과 동일한 가상 환경을 구성, 가상 시뮬레이션 결과를 실물 운영에 재반영, 비공개 루프 체계를 구현한 것이다. 이 상무는 "좋은 코드에 테스트 체계가 있듯이 좋은 제조 데이터에는 디지털트윈이 필요하다"고 말했다.