아이티센인포유 이종복 대표 "AX 투자 80% 데이터, 전처리 비용 감축이 승부"
"많은 경영진이 인공지능(AI)을 도입할 때 '어떤 모델을 사용할 것인지'에 집중합니다. 하지만 실제 프로젝트 예산 중 80%가 데이터에 들어갑니다. 방대한 비정형 데이터를 AI가 학습 가능한 형태로 가공하는 '전처리' 과정 비용을 얼마나 줄이느냐가 AI 전환(AX) 승부처입니다." 12일 서울 성동구 사옥에서 만난 이종복 아이티센인포유 대표는 기업형 AI 도입 효율화 방안을 제시했다. 생성형 AI 모델보다 더 중요한 것은 그 밑단을 지탱하는 '데이터 전처리' 효율성이라는 설명이다. AX 모델링 비용은 20%...나머지 80%는 '데이터 전처리' 이 대표는 AI 프로젝트 현장 현실을 '빙산'에 비유했다. 수면 위로 드러나는 화려한 AI 모델과 서비스는 전체 프로젝트 20% 수준인 빙산의 일각에 불과하다는 것이다. 그는 "통상적으로 AI 프로젝트 전체 리소스와 비용 80%는 수면 아래에 있는 데이터를 수집하고, 이를 AI가 이해할 수 있는 형태로 다듬는 전처리 과정에 투입된다"며 "많은 기업이 이 80% 중요성을 간과한 채 20%인 모델링에만 집중하다가 예산 초과와 일정 지연이라는 늪에 빠진다"고 지적했다. 문제의 핵심은 기업 내부에 쌓인 데이터 형태가 AI에게는 적합하지 않다는 점이다. 수십 년간 축적된 계약서 PDF, 복잡한 수치가 포함된 재무 보고서, 설계 도면(CAD), 각종 이미지 등은 흔히 정형화된 데이터라고 생각하기 쉽다. 하지만 AI 관점에서 이는 모두 별도 해독과 재처리가 필요한 '비정형 데이터'일 뿐이다. 이 대표는 "사람은 문서를 보면 제목, 본문, 표, 그림을 직관적으로 구분하고 맥락을 이해하지만 AI는 이들을 텍스트, 도표, 이미지 단위로 나누고 다시 맥락을 연결하는 재조립 과정이 필수적"이라고 설명했다. 예를 들어 표가 포함된 문서를 단순히 텍스트로만 긁어오면 행과 열 수치가 섞여 AI가 부적합한 해석을 내놓게 된다. 또한 제조업 핵심인 설계 도면 역시 선과 면으로 이루어진 이미지를 AI가 인식할 수 있는 데이터 값(좌표 등)으로 변환하는 전처리 기술이 필요하다. 이 대표는 데이터베이스(DB) 역시 AI 친화적인 구조로 전환해야 한다고 강조했다. 기존 데이터 웨어하우스(DW)나 온라인 트랜잭션 처리(OLTP) 방식은 데이터 중복을 피하기 위해 테이블을 잘게 쪼개놓아 구조가 복잡하기 때문이다. 그는 "대규모 언어모델(LLM)은 테이블 간 연결이 많아질수록 길을 잃고 헤매기 쉽다"며 "AI가 데이터를 한 번에 쉽게 찾기 위해선 구조가 단순한 '별모양 스키마(Star Schema)' 구조로 전환하는 것이 유리하다"고 설명했다. 이종복 대표는 "이 방대한 전처리 과정을 사람이 일일이 수작업으로 진행한다면 비용과 시간은 기하급수적으로 늘어날 수밖에 없다"며 "결국 AI 도입 성패와 투자 대비 효과(ROI)는 얼마나 좋은 AI 모델을 쓰느냐가 아니라 이 복잡한 전처리 과정을 얼마나 자동화하고 효율화하여 비용을 낮추느냐에 달려 있다"고 강조했다. 최고급 엔진도 '저급 연료' 넣으면 고장...AI 성패는 '데이터 정제' 아이티센 인포유는 국내 대기업 고객사를 대상으로 서비스를 제공할 수 있었던 비결로 이런 문제 본질을 파고드는 '집요함'을 꼽았다. AI 시장 초기, 수많은 기업이 대규모언어모델(LLM) 성능을 자랑하거나 그럴듯한 데모 영상을 보여주는 데 급급할 때 아이티센 인포유는 정반대의 길을 택했다. 바로 고객사의 서버 깊숙한 곳에 쌓여있는 정제되지 않은 데이터를 직접 뜯어보고 구조화하는 '진흙탕 싸움'에 뛰어든 것이다. 이 대표는 당시 상황을 회상하며 "AI 도입을 원하는 고객사조차 보유한 데이터가 AI 학습에 적합한지 어디에 얼마나 있는지 모르는 경우가 태반이었다"고 말했다. 이에 아이티센 인포유는 단순히 AI 솔루션을 납품하는 데 그치지 않고 엔지니어를 투입해 수천, 수만 건에 달하는 비정형 데이터를 일일이 분석했다. 뒤죽박죽 섞인 문서 양식을 표준화하고 AI가 읽을 수 없는 저화질 이미지를 복원하거나 텍스트로 변환하는 등 남들이 기피하는 고된 작업을 도맡았다. 이 과정에서 축적된 노하우는 고스란히 독자적인 기술력이 됐다는 설명이다. 이 대표는 이를 자동차 엔진과 연료에 비유해 설명했다. "아무리 최고급 스포츠카 엔진(최신 AI 모델)을 가져다 놓아도 불순물이 섞인 저급 연료(정제되지 않은 데이터)를 넣으면 차는 고장이 나거나 제 속도를 내지 못한다"며 "우리는 단순히 좋은 엔진을 빌려오는 것을 넘어 그 엔진이 최고 성능을 발휘할 수 있도록 연료를 최상급으로 정제하는 기술에 집중했다"고 설명했다. 그 결과 아이티센 인포유는 데이터 수집부터 가공, 학습, 배포에 이르는 전 과정을 자동화한 '데이터 파이프라인' 구축 역량을 확보하게 됐다. 이 대표는 "단순히 데이터를 정리해 주는 용역 수준이 아니다"라며 "기업이 AI를 도입할 때 필연적으로 겪게 되는 '데이터 병목' 현상을 기술적으로 뚫어주고, 전처리 자동화 시스템을 통해 지속 가능한 AI 운영 환경을 만들어주는 것이 우리 핵심 경쟁력"이라고 강조했다. 비용 낭비 막는 'AI 오케스트레이션'...멀티 LLM이 핵심 데이터 처리 비용을 줄이는 것이 '초기 투자' 핵심이라면, AI 시스템을 지속적으로 운영하기 위한 '유지 비용(OpEx)'을 최적화하는 열쇠는 바로 '멀티 LLM(Multi-LLM)' 전략에 있다. 이 대표는 현재 많은 기업이 범하고 있는 오류 중 하나로 '고성능 만능주의'를 꼽았다. 그는 "단순한 사내 공지사항 검색이나 예약 업무를 처리하는 데, 1회 추론 비용이 매우 비싼 GPT-4나 제미나이 울트라 같은 최고 사양 상용 모델을 쓰는 것은 '소 잡는 칼로 닭을 잡는 격'"이라고 단언했다. 그는 기업의 AI 도입 목적이 다양하다는 점에 주목해야 한다고 설명했다. 창의적인 마케팅 문구를 쓰거나 복잡한 코드를 짜는 고난도 업무에는 고성능 상용 모델이 필요하지만, 정해진 매뉴얼 내에서 답을 찾는 업무에는 굳이 비싼 모델이 필요 없다는 것이다. 이 대표는 이에 대한 해법으로 오픈소스 기반 '경량화 모델(sLLM)'과 혼용을 제시했다. 그는 "예를 들어 보안이 생명인 인사(HR) 정보나 재무 데이터, 사내 규정을 다루는 AI는 외부 서버로 데이터가 나갈 필요가 없는 온프레미스 환경 sLLM으로 처리하는 것이 훨씬 안전하고 경제적"이라며 "반면 외부 트렌드 분석이나 방대한 일반 상식이 필요한 질문은 외부 고성능 API를 호출하도록 설계하면 보다 효율적"이라고 설명했다. 그는 "목적과 난이도에 따라 고성능 모델과 경량 모델, 상용 모델과 오픈소스 모델을 적재적소에 섞어 쓰는 하이브리드 전략이야말로 성능은 유지하면서 기업 AI 운영 비용을 낮추는 유일한 방법"이라고 조언했다. '데이터·AI 포털 통합'...제조업 강점 살린 '피지컬 AI'로 확장 이종복 대표는 올해 흩어져 있던 솔루션을 하나로 모으고 소프트웨어를 넘어 제조 현장으로 AI 영역을 확장할 계획이다. 이를 위해 별도로 운영 중인 '데이터 포털'과 'AI 포털'을 통합한다. 이 대표는 "데이터를 찾고 이를 분석해 AI 서비스를 만드는 전 과정을 끊김 없이 제공하는 것이 목표"라며 "이를 통해 공공 분야 온프레미스 시장 공략을 가속화하고 그룹사 간 시너지를 극대화하겠다"고 밝혔다. 중장기적인 비전으로는 '피지컬 AI(Physical AI)'를 제시했다. 글로벌 경쟁력을 갖춘 국내 제조 인프라 데이터를 기반으로 AI를 로봇 등 하드웨어와 결합하겠다는 구상이다. 이 대표는 "미국이나 중국이 휴머노이드 로봇 등 피지컬 AI에 막대한 투자를 하고 있다"며 "우리나라는 제조 현장 데이터가 풍부한 만큼 단순한 LLM 모델 경쟁을 넘어 제조 데이터와 AI를 결합한 애플리케이션 분야에서 승부를 본다면 충분히 승산이 있다"고 자신했다. 아울러 그는 AI 도입에 어려움을 겪는 중소·중견기업을 위한 '상생' 필요성도 강조했다. 이 대표는 "중견·중소기업이 인프라 비용 부담 없이 활용할 수 있는 한국형 AI 엔진과 지원 정책이 필요하다"며 "AI는 결국 데이터를 먹고 자라는 만큼, 아이티센 인포유가 가진 데이터 처리 기술력을 바탕으로 기업이 쉽고 빠르게 AI를 도입할 수 있도록 돕는 가장 든든한 파트너가 되겠다"고 포부를 밝혔다.