"생성AI 위한 데이터레이크하우스, 숨은 병목을 보라"
“데이터레이크는 아마존웹서비스(AWS)의 오브젝트 스토리지인 아마존 S3와 함께 보편화됐다. 오브젝트 스토리지와 전통적인 SAN, NAS는 파일위치를 담은 메타정보를 중앙에서 관리하며 파일을 찾는 방식이고, 분산된 파일이 많아지면 자원을 찾는 비용이 증가한다. 챗GPT처럼 분석 모델을 학습할 때 분석용 파일 자체가 수백만에서 수억건에 달하는 경우라면 메타 정보에서 병목현상이 발생한다.” 권동수 효성인포메이션시스템 전문위원은 본지와 인터뷰에서 'AI에 최적화된 데이터 스토리지 시스템'의 필요성을 이같이 설명했다. 그는 “전통적인 NAS, SAN과 오브젝트 스토리지의 성능 한계를 넘어서려면 메타정보도 분산처리하는 병렬파일시스템이 필요하다”며 “효성인포메이션시스템은 메타정보를 분산처리하는 파일시스템에 하드웨어를 최적화해 '히타치콘텐츠소프트웨어포파일(HCSF)'이란 스토리지 솔루션으로 제공한다”고 밝혔다. 데이터레이크는 정형, 비정형 등 데이터 유형에 상관없이 한 저장소에 모아놓은 것을 말한다. 히타치 밴타라 펜타호 CTO가 처음 만들어낸 말인데, 아마존 S3의 대중화와 함께 여러 데이터베이스 업체에서 오브젝트 스토리지 연계를 위한 API와 라이브러리를 제공하게 되면서 본격적으로 확산됐다. 데이터레이크는 ERP, CRM, HRM 등 전통적인 비즈니스 애플리케이션의 정형 데이터와, 웹 및 소셜미디어의 비정형 데이터, IoT 및 시스템 로그, 동영상, 텍스트, 오디오 등을 모두 저장하게 된다. 그동안 데이터레이크는 성능에 큰 부담을 갖지 않는 요소였다. 문제는 챗GPT의 유행과 함께 촉발된 생성 AI 열풍이다. 많은 기업과 조직이 대규모 데이터에서 콘텐츠를 생성하는 대규모언어모델(LLM)에 관심을 갖게 되면서, AI 학습과 추론을 떠받쳐야 하는 데이터레이크 인프라가 고성능을 요구받게 됐다 AI 시스템의 요건에 맞는 데이터레이크를 구축하기에 놓치기 쉬운 장벽이 몇가지 있다. 대표적으로 데이터 활용 패턴에 맞는 스토리지와 파일시스템, 고대역폭 네트워킹이다. 인프라 전문가들은 대중소 규모 데이터의 빈번한 IO를 처리하기 위한 IOPS를 따지라고 조언한다. 권동수 전문위원은 “데이터레이크를 GPU 서버와 연계했을 때 엔비디아 A100을 기준으로 하면 소켓 하나당 초당 100기바비트를 처리해야 한다”며 “이를 스토리지 단에서 받아내려면 수 기가비트 수준의 전통적인 SAN, NAS의 스루풋으로 불가능하고, 데이터 노드를 늘린다고 해도 메타정보를 찾는 속도가 서버의 속도를 따라가지 못한다”고 설명했다. 고속으로 AI 시스템에 데이터를 공급하고 산출물을 받아내려면 서버 외에 스토리지와 네트워킹도 고속이어야 한다. 엔비디아는 A100과 H100 시스템에서 초당 200~400GbE 수준의 인피니밴드 네트워킹을 요구한다. 스토리지도 하드디스크보다 고속처리를 위한 NVMe 플래시가 권고된다. 가장 큰 문제는 오브젝트 스토리지의 파일시스템인데, 딥러닝의 경우 하나의 데이터세트를 잘게 쪼개 사용하므로 작은 IO 요청이 빈번하게 일어난다. 이 때문에 높은 IOPS가 필수적으로 요구되고, 저장소가 메타정보 오버헤드를 최소화할 수 있는 구조를 갖춰야 한다. 효성인포메이션시스템의 HCSF는 초고성능 병렬 파일시스템과 오브젝트 스토리지를 통합한 파일 스토리지로 이를 해결한다. 병렬파일처리에 특화된 웨카파일시스템과 히타치의 오브젝트 스토리지를 결합한 것이다. HCSF는 오브젝트 스토리지의 가용량과 클라우드 기능을 갖추면서도 분산 파일 시스템 속도를 제공하며, 파일과 오브젝트 프로토콜을 지원해 데이터 수집이 용이하다. 정책 기반 티어링 파일 시스템 운영으로 비용 효율적인 데이터 관리가 가능하다. 권 위원은 “GPT의 경우 데이터 수집, 전처리, 모델 생성, 평가, 아카이빙 등의 여러 단계를 거치게 되는데, 전수 데이터를 읽을 때 어마어마한 디스크 IO를 일으킨다”며 “NVMe 플래시라 해도 각자는 빠를 지 모르지만, 데이터를 찾아서 GPU로 넘기는 게 느리다면 시스템 전반이 느려진다”고 설명했다. 그는 “메타정보를 중앙관리하는 방식은 파일을 튜닝하고, 관리서버 노드를 더 늘리는 식으로 대응하지만, HCSF는 디스크만 더 늘리면 선형적으로 성능을 높일 수 있다”며 “대부분 AI 시스템은 GPU에 많은 예산을 할당하므로 NVMe에 핫 데이터를 두고, 일정 기간 지나 접근빈도가 떨어지는 콜드 데이터를 오브젝트 스토리지에 떨구는 오토티어링도 지원한다”고 강조했다. HCSF의 스토리지 소프트웨어는 컨테이너 기반으로 기능을 구성한다. 메타정보를 관리하는 컨테이너와 외부 연계를 위한 컨테이너, 고유정책에 따라 할당하기 위한 컨테이너 등으로 모듈을 나눈다. 효성인포메이션시스템은 HCSF외에 AI 시스템의 데이터레이크하우스에 GPU 기반 데이터베이스를 제공하기도 한다. 스크림(SQream)이란 GPU 데이터베이스다. HCSF와 스크림의 GPU기반 DBMS를 이용해 가속 데이터 웨어하우스를 활용하면 페타바이트급 대용량 DB를 안정적으로 저장하고 복잡한 쿼리 처리와 신속한 분석 업무가 가능하다. 스크림은 GPU 기반 RDBMS 엔진으로, 고성능∙고집적 서버 구성으로 운영 비용 최소화와 높은 분석 쿼리 성능을 제공한다. 최대 수백 페타바이트에 이르기까지 대규모 데이터 존에서 빅데이터 분석의 가속기 역할을 한다. 데이터가 커질수록 TTTI 시간을 줄여준다. 권동수 전문위원은 하드웨어와 소프트웨어외에도 기술지원을 원활히 제공할 수 있는 파트너를 활용해야 한다고 강조했다. 그는 “스토리지도 다양한 소프트웨어, 라이브러리와 연계되는 만큼 기술뿐 아니라 그를 지원하는 인력이 중요하다”며 “효성인포메이션시스템은 수년간 시행착오를 겪으며 쌓은 노하우와 인력, 레퍼런스를 보유했고, 그를 바탕으로 안정적인 지원을 제공할 수 있다”고 말했다. 대형 제조기업 A사는 DW와 하둡 데이터 분석 시스템을 이용하던 중 확장성과 성능 저하 문제에부딪쳤다. 이를 해결하기 위해 전사 통합 저장소를 구축해 차세대 전사 데이터 분석 체계로 전환했다. 이 회사는 효성인포메이션시스템과 함꼐 현장에서 발생하는 데이터에 대해 고성능 데이터 분석을 기반으로 대용량 쿼리가 가능하도록 했으며, 향후 AI/ML을 위한 전사 분석 체계도 마련했다. 공정 데이터, 환경 데이터, 생산관리 데이터, 이미지 데이터에 대해 실시간 또는 준실시간으로 쿼리를 수집하고, 거기에 맞춰 티어1, 2로 나누어 티어1으로 수집할 수 있도록 했다. 현재 고성능 데이터 분석 기반과 각기 다른 데이터 인터페이스 클라이언트 환경을 지원하는 통합 스토리지인 오브젝트 스토리지가 NVMe 티어링 용도와 비정형 데이터 서비스 용도 두 가지로 나눠 동시에 운영되고 있다. 1차 구축 완료 후 추가 증설까지 진행되었으며, 앞으로도 계속 증설 요건이 발생할 것으로 예상된다. AI 서비스 기업인 B사는 AI 교육 및 자사 AI 학습 모델 테스트 환경을 위한 프라이빗 클라우드 기반 HPC 인프라 구축에 HCSF를 도입했다. 고성능 스토리지 구축 및 GDS로 응답 성능 최적화를 이뤘으며, 다수의 개발자, 분석가, 교육생 공동 운영을 위한 GPU 전용 스토리지 인프라를 확보했다. 향후 갑작스러운 데이터 증가나 사용자 증가에도 유연한 대응이 가능하며, GPU 서버 인프라를 고려한 스토리지 최적화 등을 통해 AI 환경에서 최적화된 데이터 레이크 운영 환경을 구현했다. 권 전문위원은 “힘들게 GPU 서버를 구매해서 활용하려 할 때 스펙 문서대로 되지 않고 데이터와 운영 환경에 따라 성능 수치가 달라지므로 IOPS, 처리량 요구 성능 등을 확인하는 절차가 필요하다”며 “AI 시스템을 위한 데이터레이크하우스는 여러 애플리케이션과 연계하는 라이브러리를 필요로 하므로 이를 잘 이해할 수 있는 기술지원 인력이 필수적”이라고 강조했다.