검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'추론 AI'통합검색 결과 입니다. (90건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

오케스트로-넷앱, AI 추론·데이터 묶는다…통합 인프라 풀스택 강화

오케스트로와 넷앱이 기업용 인공지능(AI) 서비스 운영을 위한 통합 인프라 개발에 나선다. AI 추론 환경과 데이터 관리, 재해복구(DR)를 단일 아키텍처로 결합해 안정적인 AI 서비스 운영 기반을 마련한다는 목표다. 오케스트로는 넷앱과 AI 추론 및 DR 역량 강화를 위한 업무협약(MOU)을 체결했다고 22일 밝혔다. 최근 기업 AI 도입이 시범 운영을 넘어 실제 서비스 단계로 확대되면서 AI 인프라의 역할도 커지고 있다. 단순히 그래픽처리장치(GPU) 등 연산 자원을 확보하는 수준을 넘어 대규모 데이터를 안정적으로 처리·보호하고 장애 발생 시에도 서비스를 지속할 수 있는 데이터 인프라와 DR 체계가 핵심 요소로 부상하는 상황이다. 이번 협약으로 양사는 오케스트로 AI 인프라 풀스택 소프트웨어(SW)와 넷앱의 데이터 오케스트레이션 및 엔터프라이즈급 DR 기술을 결합해 AI 추론 서비스에 최적화된 통합 아키텍처를 공동 개발할 계획이다. 데이터 파이프라인을 고도화하고 AI 서비스 운영 안정성을 높인다는 구상이다. 오케스트로는 서버 가상화 솔루션 '콘트라베이스', 클라우드 네이티브 운영관리 플랫폼 '비올라', AI 추론 운영 플랫폼 '콘체르토 AI' 등을 기반으로 AI 인프라 운영에 필요한 풀스택 SW를 제공 중이다. AI 서비스 구축부터 인프라 운영, 추론 관리, 통합 관제까지 하나의 체계에서 지원하는 것이 특징이다. 넷앱은 AI 데이터 파이프라인 운영에 필요한 데이터 관리 역량을 제공한다. 협약에 따라 오케스트로는 API 기반 연동으로 넷앱 스토리지 기능을 자사 플랫폼에 통합하고 넷앱은 테스트용 하드웨어와 전담 엔지니어링 지원을 제공할 예정이다. 아울러 넷앱 테크놀로지 얼라이언스 프로그램 기반 AI·데이터 인프라 생태계 공동 개발을 비롯해 GPU 가속 기반 AI 추론과 대규모 데이터 파이프라인, 고성능 스토리지 통합 검증도 추진할 방침이다. 기업용 AI·클라우드 구축을 위한 액티브-액티브 DR 참조 아키텍처와 운영 모델도 공동으로 마련할 계획이다. 아울러 국내외 시장을 겨냥한 공동 고투마켓(GTM) 전략도 추진한다. 양사는 AI 추론 서비스 운영에 최적화된 데이터 인프라를 제공하는 동시에 비즈니스 연속성과 데이터 안정성을 강화해 국내 AI·클라우드 시장 공략에 나선다는 목표다. 오케스트로는 이번 협력을 계기로 AI 인프라부터 데이터 관리, DR까지 아우르는 풀스택 SW 사업을 확대할 계획이다. 김범재 오케스트로 대표는 "AI가 실제 산업 현장으로 확산되면서 기업들은 AI 추론 성능뿐 아니라 데이터 안정성, 서비스 연속성까지 함께 확보해야 하는 과제를 안고 있다"며 "이번 협약을 통해 우리 AI 인프라 풀스택 소프트웨어 기술과 넷앱의 데이터 인프라 전문성을 결합, 기업 고객이 AI 서비스를 안정적으로 운영할 수 있는 통합 아키텍처를 구현해 나가겠다"고 밝혔다. 유재성 한국넷앱 대표는 "기업들은 AI 도입을 확대하고자 하지만 성능과 비용 효율성 간 균형을 맞춰야 하는 부담을 안고 있다"며 "우리는 AI에 최적화된 데이터 관리 역량 포트폴리오를 바탕으로 기업이 워크로드에 따라 인프라를 유연하게 구성하고 비용을 최적화할 수 있는 견고한 데이터 기반을 구축하도록 지원하고 있다"고 말했다. 이어 "오케스트로와의 협력은 기업이 엔터프라이즈 AI를 확장할 수 있도록 지원하겠다는 우리의 의지"라며 "고성능 AI 워크로드를 지원하고 거버넌스가 적용된 안전한 데이터에 즉시 접근할 수 있도록 해 운영 안정성과 데이터 보호를 보장하는 지능형 데이터 인프라로기업 AI 확장을 지원할 것"이라고 덧붙였다.

2026.07.22 16:46한정호 기자

팀스파르타 초경량 언어모델, 'K-AI 리더보드' 초고난도 추론 1위

팀스파르타(대표 이범규)가 자체 개발한 초경량 언어모델 'K-AX 스파르탄 1.8B'가 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 운영하는 'K-AI 리더보드'의 초고난도 추론 평가인 'HLE(Ko)' 분야에서 1위를 차지했다. 이번 성과에 대해 회사는 "대형 모델 중심의 AI 시장에서 독자적인 초경량 모델의 압도적인 효율성과 고난도 추론 성능을 입증했다는 점에서 의의가 크다"고 밝혔다. HLE(Humanity's Last Exam)는 미국 AI안전센터와 스케일AI가 공동 개발한 초고난도 AI 추론 벤치마크다. 수학, 과학, 인문학 등 100여 개 분야 전문가가 출제한 2500개 문항으로 구성돼 최상위 AI 모델조차 통과가 까다로운 평가로 알려져 있으며, K-AI 리더보드의 핵심 평가 지표 중 하나다. HLE(Ko)에서 평가에서 'K-AX 스파르탄 1.8B'는 0.123점을 기록하며 2위 모델(0.077점) 대비 4.6%포인트, 약 60% 높은 성능을 보였다. 10위권 모델 대부분이 0.068~0.077점대에 분포한 가운데 단독 선두에 오른 것이다. 18억 개 파라미터의 초경량 모델이 수백억에서 수천억 개 규모의 대형 모델들을 제친 결과로, 상위 10개 모델의 평균(약 38.7B)과 비교하면 20분의 1 크기로 거둔 성과다. 특히 236B급 모델 대비 파라미터는 131분의 1에 불과하지만, 점수는 두 배 이상 높았다. 메모리 요구량도 약 256M에 불과해 CCTV나 초소형 컴퓨터인 라즈베리 파이(Raspberry PI)처럼 고도로 제한된 환경에서도 고난도 추론을 한다. 236B급 대형 모델을 구동하려면 수백 GB 메모리의 멀티 GPU 클러스터가 필요한 데 반해 하드웨어 요구량이 100분의 1 이하다. 즉, 거대 모델이 데이터센터의 GPU 서버 한 대가 필요할 때 K-AX 스파르탄 1.8B는 초소형 컴퓨터 한 대에 들어가는 셈으로, 고난도 추론 성능은 유지하면서 AI 인프라 비용을 90% 이상 낮출 수 있는 구조다. 비결은 자체 개발한 학습 방법론 'SGT·SSGT'에 있다. 문장 전체 토큰을 고르게 학습하는 기존 방식과 달리, 추론의 방향을 좌우하는 핵심 토큰을 선별해 학습을 집중하고, 답변 과정에서 오류 가능성을 점검해 스스로 경로를 수정하는 자기 교정 학습을 결합했다. 팀스파르타는 검증된 방법론을 대형화해 주력 프런티어 모델 'K-AX 스파르탄 122B'를 완성했다. 양자화(경량화) 기술을 적용해 기업 내부 장비에서도 운용된다. 122B를 엔진으로 쓰는 'AX 포트리스'는 인터넷과 분리된 폐쇄망에서 작동하는 AI 코딩 에이전트다. 소스코드와 내부 데이터를 외부로 보내지 않고 코드 생성, 자동완성, 검토부터 빌드, 테스트, 배포 도구 호출까지 수행하며, 자동완성 응답 속도는 워크스테이션 한 대 기준 0.3초 미만으로 실측됐다. 주요 대상은 금융·공공·국방·제조 등 외부 생성형 AI 사용이 제한되는 분야다. AX 포트리스를 사용하면, 정보 유출 우려로 클라우드 기반 코딩 도구를 도입하지 못한 기업도 사내망에서 AI 개발 환경을 구축할 수 있다. 보안관제 분야에서는 도메인 특화 학습과 내부 관제 시스템 연동 검증을 마쳤으며, 향후 법률 문서 검토, 금융 규제 해석, 의료 가이드라인 분석 등 복합적인 판단이 필요한 업무로 적용 범위를 넓힐 계획이다. 이범규 팀스파르타 대표는 “이번 1위는 팀스파르타의 독자적인 설계와 학습 기술만으로 세계적 수준의 추론 성능을 구현할 수 있음을 입증한 결과”라며 “검증된 기술을 적용한 K-AX 스파르탄 122B와 AX 포트리스를 기반으로 보안과 생산성이 함께 필요한 기업의 실질적인 AX를 적극 지원하겠다”고 밝혔다.

2026.07.20 18:30백봉삼 기자

삼성SDS, 퓨리오사AI 기반 'NPUaaS' 출시…인프라 선택권 확장

삼성SDS가 정부의 국산 인공지능(AI) 반도체 확산 기조에 발맞춰 클라우드 기반 서비스형 신경망처리장치(NPUaaS)를 선보이며 고객 인프라 선택권 확장에 나선다. 삼성SDS는 퓨리오사AI의 2세대 NPU '레니게이드(RNGD)'를 기반으로 한 NPUaaS를 삼성 클라우드 플랫폼(SCP)에 탑재·출시했다고 20일 밝혔다. 레니게이드는 AI 추론에 특화된 국산 NPU로, 이미 학습된 AI 모델을 실제 서비스에 적용해 답변 생성, 문서 분석, 이미지 판별 등을 처리하는 단계에서 GPU 대비 전력 효율성과 가성비가 뛰어난 것으로 평가된다. 삼성SDS의 NPUaaS 고객은 NPU 서버를 직접 구매하거나 자체 데이터센터에 구축하지 않고도 SCP를 통해 구독형으로 사용할 수 있다. 기업 수요와 데이터 규모에 따라 NPU를 원하는 장수 단위로 자유롭게 선택할 수 있도록 해 스타트업부터 대기업까지 AI 서비스 규모에 맞춰 활용할 수 있게 지원한다. 또 고성능 스토리지와 컴퓨트, 고속 네트워크 등 SCP의 다양한 상품들과 연계해 유연한 사용을 돕는다. 특히 삼성SDS는 이번 NPUaaS를 SCP의 소버린 클라우드 환경으로 제공해 엄격한 보안 규제를 적용받는 공공 고객도 안심하고 이용할 수 있도록 지원할 계획이다. 회사는 이번 NPUaaS 출시를 통해 기존 서비스형 그래픽처리장치(GPUaaS)는 물론 NPU 기반 연산 자원까지 확대하면서, 고객 AI 인프라 선택권 확대와 국산 NPU 기반 AI 인프라 확산 및 소버린 AI 구축에 앞장선다는 목표다. 이호준 삼성SDS 클라우드서비스사업부장은 "이번 NPUaaS 출시는 단순히 새로운 클라우드 상품을 선보이는 것을 넘어 고객이 고성능 AI 기술을 더 유연하고 가성비 높게 사용할 수 있다는 데 의의가 있다"며 "앞으로도 고객 니즈 해결을 위해 SCP 기반 상품을 다양화하고 클라우드 AI 기술 생태계를 지속 선도해 나갈 것"이라고 밝혔다.

2026.07.20 10:49한정호 기자

AI 추론 트래픽이 광 네트워크 수요 키운다

에이전틱 AI 확산으로 추론 워크로드가 증가하면서 광 인프라 기반 초고속 저지연 네트워크 수요가 크게 늘어날 것이라는 전망이 나왔다. AI 인프라 투자가 컴퓨팅 중심에서 점차 네트워크로 확대된다는 분석이다. 시장조사업체 KPMG의 필 웡 미국기술책임자는 RCR와이어리스와 인터뷰에서 “에이전틱AI 시대에는 추론 워크로드가 네트워크 트래픽 구조를 바꾸고 초고속 저지연 연결성 수요를 견인할 것”이라고 내다봤다. 그는 “에이전틱 AI는 데이터와 컨텍스트, 메모리를 함께 활용할 때 가장 효과적으로 작동한다”며 “기업 데이터와 시스템이 저장된 기존 클라우드와 AI 전용 컴퓨팅 인프라 간 트래픽이 크게 늘어날 것”이라고 설명했다. AI 데이터센터가 거점 밖으로 이동하는 것도 광 네트워크 투자 확대를 이끄는 요인으로 꼽았다. 웡은 “토지와 전력 부족으로 대규모 AI 데이터센터가 새로운 지역에 들어서고 있다”며 “이들 시설을 연결하기 위한 새로운 초고대역폭 광 네트워크 노선 구축이 필요해질 것”이라고 말했다. 이와 같이 현재 AI 인프라 투자의 대부분은 GPU 등 컴퓨팅 자원 확보에 집중되고 있지만 장기적으로는 연결성 투자도 함께 증가할 것이란 분석이다. 그는 “새로운 컴퓨팅 용량이 1GW 늘어날 때마다 그에 상응하는 네트워크 연결성이 필요하다”며 “워크로드가 학습 중심에서 추론과 에이전틱 AI 중심으로 이동할수록 연결성 수요는 더욱 커질 것”이라고 설명했다.

2026.07.19 11:49박수형 기자

노키아 "한국은 AI-RAN 가능성 최적화 시장"

글로벌 통신장비 기업 노키아가 한국을 AI-RAN이 실현될 수 있는 최적의 시장으로 꼽아 주목된다. AI데이터센터가 아니라 통신 집중국사에서 추론과 같은 AI 연산을 가능케 할 수 있고, 이를 통해 통신업의 새로운 수익원이 될 것이란 전망도 내놨다. 노키아코리아의 조봉열 박사는 2일 서울 종로구 포시즌스호텔에서 열린 간담회에서 “한국은 집중 국사 아키텍처가 발달하고 기술 수용도가 높아 AI RAN을 실현하기에 가장 최적의 시장”이라며 “노키아는 한국 통신사와 협력해 AI RAN과 6G 시대를 선도해 나가겠다”고 밝혔다. AI-RAN은 표현 그대로 무선접속망(RAN)에 AI 컴퓨팅을 더한다는 뜻이다. 지난해 엔비디아가 노키아에 10억 달러의 지분 투자를 단행하면서 양사는 전략적 파트너 관계를 맺으며 GPU 컴퓨팅을 네트워크 인프라에 접목하는 연구를 한창 이어가고 있다. 노키아는 네트워크에 분산형 AI 컴퓨팅을 도입하고 기지국이 이를 관리하는 AI그리드 역할을 맡는 청사진을 그리고 있다. AI 연산을 데이터센터에 이르기 전에, 네트워크 단계에서 다루는 엣지컴퓨팅 방식이다. 한효찬 노키아코리아 CTO는 “에이전틱 AI와 피지컬 AI가 구현되면 학습보다 훨씬 더 많은 추론이 발생하고, 추론은 멀리 있는 AIDC가 아니라 사용자와 가장 가까운 곳에서 실시간성과 접근성을 가지고 처리돼야 한다”며 “이 지점에서 한국 통신 기업이 글로벌 클라우드 서비스 제공업체와 새로운 비즈니스 모델을 찾을 수 있다”고 말했다. 조 박사는 “SK텔레콤, KT, LG유플러스 등 이통3사 기존 집중 국사에 클라우드 AI-RAN이나 GPU가 탑재된 디지털 신호 처리 장치(DU)를 구축하고 이들을 묶으면, 집중 국사가 중소형 AIDC 역할을 한다”고 짚었다. 노키아는 엔비디아, 미국 티모바일, 일본 소프트뱅크, 동남아 인도삿 등과 협력해 올해 말 AI-RAN 상용화 가능성을 입증할 계획이다. 노키아와 엔비디아의 AI-RAN 협력은 통신사가 AI 인프라를 통해 새로운 수익 창출 구조를 만드는 데 목적을 두고 있고 실제 이통3사는 현재 노키아와 협력해 AI-RAN, 6G 연구 개발 협력을 진행하고 있다. 조 박사는 “대다수 통신사는 디지털 서비스와 AI 서비스를 동시에 제공하고 싶어하지만, 기존 방식 대로라면 RAN과 AI GPU를 따로 구매해 투자해야 했다”며 “AI-RAN을 도입하면 통신과 AI를 하나의 싱글 플랫폼으로 통합할 수 있다”고 설명했다. 이어 “AI-RAN을 활용하면 컴퓨팅 파워를 5G나 6G를 위한 통신 용량으로 활용하다가, AI 수요가 폭발할 땐 AI 추론, 토큰 비즈니스 등 디지털 서비스로 전환할 수 있어, 통신사 투자 효율성이 극대화된다”고 강조했다.

2026.07.02 17:54홍지후 기자

디노티시아, 메모리 병목 해결할 KV 캐시 20배 압축기술 'STAR-KV' 공개

AI 인프라 전문기업 디노티시아가 거대언어모델(LLM) 추론의 최대 병목으로 꼽히는 메모리 용량과 처리 속도 문제를 획기적으로 해결할 수 있는 신기술을 세계적 학회에서 선보인다. 디노티시아는 UC 샌디에이고(UCSD) VVIP 랩과 함께 연구한 KV 캐시(KV Cache) 압축 기술인 'STAR-KV' 논문과 소스코드를 공개했다고 2일 밝혔다. 해당 논문은 세계 최상위 머신러닝 학회인 'ICML 2026'의 스포트라이트 논문으로 전격 채택됐다. KV 캐시는 LLM이 이전에 읽은 문맥을 다시 계산하지 않도록 메모리에 저장해 두는 임시 기억 공간이다. 최근 AI가 대화 이력, 검색 결과 등 방대한 컨텍스트를 동시에 처리하는 에이전트형 시스템으로 진화하면서, KV 캐시는 그래픽처리장치(GPU) 메모리 사용량과 추론 비용을 좌우하는 핵심 병목으로 부상했다. 실제로 LLaMA-3.1-8B 모델이 배치 크기 4로 128K 토큰의 긴 컨텍스트를 처리할 경우, KV 캐시가 전체 GPU 메모리의 약 81%를 차지할 정도다. 이번에 공개된 STAR-KV는 저랭크 압축만으로 KV 캐시를 최대 75% 줄였으며, 혼합정밀도 양자화 기법을 결합해 전체 용량을 최대 20배까지 압축하는 데 성공했다. 특히 용량 압축에 그치지 않고 맞춤형 GPU 커널을 활용한 실행 최적화를 통해 연산 속도까지 끌어올렸다. 어텐션 연산 속도는 최대 6.9배, 전체 생성 처리량은 최대 3.1배 향상시키면서도 기존 압축 방식보다 높은 정확도를 유지했다. STAR-KV 논문이 발표될 ICML은 NeurIPS, ICLR과 함께 AI·머신러닝 분야의 최고 권위 학회로 꼽히며, 올해는 오는 7월 6일부터 11일까지 서울 코엑스에서 개최된다. 올해 심사에 들어간 2만3918편의 논문 중 6352편이 채택됐으며, 디노티시아의 논문이 선정된 '스포트라이트' 세션은 전체 심사 논문의 상위 약 2.2%(536편)에만 허락된다. 디노티시아는 향후 STAR-KV가 실제 AI 서비스 환경에 적용될 수 있도록 기술을 고도화하는 한편, vLLM을 비롯한 주요 오픈소스 LLM 추론 프레임워크에 이를 통합할 계획이다. 정무경 디노티시아 대표는 “AI가 더 긴 맥락을 더 낮은 비용으로 빠르게 처리할 수 있도록 돕는 기술이 중요해지고 있다”라며 “STAR-KV는 핵심 병목인 KV 캐시 용량과 처리 속도 문제를 실질적으로 해결하는 기술이며, 소스코드 오픈소스화를 통해 글로벌 AI 추론 생태계 발전에 기여하겠다”고 말했다.

2026.07.02 09:17전화평 기자

노타, 올 상반기 수주 174억원…"AI 추론 최적화 수요 늘어"

노타가 인공지능(AI) 추론 최적화 수요 확대에 힘입어 상반기 수주 성장을 이어간 것으로 나타났다. 노타는 올해 2분기 수주액 약 61억원을 기록했다고 26일 밝혔다. 이는 지난해 2분기 약 28억원보다 184% 증가한 규모다. 이로써 올해 상반기 누적 수주액은 약 174억원이다. 업계에서는 이번 성과가 피지컬 AI와 온디바이스 AI 확산으로 AI 모델 추론 효율성이 중요해진 데 따른 것이란 평가가 이어지고 있다. 최근 피지컬 AI와 온디바이스 AI 확산으로 클라우드에 의존하지 않고 현장에서 AI를 구동하려는 수요가 커지고 있다는 이유에서다. 현재 경량화 기술 활용 범위도 제조·교통·공공안전 전반으로 확대되고 있다. 이에 하드웨어(HW) 환경에 맞춰 AI를 빠르고 안정적으로 실행하려는 최적화 수요가 늘어난 점이 노타 사업 수주 확대에 영향을 줬다는 분석이 이어지고 있다. 넷츠프레소 플랫폼 부문 매출은 올해 전년 동기 대비 184% 올랐다. 노타는 모빌린트와 넷츠프레소 라이선스 계약을 체결하며 삼성전자, 퓨리오사AI, Arm에 이어 반도체와 HW 파트너 대상 공급 레퍼런스를 확대했다. 넷츠프레소는 AI 모델을 반도체와 HW 환경에 맞춰 경량화·최적화하는 플랫폼이다. 제한된 연산 자원에서도 AI가 안정적으로 구동되도록 지원한다. 노타는 온디바이스 AI뿐 아니라 데이터센터향 AI에서도 추론 효율화가 중요해지면서 넷츠프레소 사업 기회가 커지고 있다고 설명했다. 다양한 반도체 환경에서 AI 모델을 최적화하려는 수요가 확대되고 있다는 것이다. 노타 비전 에이전트 솔루션 부문도 성장세를 보였다. 이 부문은 올해 2분기 전년 동기 대비 약 3.2배 성장했다. 노타 비전 에이전트는 제조 현장 산업안전, 건설·플랜트 현장 안전관리, 영상감시, 도시·공공안전, 교통 인프라 등 실제 현장 기반 영역으로 확대되고 있다. 산업 현장과 도시 인프라에서 클라우드 의존도를 낮추고 현장 단말에서 AI를 바로 실행하려는 수요가 커진 영향이다. 도시·공공안전 분야에서는 교통 비전언어모델(VLM) 영상분석과 다중운집 분석 등 레퍼런스를 확보했다. 이를 통해 제조와 산업안전을 넘어 모빌리티, 교통, 공공안전 등 물리적 현장으로 적용 범위를 넓히고 있다. 채명수 노타 대표는 "AI가 다양한 디바이스와 산업 현장으로 확산할수록 제한된 자원 안에서 AI를 빠르고 안정적으로 실행하는 추론 최적화 기술의 중요성은 더욱 커지고 있다"며 "올해 2분기 수주 성과는 넷츠프레소를 중심으로 한 반도체향 사업 확대와 노타 비전 에이전트 기반 경량 AI 솔루션의 현장 적용성이 함께 입증된 결과"라고 말했다.

2026.06.26 14:24김미정 기자

오픈AI도 자체 칩 승부수…'할라페뇨'로 엔비디아 의존 줄인다

오픈AI가 인공지능(AI) 추론 전용 반도체를 직접 설계하며 칩부터 모델, 서비스까지 아우르는 '풀스택' 전략에 본격 시동을 걸었다. 오픈AI는 24일(현지시간) 브로드컴과 공동 개발한 첫 AI 추론 가속기 '할라페뇨'를 공개했다. 올해 말부터 데이터센터에 배치할 예정인 이 칩은 두 회사가 함께 구축하는 다세대 컴퓨팅 플랫폼의 첫 제품이다. 오픈AI는 할라페뇨 초기 테스트에서 와트당 성능이 현존 최고 수준을 크게 웃돌았다고 설명했다. 최종 성능은 측정 중이며 세부 기술 보고서는 수개월 내 공개할 예정이다. 혹 탄 브로드컴 최고경영자(CEO)는 로이터 통신에 "할라페뇨는 엔비디아의 블랙웰 칩이나 구글의 텐서처리장치(TPU)와 대등한 성능을 갖췄다"고 말했다. 할라페뇨는 기존 AI 가속기를 개조한 범용 칩이 아니라 최신 거대언어모델(LLM) 추론을 겨냥해 처음부터 새로 설계됐다. 챗GPT·코덱스·응용 프로그램 인터페이스(API)를 매일 운영하며 쌓은 데이터가 반영됐다. 초기 설계부터 파운드리(반도체 수탁생산) 공장에 넘기는 '테이프아웃' 단계까지는 9개월밖에 걸리지 않았다. 이에 대해 양사는 고성능 첨단 반도체 분야에서 가장 빠른 주문형 반도체(ASIC) 개발 주기라고 강조했다. 할라페뇨는 대만 TSMC가 양산하며 삼성전자와 SK하이닉스가 브로드컴에 메모리 칩을 공급한다. 블룸버그 통신에 따르면 두 회사는 차기 칩을 2028년에 내놓고 이후 매년 새 칩을 선보일 계획이다. 최근 AI 모델 시장을 이끄는 기업들은 자체 칩을 확보해 엔비디아 의존도를 낮추는 전략을 추진하고 있다. TPU를 앞세운 구글에 이어 오픈AI도 할라페뇨를 통해 자체 추론 칩을 선보였고 앤트로픽 역시 자체 칩 개발을 타진하고 있다. 이들 기업이 모두 핵심 연산 인프라의 내재화에 나서면서 엔비디아 중심의 AI 가속기 주도권 경쟁이 새 국면에 접어들었다. 그렉 브록먼 오픈AI 사장은 "세계는 연산 기반 경제로 나아가고 있다"며 "할라페뇨는 연산 자원을 더 풍부하게 만들어 개인과 기업에 빠르고 안정적이며 저렴한 AI를 제공할 것"이라고 말했다.

2026.06.25 09:59이나연 기자

퀄컴·메타, 데이터센터 CPU 분야서 협력 체제 구축

퀄컴과 메타는 24일(현지시간) 데이터센터용 CPU 분야에서 향후 수 년간 여러 세대에 걸쳐 협력하겠다고 밝혔다. 퀄컴이 같은 날 공개한 데이터센터 전용 CPU '드래곤플라이 C1000'이 메타 차세대 서버에 탑재된다. 드래곤플라이 C1000은 퀄컴이 공개한 데이터센터 전용 CPU다. 5GHz 이상으로 동작하는 오라이언 코어 250개 이상을 탑재하며 PCI 익스프레스 7.0, CXL, 2TB/s 이상의 입출력 대역폭을 지원한다. 크리스티아노 아몬 퀄컴 CEO는 "대규모 데이터센터 환경을 위해 코어당 성능과 전력 효율 모두에서 혁신적인 CPU를 설계했다"며 "메타와의 다세대 계약은 이러한 접근 방식이 옳았음을 입증하는 중요한 검증"이라고 밝혔다. 그는 이어 "모바일 기기 분야에서 이어온 메타와의 협력을 데이터센터까지 확대하게 됐다"며 "이번 계약은 시작에 불과하다"고 강조했다. 메타 역시 AI 시대의 인프라 경쟁력을 이번 협력의 핵심 배경으로 제시했다. 마크 저커버그 메타 CEO는 "퀄컴이 설계하는 차세대 CPU 개발 과정에서 협력을 이어가게 돼 기쁘다"며 "전 세계 모든 사람에게 '개인 초지능'을 제공하기 위한 인프라를 빠르게 구축하고 있다"고 덧붙였다. 퀄컴은 AI 추론에 최적화된 CPU와 AI 가속기, 고속 네트워크, 개방형 소프트웨어 플랫폼을 결합한 데이터센터 전략을 추진하고 있다. 메타는 이러한 로드맵에 초기 단계부터 참여함으로써 차세대 AI 데이터센터 아키텍처 구축 과정에서 영향력을 확보할 수 있게 됐다. 드래곤플라이 C1000 CPU는 2028년 하반기부터 양산 예정이다. 메타는 차세대 서버에 이를 탑재해 각종 서비스 등에 활용 예정이다.

2026.06.25 08:25권봉석 기자

퀄컴, AI 스타트업 '모듈러' 39억 달러에 인수

퀄컴이 24일(현지시간) AI 인프라 스타트업 모듈러(Modular)를 39억 달러(약 6조 196억원)에 인수한다고 밝혔다. 토큰 생성·처리 비용을 낮추기 위한 이기종 컴퓨팅 강화 목적이다. 모듈러는 구글 출신 크리스 래트너와 팀 데이비스가 CPU와 GPU 제조사별로 파편화된 소프트웨어 문제를 해결하기 위해 2022년에 만든 스타트업이다. 파이썬 대비 실행 속도가 빠른 새 언어 '모조(mojo)' 등을 개발했다. 특정 가속기마다 별도 코드를 작성해야 하는 기존 방식과 달리 한 번 개발한 AI 모델을 여러 하드웨어 환경에 배포할 수 있는 것이 특징이다. 기업 입장에서는 특정 벤더에 대한 종속성을 줄이고 인프라 구축 비용을 낮출 수 있다. 크리스티아노 아몬 퀄컴 CEO는 24일(현지시간) 미국 뉴욕에서 열린 인베스터 데이 행사에서 "에이전틱 AI 시대에는 데이터센터와 엣지 환경 전반에 걸쳐 AI가 확산될 것이며 여러 공급업체의 기술이 결합된 분산형 아키텍처로 이동하고 있다"고 밝혔다. 그는 "미래는 개발자 친화적이면서 다양한 컴퓨팅 환경에서 동작하는 수평적 플랫폼에 있다"며 "모듈러 인수를 통해 고객이 AI를 어디서 어떻게 배치할지 스스로 선택할 수 있는 개방형 생태계를 가속화할 것"이라고 강조했다. 이번 인수는 퀄컴이 이날 공개한 데이터센터 전략의 핵심 축 가운데 하나다. 퀄컴은 서버용 CPU '드래곤플라이 C1000', AI 추론 가속기 'AI250·AI300', 고속 네트워크 기술과 함께 모듈러를 데이터센터 소프트웨어 계층의 중심으로 활용할 계획이다. 퀄컴이 모듈러를 선택한 이유는 AI 산업이 성능 경쟁에서 효율 경쟁으로 전환되고 있기 때문이다. 대규모 AI 서비스가 확산되면서 단순한 연산 성능보다 전력 효율과 운영 비용이 중요한 요소로 부상하고 있다. 퀄컴은 이러한 환경에서 하드웨어만으로는 한계가 있다고 보고 있다. 서로 다른 CPU와 GPU, AI 가속기를 효율적으로 연결하고 최적화하는 소프트웨어 계층이 필수적이라는 판단이다. 향후 데이터센터에는 인텔과 AMD의 CPU, 엔비디아와 AMD의 GPU, 각종 AI 가속기가 혼재할 것으로 예상되는 만큼 특정 하드웨어가 아닌 다양한 플랫폼을 연결하는 소프트웨어가 중요해질 것이라는 분석이다. 토니 피알리스 퀄컴 데이터센터 부문 총괄은 이를 두고 "다른 기업들이 자사 하드웨어를 보호하기 위한 해자를 구축하는 동안 퀄컴은 업계를 연결하는 다리를 만들고 있다"고 말했다. 크리스 래트너 모듈러 CEO는 "AI에는 다양한 하드웨어와 배포 환경을 아우를 수 있는 개방적이고 효율적인 소프트웨어 기반이 필요하다"며 "퀄컴과 함께 개발자의 접근성을 높이고 하드웨어 간 이식성을 강화해 보다 개방적인 AI 생태계를 구축할 것"이라고 밝혔다.

2026.06.25 08:20권봉석 기자

AI 주권, 모델 넘어 '운영' 경쟁으로 번진다

앤트로픽의 최상위 인공지능(AI) 모델에 대한 미국의 수출 통제를 계기로 AI가 국가 안보 자산으로 취급되고 있다. 기술 보유국의 정책 변화만으로 모델과 서비스 공급망이 흔들릴 수 있다는 우려가 현실화하면서, 자국 모델 기술력과 이를 효율적으로 운영할 역량이 소버린(주권) AI의 핵심 과제로 떠오르고 있다. 22일 업계에 따르면 미국 행정부는 지난 12일(현지시간) 앤트로픽 신규 모델 '클로드 미토스5'와 '클로드 페이블5'에 대한 외국 국적자의 접근을 제한하는 수출 통제 지침을 내렸다. 해외 접속뿐 아니라 미국 내 체류 중인 외국인과 앤트로픽 소속 외국인 직원의 사용까지 제한 대상에 포함되면서 파장이 커졌다. 이번 조치로 글로벌 AI 보안 협의체 '프로젝트 글래스윙'에 합류한 한국도 영향을 받게 됐다. 프로젝트 글래스윙은 앤트로픽이 '클로드 미토스 프리뷰' 공개와 함께 출범한 협의체다. 보안 취약점 탐지에 특화된 미토스의 오남용을 막기 위해 검증된 기업과 기관에 모델을 선제 제공하고 이를 통해 소프트웨어 취약점을 방어하는 방식으로 운영돼 왔다. 앤트로픽은 지난 2일(현지시간) 글래스윙 참여 대상을 15개국 약 150개 기관으로 확대했다. 국내에서는 한국인터넷진흥원(KISA), 삼성전자, SK하이닉스, SK텔레콤 등이 참여했다. 그러나 이후 미토스5와 페이블5에 대한 수출 통제가 내려지면서 국내 참여 기관들은 본격적인 모델 활용에 나서기 전부터 접근 제약에 직면했다. 업계는 이번 사태가 특정 빅테크 모델을 쓰지 못하게 된 문제에 그치지 않는다고 본다. 해외 사업자의 모델과 응용프로그램인터페이스(API), 클라우드에 의존하는 구조에서는 공급국의 정책 변화나 사업자 판단만으로 AI 서비스 운영 자체가 흔들릴 수 있기 때문이다. 프런티어 AI를 외부에서 들여온다는 것은 모델 하나를 사용하는 문제가 아니라 개발·배포·운영 환경 전반을 외부 스택에 의존하는 문제라는 지적이다. 한국은 외산 AI 의존도를 낮추기 위해 독자 AI 파운데이션 모델 개발에 나서고 있다. 지난해부터 과학기술정보통신부가 추진한 '독자 AI 파운데이션 모델(독파모)' 프로젝트는 거대언어모델(LLM)과 멀티모달 등 주요 AI 영역에서 원천 기술력을 확보하는 것을 목표로 한다. 다만 업계에서는 자국 AI 모델 개발만으로는 충분하지 않다는 목소리가 나온다. 국내에서 확보 가능한 컴퓨팅 자원과 인프라 안에서 모델을 안정적으로 학습·추론하고 서비스할 수 있는 운영 역량도 함께 갖춰야 한다는 것이다. 미국과 중국의 대형 사업자처럼 대규모 그래픽처리장치(GPU)와 데이터센터를 단기간에 확보하기 어려운 만큼, 제한된 연산 자원의 활용 효율이 경쟁력으로 꼽힌다. 최신 AI 추론 환경은 기존 데이터센터보다 높은 전력 밀도와 메모리 자원을 요구한다. 이에 따라 인프라 확충과 함께 모델 구조와 서비스 환경에 맞춰 정밀도, 메모리 사용량, 처리 속도를 조정하는 경량화·최적화 기술에도 관심이 쏠린다. 같은 인프라에서 처리할 수 있는 작업량을 늘리고 운영 비용을 낮출 수 있어서다. 이 같은 운영 최적화는 독파모 프로젝트에서도 적용되고 있다. 업스테이지 컨소시엄에 참여 중인 노타는 솔라 계열 모델을 국내 인프라 환경에서 구동하기 위한 압축·최적화 작업을 맡고 있다. 이 회사는 대규모 전문가 혼합(MoE) 모델에서 중요도가 낮은 영역을 선별적으로 압축해 메모리 사용량을 줄이고 성능 저하를 최소화하는 기술을 제공한다. 실제 업스테이지 '솔라 오픈 100B'에 노타의 최적화 기술을 적용한 결과, 메모리 사용량을 약 72.8% 줄이면서 원본 모델과 유사한 성능 지표를 유지한 것으로 나타났다. 업계 관계자는 "앤트로픽 사태가 단발성 사건으로 끝나더라도 AI 인프라 종속의 구조적 위험은 그대로 남을 것"이라며 "독자 개발한 자국 모델을 한정된 자원에서 효율적으로 가동하는 경량화·최적화 기술이 함께 가야 AI 주권이 외부 정책 변수에 흔들리지 않는다"고 말했다.

2026.06.22 11:37이나연 기자

삼성전자, '엑시노스 2600' AI 성능 자신감..."전작 대비 두 배 향상"

삼성전자가 최신형 모바일 어플리케이션 프로세서(AP)인 '엑시노스 2600'의 온디바이스 AI 성능을 자신했다. 최근 진행된 테스트 결과 해당 칩셋은 다양한 AI 모델에서 전작(엑시노스 2500) 대비 2배 이상의 성능을 기록한 것으로 나타났다. 12일 업계에 따르면 삼성전자는 최근 엑시노스 2600에 대한 AI 성능 벤치마크 테스트 결과를 공개했다. 엑시노스 2600은 삼성전자의 최신형 모바일 AP로, 최첨단 파운드리 공정인 2나노미터(nm)를 기반으로 한다. 올해 초 출시된 플래그십 스마트폰 '갤럭시S26' 시리즈의 일반 및 플러스 모델에 채용됐다. 엑시노스 2600은 온디바이스 AI에 초점을 맞춰 설계됐다. 삼성전자 내부 테스트 결과 칩에 탑재된 신경망처리장치(NPU)의 생성형 AI 성능은 전작 대비 113% 향상된 것으로 집계된 바 있다. 실제로 삼성전자가 지난 10일 MLPerf 테스트를 진행한 결과, 엑시노스 2600은 전작 대비 AI 성능이 크게 개선됐다. MLPerf는 하드웨어 및 소프트웨어의 다양한 AI 성능을 평가할 수 있는 공신력 있는 벤치마크다. 세부적으로 모바일용 자연어처리(NLP) 모델인 'Mobile-BERT' 분야에서 1199.57QPS(초당 처리 쿼리 수)를 기록했다. 전작 대비 2.1배 이상 향상된 수준이다. QPS는 시스템이 1초간 얼마나 많은 데이터를 처리할 수 있는지를 나타낸 것으로, AI 모델의 추론 성능을 가늠하는 지표로 활용된다. 이미지를 생성하는 AI 모델 '스테이블 디퓨전(Stable Diffusion)'에서는 0.53QPS를 달성했다. 전작 대비 2.4배 이상 향상됐다. 삼성전자는 "자사의 최신 MLPerf 테스트 결과는 엑시노스의 큰 도약을 입증한 것"이라며 "엑시노스는 반응성이 뛰어난 에이전틱 AI부터 이미지 생성까지 온디바이스 AI 기술을 지속 발전시키고 있다"고 설명했다.

2026.06.12 08:30장경윤 기자

아카마이, 아태지역 매출 10억 달러 돌파…"엣지 AI 시대 연다"

아카마이가 아시아태평양 지역에서 엣지 기반 인공지능(AI) 인프라 사업 확대에 박차를 가한다. 생성형 AI 확산으로 실시간 추론 수요가 늘어나는 가운데, 중앙 집중형 클라우드를 넘어 사용자와 가까운 엣지 환경에서 AI를 구동하는 차세대 인프라 시장 공략에 나서는 모습이다. 아카마이는 지난해 아태지역 매출이 10억 달러(약 1조 5294억원)를 넘어섰다고 11일 밝혔다. 회사는 이번 성과를 바탕으로 AI 추론과 엣지 컴퓨팅을 차세대 성장 동력으로 삼고 관련 사업을 확대할 계획이다. 최근 기업들은 생성형 AI를 실제 서비스에 적용하는 과정에서 지연 시간과 확장성, 안정성 확보를 핵심 과제로 꼽고 있다. 특히 추천 서비스와 실시간 영상 분석, 자율주행, AI 에이전트 등은 수 밀리초(ms) 단위 응답 속도가 요구돼 중앙 데이터센터만으로는 한계가 있다는 지적이 나온다. 아카마이는 이같은 수요에 대응하기 위해 분산형 클라우드 플랫폼 기반 AI 추론 인프라를 강화하고 있다. 그래픽처리장치(GPU) 기반 컴퓨팅 자원을 사용자와 데이터에 가까운 위치에 배치해 실시간 AI 서비스를 지원한다는 전략이다. 이를 통해 중앙 집중형 클라우드 환경만으로 구현하기 어려운 수준의 응답 속도와 확장성을 지원할 방침이다. 업계에선 AI 인프라 무게중심이 대규모 모델 학습 중심에서 추론 중심으로 이동하고 있다는 분석이 나온다. 실제 서비스 단계에선 AI가 얼마나 빠르게 응답하고 안정적으로 운영되느냐가 고객 경험과 운영 효율성에 직접적인 영향을 미치기 때문이다. 아카마이는 아태지역이 이런 변화의 중심에 있다고 짚었다. 일본과 호주 등 성숙 시장에선 고성능·고가용성 인프라 수요가 늘고 있으며 인도와 중국, 동남아시아에선 AI 네이티브 기업이 빠르게 성장하고 있다는 설명이다. 한국 역시 대기업의 레거시 시스템 현대화와 디지털 네이티브 기업의 AI 서비스 확대가 동시에 진행되며 주요 시장으로 부상 중인 상황이다. 회사는 향후 글로벌 네트워크 전반에 GPU 기반 추론 인프라를 확대하고 AI 애플리케이션 보호 기능을 강화해 성능과 보안을 동시에 제공하는 AI 플랫폼 전략을 추진할 계획이다. 아태지역 기업들의 AI 도입과 서비스 운영을 지원하며 성장세를 이어간다는 목표다. 숀 리 아카마이 아태지역 총괄 수석 부사장은 "아태지역은 이제 AI 실험 단계를 넘어 실행 단계로 접어들고 있다"며 "현재 기업들이 직면한 과제는 AI를 원활하게 구동하는 것으로, 지연 시간·확장성·신뢰성이 곧 매출과 고객 경험에 직간접적인 영향을 미친다"고 말했다. 이어 "추론 기술을 엣지로 가져옴으로써 우리는 기업에 중앙 집중식 클라우드만으로는 구현하기 어려운 수준의 즉각적이고 안전하며 대규모로 확장 가능한 인텔리전스 플랫폼을 제공할 것"이라고 덧붙였다.

2026.06.11 16:47한정호 기자

[기고] 아태지역 AI 인프라, '데이터 시스템' 중심 설계해야

대규모 모델을 학습시키고 AI를 실험 단계에서 실제 운영 환경으로 확산시키는 것이 당면 과제였던 시기에는, 이러한 컴퓨팅 중심의 접근이 충분히 합리적인 선택이었다. 그러나 아태지역 전반에서 AI 도입이 성숙 단계에 접어들면서, 컴퓨팅과 데이터 사이의 구조적 격차가 핵심 과제로 부상하고 있다. AI 학습의 중요성은 여전히 크지만, AI의 다음 단계는 조직이 얼마나 많은 컴퓨팅 자원을 확보하느냐만으로 결정되지 않는다. 시간이 흐를수록 AI 시스템이 얼마나 많은 데이터를 소비하고, 생성하고, 보존하며, 다시 활용할 수 있는지가 중요한 경쟁력으로 자리 잡을 것이다. 이러한 차이는 AI가 비즈니스 가치를 창출하기 위해 운영 환경과 추론 단계로 본격 진입할수록 더욱 뚜렷해진다. AI는 데이터를 단순히 사용하는 데 그치지 않는다. 맥락과 메타데이터부터 출력값, 처리 이력, 운영 과정에서 축적되는 부가 데이터에 이르기까지 새로운 데이터를 지속적으로 생성한다. 많은 조직은 이러한 데이터를 거버넌스 준수, 모델 개선, 또는 향후 활용을 위해 장기간 보존하고자 할 것이다. AI 워크로드마다 요구하는 스토리지 계층도 다르다. 데이터 수집과 학습부터 추론, 장기 보존에 이르기까지 각 단계는 성능, 용량, 비용 측면에서 서로 다른 요건을 갖기 때문이다. 추론이 시작되면 이 차이는 더욱 분명해진다. 컴퓨팅 자원은 수요에 따라 단계적으로 확장될 수 있지만, 데이터는 멈추지 않고 계속 축적된다. 시간이 지날수록 AI 운영 환경은 순수한 컴퓨팅 시스템보다 데이터 시스템에 가깝게 작동한다. 축적되는 데이터가 시스템의 확장 방식, 운영 방식, 가치 창출 방식을 규정하기 시작하기 때문이다. 이는 규모, 비용 압박, 에너지 제약, 규제 복잡성이 시장마다 다르게 나타나는 아태지역에서 특히 중요한 의미를 갖는다. 아태지역 AI 성장, 데이터 확장성이 핵심 과제로 부상 아태지역의 성장세는 뚜렷하다. 딜로이트 보고서에 따르면, 아태지역은 2030년까지 약 8000억 달러(약 1219조원) 규모의 데이터센터 투자가 예상되며 세계의 차세대 데이터센터 허브로 부상할 전망이다. 한국도 이러한 흐름에 발맞추고 있다. 지난 5월 '인공지능 데이터센터 산업 진흥에 관한 특별법', 이른바 AIDC 특별법이 국회 본회의를 통과했다. 해당 법은 글로벌 AI 3대 강국 도약이라는 비전을 뒷받침하기 위해 관련 규제 부담을 완화하는 것을 목표로 하며, 2027년 2월 시행될 예정이다. 동시에 아태지역의 AI 인프라 전략은 결코 단순하지 않다. 아태지역에는 빠르게 성장하는 디지털 경제권, 이미 인프라가 고도화된 성숙 시장, 새롭게 부상하는 AI 네이티브 환경이 함께 공존한다. 각 시장이 직면한 우선순위와 제약 조건도 제각각이다. 이에 따라 AI의 실질적인 병목은 순간적인 처리 성능보다 대규모 데이터 관리 역량 쪽으로 이동하고 있다. AI 환경이 확장될수록 조직은 데이터 생애주기 전반에 걸쳐 서로 다른 데이터 계층을 지원해야 한다. 빠른 접근이 필요한 핫 데이터, 간헐적으로 활용되는 웜 데이터, 장기 보존을 위한 콜드 데이터가 대표적이다. 모든 데이터를 하나의 고성능 계층에 저장하는 방식은 소규모 환경에서는 작동할 수 있지만, 데이터 규모가 커질수록 비효율적이며 경제적으로도 지속 가능하지 않다. 실질적으로 아태지역의 AI 성장은 컴퓨팅 자원 배치뿐 아니라, 장기적으로 AI를 책임 있고 경제적으로 지원하기 위한 더 넓은 데이터 아키텍처 전반에 부담을 가중시킬 것이다. 이 때문에 이제 아키텍처 설계는 순수한 처리 속도만큼이나 중요해지고 있다. 확장성의 관점에서 핵심은 가용성, 내구성, 복원력, 그리고 데이터를 장기간 보존하고 관리하는 데 따르는 경제성이다. 결국 데이터 규모가 커지고, 워크로드가 변화하며, 비용 압박이 심화되는 상황에서 기반 아키텍처가 그 속도를 따라갈 수 있는지가 관건이다. AI의 장기 비용을 좌우하는 데이터 관리 AI가 지속적으로 데이터를 생성하는 단계로 접어들면서, AI의 장기 비용은 컴퓨팅 자원뿐 아니라 조직이 데이터를 얼마나 효율적으로 보존하고 관리하느냐에 따라 결정될 것이다. 대규모 환경에서 총소유비용(TCO)은 드라이브, 전력 소비, 냉각 장치, 랙 공간, 그리고 급증하는 데이터 규모를 관리하는 운영 부담이 복합적으로 작용해 형성된다. 이에 따라 지속 가능성은 인프라 설계에서 빼놓을 수 없는 요소가 됐다. 핵심은 컴퓨팅 자원에 전력을 어떻게 공급할 것인가에만 있지 않다. 데이터 수집과 학습부터 추론, 장기 보존에 이르기까지 용량, 에너지, 공간을 효율적으로 활용하는 데이터 시스템으로 AI 인프라를 어떻게 설계할 것인가가 중요하다. 모든 데이터를 동일한 성능 계층에 저장할 필요는 없다. 워크로드 요건에 맞게 스토리지 자원을 배치하면, 조직은 데이터 생애주기 전반에서 용량, 에너지, 냉각, 물리적 공간을 보다 효율적으로 활용할 수 있다. 인프라 리더에게 이는 지속 가능성과 총소유비용을 설계 초기 단계부터 핵심 기준으로 삼아야 한다는 의미다. 데이터 보존, 계층화, 내구성, 가용성에 대한 초기 판단은 시스템이 실제 운영 단계에 들어선 뒤 장기적인 영향을 미친다. 대규모 환경에서 이를 뒤늦게 재검토하고 수정하려면 상당한 비용이 발생할 수 있다. 전체 데이터 생애주기를 염두에 두고 인프라를 설계하는 조직은, 경제적으로 지속 가능하면서도 운영 복원력을 갖춘 방식으로 AI를 확장하는 데 더 유리한 위치에 설 수 있다. AI의 다음 단계, 아키텍처가 좌우한다 업계는 AI 인프라를 칩 성능, 벤치마크 점수, 최고 모델 성능 중심으로 바라보던 단계를 지나고 있다. 다음 단계는 사용 확대 속에서도 시스템이 비용 효율성, 적응력, 지속 가능성을 유지할 수 있는지를 결정하는 아키텍처 선택에 좌우될 것이다. 이는 더 근본적인 질문을 던져야 한다는 의미이기도 하다. 데이터를 얼마나 많이, 얼마 동안 보존해야 하는가. 어떤 워크로드에 프리미엄 성능이 필요하고, 어떤 워크로드에는 그렇지 않은가. 조직은 접근성, 복원력, 거버넌스, 비용 사이에서 어떤 균형을 잡아야 하는가. 이제 이러한 질문들은 부차적인 고려사항이 아니다. AI가 상업적으로 실현 가능하고 운영 측면에서도 지속 가능한 방식으로 확장될 수 있는지를 좌우하는 핵심 요소다. AI의 다음 승자는 단순히 가장 많은 컴퓨팅 자원을 배치한 조직이 아닐 것이다. 시간이 지남에 따라 AI 시스템이 어떻게 작동하는지를 이해하고, AI가 지능을 만들어내는 동시에 데이터를 생성한다는 현실을 바탕으로 인프라를 설계하는 조직이 될 것이다. 대규모 환경에서는 그 데이터 자체가 곧 시스템이 된다.

2026.06.11 11:38스테판 만들 컬럼니스트

리벨리온, 문병준 전 주사우디 대사대리 영입…중동 시장 공략

인공지능(AI) 반도체 스타트업 리벨리온이 중동 외교 전문가를 영입했다. 문병준 전 주사우디아라비아 대사대리를 중동·북아프리카(MENA) 전략 고문으로 위촉했다고 11일 밝혔다. 리벨리온은 "중동 현장을 누빈 전문가와 손잡고 중동 AI 반도체 시장 내 파트너십을 구축할 것"이라고 말했다. 문 고문은 외교부 중동2과장을 비롯해 주이집트 대사관 공사, 주두바이 총영사, 주사우디아라비아 대사대리를 역임했다. 리벨리온은 "문 고문은 올 5월에 중동전쟁 장기화라는 위기 속에서 외교장관 특사 자격으로 중동 지역을 방문해 협력 방안을 논의했다"며 "이번 위촉은 국가 차원으로 축적한 네트워크 역량을 민간에 연결한다는 점에서 의의가 있다"고 설명했다. 리벨리온은 문 고문이 보유한 현지 정부·기관·기업 네트워크를 중동 시장 내 글로벌 파트너십 구축에 활용할 계획이다. 리벨리온은 지난해 사우디아라비아에 현지 법인을 설립했다. 문 고문은 "현재 중동에서는 AI 공급망과 원천 기술 확보가 주요 과제로 떠오르고 있다"며 "추론 특화 AI 반도체는 이러한 고민에 해답을 줄 수 있다. 리벨리온은 이를 앞세워 현지 네트워크를 바탕으로 경쟁력을 증명할 것”이라고 밝혔다.

2026.06.11 09:34진운용 기자

'AI' vs '로스쿨 교수', 법률 추론 대결...승자는

인공지능(AI)이 학생들 질문에 인간 법학 교수보다 더 우수하게 답변할 수 있다는 연구 결과가 나왔다. 심지어 답변이 오해를 불러일으키거나 교육적으로 유해하다고 판단되는 비율 역시 AI가 인간 교수보다 훨씬 낮았다. 이 연구 보고서는 지난달 27일 스탠퍼드 로스쿨 홈페이지에 게재됐으며, 이달 1일 같은 웹사이트 내 뉴스&미디어를 통해 보도됐다. 스탠퍼드 대학교 로스쿨의 법학 교수이자 '법무혁신 프론티어 테크놀로지 랩(LIFT Lab)'을 이끄는 줄리언 냐르코(Julian Nyarko) 교수는 예일대·뉴욕대 등 미국 명문대 동료 연구진과 함께 AI가 학생들의 법률 질문에 얼마나 정교하게 답할 수 있는지를 검증하는 연구를 진행했다. 냐르코 교수 연구팀이 진행한 이번 실험에는 미국 로스쿨에 재직 중인 법학 교수 16명이 참여했다. 교수들은 실제 계약법 강의 중이나 강의 후에 학생들이 던질 수 있는 대표적인 질문 40개를 작성한 뒤, 각 질문에 대한 모범 답안을 직접 기술했다. 연구팀은 AI에게도 동일한 질문을 주고 답변을 생성하게 한 뒤, 평가자가 어떤 답변이 인간 교수의 것이고 어떤 것이 AI의 것인지 알 수 없도록 '블라인드 테스트' 방식으로 평가를 진행했다. 특히 연구팀은 실험의 형평성과 타당성을 확보하기 위해 AI가 생성한 답변의 길이나 구조를 인간 교수가 작성한 답변 스타일에 맞춰 엄격하게 조정했다. 냐르코 교수는 "이번 연구가 가지는 학술적 중요성이 매우 크기 때문에, 실험 설계를 최대한 엄격하고 객관적으로 진행했다"고 강조했다. 기존의 AI 성능 조사는 주로 정답과 오답이 명확히 갈리는 단답형 문제에 초점이 맞춰져 있었다. 하지만 법적 추론의 영역은 대립하는 논거들을 신중하게 분석하고 모호함을 조율하며 타당한 결론을 도출해야 하는 복잡한 과정이다. 냐르코 교수는 "법학에 초점을 맞춘 이유는 단순히 사실을 기억하는 능력을 넘어, 판단력과 섬세한 추론 능력, 그리고 모호함을 극복하는 능력이 복잡하게 요구되는 분야이기 때문"이라고 설명했다. 참여 교수들이 총 2918건의 답변을 교차 평가한 결과, 놀랍게도 교수들은 동료 인간 법학 교수가 작성한 답변보다 AI가 생성한 답변에 현저히 높은 점수를 줬다. AI가 생성한 답변은 인간 교수와의 1대1 비교 평가에서 약 75%의 승률을 기록했다. 가장 주목할 만한 부분은 '교육적으로 해롭거나 잘못된 정보를 담고 있다'고 지적된 답변 비율이었다. 인간 교수가 작성한 답변 중 유해성이나 오류가 지적된 비율은 약 12%에 달했으나, AI가 생성한 답변에서는 그 비율이 불과 3.5%에 그쳐 안정성 면에서도 판정승을 거뒀다. 냐르코 교수는 "실험에 사용된 질문들은 결코 단순한 문답 수준이 아니었다"며 "대부분 복잡한 법리 개념을 통합하고 이를 새로운 가상 상황에 적용해, 학생들이 분석적 기술을 키울 수 있도록 돕는 고난도 질문이었다"고 설명했다. 이어 "이번 연구는 법학 교육에서 AI의 역할에 대해 우리가 가졌던 기존의 부정적 전제들에 강한 의문을 제기한다"고 덧붙였다. 이번 연구 결과는 향후 법학 교육 현장에서 'AI 튜터'의 활용 가능성을 시사한다는 점에서 학계의 큰 관심을 모으고 있다. 현재 미국 로스쿨 환경에서는 AI 도입을 두고 고심하고 있는데, 일각에서는 AI의 환각 현상이나 학생들의 과도한 의존, 비판적 사고력 저하 등을 우려해 도입에 신중한 태도를 보여왔다. LIFT Lab의 연구원인 알레한드로 살리나스(Alejandro Salinas)는 "우리의 연구는 AI를 통한 개별 지도가 법률처럼 고도의 판단을 요하는 전문 분야 학습에 어떻게 기여할 수 있는지를 보여준다"면서 "법학 교육자들의 평가를 통해, AI 튜터가 교실 수업을 보완하는 질 높은 상시 지원(On-demand) 서비스를 제공할 수 있으며, 전문가 지도에 대한 학생들의 접근성을 획기적으로 확대할 잠재력이 있음이 증명됐다"고 평가했다. 이어 그는 "법조인 교육의 본질은 미래의 변호사들이 비판적으로 사고하고, 설득력 있는 논증을 펴며, 윤리적으로 복잡한 문제에 대처할 수 있도록 훈련하는 것"이라며 "AI 튜터의 전면 도입을 성급하게 권장하는 것은 아니지만, 데이터가 보여주듯 AI에 대해 무조건적인 회의론을 고집하는 것 또한 부당하다"고 지적했다. 나아가 살리나스 연구원은 "이제 논의의 초점은 'AI가 과연 정확하고 질 높은 답변을 줄 수 있는가'라는 의구심에서 벗어나, '학생들의 학습 이익을 위해 AI를 어떻게 책임감 있게 교육 과정에 활용할 것인가'로 전환돼야 한다"고 제언했다.

2026.06.07 09:42백봉삼 기자

[AI 고속도로] 국산 클라우드-NPU 연합 생태계 본궤도…정부 육성정책 결실 맺나

국내 클라우드 기업들이 국산 신경망처리장치(NPU)를 서비스 형태로 제공하는 사업에 잇따라 뛰어들면서 정부가 수년간 추진해 온 AI 반도체 육성 정책이 본격적인 상용화 단계에 진입하고 있다. 기술 실증과 연구개발(R&D)을 넘어 실제 클라우드 서비스와 산업 현장으로 확산되며 독자 인프라 생태계 구축에 속도가 붙는 모습이다. 5일 업계에 따르면 KT클라우드와 가비아가 최근 리벨리온 반도체 기반 서비스형 NPU(NPUaaS)를 출시한 데 이어 삼성SDS도 오는 7월 퓨리오사AI NPU를 탑재한 서비스를 선보일 예정이다. 국내 주요 클라우드 사업자들이 국산 AI 반도체를 클라우드 상품으로 제공하며 본격적인 상용화에 나서는 분위기다. 이는 신규 서비스 출시를 넘어 정부 주도 AI 반도체 육성 정책이 실제 시장으로 연결되는 전환점이 될 전망이다. 그동안 국산 NPU는 기술 검증과 실증 사업 중심으로 성장해 왔지만, 최근에는 국내 클라우드를 통해 기업과 공공기관이 손쉽게 활용할 수 있는 서비스 형태로 확산을 앞두고 있다. K-AI 반도체, 실증 넘어 서비스 단계 진입 KT클라우드는 지난 4일 리벨리온의 차세대 NPU '아톰 플러스'를 적용한 공공 전용 NPU 서비스 출시를 발표했다. 국내 NPUaaS 가운데 처음으로 클라우드 보안인증(CSAP)을 획득했으며 공공기관과 지방자치단체가 보안 규제를 충족하면서 국산 AI 반도체를 활용할 수 있도록 설계됐다. 가비아도 지난 4월 리벨리온 '아톰-맥스'를 기반으로 한 NPUaaS를 선보였다. 클라우드 환경에서 NPU를 구독형으로 제공하며 AI 추론 최적화 컨설팅까지 함께 지원할 계획이다. 그래픽처리장치(GPU) 공급 부족과 비용 부담이 커지는 상황에서 추론 중심 AI 서비스 수요를 겨냥한 전략이다. 삼성SDS 역시 다음 달 퓨리오사AI의 2세대 NPU '레니게이드' 기반 NPUaaS를 삼성 클라우드 플랫폼(SCP)에 출시할 예정이다. 엔비디아 GPU 중심 인프라에서 벗어나 고객이 워크로드 특성에 따라 GPU와 NPU를 선택할 수 있는 구조를 구축한다는 목표다. 이 외 다양한 국내 IT서비스 기업들도 국산 NPU 생태계 확대에 동참하고 있다. 롯데이노베이트는 모빌린트와 협력해 휴머노이드와 스마트 인프라 등 피지컬 AI 분야 실증을 추진한다. 포스코DX도 산업용 제어 시스템에 모빌린트 NPU를 적용해 제조 현장 중심의 엣지 AI 구축에 나서고 있다. LG CNS도 국산 NPU 기반 AI 인프라와 서비스 확대를 추진하면서 AI 반도체 활용 범위가 클라우드를 넘어 제조·공공·기업 업무 영역 전반으로 확산되는 상황이다. 최근 AI 인프라 시장이 대규모 학습 중심에서 추론 중심으로 이동하는 것도 이러한 변화 배경으로 꼽힌다. NPU는 추론 작업에서 GPU 대비 전력 효율과 비용 경쟁력이 높아 AI 에이전트와 기업용 생성형 AI 서비스 확산 과정에서 새로운 대안으로 주목받고 있다. 정부 'AI 반도체 팜' 결실 맺기 시작 현재 나타나는 상용화 흐름은 정부가 지난 수년간 추진해 온 AI 반도체 육성 정책과 맞닿아 있다. 대표 사례가 과학기술정보통신부와 정보통신산업진흥원(NIPA)이 추진한 'AI 반도체 팜 구축·실증' 사업이다. 해당 사업은 국산 NPU 기반 고성능 클라우드 인프라를 구축하고 실제 산업 현장에서 성능을 검증하기 위해 2023년부터 3년간 진행됐다. 사업에는 네이버클라우드·KT클라우드·NHN클라우드 등이 참여했으며 리벨리온과 퓨리오사AI가 반도체 공급사로 함께했다. 이들은 총 19.95페타플롭스(PF) 규모 국산 NPU 인프라를 구축하고 의료·번역·챗봇 등 다양한 AI 서비스를 실증했다. 특히 네이버클라우드는 퓨리오사AI와 함께 외국인 근로자를 위한 거대언어모델(LLM) 기반 번역·챗봇 서비스를 실증했으며 KT클라우드와 NHN클라우드는 리벨리온과 협력해 뇌 질환 진단·예측 플랫폼 등을 운영했다. 또 NHN클라우드는 정부 'K-클라우드 프로젝트'를 통해 22PF 이상 규모 국산 NPU 인프라를 구축하며 의료·공공안전 분야 실증을 수행했고 네이버클라우드 역시 국산 NPU 기반 서비스 검증과 운영 경험을 축적하며 상용화 기반 마련에 기여했다. 일부 실증에선 국산 NPU가 외산 GPU 대비 경쟁력 있는 성능을 보인 것으로도 전해졌다. 업계에선 정부 사업이 국산 NPU 성능을 검증하는 데 그치지 않고 클라우드 사업자들이 실제 운영 경험을 축적하는 계기가 됐다고 평가했다. 최근 등장하는 NPUaaS 역시 당시 확보한 운영 노하우와 최적화 경험이 기반이 됐다고 분석했다. 다음 시험대는 공공 AX 수요 창출 다만 국산 클라우드와 NPU 결합 생태계가 본격적으로 성장하기 위해선 안정적인 추가 수요 창출이 필요하다는 지적도 나온다. 현재 정부는 삼성SDS 컨소시엄과 국가AI컴퓨팅센터 구축 사업을 추진하고 있다. 오는 2028년까지 첨단 AI 반도체 1만 5000장 규모 인프라를 구축하는 초대형 프로젝트로, 국산 AI 반도체 연구개발과 실증 환경도 함께 제공할 계획이다. 특히 정부는 센터 내 연구개발 존을 조성해 국산 NPU 시범 운영과 신뢰성 검증을 지원하고 향후 국산 AI 반도체 활용 비중도 확대한다는 방침이다. 공공 AI 전환(AX) 사업 역시 중요한 기반이다. 최근 정부와 지방자치단체가 생성형 AI와 AI 에이전트 도입을 확대하면서 추론 중심 AI 인프라 수요가 빠르게 증가하고 있다. 이같은 공공 사업에서 국산 NPU 활용 사례가 늘어날 경우 클라우드 사업자와 반도체 기업 모두에게 새로운 성장 기회가 될 전망이다. 업계 관계자는 "국산 NPU가 과거보다 성능이 많이 개선된 만큼 이제 기술 검증 단계를 넘어 실제 서비스와 시장 적용 단계에 진입하고 있다"며 "정부와 공공 사업 등에서 의미 있는 수요가 만들어진다면 토종 클라우드와 AI 반도체가 함께 성장할 수 있을 것"이라고 말했다. 배경훈 부총리 겸 과기정통부 장관은 지난 4일 'K-AI 반도체 성장 포럼'에서 "국산 AI반도체는 AI 3대 강국 도약이라는 국정과제 실현과 독자 AI 완성을 위한 핵심 기반"이라며 "본격적인 양산과 상용화를 넘어 실질적인 성과를 낼 수 있도록 정부가 마중물 역할을 수행하며 적극 뒷받침하겠다"고 강조했다.

2026.06.05 14:50한정호 기자

인텔 "에이전틱 AI 시대, CPU 중요성 다시 커진다"

[타이베이(대만)=권봉석 기자] 생성 AI와 AI 모델 훈련에 집중되던 데이터센터와 연산 수요가 에이전틱 AI 워크로드와 자체 개발 AI 모델을 활용한 추론으로 옮겨가고 있다. 인텔이 1일(현지시간) 정식 출시한 서버·데이터센터용 프로세서 '제온6+'는 클라우드·통신사, 에이전틱 AI 등 대규모 코어 작동이 필요한 환경을 겨냥했다. 세 환경 모두 높은 처리량과 연산 밀도가 중요시되는 스케일아웃 환경이라는 공통점을 지녔다. 1일 오전 대만 타이베이 험블하우스 내 행사장에서는 케보크 케치치안 인텔 데이터센터그룹 총괄을 비롯해 주요 업계 관계자들이 참석한 가운데 AI 워크로드 변화 속 제온6+의 방향성에 대한 패널 토론이 진행됐다. AI 처리 과정에서 CPU 역할 확대 가속 다니엘 허우 기가컴퓨팅 CEO, 마그누스 에버브링 에릭슨 아태지역 CTO, GPU 클라우드 서비스 기업인 GMI클라우드의 유징 치엔 엔지니어링 부사장 등은 "AI 처리 과정에서 CPU의 역할이 다시 커지는 등 중요도가 높아졌다"고 입을 모았다. 다양한 AI 에이전트가 데이터를 처리하고, 네트워크·스토리지·메모리를 조율하며, GPU 자원을 효율적으로 활용하기 위해서는 강력한 CPU가 필수적이다. 케보크 케치치안 인텔 총괄은 "AI 시대에도 제온은 여전히 제어판이자 기반 인프라가 될 것"이라고 강조했다. AI 에이전트 훈련 위한 환경 조성에도 CPU 필수 과거 AI 인프라 논의의 중심에는 GPU가 있었다. 그러나 에이전틱 AI 확산은 CPU 수요를 구조적으로 늘리고 있다. 위징치엔 GMI클라우드 부사장은 "최근 대형 AI 기업들은 단순히 데이터를 입력하는 사전학습보다 강화학습 기반 후처리에 더 많은 자원을 투입하고 이 과정에서 실제 인터넷 환경을 본딴 대규모 샌드박스 환경이 필요하다"고 설명했다. 이어 "AI 에이전트가 작동하는 환경을 CPU가 만들고 있으며 에이전트 밀도를 높일 수록 학습 속도와 서비스 효율성이 크게 향상된다"고 덧붙였다. "제온6+, 통신사업자의 전력 효율 향상" 마그누스 에버브링 에릭슨 CTO는 "향후 디지털 생태계는 AI와 클라우드, 모바일 네트워크 삼각축으로 구성되며 이동통신망은 AI 서비스를 전달하는 핵심 플랫폼이 될 것"이라고 설명했다. 문제는 폭증하는 트래픽이다. 에릭슨은 향후 10년 동안 이동통신 트래픽이 10~15배 증가할 것으로 전망한다. 마그누스 에버브링 에릭슨 CTO는 "통신사업자에게 가장 중요한 것은 효율성과 예측 가능성이며 제온6+는 성능 대비 전력 효율을 크게 향상시키면서도 장기적인 네트워크 확장성을 제공한다"고 평가했다. 그는 기지국 인근 엣지 데이터센터부터 지역 거점, 중앙 데이터센터까지 다양한 환경에서 동일한 소프트웨어 아키텍처를 유지할 수 있다는 점도 장점으로 꼽았다. "코어 밀도 향상으로 데이터센터 전력 절감 가능" AI 데이터센터가 끌어다 쓰는 막대한 전력이 향후 확장을 가로막는 가장 큰 문제가 될 것이라는 우려가 커지고 있다. 이날 패널들도 AI 데이터센터의 전력 효율성을 당면 과제로 지적했다. 패널들은 제온6+의 높은 코어 밀도와 랙당 처리량을 핵심 가치로 평가했다. 동일한 전력량 안에서 더 많은 AI 에이전트를 운영하고 더 많은 샌드박스를 생성하는 동시에 절감된 전력을 GPU로 돌릴 수 있기 때문이다. 케보크 케치치안 인텔 총괄은 "이제 업계는 단순 코어 수가 아니라 랙 단위에서 얼마나 많은 AI 에이전트를 처리할 수 있는지를 평가하기 시작했다"며 "에이전트 밀도와 전력 효율이 새로운 평가 기준이 될 것"이라고 설명했다.

2026.06.02 06:56권봉석 기자

[AI 고속도로] AI 열풍 탄 '네오클라우드'…인프라 새 전장으로

인공지능(AI) 시대 핵심 자원 그래픽처리장치(GPU)를 전문적으로 공급·운영하는 '네오클라우드'가 글로벌 인프라 시장의 새로운 강자로 떠오르고 있다. AI 경쟁 무게중심이 모델 개발에서 인프라 확보로 이동하는 가운데, 국내 기업들도 차세대 AI 클라우드 시장 선점에 나서는 모습이다. 네오클라우드는 AI 모델 학습과 추론에 필요한 GPU를 서비스형(GPUaaS)으로 제공하는 AI 특화 클라우드 사업자를 뜻한다. 웹서비스와 기업 업무를 폭넓게 처리하는 기존 범용 퍼블릭 클라우드와 달리 AI 연산에 최적화된 구조를 갖춘 것이 특징이다. 네오클라우드가 주목받는 배경에는 폭발적으로 증가한 AI 연산 수요가 있다. 빅테크 기업들의 AI 데이터센터 투자와 소버린 AI 프로젝트 확대로 GPU 수요가 급증했지만 공급은 이를 따라가지 못하고 있다. 동시에 확보한 GPU조차 효율적으로 활용하지 못하는 문제가 나타나면서 AI 전용 인프라 필요성이 커지고 있다. 가격 경쟁력도 강점으로 꼽힌다. 업타임 인스티튜트 분석에 따르면 북미 기준 엔비디아 H100 GPU 온디맨드 사용 비용은 네오클라우드가 시간당 약 34달러로, 하이퍼스케일러 평균인 98달러 대비 크게 저렴한 것으로 나타났다. AI 워크로드에 불필요한 요소를 줄여 비용 효율을 높인 결과다. 글로벌 시장에선 코어위브, 람다랩스, 네비우스 등이 대표 사업자로 부상했다. 특히 코어위브는 오픈AI와 앤트로픽, 구글, 메타, 퍼플렉시티 등 주요 AI 기업에 GPU 인프라를 제공하며 시장을 선도하고 있다. 최근에는 AI 개발 플랫폼 기업 위츠앤바이어스(W&B)를 인수한 데 이어 에이전트 AI 기능까지 출시하며 단순 GPU 임대를 넘어 풀스택 AI 클라우드 기업으로 진화하고 있다. 네비우스 역시 AI 특화 클라우드 기업으로 빠르게 성장 중이다. 러시아 최대 검색엔진 얀덱스에서 분사한 뒤 AI 클라우드 기업으로 전환한 네비우스는 마이크로소프트와 메타, 엔비디아 등과 대형 계약을 체결하며 시장 영향력을 확대하고 있다. 올해 들어 주가가 130% 이상 급등하는 등 투자자들의 관심도 집중되고 있다. 글로벌 자본도 네오클라우드에 몰리는 상황이다. 블랙스톤과 칼라일 등 미국 주요 투자기관들은 코어위브와 람다, 크루소 등 네오클라우드 기업이 보유한 GPU를 담보로 대규모 자금을 공급하고 있다. 시장에선 GPU 자체가 새로운 인프라 자산으로 평가받기 시작했다는 분석도 나온다. 통신사들도 경쟁에 뛰어들고 있다. 일본 소프트뱅크는 엔비디아 GB200 NVL72 기반 네오클라우드 서비스를 올해 정식 출시할 예정이다. 자체 AI 클라우드 운영체제(OS) '인프리니아'를 결합해 학습부터 추론까지 통합 지원하는 구조를 내세우고 있다. 글로벌 통신사들이 AI 인프라 사업자로 영역을 확장하는 흐름이 뚜렷해지는 양상이다. 국내에선 베슬AI와 몬드리안에이아이 등이 대표 주자로 꼽힌다. 베슬AI는 연내 최신 GPU 1만 장 규모 인프라 구축을 추진하며 글로벌 데이터센터 네트워크를 확대하고 있다. 몬드리안에이아이는 AI 플랫폼과 인프라를 결합한 네오클라우드 전략을 내세우며 교육·연구 시장을 공략 중이다. 엘리스그룹 역시 모듈형 데이터센터와 GPU 스팟 요금제를 앞세워 시장 진입에 속도를 내고 있다. 업계에선 네오클라우드가 기존 하이퍼스케일러를 대체하기보다 AI 특화 워크로드를 처리하는 새로운 인프라 축으로 자리 잡을 것으로 보고 있다. 시장조사기관 ABI리서치는 네오클라우드 GPUaaS 시장이 2030년 수백조원 규모로 성장할 것으로 전망했다. 코리 샌더스 코어위브 제품 관리 담당 수석부사장은 최근 미국 IT 전문매체 AI 비즈니스 인터뷰에서 "AI 클라우드는 더 이상 GPU 임대 사업이 아니다"라며 "학습과 추론, 운영을 아우르는 풀스택 플랫폼 경쟁이 시작됐으며 이것이 차세대 AI 인프라 시장의 핵심이 될 것"이라고 강조했다.

2026.05.31 11:00한정호 기자

GPU 확보보다 활용…오케스트로, 추론 특화 플랫폼 '콘체르토 AI' 공개

오케스트로가 생성형 인공지능(AI) 서비스 확산으로 급증하는 추론 수요에 대응하기 위한 AI 인프라 운영 플랫폼을 공개했다. 단순 그래픽처리장치(GPU) 확보 경쟁을 넘어 보유 자원을 얼마나 효율적으로 활용하느냐가 기업 AI 경쟁력으로 떠오르면서, 추론 최적화와 운영 자동화 시장 공략에 나선 모습이다. 오케스트로는 AI 추론 운영 플랫폼 '콘체르토 AI(CONCERTO A.I.)'를 출시했다고 29일 밝혔다. 콘체르토 AI는 기업이 보유한 GPU 인프라 활용 효율을 높여 생성형 AI 서비스 운영 과정에서 발생하는 추론 병목과 응답 지연 문제를 줄이는 데 초점을 맞췄다. 최근 기업 시장에선 AI 챗봇과 업무 자동화 에이전트, 검색증강생성(RAG) 기반 서비스 도입이 확대되면서 추론 연산 수요가 빠르게 증가하고 있다. 특히 에이전트형 AI 환경에선 하나의 요청이 여러 모델 호출과 반복 연산으로 이어지면서 GPU 자원 부담이 커지고 있다. 이에 업계에선 GPU 증설보다 기존 인프라 활용 효율을 높이는 운영 기술 중요성이 커지는 추세다. 콘체르토 AI는 대규모 추론 요청을 분산 처리하고 GPU와 신경망처리장치(NPU) 등 가속기 자원을 작업 특성에 맞게 배분하도록 설계됐다. 질문 분석과 답변 생성 작업을 분리해 각각 최적의 자원에 할당하는 분산 서빙 방식을 적용해 병목 현상을 줄이고 응답 성능을 높인다. 여기에 키-값 캐시(KV Cache) 최적화와 메모리 재사용 기술을 적용해 초기 응답 시간과 토큰 처리 속도를 개선했다. 실시간 대기열과 자원 상태를 반영한 지능형 라우팅 기능도 탑재해 고부하 환경에서도 안정적인 응답 성능을 유지할 수 있도록 지원한다. 오케스트로에 따르면 자체 온프레미스 AI 인프라 환경에서 진행한 벤치마크 결과, 동시 요청이 집중되는 고부하 환경에서 콘체르토 AI의 분산 서빙 방식은 기존 단일 처리 방식 대비 토큰 출력 속도를 2.2배 향상시켰다. 회사는 이를 통해 동일한 하드웨어 환경에서도 응답 지연을 줄이고 추론 처리 안정성을 높일 수 있다고 설명했다. 운영 자동화 기능도 강화했다. 콘체르토 AI는 AI 모델 배포부터 추론 요청 처리, 자원 배분, 성능 모니터링까지 거대언어모델 운영관리(LLMOps) 전 과정을 단일 플랫폼에서 지원한다. 표준화된 모델 패키징 기술을 기반으로 쿠버네티스 환경에서 배포 과정을 자동화하고 초기 응답 시간과 토큰 처리 속도, 자원 사용량 등 주요 운영 지표를 통합 관리할 수 있도록 돕는다. 특히 국내 유일 이기종 AI 가속기 지원 구조도 차별점으로 내세웠다. 엔비디아 GPU뿐 아니라 리벨리온과 퓨리오사AI 등 국산 NPU 환경까지 지원해 기업과 기관이 프라이빗 AI와 소버린 AI 환경에서 특정 하드웨어 벤더 의존도를 낮추고 인프라를 유연하게 구성할 수 있도록 지원한다. 최근 AI 인프라 시장 경쟁축은 학습 중심에서 추론 중심으로 이동하는 분위기다. 생성형 AI 서비스가 실제 업무 환경에 본격 적용되면서 GPU 확보 경쟁을 넘어 운영 효율과 자원 활용 최적화, LLM옵스 역량이 새로운 경쟁력으로 부상하고 있다. 오케스트로 역시 콘체르토 AI를 통해 기업 AI 인프라 운영 효율을 높이고 프라이빗 AI 시장 공략을 강화한다는 전략이다. 김범재 오케스트로 대표는 "생성형 AI가 실제 업무로 확산되고 에이전트형 AI 서비스가 늘어나면서 기업 AI 인프라 과제는 더 많은 GPU를 확보하는 것에서 보유 자원을 얼마나 효율적으로 운영하느냐로 옮겨가고 있다"며 "콘체르토 AI를 기반으로 기업이 보유한 AI 인프라 활용 효율을 높이고 프라이빗 AI 환경에서도 안정적인 AI 서비스 운영을 지원하겠다"고 말했다.

2026.05.29 10:48한정호 기자

Prev 1 2 3 4 5 Next