• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
인공지능
배터리
양자컴퓨팅
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'인퍼런스'통합검색 결과 입니다. (7건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

"AI는 누구나 쓸 수 있어야"…레드햇이 제시하는 인프라 장벽 해결방안은?

인공지능(AI)은 이제 산업 전체를 바꾸는 거대한 흐름으로 자리잡고 있다. 하지만 많은 기업들은 아직 그 속도를 따라가지 못하고 있는 상황이다. AI 학습과 활용을 위한 그래픽처리장치(GPU)는 비싸고 전문 인력은 부족하다. 복잡한 모델과 배포 환경은 기술력을 갖춘 일부 기업만의 영역처럼 여겨지고 있다. 레드햇(Red Hat)은 이러한 문제를 해결하기 위한 방안으로 가상언어모델(VLM)을 제시했다. 레드햇 브라이언 스티븐스 최고기술책임자(CTO)는 2일 여의도 레드햇코리아 사옥에서 "AI는 모든 기업이 활용해야 할 기술이지 일부 빅테크 기업의 전유물이 돼선 안 된다"며 "레드햇은 인프라 부담을 없애는 방식으로 AI의 대중화를 실현하려 한다"고 강조했다. 복잡한 인프라 없이도 AI활용… 오픈소스 기반 AI 플랫폼 'VLM' 지난달 한국산업기술진흥협회가 연구개발(R&D) 조직을 보유한 국내 기업 1천479곳을 대상으로 '기업 AI 활용 실태'를 조사한 결과 전체 응답 기업의 76.9%가 'AI 도입이 필요하다'고 응답했다. 하지만 실제 업무에 활용하거나 도입을 검토하는 기업은 절반에도 못 미치고 있는 것으로 나타났다. 브라이언 스티븐스 CTO는 기업에 AI 도입이 어려운 이유로 그들이 처한 현실을 지적했다. 기술보다 환경의 문제라는 것이다. 그는 "많은 기업들이 AI를 써보려는 생각은 하지만 현실적인 장벽이 너무 많다"며 "GPU 가격은 너무 비싸고 엔비디아 스택은 배우기 어려우며 AI 엔지니어 확보 경쟁은 치열하다"고 설명했다. 이어 "지속되는 불황으로 투자 여유가 없는 상황에서 'AI는 각 기업에게 상관없는 기술'처럼 느껴지게 된다"고 밝혔다. 레드햇은 AI 활용을 위한 여러 장벽 중 가장 문제로 지적되는 인프라를 해결하기 위한 방안으로 VLM을 선보이고 있다. VLM은 오픈소스 기반의 AI 추론 서버 플랫폼이다. GPT 같은 대규모 언어모델(LLM)을 기업 내부 서버나 클라우드에서 구동할 수 있게 도와주는 소프트웨어(SW)다. 스티븐스 CTO는 VLM을 서버나 클라우드를 운영하기 위한 핵심 운영체제(OS)인 리눅스(Linux)에 비유했다. 그는 "VLM은 특정 하드웨어에 종속되지 않고 복잡한 설정 없이 모델을 실행할 수 있다"며 "엔비디아, AMD, 인텔 등 어떤 GPU든 상관을 뿐 아니라 AI 엔지니어가 아니어도 명령어 하나만 입력하면 모델을 구축하고 운영할 수 있다"고 설명했다. VLM은 오픈소스 플랫폼 허깅페이스와 연동되며 사용자 친화적인 API와 관리 인터페이스도 제공한다. 중소기업도 서버 한두 대만 있으면 최신 AI 모델을 실행할 수 있으며 대기업은 데이터센터 단위로 확장 가능한 구조다. "GPU는 줄이고 속도는 4배로"…레드햇의 경량화 기법 레드햇이 VLM을 통해 해결하고자 한 또 하나의 과제는 바로 AI 운영 효율성이다. 최근 LLM의 규모는 갈수록 커지고 있다. 자연어를 이해하고 생성하는 능력이 향상되면서 모델이 처리해야 할 데이터 양도 함께 늘어나고 있기 때문이다. 이렇게 모델이 커질수록 이를 실제로 돌리기 위해서는 고성능의 GPU가 더 많이 필요하고 메모리도 많이 차지한다는 점이다. 이로 인해 전력 소비와 장비 비용이 눈덩이처럼 커진다. 레드햇은 이 문제에 대한 해법으로 모델 경량화 기술인 '양자화(Quantization)'를 제시했다. 이는 AI 모델이 계산에 사용하는 숫자의 표현 단위를 줄여 연산 부담은 낮추면서도 결과의 정확도는 유지할 수 있도록 돕는 기술이다. 그는 "기존 AI 모델은 계산을 위해 소수점 네 자리 정도까지 표현할 수 있는 숫자 형식인 FP16을 사용한다"며 "이 방식은 GPU 메모리를 많이 차지하고 처리 속도도 느리다는 단점이 있다"고 지적했다. 이어 "레드햇은 이를 FP8이나 FP4처럼 절반 이하 수준의 더 간단한 형식으로 바꾸는 기술을 갖추고 있다"고 설명하며 "덕분에 모델 크기는 작아지고 연산 속도는 빨라진다. 실제로 처리 속도는 최대 4배까지 향상됐고 GPU 메모리 사용량도 크게 줄었다"고 소개했다. 레드햇은 'LM 컴프레서'라는 자체 기술을 통해 이 양자화를 오픈소스로 공개했다. 이 덕분에 정확도는 99% 이상 유지하면서도 모델 경량화가 가능하다. 실제로 허깅페이스에서 매달 100만 건 이상 관련 모델이 다운로드되고 있다. "설정 없이 바로 쓴다"…기업을 위한 '완성형 AI 인프라' 이와 함께 레드햇은 오픈소스 기반의 VLM과 양자화 기술을 한데 묶은 상용 서비스인 레드햇 AI 인퍼런스 서버도 출시했다. 이 제품은 AI 추론 서버를 기업이 실제 환경에서 바로 쓸 수 있도록 구성했다. VLM 기반으로 기업에 최적화된 AI 모델, 양자화 도구, 보안 업데이트, 기업용 기술지원이 함께 제공된다. 레드햇 엔터프라이즈 리눅스(RHEL), 오픈시프트(OpenShift) 등 레드햇이 제공하는 서비스와 모두 호환되며 기술지원을 위한 서비스수준협약(SLA)도 제공한다. 그는 "오픈소스 VLM이 개발자들을 위한 도구라면 인퍼런스 서버는 기업을 위한 완성된 제품"이라며 "컨테이너 형태로 제공돼 누구나 바로 배포하고 운영할 수 있는 것이 강점"이라고 강조했다. 이어 "AI는 더 이상 선택이 아닌 생존의 조건으로 지금은 복잡한 기술을 공부할 때가 아니라 우리 기업의 어디에 AI를 적용할지 고민해야 할 때"라며 "레드햇은 그 진입 장벽을 최대한 낮추기 위해 노력할 것"이라고 덧붙였다.

2025.07.02 10:59남혁우

레드햇이 제시한 '비용 효율적 AI' 전략은?

레드햇이 오픈소스 생태계 기반으로 생성형 인공지능(AI)을 효과적으로 활용할 수 있는 방향을 제시한다. 레드햇은 내달 5일 서울 그랜드 인터컨티넨탈 서울 파르나스 그랜드볼룸에서 열리는 '컨버전스 인사이트 서밋(CIS) 2025'에서 'AI 대중화를 넘어서 비용 효율적인 AI로'를 주제로 기업을 위한 생성형 AI 전략을 발표할 예정이다. 발표는 한국레드햇 유혁 상무가 진행한다. 이날 레드햇은 AI 전략 두 가지를 소개한다. AI 오픈소스 커뮤니티에 대한 기여와 엔터프라이즈 오픈소스 AI 솔루션 관련 내용이다. 레드햇은 IBM 리서치와 협력해 오픈소스화한 그래니트 모델과 인스트럭트랩의 거대언어모델(LLM) 학습 도구를 통해 커뮤니티에 기여해 왔으며, 레드햇 엔터프라이즈 리눅스 AI(RHEL AI)와 레드햇 오픈시프트 AI를 통해 각각 로컬 환경에서 AI 개발 기능과 통합 ML옵스 플랫폼을 제공해 왔다. 유 상무는 레드햇 서밋에서 공개된 '레드햇 AI 인퍼런스 서버'도 소개한다. 레드햇 AI 인퍼런스 서버는 고성능 AI 추론을 위한 오픈소스 엔진인 vLLM 기반으로 엔터프라이즈 환경에서 최적화된 추론을 위한 다양한 특장점을 제공한다. 기업 지원 측면에서는 상용 환경 에스컬레이션을 위한 서비스 수준 계약(SLA), 전문 개발자의 이슈 해결, 안정적인 빌드와 모델 검증 등을 제공한다. 해당 서버는 사전 최적화된 모델 가든을 통해 라마와 큐원, 미스트랄, 딥시크 등 다양한 모델을 지원하며 프로덕션 배포에 최적화됐다. 레드햇은 올해 1월 vLLM 분야의 전문 기업인 뉴럴매직을 인수해 여러 최적화 기술을 확보한 바 있다. 이를 통해 OpenAI API 호환성, 양자화, 멀티 로라 서빙, 옵저버빌리티, 구조화된 생성, 추측 디코딩 등 강력한 기능들을 지원한다. 레드햇 AI 인퍼런스 서버는 RHEL AI와 레드햇 오픈시프트 AI에 포함되는 새로운 구성요소로, 최적화된 생성형 AI 추론을 제공함으로써 하이브리드 클라우드 환경에서 더 빠르고 비용 효율적이며 확장 가능한 모델 배포를 지원한다. 레드햇 이외의 환경인 제3자 리눅스 및 쿠버네티스 환경에도 배포 가능하다. 2025년 5월 이후 RHEL AI는 확장돼 기존 그래니트과 인스트럭트랩에 더해 인퍼런스 서버, 최적화 모델 가든, OSS 모델 검증을 추가 제공할 예정이다. 이번 레드햇 AI 포트폴리오는 물리적 환경부터 가상 환경, 프라이빗·퍼블릭 클라우드, 엣지 컴퓨팅까지 다양한 인프라에서 일관된 AI 기반 구축을 지원한다. 이는 모든 클라우드에서 모든 가속기에 모든 모델을 배포할 수 있으면서도, 과도한 비용 없이 우수한 사용자 경험을 제공하고자 하는 레드햇의 목표에 부합하는 플랫폼이다. CIS 2025는 사전 등록을 통해 행사에 참여할 수 있으며, 사전등록과 등록 문의는 공식 웹사이트를 통해 가능하다. 레드햇 "이번 발표를 통해 오픈소스 생태계를 중심으로 누구나 효율적으로 AI를 개발하고 운영할 수 있는 기반을 제공하겠다는 비전을 강조하겠다"며 "기업이 필요로 하는 신뢰성과 확장성, 비용 효율성을 모두 갖춘 솔루션을 통해 생성형 AI의 실질적 활용을 넓혀가겠다"고 전략을 밝혔다.

2025.05.28 10:50김미정

"AI 추론 시장 공략"…레드햇, 'AI 인퍼런스 서버' 출시

레드햇이 생성형 인공지능(AI) 모델 추론 강화를 위한 서버를 공개했다. 레드햇은 23일까지 미국 보스턴에서 열리는 '레드햇 서밋'에서 추론 서버 '레드햇 AI 인프런스 서버'를 출시했다고 밝혔다. 기업은 해당 서버를 통해 AI 모델을 보다 효율적이고 안정적으로 프로덕션 환경에 배포할 수 있는 기반을 마련할 수 있다. 이 서버는고속 대규모 언어모델 추론 엔진(vLLM) 오픈소스 프로젝트와 뉴럴매직 기술을 통합해 개발했다. 고속 추론 처리와 클라우드 환경 전반에 걸친 AI 가속기 지원, 비용 효율성 확보가 주요 특징이다. 레드햇 AI 인퍼런스 서버는 독립형 배포 또는 레드햇 엔터프라이즈 리눅스 AI(RHEL AI), 레드햇 오픈시프트 AI와 통합 형태로 제공된다. 추론 성능 병목을 해결하고, AI 모델 복잡성 증가에 따라 높아지는 리소스 요구를 줄이기 위한 목표다. 이 서버는 지능형 모델 압축 기능으로 자원 소비를 줄이고 정확도를 유지하거나 올릴 수 있다. 허깅페이스 플랫폼을 통한 모델 저장소 최적화뿐 아니라 검증된 고성능 모델에 대한 빠른 접근성을 제공한다. 레드햇은 이 제품을 통해 vLLM 기반 AI 추론을 기업용으로 확장하고 있다. vLLM은 대용량 입력 컨텍스트 처리, 연속 배치, 다중 그래픽처리장치(GPU) 지원 등으로 생성형 AI 추론의 새로운 표준으로 부상하고 있다. vLLM은 딥시크, 젬마, 라마, 미스트랄, 파이 같은 모델과도 높은 호환성을 보인다는 평가를 받고 있다. 라마 네모트론 같은 개방형 모델과 제로데이 통합도 지원한다. 기업은 다양한 모델과 가속기, 인프라 환경에서 선택할 수 있다. 레드햇 AI 인퍼런스 서버는 비레드햇 기반 리눅스나 쿠버네티스 환경에도 배포 가능하다. 서드파티 지원 정책을 통해 확장성과 유연성을 확보했다. 레드햇 제롬 루코 AI 제품 총괄은 "우리는 리눅스를 현대 IT 인프라 기반으로 전환해왔던 것처럼 AI 추론의 미래를 설계하는 데도 앞장서고 있다"며 "vLLM은 생성형 AI 추론의 핵심이며 이를 기업에 제공하는 것이 이번 제품의 핵심 목표"라고 밝혔다.

2025.05.21 14:17김미정

지코어, 렛츠AI에 AI 인프라 제공…"이미지 생성 속도·유연성↑"

지코어가 렛츠AI의 기술 고도화를 도와 맞춤형 이미지 생성 속도와 서비스 확장 가능성을 높였다. 지코어는 렛츠AI에 AI 인프라와 AI 추론 솔루션 '에브리웨어 인퍼런스'를 제공했다고 15일 밝혔다. 렛츠AI는 사용자가 업로드한 이미지나 제품 기반으로 AI가 맞춤형 이미지를 실시간 생성하는 플랫폼이다. 지코어의 엔비디아 H100 그래픽처리장치(GPU) 기반 클라우드 인프라와 에브리웨어 인퍼런스를 적용해 이미지 생성 속도를 높이고 지연 시간을 줄였다. 또 GPU 단위 자원 제공 방식으로 인프라 구축 부담을 최소화하고, 비용 효율성을 이뤘다고 밝혔다. 현재 렛츠AI는 지코어 인프라로 다양한 브랜드와 협업 프로젝트를 진행 중이다. 한 레스토랑 브랜드는 피자 이미지 생성 이벤트에, 스포츠 브랜드 퓨마는 가상 인플루언서의 유니폼 이미지 생성에, 속옷 브랜드 슬로기는 마케팅 이미지 실험에 해당 플랫폼을 활용했다. 지코어는 AI 애플리케이션의 실시간 서비스를 위해 엣지 네트워크 기반 초저지연 환경도 제공하고 있다. 추론 요청을 전 세계 180여 개 엣지 지점 중 사용자와 가장 가까운 위치로 자동 라우팅해 속도를 최적화했다. 미쉬 스트로츠 렛츠AI 대표는 "지코어 덕분에 클릭 몇 번으로 글로벌 배포가 가능해졌고, GPU도 수 시간 내에 온보딩돼 안정적이고 유연한 운영이 가능했다"며 "개발과 인프라팀 작업 효율을 크게 높아졌다"고 말했다. 지코어 세바 베이너 디렉터는 "렛츠AI는 AI 인프라 기반으로 대규모 학습과 추론을 동시 운영하고 있다"며 "향후 영상 생성 등 기능 확장에도 우리 제품이 중심이 될 것"이라고 강조했다.

2025.04.15 11:00김미정

"AI 추론 유연하고 빠르게"…지코어, '에브리웨어 인퍼런스' 업데이트

지코어가 인공지능(AI) 솔루션을 업데이트해 추론 환경에 유연성과 확장성을 높였다. 지코어는 '에브리웨어 인퍼런스'를 업데이트했다고 21일 밝혔다. 유연한 배포 옵션 지원과 스마트 라우팅, 멀티테넌시 기능 등을 새로 추가해 비용 관리부터 데이터 보안까지 효율성을 강화했다. 에브리웨어 인퍼런스는 클라우드와 온프레미스, 하이브리드 환경 등을 포함한 다양한 배포 옵션을 지원한다. 이를 통해 추론 배포 유연성을 높이고 AI 애플리케이션을 위한 초저지연 환경을 제공한다. AI 추론 배포를 위해 다양한 클라우드 제공업체와 온프레미스 시스템을 조율하는 복잡성도 해결한다. 이 제품은 스마트 라우팅 기능으로 추론 워크로드를 180개 넘는 광범위한 지코어 네트워크 중 최종 사용자와 가장 가까운 컴퓨팅 리소스로 자동 배치할 수 있다. 이를 통해 초저지연을 보장하면서 배포 효율성을 높일 수 있다. 고객은 선호하는 지역으로 워크로드를 전환할 수 있다. 데이터규제와 업계 표준을 준수하면서 데이터 보안 수준까지 강화할 수도 있다. 해당 솔루션은 AI 워크로드를 위한 지코어만의 멀티테넌시 기능을 제공한다. 기존 인프라에서 여러 추론 작업을 동시에 실행할 수 있도록 돕는다. 이런 멀티테넌시 접근 방식으로 고객은 리소스 활용을 최적화해 자원 활용도를 높일 수 있다. 이 외에도 지코어 솔루션의 새롭고 유연한 배포 옵션을 통해 기업은 민감한 정보를 온프레미스 상에서 안전하게 격리해 보호할 수 있다. 지코어 세바 베이너 엣지 클라우드 및 엣지 AI 제품 디렉터는 "이번 에브리웨어 인퍼런스의 업데이트는 AI 추론 환경의 유연성과 확장성을 대폭 향상시켜 스타트업부터 대기업에 이르는 다양한 규모의 모든 기업에 최적화된 솔루션을 제공한다"며 "누구나 어디서든 초지연 AI 애플리케이션을 손쉽게 구현할 수 있다"고 강조했다.

2025.01.21 13:52김미정

지코어 CEO "생성형 AI는 엣지에서 꽃 피울 것"

"한국은 IT 강국이면서 다양한 제품과 서비스를 수출하는 국가다. 작년 한국 시장에서 AI 칩 수요에 대응하려 AI 인프라를 저변에 구축했다면, 올해는 인프라 구축에서 나아가 유즈케이스를 찾아내는 것에 집중하고 있다. 기업이 AI를 실행하는 단계에 돌입했다고 보고 추론이나 엣지의 다방면 서비스를 배포하고 부하를 줄이는 방법으로 서비스를 진행중이다. 엔비디아의 새로운 칩도 액체 냉각 역량을 갖춘 데이터센터만 확보되면 바로 도입할 예정이다.” 안드레 레이텐바흐 지코어 창업자 겸 최고경영자(CEO)는 최근 본지와 인터뷰에서 이같이 밝혔다. 2014년 룩셈부르크에 설립된 지코어는 전세계 180 개 이상의 PoP를 기반으로 한국을 비롯해 중국, 일본 등으로 강력하고 안전한 클라우드 및 엣지 컴퓨팅 솔루션을 확장하며 아태지역에서의 영향력을 확대해 나가고 있다. 이는 엔터프라이즈 급 AI GPU 클라우드 인프라에 대한 고객 수요의 증가, 그중에서도 엔비디아 기반 머신러닝 트레이닝과 AI 애플리케이션을 위한 엣지 추론에 대한 필요성이 늘고 있는데 따른 것이다. 작년 오픈AI 챗GPT로 촉발된 생성형 AI 열풍은 전세계 기업의 대규모언어모델(LLM) 개발 붐을 일으켰다. 이에 언어모델 훈련에 필수재로 꼽히는 고성능 엔비디아 GPU가 공급부족 현상을 보였다. 지코어는 엔비디아 텐서코어 H100 GPU 기반 데이터센터를 각국에 배포해 기업의 LLM 개발 수요를 지원했다. 한국 기업도 지난 4월15일 H100 GPU 클러스터를 갖춘 지코어 데이터센터를 국내에서 이용할 수 있게 됐다. 지코어는 또한 지난 6 월 사전 학습된 머신러닝 모델을 지코어 엣지 추론 노드 중 사용자와 가장 가까운 위치에서 응답할 수 있도록 해 초저지연 추론을 실시간 제공하는 '인퍼런스 앳 더 엣지(Inference at the Edge)' 솔루션을 출시했다. 안드레 레이텐바흐 CEO는 “한국 투자의 경우 한국 지역 회사 파트너를 더 잘 지원하는 역량을 갖출 수 있게 팀을 더 강화하는 방면으로 투자할 것”이라며 “마케팅, 엔지니어링, 파트너십 등의 인력을 계속 공고히하고, 인프라 투자도 계속 진행할 계획”이라고 말했다. 그는 “최근 한국에 도입한 기술 중 하나는 AI 중심의 콘텐츠를 인지하는 부분”이라며 “고객이 원하는 콘텐츠를 필터링하고 중재하고, 원하는 방식으로 콘텐츠를 인지하게 하는 방식도 진행하고 있는데, 이는 데이터가 잘 보호되고 보안을 지킬 수 있게 하는 방안”이라고 덧붙였다. 지코어는 올해 들어 생성형 AI의 흐름이 모델 학습에서 추론 모델 구동 부분으로 이동하고 있다고 보고 있다. 글로벌과 유사하게 국내 기업에서도 AI 추론 수요가 증가할 것으로 예상한다. 이런 추세에 대응하려 집중하는 부분이 '인퍼런스 앳 더 엣지'다. 이 솔루션은 사전 학습된 머신러닝 모델을 전세계에 분포돼 있는 엣지 추론 노드 중 사용자와 가장 가까운 경로 또는 위치에서 응답할 수 있도록 함으로써 원활한 실시간 추론을 보장한다. 180 개 이상의 엣지 노드로 구성된 지코어의 광범위한 글로벌 네트워크(PoP)에서 실행되며, 모두 지코어의 정교한 저지연 스마트 라우팅 기술로 상호 연결된다. 고성능의 각 노드는 지코어 네트워크 중 최종 사용자와 가까운 엣지에 전략적으로 배치된다. 지코어 각 엣지에서의 AI 추론은, 이를 위해 특별히 설계된 엔비디아 L40S GPU에서 실행된다. 사용자가 요청을 보내면 엣지 노드는 지연 시간이 가장 짧은, 가장 가까운 엣지 추론 노드로 경로를 설정해 일반적으로 30 밀리초(ms) 미만의 응답 시간을 보장한다. 네트워크 간 최대 대역폭도 200Tbps 로 학습 및 추론 능력이 가능하다. 인퍼런스 앳 더 엣지는 광범위한 기본 머신러닝 및 커스텀 모델을 지원한다. 지코어 머신 러닝 모델 허브에서 라마 프로 8B, 미스트랄 7B, 스테이블디퓨전 XL 등의 오픈 모델을 사용할 수 있다. 여러 형식 또는 여러 소스로부터 데이터를 수신해, 모델을 사용 사례에 맞게 선택하고 학습한 후 전 세계에 위치하고 있는 인퍼런스 앳더 엣지 노드에 배포할 수 있다. 인터뷰에 함께 한 파브리스 모이잔 지코어 최고수익책임자(CRO)는 “지코어가 10년 간 공고하게 구축해놓은 CDN 인프라를 최대한 활용하는 서비스로 보안과 패스트엣지를 갖춘 AI를 제공하고자 한다”며 “엣지 AI는 저지연이고 보안도 강화한 기술로, 이미 여러 금융서비스와 금융사에서 활용되고 있으며, 보안과 저지연성은 자율주행차나 휴머노이드 로봇 같은 AI에서 필수적인 요소”라고 밝혔다. 그는 “한국은 세계적으로 중요한 자동차 제조사 두곳이 있고, 세계적인 통신회사와 통신서비스를 자랑하고 있다”며 “LLM은 이런 분야에서 혁신을 이룰 것이라고 생각한다”고 덧붙였다. 지코어 인퍼런스 앳더는 유연한 가격구조로 사용한 자원에 대해서만 비용을 지불할 수 있으며, 디도스 공격에도 머신러닝의 각 엔드포인트를 자동으로 보호하는 내장형 디도스 보호 기능을 갖췄다. 모델 자동확장 기능으로 모델이 항상 최대 수요는 물론 예기치 않은 로드 급증을 지원하고, 진화하는 요구에 맞춰 아마존 S3 호환 클라우드 오브젝트 스토리지를 무제한으로 제공한다. 뿐만 아니라 FaaS 기반으로 동작되기 때문에, 자체 개발모델을 포함해 어떤 레퍼지토리에 있는 모델이든, 손쉽게 전세계로 서비스를 할 수 있다. 로드 밸런싱과 부하 증감에 따른 시스템의 변경도 맡겨 둘 수 있다. 개발자는 서비스의 배포를 걱정할 필요없이 본연의 업무에 집중할 수 있다. 모델의 크기에 따라서 적절한 가속기와 자원을 선택할 수 있으며, 서비스의 확장에 따른 컨테이너의 배포수량도 지역별로 정의할 수가 있다. 손쉬운 서비스는 더 많은 횟수의 서비스 레벨 사전 테스트를 가능케 하므로, 실질적인 서비스의 품질 향상에도 도움을 주게 된다. 안드레 레이텐바흐 CEO는 "지코어 인퍼런스 앳더 엣지는 고객이 전 세계에 AI 애플리케이션을 배포하는 데 필요한 비용, 기술, 인프라를 걱정할 필요 없이 머신러닝 모델을 학습시키는 데 집중할 수 있도록 지원한다”며 “지코어는 엣지가 최고의 성능과 최종 사용자 경험을 제공하는 곳이라고 믿으며, 모든 고객이 탁월한 규모와 성능을 누릴 수 있도록 지속적으로 혁신해 나가고 있다”고 말했다. 그는 “지코어의 자랑은 유연성이며, 서비스를 배포할 때 이미 트레이닝된 모델도 제공하지만 고객이 원하는 LLM을 우리쪽에 배포해서 원하는 방식으로 사용가능하다”며 “우리의 방식과 고객의 방식 다 제공 가능해서 극강의 유연성을 자랑한다”고 강조했다. 파브리스 모이잔 CRO는 “지코어는 엣지 AI를 생각하고 배포하고자 하는 고객에게 정말 실행할 수 있게 하는 부분을 지원할 수 있다”며 “한국 고객사에게 미래로 일컬어지는 엣지 AI로 갈 수 있는 가장 빠른 길을 제안할 수 있다”고 밝혔다. 인퍼런스 앳 더 엣지는 특히 GDPR, PCI DSS, ISO/IEC 27001 등 업계표준을 준수하는 데이터 프라이버시 및 보안을 보장한다. 안드레 레이텐바흐 CEO는 “특히 많은 사람이 데이터 주도권, 데이터 보안 이슈를 걱정하고 있다”며 “지적재산권 문제에 대해서도 여러 기업과 함께 해결책을 모색하고자 한다”고 말했다. 파브리스 모이잔 CRO는 “지코어는 유럽 회사기 때문에 GDPR과 전세계 최초의 AI 법에 대응하는 경험을 가졌으며 10년간 보안 솔루션을 제공해왔다”며 “데이터 보안과 주권에 대해 선도 기업이라 자신하며, 유럽회사로서 더 중립적으로 서비스를 제공할 수 있고, 사우디아라비아에서 프라이빗 소버린 클라우드 구축 계획도 발표했다”고 설명했다. 안드레 레이텐바흐 CEO는 “한국은 매우 빠르고, 기술을 선도하는 기업이 많은 나라기 때문에 한국 기업과 협업하면 세계가 어디로 향하는지 알 수 있다”며 “그들과 같이 성장하고 생태계를 발전시킬 수 있도록 노력하겠다”고 강조했다.

2024.07.11 13:58김우용

지코어, 엣지에서 실시간 추론 '인퍼런스앳더엣지' 솔루션 출시

지코어는 AI 애플리케이션에 초저지연 경험을 실시간 제공하는 '인퍼런스 앳더 엣지' 솔루션을 출시한다고 10일 밝혔다. 솔루션은 사전 학습된 머신 러닝 모델을 전 세계에 분포돼 있는 엣지 추론 노드 중 사용자와 가장 가까운 경로 또는 위치에서 응답할 수 있도록 함으로써 원활한 실시간 추론을 보장한다. 지코어 인퍼런스 앳더 엣지는 180개 이상의 엣지 노드로 구성된 지코어의 광범위한 글로벌 네트워크(PoP)에서 실행되며, 모두 지코어의 정교한 저지연 스마트 라우팅 기술로 상호 연결된다. 고성능의 각 노드는 지코어 네트워크 중 최종 사용자와 가까운 엣지에 전략적으로 배치된다. 무엇보다 지코어 각 엣지에서의 AI 추론은, 이를 위해 특별히 설계된 업계 내 최고의 칩인 엔비디아 L40S GPU에서 실행된다. 사용자가 요청을 보내면 엣지 노드는 지연 시간이 가장 짧은, 가장 가까운 엣지 추론 노드로 경로를 설정해 일반적으로 30밀리초(ms) 미만의 응답 시간을 보장한다. 네트워크 간 최대 대역폭도 200Tbps로 최고 수준의 학습 및 추론 능력이 가능하다. 인퍼런스 앳더 엣지는 광범위한 기본 머신 러닝 및 커스텀 모델을 지원한다. 지코어 머신 러닝 모델 허브에서 사용 가능한 오픈 소스 기반 모델로 라마프로 8B, 미스트랄 7B, 스테이블디퓨전 XL 등이 있다. 여러 형식 또는 여러 소스로부터 데이터를 수신해, 모델을 사용 사례에 맞게 선택하고 학습한 후 전 세계에 위치하고 있는 인퍼런스 앳더 엣지 노드에 배포할 수 있다. 이는 일반적으로 개발팀이 직면하는 중요한 문제 중 하나인, 이미 AI 모델이 학습된 동일한 서버에서 다시 실행됨으로써 발생하는 성능이 저하되는 문제를 해결해 준다. 지코어 인퍼런스 앳더 엣지의 주요 이점을 정리해 보면 다음과 같다. ▲첫째, 유연한 가격구조로 고객이 사용한 리소스에 대해서만 비용을 지불할 수 있어 '비용 효율적인 배포'가 가능하다. ▲둘째, 디도스 공격에도 머신 러닝의 각 앤드포인트가 지코어의 인프라를 통해 자동으로 보호되는 내장형 디도스 보호 기능을 갖추고 있다. ▲셋째, GDPR, PCI DSS, ISO/IEC 27001 등 업계 표준을 준수하는 뛰어난 데이터 프라이버시 및 보안을 보장한다. ▲넷째, 모델 자동확장 기능으로 모델이 항상 최대 수요는 물론 예기치 않은 로드 급증을 지원한다. ▲마지막으로, 빠르게 진화하는 요구에 맞춰 S3 호환 클라우드 오브젝트 스토리지를 무제한으로 제공한다. 이러한 강점을 통해 지코어 인퍼런스 앳더 엣지는 자동차, 제조업, 유통, 테크놀로지 등 다양한 산업 분야의 기업들이 비용 효율적이고 확장 가능하며, 안전한 AI 모델 배포를 통해 역량을 강화할 수 있도록 지원한다. 이를 통해 기업은 생성형 AI, 객체 인식, 실시간 행동 분석, 가상 비서, 생산 모니터링과 같은 사용 사례를 글로벌 규모로 빠르게 실현할 수 있다. 안드레 레이텐바흐 지코어 CEO는 "지코어 인퍼런스 앳더 엣지는 고객이 전 세계에 AI 애플리케이션을 배포하는 데 필요한 비용, 기술, 인프라에 대해 걱정할 필요 없이 머신 러닝 모델을 학습시키는 데 집중할 수 있도록 지원한다”며 “지코어는 엣지가 최고의 성능과 최종 사용자 경험을 제공하는 곳이라고 믿으며, 모든 고객이 탁월한 규모와 성능을 누릴 수 있도록 지속적으로 혁신해 나가고 있다”고 밝혔다. 그는 “인퍼런스 앳더 엣지는 전 산업분야에 걸쳐 현대적이고 효과적이며, 가장 효율적인 AI 추론 환경을 제공하게 될 것"이라고 강조했다.

2024.06.10 14:21김우용

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

삼성전자, 브로드컴과 HBM3E 12단 공급 추진…ASIC서 기회 포착

메타의 공격적 AI 인재 사냥, 핵심은 '데이터 전쟁'

입점하면 서로 이득…유통가, ‘올다무’ 유치 경쟁 치열

새정부 독자AI 구축 의지...통신사, 자체 AI 모델 공개

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.