스윗 "시스템 역할 AI에이전트 세계 첫 출시"
"우리가 지난 9월 론칭한 '마이 스냅(My Snap)'은 챗봇식 에이전트가 아니라 시스템 역할을 하는, 시스템으로서의 AI에이전트는 세계 처음입니다." 미국 실리콘밸리에 본사가 있는 유망 협업 소프트웨어(SW) 기업 스윗테크놀로지스(Swit Technologies,이하 스윗)의 이주환 대표는 최근 지디넷코리아와 인터뷰에서 자사의 최신 서비스 '마이스냅'에 대해 이 같이 강조했다. 한국인 CEO가 이끌고 있는 이 회사는 사명과 같은 이름의 협업 소프트웨어 '스윗(Swit)'을 지난 2019년 출시하며 주목을 받았다. 올 3월에는 협업 AI비서 '스냅(Snap)'을 선보였고, 이어 9월에 '마이스냅'을 출시했다. 이 대표는 "자동화한 에이전트 기능은 이미 우리가 구글의 제미나이를 앞섰다"고 주장하며 "누구나 에이전트를 만들 수 있는 '에이전트 빌더'도 내년 2분기 출시할 예정"이라고 이번 인터뷰에서 밝혔다 '스윗' 설립자인 그는 한국과 미국을 오가며 비즈니스를 하고 있는데 지난달말에는 과학기술정보연구원(KISTI)이 개최한 '2024 미래유망기술 컨퍼런스'에서 기조강연자로 나서 '미래를 여는 AI'를 주제로 발표하기도 했다. 아래는 이주환 대표와 일문일답. -'마이스냅(MySnap)'이 세계 첫 론칭이라는데 어떤 서비스인가 "개인의 업무 환경을 이해하는 개인화 에이전트다. 지금까지 스윗은 협업 툴 중심으로 사업을 했다. 협업 툴은 개인과 개인, 팀과 팀이 일할 때 쓰는 툴이다. 이제는 AI시대다. AI를 통해 직장 안에 있는 개인들이 혼자 자신의 일을 더 잘할 수 있게 됐다. '마이스냅은 챗봇으로서의 에이전트가 아니라 시스템으로서의 에이전트다. 이 점이 차별점이다. 시스템으로서의 에이전트는 우리가 세계 첫 론칭이다." -오픈AI가 제시한 AI 5단계 중 3단계가 에이전트다. 내년이 본격적인 AI에이전트 시대가 될 거라는 전망이 많다. 이 대표가 정의하는 에이전트는 뭔가? "세가지를 충족해야 한다. 학습 가능한 메모리를 갖추고, 실시간으로 필요한 정보와 데이터를 동적으로 그라운딩하며, 추론능력에 따라 툴을 스스로 활용할 수 있어야 한다. 단일 API를 불러오는 '챗봇' 수준 에이전트와 다르다. 이 정도는 지금도 커스텀GPT에서 쉽게 만들 수 있다. 하지만 문맥 이해 기반의 API 덩어리를 멀티액터로 활용하고, 또 그런 에이전트들이 협력하거나 경쟁하고, 목적에 따라 메모리 소통과 분리, 공유를 통한 플래닝이 가능해야 한다. 이 정도 수준까지 올라오려면 소프트웨어 파워가 매우 뛰어나야 한다. 스윗은 지난 5년간 협업 툴 사업을 해왔기에 이런 소프트웨어 파워를 갖췄다." -오픈AI의 에이전트와 스윗이 말하는 에이전트 개념이 비슷해 놀랐다던데... "그렇다. 시스템으로서 행동하는 에이전트를 만드는 것이 얼마전 유출된 오픈AI의 AGI로 가는 레벨 3 로드맵에 들어있어 깜작 놀랐다. 컨셉이 우리랑 비슷했기 때문이다. 오픈AI가 발표한 AI 5단계중 1단계는 챗봇, 2단계는 추론이다. 3단계는 에이전트, 4단계는 혁신가, 5단계는 조직이다. 그들도 결국 마지막 단계에서는 개인을 넘어 조직의 복잡한 워크플로우를 자동화하는 것을 목표로 하고 있는 것 같다. 엔터프라이즈 AI는 '마스(MAS,멀티 에이전트 시스템)'가 필수다. 각 에이전트는 기능과 메모리를 갖고 있고 도메인에 특화돼 있다. 여러 부서와 도메인이 얽힌 기업환경에서 쓸만한 AI를 만들려면 에이전트간 관계형 아키텍처를 갖춘 스케일을 먼저 확보해야 한다. 에이전트는 LLM 기반 앱 개발과 언어 모델 간 상호작용을 조정한다. 또 워크플로를 자동화하는 프레임워크 등의 AI 개발 및 운영을 위한 소프트웨어 스택에 고객이 필요로하는 스킬을 최종 패키징한 라스트마일 솔루션이기도 하다. 즉, LLM이 엔진이라면, 에이전트는 엔진을 포함한 자동차인 셈이다. 사람은 차를 타고 다니지 엔진을 타고 다니지 않는다. 앞으로는 AI를 인식하지 못하고 사용하는 시대가 올 것이다. 사람이 하는 일을 AI가 돕든 대체하든 이것이 가능한 이유는 사람의 스킬이 에이전트 툴링으로 바뀌기 때문이다. 즉, 에이전트 툴링이 사람 스킬 수준까지 올라와야 비로서 AI가 사람을 효과적으로 도울 수 있다. 사람간 협업 일을 5년간 집중해온 회사인 '스윗'이 다른 어떤 AI 회사보다 고성능 에이전트 프로그래밍과 패키징에 앞서는 이유다. 우리가 오픈AI보다 먼저 시스템으로서의 AI에이전트를 출시했다." -오픈AI보다 먼저 출시했다고? "오픈AI는 LLM과 연관한 인프라를 만드는 회사다. 우리는 다르다. 좋은 LLM을 갖다 에이전트 프로그래밍만 잘하면 된다. 이 분야 전문성은 우리가 오픈AI를 앞선다. 즉, 오픈AI는 인프라 회사고 우리는 소프트웨어에 집중하는 회사다. 우리는 오래전부터 에이전트 프로그래밍에 집중을 해왔고, 그래서 세계 첫 출시가 가능했다. 최근 구글이 주목할만한 발표를 했다. 자사 픽셀폰에 제미나이(Gemini)를 연동, 앱을 열지 않고도 슬립모드에서 음성(보이스)으로 제어하는 기능을 선보일 계획이라고 했다. 애플도 질세라 오픈AI와 협력해 AI폰 시대를 열겠다고 했다. 운 좋게도, 스윗이 먼저 모바일과 태블릿, 웹, 데스크톱 등 모든 환경에서 앱간 경계를 넘나드는 에이전트 서비스를 가장 먼저 선보였다. 구글과 애플이 자사 에코(생태계)를 넘어 참여자들의 상용화를 지원하는 AI 플랫폼이 되려면 앞으로 최소 1~2년은 걸릴 것이다. 개발자 환경을 열어 바틈업으로 풀면 앱스토어 숫자를 채우는 외형 확장은 빠르게 일어나겠지만, 개별 AI 앱들 품질에 문제가 생긴다. 적은 컨텍스트로 사용자 의도를 파악하고, 스킬 맵핑에 따른 에이전트 오케스트레이션 정확도를 높이며, 레이턴시 관련 성능 문제를 스케일한 환경에서 해결해야 한다. 이것이 이뤄지기 전에는 OS가 주도하는 'apps are out, agents are in'의 시대가 오지 않을 거다. 스윗은 B2B를 넘어 개인화 에이전트인 '마이스냅'을 통해 B2B2C와 B2C 시장에도 진출했다." -이 대표가 강조하는 시스템으로서의 AI에이전트는 무엇인가? "앞서 말한 것처럼 세 가지가 있어야 한다. 사람처럼 추론하고, 사람처럼 학습하고, 사람처럼 행동하는 자율 소프트웨어를 말한다. 하나씩 보자. 먼저 사람처럼 추론한다는 건, 자가 추론 능력을 갖고 있는 소프트웨어를 말한다. LLM은 하나의 뇌일 뿐이다. 추론 능력에만 의존하면 안 된다. 자가 학습도 필요하다. AI가 자가학습을 한다는 건, AI가 주변 환경을 인식해 내가 필요한 정보를 실시간으로 동적(다이나믹) 그라운딩을 통해 학습하는 걸 말한다. 이렇게 되면, 내가 원하는 데이터를 사람이 매뉴얼한 래그(RAG)를 통해 학습하는 정도를 뛰어넘는다. 또 챗봇처럼 질의응답(Q&A) 답만 내놓는게 아니라 실제 사람처럼 액션할 수 있어야 한다. 즉, API 에이전트가 학습을 실행해야 하는 것으로, 이는 '에이전트 툴링'이라 부르는데, 에이전트가 어떤 툴을 갖고 있다는 뜻이다. 즉, 인간만이 툴을 갖고 있는 게 아니라, 사람이 모바일이라는 디바이스 안에 앱을 갖고 있다면, 이제 툴 안에 에이전트가 있게 되는 것이다. 에이전트가 툴링으로 가질 수 있는 건 정확히 말하면 API다. 로(Low) 레벨 API 하나만 엔드 포인트로 연결하는 수준이 아니라, 써야 하는 API들을 스스로 묶음으로 처리, 이걸 멀티 액터라고 부르는데, 멀티 액터 레벨의 에이전트를 API로 실행할 수 있게 하는 에이전트 툴링, 이 세 가지가 있어야 에이전트가 추론한다고 말할 수 있다. 요약하면, 자체 추론, 자체 학습, 자체 행동, 이 세 가지를 갖고 있을때 시스템으로서의 에이전트라고 부른다. 스윗은 이 걸 개인화 에이전트 수준까지 끌어올렸다." -개인화 에이전트란? "만약 우리 회사에 5천 명의 직원이 있다고 하자, 그럼 이 5천 명이 챗GPT 같은 서비스를 다 쓰는게 아니다. 회사는 보안 레벨에 따라 어떤 앱에 어떤 수준까지 액세스할 수 있는 지가 정해져있는데, 이런 퍼미션(승인) 환경을 이해하고, 그 사람이 접속(액세스)할 수 있는 앱에는 이 에이전트도 실시간 엑세스, 그 사람이 엑세스 할 수 있는 환경 변화를 실제 학습한다. 또 그 사람이 엑세스 할 수 있는 툴에는 에이전트도 똑같이 엑세스, 사람이 버튼을 누르고 룰 베이스로 앱을 켜 실행에 옮기는 것 처럼 에이전트도 그 사람의 모델을 다 리코딩해 혼자 알아서 일을 처리하는 거다. 이 정도 레벨 제품을 스윗은 상용화해 지난 9월 출시했다." -내년에 AI에이전트 시대가 본격 열릴 것으로 전망되는데... "우리는 이미 열었다.(웃음). 세계적 SaaS 기업인 미국 세일즈포스보다 먼저 우리가 고기능의 AI에이전트를 SaaS로 제공한다. 지난 9월 출시했다. 이미 고객사를 10곳 정도 확보했다. 지난 9월 '마이스냅' 출시로 스윗은 '슈퍼워크(Super Work)' 방법론을 적용한 '슈퍼 워크스페이스(Super Workspace)'로 다시 태어났다. 앞으로 패스트 팔로워는 안할거다. 그동안 5년간 지겹도록 했다. AI에이전트 워크스페이로(AI Agent Workspace)로서는 스윗이 선구자(파이어니어)이자 퍼스트무버(First Mover)다." -챗봇과 AI 에이전트는 어떻게 다른가? "일반 챗봇은 사전학습한 데이터를 통해 Q&A를 해주는 거다. 시스템으로서의 에이전트 챗봇이 아니다. 시스템 에이전트가 되려면 아까 말한 세 가지 기능이 있어야 한다. 특히 에이전트 프로그래밍 기술이 필요한데, 에이전트는 앱과 달리 프로그래밍을 하는 게 어렵다. 그래서 우리가 만든게 에이전트용 프레임워크 '슈퍼워크'다. 오픈소스를 갖다 써봤는데 성능이 제대로 안나왔다." -'마이스냅'보다 한달 앞선 지난 8월 공개한 '슈퍼워크(Super Work)'는 무엇인가 "AI시대에는 일의 개념'이 바뀌어야 한다. 에이전트까지 고려한 원칙과 방법론, 프레임워크가 있어야 한다. 그래서 우리가 만든 게 '슈퍼워크'다. AI 에이전트 시대의 일하는 방법론이라 할 수 있다. '슈퍼워크'는 제품이 아니고 애자일(Agile)처럼 AI시대의 일하는 방법론이자 프레임워크다. 부서가 다르면 말할 것도 없고, 한 부서 내에서도 보스와 직원간 일하는 방식이 다르다. 관리를 해야하는 사람과 관리를 받는 사람의 목표, 업무흐름, 업무 결과물이 다르기 때문이다. 서로가 서로의 일에 충분한 컨텍스트가 없어 단순 LLM기반 챗봇은 명확한 한계가 있다. 역설적으로 AI가 work, workflows, work artifacts를 재정의하고 있어 챗봇보다 에이전트가 있어야 한다. 구체적인 방법을 제시하면, Agentic RAG가 가능한 멀티 에이전트(Multi-Agent) 시스템을 구현하고, 보스와 직원이 일하는 주요 기능을 별개의 스킬(Skill)로 탑재, 지정한 사람들을 서브(serve)할 수 있어야 조직단위 생산성을 끌어 올릴 수 있는 AIX 구현이 가능하다. 여러 LLM들을 따로 또 같이 써 봤지만 잘 안됐다. 데이터 관련성 부족 이슈가 워낙 심해 한두 번의 RAG로는 해결이 안됐다. RAG는 AI 시대의 또 다른 SI나 SM처럼 보인다. 조직 데이터가 계속 변하고 있기 때문이다. RAG가 필요없다는 건 아니다. 하지만 이제 데이터 학습도 사람이 수동으로 하는 게 아니라, 에이전트가 실시간으로 다이나믹 그라운딩(dynamic grounding)으로 해야 한다. GPT 스토어에 플러그인들을 만들어 봤는데 이 역시 안됐다. 플러그인 오케스트레이션이 부정확하고, TMI 컨텍스트 입력이 불편하기 때문이다. 앱의 스킬을 불러오려면 고객입장에서 직접 구현해야 한다. 우리가 꽤나 큰 작업인데 다 해봤다. 퍼포먼스가 나오질 않더라. 그래서 '슈퍼워크'를 만들었다. LLM을 제외하고 멀티에이전트와 데이터 동적 그라운딩, 협업기능 스킬 등을 모두 네이티브로 구현했다. 원래 우리가 갖고 있던 협업 툴 '스윗'이 있었기에 '슈퍼워크'도 가능했다. '스윗'은 MS, 구글에 이어 세계 세번째 규모의 에이전트 스킬 라이브러리(Skill Library)를 갖고 있다." -미국 세일즈포스보다 먼저 AI에이전트 시대를 열었다고? "그렇다. 여러 이유가 있지만 무엇보다 스윗이 협업 툴을 계속 해왔기 때문이다. 협업 툴로 시작한 '스윗'이 AI를 한다고 하니 이상하게 생각할 지도 모르겠는데, 우리는 창업때부터 이런 로드맵이 있었는데, 마침 AI와 매칭이 잘됐다. 왜냐면, 에이전트가 사람과 별개로 떨어져 있는 소프트웨어가 아니기 때문이다. 사람과 협업을 하든, 아니면 사람을 대체하든, 결국은 에이전트는 사람과 비슷한 어떤 행동과 동작을 하는 거다. 내가 하는 일을 대신해 주는 것이다. 이 정도 수준이 아니면 에이전트라고 말하면 안 된다. 사람이 하는 일은 결국 사람이 쓰는툴을 갖고 있는 펑션(기능)을 의미한다. 사람이 쓰던 툴의 이 펑션을 스윗은 에이전트 툴링으로 전환시켰다. 결국, 사람이 하던 툴의 펑션을 가장 잘 이해하고, 이것을 오랫동안 잘 만든 회사일수록 AI 에이전트를 잘할 수 밖에 없다. 사람을 위해 만든 이 펑션을 에이전트 툴링으로 전환하는 건 우리에게 쉬운 일이다. 왜냐하면, 이건 결국 에이전트 스킬에 라이브러리를 얼마큼 많이 갖고 있느냐의 문제이기 때문이다. 에이전트에게 무엇을 시킨다는 것은 에이전트에게 인간이 하는 일을 시킨다는 뜻이고, 이는 인간과 에이전트가 협업한다는 의미인데, 이 말을 기술적으로 보면, 인간과 에이전트가 협업할 수 있는 중간에서 만나는 인터페이스가 필요한데, 그것이 바로 펑션이고, 소프트웨어로는 기능이며, 에이전트에게는 스킬이라 부른다. 이에 에이전트 스킬이 얼마나 풍부한가? 하는 질문은 사람이 하는 일을 대체할 수 있는 수준으로 에이전트 스킬을 얼마나 끌어올릴냐의 문제고, 이는 에이전트 프로그래밍 능력과 비례한다. '스윗'은 이미 10개 앱을 생태계 차원에서 만들었다." -10개 앱은 무엇인가? "우리는 세일즈포스가 인수한 슬랙처럼 채팅 기능만 있는게 아니다. 우리가 구축한 '스윗 생태계'에는 협업AI '스낵'과 개인용 AI에이전트 '마이스낵'을 포함해 ▲메신저&DM(Channels & Chat) ▲프로젝트 관리(Projects) ▲전자결제(Approvals) ▲게스트(Guests) ▲목표관리(Goals) ▲자동화(Automation) ▲스윗 디벨로퍼스(Swit Developers, 비판매) ▲기업용 마켓플레이스(Swit Marketplace, 비판매) 등 10개 앱이 있다. 우리가 퍼블릭에 노출한 API만 2천 개가 넘는다. 이 API들을, 인간을 위해 만든 이 기능들을, 에이전트에게 전환하면 에이전트의 툴 능력이 엄청 좋아질 거다. 단일 회사가 에이전트 스킬 라이브러리를 이처럼 풍부하게 보유하고 있는 곳은 세계에서 미국 마이크로소프트(MS)와 구글 빼곤 '스윗'밖에 없다. 이 분야에서 우리가 세계 세 번째라고 자신한다." -'마이 스냅' 공급 실적은 어떤가? 고객사 반응은? "반응은 상당히 좋다. 현재 테스트하고 있는 기업이 꽤 있다. 지난 한달여간 공급한 고객사는 10곳쯤 된다. 고객사들이 말하길, 구글과 MS 제품을 다 써봤는데 추론 능력이 우리 제품이 제일 좋다고 한다. 우리와 달리 구글과 MS는 폐쇄적이다. 자기네 앱들만 제한적으로 쓸 수 있다. 우리는 아니다. MS 기능도 제어할 수 있고 구글 기능도 제어한다. 뿐만 아니라 고객사가 기존에 쓰고 있는 레거시 소프트웨어와도 연동이 된다. 이런 에이전트 기능은 이미 우리가 구글과 MS를 앞섰다. 고객사들이 말하는 반응이다." -'마이스냅'을 B2C 서비스로도 내놓나? "B2C는 내년 중 서비스할 예정이다. 구글 앱 장터처럼 다운로드 받아 사용할 수 있다." -마이스냅보다 6개월 앞서 지난 3월 협업용 비서 '스냅(Snap)'을 먼저 내놨다. '스냅'은 무엇인가? "AI 전환을 성공적으로, 또 지속가능하게 하려면 회사 데이터와 무관한 LLM 챗봇을 무차별 도입하면 안된다. 회사내 여러 앱에 흩어진 데이터 사일로(분절) 문제를 먼저 해결해야 한다. 끊김없는 데이터 흐름을 만드는 작업을 필수로 선행해야 한다. AI전환을 고려한 디지털 전환을 선행하거나, 적어도 함께 시작해야 하는 것이다. '스냅'은 디지털과 AI 전환을 한번에 할 수 있게 돕는 '스윗 에코시스템'의 핵심(코어)이다. 우리 회사를 잘 이해하는 '우리처럼 일하는 업무용 AI'인 셈이다. '스냅'은 GPT에서 할 수 있는 Q&A 챗봇 기능이 100% 가능하다. 또 우리 회사 협업툴 '스윗'이 갖고 있는 여러 협업의 인터페이스에서 다양한 기능을 쉽고 빠르게 수행할 수 있다. '스냅'만의 독특한(유니크한) 대표기능은 ▲태스키파이어(Taskifier, 지시사항이 담긴 보스 메시지를 한번 클릭으로 AI가 태스크로 만들어줌) ▲체크리스트 메이커(Checklist Maker, 마일스톤 리스트까지 AI가 만들어줌) ▲라이트(write, 길고 복잡한 프롬프트 엔지니어링 없이 '프롬프트 숏컷' 디자인을 통해 최단기로 내가 원하는 결과물을 얻을 수 있도록 도와줌) ▲에디트(Edit, 문맥을 파악해 답을 해줌) ▲요약(Summarize, 읽지 않은 신규 메시지와 긴 코멘트, 태스크 변경 등을 요약해줌) ▲번역(Translate, 태스크 '써머리'를 한 창에서 원하는 언어로 읽고 쓸 수 있음) ▲멀티 LLM(여러 LLM 챗봇을 그냥 합친것이 아니라 각 LLM들의 기능을 비교 및 선택 가능) ▲안전과 보안(Safe & Secure, 모든 LLM은 기본적으로 opt-out으로 구성. 등급에 따라 프라이빗 인스턴스를 세팅할 수 있고, 자사 자료를 학습시킨 LLM, 프라이빗 LLM을 선택할 수도 있음) 등이다. -'스냅'을 공개하고 한달도 안돼 MS365 스토어에 진출했다던데 "지난올 3월 27일 마이크로소프트 365 스토어에 '스냅'이 진출했다. 이메일을 채널과 챗에 공유하고, 액션 아이템(action item)을 뽑아 프로젝트 태스크로 전환하고, 주요 내용을 요약하는 등 아웃룩 이메일 안에서도 스윗의 AI 자동화 기능을 활용할 수 있다. '스냅'은 개인용 AI 에이전트와 협업용 코파일럿을 한번에 만족시켜주는 AI다. '스윗 에코시스템'을 넘어 구글, MS 앱까지 모든 앱의 경계를 넘나드는 크로스 에코시스템 수준 AI다. 또 여러 파운데이션 모델(foundational model) 장점을 활용해 개별 기능단위에서 멀티 LLM(multi-LLM) 구현도 가능하다." -하이브리드 에이전트도 출시하나? "멀티 에이전트와 개인화 에이전트를 처음 만든 회사가 우리다. 이 둘을 결합한 하이브리드 에이전트도 만들어 내년에 선보일 계획이다. 컨슈머용인 B2C 에이전트는 레거시가 없기 때문에 전환이 더 쉽다. 반면 B2B AI는 레거시 소프트웨어가 천 명 직장인 기준으로 평균 250개나 된다. RAG는 사실 기술이 아니라 아키텍처고 막노동이다. 학습한 RAG 때문에 오히려 할루시네이션이 생길 수도 있다. 데이터가 실시간으로 바뀌기 때문이다. 그래서 RAG도 사람이 하는게 아니라 에이전트에게 자동으로 시켜야 한다. 이를 에이전틱 RAG라 부른다. 실시간으로 에이전트가 자동으로 수행하는 걸 '다이내믹 그라운딩 에이전틱 래그'라고 부른다. 이 기술을 스윗은 갖고 있다." -AI가 AI를 가르친다는 말로 들린다 "그렇다. 우리가 내년에 에이전트 자동화 기술을 선보인다. 에이전트들이 협업해 크고 복잡한 문제를 해결하는 거다. 에이전트들이 협업하는 건 여러 모델이 있다. 에이전트간 협업 외에 경쟁, 또 협업과 경쟁을 섞은 것도 가능하다." -앞으로의 계획은? "내년에는 시스템으로서의 에이전트를 유저들이 마음껏 사용할 수 있게 '에이전트 빌더'를 만들어 제공한다. 출시 목표는 내년 2분기다. 우리가 내놓을 '빌더' 역시 챗봇으로서의 빌더가 아니다. 시스템으로서의 에이전트 빌더를 말한다."