권순일 업스테이지 부사장 "AI, 비즈니스 적용에 아직 한계 많아"
"딥러닝이 무조건 좋은 건 아닙니다. 아직 인공지능(AI)을 실제 비즈니스 환경에 적용하려면 근본적으로 많은 어려움이 존재하지만 빨리 도입해 써봐야 합니다. 선발주자와 후발주자간 격차가 커질 것입니다." 권순일 업스테이지 부사장은 17일 JW메리어트호텔에서 열린 'AIIA(AI is Anywhere) 제 34회 조찬 포럼'에서 연사로 나와 이 같이 밝혔다. 이 행사는 지능정보산업협회(회장 장홍성 SK텔레콤 부사장)와 지능정보기술포럼(TTA ICT 표준화포럼)이 공동 주관했고 지디넷코리아가 후원했다. AI스타트업인 업스테이지는 네이버 AI인력들이 중심이 돼 설립했다. '아숙업(AskUp)'이라는 생성형 AI를 내놔 시선을 모으고 있다. 특히 최근 메타의 최신 초거대언어모델(LLM) 라마2로 개발한 업스테이지 AI 모델이 세계 최대 머신러닝 플랫폼 허깅페이스의 '오픈 LLM 리더보드' 평가에서 72.3점을 획득하며 1위에 올라 화제를 모았다. 같은 평가 방식에서 오픈AI의 챗GPT GPT-3.5 성능(71.9)을 뛰어넘었다. 허깅페이스 오픈 LLM 리더보드는 오픈소스 생성형 AI 모델의 성능 평가 지표로 꼽힌다. 세계 500여개의 오픈 모델들이 추론과 상식 능력, 언어 이해, 종합능력 및 환각현상(할루시네이션) 방지 등 네 가지 지표의 평균 점수로 성능을 평가한다. ■ "작은 AI모델로도 GPT3.5와 GPT4 수준 성능 가능" 이번 성과에 대해 권 부사장은 "작은 AI모델 크기(사이즈)로도 GPT3.5와 GPT4 수준 성능이 가능하다는 증거로 봐달라"고 해석했다. 권 부사장은 글로벌 컨설팅 회사 매킨지와 캐나다 AI석학 죠슈아 벤지오 교수가 창업한 엘리먼트AI에서 일한 경험이 있다. 현재 업스테이지에서 사업을 맡고 있다. 이날 그는 "비즈니스에서 AI와 생성AI(AI and Gen-AI in Business)'를 주제로 발표했다. AI성능을 좌우하는 건 컴퓨팅파워와 데이터, 알고리즘 등 크게 세 가지다. 권 부사장은 "하드웨어 비용 감소와 데이터 양 증가, 다양한 기술 발전 등 크게 3가지 이유로 AI 성장이 가능했다"고 짚으며 "서버 비용만 봐도 2000년에 1기가바이트(1GB)를 저장하는데 4400달러가 들었지만 지금은 0.02달러면 된다. 비용이 99.97%나 감소했다"고 말했다. 이어 그는 "하지만 우리처럼 GPU를 많이 쓰는 기업에는 여전히 비용이 부담스럽다. 하지만 누군가 계속 풀어줄 것"이라고 예상했다. 데이터 양 폭증에 대해서는 "작년에 100제타바이트라고 말했는데 이 예상도 깨질 것"이라면서 "비정형 데이터가 정형 데이터보다 4배와 5배 많은데 이를 활용하려면 딥러닝과 AI에 관심을 가질 수 밖에 없다"고 해석했다. 아직 AI를 실제 비즈니스 환경에 적용하려면 근본적으로 많은 어려움이 존재한다면서 AI를 도입하려면 첫째, 문제 정의 둘째, 적합한 도입 방법 선택 및 도입, 셋째, 지속성 유지 등 크게 3가지가 필요하다고 설명했다. 특히 문제 정의를 강조하며 "딥러닝이 무조건 좋지는 않다. 시험테스트(PoC) 중 실패가 85%나 된다. 최선의 테크를 도입한다고 해도 최선이 아니다"면서 "도메인 지식과 AI지식이 잘 결합돼야 문제 정의가 잘 되는데 이 간격이 있다. 우리 회사도 문제 정의에 많은 시간을 보낸다"고 짚었다. 또 미국 SAT 시험에서 챗GPT와 GPT4가 각각 1260점과 1410점으로 사람(1088점)보다 나은 점수를 기록한 걸 거론하며 "인간 이상의 성능을 내는 영역이 생기면서 활용 가능성이 증가했다"고 해석했다. 챗GPT 월 방문자는 가파르게 증가하다 최근 주춤세다. 지난 8월 한 달간 챗GPT 웹사이트 글로벌 방문자 수는 약 14억 명으로 전달보다 3% 하락했다. 작년 11월 챗GPT 출시 이후 7개월 만인 지난 6월 처음 줄어든 데 이어 3개월 연속 내림세를 보였다. 출시 2개월 만에 1억명을 돌파했고, 지난 5월 약 18억명에 달하며 정점을 찍은 이후 감소세다. ■ "AI가 잘하는 것과 못하는 것 있어...정확성, 비용, 보안 이슈 해결해야" 본인이 화공과 출신이라고 밝힌 그는 GPT가 잘하는 영영과 잘 못하는 영역도 소개했다. 잘하는 영역은 기존 NLP류의 업무(태스크)로 "언어 지식 기반의 작문을 잘한다"고 들려줬다. 학습 데이터와 프롬프트로 들어가는 언어를 해석해 이를 기반으로 작문을 잘한다는 것이다. 이에, GPT가 잘하는 일로 요약과 번역, 글을 다시 쓰기, 스토리텔링, 일반적으로 합의가 된 지식에 대한 대답 (검색을 잘하는 것이 아님), 정해진 논리인 기호 논리학(대표적인게 코딩) 등을 들었다. 또 창의력에 대해서는 "많은 양의 언어 지식을 편견없이 작문하기 때문"이라고 해석했다. GPT가 못하는 영역은 할루네이션, 실시간성 부족, 강화학습에 의한 답변 방식 편향성, 부족한 정보와 논리에 따른 답변 오류(수학 문제 계산 등) 네 가지를 지적했다. 이 같은 문제 발생은 AI가 주어진 언어 지식내에서 단어 다음의 단어를 예측하는, 소위 끝말잇기 속성 때문이라고 진단했다. AI를 비즈니스 환경에 적용하기 위한 조건도 짚었다. 정확도와 비용, 보안성 이슈를 해결해야 한다는 것이다. 또 대형(라지) 모델과 소형(스몰) 모델간 명확한 차이가 있다면서 "소형 모델(스몰 스케일) LLM도 특정 영역 및 목적에서는 대형(라지) 모델 이상의 성능 달성이 가능하다. 고객입장에서는 큰 모델과 작은 모델을 어떻게 갖다 쓸 지를 지금부터 고민해야 한다"면서 "AI는 이전 SW와 다르다. 카피(컨트롤C와 V)로는 안된다. 절대적인 경험과 자산이 필요하다. 선발주자와 후발주자간 격차가 커질 것이다. 부족한 기술이지만 빨리 도입해 써봐야 한다"고 제안했다.