김영섬 코난 대표 "우리 AI기술 적용 더 큰 시장 창출"
"타깃(목표) 시장은 다르지만 데이터나 파라미터(매개변수) 크기 등 여러 완결성면에서 우리가 개발해 선보인 '코난 LLM'은 국내 첫 상업용 거대 언어AI모델(LLM, Large scale Language Mode)입니다." 김영섬 코난테크놀로지 대표는 17일 자사가 개발한 거대 AI언어모델 '코난 LLM'을 서울 여의도 콘래드호텔에서 발표한 후 기자와 만나 이 같이 밝혔다. 이날 코난테크놀로지(이하 코난)은 20억 건의 고품질 문서를 학습했고, 전체 토큰(token)수가 7천억개(회사는 국내 최다 토큰이라고 말)이며 파라미터가 131억개(13B)인 '코난 LLM'을 발표했다. 기업(B2B)과 공공(B2G) 시장을 겨냥한 '코난 LLM'은 인터넷으로 제공하는 클라우드 형태가 아닌 온프레미스(On premise, 구축형이라 불리며 인터넷이 아닌 기업 서버에 직접 내장)로 제공, 기업 내부 데이터 유출을 원천 차단했다. 또 벡터 검색 엔진을 적용해 명확한 근거와 출처를 참고문서로 제공해 AI 단점인 할루네이션(hallunation, 그럴듯한 거짓말)을 줄였다. ■ 직접 개발 기간 6개월..."데이터 등 완결성면에서 국내 첫 상업용 LLM" 회사가 '코난 LLM' 개발하는데 얼마나 걸렸고, 비용은 얼마가 들어갔을까. 이에 대해 김 대표는 "LLM만 따지면 6개월 정도 들어갔다. 작년부터 LLM모델을 테스팅했으니 다 합치면 1년 넘게 시간이 걸렸다"면서 "비용은 직접비용만 100억원 정도 들었다"고 밝혔다. 언어AI의 취약점 중 하나가 데이터 학습에 들어간 데이터의 저작권 문제다. 생성AI 붐을 일으킨 미국 오픈AI도 챗GPT의 데이터 저작권 문제로 곤혹스러워하고 있고, 오는 24일 자사의 2세대 초거대AI인 '하이퍼클로바X'를 발표하는 네이버도 이 부분에 각별히 신경쓰고 있다. 24년 업력의 코난테크놀로지는 2007년부터 국내외 데이터를 실시간 수집, 분석한 온라인 미디어 분석 서비스 '펄스케이(PulseK)'를 통해 약 205억개 문서를 자체 확보했는데, 이중 트위터나 뉴스 댓글 등 단문을 제외한 20억건을 '코난 LLM' 학습에 사용했다. '코난 LLM'의 데이터 저작권 문제와 관련해 김 대표는 "퍼펙트(완벽)하다. 다 돈주고 샀다"고 자신하며 "트위터 데이터도 돈을 지불했다"고 설명했다. 저작권에 안전한 데이터 확보를 위해 국내출판단체와도 만났다는 그는 "출판단체는 데이터를 안판다고 하더라"면서 "공개된 데이터에 관한한 우리가 가장 많이 갖고 있다. 우리 데이터는 오픈소스보다 훨씬 클린징한 데이터다. 우리와 달리 토큰 수나 파라미터 등을 정확히 공개 하지 않는 거대언어AI는 오픈소스나 API를 이용한 것으로 봐야 한다"고 진단했다. 그에 따르면 200만건이 넘는 특허DB의 경우 2천만원 정도에 구매할 수 있다. 이날 공개한 '코난 LLM'은 전체 토큰이 4920억개인데 이중 한국어 토큰은 2840억개다. 나머지 2000여억개 토큰은 영어다. 영어 문서 시장을 겨냥해 영어 데이터를 학습한 것이다. '토큰'은 AI가 데이터 학습시 사용하는 데이터(단어)의 단위다. 1토큰은 우리나라 단어 0.7개에 해당한다. 김 대표는 "대기업이 문서를 만들때 영어 문서도 꽤 많이 만든다"면서 영어 데이터 학습 이유를 설명했다. 코난테크놀로지는 이번 4920억개 토큰의 '코난 LLM'에 이어 7000억개 토큰(이중 한국어는 3220억개)을 사용한 '버전2 코난LLM'을 오는 11월 내놓을 예정이다. 문서 생성 능력과 기능이 훨씬 좋아지는 것이다. ■ 내년엔 일본 시장 진출 계획도...2대 주주인 SKT와도 적극 협력 회사는 단기적으로 B2B와 B2G 시장에 집중한다. 일반사용자(B2C) 시장 진출 계획을 묻자 김 대표는 "우리가 엠파스도 서비스하고 네이트도 서비스했다. 꽤 오랫동안 포털 서비스를 한 경험이 있고, 당시 우리가 잘 나갔다. 하지만 B2C는 현재 우리 DNA가 아닌 것 같다. B2C는 아직 계획이 없다"고 선을 그었다. 이어 "모델이 80B로 커지면 B2C가 가능하다"고 덧붙였다. 국내 모든 소프트웨어(SW) 및 AI기업의 화두인 해외 시장 진출에 대해서는 "내년에 일본에 갈 플랜이 있다"고 밝혔다. "예전에 우리가 CJK(중국, 일본, 한국)에서 잘했다. 그런데 중국은 안되고, 일본은 공공 데이터를 많이 개방하고 있으니 일본 데이터를 학습해 내년에는 일본에 갈 생각이 있다"고 말했다. 코난테크놀로지는 SK텔레콤이 2대 주주로 20.77% 지분을 갖고 있다. '코난 LLM'과 SK텔레콤간 협력 강화가 읽혀지는 부분이다. 김 대표는 말을 아끼며 "SKT와 잘 지내고 있다. B2B와 B2G를 같이 해보자는 이야기를 하고 있다"며 반색했다. 코난테크놀로지는 언어 뿐 아니라 영상(비전)과 음성AI에도 일가견이 있다. 비전AI가 중요한 역할을 하는 국방부의 50억 규모 사업을 최근 수주하기도 했다. 이에 시장에서 원하면 언어AI 뿐 아니라 영상인식이나 음성인식도 붙여 줄 계획이다. 김 대표는 "비전AI도 우리가 잘한다. 인력도 많이 있다. 국방 등에서 영상과 음성AI를 원하고 있다"면서 "회사 내부에서 강의 세미나시 사진을 찍어 올리면 바로 음성인식으로 자막을 달기도 한다"고 설명했다. 현재 코난테크놀로지는 2500여 곳이 넘는 고객사를 확보하고 있다. 17일 선보인 '코난 LLM'의 고객도 1차적으로는 기존 고객사다. 김 대표는 '코난 LLM'을 공식 발표하기 이전부터 금융사, 공공기관,검찰 등에서 AI모델을 설명해달라는 '러브 콜'을 잇달아 받았다면서 "단기적으로는 기존 고객 수백 곳이 '코난 LLM'을 사용하지 않을까 한다"고 예상하며 "문서 요약 등 네이버 제품과 비교해 기능이 뒤지지 않으며 더 나은 부분도 많이 있다. 네이버는 클라우드고 우리는 온프레미스 이기 때문에 직접 경쟁은 하지 않을 것으로 본다"고 진단했다. ■ "우리 기술이 많은 사람에게 도움줬으면...스마트워크와 스마트 라이프에 기여" 한편 김 대표는 17일 '코난 LLM 발표회'에서 인사말을 통해 그동안의 소회 등을 밝혔다. 생성형 AI 기술은 우리 일상 속으로 빠르게 스며들고 있는데, 코난테크놀로지는 이런 환경에 선도적으로 대응하기 위해 자체 개발 거대언어모델(Large Language Model) 개발에 매진해 왔다면서 "오늘, 이 자리에서 '코난LLM(Konan LLM)' 이라는 이름으로 그 노력의 결실을 공개하게 돼 기쁘다"고 밝혔다. 이어 코난테크놀로지가 지난해 코스닥 시장에 기술특례로 상장했으며, 1999년 '인공지능'이라는 단어가 많이 생소한 시점에 인공지능을 전공한 개발자들이 모여 창업했다면서 "이후 24년간 오로지 자체개발 원천기술 확보에 주력하며 AI 기술 기업으로서 도약해 왔고 오늘날 세계적인 빅테크 기업들이 주도하는 LLM 시장에도 뛰어 들게 됐다"고 덧붙였다. 초거대 인공지능을 개발해 공개한 나라는 전 세계에 미국, 중국, 이스라엘, 한국 등 네 나라밖에 없는데 김 대표는 "국내 여러 기업들이 인공지능 탑재를 본격화하고 있고, 다양한 LLM 모델들이 출시를 앞두고 있고, 이런 환경에서 우리회사의 소프트웨어가 세상에 나왔다는 사실에 감사하다"면서 "모쪼록 우리 기술이 많은 사람에게 도움을 주고, 스마트 워크와 스마트 라이프를 이끄는데 이바지 했으면 한다. 나아가 국내 여러 산업과 기업에 우리 AI 기술을 적용하고 접목시켜 더 큰 시장을 창출하고 궁극적으로 국가 기술 경쟁력을 강화하는데 의미 있는 역할을 할 수 있도록 기대한다"고 밝혔다. 김 대표는 한양대학교 전자통신 학사(78학번) 졸업에 이어 동대학 전자통신 석사와 전자통신 전산학 박사학위를 받았다. 한국전자통신연구원(ETRI) 선임연구원(1989~1997)과 미국 벨코어리서치(Bellcore Research) 객원연구원(1991~1996)을 지냈으며 1999년 코난테크놀로지를 설립, 현재 대표를 맡고 있다. 그가 쓴 논문은 '영한 기계번역 시스템 설계에 관한 연구(1984)'와 '자연언어 인터페이스 시스템의 구현에 관한 연구(1988)'가 있다.