챗GPT로 확 커지는 생성형 AI 시장...양질 데이터 중요도↑
인공지능(AI) 기술의 빠른 발전으로 챗GPT와 같은 생성형 AI가 주목받으면서 AI 데이터 수요가 급증하고 있다. 세계적으로 생성형 AI 시장의 규모는 2022년 13조원에서 2030년 142조원까지 급격하게 성장할 것으로 전망된다. 이런 추세에 따라 국내 기업들도 한국형 초거대모델 개발에 나섰는데, 이를 위한 양질의 데이터 확보가 시급한 과제로 부상하고 있다. 글로벌 리서치 기관 그랜드 뷰 리서치가 2023년 4월 발간한 리포트에 따르면 ChatGPT 등 생성형 AI에서 비롯된 데이터 서비스 및 솔루션 수요는 2022년 글로벌 인공지능 데이터 시장에서 약 0.9조를 차지했다. 또 2030년에는 약 6.6조를 차지할 것으로 전망됐다. 국내 시장에서도 생성형 AI로 인한 데이터 수요는 2022년 493억원에서 2030년 4천261억원으로 연평균 31.8%로 성장할 것으로 예상된다. 데이터 확보 나선 기업들..."정부 지원, 한국어 양질 데이터 필요해" 이런 상황에서 국내 기업들은 데이터 확보와 관련된 문제를 극복하며 글로벌 경쟁력을 확보해야 하는 과제를 안게 됐다. 특히 정부의 지원과, 한국어로 된 양질의 데이터 확보 중요성이 더욱 커지게 됐다. 국내 한 주요 통신사 최고기술책임자(CTO)는 언론과의 인터뷰에서 "LLM(초거대 언어모델, Large Language Model)을 학습할 수 있는 충분한 데이터가 없어 데이터 구매에만 이미 상당한 비용을 지출했다"며 정부의 데이터 생태계 조성과 저작권 문제에 대한 지원을 요청했다. 한 AI 연구소 관계자는 초거대언어 기반 AI 서비스 개발 비용 중 데이터 관련 비중이 높다고 언급하면서 한국어로 된 콘텐츠·데이터 확보의 중요성을 강조했다. 또 다른 AI연구원은 오픈 데이터 세트를 활용할 경우 저작권 이슈가 발생할 수 있어 이미지 데이터를 구매했다고 밝히기도 했다. 생성형 AI가 만든 데이터를 학습에 활용하기에는 한계가 있다는 설명이다. 정부, 초거대 AI 경쟁력 강화방안 발표...국내 AI 시장 2.5조원→2030년 16.1조원 이런 데이터의 중요성을 반영해 과학기술정보통신부는 '초거대 AI 경쟁력 강화방안'을 발표하며 3천901억원을 투입할 계획을 밝혔다. 이 방안은 ▲양질의 텍스트 데이터 대규모 확충 ▲초거대 AI 한계 돌파를 위한 핵심 기술 개발 ▲초거대 AI 컴퓨팅 인프라 기술 개발이 포함돼 있다. 특히, 정부는 기술과 산업 인프라 확충을 위해 분야별 특화 학습용 데이터와 비영어권 언어 데이터를 2027년까지 200종(책 15만권 분량)을 구축할 계획을 강조했다. 이를 통해 초거대 AI 개발 및 고도화를 지원한다는 계획이다. 아울러 초거대 AI 서비스에서 발생 가능한 위험요인과 성능에 대한 평가를 제3기관을 통해 지원한다고도 밝혔다. 이를 위해 비윤리적이거나 유해한 표현 및 사실 왜곡 등을 검증할 수 있는 데이터셋 구축을 추진할 예정이다. 이처럼 정부의 지원과 함께 국내 AI 데이터 시장은 2022년 2.5조원에서 2030년 16.1조원으로 성장할 것으로 전망된다. 숙련 데이터 라벨러 운영 중요해져...크라우드웍스, 대화 데이터넷 제공 국내 인공지능 생태계에서 AI 데이터를 구축하는 기업들의 역할은 더욱 중요해질 것으로 예상된다. 특히 다수의 숙련 데이터 라벨러(AI 학습데이터를 수집 및 가공하는 인력)를 운영하는 것이 중요할 것으로 전망된다. 이는 빠른 시간에 다량의 데이터를 제공할 수 있고, 다양한 인력 풀을 기반으로 다양한 산업의 데이터를 제공할 수 있기 때문이다. 50만명의 데이터 라벨러 풀을 보유한 크라우드웍스는 이미 초거대 AI개발을 위한 다수의 대화 데이터셋을 고객에게 제공하고 있다. 또 크라우드웍스는 국내 기업들의 초거대 AI 개발 및 도입을 지원하는 서비스를 제공하고 있다. 글로벌 경제 효과를 가져올 것으로 전망되는 생성형 AI 도입이 전세계적으로 강조되면서 국내 기업들도 인공지능 도입 속도를 높일 것으로 예상된다. 실제로 네이버, 카카오 등 국내 IT 업체들은 초거대 AI모델을 공개했다. 이 밖에 뤼튼테크놀로지스, 라이언로켓, 마이리틀트립 등도 초거대 AI모델을 적용한 서비스들을 선보였다. 데이터 보안·편향적 비윤리적 답변 위험...데이터 오염 현상도 우려 하지만 기업들은 안정성, 개인정보보호 및 데이터 보안, 정확도 문제로 인해 범용 초거대 AI 모델 도입이 어려울 것으로 보인다. AI 모델이 학습한 웹상 데이터는 특정 집단에 대한 편견을 갖고 있을 수 있어 문제가 될 수 있다. 이로 인해 편향적이며 비윤리적인 답변이 생성될 수 있는 위험이 있다. 또 개인정보보호 및 데이터 보안에 관련된 문제도 제기되고 있는데, 학습데이터의 저작권 문제, 개인정보 유출 및 표절 문제 등 다양한 보안 문제가 발생할 수 있다. 정확도 측면에서도 문제가 있다. ChatGPT 등 생성형 AI가 만든 잘못된 정보들이 인터넷에 공유되면, 이 잘못된 정보가 다시 모델에 학습돼 데이터 오염 현상이 심화될 수 있어서다. 더구나 현재 ChatGPT는 최신 정보를 반영하지 않기 때문에, 최신 정보가 필요한 경우에는 부족한 결과를 제공할 수 있다. 이런 문제들을 해결하기 위해서는 지속적인 업데이트와 보완이 필요하며, 기업들은 이를 고려해 AI 도입 전략을 세워야 한다. 백상엽 카카오엔터프라이즈 대표는 "컴퓨터 업계에서는 쓰레기를 넣으면 쓰레기가 나온다(Garbage in garbage out)는 말이 있다. 좋은 데이터가 있어야 좋은 결과물이 나온다"고 말하기도 했다. 크라우드웍스는 기업이 내부 데이터를 활용해 챗GPT 또는 파인튜닝(미세조정)된 GPT를 통해 고객 및 내부 직원의 질문에 답변을 제공할 수 있도록 지원하는 프레임워크를 제공하고 있다. 기업의 내부 데이터베이스·문서·웹사이트 등의 정보를 전처리하고, 크라우드웍스 데이터 에이전트를 통해 ChatGPT/파인튜닝된 GPT 모델에게 전달하면 모델이 답변을 제공하는 구조다. 크라우드웍스는 이런 프레임워크를 다양한 고객에게 제공할 계획이다. 이를 통해 기업들은 AI 모델 도입 시 발생할 수 있는 위험요소를 최소화하고, 보다 효율적이고 신뢰할 수 있는 인공지능 기반의 솔루션을 구축할 수 있을 것으로 예상한다. 회사 측은 “기업들이 AI 기술을 안정적으로 도입하고 활용할 수 있는 환경을 제공하며, 이를 통해 산업 전반의 경쟁력 향상에 기여할 것”이라고 밝혔다.