오픈AI, 웹크롤러 'GPT봇' 공개
오픈AI가 GPT 언어모델 학습에 필요한 데이터를 수집하는 새 웹크롤러를 공개했다. 인터넷에 공개된 데이터를 찾아 대규모언어모델(LLM)로 부어넣는 과정을 단순화한 툴이다. 오픈AI는 사이트 소유자에게 크롤링을 차단하는 방법을 안내했다. 8일(현지시간) 미국 지디넷에 따르면, 오픈AI는 웹크롤러 'GPTBot'을 발표했다. 웹크롤러란 구글이나 빙 같은 검색엔진에서 전세계 웹사이트를 찾아내고 콘텐츠를 색인화하는데 사용되는 툴이다. AI 개발 회사가 LLM을 학습시키는데도 사용한다. 웹크롤러가 각종 데이터를 자동으로 찾아 끌어오므로 LLM 학습 데이터 확보가 쉬워진다. GPT봇은 유료 구독을 요구하거나, 개인식별정보를 수집해 오픈AI 정책을 위반하는 등의 웹페이지를 걸러낸다고 오픈AI 측은 설명했다. 개발자와 웹사이트 관리자는 자신의 사이트에 대한 GPT봇의 접근을 차단할 수 있다. 관리자는 사이트의 'robots.txt'와 'Disallow: /'에 GPT봇 토큰을 추가할 수 있다. 오픈AI는 사이트의 특정 부분만 크롤링하도록 허용하는 등 GPT봇의 접근을 맞춤화할 수 있다고 설명했다. GPT봇의 웹사이트 일부 접근만 허용하려면 'robots.txt', 'Allow: /'directory-1/', 'Disallow: /directory-2/' 등에 GPT봇을 추가하고 필요에 따라 사용자 지정하면 된다. 오픈AI는 파운데이션모델인 GPT-3.5와 GPT-4 교육에 그동안 웹크롤러를 사용한다고 밝히지 않아왔다. 오픈AI는 현재 사용자 데이터를 훔쳤다는 혐의로 여러 소송에 휘말렸다. 저작권 침해 사건도 포함된다. 스택오버플로우, 레딧, 트위터 등의 사이트는 AI 회사에 데이터 접근 비용을 청구할 계획이라고 밝히기도 했다.