스태빌리티AI, 언어모델 '스테이블LM' 공개
스태빌리티에이아이(AI)가 AI 언어모델 '스테이블LM'을 오픈소스로 공개했다. 개발자들은 깃허브와 허깅페이스에서 이 모델을 알파버전으로 이용할 수 있다. 테크크런치 등 외신은 19일(현지시간) 스태빌리티AI가 코딩과 텍스트를 생성하는 언어모델 '스테이블LM'을 출시했다고 보도했다. 스태빌리티AI는 기존에 이미지 AI 생성기를 오픈소스로 출시한 미국 AI 스타트업이다. 이번엔 이미지 생성에 이어 문자 생성 모델을 내놓은 셈이다. 보도에 따르면 스테이블LM은 데이터셋 '더 파일'로 기능을 학습했다. 더 파일은 인터넷에서 스크랩한 텍스트 샘플이다. 위키피티아 등 웹사이트에서 언어 데이터를 모았다. 스태빌리티AI 측은 더 파일 크기를 3배 더 키워서 데이터셋을 만들었다고 주장했다. 스테이블LM 파라미터는 약 7백만개다. 스테이블LM 데이터셋 품질이나 규모에 대한 정확한 정보는 없다. 언어모델 기능과 안전성을 좌우하는 건 데이터셋이다. 틀린 답을 사실처럼 내놓는 '환각 현상' 여부도 확인해야 해서다. 현재까지 나온 오픈AI GPT 모델이나 구글 람다만 봐도 그렇다. 테크크런치는 "더 파일 데이터셋이 유해한 단어를 포함하고 있을 수 있다"며 "스테이블LM 모델이 해당 데이터까지 학습했는지 분석할 필요가 있다"고 지적했다. 스태빌리티AI 측은 "현재 모델은 비윤리적이거나 공격적인 단어를 답변에 포함할 수 있다"고 블로그를 통해 밝혔다. "앞으로 추가 미세 조정과 강화학습을 모델에 지속 주입해 이를 방지하겠다"며 "모델 규모, 데이터 품질, 기능 최적화에 집중해 문제를 개선하겠다"고 말했다. 스테이블LM, 오픈소스로 차별화…"모델 개발 문턱 낮춰" 스테이블LM 강점은 오픈AI GPT 모델이나 구글 람다와 달리 오픈소스 형태로 이뤄졌다는 것이다. 누구나 해당 모델을 무료로 활용해 새로운 제품이나 기술을 만들 수 있다. 기존 전문가들은 언어모델을 오픈소스 형태로 출시하는 걸 부정적으로 봤다. 이는 피싱 이메일 생성이나 악성 코드 공격 지원 등 부적절한 목적으로 사용하기 쉽다는 이유에서다. 또 개발자가 오픈소스 모델 최신 버전을 놓칠 경우, 백엔드에서 수정하고 조정하는 데 많은 시간을 들여야 한다. 이에 스태빌리티AI 측은 모델 오픈소스화가 필요하다는 입장이다. 기업 관계자는 공식 블로그에서 "연구자들은 모델 성능을 확인하고, 설명 가능한 AI 기술을 연구할 수 있을 뿐 아니라 잠재적 위험까지 함께 볼 수 있다"며 "모델에 대한 개방적이고 세부적 접근이 가능하다"고 주장했다. 관계자는 "빅테크가 만든 폐쇄된 언어모델로는 할 수 없는 연구와 개발을 할 수 있다"며 "누구나 모델 개발에 접근할 수 있는 다리를 만든 셈"이라고 덧붙였다. 일각에선 스태빌리티AI가 준비되지 않은 언어모델을 자금 마련을 위해 성급해 내놨다는 분석도 있다. 이 기업은 이미지 생성 AI 수익화에 어려움을 겪은 바 있다. 이미지 저작권법 위반으로 골머리를 앓았다. 다수 외신은 스태빌리티AI가 안정적인 수익화를 마련하지 않았다고 꾸준히 지적한 바 있다. 이마드 모스타크 스태빌리티 최고경영자도 "회사 현금을 급속도로 쓰고 있는데 수익 창출을 아직 못했다"고 밝혔다.