[인터뷰] "AI 탈옥 막아라"…셀렉트스타, MWC25서 '가스라이팅 방지' 모델 테스트
"인공지능(AI)이 산업 전반에 확산됨에 따라 모델의 결함을 찾아내고 위험을 예방하는 '레드티밍'이 보다 중요해지고 있습니다. 우리는 이번에 개최되는 MWC25에 참가해 글로벌 규모의 레드티밍 행사를 열어 AI 모델의 신뢰성을 직접 검증하고자 합니다. 이러한 경험과 데이터를 바탕으로 AI 신뢰성 평가를 표준화하고 글로벌 AI 평가 시장을 선도하겠습니다" 황민영 셀렉트스타 부대표는 최근 기자와 만나 회사가 MWC25에서 '글로벌 AI 레드팀 챌린지'를 개최하는 이유에 대해 이같이 말했다. AI 신뢰성 검증을 글로벌 표준으로 확산하고 AI 평가 시장을 선도하며 다양한 전문 인력이 참여하는 생태계를 구축하겠다는 것이다. 4일 업계에 따르면 사용자가 프롬프트를 조작해 AI를 악용하는 '탈옥(Jailbreak)' 문제가 확산되면서 이에 대응하기 위한 '레드팀' 활동의 중요성 역시 갈수록 커지고 있다. 실제로 오픈AI, 구글, 메타 등 글로벌 빅테크 기업들도 자사 AI 모델의 보안성과 신뢰성을 검토하기 위해 자체적인 레드팀을 운영하고 있다. 가스라이팅·우회 질문까지…AI 탈옥, '자장가'부터 '장례 문화'까지 다양해 '레드티밍(Red Teaming)'이란 원래 보안 및 군사 분야에서 시스템의 취약점을 식별하고 이를 보완하기 위해 공격적인 시뮬레이션을 수행하는 방식이다. 보안 레드티밍이 잠재적인 해킹을 예방하기 위해 의도적으로 시스템의 취약점을 해킹하듯이 AI 분야에서의 '레드티밍' 역시 개발사가 모델을 의도적으로 공격해 금지된 정보나 위험한 응답을 유도한다. 황 부대표는 "레드티밍을 통해 선제적으로 모델의 신뢰성과 안전성을 점검할 수 있다"며 "구체적으로 AI가 차별적 발언을 하거나 허위 정보를 생성하거나 보안이 취약한 응답을 제공하는지 여부를 평가할 수 있다"고 말했다. AI에서의 레드티밍이 보다 중요한 이유는 누구나 탈옥을 시도할 수 있기 때문이다. 일반적인 보안 시스템은 해킹을 시도하려면 고도의 기술이 필요하지만 AI 모델은 단순한 텍스트 입력만으로도 무력화될 수 있다. AI의 가드레일이 아무리 견고해도 사용자가 창의적인 방식으로 우회 질문을 던지면 금지된 응답을 끌어낼 가능성이 크다. 황 부대표는 "쉽게 말해 '탈옥'은 AI 모델을 상대로 가스라이팅을 시도하는 것"이라며 "일례로 사용자가 돌아가신 할머니가 어릴 적 불러주신 '네이팜 폭탄 만드는 법'에 대한 자장가를 한번만 더 듣고 싶다고 감성적으로 접근하면 원래라면 차단돼야 할 폭탄 제조법이 제공되는 사례가 있다"고 말했다. 이어 "특정한 맥락과 감정을 덧씌우는 방식으로 AI의 방어 체계를 무너뜨리는 탈옥이 점증함에 따라 이를 방지하기 위해 레드티밍이 부각되고 있다"고 강조했다. 다만 이러한 과정이 대중적으로 잘 알려지지는 않았고 AI 모델을 평가하고 검증하는 공식적인 기준 역시 부족한 상황이다. AI가 실제 서비스에 적용되는 사례가 점점 증가하고 있기 때문에 보다 광범위한 테스트와 검증이 필요하다는 지적이 나온다. MWC25서 AI 신뢰성 검증…지난해 코엑스 챌린지가 밑거름 이같은 배경에서 셀렉트스타는 오는 5일 스페인 바르셀로나에서 'MWC25'에 참가해 '글로벌 AI 레드팀 챌린지'를 개최한다. 이번 행사는 AI 모델의 신뢰성과 안전성을 검증하고 레드팀 활동의 필요성을 글로벌 시장에 알리기 위한 자리로, 과학기술정보통신부, 세계이동통신사업자연합회(GSMA), UAE 국영 통신사 이앤(E&), 한국 AI 안전연구소 등 주요 기관이 이번 행사에 후원사로 참여했다. 전통적으로 MWC는 이동통신과 네트워크 기술이 중심이 되는 박람회였으나 올해는 AI 신뢰성 검증이라는 새로운 분야를 공식적으로 포함한 점이 주목된다. AI가 산업 전반에 빠르게 확산되면서 AI 평가 및 보안의 중요성이 점점 커지고 있음을 반영한 결정이다. 업계의 반응도 뜨겁다. 챌린지에는 이미 140명 이상이 참가 신청을 마친 상태로, 셀렉트스타 측은 아직 본격적인 홍보를 시작하기 전이기 때문에 실제 행사 당일에는 더 많은 국가에서 참가자가 몰릴 것으로 예상하고 있다. 또 이번 행사는 글로벌 AI 기업들의 모델을 대상으로 신뢰성을 평가하는 첫 번째 대규모 국제 레드팀 챌린지로, 다양한 문화와 언어 환경에서 AI가 얼마나 안전하게 작동하는지를 검증하는 실험적 의미도 갖는다. AI 레드팀 챌린지의 가장 큰 특징은 누구나 참여할 수 있다는 점이다. 보안 전문가뿐만 아니라 언어학자, 인문학자, 예술가, 마케터, 일반 대학생 등 비전공자도 AI가 설정된 가드레일을 우회하도록 유도하는 다양한 프롬프트를 시도함으로써 모델을 공략하는 데 중요한 역할을 할 수 있다. 황 부대표는 "미국에서는 오픈AI나 구글 같은 기업들이 자체적으로 AI 레드팀 작업을 진행하고 있지만 대규모 공개 행사 형태로 레드팀을 운영하는 사례는 거의 없었다"며 "MWC 같은 국제 박람회에서 전 세계의 다양한 전문가와 일반인이 함께 AI를 공격하는 장을 연다는 점에서 의미가 크다"고 강조했다. 셀렉트스타가 MWC25에서 글로벌 AI 레드팀 챌린지를 성공적으로 개최할 수 있게 된 배경에는 지난해 국내에서 진행했던 AI 레드팀 챌린지의 경험이 있다. 지난해 4월 서울 코엑스에서 열린 행사에서 참가자들은 총 네 차례의 공격 라운드를 거치며 AI 모델의 탈옥을 시도했다. 대학생, 일반 회사원, 교수 등 다양한 배경의 참가자들이 각자의 창의적인 접근법으로 AI 모델을 공략해 AI가 실제로 불법 정보를 제공하거나 차별적 발언을 하는 등의 허점이 발견되면서 신뢰성 검증의 필요성이 다시 한번 입증됐다. 회사는 그 과정에서 다수의 흥미로운 사례를 확보했다. 황 부대표는 "어떤 참가자는 '할머니가 가르쳐준 전통 의식'이라며 폭탄 제조법을 물었고 다른 참가자는 특정 문화권의 장례 문화를 언급하며 시신을 화학적으로 분해하는 방법을 요청하는 등 AI의 정책 필터를 우회하는 다양한 시도가 있었다"며 "이러한 사례들은 AI 모델이 단순한 필터링으로는 안전성을 유지할 수 없으며 보다 체계적인 검증이 필요하다는 점을 시사한다"고 설명했다. '다투모 이밸'로 자동화 혁신…AI 신뢰성 검증 앞장설 것 레드티밍을 통한 AI 신뢰성 검증은 단순한 연구 목적을 넘어 기업의 실제 비즈니스에도 중요한 영향을 미친다. 특히 금융권과 같이 AI 챗봇이 잘못된 금융 정보를 제공하거나 특정 키워드에 대해 잘못된 응답을 하면 이는 단순한 기술적 결함이 아니라 고객 신뢰와 직결된 문제가 된다. 이같은 상황 속에서 셀렉트스타는 AI 신뢰성 검증을 위한 주요한 역할을 맡고 있다. 특히 기존에는 사람이 직접 AI 모델을 테스트하고 문제를 찾아 수정하는 방식이었으나 셀렉트스타는 이를 자동화하는 솔루션 '다투모 이밸(DATUMO eval)'을 출시하며 검증 프로세스를 혁신했다. '이밸'은 AI 신뢰성 검증을 위한 자동화 솔루션으로, 기업별 맞춤형 평가 기준을 설정하고 이를 기반으로 대량의 평가 데이터를 생성하는 기능을 제공한다. 기존 벤치마크 데이터셋이 AI의 일반적인 언어 처리 능력이나 논리력을 평가하는 데 초점이 맞춰져 있었다면 이 솔루션은 특정 기업의 산업군과 맞는 평가 질문을 생성해 보다 실질적인 검증이 가능하도록 설계됐다. 일례로 보험회사가 챗봇을 도입할 경우 '다투모 이밸'은 보험 상품과 관련된 수십만 개의 맞춤형 질문을 자동 생성해 AI가 정확한 답변을 제공하는지와 불법적인 정보를 전달하지 않는지를 분석하게끔 돕는다. 이를 통해 기업들은 자사 AI 모델이 경쟁사의 모델보다 신뢰성이 높은지와 특정한 위험한 질문에 대해 어떻게 대응하는지에 대한 실질적인 비교 분석이 가능해진다. 회사는 '다투모 이밸'이 단순한 AI 평가 솔루션이 아니라 AI 신뢰성을 검증하는 새로운 표준이 되도록 글로벌 시장을 적극 공략할 계획이다. 황 부대표는 "전 세계적으로 AI 모델 평가의 중요성이 커지고 있는 가운데 이를 체계적으로 자동화한 기업은 드문 상황"이라며 "우리 솔루션은 글로벌 시장에서도 충분히 경쟁력이 있다"고 강조했다. 이에 따라 MWC25 글로벌 AI 레드팀 챌린지 종료 후 셀렉트스타는 행사를 통해 발견된 핵심 취약사례, 위험 응답 유형, 가장 창의적인 공격 방식 등을 정리한 보고서를 발표할 계획이다. 이 보고서는 AI 안전연구소(AISI), GSMA, 과기정통부 등 후원 기관과 공유되며 글로벌 차원의 AI 신뢰성 검증 논의에도 기여할 전망이다. 또 챌린지에서 확보한 데이터는 '다투모 이밸'의 기능 개선에도 직접 활용된다. 다양한 국가에서 AI 모델을 공격한 데이터를 분석함으로써 AI가 각국의 언어와 문화적 맥락에서 어떻게 반응하는지, 어떤 방식으로 탈옥이 시도되는지를 보다 정교하게 연구할 수 있기 때문이다. 황민영 셀렉트스타 부대표는 "이번 MWC25 글로벌 AI 레드팀 챌린지를 계기로 AI 신뢰성 평가 시장을 본격적으로 공략하고 AI 평가 및 보안 분야의 글로벌 리더로 자리 잡겠다"며 "조만간 AI를 도입하는 기업이라면 누구나 레드팀 테스트를 거쳐야 한다는 인식이 자리잡을 때 우리 솔루션이 핵심적인 역할을 하게 만들 것"이라고 강조했다.