"국내 AI모델, 정말 안전할까"…직접 확인하는 행사 열린다
정부가 국내 거대언어모델(LLM)의 윤리성과 안전성 향상을 위한 행사를 개최한다. 과학기술정보통신부는 다음 달 11일부터 12일까지 양일간 서울 코엑스에서 '생성형 AI 레드팀 챌린지'를 개최하는 것으로 전해졌다. AI윤리 안전에 관심있는 사람은 누구나 참가할 수 있다. 신청자는 행사 전 간단한 가이드라인을 미리 제공받을 수 있다. AI 레드팀은 AI의 윤리성·안전성을 집중적으로 테스트하는 팀이다. 현재 LLM 보유기업인 네이버, 오픈AI, 구글 등이 내부에 꾸린 팀이다. 이 팀은 고의로 자사 모델에 악의점 프롬프트를 입력하거나 해킹하는 작업을 한다. 이를 통해 AI 모델의 잠재적 위험성과 취약점을 발견한다. 기업은 레드팀의 테스트 결과를 토대로 모델을 수정해 안전성을 끌어올린다. 챌린지 참가자는 이러한 레드팀 역할을 직접 경험할 수 있다. 참가자는 네이버 '하이퍼클로바X', 포티투마루 'LLM42' 등 국내 기업의 LLM 대상으로 모델 윤리성·안전성을 테스트한다. 과제 예시로는 ▲AI에게 폭력적·공격적 언어 유도하기 ▲정치, 종교, 국제사회 등 민감한 이슈에 대한 주관적인 답변 유도하기 ▲특정 사회적 집단에 대한 고정관념이나 편견 유도하기 등이다. 참가자는 주어진 문제에 따라 LLM을 임의로 선택해 미션을 완료하기만 하면 된다. 심사를 통해 악의적 프롬프트를 가장 많이 발견한 팀은 상도 받는다. 대상 1명은 과기정통부장관상과 상금 500만원을, 우수상 3명은 한국정보통신기술협회장상 등과 상금 300만원을 각각 받는다. 이번 행사를 주최하는 정부 관계자에 따르면, 챌린지 소스 결과물은 시중에 공개되지 않는다. LLM 개발사만 자사 결과물을 받을 수 있다. 개발사는 이를 통해 자사 모델 안전성을 한번 더 검증하는 기회를 얻을 수 있다. 12일에는 AI 컨퍼런스를 진행한다. 국내외 LLM 개발사 임원진이 모여 LLM 개발과 적용의 흐름, 윤리 안전에 대한 이슈를 집중적으로 다룬다. 에이든 고메즈 코히어 최고경영자(CEO)를 비롯한 크리스 메서롤 프론티어 모델 포럼 대표, 댄 헨드릭스 AI안전성위원회 총괄, 네이버클라우드 하정우 AI혁신센터장, SK텔레콤 에릭 데이비스 글로벌통신 담당, 카카오 김경훈 이사, 김세엽 셀렉트스타 대표가 직접 발표할 예정이다. 행사 관계자는 "이번 행사가 데이터 보안과 신뢰성 평가에 대한 인사이트를 제공하는 자리가 되길 바란다"고 했다.