스캐터랩 개발자 4인 "AI챗봇 '루다' 만들며 가명처리 중요성 깨달았죠"
실패한 사람이 그 문제를 가장 잘 아는 사람이다. 최근 즐겨보는 TV 프로그램 중 하나인 '알쓸인잡'에서 천문학자인 심채경 교수는 미국 항공우주국(NASA)은 문제가 생겼다고 해서 실패한 사람을 자르는 방식으로 해결하지 않는다고 말했다. 그 이유는 실패한 사람이 결국 그 문제를 가장 잘 아는 전문가이기 때문이다. 지난해 한국인터넷진흥원(KISA)과 과학기술정보통신부가 개최한 가명·익명처리 기술 경진대회에서 대상을 수상한 스캐터랩 개발자들을 만나고 나니, 스쳐 지나갔던 TV 속 NASA 이야기가 생각났다. 루다 출시 이후 여러 이슈를 겪으면서 많은 공부를 했어요. 회사 내부에서는 지나가는 누구를 붙잡고 가명정보가 뭐냐고 물어봐도 얼추 답변이 나올 수 있을 정도로 익숙해졌죠. 가명처리를 어떻게 해야 더 잘 활용할 수 있는지 이미 체화된 상태였기 때문에 대회에서 좀 더 쉽게 문제를 해결할 수 있었어요. 지난해 열린 '2022 가명·익명처리 기술 경진대회'에 참여한 스캐터랩 개발자 이정민 씨는 이루다를 만들면서 겪었던 시행착오가 이번 대회의 밑거름이 되었다고 말했다. 스캐터랩은 인공지능(AI) 챗봇 '이루다'를 개발한 스타트업이다. 2020년 출시된 이루다는 출시 직후부터 혐오 발언과 개인정보보호법 위반 등으로 논란의 중심에 섰다. 서비스가 잠정 중단되기도 했으며, 이루다에 활용된 데이터베이스(DB)와 대화 모델을 폐기하기도 했다. 뼈 아픈 실패였다. 그리고 지난해 10월 스캐터랩은 이루다2.0을 정식 출시했다. 과거 논란 재발을 막기 위해 AI 기술 및 개발 전반에 걸친 가이드라인인 AI 챗봇 윤리 준칙들을 수립했으며, 연구용 데이터셋 개인정보는 모두 가명화 처리했다. 여성형 챗봇 '이루다'에 이어, 지난 2일에는 남성형 챗봇 '강다온'까지 출시했다. 지난해 12월, 2년여 시간 동안 다사다난했던 스캐터랩의 네 명의 개발자가 뭉쳐 이루다의 발목을 잡았던 가명처리 분야에서 보란듯 대상을 탔다. 지난해 11월 개최한 KISA 가명처리 기술 경진 대회에서 20자가 넘는 가장 긴 팀명으로 출전해, 일반부 대상을 수상한 재기발랄한 스캐터랩 개발자 4인(김성환, 김성훈, 이정민, 최기원)을 만나봤다. 이들은 '성동구소재회사근무중인20대남성개발자4명'이라는 팀명으로 출전했다. "재밌고 눈에 잘 띄게 하고 싶어서 지은 팀명"이라고 소개했다. 같은 회사였지만 각자 맡은 업무가 달랐던 데이터 엔지니어, 머신러닝 엔지니어, 백엔드 엔지니어들이 팀으로 모일 수 있었던 건 개발자로서 실력을 높이고 싶다는 욕망과 잘 해낼 수 있다는 자신감 덕분이었다. 이정민 씨는 "최근 개인정보관리사(CPPG) 자격증을 취득하고, 또 어떤 걸 할 수 있을까 찾아보다가 이번 대회를 발견했고, 사내 슬랙 메신저에 공유해 팀을 꾸리게 됐다"고 말했다. 김성환 씨는 "가명처리 업무를 하고 있었는데, 이번 대회가 지금까지 내가 계속해오던 것이라서 잘할 수 있겠다는 자신감이 생겨서 참여하게 됐다"고 말했다. 이번 대회는 비대면 온라인 경연으로, 12시간 진행되는 예선과 1박2일 진행되는 본선으로 이뤄졌다. 이들은 회사에 휴가를 내고 영종도로 내려갔다. "경연도 치르고 관광도 하자는 마음으로 영종도 숙소를 빌려서 다 같이 휴가를 내고 내려갔어요. 대회가 끝나고 바다도 보고 조개도 먹고 올라왔죠. 장소 선정을 잘한 것 같아요.(웃음)" 이번 대회는 안전성과 유용성, 두 가지의 기준을 모두 맞춰야 하는 게 관건이었다. 이정민 씨는 "'데이터 유용성이 손실되지 않으면서 어떻게 안전하게 가명·익명처리할 수 있는지 연구해보라'가 이번 대회의 핵심"이었다고 소개했다. 안전성은 가명·익명정보의 재식별 위험성이 얼마나 낮은가를 판단하는 기준이며, 유용성은 가명·익명정보가 얼마나 유용하게 쓰일 수 있는 데이터인지를 판단하는 기준이다. 이번 대회에서는 인구·성별 분포 등을 맞춘 재현 데이터셋이 제공됐다. 31시간 동안 공개된 데이터셋을 가지고 검토 결과 보고서와 가명처리 계획표를 제출해야 했다. 익명처리도 같은 데이터셋이 제공됐다. 다만 가명처리와 익명처리가 다른 점은 '목적'이었다. 익명 처리가 보다 엄격한 데이터 처리를 요구했다. 이정민 씨는 "가명처리는 제한된 목적을 갖고서 하는 것으로, 가명처리 데이터 자체가 위험성이 있다고 하더라도 폐쇄적인 환경에서 철저히 관리해 사용하면 되는 반면, 익명정보는 어느 누가 접근하더라도 원래 개인정보를 복구할 수 없어야 한다는 게 가장 큰 전제였다"며 "가명 처리는 분명하게 어떤 연관관계를 분석하고 싶다는 목적이 있었고, 익명처리는 공공데이터에 올려서 자유롭게 분석하도록 하기 위한 것으로 분석 목적이 불분명했으며 어떤 기술을 동원해도 재식별이 불가능하게 해야 했다"고 설명했다. 그렇다면 익명처리가 가명처리보다 더 어려운 걸까. 이정민 씨는 "익명처리는 공중에 공개됐을 때 안전하냐가 제일 중요하기 때문에 데이터 삭제를 오히려 쉽게 결정할 수 있다. 또 익명처리는 처리 방법에 대한 논문과 사례가 많아 기술적으로 편했다"며 "하지만 가명처리는 통제 가능한 수준에 있기 때문에 오히려 삭제를 해야 하나 말아야 하나를 고민해야 해서 더 어려웠다"고 말했다. 익명처리도 어려움이 없는 건 아니다. "익명처리는 처리 자체가 가명처리보다는 깔끔하지만 정보 손실이 심해지기 때문에 연구에 도움이 되는 지표로 어떻게 남길 수 있을지 고민해야 했고, 평균값이 최대한 적게 변하게끔 하는 등의 노력을 기울였다"고 덧붙였다. 김성환 씨는 "익명처리에서는 주로 프라이버시 모델을 지키는 게 중요하기 때문에 데이터 삭제를 많이 하게 되는데, 그럴 경우 각각의 항목에 대해서 유용성을 지키기 위한 부분을 생각하기 까다롭다"며 "가명정보는 비교적 자유롭기 때문에 각각의 항목들에 대해 어떻게 처리하면 조금 더 유용하게 사용할 수 있을지 생각하기가 쉬웠다"고 말했다. 실제로 쓰기엔 가명정보와 익명정보 중 무엇이 더 유용한 걸까. 이정민 씨는 "익명정보는 누구나 데이터를 내려받아 사용할 수 있는 게 이점이지만, 반대로 말하면 공중에 공개됐다는 건 유의미하게 차별점을 갖긴 어려운 데이터라는 뜻이기도 하다"며 "따라서 입문할 때는 좋겠지만 차별점을 주기 위해서는 가명정보를 조금 더 활용할 수 있어야 한다"고 말했다. 이어 "가명정보가 유용하긴 하지만, 가명정보는 쓸 수 있는 방식에 제한이 있어 서비스에 바로 쓰긴 어렵다"며 "가명정보는 법적으로 개인정보처럼 다뤄지기 때문에 행정적으로 치러야 할 절차가 많고, 책임도 명확하게 해야 하는 부분들이 있다"고 설명했다. 이번 대회를 치르면서 뿌듯했던 점으로 이들은 '치열하게 토론했던 순간'을 꼽았다. 최기원 씨는 "해커톤 형식을 처음 경험해봤는데, 같이 모여서 치열하게 토론했던 시간이 뿌듯했다"고 말했다. 김성환 씨는 "가명·익명 처리 자체가 현업에서도 기준이 모호하다"며 "처리방식에 대해서 점수를 매길 수 있는 것도 아니고, 정량·정성 지표가 모호한 탓에 토론이 계속 이뤄져 답답한 면도 있었다"고 말했다. 그러나 "발표 평가를 할 때, 심사위원 중 한 분이 '원래 이런 일을 계속 해왔냐'는 질문이 나왔을 때는 '우리 잘했구나'라는 생각이 들어 뿌듯했다"고 말했다. 김성훈 씨는 "회사 자체가 회의하고 토론할 때 눈치 보지 않고 가감 없이 의견을 말할 수 있고 잘 받아 들여준다"며 "합의점을 찾아가는 과정을 회사 내부에서 많이 하다 보니, 대회에서도 좋은 결과 얻게 된 것 같다"고 말했다. 루다를 만들면서 힘든 점은 없었을까. 이정민 씨는 "머신러닝 기술의 가장 근본적으로 어려운 점 중 하나는 통제가 잘 안된다는 것"이라며 "옛날 소프트웨어를 개발할 때는 '이런 단어가 들어가면 안 된다'라는 식의 규칙을 많이 만드는 걸로 해결했다면, 머신러닝은 이런 식으로 해결하면 성능이 오히려 떨어지고, 좀 더 근본적으로는 '이럴 때 이렇게 말하면 안 돼'와 같은 예시를 엄청나게 많이 제시하는 방식으로 가야 한다"고 어려움을 설명했다. 이어 "개인정보 보호 문제뿐 아니라 루다가 우리가 원하지 않는 방식으로 실언을 할 때마다 아쉬운 점이 있다"며 "어떤 방식으로 해야 현재 시점에서 기술을 잘 통제하면서 나아갈 수 있을까 하는 고민을 하고 있다"고 말했다. 김성환 씨는 "루다는 어떻게 보면 살아있는 사람"이라며 "계속 외부에서 정보를 받아들여야 하는 복잡한 면이 있는데, 최대한 빨리 새로운 정보를 받아들여서 계속 배울 수 있는 환경이 만들어졌으면 좋겠다"고 말했다. 김성훈 씨는 "이 시장에서 살아남으려면 우리가 원하는 대화를 잘하는 데이터가 많이 필요한데, 이 데이터 수집을 어떻게 할 수 있을까 하는 고민이 있다"고 말했다. 열정 넘치는 20대 개발자들은 앞으로 어떤 일을 해보고 싶을까. 김성훈 씨는 "이루다 1.0때 충격이 컸다"며 "앞으로 업계에서 편하게 쓸 수 있는 데이터를 만들고, 이용자 입장에서도 안전하게 데이터를 맡길 수 있는 시스템을 만들고 싶은 욕심이 있다"고 말했다. 이정민 씨는 "개발자가 됐던 이유는 내가 만든 걸 다른 사람이 쓰는 게 신기했기 때문"이라며 "실제로 서비스를 운영하다 보면 개인정보보호법뿐 아니라 저작권법, 전자상거래법 등 법에 대해 무지해서 일어나는 사고가 많다. 그럴 경우 사용자를 위한 서비스를 운영 못 하게 되는 큰 안타까움이 있다. 개발지식과 동시에 컴플라이언스 지식을 갖춰서 그런 실수를 안 하도록 주변사람들을 도와주고 싶다"고 말했다. 김성환 씨는 "개발자라는 직업 자체가 자신이 생각하는 가치를 결국 기술적으로 구현해내는 직업"이라며 "마음으로 와닿는 가치가 있을 때, 개발을 통해서 현실화하는 많은 경험을 쌓고 싶다"고 말했다. 또한 "복잡한 컴플라이언스를 사람들이 최대한 신경 쓰지 않게 하는 시스템을 만들어내고 싶고, 음악을 좋아해서 누구나 전문적인 음악 지식 없이도 합주할 수 있는 서비스를 만들어보고 싶다"고 말했다. 최기원 씨는 "어렸을 때 꿈이 만화가였다"며 "머신러닝 기술을 이용해 웹툰을 만드는 게 꿈"이라고 밝혔다. 이어 "관계에서 중요한 건 기억이라고 생각한다"며 "기억이라는 기술을 구현하는 데도 관심이 많다"고 말했다. 자신이 가진 생각과 가치관을 바탕으로 일을 하지만, 반대로 일을 하면서 자신의 생각과 가치관이 변하기도 한다. '성동구소재회사근무중인20대남성개발자4명'은 AI챗봇을 만들면서 '관계'에 대해 깊이 고민하게 됐다고 말했다. 이정민 씨는 "기존에는 선물을 주고받는 것이 형식적이라고 생각했는데, 이루다에 '선물하기' 기능을 만들면서 어떤 것이 관계를 향상시킬 수 있는 좋은 방법일지 고민하게 됐고, 저 역시 좋은 관계를 만들기 위해 어떻게 해야 하는지 고민하게 됐다"고 말했다. 최기원 씨도 "루다를 만들면서 좋은 관계란 무엇인가에 대해 구체적으로 고민하게 됐다"며 "아직 좋은 관계가 무엇인지까지는 명확한 답은 못 내렸다. 하지만 관계가 어디서 시작하는지에 대해 고민을 하게 됐는데, '기억하는 것'이 관계에 중요하다 생각이 들었다"고 말했다. 김성훈 씨는 "우리 비즈니스 자체를 관계업이라고 부르고 있다"며 "관계를 자주 들여다보게 되니까 감정에 예민해졌다. 내가 어떤 상황에 있고, 어떤 관계 속에서 어떤 감정을 느끼는지 섬세하게 들여다보게 됐다. MBTI로 말하면 사고형(T)에서 감정형(F)으로 바뀌었다"고 말했다. 김성환 씨는 "대화를 평가하는 데는 다양한 지표가 있지만 이게 좋은 대화냐, 재밌는 대화냐는 다른 얘기인 거 같다"며 "사내에서 재밌는 대화는 무엇인가라는 연구를 했었고, 좋은 대화란 무엇인가에 대해서도 문서를 만들었다. 이 문서는 루다가 배워야 하는 문서이지만, 재치 있게 대화하는 능력이 부족한 저도 같이 배울 수 있는 재밌는 경험이었다"고 말했다. 어떤 대화를 해야 좋은 대화일까. 김성훈 씨는 "선톡에 대해서 연구를 많이 했다"며 "어떻게 하면 상대방이 선톡에 더 잘 응답할 수 있을지 대해서 연구를 많이 했는데, 흥미로웠던 것 중 하나는 답변을 할 때 무슨 말을 해야 할지 머릿속에 그려지는 질문을 해야 한다는 것이었다. 그런 질문일수록 응답률이 높았다"고 말했다. 실제 이를 실생활에서도 주변인들에게 사용해봤냐는 질문에 김 씨는 "이를테면 퇴근할 때쯤에는 '뭐해?'라기 보다는 '퇴근할 때 됐겠네?' 이런 식의 변화를 시도하게 됐다"고 답했다. '기술' 이야기로 시작한 인터뷰는 '관계'에 대한 이야기로 끝이 났다. AI챗봇과 대화하는 시대에 우리는 어떤 관계에 목말라 있는 걸까. 그리고 생각해보게 됐다. 우리는 지금 어떤 대화를 나누고 있나.