"금융권 AI 경쟁력위해 합성데이터 생성·활용 관심 필요"
챗 GPT로 대표되는 생성형 인공지능(AI)이 전 산업군에 큰 파장을 미칠 것으로 점쳐지는 가운데, AI 기술력을 키우기 위한 세계의 경쟁이 치열하다. 이 가운데 광범위한 데이터를 보유하고 있음에도 불구, 개인정보유출 리스크때문에 AI 기술 발전이 더딘 금융권의 AI 경쟁력 확보를 위해 합성데이터(재현자료)에 대한 관심이 필요하다는 주장이 나왔다. 20일 금융보안원이 서울 여의도 금융투자협회센터에서 연 '합성데이터 활용 세미나'에서 금융보안원 데이터혁신센터 AI데이터팀 박대영 책임은 "AI 활용에 있어 가장 중요한 데이터 경쟁력 확보를 위해 합성데이터 생성 및 활용에 대한 금융사의 관심이 필요하다"고 말했다. 합성데이터는 원본데이터의 통계적 특성 및 분포와 표본을 이용해 만들어진 원본과 유사한 인공데이터로 재현데이터라고도 불린다. 원본데이터는 실존하는 인물의 데이터라면 합성데이터는 이 세상에 존재하지 않는 가상인물에 대한 데이터인 것이다. 특히 합성데이터는 AI 학습데이터가 없거나 부족할 때나 개인정보 등을 포함하고 있어 직접 확보하거나 접근하기 어려운 데이터에 대한 대체 데이터로 활용된다. 박대영 책임은 "국내 금융권 역시 개인정보유출 리스크로 학습데이터가 부족하다"며 "합성데이터는 이를 극복하기 위한 좋은 해결책이 될 수 있다"고 설명했다. 학습데이터를 위해 현재 개인정보를 가명화 처리한 비식별데이터를 합성데이터와 비교했을 때, 개인정보노출 위험이 상대적으로 적다. 서울대학교 정성규 통계학과 교수는 "비식별자료도 실제 사람에 대한 정보이지만 합성데이터는 가상 인간의 자료이기 때문"이라며 "합성데이터는 없던 기록을 새로 만드는 것이기 때문에 개인정보 노출 위험에서 조금더 컨셉상으로 자유롭다고 볼 수 있다"고 덧붙였다. 하지만 아직까지 합성데이터가 완전한 익명데이터로 볼 수 있는지에 대해서는 정해진 것이 없다. 익명데이터로 분류될 경우 별도의 개인정보보호 처리나 활용 동의가 없어도 이용이 가능하지만 현재 기준으로는 애매모호한 상태다. 다만 합성데이터가 익명데이터인지 아닌지를 정의하기 위해서 합성데이터에 대한 유용성과 익명성을 충족했는지에 대한 검증 방안이 마련돼야 한다. 합성데이터가 전혀 쓸모가 없다면 AI 학습에 전혀 도움이 되지 않고, 개인정보를 포함한 원본데이터 직접 이용한 경우 합성데이터 모델을 통해서 세부 구조나 학습 방식이 공개될 경우 익명성이 보장되지 않기 때문이다. 박대영 책임은 "JP모건과 독일 보험사 '프로빈찌알(Provinzial)' 등 합성데이터를 활용하는 국외 금융권이 늘어나고 있는 상황"이라며 "금융권, 법률 데이터 및 AI 전문가들과 함께 유용성과 익명성 측정 지표를 이용해 세부 기준 및 검증 절차를 도출해야 한다"고 언급했다.