검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'합성데이터'통합검색 결과 입니다. (11건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

스카이인텔리전스, 글로벌 로봇 AI 데이터 시장 공략 속도

스카이인텔리전스가 투자금 유치를 계기로 가상 공간에서 로봇을 학습시키는 산업용 합성데이터 인프라 사업을 글로벌 시장으로 넓힌다. 스카이인텔리전스는 DS금융그룹 계열 DS투자파트너스로부터 시리즈A 투자를 유치했다고 11일 밝혔다. 이번 투자는 피지컬 인공지능(AI) 시장 확대로 산업용 로봇 AI 학습에 필수적인 합성데이터 인프라 중요성이 부각되는 가운데 회사 기술력과 성장 가능성을 높게 평가받은 결과다. 스카이인텔리전스는 디지털 트윈 기술을 기반으로 실제 산업 환경을 가상 공간에 구현하고 로봇 AI 학습에 필요한 고품질 합성데이터를 생성하는 기술을 개발하는 기업이다. 제조, 물류, 자동화 산업 전반에서 활용 가능한 AI 학습 데이터를 제공하며 글로벌 시장 진출을 확대하고 있다. 스카이인텔리전스는 이번 투자금을 활용해 산업용 합성데이터 플랫폼과 데이터 인프라를 고도화하고 글로벌 제조 및 로보틱스 시장으로 사업을 확대할 계획이다. 산업용 AI 학습에 필요한 핵심 데이터 자산을 축적하는 데도 집중한다. 이재철 스카이인텔리전스 대표는 "이번 투자 유치는 우리 기술력과 사업 비전을 시장이 인정한 의미 있는 이정표"라며 "산업용 합성데이터 기술을 고도화하고 글로벌 피지컬 AI 생태계 구축에 필요한 핵심 인프라 기업으로 성장하겠다"고 말했다.

2026.06.11 15:57이나연 기자

지란지교데이터, 국내 첫 합성데이터 개방 사업 수행…활용 기반 확대

지란지교데이터가 국내 최초 합성데이터 개방 구축 사업을 수행해 인공지능(AI) 시대 국가 데이터 활용 기반을 강화했다. 지란지교데이터는 국토교통부, 한국교통안전공단(TS), 한국지능정보사회진흥원(NIA)이 추진한 교통카드 합성데이터 개방 사업을 수행했다고 12일 밝혔다. 이번 사업은 합성데이터 기술을 활용해 교통카드 이용내역 데이터를 개방한 사례로, 공공과 민간의 대중교통 서비스 개선과 도시 교통 정책 수립을 지원하고 국가 차원의 데이터 활용 기반을 강화하기 위해 추진됐다. 특히 수도권 교통데이터를 합성데이터로 구축해 개방했던 선행 사업에 이어 본 사업을 통해 비수도권 지역의 교통데이터까지 확대해 활용 범위를 전국으로 넓힌 것이 특징이다. 지란지교데이터는 이번 사업에서 개방되는 데이터의 개인정보 유출 위험을 원천 차단하기 위해 원본 데이터의 통계적 특성은 유지하되 개인 식별 정보는 포함하지 않도록 실제 교통 이용 패턴을 정확히 반영하면서도 분석 신뢰도를 높인 고품질 합성데이터를 구축했다. 이를 통해 수도권과 비수도권을 아우르는 광범위한 교통 데이터를 민간에서도 안심하고 활용할 수 있는 환경을 조성했다. 지란지교데이터는 국내 최초 공개용 합성데이터 구축 사업 수행사로서 정형 데이터 분야의 높은 전문성을 입증했다고 강조했다. 자체 보유한 프라이버시 강화 기술(PET) 기술을 통해 이미지나 수기 문서 등 비정형 데이터 내 민감 정보까지 정밀하게 탐지하는 등 데이터의 안전한 보호와 실질적인 활용을 위한 다각적인 기술 지원도 이어가고 있다. 유병완 지란지교데이터 대표는 "국내 최초의 공개용 합성데이터 구축 사업을 성공적으로 완수해 공공 데이터 활용 기반 강화에 기여하게 돼 뜻깊다"며 "앞으로도 정형과 비정형 데이터를 아우르는 AI 기반 데이터 보호 기술력을 바탕으로 국가 데이터 산업 발전에 기여하겠다"고 밝혔다.

2026.02.12 11:20한정호 기자

"개인정보 노출 없이 AI 고도화"…클라우데라, '합성 데이터'로 승부수

기업의 인공지능(AI) 도입 가속화로 프라이버시 리스크가 최대 화두로 떠오른 가운데 클라우데라가 '합성 데이터'를 해법으로 제시했다. 민감 정보 의존도를 낮추는 동시에 AI 모델의 성능을 고도화할 수 있는 관리 체계를 제안하며 보안과 혁신 사이에서 고민하는 기업 시장 선점에 박차를 가하는 모습이다.클라우데라는 기업 리스크 감소를 위한 도구로 합성 데이터를 꼽으며 이에 대한 체계적인 관리, 운영을 통해 데이터 노출을 줄이면서 AI 개발을 지속할 수 있다고 27일 강조했다. 최근 AI가 기업 운영 전반에 깊숙이 통합되면서 대규모언어모델(LLM)은 고객 지원, 데이터 분석, 개발자 생산성, 지식 관리 등 다양한 업무에 활용되고 있다. 여기에 AI 에이전트까지 부상하며 AI는 정보를 검색하고 추론하는 것을 넘어 실질적인 업무를 수행하는 단계로 진화하고 있다. 그러나 AI 활용이 확대될수록 프라이버시 리스크에 대한 우려도 제기된다. AI 모델의 성능 향상에 필요한 데이터는 민감 정보를 포함하고 있기 때문이다. 지원 대화 기록, 거래 내역, 운영 로그 등 개인식별정보(PII), 규제 대상 정보, 기업 고유의 비즈니스 맥락이 포함되는 경우가 많다. 합성 데이터는 실제 데이터셋의 핵심 패턴을 반영하면서도 실제 기록을 재현하지 않도록 알고리즘으로 생성된 데이터로, 기업은 이를 통해 민감한 정보 노출을 줄이면서도 AI 개발과 테스트를 진행할 수 있다. 클라우데라 관계자는 "합성 데이터는 단순한 테이블 데이터 생성 단계를 넘어 진화했다"며 "현재 기업들은 원본 데이터를 사용하지 않고도 실제 업무 흐름의 구조를 반영한 합성 인스트럭션 데이터, 합성 대화 데이터, 합성 인시던트 티켓, 합성 질의응답 데이터를 생성할 수 있다"고 설명했다. 이 같은 상황에 맞춰 클라우데라는 기업들이 AI 도입 과정에서 겪는 실질적인 기술적 난제를 해결할 세 가지 핵심 분야로 합성 데이터 활용처를 구체화했다. 우선 기업용 AI의 완성도를 결정짓는 '도메인 특화 미세조정(SFT)'이 가장 먼저 꼽힌다. 기업은 자사 고유의 정책이나 제품 카탈로그 등을 AI가 정확히 학습하길 원하지만, 정작 학습에 필요한 내부 데이터는 민감 정보가 섞여 있어 활용에 제약이 많았다. 클라우데라가 제시한 합성 데이터는 실제 데이터의 구조와 의도를 완벽히 재현하면서도 개인정보 노출 위험은 제거해 보안과 성능이라는 두 마리 토끼를 잡았다는 평가를 받는다. AI 상용화의 고비마다 발목을 잡던 '모델 평가' 방식에도 변화가 예상된다. 그간 기업들은 AI 모델의 오류나 컴플라이언스 위반 여부를 확인하기 위해 수작업으로 테스트 세트를 구축해 왔으나, 이는 막대한 시간과 비용이 소요되는 '병목 구간'이었다. 클라우데라는 합성 데이터를 통해 엣지 케이스와 오류 시나리오를 자동 생성함으로써 수동 방식보다 훨씬 빠르고 정교한 검증 체계를 구축할 수 있게 했다. 최근 시장의 화두인 '검색증강생성(RAG)'과 'AI 에이전트'의 고도화에도 합성 데이터가 투입된다. AI가 스스로 정보를 찾고 업무를 수행하려면 정교한 큐레이션 데이터가 필수적이다. 클라우데라는 다단계 상호작용이 포함된 합성 데이터를 통해 AI의 도구 활용 능력을 철저히 검증, 실제 고객의 민감한 대화 데이터를 입력하지 않고도 에이전트의 성능을 최적화하는 경로를 제시하고 있다. 세르지오 가고 클라우데라 최고기술책임자(CTO)는 "합성 데이터는 체계적으로 관리될 때 개인정보 노출을 줄이면서 모델 개발을 진행할 수 있는 리스크 감소 도구"라며 "LLM과 에이전트 AI 배포가 확대되면서 합성 데이터는 민감한 개인정보에 대한 의존도를 낮추는 현실적인 경로가 될 것"이라고 말했다. 최승철 클라우데라코리아 지사장은 "최근 연쇄적인 대형 데이터 유출 사고가 이어지면서 국내 기업들은 철저한 데이터 보안을 준수하면서 AI 혁신을 추진해야 하는 과제를 안고 있다"며 "합성 데이터는 데이터 보안 리스크를 최소화하면서도 AI 경쟁력을 확보할 수 있는 전략 수단이 될 것"이라고 강조했다.

2026.01.27 15:32장유미 기자

"전세사기 막고 소상공인 대출 연다"…가명정보의 '무한 변신'

정부가 민간과 손잡고 가명정보를 활용해 사회 난제 해결에 착수했다. 과학기술정보통신부는 30일 서울 더플라자호텔에서 '2025 가명정보 활용 경진대회' 시상식을 개최했다. 개인정보보호위원회, 보건복지부, 금융위원회와 함께 연 이번 대회는 가명정보 활용에 대한 인식을 높이고 새로운 가명처리 기술 발굴을 촉진하기 위해 마련됐다. 이번 대회에는 공공기관, 지자체, 기업, 학계 등 다양한 분야에서 총 78개팀이 참가했다. 치열한 경쟁 끝에 심사위원단의 평가를 거쳐 기술 부문 4개팀 활용 부문 20개팀 등 총 24개팀이 수상자로 선정됐다. 총상금 규모는 3천만원에 달한다. 기술 부문 대상은 중앙대학교 소속 '흑석동 물주먹팀'에게 돌아갔다. 이 팀은 의료 상담 음성 데이터 같은 비정형 데이터에서 특정 개인을 알아볼 수 있는 특이정보를 효과적으로 처리했다. 개인 식별 위험은 낮추면서 데이터의 유용성은 최대한 살리는 가명처리 기술로 높은 평가를 받았다. 활용 부문에서는 사회 문제를 해결한 5개팀이 대상의 영예를 안았다. '서울시 전세사기 예방팀'은 서울시의 전세사기 피해 정보와 코리아크레딧뷰로(KCB)의 임대인 신용정보를 결합했다. 이를 통해 머신러닝 기반의 전세사기 위험 예측 모형을 개발해 주목받았다. 서울시는 이 모형을 향후 '고위험 임대인 경고 시스템' 구축에 활용할 계획이다. '넥스트 카고팀'은 항만 컨테이너 정보와 화물차 고속도로 통행정보를 결합해 국가 물류 흐름을 분석했다. 개별적으로 관리되던 육상과 해상 물류 데이터를 유기적으로 연계해 컨테이너 화물차 안전사고 대응과 수출입 화물 통합 관리에 기여할 방침이다. '120다산콜재단 스마트전산부'는 연간 약 300만 건에 이르는 전화 민원 음성을 실시간 문자로 변환하고 이를 가명 처리해 인공지능(AI) 학습에 썼다. 그 결과 'AI 상담도우미'의 민원 유형 분류와 응대 매뉴얼 추천 기능이 고도화돼 서비스 품질 개선이 기대된다. 'NH농협은행 빅데이터사업팀'은 금융거래 정보와 NICE평가정보의 신용정보 LG유플러스의 통신정보를 융합했다. 세 가지 데이터를 분석해 경제적 취약성, 사회 단절성 등을 점수화하는 '시니어 고립 위험 탐지 모델'을 만들었다. 고립 위험이 높은 어르신을 선제적으로 찾아 복지정책을 지원하는 데 쓰일 예정이다. '켑코-케이비즈-케이씨비(KEPCO-KBIZ-KCB팀)'은 소상공인 전용 대안신용평가모형을 선보였다. 한국전력공사의 전기 이용 정보, 중소기업중앙회의 노란우산 공제기금 정보놔 코리아크레딧뷰로의 신용정보를 합쳤다. 금융 이력이 부족해 대출이 어려웠던 소상공인들에게 새로운 금융 기회를 제공할 것으로 전망된다. 배경훈 과학기술정보통신부 장관은 "AI의 핵심 연료인 양질의 데이터를 활용하기 위해선 가명처리 기술이 무엇보다 중요하다"며 "과기정통부는 AI 선도 부처로서 관련 핵심 기술들을 공유하고 함께 발전해 나갈 수 있도록 앞장서겠다"라고 밝혔다.

2025.09.30 16:49조이환 기자

[AI 리더스] 펀진 "국방, 외산 AI에만 맡길 수 없다…'AI 주권'으로 K-방산 완성할 것"

"외산 장비에 우리 국방 데이터를 학습시키는 건 우리의 안보 비밀을 외국의 민간 회사에 고스란히 넘겨주는 것과 같습니다. 기술 종속은 결국 국방 주권의 상실로 이어질 수밖에 없습니다." 김득화 펀진 대표는 최근 기자와의 인터뷰에서 이같이 말하며 'AI 주권' 확보가 K-방산의 미래를 결정할 핵심 과제라고 단언했다. 전 세계적으로 국방 분야의 AI 도입 경쟁이 치열해지는 가운데 단순히 성능 좋은 AI를 넘어 '우리 손으로 만든 AI'가 필요한 이유를 역설한 것이다. 7일 업계에 따르면 대한민국은 'AI 국방'이라는 거대한 전환기 앞에 서 있다. 그 가운데 실전 경험 부재에서 오는 데이터 부족과 최고 수준의 보안이 요구되는 환경이 우리 군이 처한 딜레마로 작용하고 있다. 이러한 상황 속에서 펀진은 지난 수년간 오직 '국방 AI'라는 한 우물만 파며 K-방산의 두뇌를 설계하는 데 집중해왔다. 지휘관의 판단을 돕는 지휘결심체계부터 AI 학습의 기반이 되는 합성데이터 플랫폼까지 국방 AI의 시작과 끝을 아우르는 '풀스택(Full-stack)'을 구축하며 군의 핵심 파트너로 신속히 부상하고 있는 것이다. 펀진의 궁극적 목표는 'AI 참모'를 만드는 것이다. 전장의 복잡성과 불확실성 속에서 지휘관의 눈과 귀가 되고 최적의 결심을 돕는 AI를 구현하겠다는 구상이다. 그 중심에는 펀진의 대표 기술인 '초거대 킬웹매칭(KWM)'이 있다. 단순한 외산 기술의 모방이 아닌 한반도 전장 환경에 최적화된 AI를 통해 'AI 주권'을 이루겠다는 청사진이다. '데이터 없어서 못해요'는 변명…'프로토타입'으로 군의 마음 열었다 김 대표에 따르면 국방 AI 개발의 가장 큰 장벽은 '데이터'다. 평시에는 가장 중요한 적 데이터를 확보할 수 없고 아군 데이터는 외부 유출이 불가능한 최고 등급의 보안 자산이다. 대부분의 AI 기업이 이 현실의 벽 앞에서 좌초하지만 펀진은 역발상으로 접근했다. 데이터가 없다는 현실을 불평하는 대신 이를 사업의 출발선으로 삼은 것이다. 김 대표는 "우리는 '데이터가 없어서 못한다'는 말 대신 '데이터가 없지만 이런 방법으로 할 수 있다'는 해결책을 먼저 제시한다"며 "군의 현실을 100% 인정하고 문제를 함께 해결할 동반자가 되는 방식을 택했다"고 말했다. 이러한 방향성의 핵심 전략은 '선제적 프로토타입 개발'이다. 펀진은 사업 초기부터 군 관계자들이 작전 전문가는 될 수 있어도 소프트웨어 전문가는 되기 어렵다는 점을 간파했다. 이 때문에 구체적인 요구사항(ROC)이 나오길 기다리기보다 먼저 시제품을 만들어 보여주는 방식을 택했다는 것이 김 대표의 설명이다. 그는 "AI라는 것이 막연할 수밖에 없다"며 "이에 우리가 먼저 프로토타입을 만들어 '이렇게 활용하시면 되지 않겠습니까'라고 보여드리며 대화를 시작했다"고 설명했다. 이어 "눈에 보이는 결과물이 있으니 소통이 훨씬 명확해질 수 밖에 없었다"고 말했다. 이러한 '동반자적 접근'은 단순한 기술 공급사와 고객의 관계를 넘어 군과의 깊은 신뢰를 구축하는 기반이 됐다. 데이터부터 달라고 요구하는 대신 군의 고충을 이해하고 해결책을 함께 고민하는 펀진의 모습에 군 관계자들은 열광했다는 설명이다. 김 대표가 강연회에 참석할 때마다 군복 입은 장교와 연구원들이 줄을 서서 명함을 건네는 것은 이제 흔한 풍경이 됐다. 행사장에 갈때마다 군 간부들로부터 '정보병과 출신이냐'는 질문을 받을 정도로, 그의 접근 방식은 군의 깊은 신뢰를 얻는 핵심 비결이 됐다. 펀진의 철학은 기술에도 그대로 녹아있다. 데이터가 거의 없는 극초기 단계에서는 수십 장의 이미지만으로도 학습이 가능한 '퓨샷러닝(Few-shot Learning)' 기술을 적용하고 어느 정도 데이터가 확보되면 합성데이터 플랫폼 '이글아이(EagleEye)'를 통해 수만 장의 가상 데이터를 생성해 AI의 완성도를 높인다. '데이터 가뭄'이라는 국방 분야의 고질적인 문제를 정면으로 돌파하는 펀진만의 독자적인 해법인 셈이다. 'AI 참모'의 진화…눈을 넘어 '전파 전쟁'으로 펀진이 구축하는 'AI 참모'의 심장은 '초거대 KWM(Kill-Web Matching)'이다. 이는 감시·정찰 자산을 통해 들어온 위협 정보를 AI가 실시간으로 분석하고 가장 효과적인 공격 시나리오와 무기체계를 지휘관에게 추천하는 지휘결심지원체계다. 전장의 모든 변수를 통합 분석해 인간 지휘관이 최적의 결정을 내리도록 돕는 역할을 수행한다. 최근 이 AI 참모는 중대한 진화를 맞이하고 있다. 전장의 주도권이 '보이는 것'에서 '보이지 않는 것'으로 넘어왔기 때문이다. 김 대표는 "과거의 전장이 눈에 보이는 적과의 싸움이었다면 우크라이나 전쟁 이후 현대전은 보이지 않는 전파와의 전쟁이 됐다"고 진단했다. 이어 "적이 우리 눈에 보였다면 이미 상황은 끝난 것이나 마찬가지"라고 설명했다. 이러한 상황 변화는 펀진의 기술 개발 로드맵이 가시광선 센서를 넘어 전자전(Electronic Warfare)으로 빠르게 확장된 이유다. 그 구체적인 결과물이 바로 'KWM-오셀롯(Ocelot)'이다. 소형 드론에 AI 분석 시스템을 탑재해 적의 통신 교란이나 전파 활동을 실시간으로 탐지하고 그 위치를 정확히 추적하는 '지능형 정찰기'다. 이 솔루션은 자체 실증에서 평균 오차 8.5미터 이하의 높은 정밀도를 입증하며 육군 AI 아이디어 공모전에서 대상을 수상하고 기술력을 인정받았다. 펀진의 도전은 여기서 그치지 않는다. 현재 회사는 한국항공우주(KAI), 한화시스템 등 국내 최고의 방산업체들과 함께 총사업비 1조8천억원 규모의 공군 전자전기 사업에 참여하고 있다. 일명 '한국형 그라울러' 개발로 불리는 이 프로젝트에서 펀진이 맡은 역할은 기체가 아닌 그 안에 탑재될 핵심 'AI 두뇌'다. 김 대표는 "적의 레이더 신호가 포착됐을 때 인간이 수십 초에 걸쳐 분석하고 대응할 과정을 AI가 수초 내로 단축시키는 것이 핵심"이라며 "이는 가장 치명적인 위협 신호를 식별하고 무력화할 최적의 재밍(전파 교란) 신호를 AI가 추천하는 것"이라고 말했다. 이어 "이는 곧 유사시 적의 레이더와 통신망을 무력화해 전장의 눈과 귀를 완벽히 멀게 만드는 것"이라고 설명했다. 'AI 주권' 위한 제언…"낡은 제도로는 AI 못 담는다" 펀진이 그리는 궁극적인 청사진은 단순히 하나의 성공적인 AI 솔루션을 넘어 대한민국 국방 AI 생태계 전반을 아우른다. 회사는 전군(全軍)의 모든 제대에 최적화된 'AI 두뇌'를 공급하는 '풀스택(Full-stack)' 라인업 구축을 목표로 하고 있다. 구체적으로는 사단급 이상 부대의 지휘통제체계(KCCS)를 위한 '클라우드 AI', 야전 지휘관과 유무인 복합전투체계(MUM-T)를 위한 '엣지(On-premise) AI', 그리고 최전선에서 군집 드론이나 무인 로봇을 운용할 '온디바이스(On-device) AI'까지, 전장의 모든 단계에 펀진의 기술을 심겠다는 구상이다. 이러한 비전을 실현하기 위해 넘어야 할 다음 기술적 과제도 명확히 했다. 바로 '국방용 피지컬 AI(Physical AI)'의 확보다. 이미지 데이터를 생성하는 '이글아이'처럼 전자전 시대에는 눈에 보이지 않는 전파 데이터를 생성하고 물리 세계를 이해하는 AI가 필수적이기 때문이다. 김 대표는 이를 개별 기업의 힘만으로는 불가능한 국가적 과제라고 강조했다. 그는 "이미지 생성과 전파 생성은 기술적으로 완전히 다른 영역"이라며 "전투체계에 맞는 국방용 물리 AI 기술 개발이 시급하며 이를 위해서는 과기부와 국방부가 이해를 갖고 적극적으로 투자해야만 한다"고 역설했다. 기술 개발과 함께 시급히 해결해야 할 문제로 김 대표는 '낡은 국방 획득 제도'를 꼽았다. 하드웨어 중심으로 설계되어 최소 5년에서 15년까지 걸리는 현재의 제도로는 급변하는 AI 소프트웨어 기술을 제때 도입하는 것이 불가능하다는 지적이다. 김 대표는 그 해법으로 미국의 '신속집행권한(OTA)'과 같은 제도 도입이 시급하다고 제언했다. 그는 "AI나 양자 같은 최첨단 기술은 지금의 5개년 계획에 따라가다 보면 골든타임을 놓치게 된다"며 "소프트웨어의 빠른 발전에 맞는 새로운 계약 방식과 제도가 절실하다"고 호소했다. 결국 펀진의 모든 기술적 도전과 제도적 제언은 'AI 주권'으로 귀결된다. 외산 기술에 종속되지 않고 우리 군의 현실에 맞는 AI를 우리 손으로 만들어야만 진정한 K-방산이 완성될 수 있다는 주장이다. 김 대표는 "궁극적으로 전장에서 AI가 싸우는 시대가 올 것"이라며 "그때 우리 기술로 우리를 지킬 수 있도록 'AI가 싸우는 전자전'의 시대를 선도하는 것이 우리의 목표"라고 밝혔다.

2025.09.07 11:49조이환 기자

가트너 "합성 데이터 사용도 전략 필요…수익성 따져야"

소프트웨어(SW) 테스트와 개인정보 규제 대응 수단으로 주목받는 합성 데이터가 확산하고 있지만, 기업 목표와 자원에 맞춘 전략적 도입이 필요하다는 지적이 나왔다. 7일 가트너가 공개한 보고서에 따르면 SW 엔지니어링 리더들이 합성 데이터를 이런 이유로 맞춤형 전략을 촉구하고 있는 것으로 전해졌다. 그동안 SW 개발자는 실데이터를 가공해 SW 품질 테스트에 활용해 왔다. 유럽 일반 개인정보 보호법(GDPR)이나지불카드 산업 데이터 보안 표준(PCI-DSS) 등 개인정보 규제 강화로 인해 실데이터 사용이 제한되고 있다. 이처럼 데이터 접근이 어려운 상황에서는 합성 데이터가 안전하고 효과적인 대안이 될 수 있는 것이다. 보고서는 합성 데이터가 보안·신뢰성·맞춤성에서 강점을 갖는다고 강조했다. 생성 기법에 따라 데이터 구조와 속성을 통제할 수 있으며 특정 고객군이나 희귀 사례, 신규 기능까지 다양한 시나리오를 실험할 수 있다는 설명이다. 특히 인공지능(AI)·머신러닝(ML) 개발에서도 합성 데이터 활용도가 큰 것으로 알려졌다. 기존보다 균형 잡힌 학습 데이터를 공급할 수 있으며, 엣지 케이스나 드문 상호작용도 재현 가능해서다. SW 엔지니어링 리더들은 합성 데이터가 테스트 자동화를 위한 CI/CD 파이프라인과도 쉽게 통합된다고 입을 모았다. 개인정보 보호, 데이터 구조 불일치, 데이터 부족 등의 문제를 해결할 수 있어 실제보다 효율적인 테스트 환경을 구축할 수 있다고 밝혔다. 가트너는 합성 데이터의 무조건적인 활용은 금물이라고 당부했다. 데이터 모델이 비공개된 시스템이나 단순 테스트에는 오히려 오버엔지니어링이 될 수 있으며, 팀 내부의 심리적 저항도 고려해야 한다고 설명했다. 가트너는 4가지 주요 합성 데이터 생성 기법을 제시했다. 비즈니스 규칙 기반 방식, 생성적 적대 신경망(GAN), 대형언어모델(LLM), 변분 오토인코더(VAE) 등을 조합해 활용 영역에 맞춰 선택해야 한다고 밝혔다. 예를 들어 GAN은 이미지나 음성 같은 비정형 데이터를 만들 때 적합하며, LLM은 보안 보고서나 사용자 피드백을 재현하는 데 유용하다. VAE는 전자상거래용 고객 기록처럼 구조화된 데이터에 효과적인 것으로 알려졌다. 기술 선택 외에도 가트너는 합성 데이터 도입의 투자수익률(ROI)와 순현재가치(NPV)를 정밀하게 평가하라는 제안도 나왔다. 이를 위해 내부 재무팀과 협업해 할인율 등 기준을 사전 조율해야 한다고 설명이다. 가트너는 "합성 데이터 투자의 수익은 결함 감소, 출시 시간 단축, 테스트 효율화, 품질 향상 등으로 이어진다"며 "조직의 목표와 리소스를 고려해 맞춤형 도입 전략을 수립하라"고 조언했다.

2025.09.07 11:05김미정 기자

[AI 리더스] 엔닷라이트, '움직이는 CAD'로 설계 한계 돌파…로봇 AI 진화 앞당긴다

"제품 하나를 디자인하려면 기획, 스케치, 실제 설계를 수없이 반복해야 했습니다. 시간과 비용이 엄청났죠. 이에 우리는 텍스트나 이미지 한 장이면 인공지능(AI)이 '실제 작동하는' 3D 설계도를 순식간에 만들어내도록 했습니다. 제품 설계 자동화가 로봇 AI 학습에 필요한 데이터 생성까지 한 번에 해결하는 시대를 연 것입니다." 김선태 엔닷라이트 공동창업자 겸 최고기술책임자(CTO)는 최근 기자와의 인터뷰에서 이같이 선언했다. 그의 말에는 3D 기술로 산업 현장의 가장 본질적인 문제를 정면으로 돌파하고 있다는 자신감이 묻어났다. 21일 업계에 따르면 AI 기술의 발전에도 불구하고 로보틱스나 디지털 트윈 등 복잡한 산업에 즉시 적용 가능한 '고품질 3D 데이터'가 절대적으로 부족해 AI 전환이 더딘 상황이다. 이러한 과제를 해결하기 위해 지난 2020년 설립된 AI 기반 3D 기술 기업 엔닷라이트가 독자적인 해법을 제시하며 주목받고 있다. 엔닷라이트의 접근법은 보기 좋은 이미지를 만드는 수준을 넘어선다. 실제 제조와 시뮬레이션이 가능한 컴퓨터 지원 설계(CAD) 데이터를 AI로 직접 생성하는 데 집중하는 것이다. 핵심 솔루션 '트리닉스(TRINIX)'는 이 설계 자동화 기술을 AI 학습용 합성 데이터 생성과 결합해 산업 현장의 오랜 병목 현상을 해결하고 있다. '설계 노가다'의 종말…디자이너는 창의력에 '집중' 엔닷라이트가 가장 먼저 정조준한 문제는 전통적인 제품 설계 과정의 고질적인 비효율성이었다. 기획과 스케치, 엔지니어의 CAD 도면 작업을 오가는 과정은 최소 수 주에서 수개월이 걸리는 지난한 반복 작업이었다. 이 회사의 '트리닉스'는 이 해묵은 과제를 AI로 자동화한다. 사용자가 "슬라이딩 도어가 있는 금속 캐비닛을 만들어줘" 같은 자연어 텍스트나 이미지를 입력하면 AI가 이를 해석해 곧바로 제조 가능한 3D CAD 모델을 생성하는 식이다. 김 CTO는 "단순히 외형만 흉내 내는 것이 아니라 부품 계층 구조와 물리적 작동이 가능한 관절까지 포함된 진짜 산업용 설계 결과물을 만들어낸다"고 설명했다. 트리닉스의 강점은 여기서 그치지 않는다. 한번 생성된 모델을 사용자가 다시 '편집'할 수 있다는 점은 기존 생성형 AI와 차원을 달리하는 지점이다. 김 CTO는 "보통의 생성형 AI는 한번 결과물을 만들면 그걸로 끝이지만 우리는 AI와 대화하듯 설계를 발전시킬 수 있다"며 "일례로 AI에게 '밸브 핸들이 2개인 3D 모델'을 생성하게 한 뒤 그 결과물을 보고 '이 모델에서 핸들만 3개로 늘려줘'라고 텍스트로 추가 요청하면 다른 부분은 그대로 둔 채 핸들만 3개로 즉시 수정해준다"고 설명했다. 이러한 '대화형 수정' 기능은 사용자의 세밀한 요구사항을 즉각적으로 반영할 수 있게 한다. 매번 처음부터 다시 모델링해야 하는 수고를 덜어줘 디자인의 완성도를 높이는 시간과 비용을 획기적으로 줄여주는 것이다. "가위는 접히고, 텀블러 뚜껑은 열려야"…진짜 시뮬레이션의 '시작' 이같이 트리닉스가 생성하는 3D 모델의 핵심은 모든 부품이 개별적으로 분리되고 경첩이나 서랍의 슬라이딩 같은 관절 구조를 포함하는 데 있다. 이 덕분에 안경이 접히고 가위가 교차하며 전자레인지 문이 열리는 등 실제 제품과 동일하게 작동하는 '살아있는' 3D 모델 생성이 가능해진 것이다. 이 시뮬레이션 가능한 데이터는 로봇 AI 학습에 결정적인 역할을 한다. 로봇이 현실 세계에서 다양한 물체를 조작하는 법을 배우려면 수많은 형태의 데이터가 필요하다. '트리닉스'는 원본 데이터 하나만으로 수만 가지 변형된 형태의 '움직이는' 3D 데이터를 대량 생성해 로봇을 훈련시킬 수 있다. 김 CTO는 "제품 설계 자동화가 로봇 AI 학습에 필요한 3D 시뮬레이션 데이터 생성까지 한번에 해결하는 것"이라며 "이것이 바로 두 기술이 만나는 핵심 지점"이라고 밝혔다. 더불어 "이 모든 과정의 자동화는 결국 디자이너와 엔지니어들이 반복적인 '노가다' 업무에서 해방돼 더 창의적인 기획에 집중하게 만든다"며 "사람을 대체하는 것이 아니라 생산성을 극대화해 더 나은 제품을 더 빨리 만들도록 돕는 것이 기술의 핵심"이라고 강조했다. 엔비디아도 인정한 기술력…산업계 전반으로 확장되는 협력 엔닷라이트의 기술력은 이미 글로벌 최고 파트너사와의 협력으로 증명되고 있다. 특히 엔비디아와의 인연은 지난 2022년부터 이어져 온 깊은 신뢰 관계에 기반한다. 이 회사의 스타트업 지원 프로그램 '인셉션'에 합류한 이후 엔닷라이트는 자체 3D 엔진을 엔비디아 '옴니버스'와 연동하며 기술을 고도화했다. 특히 김 CTO는 지난 3월 미국에서 열린 엔비디아의 연례 개발자 콘퍼런스 'GTC 2025'에서 참가해 극소수의 국내 스타트업만 참여한 포스터 세션에서 '트리닉스'의 합성 데이터 생성 기술을 발표했다. 그는 "당시 현장에서 대부분의 합성 데이터 기술이 2D 이미지 기반이었다"며 "우리는 3D 모델의 메시 레벨에서 직접 결함을 생성하고 시뮬레이션하는 방식을 보여 다들 크게 놀라워했다"고 말했다. 이같은 기술력을 바탕으로 엔닷라이트는 국내 유수의 제조, 로보틱스 등 분야의 핵심 기업들과의 협력을 넘어 최근에는 국방, 의료, 물류 등 다양한 산업으로까지 협력 논의를 빠르게 확장하고 있다. 여러 산업 분야의 리딩 기업들이 먼저 협업을 요청해오고 있을 정도다. 동시에 회사는 3D 데이터 기반의 협업 솔루션 '서피(Surfee)'도 제공한다. '트리닉스'로 생성된 CAD 모델을 웹상에서 여러 사람이 함께 보며 실시간으로 피드백을 주고받는 도구다. 이를 통해 디자이너와 엔지니어, 기획자 간의 소통 비용을 획기적으로 줄여 전체 개발 워크플로우를 완성한다. 김 CTO는 "창업 초기부터 꿈꿔온 '3D 콘텐츠의 대중화'를 AI로 실현하고 있다"며 "설계의 장벽을 허물어 만든 데이터가 다시 산업 AI를 발전시키는 선순환을 통해 모든 산업의 지능화를 앞당길 것"이라고 강조했다.

2025.07.21 11:18조이환 기자

오브젠, 금융 이상거래 AI 개발…"합성데이터로 실거래 없이 학습"

오브젠이 인공지능(AI) 기반 금융 보안 기술의 실효성을 끌어올리기 위한 합성데이터 구축에 착수했다. 실제 금융사 대응 시나리오를 반영한 데이터로 민감정보를 활용하지 않으면서도 탐지 정밀도를 확보하려는 의도다. 오브젠은 최근 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 추진하는 '2025년도 초거대 AI 확산 생태계 조성사업'에서 금융 분야 과제 수행자로 선정돼 협약을 체결했다고 9일 밝혔다. 해당 과제는 오는 12월까지 타임게이트가 주관하고 오브젠과 금융결제원 등이 참여한다. 이번 프로젝트는 ▲고객 상담 데이터 구축 ▲이상거래 탐지를 위한 거래정보·사용자 패턴 기반 합성데이터 구축 등 두 개 하위 과제로 구성됐다. 오브젠은 이 중 후자의 과제를 맡아 거래 유형별 이상거래 시나리오를 설계하고 50만 건 이상의 학습용 합성 데이터를 제작한다. 사업의 핵심은 오브젠이 자체 개발한 AI 통합 솔루션 '오브젠 스마트AI'의 데이터 저작 기능이다. 회사는 이 기능을 활용해 실제 금융기관의 이상거래 탐지 흐름과 유사한 구조의 합성 데이터를 설계하고 설명 가능성과 탐지 성능을 동시에 확보한다는 계획이다. 오브젠은 해당 과제를 통해 개인정보를 포함하지 않는 안전한 AI 학습 기반을 구축하는 동시에 고도화된 이상거래 대응 체계의 기반을 마련할 계획이다. 데이터가 성공적으로 구축될 경우 금융 AI 모델의 신뢰성과 검증 가능성을 입증하는 대표 사례가 될 수 있다는 기대도 나온다. 최근 비대면 금융거래가 급증하면서 이상거래와 금융사기에 대한 조기 탐지 수요가 커지고 있지만 개인정보 보호 규제로 실제 데이터를 활용한 AI 학습에는 한계가 있다. 이 틈을 메우기 위한 현실적인 대안으로 '합성데이터'가 주목받는 상황이다. 다만 금융 데이터는 구조가 복잡하고 민감성이 높아 기술적 난이도가 상당하다. 실제로 AI허브에 등록된 915종 데이터 중 금융 분야는 3종뿐으로, 합성데이터는 오브젠이 만든 사례가 유일하다. 윤은영 오브젠 AI연구소 소장은 "금융사에서 발생하는 이상 거래 유형을 반영한 시계열 기반의 합성데이터를 구축해 모델의 현장 적용 가능성과 탐지 정확도를 높이겠다"며 "합성데이터 활용 가이드라인을 기반으로 한 구축 사례를 창출해 금융 데이터 활용의 모범 사례를 제시하고 공공 AI 데이터 생태계의 확산에 기여하겠다"고 밝혔다.

2025.07.09 10:01조이환 기자

[인터뷰] 브로드컴도 탐냈던 SAS, AI 덧입고 기업 가치 ↑…디팍 부사장 "내년엔 상장"

"2026년에는 상장할 겁니다." 한 때 브로드컴 매각설이 돌던 미국 데이터 분석 소프트웨어(SW) 기업 SAS가 창립 50주년을 맞는 내년에 반드시 상장의 꿈을 이루겠다는 의지를 드러냈다. 2021년부터 꾸준히 상장 계획을 드러냈으나, 오랜 기간 동안 비상장기업으로 운영됐던 탓에 회계 및 재무 시스템 정비, 내부 통제 시스템 구축 등에 많은 시간이 소요되자 상장 시기를 그간 차일피일 미뤄 왔다. 하지만 최근 들어 SAS는 신사업 확장을 통해 기업 가치를 끌어 올려 덩치를 키우겠다는 야심을 내비치기 시작했다. 소프트웨어 산업 내 최대 규모 비상장 기업으로 주목 받고 있지만, 생성형 인공지능(AI) 시대 도래로 기업의 생존을 위해선 변화가 필요해졌기 때문이다. 디팍 라마나단 SAS 글로벌 기술 프랙티스 부문 부사장은 10일 서울 여의도 페어몬트 앰배서더 호텔에서 개최된 'SAS 이노베이트 온 투어 서울 2025'에 참석한 후 기자와 만나 "50년간 사기업으로 운영됐던 기업 입장에선 상장을 준비하기 위해 많은 준비가 필요했다"며 "현재도 관련 작업이 진행 중으로 내년쯤에는 마무리 되지 않을까 싶다"고 말했다. 1976년 설립된 SAS는 데이터 분석 분야의 전통 강자이자 대표적 비상장 소프트웨어 기업으로, 포천 500대 기업의 상위 50곳 중 92%를 고객사로 확보하고 있다. 또 대표 솔루션인 데이터 플랫폼 'SAS 바이야(Viya)'를 통해 데이터 분석과 시각화, AI 기능 등을 제공하고 있다. 앞서 SAS는 지난 2021년 브로드컴에 150억~200억 달러(약 17조~23조원)의 가치를 인정 받아 인수될 뻔 했으나, SAS 공동창업자인 짐 굿나잇과 존 샐의 변심으로 거래가 무산됐다. 이후 보름여 만에 SAS는 IPO 추진 발표를 내놨으나, 미국 증권거래위원회(SEC)가 정한 회계 기준을 충족하기 위한 준비 작업에 다소 어려움을 겪으면서 상장에 계속 나서지 못했다. 하지만 기업 가치를 끌어 올리기 위한 사업 확장 움직임에는 거침 없었다. 최신 기술 트렌드에 발 맞춰 새로운 솔루션을 꾸준히 선보였던 상태로, AI 기능과 고급 분석 소프트웨어(SW)·솔루션에 대한 상당 규모 투자를 이어가며 변화해 왔다. 2019년과 2023년에는 데이터 분석과 의사결정을 고도화 할 수 있는 기술을 개발하기 위해 AI에 대한 10억 달러(약 1조4천억원)의 투자계획을 각각 발표해 주목 받기도 했다. 그 결과 매년 연매출은 30억 달러(약 3조4천500억원)를 상회하며 꾸준한 성장세를 보이고 있다. 또 설립 이후 적자를 기록한 적이 없는 건실한 기업으로도 유명세를 떨치고 있다. 특히 올해부터는 '에이전틱 AI'와 '디지털 트윈', '퀀텀 AI' 분야에 역량을 집중하며 신규 사업 준비에 박차를 가하는 분위기다. 또 최근 각광 받고 있는 '합성 데이터'에도 높은 관심을 보이고 있는 상태로, 이 사업을 강화하기 위해 지난해 4분기에는 영국 합성 데이터 솔루션 기업 '헤이지'를 인수하기도 했다. 디팍 부사장은 "최근 인수한 회사와 연계해 우리가 가진 강력한 통계 분석 플랫폼 위에 합성 데이터를 쉽게 응용할 수 있도록 한 'SAS 데이터 메이커'를 조만간 출시할 것"이라며 "합성 데이터가 공공, 금융뿐 아니라 최근에는 디지털 트윈을 도입하려는 제조 산업에서도 각광 받고 있는 만큼 향후 성장성이 크다고 본다"고 말했다. 그러면서 "실제 합성 데이터를 이용하면 기존 데이터보다 머신러닝(ML) 모델의 정확도를 28%나 높여주는 사례가 나올 정도로 생산 효율성도 높여준다"며 "개인 정보 등 민감 데이터를 개발자에게 쉽게 전달하기 어려운 산업, 기업, 기관 등이 합성 데이터를 적용해 좀 더 정확도 높은 AI 시스템을 구축하려는 모습을 보이고 있다"고 설명했다. 또 SAS는 올 들어 인간과 AI가 상호작용하며 투명한 의사 결정을 할 수 있도록 돕는 'AI 에이전트' 구축에도 역량을 집중시키고 있다. 'SAS 바이야'에서 구동되는 'SAS 인텔리전트 디시저닝(SAS Intelligent Decisioning)'에서 AI 에이전트를 설계, 배포, 확장할 수 있도록 지원하고 있는 상태로, 인간 개입이 없이 AI만으로 작동시키려고 하는 다른 기업들의 AI 에이전트와는 운영 원리가 다소 다르다. 디팍 부사장은 "생성형 AI를 기업들이 사용하려고 하지만 결론을 내리는 과정에서 AI가 어떤 판단을 내렸는지 전혀 알 수 없는 '블랙박스' 상태일 때가 많다"며 "우리가 지향하는 AI 에이전틱은 자율적인 의사결정과 윤리적 거버넌스 간 중요한 균형을 맞추는 것"이라고 밝혔다. 이에 SAS는 각 업무 때마다 어떤 기준으로 의사 결정을 내렸는지 한 눈에 알아볼 수 있게 알아볼 수 있는 '쇼 리니지(Show Lineage)' 기능을 AI 에이전트를 통해 지원해주고 있다. 이는 다른 기업 제품에서는 찾아 볼 수 없는 SAS만의 차별화된 요소다. 디팍 부사장은 "이를 통해 각 과정에서 해당 AI 모델의 알고리즘, 바이어스, 적용 기법 등 모든 정보를 투명하게 제공하는 '모델 카드'를 확인해 볼 수 있다는 점에서 사용자는 의사 결정에 반영된 로직을 단계별로 검토할 수 있게 된다"며 "이 기능을 활용하며 규제 당국의 감사 대응에도 투명하게 대응할 수 있다는 것이 강점"이라고 강조했다. 그러면서 "필요 시에는 다른 팀에서 사용한 워크 플로우를 끌어와 재활용하거나, 새롭게 추가함으로써 워크 플로우를 확장할 수도 있다"며 "백지에서 시작하는 것이 아닌 검증된 의사결정 로직을 유연하게 조합할 수 있다는 점에서 매력 요소가 될 것"이라고 자신했다. 이 외에도 SAS는 최근 '포트나이트' 게임으로 유명한 에픽게임즈와 손잡고 언리얼타임 3차원 창작툴인 '언리얼 엔진'을 활용해 디지털 트윈 사업에도 뛰어 들었다. 제조업체들이 점차 시뮬레이션된 가상 환경에서 새로운 전략을 실험하고 효과적인 방식을 실제 공정에 적용하기 위해 디지털 트윈 기술을 많이 활용하기 시작한 만큼, 성장성이 있다고 판단한 것이다. 특히 미국 종합 제지 조지아-퍼시픽은 SAS 기술이 적용된 디지털 트윈을 활용해 무인운송차량(AGV) 운용을 포함한 기타 생산 프로세스를 최적화하기 위해 나섰다. 그 결과 조지아-퍼시픽은 비용을 절감하고 제품 품질을 크게 향상시킬 수 있었다. 이는 SAS의 AI 및 고급 분석 기술이 잘 적용됐기 때문으로 분석됐다. 또 SAS는 최근 많은 기업들이 주목하고 있는 퀀텀 AI에도 승부수를 띄웠다. SAS가 최근 실시한 자체 글로벌 설문조사에 따르면 전체 응답자의 60% 이상이 퀀텀 AI에 적극 투자 중이거나 도입을 검토 중인 것으로 나타났다. 이에 SAS는 ▲양자 어닐링 시스템을 개발하는 '디웨이브 퀀텀' ▲초전도 기반 양자 컴퓨팅을 선도하는 'IBM' ▲중성 원자 기반 컴퓨팅 기술을 보유한 '큐에라 컴퓨팅'과 손 잡고 퀀텀 AI 기술 고도화에 나섰다. 또 지난 달 미국 플로리다주 올랜도에서 열린 'SAS 이노베이트 2025' 행사에선 짐 굿나잇 SAS 최고경영자(CEO)와 사티아 나델라 마이크로소프트(MS) CEO가 화상으로 퀀텀 AI와 관련해 대담을 펼쳐 눈길을 끌었다. MS와는 개발자, 데이터 과학자 등을 겨냥해 'SAS 바이야' 플랫폼에 내장된 AI 기반 대화형 어시스턴트인 'SAS 바이야 코파일럿' 출시도 올해 3분기 안에 진행할 예정이다. 굿나잇 CEO는 "MS와 SAS는 양자 AI(quantum AI)에 있어 같은 비전을 공유하고 있다"며 "양자컴퓨팅을 다른 AI 기술에 접목할 경우 엄청난 잠재력이 있다"고 강조했다. 디팍 부사장은 "최근 미국 대형 고객사와의 협업을 통해 복잡한 최적화 문제를 퀀텀 AI로 해결했다"며 "기존 대비 300% 성능이 향상됐고 시간이 97%나 단축됐다"고 밝혔다. 이어 "많은 고객사들과도 최적화된 프로그램들을 해결해 나가기 위해 최근 퀀텀 AI 기술을 많이 활용하고 있다"며 "퀀텀 AI 기술에 대해 내부적으로 많은 기대를 가지고 있다"고 덧붙였다.

2025.06.10 16:50장유미 기자

씨이랩 "가짜도 진짜처럼 쓸 수 있다"…합성데이터 품질 인증 '최고등급' 획득

씨이랩이 자사의 합성 데이터에 대해 품질인증 최고등급을 획득했다. 합성 데이터도 고품질로 관리할 수 있다는 점을 입증해 인공지능(AI) 학습 시장에서 '가짜도 진짜처럼 쓸 수 있다'는 신호를 준 셈이다. 씨이랩은 과학기술정보통신부와 한국데이터산업진흥원이 주관하는 데이터 품질인증(DQ 인증) 사업에서 자사 합성 데이터에 대해 '클라스 A(Class A)' 등급을 받았다고 25일 밝혔다. 인증 평가와 등급 부여는 데이터 품질인증 전문기관인 와이즈스톤이 맡았다. 씨이랩이 인증에 제출한 데이터는 자사 플랫폼 '엑스젠(X-GEN)'으로 생성한 자동차(LVM)와 로고 이미지 데이터다. 각각 91개, 124개 클래스에 해당하며 약 2만장의 객체 및 라벨링 데이터로 구성됐다. 단 한 건의 오류도 없는 품질 덕분에 A 등급을 획득했다. '엑스젠'은 다양한 기상 조건, 시간대, 카메라 각도 등을 조합해 현실에서 얻기 어려운 학습 데이터를 자동 생성하는 씨이랩의 독자적 플랫폼이다. 분당 100장 이상의 데이터를 만들어 AI 학습에 필요한 데이터를 빠르게 확보할 수 있다. 이번 인증을 통해 씨이랩은 국내에서 처음으로 합성 데이터로 최고등급 품질 인증을 받은 기업이 됐다. 업계에서는 합성 데이터가 단순한 보조재가 아니라 신뢰 가능한 학습 자산이 될 수 있다는 점에서 의미가 크다고 평가한다. 씨이랩은 향후에도 데이터 품질 개선과 함께 비전 AI 모델 개발 역량을 높여 데이터 기반 산업 비즈니스 경쟁력을 강화하겠다는 방침이다. 이문규 씨이랩 책임리더는 "데이터 품질인증 A 등급 획득은 우리 데이터 생성 및 관리 기술력을 입증한 성과"라며 "AI 및 데이터 부족 문제 해결을 통해 산업 발전에 기여하겠다"고 말했다. 이영석 와이즈스톤 대표는 "씨이랩의 합성 데이터셋은 실제 데이터 수집의 한계를 극복하고 다양한 변수를 반영해 AI 학습에 필요한 고품질 데이터를 효율적으로 확보할 수 있는 가능성을 제시했다"고 밝혔다.

2025.03.25 11:37조이환 기자

오픈AI·메타도 쓰는 'AI 엔진' 합성데이터…"안전성 검증 필요"

밀키트는 손질된 식재료와 양념을 알맞게 담은 간편식입니다. 누구나 밀키트만 있으면 별도 과정 없이 편리하게 맛있는 식사를 할 수 있습니다. [김미정의 SW키트]도 마찬가지입니다. 누구나 매일 쏟아지는 소프트웨어(SW) 기사를 [김미정의 SW키트]로 한눈에 볼 수 있습니다. SW 분야에서 가장 주목받는 인공지능(AI)과 보안 이야기를 이해하기 쉽고 맛있게 보도하겠습니다. [편집자주] 생성형 인공지능(AI) 모델 개발에 필요한 데이터가 고갈된다는 전망이 이어진 가운데 '합성데이터'가 대안으로 떠오르고 있다. 개인 식별정보나 민감정보 노출 없이 이용할 수 있다는 이점이 있지만 완전히 안심할 수 없다는 목소리가 높아지고 있다. 합성데이터에도 개인정보나 원본 데이터가 포함됐다는 이유에서다. 최근 AI 모델 복잡성이 늘면서 훈련에 필요한 데이터양도 증가한 추세다. 그러나 업계는 개인정보보호법 등 규제 이슈로 인해 모든 데이터를 자유롭게 수집·이용할 수 없다. 데이터 생성 속도도 한정적이다. 합성데이터가 주목받는 이유다. 이미 오픈AI를 비롯한 구글, 메타 등 빅테크는 모델 훈련에 합성데이터를 활용하고 있다. 합성데이터는 원본 데이터 형식과 구조·분포 특성을 학습해 생성된 가상데이터다. 가상 데이터기 때문에 원본 데이터에 있는 개인 식별정보나 민감정보를 노출하지 않고 데이터를 자유롭게 공유, 활용할 수 있다는 이점이 있다. 문자 등으로 이뤄진 정형데이터뿐 아니라 이미지, 동영상 형태인 비정형데이터가 합성데이터로 제작될 수 있다. 기업은 AI와 소프트웨어(SW) 개발에 필요한 의료·금융 데이터 등 민감·특수 데이터를 합성데이터로 대체할 수 있다. 합성데이터를 만들어 고객사에 납품하는 개발사도 늘고 있다. 해당 개발사들은 고객사에 부족한 데이터 종류를 AI로 제작해 채운다. 이를 통해 고객사는 데이터 제작 시간과 비용을 기존보다 줄일 수 있다. 김현수 슈퍼브에이아이 대표는 "실제 데이터를 수집하기 어렵거나 극단적인 케이스가 포함된 데이터를 AI 합성으로 얻을 수 있다"며 "데이터 수집·라벨링 과정이 생략돼 데이터 취득비용을 줄이고 신속히 학습할 수 있다"고 강조했다. 김 대표는 합성데이터가 다양한 산업에서 작동하는 모델 기능을 올릴 것으로 예측했다. 그는 "특히 합성데이터는 국내외 제조 분야나 국방, 물리보안용 AI 모델에 유용할 수 있다"며 "취득하기 어려운 제조 결함이나 중대재해 사고, 화재, 드문 보안 이슈 데이터를 합성데이터로 채움으로써 모델 성능을 올리고 실제 위험에 대처할 수 있다"고 덧붙였다. 업스테이지는 향후 합성데이터 생산 노하우가 개발 전략으로 자리 잡을 것이라고 봤다. 업스테이지 관계자는 "합성데이터를 고품질 정형 데이터로 적절히 융합해야 한다"며 "기업들이 자신에 맞는 융합 방식을 찾으면 그만큼 비용효율적인 대체제가 없을 것"이라고 강조했다. 이어 "각 기업이 같은 합성데이터를 이용해도 회사 기술력에 따라 모델 성능은 다를 것"이라고 설명했다. 정부도 합성데이터에 관심…"검증 시스템 강화 필요" 정부도 최근 합성데이터 생성과 활용에 필요한 가이드라인을 제시했다. 개인정보보호위원회는 지난달 '합성데이터 생성·활용 안내서'를 내놨다. 기업, 기관이 개인정보보호법을 준수하면서 합성데이터를 생성하고 활용하는 방법과 절차를 제공하기 위해서다. 발간된 보고서에 따르면 국내 합성데이터 생성 절차는 사전 준비부터 합성 데이터 생성, 안전성·유용성 검증, 심의윈회 평가, 활용·안전한 관리로 총 5단계로 이뤄졌다. 다만 전문가들은 합성데이터를 이용한다고 해서 모든 개인정보보호 이슈를 피할 수 있는 건 아니라고 주장했다. 합성데이터에도 개인정보가 포함될 수 있으며, 정보 편향성을 일으킬 수 있다는 이유에서다. 이에 합성데이터를 검증할 수 있는 시스템 구축도 중요해질 것이라고 입을 모았다. 업계 관계자는 "합성데이터 자체가 허위 정보나 편향된 정보를 생성할 수 있다"며 "합성데이터 내 개인정보가 재식별될 가능성도 배제할 수 없다"고 설명했다. 또 "합성데이터 품질이 낮은 상태에서 AI 학습에 활용되면 모델 성능 자체가 떨어질 수밖에 없다"며 "합성데이터 생성뿐 아니라 이를 검증할 수 있는 시스템 강화도 필요할 것"이라고 덧붙였다. 합성데이터에 개인정보가 포함될 수 있다는 주장도 나왔다. 개인정보위 안내서에 따르면 특히 부분 합성데이터에는 합성데이터 기록과 원본데이터 기록 간 연결 가능성이 높다. 활용 과정에서 개인정보보호 침해 등 안전 가능성이 낮아질 수 있다는 지적이다. 이에 수집 목적과 익명 정보 여부 등 합성데이터 성격에 따라 동의 필요성 등 적법요건 확인이 필요하다는 분위기다. 이 외에도 개인정보위는 비정형 합성데이터에 대한 연구가 추가로 필요하다고 지적했다. 이미지가 아닌 영상, 음성 및 멀티모달 데이터 등 다양한 비정형 합성데이터에 대한 안내도 추후 과제로 남아있다고 설명했다.

2025.01.10 16:13김미정 기자

Prev 1 Next

ZDNet 검색 페이지

'합성데이터'통합검색 결과 입니다. (11건)

스카이인텔리전스, 글로벌 로봇 AI 데이터 시장 공략 속도

지란지교데이터, 국내 첫 합성데이터 개방 사업 수행…활용 기반 확대

"개인정보 노출 없이 AI 고도화"…클라우데라, '합성 데이터'로 승부수

"전세사기 막고 소상공인 대출 연다"…가명정보의 '무한 변신'

[AI 리더스] 펀진 "국방, 외산 AI에만 맡길 수 없다…'AI 주권'으로 K-방산 완성할 것"

가트너 "합성 데이터 사용도 전략 필요…수익성 따져야"

[AI 리더스] 엔닷라이트, '움직이는 CAD'로 설계 한계 돌파…로봇 AI 진화 앞당긴다

오브젠, 금융 이상거래 AI 개발…"합성데이터로 실거래 없이 학습"

[인터뷰] 브로드컴도 탐냈던 SAS, AI 덧입고 기업 가치 ↑…디팍 부사장 "내년엔 상장"

씨이랩 "가짜도 진짜처럼 쓸 수 있다"…합성데이터 품질 인증 '최고등급' 획득

오픈AI·메타도 쓰는 'AI 엔진' 합성데이터…"안전성 검증 필요"

지금 뜨는 기사

이시각 헤드라인

로봇 업계 "피지컬AI 1강 정책은 A....맞춤 지원·빠른 실행 필요"

[르포] 해마다 신차 쏟아내는 중국…현대차·기아 남양연구소가 찾은 해법은

군산조선소 매각 뒤 남은 숙제…물량·고용 보장 어디까지

AI 투자 경쟁에 흔들린 PC 시장... "하반기도 먹구름"

ZDNet Power Center