• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
지스타2025
인공지능
스테이블코인
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'SW키트'통합검색 결과 입니다. (30건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

오픈AI에 수백억 투자한 MS, 자체 모델 개발로 협력 끝내나

오픈AI의 주요 투자자인 마이크로소프트가 자체 인공지능(AI) 모델을 개발 중이라는 소식이 이어지면서 양사가 경쟁 구도를 형성할 것이라는 예측이 이어지고 있다. 10일 디인포메이션 등 외신은 마이크로소프트가 오픈AI 의존도를 낮추기 위해 자체 추론 모델 '마이(MAI)' 시리즈를 개발 중이라고 내부 소식통을 인용해 보도했다. 개발팀은 해당 모델을 '마이크로소프트 365 코파일럿'에 적용하기 위한 테스트도 진행 중인 것으로 전해졌다. 내부 관계자는 마이 모델군은 오픈AI의 GPT-o1처럼 생각사슬(CoT) 기법을 갖춘 추론 모델 형태로 이뤄졌다고 외신에 밝혔다. 문제 해결 과정을 여러 단계로 나눠 논리적으로 정리해 답을 도출하는 식으로 작동한다. 마이는 오픈AI, 앤트로픽의 신형 AI 모델과 대등한 성능을 갖춘 것으로 전해졌다. 마이크로소프트는 올해 말 해당 모델을 API 형태로 공개하는 방안도 고려 중인 것으로 알려졌다. 외부 개발자들이 이를 활용해 자체 애플리케이션에 AI 기능을 통합할 수 있도록 도우려는 목표다. "높은 GPT 가격 탓…타사 모델 적용도 고려" 다수 외신은 마이크로소프트의 이같은 행보 원인을 상대적으로 높은 GPT 이용료와 코파일럿의 제한적 모델 활용으로 꼽았다. 앞서 마이크로소프트는 GPT 시리즈 외 타사 모델도 코파일럿에 적용할 예정이라고 밝힌 바 있다. 그러나 현재까지 공식적으로 오픈AI 외 타사 모델 추가 소식을 알리지 않은 상태다. 코파일럿이 여전히 GPT 시리즈 중심으로 작동하고 있는 셈이다. GPT는 폐쇄형 모델이다. xAI의 '그록'이나 메타 '라마' 시리즈 같은 오픈소스 모델을 서비스에 적용했을 때보다 더 높은 비용이 든다. GPT의 API 호출 비용이 누적돼 코파일럿 비용이 타 서비스보다 상대적으로 높을 수밖에 없다는 설명이다. 코파일럿에 적용된 모델이 타 서비스보다 제한적이라는 점도 주요 원인인 것으로 전해졌다. 이에 마이크로소프트는 코파일럿 모델 다양성을 위해 자체 모델뿐 아니라 타사 오픈소스 모델 적용을 검토 중인 것으로 파악됐다. 내부 관계자는 "xAI를 비롯한 메타, 딥시크 등이 개발한 모델을 코파일럿에 적용해 테스트하고 있다"고 디인포메이션에 귀띔했다. 양사 독점 계약 해지…"GPT 기술 정보 공유도 안 해" 마이크로소프와 오픈AI의 내부적 갈등으로 인한 조치라는 해석도 이어지고 있다. 특히 양사가 GPT 기술에 대한 정보 공유가 충분히 이뤄지지 않은 점도 주요 이유로 거론됐다. 마이크로소프트는 오픈AI에 투자하는 대신 해당 기업 지적 재산권을 사용할 수 있는 권리를 보유하고 있다. 디인포메이션에 따르면 오픈AI는 GPT-4o뿐 아니라 추론 모델 o1 정보 문서를 마이크로소프트와 공유하지 않은 것으로 전해졌다. 지난해 마이크로소프트 무스타파 술레이만 AI사업책임자가 오픈AI에 추론모델 작동 원리 설명을 요청했지만 이를 거부당했다는 사실도 드러난 바 있다. 업계는 이같은 행보가 올해 1월부터 시작된 것이라고 파악했다. 앞서 마이크로소프트는 올해 1월 오픈AI가 애저에서만 서비스를 호스팅해야 한다는 독점 계약을 해지한 바 있다. 오픈AI 역시 오라클과 소프트뱅크와 협력해 5천억 달러 규모 데이터센터 구축 계획을 발표했다. 당시 파이낸셜타임스(FT)는 "오픈AI가 자체 데이터 센터를 구축하려는 결정은 마이크로소프트가 기존처럼 충분한 리소스나 인프라 지원을 오픈AI에 제공하지 않았기 때문"이라며 "두 기업이 AI 개발·운영에 대한 협력을 중단할 가능성 있다"고 평했다.

2025.03.10 17:00김미정

"수십억 투자해도 따라잡혀"…증류 기법 확산에 AI 시장 바뀔까

거대 인공지능(AI) 모델을 압축해 작고 빠른 모델을 만드는 '증류 기법' 확산이 빅테크의 AI 비즈니스 모델을 바꿀 것이란 전망이 나왔다. 7일 업계에 따르면 최근 증류 기법 확산이 거대 모델을 개발하는 빅테크의 비즈니스 수익에 영향 미칠 것이라는 전문가 의견이 이어지고 있다. 증류 기법은 거대 AI 모델을 압축해 더 작고 빠른 모델을 생성하는 방식이다. 거대 모델이 학습한 내용을 소형 모델에 전달하는 식으로 개발된다. 마치 경험이 많은 사람이 핵심 개념을 정리해 초보자를 가르치는 것과 같다. 보통 거대 AI 모델 훈련·유지에는 수십억 달러가 든다. 증류 기법으로 개발된 모델은 상대적으로 적은 비용으로 높은 성능을 유지할 수 있다. 이 기법은 수년 전부터 활용됐지만, 최근 AI 중소·스타트업에서 활용 가치가 더욱 높아졌다는 평을 받고 있다. AI 업계에서는 증류 기법 확산이 AI 시장 구도까지 흔들 수 있다는 분석이 나왔다. 현재 오픈AI, 구글, 메타 등 대형 모델을 개발하는 기업들은 막대한 비용을 들여 고성능 AI를 연구하고 있다. 하지만 증류 기법을 활용한 모델이 빠르게 확산하면 AI 서비스 가격이 전체적으로 하락할 가능성이 높다는 설명이다. 최근 오픈AI는 경쟁 업체가 GPT 증류를 통해 모델을 개발하는 것을 막기 위한 모니터링을 강화하고 있다. 중국 AI 스타트업 딥시크가 오픈AI의 GPT 모델을 기반으로 자체 AI를 개발했을 가능성이 나와 이에 대한 조사도 진행하고 있다. 얀 르쿤 메타 최고AI과학자는 "AI 기업들이 거대 모델 개발에 수십억 달러를 투자하더라도, 경쟁 기업과 스타트업이 증류 기법을 통해 빠르게 기술을 따라잡을 수 있는 환경이 조성되고 있다"고 주장했다. IBM리서치 데이비드 콕스 부사장은 "빅테크가 아무리 많은 돈을 AI에 투자해도 경쟁사가 금방 따라잡을 가능성이 크다"며 "AI 시장의 비즈니스 모델이 근본적으로 변화하고 있다"고 말했다. 다만 전문가들은 증류 기법이 확산하더라도 거대 모델 필요성이 사라지지는 않을 것이라는 의견을 내놓고 있다. 오픈AI 올리비에 고드망 플랫폼 제품 책임자는 "증류 기법을 활용한 모델이 범용적으로 사용될 수는 있지만, 고도의 지능과 높은 신뢰성이 필요한 작업에는 거대 모델이 필수적"이라며 "기업들은 높은 정확성을 위해 여전히 거대 모델에 비용을 지불할 것"이라고 말했다. 증류 기법을 활용한 모델 개발이 경제적이지만, 그만큼 성능 저하가 불가피하다는 주장도 나왔다. 이메일 요약과 같은 특정 작업에는 최적화될 수 있지만, 창의적인 글쓰기나 복잡한 데이터 분석 등에서는 성능이 떨어질 수 있다는 분석이다. 마이크로소프트 아흐메드 아와달라 연구원은 "증류 모델은 특정 작업에서는 매우 강력하지만, 범용적으로 활용하기에는 한계가 있다"고 설명했다.

2025.03.07 15:00김미정

합성 데이터로 탄생한 '그록3'…환각·결함 우려 괜찮나

xAI가 출시한 인공지능(AI) 모델 '그록3' 성능에 대한 우려가 나왔다. 모델 데이터 상당수가 합성데이터로 구성돼 결함과 환각 현상을 높일 수 있다는 염려 때문이다. 이에 오픈AI를 비롯한 구글, 딥시크를 뛰어넘는다는 xAI 주장에 의문점이 생겼다. 18일 업계에 따르면 일론 머스크 테슬라 최고경영자(CEO)가 '지구상에서 가장 똑똑한 모델'이라며 출시한 그록3 성능에 대해 이같은 의문이 제기된 것으로 전해졌다. xAI는 소셜미디어 X(엑스) 라이브 시연을 통해 새 모델 그록3 베타버전과 미니버전을 공개했다. 공식 버전과 그록3 API, 딥서치 기능은 추후 배포 예정이다. xAI 연구진은 "그록3가 대량의 합성 데이터셋과 자체 오류 수정, 강화 학습을 통해 그록2보다 정교한 결과를 제공한다"고 라이브 시연을 통해 자신했다. 특히 논리적 추론, 연산 능력, 적응력이 기존 대비 대폭 향상됐다고 평가했다. 그러면서 "대규모 그래픽처리장치(GPU) 자원을 추가해 방대한 데이터셋을 더 짧은 시간 안에 처리했다"며 "정확도까지 높였다"고 덧붙였다. AI 업계에서는 그록3이 학습한 데이터셋 다수가 합성이라는 점을 우려했다. 합성데이터가 모델 결함을 높이고 환각 현상을 높일 수 있기 때문이다. 합성데이터는 실제 데이터 특성·분포를 모방해 인공적으로 생성된 데이터다. 보통 AI 모델서 나온 결과물을 다시 모델에 넣어 재활용되는 식으로 쓰인다. 생성형 AI 모델 개발에 필요한 데이터가 곧 고갈될 것이란 전망이 나온 가운데 합성데이터가 대안으로 떠오르고 있다. 다만 품질이 낮거나 오류를 생성하는 합성데이터가 모델에 들어갈 경우 모델 자체 성능을 떨어뜨릴 수 있다. 이같은 우려는 이미 학계에서 거론된 바 있다. 지난해 옥스퍼드대 연구진은 합성데이터가 모델 결함을 증가시키고 환각 현상을 초래할 수 있다고 경고했다. 모델이 소량의 합성 데이터만 학습해도 성능에 큰 영향을 줄 가능성이 있다는 지적이다. 한 업계 관계자는 "합성데이터를 반복적으로 사용할 경우 오류 전파(Error Propagation)로 인해 현실과 괴리가 심해질 것"이라고 지적했다. 그러면서 "합성 데이터로 모델 사이즈를 늘리는 것보다 데이터 품질이 얼마나 좋은지가 관건일 것"이라고 덧붙였다. 그록3, GPT보다 정말 똑똑할까 해외 업계에서는 그록3가 오픈AI, 구글 등 타사 모델을 실제 능가했을지 의문이라는 분위기다. 최근 그록3를 개발에 참여한 개발자가 해당 모델 성능을 낮게 평가하는 게시글이 퍼지면서다. 벤자민 데크라커 전 xAI 개발자는 "그록3이 코딩 측면에서 오픈AI의 ChatGPT o1, o1프로, o3미니 모델만큼 뛰어나지 않다"는 의견을 소셜미디어 X에 게시했다. xAI는 해당 게시글이 회사 기밀 정보를 포함한다고 주장하면서 삭제를 요청했다. 이에 데크라커는 "단순한 개인 의견일 뿐이며 게시글 삭제를 강요받아 사임을 결정했다"고 해외 언론에 밝혔다. 반면 xAI는 이번 라이브 시연에서 그록3가 과학, 코딩, 수학 분야에서 오픈AI '챗GPT-4o'를 비롯한 구글 '제미나이 2.0 프로', 딥시크 '딥시크 V3'보다 더 높은 점수를 기록한 벤치마크 결과를 공개했다. 업계 관계자는 "공식 버전이 내놓는 결과물을 봐야 한다"며 "벤치마크에서 모든 모델 성능을 능가했다는 결과도 무의미하다"고 평가했다.

2025.02.18 19:37김미정

오픈AI·메타도 쓰는 'AI 엔진' 합성데이터…"안전성 검증 필요"

밀키트는 손질된 식재료와 양념을 알맞게 담은 간편식입니다. 누구나 밀키트만 있으면 별도 과정 없이 편리하게 맛있는 식사를 할 수 있습니다. [김미정의 SW키트]도 마찬가지입니다. 누구나 매일 쏟아지는 소프트웨어(SW) 기사를 [김미정의 SW키트]로 한눈에 볼 수 있습니다. SW 분야에서 가장 주목받는 인공지능(AI)과 보안 이야기를 이해하기 쉽고 맛있게 보도하겠습니다. [편집자주] 생성형 인공지능(AI) 모델 개발에 필요한 데이터가 고갈된다는 전망이 이어진 가운데 '합성데이터'가 대안으로 떠오르고 있다. 개인 식별정보나 민감정보 노출 없이 이용할 수 있다는 이점이 있지만 완전히 안심할 수 없다는 목소리가 높아지고 있다. 합성데이터에도 개인정보나 원본 데이터가 포함됐다는 이유에서다. 최근 AI 모델 복잡성이 늘면서 훈련에 필요한 데이터양도 증가한 추세다. 그러나 업계는 개인정보보호법 등 규제 이슈로 인해 모든 데이터를 자유롭게 수집·이용할 수 없다. 데이터 생성 속도도 한정적이다. 합성데이터가 주목받는 이유다. 이미 오픈AI를 비롯한 구글, 메타 등 빅테크는 모델 훈련에 합성데이터를 활용하고 있다. 합성데이터는 원본 데이터 형식과 구조·분포 특성을 학습해 생성된 가상데이터다. 가상 데이터기 때문에 원본 데이터에 있는 개인 식별정보나 민감정보를 노출하지 않고 데이터를 자유롭게 공유, 활용할 수 있다는 이점이 있다. 문자 등으로 이뤄진 정형데이터뿐 아니라 이미지, 동영상 형태인 비정형데이터가 합성데이터로 제작될 수 있다. 기업은 AI와 소프트웨어(SW) 개발에 필요한 의료·금융 데이터 등 민감·특수 데이터를 합성데이터로 대체할 수 있다. 합성데이터를 만들어 고객사에 납품하는 개발사도 늘고 있다. 해당 개발사들은 고객사에 부족한 데이터 종류를 AI로 제작해 채운다. 이를 통해 고객사는 데이터 제작 시간과 비용을 기존보다 줄일 수 있다. 김현수 슈퍼브에이아이 대표는 "실제 데이터를 수집하기 어렵거나 극단적인 케이스가 포함된 데이터를 AI 합성으로 얻을 수 있다"며 "데이터 수집·라벨링 과정이 생략돼 데이터 취득비용을 줄이고 신속히 학습할 수 있다"고 강조했다. 김 대표는 합성데이터가 다양한 산업에서 작동하는 모델 기능을 올릴 것으로 예측했다. 그는 "특히 합성데이터는 국내외 제조 분야나 국방, 물리보안용 AI 모델에 유용할 수 있다"며 "취득하기 어려운 제조 결함이나 중대재해 사고, 화재, 드문 보안 이슈 데이터를 합성데이터로 채움으로써 모델 성능을 올리고 실제 위험에 대처할 수 있다"고 덧붙였다. 업스테이지는 향후 합성데이터 생산 노하우가 개발 전략으로 자리 잡을 것이라고 봤다. 업스테이지 관계자는 "합성데이터를 고품질 정형 데이터로 적절히 융합해야 한다"며 "기업들이 자신에 맞는 융합 방식을 찾으면 그만큼 비용효율적인 대체제가 없을 것"이라고 강조했다. 이어 "각 기업이 같은 합성데이터를 이용해도 회사 기술력에 따라 모델 성능은 다를 것"이라고 설명했다. 정부도 합성데이터에 관심…"검증 시스템 강화 필요" 정부도 최근 합성데이터 생성과 활용에 필요한 가이드라인을 제시했다. 개인정보보호위원회는 지난달 '합성데이터 생성·활용 안내서'를 내놨다. 기업, 기관이 개인정보보호법을 준수하면서 합성데이터를 생성하고 활용하는 방법과 절차를 제공하기 위해서다. 발간된 보고서에 따르면 국내 합성데이터 생성 절차는 사전 준비부터 합성 데이터 생성, 안전성·유용성 검증, 심의윈회 평가, 활용·안전한 관리로 총 5단계로 이뤄졌다. 다만 전문가들은 합성데이터를 이용한다고 해서 모든 개인정보보호 이슈를 피할 수 있는 건 아니라고 주장했다. 합성데이터에도 개인정보가 포함될 수 있으며, 정보 편향성을 일으킬 수 있다는 이유에서다. 이에 합성데이터를 검증할 수 있는 시스템 구축도 중요해질 것이라고 입을 모았다. 업계 관계자는 "합성데이터 자체가 허위 정보나 편향된 정보를 생성할 수 있다"며 "합성데이터 내 개인정보가 재식별될 가능성도 배제할 수 없다"고 설명했다. 또 "합성데이터 품질이 낮은 상태에서 AI 학습에 활용되면 모델 성능 자체가 떨어질 수밖에 없다"며 "합성데이터 생성뿐 아니라 이를 검증할 수 있는 시스템 강화도 필요할 것"이라고 덧붙였다. 합성데이터에 개인정보가 포함될 수 있다는 주장도 나왔다. 개인정보위 안내서에 따르면 특히 부분 합성데이터에는 합성데이터 기록과 원본데이터 기록 간 연결 가능성이 높다. 활용 과정에서 개인정보보호 침해 등 안전 가능성이 낮아질 수 있다는 지적이다. 이에 수집 목적과 익명 정보 여부 등 합성데이터 성격에 따라 동의 필요성 등 적법요건 확인이 필요하다는 분위기다. 이 외에도 개인정보위는 비정형 합성데이터에 대한 연구가 추가로 필요하다고 지적했다. 이미지가 아닌 영상, 음성 및 멀티모달 데이터 등 다양한 비정형 합성데이터에 대한 안내도 추후 과제로 남아있다고 설명했다.

2025.01.10 16:13김미정

구글·엔비디아, 멀티모달 뛰어넘다…"다음 세대는 '물리 AI'"

밀키트는 손질된 식재료와 양념을 알맞게 담은 간편식입니다. 누구나 밀키트만 있으면 별도 과정 없이 편리하게 맛있는 식사를 할 수 있습니다. [김미정의 SW키트]도 마찬가지입니다. 누구나 매일 쏟아지는 소프트웨어(SW) 기사를 [김미정의 SW키트]로 한눈에 볼 수 있습니다. SW 분야에서 가장 주목받는 인공지능(AI)과 보안 이야기를 이해하기 쉽고 맛있게 보도하겠습니다. [편집자주] 구글과 엔비디아가 인공지능(AI)을 한 단계 끌어올린 기술을 공개하면서 새 AI 시대를 예고했다. 8일 업계에 따르면 구글은 월드 모델 개발팀을 꾸려 멀티모달을 뛰어넘은 AI 생태계 청사진을 공유했다. 엔비디아는 물리 AI 구현을 돕는 '엔비디아 코스모스' 도구를 공개했다. 구글은 현실을 가상 세계에서 실시간 시뮬레이션·예측할 수 있는 월드 모델 개발팀을 꾸렸다고 발표했다. 해당 팀은 딥마인드 소속으로 운영되며 팀 브룩스 연구원이 해당 업무를 담당한다. 그는 지난해 10월 오픈AI에서 비디오 생성기 '소라' 개발에 참여한 바 있다. 월드 모델은 외부 환경을 학습해 이를 가상세계에서 구현·예측할 수 있다. 가상에서 특정 시나리오를 테스트하거나 별도 전략을 학습하는 원리다. 이에 모델이 실제 환경에서 데이터를 직접 쌓지 않아도 기존보다 더 나은 의사 결정을 내는 식이다. 월드 모델은 비전 모델과 메모리 모델, 예측 모델을 결합해 작동한다. 단순히 문자와 이미지를 인식·생성하는 멀티모달보다 한 단계 더 성숙한 모델로 평가받고 있다. 구글 개발팀은 자사 '제미나이'와 '비오' '지니' 개발 연구 경험을 바탕으로 월드 모델을 구축할 방침이다. 제미나이는 구글의 대표 멀티모달 모델이며 비오는 비디오 생성 모델이다. 지니는 게임·3D 환경을 실시간 시뮬레이션할 수 있는 모델로 현실을 3D 세계에 구현할 수 있는 기능을 갖췄다. 구글은 이 모델들을 통합해 기존보다 한 단계 업그레이드한 월드 모델을 구축할 목표다. 젠슨 황 "차세대 AI 개척지는 '물리AI'에 있다" 엔비디아는 이번 CES에서 물리 AI 구현을 돕는 도구 엔비디아 코스모스를 발표했다. 엔비디아 코스모스는 월드 모델과 토크나이저, 영상 프로세싱 파이프라인으로 작동한다. 사용자는 코스모스를 통해 현실에 구축할 빌딩 설계 도면을 제작하거나 자동차 제작 등 물리 AI 시스템을 구축 작업을 할 수 있다. 물리 AI는 현실 속 물리적 법칙을 이해할 수 있는 AI다. 물리적 법칙을 알 수 있기 때문에 실제 환경에 맞는 자동차나 건물 설계를 시뮬레이션을 통해 진행할 수 있다. 이에 업계에서는 물리 AI가 멀티모달 기술을 뛰어넘은 시스템으로 평가하고 있다. 보통 멀티모달은 이미지나 문자, 영상 등을 생성할 수는 있다. 다만 실제 환경을 고려한 물체나 설계 작업을 수행할 수는 없다. 멀티모달이 특정 환경에 대한 물리적 상태를 이해할 수 없기 때문이다. 젠슨 황 엔비디아 CEO도 "앞으로 AI의 차세대 개척지는 물리 AI"일 것이라고 CES 기조연설을 통해 밝힌 바 있다. 이날 황 CEO는 코스모스가 텍스트나 이미지, 비디오 프롬프트를 수집해 가상 세계를 동영상 형태로 만들 수 있다고 도구 원리를 설명했다. 사용자는 코스모스를 통해 현실에 구축할 빌딩 설계 도면이나 자동차 제작, 특정 훈련 시나리오 검색, 모델 작동 테스트 등을 수행할 수 있다. 그는 "코스모스 목표는 AI 모델에 예측과 멀티모달 시뮬레이션 기능을 지원하는 것"이라며 "발생 가능한 모든 미래를 시뮬레이션하고 최적 행위를 선택할 수 있게 돕는 것"이라고 강조했다. 이어 "거대언어모델이 생성형 AI를 혁신한 것과 같은 수준의 영향력을 보일 것"이라고 내다봤다.

2025.01.08 17:30김미정

해킹·랜섬웨어 '활개'…새해 공격관리·신원인증 산업 뜬다

밀키트는 손질된 식재료와 양념을 알맞게 담은 간편식입니다. 누구나 밀키트만 있으면 별도 과정 없이 편리하게 맛있는 식사를 할 수 있습니다. [김미정의 SW키트]도 마찬가지입니다. 누구나 매일 쏟아지는 소프트웨어(SW) 기사를 [김미정의 SW키트]로 한눈에 볼 수 있습니다. SW 분야에서 가장 주목받는 인공지능(AI)과 보안 이야기를 이해하기 쉽고 맛있게 보도하겠습니다. [편집자주] 생성형 인공지능(AI) 등 신기술을 악용한 해킹, 랜섬웨어 급증으로 국내 기업과 기관이 큰 피해를 본 가운데 이에 대응하기 위한 기술 산업·정책이 활성화될 전망이다. 특히 기업 데이터를 보호하는 신원인증과 사이버 공격을 모니터링하는 공격표면관리(ASM) 산업 전망이 밝다는 평가가 이어지고 있다. 정책적으로는 망분리 완화 후 클라우드 보안을 위한 제로트러스트 가이드라인 중요성이 높아지고 소프트웨어자재명세서(SBOM) 의무화 추진도 본격화할 것으로 예측된다. AI 등 신기술 늘었지만…예측 불가 공격 이어져 지난해 생성형 AI 등 신기술 성장으로 인해 비즈니스 활성화가 이뤄졌지만 그만큼 새로운 사이버 공격도 증가한 것으로 나타났다. AI 악용 기술과 랜섬웨어, 딥페이크 확산으로 정보 유출 등 피해 사례가 늘어서다. 또 기업의 IT 복잡성 증가로 예측 불가형 보안 이슈가 발생하기도 했다. 이에 빅테크는 사이버 보안 강화에 나섰다. 마이크로소프트는 지난 7월 크라우드스트라이크 업데이트 오류로 인한 IT 대란 사태를 겪은 후 클라우드 보안 강화를 본격화했다. 지난해 처음 자사 핵심성과지표(KPI)에 보안을 최우선 과제로 설정했다. 구글은 사이버 공격 예방을 위해 보안 스타트업 인트리그를 인수했다. 지난해 국내 정부는 개인정보 보호 대책 마련에 힘썼다. 우선 개인정보보호위원회는 메타와 구글, 카카오 등 빅테크와의 개인정보 관련 소송을 위해 법률 전문가를 몰색하고 있다. 이르면 올 초 빅테크 소송을 전담하는 팀을 꾸릴 예정이다. "신원인증 산업 커질 것"…클라우드 ID 성장도 업계에서는 국내 정부와 기업이 개인정보 보호 강화에 나서면서 이를 위한 신원인증 산업이 성장할 것으로 봤다. 실제 미국을 비롯한 유럽연합(EU)이 개인정보 보호 강화 제도에 시동을 걸면서 신원인증 산업이 성장하고 있다. 앞서 지난 5월 유럽연합(EU)에서 발의한 전자신원 및 신뢰서비스에 관한 법률에 따르면 2026년까지 모든 EU 회원국은 시민에게 디지털 신원 지갑을 제공해야 한다. 2030년까지 EU 시민 전원이 디지털 신원을 갖는 것을 목표로 한 법안이다. 한 보안업계 관계자는 "미국과 EU의 디지털 신원인증 활성화 움직임은 곧 국내에 영향 미칠 것"이라며 "국내 정부·기업도 이에 맞는 신원인증 기술이나 제도 필요성을 느낄 것"이라고 내다봤다. 국내 기업의 서비스형 소프트웨어(SaaS) 제품 수요가 늘면서 클라우드 내 정보보호를 위한 클라우드 ID 산업도 활성화할 것이란 예측도 나왔다. 국내 기업이 SaaS를 활발히 사용하면서 클라우드 ID 채택률도 증가할 것이란 전망이다. 전 세계적으로 GDPR 등 정보보호법이 활성화하면서 기업은 데이터 접근 기록 관리와 보안 조치 강화를 위해 클라우드 ID 기술에 투자를 늘릴 것이란 설명이다. 이를 통해 기업은 데이터를 클라우드 내 안전히 보관하고 데이터 규제까지 준수할 수 있다. 올해 망분리 완화…"제로트러스트·SBOM 중요도 커져" 올해 망분리 완화 정책이 본격화하면서 클라우드·SW 시스템 보안 강화를 위해 제로트러스트 가이드라인 중요성과 SBOM 의무화 목소리가 커질 전망이다. 망분리 완화로 인한 클라우드 내 데이터 유출이나 해킹에 취약할 가능성이 높아질 수 있다는 분위기 때문이다. 이에 발맞춰 정부는 제로트러스트 모델을 한층 구체화한 '제로트러스트 가이드라인 2.0'을 이달 발표했다. 새 가이드라인에는 기업이 제로트러스트 모델을 솔루션에 도입할 때 적용하는 단계를 하나 더 넣었다. '성숙도 모델'을 추가해 기존 3단계에서 4단계로 구체화했다. 또 관련 세부역량 52가지를 새로 제시해 모델에 구체화를 더했다. 망분리 완화 후 클라우드에 들어가는 SW 복잡성이 증가하면서 이를 투명하게 확인할 수 있는 정책 마련 필요성도 제기될 전망이다. 미국처럼 국내 정부도 SBOM 의무화에 속도를 낼 가능성이 높다는 평가다. 정부는 지난해 5월 SBOM 가이드라인을 발표했지만 이를 의무화하지 않은 상태다. 순천향대 염흥열 명예교수는 지난 11월 서울 강남 섬유센터에서 열린 한 보안 컨퍼런스에서 "미국과 유럽 등 선진국들은 이미 SBOM을 통해 SW 구성 요소 취약점을 신속히 식별해 전체적인 사이버 보안을 강화하고 있다"며 "이에 발맞춰 국내 정부도 SBOM 의무화를 적극 추진해야 한다"고 강조했다. "해킹 어디서든 발생"…공격표면관리(ASM) 산업 활성화 해외 보안 업계처럼 국내서도 사이버 공격을 기존보다 넓은 범위에서 예측할 수 있는 ASM 산업이 확장할 전망이다. 최근 기업에서 클라우드뿐 아니라 원격 근무, 생성형 AI 도입 등으로 인해 공격 가능한 보안 취약점이 빠르게 늘고 복잡해졌기 때문이다. ASM은 해커가 침투할 가능성이 있는 모든 IT 경로를 미리 파악하고, 이를 체계적으로 관리해 사이버 위협을 줄일 수 있는 보안 전략·도구다. 공격 발생 후 대응하는 것에 주력하는 기존 보안 시스템과 다른 방식이다. 앞서 해외는 이미 ASM을 통해 시스템 위험 식별 구축을 진행하고 있다. 빅테크 중심으로 ASM 생태계가 확장하는 추세다. 구글은 자회사 맨디언트를 통해 ASM 스타트업 인트리그를 인수한 바 있다. 마이크로소프트도 사이버보안 포트폴리오 강화를 위해 리스크아이뷰 인수했다. 팔로알토 네트웍스도 최근 ASM 시장 진입을 위해 익스펜스네트웍스를 인수했다. 현재 한국 보안 업계에서 ASM은 극초기 단계라는 평가가 이어지고 있다. 관련 솔루션을 운영하는 기업도 AI스페라가 유일하다. 업계 관계자는 "최근 국내 기업 시스템이 인식하지 못할 수 있는 인터넷 연결 자산과 시스템에서 오는 위험 식별 필요성이 높아졌다"며 "미국 보안 추세에 맞춰 ASM 산업을 눈여겨볼 만하다"고 밝혔다.

2025.01.02 11:09김미정

생성형 AI 다음은?…"물리 AI·공간 지능 시대 열린다"

밀키트는 손질된 식재료와 양념을 알맞게 담은 간편식입니다. 누구나 밀키트만 있으면 별도 과정 없이 편리하게 맛있는 식사를 할 수 있습니다. [김미정의 SW키트]도 마찬가지입니다. 누구나 매일 쏟아지는 소프트웨어(SW) 기사를 [김미정의 SW키트]로 한눈에 볼 수 있습니다. SW 분야에서 가장 주목받는 인공지능(AI)과 보안 이야기를 이해하기 쉽고 맛있게 보도하겠습니다. [편집자주] 생성형 인공지능(AI) 다음 시대에 대한 기대감이 높아지고 있다. 업계에서는 가상·현실 세계 차이점을 최대한 줄여 결과물 정확성을 높이는 '물리 AI'와 현실 세계의 3차원 특성을 반영한 '공간 지능'에 대한 관심이 쏠렸다. 해당 기술이 기존 AI 한계를 넘어 현실에 더 적합하고 정확한 결과물을 산출할 것으로 기대하는 분위기다. 25일 업계에 따르면 가상·현실 세계 차이를 최대한 줄여 결과 정확성을 높이는 '물리 AI'에 주목해야 한다는 목소리가 나왔다. 전문가들은 물리 AI가 기존 추론에 물리학 계산까지 접목해 현실에 더 적합하고 정확한 결과물을 산출한다고 입을 모았다. 물리 AI란 물리적 법칙과 데이터 기반 학습을 결합해 실제 현상을 더 정확히 예측하고 이해하는 AI다. 기존 생성형 AI 모델이 데이터를 활용해 추론하는 것에서 한 단계 더 심화했다. 이를 활용하면 기존 데이터 기반 모델이 추론하기 어려운 희귀 사건이나 극단적 상황을 더 정확히 예측할 수 있다. 대표적인 활용 예시는 날씨 예측과 자동차·반도체 설계, 우주 정거장 건설 등이다. 예를 들어 기존 AI가 비가 올 확률을 예측할 경우 기상 데이터 기반으로 계산한다. 반면 물리 AI는 공기 흐름이나 대기 압력 변화 등 물리학적 요소까지 고려해 비 올 확률을 계산한다. 이를 통해 물리 AI가 현실에 더 정확한 예측을 할 수 있는 이유다. 그동안 산업계에서도 물리 AI를 적용한 서비스를 출시한 바 있다. 대표 기업이 엔비디아와 다쏘시스템이다. 엔비디아는 지난해 3D 시뮬레이션 플랫폼 'VIMA'를 공개했다. 디지털 트윈 기술인 '엔비디아 옴니버스'를 활용해 현실 세계와 가상 세계 정보를 통합해 현실에 가장 적합한 시스템 구축을 지원한다. 다쏘시스템은 버추얼 트윈 플랫폼 '3D익스피리언스'로 가상 현실서 시뮬레이션해 현실 세계에 가장 적합한 제품 설계를 돕는다. 파스칼 달로즈 다쏘시스템 최고경영자(CEO)는 지난달 한국서 열린 기자간담회에서 3DX가 물리 AI에 기반한 플랫폼이라고 강조한 바 있다. 달로즈 CEO는 "그동안 여러 산업서 수집한 텍스트와 이미지, 비디오 등 다양한 유형의 데이터를 수집해 3DX에 접목했다"며 "개발자는 이를 3D 모델링 작업에 적용해 현실 세계에 더 적합한 제품을 만들 수 있다"고 설명했다. 예를 들어 개발자가 3DX로 공장을 설계할 경우 이를 분자 수준까지 분석해 자재 성분이나 적용 결과를 시뮬레이션할 수 있다. 설계도를 축소하면 공장 전체의 물류와 공급망 흐름을 확인할 수 있다. 기존 소프트웨어 기술이 물리 AI와 결합해 구현할 수 있는 기능이다. "1차원 멀티모달 넘자…공간 지능으로 3차원 AI 구현" 문자와 이미지를 모두 처리하는 멀티모달 모델이 진전을 보이는 가운데 차세대 기술로 공간 지능 모델도 주목받고 있다. AI 업계 전문가들은 현존하는 멀티모달은 1차원적 AI에 그친다고 평했다. 모델이 글과 이미지, 음성 등 여러 정보를 한 번에 다룰 수 있지만 한계가 있다는 분석이다. 사람과 달리 모델은 이미지, 음성 등 모든 정보를 '텍스트'로 취급해 다뤄서다. 이에 고유 이미지와 영상의 진정한 의미를 이해할 수 없다. 모든 정보를 1차원적 토큰 시퀀스에 끼워 맞추는 셈이다. 공간 지능은 여기서 한발 더 나아간다. 사람처럼 현실의 3차원적 특성 중심으로 데이터 처리와 문제 해결을 진행한다. 멀티모달과 달리 문자, 이미지, 음성 등 여러 특성을 각각 고려하면서 데이터를 처리하는 셈이다. 기존 AI는 종이 위에 그려진 지도만 보고 방향을 찾으려 한다면, 공간 지능은 직접 그 장소를 걸어 다니며 주변 환경을 보고 느끼면서 방향을 찾는 셈이다. 현재 스탠퍼드대 페이페이 리 교수는 공간 지능 구현을 위해 스타트업 월드랩스를 설립했다. 현재 월드랩스는 공간 지능에 필요한 대형세계모델(LWM)을 개발 중이다. 다만 일반 멀티모달보다 데이터 학습·훈련에 드는 시간이 상당해 구체적 출시 시기는 미정이다. 리 교수는 "공간 지능은 AI 능력을 언어 중심적 이해를 넘어 자연과 물리 세계, 우주까지 영역을 확장할 수 있을 것"이라며 "증강현실(AR)·가상현실(VR) 기술 발전에 기여할 수 있을 것"이라고 자신했다.

2024.11.25 17:18김미정

AI 사업 전략 갈린 韓 빅테크…"美 협업 vs 독자 개발 우선"

밀키트는 손질된 식재료와 양념을 알맞게 담은 간편식입니다. 누구나 밀키트만 있으면 별도 과정 없이 편리하게 맛있는 식사를 할 수 있습니다. [김미정의 SW키트]도 마찬가지입니다. 누구나 매일 쏟아지는 소프트웨어(SW) 기사를 [김미정의 SW키트]로 한눈에 볼 수 있습니다. SW 분야에서 가장 주목받는 인공지능(AI), 보안, 클라우드 이야기를 재밌고 맛있게 보도하겠습니다. [편집자주] 국내 빅테크가 생성형 인공지능(AI) 시장 점유율을 높이기 위해 비즈니스 전략 다각화에 나섰다. 미국 기업과 손잡고 AI 모델·서비스 고도화에 나서는 한편, 모델을 독자 개발하면서 이를 수출하는 분위기가 공존하고 있다. 30일 업계에 따르면 KT는 마이크로소프트와 한국형 GPT-4o와 경량형 모델 파이(Phi), 코파일럿을 공동 개발하기로 했다. 한국 문화와 산업에 최적화된 AI 모델을 만들어 이를 기반으로 한 서비스를 선보이기 위해서다. KT와 마이크로소프트가 공동 개발한 맞춤형 AI 모델은 KT의 고객 서비스 챗봇 등을 비롯해 기업간거래(B2B) 고객을 위한 산업별 특화 AI 솔루션 구축에 활용된다. 여기에 KT 자체 AI 모델 '믿음'까지 고도화해 고객 수요에 맞춰 활용할 방침이다. KT는 마이크로소프트의 AI 비서 코파일럿을 자사 서비스에 접목할 방침이다. 이를 통해 KT 이용자들은 코파일럿 기반 AI 검색과 개인화 서비스를 이용할 수 있다. 앞서 올해 2월 SK텔레콤도 미국 생성형 AI 스타트업 퍼플렉시티와 파트너십을 체결했다. 양사는 대화형 답변 엔진을 통해 검색 시장을 공략하기로 했다. SK텔레콤은 해당 파트너십 이후 SK텔레콤 AI 비서 서비스 '에이닷' 고도화에도 나선 바 있다. 네이버·LG AI연구원 "AI 모델·독자 개발…수출 우선" 네이버클라우드와 LG AI연구원은 내부적으로 생성형 AI 모델 고도화에 집중하고 있다. 해외 기업과 협력해 모델·서비스를 만드는 것보다 이를 자체 개발해 해외 시장에 수출하겠다는 전략이다. 네이버클라우드 관계자는 "앞으로도 하이퍼클로바X 성능 고도화를 자체 진행할 것"이라고 밝혔다. 이에 하이퍼클로바X 기반 서비스 클로바X 등도 내부에서 자체 업그레이드를 진행할 예정이다. 다만 네이버클라우드는 소버린AI 생태계 구축 목표로 해외 교류를 더 늘릴 것이라고 밝혔다. 최근 사우디 데이터AI청와 파트너십 체결한 것이 대표 사례다. 또 AI 반도체 관련 협력을 위해 해외 기업과 협력하고 있다는 점도 재차 강조했다. 올 상반기 인텔과 AI 칩 프로젝트로 소규모 수익을 창출한 점도 그 예다. LG AI연구원도 생성형 AI 모델과 서비스를 자체 개발하고 있다. LG AI연구원은 엑사원 2.0에 이어 8월 멀티모달 모델 '엑사원 3.0'을 오픈소스로 공개한 바 있다. 온디바이스 AI에 들어갈 초경량 모델부터 범용 목적의 경량 모델, 전문 분야에 특화되거나 깊이 있는 연구를 위한 고성능 모델까지 활용 목적에 맞춰 다양한 사이즈 라인업으로 구성된 모델이다. 이와 함께 기업 구성원의 생산성을 향상하고 전문가 수준의 인사이트를 제공하는 '챗엑사원'도 출시했다. LG AI연구원 관계자는 "엑사원 모델군도 LG AI연구원이 독자 개발해 국내외에 공급하고 있다"며 "외부 서비스는 LG유플러스, LG CNS 등 계열사와 협업하는 방식으로 진행 중"이라고 설명했다.

2024.09.30 15:11김미정

[SW키트] 텔레그램에 퍼진 딥페이크, 다크웹이 더 문제다

밀키트는 손질된 식재료와 양념을 알맞게 담은 간편식입니다. 누구나 밀키트만 있으면 별도 과정 없이 편리하게 맛있는 식사를 할 수 있습니다. [김미정의 SW키트]도 마찬가지입니다. 누구나 매일 쏟아지는 소프트웨어(SW) 기사를 [김미정의 SW키트]로 한눈에 볼 수 있습니다. SW 분야에서 가장 주목받는 인공지능(AI), 보안, 클라우드 관련 이야기를 이해하기 쉽고 맛있게 보도하겠습니다. [편집자주] 생성형 인공지능(AI)을 악용한 딥페이크 이미지·영상이 텔레그램에 퍼진 가운데, 다크웹을 통한 딥페이크 음란물 확산 심각성도 인지해야 한다는 목소리가 나왔다. 전문가들은 텔레그램·다크웹 내 딥페이크 차단을 위해 기술 개발뿐 아니라 정부·기업 공조 수사가 필요하다고 입을 모았다. 29일 보안 업계는 텔레그램뿐 아니라 폐쇄적인 다크웹 환경에서도 딥페이크 영상과 사진을 잡기 어려울 것이라고 우려를 제기했다. 다크웹은 구글이나 네이버 등 일반적인 검색 엔진으로 접근할 수 없는 웹사이트들이 모여 있는 영역이다. 다크웹은 특별한 소프트웨어(SW)나 네트워크 권한이 있어야만 접근 가능하다. 누구나 쉽게 이용할 수 있는 텔레그램과 다른 개념이다. 딥페이크 음란물 포착이 다크웹서 더 어려운 이유다. 실제 노드VPN이 올 초 다크웹 게시판을 분석한 결과 소셜미디어(SNS), 텔레그램 등을 통해 유출된 노출 사진이나 영상에 댓글이 평균 1천850개 달리는 것으로 드러났다. 이에 텔레그램뿐 아니라 다크웹도 딥페이크 영상물 확산 통로로 지목되고 있다. 보안 업계는 다크웹 내 딥페이크 콘텐츠 포착이 어려운 이유로 강력한 데이터 휘발성을 꼽았다. 검색 환경이 잘 갖춰진 구글과 달리 다크웹 내 검색은 특정인 사진과 영상을 검색해도 찾기 어렵다는 의미다. 다크웹 시스템은 특수 브라우저 생성과 삭제를 통해 정보를 은닉할 수 있는 환경을 갖춘 셈이다. 이에 보안 기업들은 다크웹 내 콘텐츠 검색을 가능케하는 솔루션을 내놨다. 주로 다크웹 콘텐츠를 복원해 검색 결과에 드러나게 하는 기술을 갖췄다. 다만 이런 기능도 딥페이크 콘텐츠 포착을 100% 할 수는 없다. 한 보안업계 관계자는 "공격자들이 딥페이크 음란 콘텐츠가 쉽게 포착되지 않기 위해 틀린 정보를 의도적으로 흘리는 경우가 있다"며 "기술 개발이 아무리 뛰어나도 다크웹 내 딥페이크 음란 콘텐츠를 100% 걸러내기 힘든 이유"라고 본지에 강조했다. 딥페이크 차단 나선 정부…"기술 개발보다 공조 우선" 정부가 텔레그램·다크웹 내 딥페이크 음란물 차단을 위해 나섰다. 29일 과학기술정보통신부는 생성형 AI를 활용해 지인 대상 합성물을 제작 및 유포하는 딥페이크 예방을 위해 20억원 규모 예산을 편성했다고 발표했다. 과기정통부는 내년 예산안 브리핑에서 딥페이크 범죄 예방을 위해 연구개발(R&D) 과제에 착수한다고 밝혔다. 이주식 정보통신방송기술정책과장은 적대적 생성신경망(GAN) 기반 딥페이크 탐지 고도화 및 생성 억제 기술 개발에 10억원을 투자한다고 발표했다. 나머지 10억원은 자가진화형 딥페이크 탐지 기술 개발에 들어갈 방침이다. 이에 보안 업계는 정부가 딥페이크 차단 기술에만 집중해선 안 된다고 주장했다. 이보다 국내외 기업·기관과 수사 공조하는 것에 더 집중해야 한다고 입을 모았다. 현재 기술만으로 딥페이크 콘텐츠를 100% 포착하기 어렵기 때문이다. 또 딥페이크 콘텐츠 검색을 원활히 하기 위해선 국내외 콘텐츠 공급자와 꾸준한 소통이 이뤄져야 한다. 정부도 보안 업계 주장에 동의하는 분위기다. 우선 딥페이크 성범죄 콘텐츠 유포에 가장 많이 사용된 텔레그램 측과 소통을 시작하겠다고 밝혔다. 텔레그램은 해외 개발사 소유이므로 서버 위치가 해외에 있다. 차단 기술 개발뿐 아니라 서비스 공급자와 직접적 공조가 필요한 이유다. 국민의힘 김상훈 정책위의장은 29일 여의도 국회서 열린 딥페이크 성범죄 관련 부처 긴급 현안보고에서 "현재 텔레그램과 협력회의를 시작한 상태"라며 "상시 협의를 통해 핫라인을 확보할 것"이라고 했다. 이어 "그동안 국제 공조가 제대로 이뤄지지 않아 딥페이크 콘텐츠 차단에 어려움을 겪었다"며 "텔레그램과 원활한 소통을 통해 추가 피해를 막을 것"이라고 덧붙였다.

2024.08.29 16:42김미정

[SW키트] AI에게 줄 데이터가 부족하다…합성데이터 대안 될까?

밀키트는 손질된 식재료와 양념을 알맞게 담은 간편식입니다. 누구나 밀키트만 있으면 별도 과정 없이 편리하게 맛있는 식사를 할 수 있습니다. [김미정의 SW키트]도 마찬가지입니다. 누구나 매일 쏟아지는 소프트웨어(SW) 기사를 [김미정의 SW키트]로 한눈에 볼 수 있습니다. SW 분야에서 가장 주목받는 인공지능(AI), 보안, 클라우드 관련 이야기를 이해하기 쉽고 맛있게 보도하겠습니다. [편집자주] 생성형 인공지능(AI) 모델 발전에 필요한 데이터가 곧 고갈될 것이란 전망이 나오고 있다. 데이터가 AI 엔진 역할을 하는 만큼 데이터 고갈이 현실화하면 AI 모델 훈련을 추가로 진행할 수 없기 때문이다. 현재 이를 대체할 방안이 잇따라 나오고 있다. 전문가들은 AI로 만든 합성데이터를 모델에 훈련하자는 대안을 제시하고 있다. AI 모델에서 나온 결과물을 다시 모델에 넣어 학습 데이터로 재활용하는 식이다. 이를 조심스럽게 바라보는 이들도 있다. 만약 오류를 가진 합성데이터를 모델에 넣을 경우 AI 모델에 환각현상이 심해질 뿐 아니라 결국 모델 품질까지 떨어뜨린다는 주장도 나왔다. "합성데이터, AI 편향성 극복·희귀 데이터 수집 도와" 업계에서는 AI로 생성한 합성데이터가 모델 성능 향상에 유용할 것이라 입을 모았다. AI 알고리즘 편향성 감소와 희귀 데이터 수집 기회를 잡을 수 있다는 이유에서다. 15일 업계에 따르면 AI로 합성데이터를 만들어 고객사에 납품하는 개발사는 점차 늘어나는 분위기다. 해당 개발사들은 고객사에 부족한 데이터 종류를 AI로 제작해 채운다. 이를 통해 고객사는 데이터 제작 시간과 비용을 기존보다 줄일 수 있다. 김현수 슈퍼브에이아이 대표는 "실제 데이터를 수집하기 어려운 희귀하거나 극단적인 케이스가 포함된 데이터를 AI 합성을 통해 얻을 수 있다"며 "데이터 수집·라벨링 과정이 생략되기 때문에 데이터 취득비용을 줄이고 신속한 학습을 할 수 있다"고 강조했다. 김 대표는 합성데이터가 다양한 산업에서 작동하는 모델 기능을 올릴 수 있다고 주장했다. 그는 "특히 합성데이터는 국내외 제조 분야나 국방, 물리보안용 AI 모델에 유용할 수 있다"며 "취득하기 어려운 제조 결함이나 중대재해 사고, 화재, 드문 보안 이슈 데이터를 합성데이터로 채움으로써 모델 성능을 올리고 실제 위험에 대처할 수 있다"고 설명했다. 업스테이지 측은 합성데이터 생산 노하우가 개발 전략으로 자리 잡을 것이라고 봤다. 업스테이지 관계자는 "합성데이터를 고품질 정형 데이터로 적절히 융합해야 한다"며 "기업들이 자신에 맞는 융합 방식을 찾으면 그만큼 비용효율적인 대체제가 없을 것"이라고 강조했다. 이어 "각 기업이 같은 합성데이터를 이용해도 회사 기술력에 따라 모델 성능은 다를 것"이라고 덧붙였다. "오류 확증·재확산…연합학습법 등 다른 대안 필요" 합성데이터를 모델에 재사용하면 품질 저하를 일으킨다는 지적도 나왔다. 합성데이터에 오류가 있으면 모델이 환각현상 등 문제를 더 만들 수 있다. 최근 영국 옥스퍼드대에서도 논문을 통해 합성데이터 위험성을 경고했다. 연구진은 모델 개발·학습 과정에 합성데이터가 들어갈수록 모델 결함이 높아진다는 이론을 제시했다. 기존 오류와 새로운 환각 현상이 지속적으로 쌓이면서 결국 모델 붕괴 현상이 일어날 수 있다는 내용이다. 연구 책임자인 옥스퍼드대 일리아 슈마일로프 컴퓨터과학부 강사는 "현재 AI로 만든 합성데이터는 여러 면에서 약점을 지녔다"며 "이런 위험성을 객관적 수치로 알리는 것이 현대 과학자 의무"라고 강조했다. 국내 업계와 학계서도 합성데이터 활용에 조심스러운 입장이다. 네이버클라우드 하정우 AI혁신센터장은 "사람이 만든 데이터로만 모델을 학습시키면 편향이 발생한다"며 "이처럼 합성데이터를 모델에 과도하게 넣으면 모델 품질 하락 가능성도 있다"고 지적했다. 김동환 포티투마루 대표는 "합성데이터를 모델에 넣는 과정에서 오류가 발생할 수밖에 없고, 오류를 학습한 모델이 다시 합성데이터를 만들면서 결국 오류 전파(Error Propagation)를 보일 것"이라고 주장했다. 이어 "결국 생성물 자체가 현실과 괴리를 일으킬 것"이라며 "환각현상은 더 심해질 수 있다"고 내다봤다. 김 대표는 향후 데이터로 모델 성능 올리는 것 자체가 현실적으로 한계에 부딪혔다고 했다. 이에 대한 근거로 친칠라(Chinchilla) 법칙을 언급했다. 모델 파라미터가 2조 개에 이르면, 학습데이터 60조 개가 필요하다는 이론이다. 김 대표는 "이런 규모는 합성데이터를 통해서도 구성하기 힘들다"며 "이를 감당할 수 있는 그래픽처리장치(GPU) 등 인프라 확보조차 어렵기 때문"이라고 지적했다. 그는 대책도 제시했다. 김 대표는 "도메인 특화 경량화 모델로 데이터를 분산시키거나 연합학습으로 양질의 내부 데이터를 활용해야 한다"며 "이에 대한 연구가 진행돼야 할 것"이라고 말했다. 연합학습법은 분산된 여러 장치에서 모델을 학습하는 방법론이다. 데이터를 중앙 서버에 직접 옮기는 방식과 다르다. AI 모델 학습을 안전하고 경제적으로 진행할 수 있다고 평가받고 있다. 이에 대해 경희대 이경전 경영대학·빅데이터응용학과 교수는 "합성데이터 활용보단 연합학습 등 다양한 대안을 내놔야 한다"고 주장했다.

2024.08.15 11:00김미정

  Prev 1 2 Next  

지금 뜨는 기사

이시각 헤드라인

SKT, 임원 수 줄여 조직 재정비..."책임 경영 확대"

"이래도 안 봐?"...디즈니플러스, 오리지널 6편으로 韓 시장 잡는다

최신 밈부터 직원 꿀팁까지…GS25 '더블 100만' 팔로워 성공기

LG·벤츠, AI 전장·배터리서 '빅딜' 기대…"폭넓은 협의 나눴다"

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.