• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 인터뷰
  • 인사•부음
  • 글로벌뉴스
창간특집
인공지능
배터리
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'합성 데이터'통합검색 결과 입니다. (10건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

AI·빅데이터+생명공학 융합할 '합성생물학법' 세계 첫 제정

AI나 빅데이터 등 첨단 디지털 기술이 생명과학과 융합할 법적 근거가 세계 처음 마련됐다. 과학기술정보통신부는 최수진 의원(국민의힘)이 대표 발의한 '합성생물학 육성법' 제정안이 2일 국회 본회의를 통과했다고 밝혔다. 합성생물학은 인공지능(AI)·빅데이터 등 첨단 디지털기술과 바이오 기술이 융합한 첨단바이오 분야 대표 기술이다. DNA나 세포 등을 새로 설계·제작·합성하는 기술이다. 이번에 제정한 법안에 따르면 정부는 국가차원의 합성생물학 육성 및 추진체계를 마련해야 한다. 이에 따라 과기정통부 장관은 합성생물학 육성 기본계획을 5년마다 수립해야 한다. 과기정통부 장관은 또 합성생물학의 연구개발 혁신과 확산 및 산학연 간 유기적인 협력체계 구축을 위해 연구개발 거점기관을 지정할 수 있다. 정부는 또 합성생물학 연구개발 및 활용을 위한 핵심 인프라인 바이오파운드리를 구축·운영할 수 있다. 합성생물학 연구데이터 활용에 필요한 시책도 수립·시행하게 된다. 또한 합성생물학 관련 성과확산 및 상호 호환성 확보 등을 위해 합성생물학 표준화에 관한 시책을 수립·추진할 수 있고, 전문인력 양성·확보 및 국제협력 추진을 촉진할 법적 근거도 마련했다. 이외에 연구개발 지침, 안전관리체계 구축·운영, 사회적 이해증진 등의 책임관리 의무도 있다. 합성생물학 육성법은 국무회의 의결 및 공포를 거친 후 1년의 경과 기간을 둔 뒤 오는 2026년부터 시행된다. 과기정통부는 조만간 시행령 등 하위법령을 제정하고, 가이드라인을 마련하는 등 후속조치를 취할 계획이다 유상임 과기정통부 장관은 “합성생물학 육성법이 제정된 것은 세계 최초"라며 "무한한 잠재력을 지닌 합성생물학 분야에 국가적 방향성과 전략을 부여한 주요한 이정표가 마련됐다"고 말했다.

2025.04.02 18:30박희범

씨이랩 "가짜도 진짜처럼 쓸 수 있다"…합성데이터 품질 인증 '최고등급' 획득

씨이랩이 자사의 합성 데이터에 대해 품질인증 최고등급을 획득했다. 합성 데이터도 고품질로 관리할 수 있다는 점을 입증해 인공지능(AI) 학습 시장에서 '가짜도 진짜처럼 쓸 수 있다'는 신호를 준 셈이다. 씨이랩은 과학기술정보통신부와 한국데이터산업진흥원이 주관하는 데이터 품질인증(DQ 인증) 사업에서 자사 합성 데이터에 대해 '클라스 A(Class A)' 등급을 받았다고 25일 밝혔다. 인증 평가와 등급 부여는 데이터 품질인증 전문기관인 와이즈스톤이 맡았다. 씨이랩이 인증에 제출한 데이터는 자사 플랫폼 '엑스젠(X-GEN)'으로 생성한 자동차(LVM)와 로고 이미지 데이터다. 각각 91개, 124개 클래스에 해당하며 약 2만장의 객체 및 라벨링 데이터로 구성됐다. 단 한 건의 오류도 없는 품질 덕분에 A 등급을 획득했다. '엑스젠'은 다양한 기상 조건, 시간대, 카메라 각도 등을 조합해 현실에서 얻기 어려운 학습 데이터를 자동 생성하는 씨이랩의 독자적 플랫폼이다. 분당 100장 이상의 데이터를 만들어 AI 학습에 필요한 데이터를 빠르게 확보할 수 있다. 이번 인증을 통해 씨이랩은 국내에서 처음으로 합성 데이터로 최고등급 품질 인증을 받은 기업이 됐다. 업계에서는 합성 데이터가 단순한 보조재가 아니라 신뢰 가능한 학습 자산이 될 수 있다는 점에서 의미가 크다고 평가한다. 씨이랩은 향후에도 데이터 품질 개선과 함께 비전 AI 모델 개발 역량을 높여 데이터 기반 산업 비즈니스 경쟁력을 강화하겠다는 방침이다. 이문규 씨이랩 책임리더는 "데이터 품질인증 A 등급 획득은 우리 데이터 생성 및 관리 기술력을 입증한 성과"라며 "AI 및 데이터 부족 문제 해결을 통해 산업 발전에 기여하겠다"고 말했다. 이영석 와이즈스톤 대표는 "씨이랩의 합성 데이터셋은 실제 데이터 수집의 한계를 극복하고 다양한 변수를 반영해 AI 학습에 필요한 고품질 데이터를 효율적으로 확보할 수 있는 가능성을 제시했다"고 밝혔다.

2025.03.25 11:37조이환

오픈AI·메타도 쓰는 'AI 엔진' 합성데이터…"안전성 검증 필요"

밀키트는 손질된 식재료와 양념을 알맞게 담은 간편식입니다. 누구나 밀키트만 있으면 별도 과정 없이 편리하게 맛있는 식사를 할 수 있습니다. [김미정의 SW키트]도 마찬가지입니다. 누구나 매일 쏟아지는 소프트웨어(SW) 기사를 [김미정의 SW키트]로 한눈에 볼 수 있습니다. SW 분야에서 가장 주목받는 인공지능(AI)과 보안 이야기를 이해하기 쉽고 맛있게 보도하겠습니다. [편집자주] 생성형 인공지능(AI) 모델 개발에 필요한 데이터가 고갈된다는 전망이 이어진 가운데 '합성데이터'가 대안으로 떠오르고 있다. 개인 식별정보나 민감정보 노출 없이 이용할 수 있다는 이점이 있지만 완전히 안심할 수 없다는 목소리가 높아지고 있다. 합성데이터에도 개인정보나 원본 데이터가 포함됐다는 이유에서다. 최근 AI 모델 복잡성이 늘면서 훈련에 필요한 데이터양도 증가한 추세다. 그러나 업계는 개인정보보호법 등 규제 이슈로 인해 모든 데이터를 자유롭게 수집·이용할 수 없다. 데이터 생성 속도도 한정적이다. 합성데이터가 주목받는 이유다. 이미 오픈AI를 비롯한 구글, 메타 등 빅테크는 모델 훈련에 합성데이터를 활용하고 있다. 합성데이터는 원본 데이터 형식과 구조·분포 특성을 학습해 생성된 가상데이터다. 가상 데이터기 때문에 원본 데이터에 있는 개인 식별정보나 민감정보를 노출하지 않고 데이터를 자유롭게 공유, 활용할 수 있다는 이점이 있다. 문자 등으로 이뤄진 정형데이터뿐 아니라 이미지, 동영상 형태인 비정형데이터가 합성데이터로 제작될 수 있다. 기업은 AI와 소프트웨어(SW) 개발에 필요한 의료·금융 데이터 등 민감·특수 데이터를 합성데이터로 대체할 수 있다. 합성데이터를 만들어 고객사에 납품하는 개발사도 늘고 있다. 해당 개발사들은 고객사에 부족한 데이터 종류를 AI로 제작해 채운다. 이를 통해 고객사는 데이터 제작 시간과 비용을 기존보다 줄일 수 있다. 김현수 슈퍼브에이아이 대표는 "실제 데이터를 수집하기 어렵거나 극단적인 케이스가 포함된 데이터를 AI 합성으로 얻을 수 있다"며 "데이터 수집·라벨링 과정이 생략돼 데이터 취득비용을 줄이고 신속히 학습할 수 있다"고 강조했다. 김 대표는 합성데이터가 다양한 산업에서 작동하는 모델 기능을 올릴 것으로 예측했다. 그는 "특히 합성데이터는 국내외 제조 분야나 국방, 물리보안용 AI 모델에 유용할 수 있다"며 "취득하기 어려운 제조 결함이나 중대재해 사고, 화재, 드문 보안 이슈 데이터를 합성데이터로 채움으로써 모델 성능을 올리고 실제 위험에 대처할 수 있다"고 덧붙였다. 업스테이지는 향후 합성데이터 생산 노하우가 개발 전략으로 자리 잡을 것이라고 봤다. 업스테이지 관계자는 "합성데이터를 고품질 정형 데이터로 적절히 융합해야 한다"며 "기업들이 자신에 맞는 융합 방식을 찾으면 그만큼 비용효율적인 대체제가 없을 것"이라고 강조했다. 이어 "각 기업이 같은 합성데이터를 이용해도 회사 기술력에 따라 모델 성능은 다를 것"이라고 설명했다. 정부도 합성데이터에 관심…"검증 시스템 강화 필요" 정부도 최근 합성데이터 생성과 활용에 필요한 가이드라인을 제시했다. 개인정보보호위원회는 지난달 '합성데이터 생성·활용 안내서'를 내놨다. 기업, 기관이 개인정보보호법을 준수하면서 합성데이터를 생성하고 활용하는 방법과 절차를 제공하기 위해서다. 발간된 보고서에 따르면 국내 합성데이터 생성 절차는 사전 준비부터 합성 데이터 생성, 안전성·유용성 검증, 심의윈회 평가, 활용·안전한 관리로 총 5단계로 이뤄졌다. 다만 전문가들은 합성데이터를 이용한다고 해서 모든 개인정보보호 이슈를 피할 수 있는 건 아니라고 주장했다. 합성데이터에도 개인정보가 포함될 수 있으며, 정보 편향성을 일으킬 수 있다는 이유에서다. 이에 합성데이터를 검증할 수 있는 시스템 구축도 중요해질 것이라고 입을 모았다. 업계 관계자는 "합성데이터 자체가 허위 정보나 편향된 정보를 생성할 수 있다"며 "합성데이터 내 개인정보가 재식별될 가능성도 배제할 수 없다"고 설명했다. 또 "합성데이터 품질이 낮은 상태에서 AI 학습에 활용되면 모델 성능 자체가 떨어질 수밖에 없다"며 "합성데이터 생성뿐 아니라 이를 검증할 수 있는 시스템 강화도 필요할 것"이라고 덧붙였다. 합성데이터에 개인정보가 포함될 수 있다는 주장도 나왔다. 개인정보위 안내서에 따르면 특히 부분 합성데이터에는 합성데이터 기록과 원본데이터 기록 간 연결 가능성이 높다. 활용 과정에서 개인정보보호 침해 등 안전 가능성이 낮아질 수 있다는 지적이다. 이에 수집 목적과 익명 정보 여부 등 합성데이터 성격에 따라 동의 필요성 등 적법요건 확인이 필요하다는 분위기다. 이 외에도 개인정보위는 비정형 합성데이터에 대한 연구가 추가로 필요하다고 지적했다. 이미지가 아닌 영상, 음성 및 멀티모달 데이터 등 다양한 비정형 합성데이터에 대한 안내도 추후 과제로 남아있다고 설명했다.

2025.01.10 16:13김미정

개인정보위, '합성데이터 생성·활용 안내서' 발간…데이터 활용 기준 마련

개인정보보호위원회(개인정보위)가 데이터 활용의 안전성을 높이기 위해 합성데이터 생성·활용 안내서를 발간했다. 개인정보보호위원회는 이번 안내서가 합성데이터의 생성과 활용 과정에서 필요한 안전기준과 절차를 담았다고 19일 밝혔다. 개인정보 식별 가능성을 최소화하면서도 데이터의 활용도를 높이기 위해서다. 안내서는 합성데이터 생성 절차를 사전 준비, 생성, 안전성 검증, 심의위원회 평가, 안전 관리로 나눠 단계별로 상세히 설명했다. 특히 합성데이터 활용 계획서, 개인정보 처리 계획, 안전성 검토 결과서 등 서식과 체크리스트를 함께 제시해 실무적 이해를 도왔다. 이번 가이드에는 이미지 등 비정형 합성데이터 생성 시 주의사항과 안전성 검증 방법도 포함됐다. 일반 대중에게 공개되는 데이터를 익명정보로 전환하기 위한 절차와 기준도 명확히 했다. 개인정보위는 지난 5월 발표한 '합성데이터 생성 참조모델'과 연계해 이번 안내서를 마련했으며 관련 사례는 '가명정보 지원 플랫폼'에서 확인할 수 있다. 산업과 연구 현장에서의 애로사항을 해소할 계기가 될 전망이다. 양청삼 개인정보정책국장은 "산학연과 법률 전문가들의 참여로 체계적인 안내서가 완성됐다"며 "이번 안내서를 통해 프라이버시 보호 기술로서 합성데이터의 잠재력이 더욱 활성화되길 기대한다"고 밝혔다.

2024.12.19 15:00조이환

"부족한 정보 AI로 채워"…SAS, 데이터 메이커 업그레이드

SAS가 고객사 합성 데이터 생성 기능을 위해 인공지능(AI) 제품군 포트폴리오를 확장한다. SAS는 헤이지 주요 소프트웨어 자산을 인수한다고 13일 밝혔다. 이번 인수를 통해 올해 초 발표한 'SAS 데이터 메이커' 기능이 확장될 예정이다. 업데이트 기능은 내년 초 전 세계 고객에 공개된다. SAS 데이터 메이커는 개인정보를 노출하지 않으면서 원본 데이터셋을 통계적으로 유의미한 수준까지 표현하는 합성 데이터를 생성한다. 이를 통해 프로세스를 간소화하고 자원을 절약함으로써 데이터 문제를 해결한다. 이를 통해 고객은 기존에 이용할 수 없던 합성 데이터셋를 통해 연구·개발에 이용할 수 있다. 고품질 합성 데이터를 신속한 생성함으로써 AI 프로젝트 개발 주기 가속화·시장 출시 기간 단축을 이룰 수 있다. 비용 많이 드는 데이터 수집 방식 의존도를 줄여 비용 절감과 분석용 데이터 접근성을 높일 수 있다. SAS는 해당 기능이 다양한 합성 데이터셋과 합성 데이터 프로세스를 통해 신뢰할 수 있는 AI 시스템을 지원함으로써 윤리 기준을 준수하고 있다. 이에 SAS 데이터 메이커는 식별 가능한 실제 정보를 노출하지 않는 합성 데이터를 생성함으로써 개인정보 보호·보안 강화와 원활한 기업 운영을 지원할 수 있다. 이번 인수로 SAS는 데이터 혁신에 선도적인 위치를 점할 수 있게 될 것으로 전망했다. 또 향후 'SAS 바이야'와의 통합을 통해 더욱 강력하고 안전한 AI 애플리케이션을 제공할 수 있을 것으로 봤다. 짐 굿나잇 SAS 최고경영자(CEO)는 "헤이지는 합성 데이터를 실제 적용 가능한 엔터프라이즈 제품으로 시장에 선보인 선구적인 기업"이라며 "애널리스트 평가에서 해당 분야의 최고 수준 소프트웨어 제공업체로 인정받고 있다"고 자평했다. 이어 "이번 헤이지 기술 통합으로 고객은 이전에는 접근할 수 없었던 시나리오를 실험하고 모델링할 수 있을 것"이라고 덧붙였다.

2024.11.13 14:54김미정

[기고] 인공지능 시대에 걸맞는 가명정보의 활용

챗GPT 등장 이후 인공지능(AI)과 신기술, 혁신적인 서비스의 개발을 해하지 않으면서도 이용자의 권리와 개인정보를 보호하려면 어떤 것을 고려해야 할 지에 대한 논의가 최근 활발해진 분위기다. 급변하는 정보사회에서 AI와 개인정보 보호에 있어 우리 사회가 취해야 할 균형 잡힌 자세가 어떤 것인지에 대해 법무법인 태평양 AI팀에서 [AI 컨택]을 통해 2주 마다 다뤄보고자 한다. [편집자주] 올해 초 개인정보보호위원회는 가명정보 처리에 관한 가이드라인을 개정하면서 비정형 데이터의 가명처리 기준을 정립했다. 여기서 비정형 데이터란 이미지, 영상, 음성, 텍스트와 같이 정해진 규격이 없는 데이터를 뜻한다. 이 가이드라인에서는 인공지능(AI) 개발과 밀접하게 관련된 7가지 주요 비정형 데이터 가명처리 예시가 소개됐다. 필자 역시 최근 정부, 지방자치단체, 기업의 가명처리 수준을 심사하면서 가명정보가 AI 기술 확산에 필수적인 역할을 하고 있음을 실감하고 있다. 가명정보에 관한 제도는 지난 2020년 개인정보 보호법 및 신용정보의 이용 및 보호에 관한 법률 개정으로 국내에 처음 도입됐다. 가명정보 제도가 처음 도입됐던 당시만 하더라도 가명정보 전문가는 드물었고 가명정보의 활용도 주로 정부나 지방자치단체를 중심으로 이뤄졌다. 그럼에도 불구하고 시간이 지나면서 통신사, 카드사, 대형병원 등 사기업에서도 가명정보 제도를 활용하기 시작했다. 또 개인정보보호위원회에서 운영하고 있는 가명정보 전문가 풀도 150명으로 확대됐다. 가명정보란 개인정보 일부를 삭제하거나 대체해 추가 정보 없이는 특정 개인을 알아볼 수 없도록 처리된 개인정보를 의미한다. 이러한 가명정보는 통계작성이나 과학적 연구 목적 등을 위해서는 정보주체의 동의 없이도 활용이 가능하다. 비록 가명정보도 개인정보의 한 유형이지만 일반 개인정보와는 다르게 보다 자유로운 활용이 가능하다. 이 점에서 가명정보는 AI 학습데이터 구축에 필수적이다. 일반 개인정보는 개인정보 보호법에 따라 엄격한 통제를 받아 AI 기술 개발에 일정 부분 제약을 줄 수밖에 없기 때문이다. 최근에는 합성데이터 활용에 관한 논의도 활발하다. 가명정보 역시 개인정보의 한 유형이기에 산업계에서는 보다 자유로운 데이터 활용을 위해 개인정보로 보기 어려운 유형의 데이터인 합성데이터를 고안했다. 합성데이터란 실제 데이터가 아닌 컴퓨팅 알고리즘을 기반으로 실제 데이터의 통계적 특성이나 패턴을 모방해 인위적으로 생성한 데이터다. 합성데이터는 기존의 가명정보와 달리 원본데이터를 마스킹하거나 범주화하는 등 원본을 변조하지 않는다. 대신 원본의 통계적 분포로부터 모의데이터를 추출하는 방식으로 생성된다. 적절하게 생성된 합성데이터는 원본 데이터와 유사한 수준의 가치를 지니면서도 익명성도 확보할 수 있다. 따라서 법적인 제약 없이 자유롭게 활용이 가능하다는 장점이 있다. 개인정보보호위원회도 이를 고려해 올해 안에 합성데이터 생성 및 활용에 관한 구체적인 기준을 담은 가이드라인을 발표할 계획이다. 가명정보 제도가 도입되면서 정부가 국가 AI 기술 경쟁력 확보를 위해 보다 자유로운 데이터 활용 방안을 모색하고 있다는 점은 긍정적으로 평가할 만하다. 그럼에도 불구하고 AI 학습데이터 구축을 위한 길은 여전히 멀게 느껴진다. 가명정보와 합성데이터가 AI 기술 개발에 큰 도움이 되는 것은 사실이지만 이들을 생성해내기 위해서는 원본 데이터가 필요하다. 이러한 원본 데이터에는 개인정보가 포함될 수밖에 없다. 결국 가명정보나 합성데이터를 통한 AI 학습을 위해서는 원본 개인정보를 적법하게 보유해야 하는 문제가 생긴다. 대형 통신사, 병원 및 대기업 등은 AI 학습을 위한 충분한 양의 개인정보를 보유하고 있어 큰 문제가 되지 않을 수 있다. 이와 반대로 영세한 업체들의 상황은 다르다. 그들은 경쟁력 있는 AI 기술을 개발할 역량이 있더라도 학습에 필요한 원본데이터를 확보하고 있지 못한 경우가 많다. 물론 영세업체는 외부에 공개된 정보를 통해 데이터를 확보하려고 시도할 수 있지만 이것 만으로는 충분한 가치를 창출하기 어렵다. 결국 이미 데이터를 충분히 보유하고 있는 기업이나 정부로부터 정보를 받아와야 한다. 그렇지만 데이터가 경쟁력인 시대에 기업이 정보를 쉽게 넘겨줄 리 없고 개인정보 보호법도 정보의 이전을 쉽게 허용하지 않는다. 보유하고 있는 개인정보를 다른 제3자에게 이전함에 있어서는 정보주체의 동의가 필요하거나 한정된 용도로만 이전 받아 사용할 수 있다는 제약이 따르기 때문이다. 최근 한 AI 스타트업 사업자가 지방자치단체가 보유한 개인정보를 이전 받아 가명처리한 후 지방자치단체 사무에 활용될 AI 소프트웨어를 개발해 납품한 사례가 있었다. 사업적인 측면에서만 본다면 이 소프트웨어는 지방자치단체 사무에 국한되지 않고 다른 영역에서도 폭 넓게 활용될 충분한 가치가 있었다. 그런데 AI 업체가 지방자치단체로부터 원본 개인정보를 넘겨 받아 이를 가명처리 하기만 한다면 가명정보로 개발한 AI를 지방자치단체 사무 만이 아니라 보다 넓은 목적으로 활용해도 괜찮은 것일까. 애초에 원본 개인정보를 이전 받은 목적이 지방자치단체 사무를 위한 것이었다면 그 활용 범위를 넓히는 것은 쉽게 단정짓기는 어려운 문제다. 가명정보 제도가 도입되고 데이터 활용이 보다 자유로워지기는 했으나 이로 인해 혜택을 보는 것은 처음부터 데이터 확보에 우위를 가진 자들로 국한되고 있는 것은 아닌지 아쉬움이 남는다. 보다 근본적으로 AI 시대에 걸맞은 데이터 활용을 위해 정보의 이전을 활성화하는 제도적인 개선이 이뤄지기를 기대해본다.

2024.08.29 10:57법무법인 태평양 이준호

[김미정의 SW키트]① AI에게 줄 데이터가 부족하다…합성데이터 대안 될까?

밀키트는 손질된 식재료와 양념을 알맞게 담은 간편식입니다. 누구나 밀키트만 있으면 별도 과정 없이 편리하게 맛있는 식사를 할 수 있습니다. [김미정의 SW키트]도 마찬가지입니다. 누구나 매일 쏟아지는 소프트웨어(SW) 기사를 [김미정의 SW키트]로 한눈에 볼 수 있습니다. SW 분야에서 가장 주목받는 인공지능(AI), 보안, 클라우드 관련 이야기를 이해하기 쉽고 맛있게 보도하겠습니다. [편집자주] 생성형 인공지능(AI) 모델 발전에 필요한 데이터가 곧 고갈될 것이란 전망이 나오고 있다. 데이터가 AI 엔진 역할을 하는 만큼 데이터 고갈이 현실화하면 AI 모델 훈련을 추가로 진행할 수 없기 때문이다. 현재 이를 대체할 방안이 잇따라 나오고 있다. 전문가들은 AI로 만든 합성데이터를 모델에 훈련하자는 대안을 제시하고 있다. AI 모델에서 나온 결과물을 다시 모델에 넣어 학습 데이터로 재활용하는 식이다. 이를 조심스럽게 바라보는 이들도 있다. 만약 오류를 가진 합성데이터를 모델에 넣을 경우 AI 모델에 환각현상이 심해질 뿐 아니라 결국 모델 품질까지 떨어뜨린다는 주장도 나왔다. "합성데이터, AI 편향성 극복·희귀 데이터 수집 도와" 업계에서는 AI로 생성한 합성데이터가 모델 성능 향상에 유용할 것이라 입을 모았다. AI 알고리즘 편향성 감소와 희귀 데이터 수집 기회를 잡을 수 있다는 이유에서다. 15일 업계에 따르면 AI로 합성데이터를 만들어 고객사에 납품하는 개발사는 점차 늘어나는 분위기다. 해당 개발사들은 고객사에 부족한 데이터 종류를 AI로 제작해 채운다. 이를 통해 고객사는 데이터 제작 시간과 비용을 기존보다 줄일 수 있다. 김현수 슈퍼브에이아이 대표는 "실제 데이터를 수집하기 어려운 희귀하거나 극단적인 케이스가 포함된 데이터를 AI 합성을 통해 얻을 수 있다"며 "데이터 수집·라벨링 과정이 생략되기 때문에 데이터 취득비용을 줄이고 신속한 학습을 할 수 있다"고 강조했다. 김 대표는 합성데이터가 다양한 산업에서 작동하는 모델 기능을 올릴 수 있다고 주장했다. 그는 "특히 합성데이터는 국내외 제조 분야나 국방, 물리보안용 AI 모델에 유용할 수 있다"며 "취득하기 어려운 제조 결함이나 중대재해 사고, 화재, 드문 보안 이슈 데이터를 합성데이터로 채움으로써 모델 성능을 올리고 실제 위험에 대처할 수 있다"고 설명했다. 업스테이지 측은 합성데이터 생산 노하우가 개발 전략으로 자리 잡을 것이라고 봤다. 업스테이지 관계자는 "합성데이터를 고품질 정형 데이터로 적절히 융합해야 한다"며 "기업들이 자신에 맞는 융합 방식을 찾으면 그만큼 비용효율적인 대체제가 없을 것"이라고 강조했다. 이어 "각 기업이 같은 합성데이터를 이용해도 회사 기술력에 따라 모델 성능은 다를 것"이라고 덧붙였다. "오류 확증·재확산…연합학습법 등 다른 대안 필요" 합성데이터를 모델에 재사용하면 품질 저하를 일으킨다는 지적도 나왔다. 합성데이터에 오류가 있으면 모델이 환각현상 등 문제를 더 만들 수 있다. 최근 영국 옥스퍼드대에서도 논문을 통해 합성데이터 위험성을 경고했다. 연구진은 모델 개발·학습 과정에 합성데이터가 들어갈수록 모델 결함이 높아진다는 이론을 제시했다. 기존 오류와 새로운 환각 현상이 지속적으로 쌓이면서 결국 모델 붕괴 현상이 일어날 수 있다는 내용이다. 연구 책임자인 옥스퍼드대 일리아 슈마일로프 컴퓨터과학부 강사는 "현재 AI로 만든 합성데이터는 여러 면에서 약점을 지녔다"며 "이런 위험성을 객관적 수치로 알리는 것이 현대 과학자 의무"라고 강조했다. 국내 업계와 학계서도 합성데이터 활용에 조심스러운 입장이다. 네이버클라우드 하정우 AI혁신센터장은 "사람이 만든 데이터로만 모델을 학습시키면 편향이 발생한다"며 "이처럼 합성데이터를 모델에 과도하게 넣으면 모델 품질 하락 가능성도 있다"고 지적했다. 김동환 포티투마루 대표는 "합성데이터를 모델에 넣는 과정에서 오류가 발생할 수밖에 없고, 오류를 학습한 모델이 다시 합성데이터를 만들면서 결국 오류 전파(Error Propagation)를 보일 것"이라고 주장했다. 이어 "결국 생성물 자체가 현실과 괴리를 일으킬 것"이라며 "환각현상은 더 심해질 수 있다"고 내다봤다. 김 대표는 향후 데이터로 모델 성능 올리는 것 자체가 현실적으로 한계에 부딪혔다고 했다. 이에 대한 근거로 친칠라(Chinchilla) 법칙을 언급했다. 모델 파라미터가 2조 개에 이르면, 학습데이터 60조 개가 필요하다는 이론이다. 김 대표는 "이런 규모는 합성데이터를 통해서도 구성하기 힘들다"며 "이를 감당할 수 있는 그래픽처리장치(GPU) 등 인프라 확보조차 어렵기 때문"이라고 지적했다. 그는 대책도 제시했다. 김 대표는 "도메인 특화 경량화 모델로 데이터를 분산시키거나 연합학습으로 양질의 내부 데이터를 활용해야 한다"며 "이에 대한 연구가 진행돼야 할 것"이라고 말했다. 연합학습법은 분산된 여러 장치에서 모델을 학습하는 방법론이다. 데이터를 중앙 서버에 직접 옮기는 방식과 다르다. AI 모델 학습을 안전하고 경제적으로 진행할 수 있다고 평가받고 있다. 이에 대해 경희대 이경전 경영대학·빅데이터응용학과 교수는 "합성데이터 활용보단 연합학습 등 다양한 대안을 내놔야 한다"고 주장했다.

2024.08.15 11:00김미정

정부, 아태지역에 韓 정보보호 정책 소개

정부가 해외 관계자들과 아시아·태평양 지역의 개인정보 현안과 정책을 논의했다. 개인정보보호위원회는 이달 20일부터 21일까지 캐나다 브리티시 컬럼비아주 개인정보 감독기구가 화상으로 주최한 '제61차 아시아태평양 개인정보보호감독기구 협의회(APPA) 포럼'에 참석했다. 포럼은 글로벌 개인정보 이슈에 대한 공동 대응 방안 논의, 개인정보 감독기구 간 국제협력 증진, 감독기구의 역량 제고 등 실효적인 국제 논의의 장을 형성하기 위해 매년 상·하반기 연 2회 개최된다. 1일차 '국가별 동향 보고' 세션에서는 각국 개인정보 감독기구들이 아동에 대한 개인정보 보호, 인공지능(AI) 관련 개인정보 정책과 소셜네트워크(SNS) 등 여러 조사·처분 사례를 공유했다. 개인정보위 최장혁 부위원장이 지난 2월 마련한 '비정형 데이터 가명처리 가이드라인'을 이 자리에서 소개했다. 최장혁 부위원장은 "오픈AI의 '소라' 등과 같이 영상이나 이미지를 생성하는 AI 서비스 개발 및 확산에 따라 비정형 데이터 활용 수요가 커졌다"며 "이에 기업 현장에서의 불확실성을 해소하고, 보다 안전한 데이터 활용 기반을 마련하기 위해 이번 가이드라인을 만들었다"고 밝혔다. 2일차 포럼에서는 합성데이터, 연령 확인 정책 등에 관한 패널 토론 세션이 진행됐다. '합성데이터 패널 토론'은 동 분야에서 세계적으로 저명한 칼리드 엘 에맘 교수가 진행을 맡았다. 대한민국과 싱가포르 개인정보위, 캐나다 국가 디지털 및 데이터 전환 위원회에서 패널로 참여했다. 고학수 개인정보위 위원장은 패널로 참석해 최근 발표한 '한국의 합성데이터 참조 모델'을 공유했다. 고학수 위원장은 "아태지역 국가들과 개인정보 정책 및 동향을 공유·논의할 수 있었던 뜻깊은 자리였다"며 "특히 지난 2월 우리 위원회를 방문해 국내 법 개정 경험을 공유했던 말레이시아 감독기구가 협의체 회원이 된 것을 환영한다"는 뜻을 밝혔다. 이어 "아태 지역 간 협력을 강화하면서 아시아 지역 개인정보 감독기구의 역량 제고를 지원하는 데 더 많은 관심을 기울여 나가겠다"고 소감을 전했다.

2024.06.23 12:00김미정

개인정보위, 각계 전문가와 합성데이터 활용 방안 모색

개인정보보호위원회(이하 개인정보위)가 개인 정보를 보호하면서도 산업적 활용도가 높은 '합성데이터'의 활용법을 찾기 위해 각계 전문가와 논의를 실시했다. 30일 개인정보위와 한국인터넷진흥원은 “데이터 경제시대의 핵심기술, '합성데이터' 안전 활용 방안”을 주제로 '2024년도 제1회 개인정보 기술포럼(이하 '기술포럼') 세미나를 개최했다. 이날 세미나는 순천향대 염흥열 정보보호학과 교수인 기술포럼 의장의 개회사를 시작으로 ▲합성데이터의 의미와 국내외 발전 동향 ▲통계 및 AI 기반 합성데이터 생성기술과 검증 방법 ▲개인정보위와 서울시의 합성데이터 생성‧개발 사례 등에 대한 각계 전문가의 발표가 진행됐다. 이어진 패널토론에서는 기술포럼 기술분과 위원장인 김순석 한라대 교수를 좌장으로 각계 전문가가 토론에 참여했다. 토론에서 합성데이터의 활용 현황과 활성화 저해 요인, 활용 확대를 위한 각계의 역할과 과제 등에 대해 심도 있는 논의가 오고 갔다. 최장혁 개인정보위 부위원장은 “합성데이터는 대표적인 개인정보보호 강화기술(PET)로 AI 혁신성장을 주도하면서 안전한 개인정보 활용을 담보할 수 있는 주요한 방법”이라고 강조했다. 더불어 “개인정보위는 합성데이터 관련 규율체계를 구축하고, 합성데이터 생성‧검증 기술에 대한 R&D 사업을 추진하는 등 합성데이터의 활성화를 위해 지속적으로 노력해 나가겠다”라고 말했다.

2024.05.30 12:01남혁우

'디지털 바이오', 게임체인저로 대대적 육성

정부가 2035년 바이오 선진국으로 도약하기 위한 '첨단바이오 이니셔티브'를 추진한다. 디지털 바이오를 게임 체인저로 육성하겠다는 것이 핵심이다. 국가과학기술자문회의는 25일 용산 대통령실에서 이우일 부의장 주재로 전원회의를 열고 대한민국의 새로운 성장 DNA로 첨단바이오 산업을 육성, 제2의 반도체 신화를 쓰는 것을 골자로 하는 '첨단바이오 이니셔티브'를 의결했다. ■추진배경 : 바이오 시장 커지며 정부 위기의식 최근 첨단바이오가 디지털화・플랫폼화・전략기술화 되는 추세다. 글로벌 바이오 시장은 2021년 기준 약 2천500조원 규모다. 우리나라 3대 수출산업(반도체, 석유화학, 자동차) 글로벌 시장규모 합과 유사한 규모로 고속 성장하고 있다는 것이 정부 시각이다. 주요 글로벌 기업들은 제약산업은 물론, 제조업 분야에까지 첨단바이오 기술을 도입, 혁신을 시도했다. 세계 각국도 바이오 산업에 촉각을 곤두세웠다. 미국은 백악관 과학기술정책실(OSTP) 주도로 바이오기술・바이오제조 이니셔티브 행정명령(2022)을 마련했다. OSTP・상무부・국방부가 공동의장을 맡는 '국가 바이오경제위원회'도 최근 출범했다. 유럽은 최근 바이오기술 및 바이오제조 정책 방안을 발표했다. 바이오기술법 제정, 바이오테크 허브 설립 등을 추진한다. 중국은 지난 2022년 바이오경제 5개년 계획을 수립하고, 바이오 경제 및 산업을 국가전략 분야로 격상했다. 이에 정부가 바이오 산업의 경쟁력을 강화하고, 세계 시장 선점을 위한 첨단바이오 이니셔티브를 추진하게 됐다. 2022년 우리나라 정부 바이오 R&D투자는 5조 2천억원, 민간 R&D 투자는 6조 5천억원 규모다. 2019년부터 민간 바이오 R&D투자 규모가 정부 R&D투자 규모를 넘어섰다. 바이오 분야 기술 수준은 최고기술 보유국(미국) 대비 2018년 75.2%에서 2022년 79.4%로 격차가 더 커졌다. ■첨단바이오 이니셔티브 4대 미션 이번 이니셔티브는 첨단 바이오 선도국 도약을 위해 ▲혁신기반기술과 ▲고품질 데이터 간 결합을 통해 ▲새로운 서비스 플랫폼과 국민의 ▲체감가치를 창출하는 '바이오 가치사슬'을 강화한다는데 초점을 맞췄다. ❶ AI·디지털 기술 융합한 혁신플랫폼 개발 정부는 데이터와 인공지능, 바이오가 결합된 디지털바이오를 주력분야로 집중 육성한다. 바이오 소재・의료 등 산재된 바이오 데이터의 통합 플랫폼과 빅데이터를 확보하고, 이를 유용한 데이터셋으로 가공・표준화하는 등 데이터를 고도화할 방침이다. 또 인체 분자 표준지도 구축과 유전자・신약 AI플랫폼 개발 등 데이터 활용을 촉진할 수 있는 기술개발을 강화한다 이와함께 바이오 분야에 AI・디지털 기술을 융합한 혁신플랫폼 개발도 지원한다. 유전체 영역별(coding/non-coding)로 유전서열 변이 위험도를 예측하는 인공지능 플랫폼과 항체설계 인공지능 플랫폼, 디지털 뇌융합 플랫폼 등의 기술개발도 지원할 계획이다. ❷바이오 제조 혁신으로 소재・제조산업 육성 바이오 제조혁신을 통해 기존 석유화학 기반의 소재산업을 바이오 기반으로 전환한다. 바이오 부품에 대한 설계・합성・초고속 스크리닝 기술 등 합성생물학 핵심기술을 확보한다. 또 이를 지원할 합성생물학 특화연구소를 지정, 육성할 방침이다. 바이오파운드리 구축을 통해 바이오 제조의 자동화・고속화도 촉진한다. 장기적으로는 농식품・해양・에너지별 특화된 바이오파운드리와 생산용 표준모델 균주 등도 확보할 계획이다. 또한, 바이오 공정기반 친환경・고기능성 소재, 의약품 핵심원료와 부자재 등 바이오 분야의 핵심 소재・부품・장비 관련 산업을 적극 육성해 나갈 방침이다. 바이오플라스틱 등 첨단바이오 신소재를 개발하는 한편, 의약품 핵심원료・부자재・장비 등 바이오 소부장 국산화율 15%를 2030년 목표로 핵심품목들에 대한 기술개발 로드맵 수립 및 전주기 관리도 지원한다. 한편 정부는 합성생물학 6대 전략기술로 ①DNA・RNA 디자인, ②단백질 설계, ③대사경로(유전자회로) 제어, ④미생물 기반 화학소재, ⑤동물세포 기반 백신・치료제, ⑥식물세포 기반 대체식품 및 그린바이오 소재 등을 선정했다. ❸ 바이오 의료 기술 혁신 삶의 질 제고 첨단바이오 기반의 혁신적인 기술로 국민 삶의 질과 건강 수준 제고에도 나선다. 후생유전학・RNA편집・역노화 등 창의적이고 파괴적인 혁신기반기술 연구와 함께, 상용화에 가깝거나 해외 상용화 사례가 있는 치료제, AI・디지털 융합형 의료기기 등에 대한 기술개발 및 임상・상용화 지원도 강화한다. 미정복 질환극복과 의료위기 대응을 위한 임무지향적 보건의료 기술개발도 강화해 나갈 계획이다. 오가노이드 기반 약물평가 시스템이나 생체칩 등 인공 대체시험 플랫폼도 확보한다. mRNA 백신 플랫폼 기술 확보를 추진하는 한편, 초소형 유전자가위나 프라임 에디팅 같은 차세대 유전자가위 개발도 지원한다. ❹ 기후변화, 식량부족 등 인류 난제 해결 바이오수소, 바이오디젤, 인공광합성, 생분해성 플라스틱 등 탄소중립 사회를 위한 기술개발을 가속화할 방침이다. 기후변화와 함께 정치・경제 갈등으로 고도화되는 식량안보 우려 및 우리나라의 높은 식량 수입의존도에 대응, 이상기상이나 병해충의 피해를 덜 받는 고품질 신품종 개발 및 고부가 대체식품 개발 등 농수산업 기술혁신 지원을 강화할 계획이다. 우리나라 식량 자급률은 2022년 기준 쌀이 104.8%, 밀이 1.3%, 콩이 28.6%, 옥수수가 4.3%다. 이와함께 코로나19 등 신변종 감염병 재발생 가능성에 대비하기 위해 감염병 관련 예방・치료・진단・감시・예측 등 전주기 지원은 물론, mRNA백신 플랫폼 국산화와 신속한 방역기술 확보도 지원한다. ■첨단바이오 위한 기반 구축 적극 나서 정부는 이같은 과제 추진을 위해 인재양성, 산업생태계 조성, 인프라 구축, 글로벌 협력, 법・제도 개선을 통한 규제혁신에도 적극 나설 방침이다. 바이오+디지털, 바이오+공학 등 다학제간 과정을 통해 융합형 인재를 양성하고, 바이오 분야의 창업부터 민간투자까지 이어지는 바이오 산업의 전주기 지원을 강화해 나갈 계획이다. 충북 오송 첨단바이오 특화단지, 인천 송도 K-바이오 랩허브 등 지역 기반 바이오 클러스터도 전략적으로 육성할 계획이다. 또 최첨단 바이오 연구시설・장비는 물론, 슈퍼컴・자동화 연구실 등 바이오 첨단 인프라를 확충하는 한편, 바이오 빅데이터-클라우드 기반의 실험 자동화 시스템도 구축한다. 첨단바이오 선도국과의 공동연구와 정책공조를 강화하고, 첨단바이오 신흥기술에 대한 선제적 법・제도 기반 및 규제개선 로드맵 마련 등도 추진한다. 이종호 과학기술정보통신부 장관은 “첨단바이오는 바이오가 디지털・나노・소재・물리・화학 등 여러 기술과 융합하여 제조・보건의료・농업・환경 등 다양한 분야의 혁신을 촉진할 수 있는 분야”라고 설명하면서, “향후 합성생물학, 바이오 데이터 플랫폼, AI・디지털바이오 등 주요 기술분야별로 세부 실행계획도 수립하는 등 이번 이니셔티브를 차질 없이 추진해 우리나라가 2035년 글로벌 바이오 선도국에 진입할 수 있도록 하겠다”라고 밝혔다.

2024.04.25 18:32박희범

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

"요금 올리거나, 무료 풀거나"…OTT, 전략 분화

"책 대신 '아이패드'로 수업을"…디지털이 바꾼 교실 풍경은

과학자들, 납으로 금 만들었다…'연금술사의 꿈' 실현되나

[ZD브리핑] 아시아 IT 박람회 컴퓨텍스 개최...21대 대선 후보 첫 토론회

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현