• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
2026전망
스테이블코인
배터리
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'데이터셋'통합검색 결과 입니다. (4건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

"AI 학습, 사진 2장이면 충분"…스누아이랩, 국제 권위 학회서 기술력 입증

단 2장의 사진으로 인공지능(AI)을 학습시킬 수 있는 방법을 제시한 국내 기업의 기술이 국제 권위 학회에서 인정받았다. 그동안 적게는 수천, 수만장의 데이터가 필요했던 AI 학습과정의 비용을 낮출 뿐 아니라 데이터가 부족한 분야도 보다 원할하게 AI를 도입할 수 있을 것으로 주목 받고 있다. 스누아이랩은 24일 이미지 노이즈 합성 모델 연구 논문이 '전미인공지능학회 2026(AAAI 2026)'에 채택됐다고 밝혔다. AAAI는 미국인공지능협회가 주관하는 학회 시리즈로, 전 세계 연구자와 기업이 최신 AI 연구 성과를 경쟁하는 대표 무대 중 하나로 꼽힌다. 이번 AAAI 2026에 2만3천680건의 논문이 제출됐고 4천167건이 채택돼 채택 비중이 약 18% 수준다. 단 2장의 이미지로 데이터 부족 해결…해법은 AI 합성 채택 논문 제목은 '가이드노이즈: 일반화된 노이즈 합성을 위한 단일 쌍 가이드 확산 모델(GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis)'이다. 핵심은 원본이미지 한장과 노이즈가 발생한 사진 1장만 있으면 카메라와 촬영 환경에서 나타나는 불필요한 요소(노이즈)를 더한 학습용 데이터를 만들 수 있다는 점이다. 이를 통해 데이터가 부족해도 데이터를 만들어 학습을 진행할 수 있는 구조다. 현실 세계에서 발생하는 노이즈는 생각보다 복잡하다. 카메라 센서 특성, 이미지 신호 처리(ISP) 과정, ISO 감도, 조명, 촬영 온도 같은 조건이 겹치면서 노이즈의 형태가 달라진다. 같은 카메라라도 설정이 바뀌면 패턴이 바뀐다. 예를 들어 CCTV나 스마트폰 카메라로 촬영한 영상은 밤이 되거나 조명이 어두우면 충분한 빛을 확보하지 못해 화질 저하가 발생한다. 또한 태양광, LED 조명 등 광원의 종류나 피사체의 재질에 따라 카메라 센서가 받아들이는 노이즈의 패턴과 색감은 미세하게 달라진다. 스누아이랩이 제시한 기술은 원본 이미지의 반사광이나 명암을 인식해 그 환경에 맞는 현실적인 노이즈를 입혀줌으로써 AI가 다양한 조명 환경에 적응하도록 돕는다. 그동안 이를 해결위해 현장에서 수천 장의 사진을 일일이 찍어 데이터를 모아야 했다. 비용과 시간이 막대하게 드는 만큼 제조 라인, 보안 관제, 의료 영상처럼 촬영 조건이 다양하고 미세한 영역일수록 비용과 시간이 부담이 됐다. 스누아이랩은 논문을 통해 자체 개발한 가이드노이즈 기술을 이용해 원본사진과 노이즈가 있는 사진 한쌍으로 해당 환경의 노이즈 특성을 완벽하게 분석해낼 수 있음을 증명했다. 반면 가이드노이즈는 확산모델 기반 생성 방식을 활용해, 메타데이터 없이도 '가이드 이미지 1쌍'에서 노이즈의 질감과 분포를 읽어내고 이를 다른 이미지로 전이하는 방식을 제안했다. 이 기술을 적용하면 AI는 2장의 샘플을 가이드 삼아 특정 카메라로 찍은 것과 동일한 품질의 노이즈 이미지를 무한대로 합성해낼 수 있다는 구상이다. 논문은 이를 위해 두 가지 기술을 결합했다. 먼저 가이드 인식 변형 기술(GAFM)은 가이드 이미지에서 추출한 노이즈 특징을 신경망 내부의 특징 맵 수준에서 조정해 깨끗한 입력 이미지에 자연스럽게 반영한다. 노이즈 인식 정제 손실 기술은 합성 결과가 실제 노이즈의 분포와 더 가깝게 맞춰지도록 학습 목표를 추가한다. 연구지는 결과가 최종 이미지에 수렴하는 마지막 단계에서 정제를 집중해 미세한 차이를 줄이려 했다고 밝혔다. 진짜 같은 노이즈 생성…기존 모델 대비 15% 이상 우위 연구팀은 가이드노이즈의 성능을 검증하기 위해 세계적으로 통용되는 노이즈 데이터셋인 SIDD 등을 활용해 비교 실험을 진행했다. 논문에 따르면 노이즈의 실제 유사도를 나타내는 지표인 '평균 쿨백-라이블러 발산(AKLD)' 평가에서 가이드노이즈는 0.113을 기록했다. 이 평가는 수치가 낮을수록 생성된 노이즈가 실제와 유사함을 뜻한다. 가이드노이즈의 기록은 기존 최신 기술인 NA플로우가 기록한 0.131나 NeCA의 0.133 대비 오차를 약 15% 이상 줄인 수치로 현존하는 모델 중 가장 실제에 가까운 노이즈를 생성한 것이다. 특히 합성된 데이터의 실용성이 돋보였다. 연구팀이 합성 데이터만으로 학습시킨 AI 모델의 이미지 복원 성능(PSNR)은 37.07 데시벨(dB)**을 기록했다. 이는 실제 데이터를 사용해 학습했을 때의 성능인 37.16dB과 비교해 차이가 0.1dB 미만에 불과한 수준이다. 값비싼 실제 데이터 수집 없이 합성 데이터만으로도 상용화 수준의 고성능 AI를 개발할 수 있다는 가능성을 수치로 증명한 것이다. 스누아이랩 측은 이 기술이 데이터 확보가 어려운 산업 현장에서 빛을 발할 것으로 전망했다. 데이터 반출이 힘든 반도체 제조 공장이나 개인정보 문제로 데이터 수집이 까다로운 의료 영상 분야에서도 소량의 샘플만으로 고성능 AI 모델을 구축할 수 있을 것이란 예상이다. 더불어 비전 AI의 전처리, 복원 품질을 끌어올리는 기반 기술이 될 수 있다고 보고 있다. 노이즈가 줄면 객체 탐지, 결함 분류, 문자인식(OCR), 이상 징후 탐지 등 후속 모델의 정확도도 함께 개선될 여지가 크다는 분석이다. 유명호 스누아이랩 대표는 "이번 AAAI 논문 채택은 스누아이랩의 연구 성과가 글로벌 무대에서 경쟁력을 인정받은 결과"라며 "현실 제약이 큰 산업 현장에서 저비용, 고효율로 성능을 끌어올릴 수 있는 비전 AI 기술을 지속적으로 고도화하겠다"고 밝혔다.

2025.12.24 10:01남혁우

"한국형 LLM 키운다"…정부, 24억 들여 AI 성능평가 데이터 구축

과학기술정보통신부(과기정통부)가 한국형 생성형 인공지능(AI) 모델의 경쟁력을 끌어올리기 위해 성능평가용 고품질 데이터셋 구축에 나섰다. 영어 위주의 기존 평가 체계를 보완하고 국내 문화·문맥을 반영한 새로운 기준점을 제시하겠다는 전략이다. 과기정통부와 한국지능정보사회진흥원은 다음 달 7일까지 '성능 평가 데이터셋 구축 사업'의 수행기관을 공개 모집한다고 17일 밝혔다. 이번 사업은 독자 AI 파운데이션 모델 개발의 후속 조치로, 총 24억원을 투입해 수학, 지식, 장문이해 등 3개 분야에서 평가 데이터를 만든다. 평가 데이터는 한국어 기반 거대언어모델(LLM)의 성능을 정량·정성적으로 검증할 수 있도록 구성된다. 과제당 지원금은 8억원이며 수행기관은 컨소시엄 형태로 참여해야 하고 초거대 AI나 대규모 자연어처리 개발 경험이 있는 기업 또는 기관이 필수로 포함돼야 한다. 우선 구축 대상은 ▲수학 ▲지식 ▲장문이해 등 세 가지다. 수학 분야는 한국어-영어 병렬 형태로 추론형 수학 문제와 정답을 구성하며 글로벌 고난도 문제집 수준의 난이도를 요구한다. 지식 분야는 한국형 역사·문화 등을 평가할 수 있도록 주제별 질의-정답과 추론형 문항을 포함해야 하며 글로벌 공통 지식 항목도 함께 설계해야 한다. 장문이해 분야는 32K 이상 긴 문맥을 기반으로 논리 판단, 문맥 결속력 등을 테스트할 수 있는 업무수행형 데이터가 핵심이다. 정부는 이번 공모를 통해 구축된 데이터셋을 '정예팀'뿐만 아니라 국내 모든 AI 개발기관에 공개할 계획이다. 향후 멀티모달, 에이전트 AI 영역까지 평가영역을 넓힌다는 구상도 포함돼 있다. 이번 공모는 과제 제안부터 최종 평가까지 단계별로 품질 검증과 산출물 보완 절차가 마련돼 있다. 공고는 오는 8월까지 진행되며 11월 중간 점검을 거쳐 12월 최종 평가 후 결과물이 도출된다. 이후 내년 1월부터는 본격적인 보완 및 확산이 추진된다. 김경만 과기정통부 인공지능기반정책관은 "국민이 체감할 수 있는 고성능 AI 모델을 확보하려면 평가 기준도 우리 사회와 문화가 반영돼야 한다"며 "이번에 구축되는 성능평가 데이터셋은 국내 AI 생태계 전반의 활용을 염두에 두고 공개할 예정"이라고 밝혔다.

2025.07.17 15:03조이환

ETRI, "일자리 이젠 AI에 물어보세요"

일자리를 AI가 맞춤형으로 찾아주는 길이 열렸다. 한국전자통신연구원(ETRI)은 디토닉(주) 및 고려대학교와 데이터 프로파일링 기술과 데이터 허브 상호운용 자동화 기술을 개발했다고 밝혔다. 이 기술은 국제 컨소시엄에서 개발된 웹 표준을 기반으로 한 자율·협업형 데이터 허브기술이다. 연구진은 "서로 다른 분야 데이터 특성과 형식을 자세하게 표현하고 언제 어디서나 정확한 데이터를 찾을 수 있다"며 "향후 자율·협업형 데이터 허브 구축도 가능하다"고 말했다. 연구진은 21일 경기창조경제혁신센터에서 .구직자의 맞춤형 일자리 추천과 역량향상 교육 프로그램을 시연했다. 연구진은 "구직과 교육이 주요 대상이지만, 연구진은 향후 의료 및 공공 등 다양한 분야로 확장할 수 있다"고 설명했다. 연구진은 이번 기술시연에서 ▲데이터 거버넌스의 개념 ▲데이터 허브 생태계 구축 ▲데이터 프로파일 ▲분산 데이터 파이프라인 ▲시범서비스 시연 및 컨설팅 등을 설명하는 자리도 마련했다. 데이터 프로파일링 기술과 데이터 허브 상호운용 자동화 기술은 웹 표준을 기반으로 개발했다. 데이터 허브 간 상호운용 세션 관리 기술은 한국정보통신기술협회(TTA)에서 국내 표준으로 제정했다. 세계 처음이다. 연구진은 "현재 국제표준단체 국제전기통신연합(ITU) SG13에서 이 기술의 국제 표준화를 추진 중"이라고 덧붙였다. 세부 기술로는 △데이터 허브 협업을 지원하는 개방형 데이터 거버넌스 플랫폼 기술 △데이터 카탈로그 교환 및 데이터 변화 동기화 기술 △하이퍼 메타데이터 기반 데이터 프로파일링 기술 등을 꼽았다. 연구진은 "일자리 정보 실시간 동기화 기반 및 구직자 맞춤형 일자리 추천 서비스를 일자리 사이트에 적용한 결과, 구인․구직 매칭률이 크게 개선됐다"고 말했다. 한편 연구팀은 이와 관련한 SW를 일반에 공개할 계획이다. ETRI 원희선 사이버브레인연구실장은 “기술 실증을 위해 여러 일자리 사이트 간에 채용 정보를 수집, 공유하고 변동이 생기는 즉시 반영해 사회적 약자를 대상으로 최적의 일자리를 추천하는 서비스"라고 말했다. ETRI는 헬스케어 및 제조 분야에 기술이전을 추진, 오는 2026년 상용화한다는 방침이다. 연구는 과학기술정보통신부와 정보통신기획평가원이 지원하는 SW컴퓨팅산업원천기술개발사업의 일환으로 개발했다. 과제명은 '고품질 데이터셋의 적시·적소 활용을 지원하는 데이터옵스 프레임워크 기술개발'이다.

2024.11.21 09:48박희범

[현장] KISA, AI 데이터셋 '공유'…사이버보안 '강화'

"인공지능(AI) 도입은 모든 산업 분야에서 중요하지만 이로 인해 기존 보안 체계로 막기 힘든 위협이 발생할 가능성이 큽니다. AI 도입을 촉진하는 동시에 보안강화를 위해 사이버보안 AI에 활용될 데이터셋을 적극 구축해야 합니다." 한국인터넷진흥원(KISA) 이동근 디지털위협대응본부장은 26일 용산에서 열린 '2024 사이버보안 AI 데이터셋 우수 활용 성과공유회'에서 이같이 밝혔다. 이 본부장은 "AI 데이터셋 구축은 민간 주도로는 어려운 점이 많다"며 "KISA가 관련 기관과 협력해 적극적으로 관련 활동을 추진하고 있다"고 설명했다. 이이 KISA의 실질적인 데이터 구축활동과 계획에 대해 발표를 맡은 최보민 선임연구원은 지난해 20억 건의 사이버보안 AI 데이터셋을 구축하는 데 성공했다고 강조했다. 최 연구원은 "최신 침해 사고, 위협 인텔리전스, 위협 헌팅에 대한 데이터셋을 구축해 사회 이슈 전반에 대한 위협 중심 침해지표(IoC)를 확보하고 있다"며 "90여 기관에서 실효성 검증을 진행했고 각 기관의 데이터셋 니즈를 파악해 맞춤형 보안 모델 제작을 지원하겠다"고 설명했다. 이날 행사에 참석한 여기어때 컴퍼니 윤진환 사이버보안센터장은 KISA의 데이터셋이 AI 기술을 통한 보안관제 및 분석에 중요한 역할을 할 것임을 강조했다. 윤 센터장은 "보안관제와 분석에서 제일 중요한 건 이상 징후 판단의 자동화"라며 "이를 위한 AI 탐지 모델을 개발할 때 학습 데이터 생성에 드는 시간과 업무를 대폭 줄이기 위해 KISA 데이터셋 실증에 참가했다"고 밝혔다. 또 그는 "KISA 데이터셋 기반 학습 데이터의 학습 성능이 정확도 99% 이상으로 측정됐다"며 "실제 보안 담당자 사고 처리 이력 52만 건과 비교했을 때 모델 정확도가 98.5%로 뛰어난 성능을 보였다"고 덧붙였다. 이날 행사에선 국방과학연구소, 로그프레소, 샌즈 랩, 코난테크놀로지스 등 기관·기업도 참여해 성과 사례를 발표하고 최신 사이버 보안 및 위협 현황에 대해 설명했다. 또 행사장 외부에는 부스가 설치돼 실증 프로세스를 설명하고 참여를 독려했다. 광주광역시청 사이버보안 관제센터 역시 KISA 데이터셋을 활용해 신뢰성 있는 대량 데이터를 확보함으로써 데이터 초기 구축 비용과 시간을 절감한 것으로 파악됐다. 이 데이터셋은 AI 모델 훈련에 사용돼 실증검사 결과 기존 시스템이 탐지하지 못한 위협을 탐지하는 등의 성과를 보였다. 광주광역시 임동우 주무관은 "시청 핵심 인프라와 데이터 자산 보호는 매우 중요하다"며 "광주시 또한 AI 보안 모델을 도입하기 위해 시도하고 있다"고 설명했다. 이어 "향후 데이터셋 개방 시 활용 방안을 다각도로 분석 및 검토해 보안 관제 적용 범위를 확대하겠다"고 덧붙였다.

2024.07.26 20:33조이환

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

AI PC 확산 본격화... 새해도 GPU·NPU 성능 경쟁 예고

[유미's 픽] "주사위는 던져졌다"…국대 AI 첫 탈락자, 1차 발표회서 판가름?

엔씨 '아이온2', 달라진 '소통 운영'에 새해 전망도 '맑음'

"쿠팡 용의자, 성인용품 주문내역까지 협박에 활용"

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.