• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
인공지능
배터리
양자컴퓨팅
컨퍼런스
칼럼•연재
포토•영상

ZDNet 검색 페이지

'구글블로그'통합검색 결과 입니다. (1건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

구글, AI 학습 데이터 '1만 분의 1'로 줄이는 방법 찾았다

구글이 대규모 언어모델(LLM) 학습에 필요한 데이터를 획기적으로 줄이는 '액티브 러닝(Active Learning)' 기반 데이터 선별 기법을 지난 7일(현지시간) 자사 블로그에 공개했다. 기존에는 수십만 건 이상이 필요한 학습 데이터를 단 수백 건으로 줄이면서도, 모델 성능을 유지하거나 오히려 개선하는 결과를 얻었다는 설명이다. 이번 연구는 온라인 광고에서 '정책 위반'이나 '유해 콘텐츠'를 판별하는 모델 고도화를 목표로 했다. 광고 안전성 판별은 단순 키워드 필터링을 넘어, 문화·맥락을 이해하는 고급 해석 능력이 필요하다. 이런 복잡한 작업에는 LLM이 유리하지만, 고품질 학습 데이터 확보가 어렵고 비용이 많이 든다는 한계가 있었다. 특히 광고 정책이 바뀌거나 새로운 유형의 유해 콘텐츠가 등장하면, 방대한 데이터를 다시 수집·학습해야 하는 문제도 있었다. 구글이 제안한 방식은 '적은 양의 고품질 데이터'로도 모델을 빠르게 재학습할 수 있게 하는 것이 핵심이다. 먼저, 예시 몇 개만 제공한 초기 모델(LLM-0)로 광고를 분류한 뒤, 분류 결과를 비슷한 특성끼리 묶어(클러스터링) 모델이 혼동하는 영역을 찾는다. 이후 서로 다른 판정을 받은 비슷한 사례 쌍을 전문가에게 보내 정확한 판정을 받는다. 이렇게 선별된 데이터는 다양성과 정보성을 동시에 확보하며, 다음 학습에 활용된다. 이 과정을 반복해 모델과 전문가의 의견 일치율을 높인다. 성능 평가는 '코헨 카파(Cohen's Kappa)'라는 지표를 활용했다. 이는 정답이 명확하지 않은 분류 작업에서 두 명의 판정자가 우연 이상의 수준으로 얼마나 일치하는지를 나타낸다. 카파 값이 1에 가까울수록 의견 일치도가 높다. 실험 결과, 구글은 10만 건의 대규모 데이터 대신 250~450건의 전문가 판정 데이터만으로도 기존과 같은 수준, 혹은 65% 향상된 모델 정합도를 달성했다. 특히 파라미터가 큰 모델일수록 데이터 절감 효과가 극대화돼, 실서비스에서는 최대 1만 배 적은 데이터로도 품질을 유지하거나 개선할 수 있었다고 밝혔다. 구글은 이번 방식이 광고 안전성뿐 아니라 정책이 자주 변하거나 위험 요소가 빠르게 진화하는 다른 분야에도 적용 가능하다고 보고 있다. 구글 측은 “LLM의 폭넓은 탐색 능력과 전문가의 정밀한 판별을 결합해 데이터 병목 현상을 해소할 수 있다”며 “앞으로도 데이터 품질과 효율성을 동시에 높이는 연구를 이어갈 것”이라고 말했다.

2025.08.10 08:58백봉삼

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

비트코인, 업비트 기준 사상 최고가…1억6천680만원 돌파

AI 개발 하루에 GPU 1억…SKT 김태윤 담당 "그룹 전폭 지원에 감사"

[ZD브리핑] 국정기획위, 정부조직 개편안 발표 임박…방통위 향방 주목

KT, 분기 영업익 1조원 돌파...부동산+임단협 미반영 효과

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.