• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
인공지능
스테이블코인
배터리
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'파인웹'통합검색 결과 입니다. (1건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

엘리스그룹, '한국어 AI 교육용 데이터셋' 허깅페이스에 공개...1900억 토큰 규모

엘리스그룹(대표 김재원)이 한국어 교육용 데이터셋 2종을 글로벌 오픈소스 플랫폼 '허깅페이스'에 공개했다고 14일 밝혔다. 엘리스그룹은 한국어 AI 모델 학습에 적합한 고품질 데이터를 연구자, 개발자, 기업이 폭넓게 활용할 수 있도록 제공해 국내외 AI 연구·개발 활성화를 지원할 계획이다. 이번에 공개된 데이터셋은 거대 언어 모델(LLM)의 한국어 성능을 학술·교육 도메인에서 강화하기 위해 설계된 '한국어 파인웹 교육 데이터셋 데모'와 '한국어 웹 텍스트 교육 데이터셋' 2종으로 구성됐다. 한국어 파인웹 교육 데이터셋 데모는 영문 교육용 웹 텍스트 코퍼스(Corpus, 말뭉치)인 FineWeb-Edu를 한국어로 번역한 데이터셋 'korean-translated-fineweb-edu-dedup'의 5%를 샘플 형태로 구성한 데모다. 학술·교육 도메인의 한국어 LLM 학습에 활용할 수 있도록 설계했으며, 대규모 학습에 앞서 데이터 특성과 활용 가능성을 검증하는 용도로 제공된다. 데모의 원본인 korean-translated-fineweb-edu-dedup은 약 1천900억(190B) 토큰 규모의 대형 텍스트 데이터셋으로 수천만 페이지 분량에 해당한다. 다국어 데이터를 함께 활용할 경우 파운데이션 모델 학습에 활용 가능한 수준의 규모다. 이번에 공개한 한국어 파인웹 교육 데이터셋 데모는 이 중 5% 분량의 샘플이지만 오픈소스로 공개된 한국어 고품질 데이터셋 중에서는 대규모 수준에 해당한다. 함께 공개된 한국어 웹 텍스트 교육 데이터셋은 대규모 한국어 웹 텍스트에서 교육적 가치 점수를 통과한 콘텐츠만 선별해 구축했다. 사실성·문맥 일관성·교육 적합성을 평가해 한국어 AI 모델 학습에 활용할 수 있도록 구성했다. 이번 데이터셋 공개는 엘리스그룹이 AI 인프라, 모델 학습, 교육·산업 현장 적용까지 축적해 온 경험을 바탕으로 이뤄졌다. 엘리스그룹은 이번 데이터셋 공개를 통해 한국어 AI 연구 환경의 진입 장벽을 낮추는 한편, 교육·연구·공공 영역에서 한국어 AI 모델 활용을 지원할 계획이다. 또 AI 인프라·클라우드·데이터 엔지니어링 역량과 연계해 한국어 특화 AI 서비스와 솔루션 개발을 가속화한다는 전략이다. 엘리스그룹 김수인 CRO는 “데이터 접근성과 품질은 AI 기술 발전의 핵심 요소”라며 “엘리스그룹은 실제 모델 학습과 서비스 환경에서 검증된 기준을 적용해 연구자와 개발자, 기업이 보다 쉽게 활용할 수 있는 고품질 데이터셋을 구축했다”고 말했다. 이어 “앞으로도 데이터·모델·인프라를 아우르는 기술 역량을 기반으로 한국어 AI 연구와 산업 생태계 성장에 지속적으로 기여하겠다”고 덧붙였다.

2026.01.14 09:06백봉삼

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

"OO 엄마세요?"...학부모 필독 '보이스피싱' 피하는 법

SK하이닉스, AI 추론 병목 줄이는 '커스텀 HBM' 정조준

[유미's 픽] 현대차, 박민우-류석문 쌍두마차 체제로 SDV 양산 '가속'

美 정부, 엔비디아 H200 中 수출 허용...군사 목적 외 가능

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.