• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
배터리
인공지능
양자컴퓨팅
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'EMNLP 2025'통합검색 결과 입니다. (1건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

S2W, LLM 토크나이저 취약성 규명 논문 EMNLP 2025 채택

에스투더블유(S2W)와 KAIST 공동연구팀의 대규모언어모델(LLM) 토크나이저 취약성 규명 논문이 세계 최고 권위 자연어처리 학회인 EMNLP 2025에 채택됐다. 에스투더블유와 한국과학기술원(KAIST) 연구진은 2025년 EMNLP에 논문을 게재한다고 10일 밝혔다. 이번 채택으로 에스투더블유는 글로벌 최고 권위 AI 학회에 4년 연속 논문을 등재하는 성과를 거뒀다. '비정상적 단어쌍을 통해 드러난 바이트 단위 토크나이저의 불완전 토큰 취약성'라는 제목의 이번 논문은 대규모언어모델(LLM) 내부의 토크나이저 구조가 환각(hallucination)을 유발할 수 있음을 실험적으로 규명한 내용이다. 연구진은 특히 바이트 단위로 문자를 분해·처리하는 바이트 레벨 토크나이저에서 '불완전 토큰'이 생성되는 과정을 분석했다. 불완전 토큰은 문자 경계가 잘려 의미가 온전하게 보존되지 않은 토큰을 뜻한다. 연구 결과에 따르면 불완전 토큰은 비정상적 바이그램(improbable bigram) 패턴을 만들어낸다. 이런 패턴은 모델이 문맥을 잘못 복원하게 하고, 궁극적으로 사실과 다른 내용을 생성하는 환각으로 이어질 수 있다. 영어는 문자당 1바이트로 표현되지만 한국어·일본어·중국어 등은 한 글자가 여러 바이트로 표현된다. 이로 인해 바이트 페어 인코딩(BPE) 기반 토크나이저는 비영어권 언어에서 불완전 토큰을 더 자주 생성하는 경향을 보였다. 에스투더블유 공동저자이자 최고기술책임자(CTO)인 박근태 연구원은 "이번 논문은 소버린 AI 논의에 중요한 시사점을 준다"며 "토크나이저가 자국어를 안정적으로 처리하지 못하면 자국어 기반 AI 모델의 신뢰성을 확보하기 어렵다"고 설명했다. 박 CTO는 이어 "S2W는 신뢰할 수 있는 AI를 만들기 위한 선도적 연구를 지속 창출할 것"이라고 덧붙였다. 에스투더블유는 2022년 다크웹 언어 관련 연구, 2023년 다크버트(DarkBERT) 관련 ACL 채택, 2024년 자체 개발 사이버보안 문서 특화 모델 '사이버튠(CyBERTuned)' 관련 NAACL 발표 등으로 학계와 산업계에서 연속적인 연구 성과를 쌓아왔다. 이번 연구는 특히 비영어권 사용자 경험과 모델 신뢰성 개선, 국가 차원의 AI 정책과 데이터 전략 수립에 활용될 수 있다는 점에서 의미가 크다. 연구진은 향후 토크나이저 설계 개선 방안과 언어별 전처리 기법 보완을 통한 환각 저감 연구를 계속해 나갈 계획이라고 밝혔다.

2025.11.10 17:04남혁우

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

2인자 물러나고 '이재용의 삼성' 개막…후속 인사에 쏠린 눈

구글의 韓 고정밀지도 해외반출 '운명의 날' D-1

T1, 롤드컵 3연속 우승…풀세트 접전 끝 KT 제압

[종합] 韓 클라우드, AI 인프라 힘입어 나란히 성장…GPU 확보·효율화 경쟁 '점화'

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.