• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
CES2026
스테이블코인
배터리
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'TTS'통합검색 결과 입니다. (6건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

수퍼톤, 새 TTS모델 '소나 스피치2' 출시..."웃음소리 완벽 구현"

AI 음성 기업 수퍼톤은 새로운 TTS 모델인 '소나 스피치2'를 출시했다고 9일 밝혔다. 이 모델의 이전 버전인 '소나 스피치1'은 지난 2월 정식 출시된 AI 음성 서비스 '수퍼톤 플레이'를 비롯해 수퍼톤 API 등 다양한 TTS 서비스에 적용돼 왔다. 실제 사람의 발화 스타일과 감정 정보까지 학습해 자연스러운 음성을 구현해 호평을 받고 있는 수퍼톤 TTS 기술의 핵심이다. 출시와 동시에 '수퍼톤 플레이'에 탑재된 소나 스피치2는 텍스트를 자연스럽게 읽는 수준을 뛰어넘어 문맥을 이해해 발화 속도, 호흡, 억양을 재현하고, 웃음 소리나 목을 가다듬는 소리 같은 비언어적인 표현까지 생생하게 구현한다. 소나 스피치1이 맑고 안정적인 음성에 자연스러운 표현력을 더한 것이 특징이라면, 소나 스피치2는 캐릭터성이 살아있는 음성을 만들어주기 때문에 오디오북처럼 실제 사람이 연기하는 것 같이 몰입도가 중요한 콘텐츠를 제작할 때 유용하다. 지원하는 언어 역시 국내 TTS 솔루션 가운데 최대다. 이전 버전에서 제공하던 한국어·영어·일본어는 물론, 프랑스어·독일어·스페인어·중국어(간체·번체)·베트남어·인도네시아어·태국어·러시아어·아랍어 등까지 더해져 총 23개 언어를 지원하며, 향후 30개로 확대할 계획이다. 23개의 언어에 대해 '보이스 클로닝' 기능도 제공해 사용자들은 단 한 번의 녹음만으로 자신의 목소리 톤은 유지한 채 언어 장벽 없이 텍스트를 음성으로 변환할 수 있다. 지난달 오픈소스로 공개한 바 있는 온디바이스 기반 TTS 모델 '수퍼토닉'도 '수퍼톤 플레이'에 탑재됐다. 수퍼토닉은 사용자 기기 자체에서 AI 연산 처리가 되는 온디바이스 모델로, GPU나 클라우드, 네트워크 연결 없이 실시간 수준으로 텍스트를 음성으로 바꿔준다. 클라우드로 데이터를 전송하지 않기 때문에 보안이 필수적인 금융, 의료, 보안 산업 분야에서 활용도가 높다. 특히 이번 '수퍼토닉' 모델에서는 오픈소스 공개 버전에서는 없었던 보이스 클로닝 기능을 제공하는가 하면, 한국어·영어·일본어·스페인어·포르투갈어 등 5개의 언어를 지원해 사용자의 편의성을 높였다. 이번에 다양한 TTS 모델이 대거 추가되면서 사용자들의 선택지도 많아졌다. 수퍼톤 플레이를 이용할 때 사용자들은 콘텐츠의 목적과 제작 환경에 따라 기존의 소나 스피치1을 비롯해, 새롭게 추가된 소나 스피치2, 수퍼토닉 중 최적의 모델을 선택해 활용할 수 있다. 예컨대, 챗GPT를 이용할 때 원하는 AI 모델을 선택할 수 있는 것처럼 감정 표현이나 자연스러운 연기가 필요하거나 보다 다양한 언어로 된 콘텐츠를 제작할 때는 소나 스피치2를, GPU나 클라우드, 네트워크 연결이 어렵거나 보안이 요구되는 환경에서는 수퍼토닉을 선택하면 된다. 이 밖에, 소나 스피치2와 수퍼토닉은 API(application Programming Interface)로도 서비스된다. API는 개발자들이 다른 서비스에서 제공하는 데이터나 기능을 가져와 자사 서비스에 내재화할 수 있는 일종의 디지털 연결고리다. 다양한 TTS 모델이 API로 제공됨에 따라 개발자들은 구현하고자 하는 서비스의 특징이나 개발 환경에 따라 모델을 선택해서 개발에 활용할 수 있다. 수퍼톤은 사용자의 PC에 다운로드해서 이용할 수 있는 '수퍼톤 플레이 데스크톱'을 지난달 19일 베타 출시하기도 했다. 이는 클라우드가 없는 일반 PC 환경에서도 빠르고 편리하게 텍스트를 다양한 캐릭터의 음성으로 바꿔주는 윈도우(Windows) 및 맥(Mac)용 소프트웨어다. 수퍼톤은 이달 22일부터 수퍼톤 플레이 데스크톱 사용자 중 프로(Pro) 요금제를 이용할 경우, 무제한으로 음성을 생성할 수 있는 혜택을 제공할 예정이다. 수퍼톤 관계자는 “소나 스피치2는 언어의 장벽을 넘어 누구나 글로벌 시장에서 활동할 수 있는 창작 환경을, 수퍼토닉은 장소와 장비 제약 없는 완전한 실시간 제작 환경을 제공한다”며 “앞으로도 AI 음성 기술을 지속해서 선보여 서비스 품질을 높이고, 창작자들이 원하는 방식으로 기술을 활용하고 창작할 수 있는 생태계를 만들어가겠다”고 밝혔다.

2025.12.09 10:08안희정

수퍼톤, TTS 모델 '수퍼토닉' 오픈소스 공개..."클라우드 없어도 OK"

AI 음성 기업 수퍼톤이 클라우드나 값비싼 GPU 없이도 실시간으로 텍스트를 고품질의 음성으로 바꿔주는 AI 모델을 공개하고 개발 생태계 확장에 나선다. 수퍼톤은 지난 19일 온디바이스 기반의 TTS(Text-to-Speech) 모델 '수퍼토닉(Supertonic)'을 누구나 자유롭게 사용·수정·배포할 수 있는 오픈소스로 공개했다고 20일 밝혔다. 수퍼토닉은 일반 노트북이나 모바일 환경에서도 빠른 속도로 구동하는 모델이라는 게 가장 큰 특징이다. 사용자의 기기 자체에서 AI 연산 처리가 되는 온디바이스 모델이기 때문에 클라우드나 네트워크 연결 없이도 텍스트를 고품질의 음성으로 바꿔준다. 클라우드 서버로의 데이터 송수신도 없어서 이로 인한 지연 문제나 정보 유출 등의 우려가 적다. 또, 6천600만개 파라미터(매개변수)의 초경량 구조로 설계되었기 때문에 교육용의 초소형 컴퓨터는 물론, 고가의 GPU가 없는 일반 노트북이나 모바일 환경에서도 실시간 수준으로 음성을 생성할 수 있다. 수퍼톤 내부 벤치마크 결과, 일반 노트북 환경에서 수퍼토닉은 초당 약 2500자 이상의 텍스트를 음성으로 변환했다. 이는 글로벌 주요 TTS 모델이 초당 400자 내외의 음성을 생성하는 것과 비교해 압도적으로 빠른 속도다. 수퍼토닉의 소스코드는 개발자 협업 플랫폼인 '깃허브(GitHub)'에서, 모델의 학습 결과물인 체크포인트와 모델을 체험해볼 수 있는 데모 페이지는 AI 모델 공유 플랫폼인 '허깅페이스(Hugging Face)'에서 만나볼 수 있다. 개발자들의 편의를 위해 소스 코드는 파이썬, C++, 자바스크립트 등 8개 이상의 프로그래밍 언어로 지원된다. 수퍼톤은 '수퍼톤(Supertone) API'를 통해 '소나 스피치 2t(Sona Speech 2t)'도 연내 선보일 계획이다. 소나 스피치 2t는 수퍼토닉과 마찬가지로 온디바이스 TTS 모델이지만, API(application Programming Interface) 형태로 제공된다는 차이가 있다. API는 개발자들이 다른 서비스에서 제공하는 데이터나 기능을 가져와 자사 서비스에 내재화할 수 있는 일종의 디지털 연결고리다. 소나 스피치 2t는 영어, 한국어, 일본어, 스페인어, 포르투갈어에 대한 TTS가 가능한 형태로 서비스될 예정이다. 이교구 수퍼톤 대표는 “수퍼토닉 오픈소스 공개로 온디바이스 TTS 기술의 표준화와 경량화를 선도하고, 개발자 커뮤니티와의 협업을 확대할 계획”이라며 “인공지능 컨택센터(AICC), 음성 에이전트, 에듀테크나 이러닝 등 다양한 산업군에서의 음성 AI 기술 활용 범위를 넓혀갈 것”이라고 말했다.

2025.11.20 11:18안희정

코난테크놀로지, GS인증 1등급 획득…AI 음성 인식 기술력 입증

코난테크놀로지가 생성형 인공지능(AI) 공공시장에 이어 AI 음성인식 시장 확대에도 속도를 내며 기술력을 입증하고 나섰다. 코난테크놀로지는 지난 달 자체 음성인식 기술 '디칩스(D-Cheeps)'로 GS 인증 1등급을 획득했다고 4일 밝혔다. '디칩스'는 코난테크놀로지가 독자 개발한 STT(Speech-to-Text) 엔진의 상표명으로, 10만 시간 이상의 고품질 음성 데이터를 학습하고 중앙처리장치(CPU) 기반 다채널 환경에서도 실시간 인식이 가능한 것이 특징이다. 또 최신 거대언어모델(LLM) 아키텍처를 적용해 문자 인식률 95% 이상을 달성, 동종 업계 최고 수준의 음성인식 성능을 입증했다. 현재 코난테크놀로지의 음성인식기술(STT)·LLM·음성합성기술(TTS) 기반 자동번역 등 최신 생성형 음성 기술은 ▲회의록 자동작성 ▲음성 민원 응대 ▲통합 콜센터 시스템 등 다양한 분야로 확산되고 있다. 실제 국민건강보험공단의 스마트 회의실 구축사업에서는 회의 자동기록 업무를 지원하고 있다. 한국항공우주산업(KAI)에서는 항공기 설계업무 현장에서 음성 기반 AI 비서로 활용되고 있다. 또 경찰청 전기통신금융사기 대응센터 콜센터에서는 보이스피싱 피해 예방을 위해 '디칩스'와 '코난 챗봇'이 함께 도입됐고, 인천공항 세관 검사대에서는 AI 동시통역 시스템이 시범 적용됐다. 이 외에 지난 8월 열린 '에이펙 2025 코리아(APEC 2025 KOREA) 글로벌 디지털·AI 포럼'에서는 '코난 챗봇 플러스'와 '첨단 다국어 AI 회의 통역 시스템'을 출품해 생성형 AI 음성기술의 경쟁력을 국내외에 선보인 바 있다. 서영주 코난테크놀로지 음성그룹 상무는 "이번 GS인증 1등급 획득을 계기로 자사 음성기술이 공공기관에서도 안정적으로 활용될 수 있음이 입증됐다"묘 "(앞으로) 다양한 행정서비스 영역에서 생성형 AI 기반 음성인식 솔루션 제공에 더욱 속도를 낼 계획"이라고 밝혔다.

2025.11.04 16:41장유미

구글, '노트북LM' 모바일앱 출시…기능 확대로 AI 주도권 잡기 총력

구글의 인공지능(AI) 기반 노트 필기 및 연구 도구인 '노트북LM'을 앞으로 모바일에서도 편리하게 사용할 수 있게 됐다. 20일 테크크런치 등 주요 외신에 따르면 구글은 지난 19일 '노트북LM'의 모바일 앱을 안드로이드와 iOS 플랫폼에서 공식 출시했다. 이는 당초 예고된 출시일(20일)보다 하루 앞선 것으로, 구글의 연례 개발자 컨퍼런스 '구글 I/O 2025' 개막을 하루 앞두고 발표돼 주목 받고 있다. '노트북LM'은 지난 2023년 처음 웹 기반 데스크톱 앱으로 공개된 이후 복잡한 정보의 요약과 문서 기반 질문응답 기능으로 연구자, 학생, 작가 등 정보 분석이 필요한 사용자들에게 유용한 도구로 주목 받아 왔다. 이번 모바일 버전은 이러한 기능을 스마트폰에서도 손쉽게 이용할 수 있도록 설계돼 사용자는 언제 어디서나 노트북을 생성하고 기존 노트를 열람하며 웹사이트, PDF, 유튜브 영상 등을 공유 메뉴를 통해 앱에 바로 업로드해 분석 자료로 활용할 수 있다. 특히 이번 업데이트에서 주목할 만한 기능은 '오디오 오버뷰(Audio Overviews)'로, 사용자가 업로드한 문서를 기반으로 AI가 요약된 오디오 콘텐츠를 생성해 팟캐스트 형태로 제공한다. 이 기능은 백그라운드 재생과 오프라인 지원을 통해 이동 중에도 정보 학습이 가능하도록 돕는다. 또 영어를 포함한 50개 이상의 언어를 지원해 글로벌 사용자층의 접근성을 높였다. 오디오 오버뷰의 음성은 자연스러운 억양을 갖춘 TTS(Text-to-Speech, 음성합성) 기술로 제공되며 사용자는 원하는 언어와 목소리를 설정에서 선택할 수 있다. 이번 모바일 앱 버전은 구글의 최신 AI 모델인 '제미나이 2.5 플래시(Gemini 2.5 Flash)'를 기반으로 작동돼 다단계 추론이 필요한 질문에도 보다 정밀하고 풍부한 응답을 제공한다. 또 기존보다 응답 속도와 정확성이 향상돼 복잡한 자료 분석이나 비교, 인과관계 도출 등 고차원적 작업에 적합하다는 평가를 받고 있다. 사용자는 앱 내에서 노트북별로 자료를 정리하고 관련 질문을 통해 AI로부터 요약, 인용, 내용 정리 등을 받을 수 있으며 자동 생성된 인용 링크도 함께 제공돼 연구나 글쓰기에도 활용도가 높다. 앱은 기기 설정에 따라 라이트 모드와 다크 모드를 자동으로 지원한다. 홈 화면에서는 최근 사용한 노트, 다운로드된 노트, 공유된 문서 등 다양한 필터를 통해 직관적으로 노트를 탐색할 수 있다. 앱은 현재 구글 플레이 스토어와 애플 앱스토어에서 무료로 다운로드할 수 있으며 일부 고급 기능은 구글 원(Google One)의 AI 프리미엄 구독을 통해 이용 가능하다. 구글은 이번 모바일 앱 출시를 통해 AI 기반 생산성 도구의 활용 영역을 모바일 환경으로 확장하고, 사용자가 언제 어디서나 AI의 도움을 받아 효율적으로 정보를 습득하고 활용할 수 있도록 하는 데 초점을 맞추고 있다. 테크크런치는 "구글은 이번 I/O 2025 키노트에서 노트북LM 관련 향후 기능이나 통합 계획 등을 추가로 공개할 것으로 보인다"고 예상했다.

2025.05.20 09:36장유미

AWS서밋 서울 빛낸 기술 스타트업 어디

올해 AWS 서밋 서울 2025에서는 음성 AI 기술 스타트업 '수퍼톤'이 주목을 받았다. 수퍼톤은 행사에서 AI 보이스 합성, TTS(Text-to-Speech), 더빙 등 다양한 기술력을 바탕으로 신개념 콘텐츠를 선보이며 참가자들의 눈과 귀를 사로잡았다. 단순 기술 시연을 넘어 콘텐츠, 커뮤니케이션, 일상 영역으로 확장 가능한 가능성을 실감케 했다는 평가다. 18일 관련업계에 따르면 AWS 서빗 서울이 열리는 행사 첫날인 14일, 수퍼톤은 기조연설 무대에 앞서 'AI 음악 프로젝트 – 컨트롤 유(Ctrl+U)'라는 무대를 선보여 기술과 예술의 접점을 보여줬다. 이번 프로젝트는 수퍼톤과 음악 생성 AI 스타트업 포자랩스, AWS가 협업해 제작했다. 포자랩스의 AI가 작사·작곡한 곡을 수퍼톤의 가창 합성 기술로 구현된 남성 AI 보이스가 부르고, 일반인 여성 참가자가 듀엣으로 무대에 올랐다. 1절은 AI 뮤직 챌린지 참가자들의 영상과 음성으로 구성됐으며, 2절에서는 실제 여성 참가자가 AI와 호흡을 맞추며 공연을 완성했다. 실제 사람과 AI가 함께 부르는 듯한 자연스러운 무대는 관람객들로부터 뜨거운 박수를 받았다. 수퍼톤의 음성 기술은 공연뿐만 아니라 행사 운영 전반에도 활용됐다. 행사장 곳곳에서 울려 퍼진 장내 안내 방송은 '수퍼톤 플레이'의 TTS 기술을 기반으로 한 음성이다. 실제 사람의 발화 스타일을 학습해 부자연스러움이 없는 것이 특징이며, 이번 행사에서는 '에디', '수호' 캐릭터 보이스가 입·퇴장 안내, 세션 소개, 연사 소개 등에 활용됐다. 지난 2월 정식 출시된 수퍼톤 플레이는 출시 3개월여 만인 5월 현재 글로벌 누적 가입자 20만 명을 돌파한 바 있다. 가장 큰 주목을 받은 기술은 행사 둘째 날인 15일 기조연설 중 공개된 AI 더빙 기술이다. 이 기술은 기존 영상 속 인물의 목소리를 클로닝하고, 이를 기반으로 다른 언어로 자연스럽게 더빙해주는 것이다. 수퍼톤은 이번 기조연설 영상에서 아마존 CTO 버너 보겔스, AWS 부사장 디팍 싱의 음성을 영어에서 한국어로 더빙했는데, 목소리의 톤과 말투까지 유사하게 구현해 놀라움을 자아냈다. 더빙 과정에는 수퍼톤의 보이스 클로닝, TTS 기술은 물론, 공간감 재현 기술 '수퍼톤 에어', 스튜디오 음질 보정 기술 'SQSE(Studio Quality Sound Enhancement)'까지 적용돼 몰입감을 극대화했다. 수퍼톤의 기술은 전시 부스에서도 직접 체험할 수 있었다. 수퍼톤 부스에는 수퍼톤 플레이를 기반으로 AI 음성 서비스를 시연할 수 있는 공간과 함께, 음성 기반의 '캐릭터 챗'도 운영됐다. 또 골프존 부스에는 수퍼톤의 음성을 기반으로 한 'AI 골프 코치'도 함께 선보여 현장 관람객들의 관심을 끌었다. 이교구 수퍼톤 대표는 “AWS 서밋을 통해 콘텐츠 영역을 넘어 실생활 전반에 적용 가능한 음성 AI의 확장성을 보여줄 수 있었다”며 “앞으로도 수퍼톤은 누구나 쉽게 사용할 수 있는 AI 오디오 기술을 통해 산업과 일상에 기여하겠다”고 밝혔다.

2025.05.18 11:40안희정

리디, 'AI TTS' 도입..."사람처럼 읽어드려요"

콘텐츠 플랫폼 '리디'를 운영하는 리디주식회사(대표 배기식, 이하 리디)는 'AI TTS(Text To Speech)'를 도입한다고 18일 밝혔다. 리디 'AI TTS'는 ▲사람이 읽는 듯한 자연스러운 음성 ▲4가지 목소리 지원 ▲온·오프라인 동시 활용 ▲최대 2배속 재생 지원 등으로 더욱 생생하고 몰입감 있는 독서 경험을 제공한다. 기존 TTS가 기계적으로 문장을 읽는 방식이었다면, 새롭게 도입한 'AI TTS'는 사람의 억양과 감정을 반영해 장르를 가리지 않고 다양한 콘텐츠를 더욱 편안하게 즐길 수 있도록 지원한다. 리디는 독서에 최적화된 'AI TTS'를 선보이기 위해 인공지능 전문 기업 셀바스AI와 협력했다. 사람의 호흡과 억양, 감성 등을 정교하게 구현한 셀바스AI의 솔루션을 활용해 몰입감 넘치는 TTS 기능을 제공할 예정이다. 리디 관계자는 “이번 'AI TTS'를 통해 읽고 보는 것을 넘어 귀로 듣는 오디오 콘텐츠 경험을 확장할 수 있게 됐다”면서, “앞으로도 고객이 리디 콘텐츠를 더욱 편리하고 가치 있게 즐길 수 있도록 서비스를 고도화해 나갈 계획”이라고 말했다.

2025.03.18 09:00안희정

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

삼성·LG, 차세대 마이크로 RGB TV 앞세워 中과 '정면 승부'

"혁신" 외쳤지만...롯데는 '非常', 신세계·현대는 '飛上'

엔비디아, 퍼블릭 클라우드 사업 축소…韓 인프라 시장에 미칠 파장은

위약금 면제로 아이폰17 공짜...번호이동 보조금에 KT 기변 '맞불'

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.