검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'TTS'통합검색 결과 입니다. (7건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

[AI는 지금] 성우 일자리 사라지나…구글, 연기하는 'AI 음성'으로 기업 시장 공략

구글이 감정 표현과 제어 기능을 강화한 차세대 음성 합성 모델을 선보이며 인공지능(AI) 음성 시장 공략에 속도를 내고 있다. 텍스트 중심이던 생성형 AI 경쟁이 음성 인터페이스로 확장되는 흐름 속에서 기업용 수요를 겨냥한 기술 고도화가 본격화되는 양상이다. 17일 업계에 따르면 구글은 지난 15일(현지시간) 공식 블로그를 통해 차세대 텍스트 음성 변환(Text-to-Speech) 모델 '제미나이 3.1 플래시 TTS(Gemini 3.1 Flash TTS)'를 공개했다. 이번 모델은 개발자용 API와 기업용 버텍스(Vertex) AI, 협업 도구 등을 통해 순차적으로 제공된다. 이번 모델의 핵심은 음성 표현력과 제어 기능 강화다. 자연어 기반 '오디오 태그'를 통해 속도, 억양, 감정 등을 세밀하게 조정할 수 있다. '디렉터 모드'를 활용하면 장면 설정과 캐릭터 역할을 지정해 보다 정교한 음성 생성이 가능하다. 기존 TTS가 단순 낭독 중심이었다면, 이번 모델은 맥락에 맞는 감정 표현까지 반영하는 수준으로 진화했다. 여러 화자가 동시에 등장하는 대화를 한 번에 생성할 수 있는 '멀티 스피커' 기능도 적용됐다. 화자별로 개별 호출이 필요했던 기존 방식과 달리 자연스러운 대화 흐름을 구현할 수 있어 팟캐스트, 오디오 콘텐츠, AI 비서 등 다양한 분야에서 활용도가 높아질 것으로 보인다. 성능과 비용의 균형도 강조됐다. 구글은 블라인드 인간 평가 기반 TTS 벤치마크에서 높은 점수를 기록하는 동시에 '플래시' 계열 구조를 통해 연산 비용을 낮췄다. 이는 기업 고객이 대규모로 도입할 수 있는 환경을 고려한 설계다. 글로벌 확장성도 확보했다. 70개 이상의 언어와 방언을 지원하며 지역별 억양과 표현을 반영할 수 있도록 했다. 이를 통해 글로벌 서비스에서 현지화된 음성 경험 구현이 가능해질 것으로 기대된다. 아울러 생성 음성에는 신스ID(SynthID) 워터마킹을 적용했다. 사람이 인지하기 어려운 방식으로 식별 정보를 삽입해 AI 생성 여부를 판별할 수 있도록 한 것으로, 허위 정보 확산 등 부작용 대응을 고려한 조치로 풀이된다. 구글의 이 같은 움직임 속에 음성 인터페이스를 둘러싼 경쟁도 본격화되는 양상이다. 이미 오픈AI, 메타 등 주요 기업들도 음성 기반 기술 고도화에 속도를 내고 있다. 오픈AI는 대화형 AI에 실시간 음성 기능을 결합해 사람과 유사한 상호작용 구현에 집중하고 있으며, 메타는 AI 캐릭터와 음성 기반 소셜 경험을 결합하는 방향으로 투자를 확대하는 모습이다. 이 같은 기술 진화는 음성 콘텐츠 제작 방식에도 변화를 가져올 것으로 보인다. 감정 표현과 다중 화자 구현이 가능해지면서 광고, 더빙, 오디오북 등 기존 성우 중심으로 운영되던 영역 일부가 AI로 대체될 가능성이 거론된다. 다만 업계에선 고도화된 연기력과 창의성이 요구되는 영역에서 인간 성우의 역할이 당분간 유지되는 한편, 반복적·대량 제작 중심의 시장부터 구조 변화가 나타날 것으로 보고 있다. 업계 관계자는 "그동안 TTS는 정확하게 읽는 기술에 초점이 맞춰졌다면, 이제는 감정과 맥락을 얼마나 자연스럽게 구현하느냐가 경쟁력으로 바뀌고 있다"며 "표현력과 제어 기능이 결합되면서 음성 기반 콘텐츠와 AI 인터페이스 시장이 동시에 확대될 것"이라고 말했다.

2026.04.17 15:03장유미 기자

수퍼톤, 새 TTS모델 '소나 스피치2' 출시..."웃음소리 완벽 구현"

AI 음성 기업 수퍼톤은 새로운 TTS 모델인 '소나 스피치2'를 출시했다고 9일 밝혔다. 이 모델의 이전 버전인 '소나 스피치1'은 지난 2월 정식 출시된 AI 음성 서비스 '수퍼톤 플레이'를 비롯해 수퍼톤 API 등 다양한 TTS 서비스에 적용돼 왔다. 실제 사람의 발화 스타일과 감정 정보까지 학습해 자연스러운 음성을 구현해 호평을 받고 있는 수퍼톤 TTS 기술의 핵심이다. 출시와 동시에 '수퍼톤 플레이'에 탑재된 소나 스피치2는 텍스트를 자연스럽게 읽는 수준을 뛰어넘어 문맥을 이해해 발화 속도, 호흡, 억양을 재현하고, 웃음 소리나 목을 가다듬는 소리 같은 비언어적인 표현까지 생생하게 구현한다. 소나 스피치1이 맑고 안정적인 음성에 자연스러운 표현력을 더한 것이 특징이라면, 소나 스피치2는 캐릭터성이 살아있는 음성을 만들어주기 때문에 오디오북처럼 실제 사람이 연기하는 것 같이 몰입도가 중요한 콘텐츠를 제작할 때 유용하다. 지원하는 언어 역시 국내 TTS 솔루션 가운데 최대다. 이전 버전에서 제공하던 한국어·영어·일본어는 물론, 프랑스어·독일어·스페인어·중국어(간체·번체)·베트남어·인도네시아어·태국어·러시아어·아랍어 등까지 더해져 총 23개 언어를 지원하며, 향후 30개로 확대할 계획이다. 23개의 언어에 대해 '보이스 클로닝' 기능도 제공해 사용자들은 단 한 번의 녹음만으로 자신의 목소리 톤은 유지한 채 언어 장벽 없이 텍스트를 음성으로 변환할 수 있다. 지난달 오픈소스로 공개한 바 있는 온디바이스 기반 TTS 모델 '수퍼토닉'도 '수퍼톤 플레이'에 탑재됐다. 수퍼토닉은 사용자 기기 자체에서 AI 연산 처리가 되는 온디바이스 모델로, GPU나 클라우드, 네트워크 연결 없이 실시간 수준으로 텍스트를 음성으로 바꿔준다. 클라우드로 데이터를 전송하지 않기 때문에 보안이 필수적인 금융, 의료, 보안 산업 분야에서 활용도가 높다. 특히 이번 '수퍼토닉' 모델에서는 오픈소스 공개 버전에서는 없었던 보이스 클로닝 기능을 제공하는가 하면, 한국어·영어·일본어·스페인어·포르투갈어 등 5개의 언어를 지원해 사용자의 편의성을 높였다. 이번에 다양한 TTS 모델이 대거 추가되면서 사용자들의 선택지도 많아졌다. 수퍼톤 플레이를 이용할 때 사용자들은 콘텐츠의 목적과 제작 환경에 따라 기존의 소나 스피치1을 비롯해, 새롭게 추가된 소나 스피치2, 수퍼토닉 중 최적의 모델을 선택해 활용할 수 있다. 예컨대, 챗GPT를 이용할 때 원하는 AI 모델을 선택할 수 있는 것처럼 감정 표현이나 자연스러운 연기가 필요하거나 보다 다양한 언어로 된 콘텐츠를 제작할 때는 소나 스피치2를, GPU나 클라우드, 네트워크 연결이 어렵거나 보안이 요구되는 환경에서는 수퍼토닉을 선택하면 된다. 이 밖에, 소나 스피치2와 수퍼토닉은 API(application Programming Interface)로도 서비스된다. API는 개발자들이 다른 서비스에서 제공하는 데이터나 기능을 가져와 자사 서비스에 내재화할 수 있는 일종의 디지털 연결고리다. 다양한 TTS 모델이 API로 제공됨에 따라 개발자들은 구현하고자 하는 서비스의 특징이나 개발 환경에 따라 모델을 선택해서 개발에 활용할 수 있다. 수퍼톤은 사용자의 PC에 다운로드해서 이용할 수 있는 '수퍼톤 플레이 데스크톱'을 지난달 19일 베타 출시하기도 했다. 이는 클라우드가 없는 일반 PC 환경에서도 빠르고 편리하게 텍스트를 다양한 캐릭터의 음성으로 바꿔주는 윈도우(Windows) 및 맥(Mac)용 소프트웨어다. 수퍼톤은 이달 22일부터 수퍼톤 플레이 데스크톱 사용자 중 프로(Pro) 요금제를 이용할 경우, 무제한으로 음성을 생성할 수 있는 혜택을 제공할 예정이다. 수퍼톤 관계자는 “소나 스피치2는 언어의 장벽을 넘어 누구나 글로벌 시장에서 활동할 수 있는 창작 환경을, 수퍼토닉은 장소와 장비 제약 없는 완전한 실시간 제작 환경을 제공한다”며 “앞으로도 AI 음성 기술을 지속해서 선보여 서비스 품질을 높이고, 창작자들이 원하는 방식으로 기술을 활용하고 창작할 수 있는 생태계를 만들어가겠다”고 밝혔다.

2025.12.09 10:08안희정 기자

수퍼톤, TTS 모델 '수퍼토닉' 오픈소스 공개..."클라우드 없어도 OK"

AI 음성 기업 수퍼톤이 클라우드나 값비싼 GPU 없이도 실시간으로 텍스트를 고품질의 음성으로 바꿔주는 AI 모델을 공개하고 개발 생태계 확장에 나선다. 수퍼톤은 지난 19일 온디바이스 기반의 TTS(Text-to-Speech) 모델 '수퍼토닉(Supertonic)'을 누구나 자유롭게 사용·수정·배포할 수 있는 오픈소스로 공개했다고 20일 밝혔다. 수퍼토닉은 일반 노트북이나 모바일 환경에서도 빠른 속도로 구동하는 모델이라는 게 가장 큰 특징이다. 사용자의 기기 자체에서 AI 연산 처리가 되는 온디바이스 모델이기 때문에 클라우드나 네트워크 연결 없이도 텍스트를 고품질의 음성으로 바꿔준다. 클라우드 서버로의 데이터 송수신도 없어서 이로 인한 지연 문제나 정보 유출 등의 우려가 적다. 또, 6천600만개 파라미터(매개변수)의 초경량 구조로 설계되었기 때문에 교육용의 초소형 컴퓨터는 물론, 고가의 GPU가 없는 일반 노트북이나 모바일 환경에서도 실시간 수준으로 음성을 생성할 수 있다. 수퍼톤 내부 벤치마크 결과, 일반 노트북 환경에서 수퍼토닉은 초당 약 2500자 이상의 텍스트를 음성으로 변환했다. 이는 글로벌 주요 TTS 모델이 초당 400자 내외의 음성을 생성하는 것과 비교해 압도적으로 빠른 속도다. 수퍼토닉의 소스코드는 개발자 협업 플랫폼인 '깃허브(GitHub)'에서, 모델의 학습 결과물인 체크포인트와 모델을 체험해볼 수 있는 데모 페이지는 AI 모델 공유 플랫폼인 '허깅페이스(Hugging Face)'에서 만나볼 수 있다. 개발자들의 편의를 위해 소스 코드는 파이썬, C++, 자바스크립트 등 8개 이상의 프로그래밍 언어로 지원된다. 수퍼톤은 '수퍼톤(Supertone) API'를 통해 '소나 스피치 2t(Sona Speech 2t)'도 연내 선보일 계획이다. 소나 스피치 2t는 수퍼토닉과 마찬가지로 온디바이스 TTS 모델이지만, API(application Programming Interface) 형태로 제공된다는 차이가 있다. API는 개발자들이 다른 서비스에서 제공하는 데이터나 기능을 가져와 자사 서비스에 내재화할 수 있는 일종의 디지털 연결고리다. 소나 스피치 2t는 영어, 한국어, 일본어, 스페인어, 포르투갈어에 대한 TTS가 가능한 형태로 서비스될 예정이다. 이교구 수퍼톤 대표는 “수퍼토닉 오픈소스 공개로 온디바이스 TTS 기술의 표준화와 경량화를 선도하고, 개발자 커뮤니티와의 협업을 확대할 계획”이라며 “인공지능 컨택센터(AICC), 음성 에이전트, 에듀테크나 이러닝 등 다양한 산업군에서의 음성 AI 기술 활용 범위를 넓혀갈 것”이라고 말했다.

2025.11.20 11:18안희정 기자

코난테크놀로지, GS인증 1등급 획득…AI 음성 인식 기술력 입증

코난테크놀로지가 생성형 인공지능(AI) 공공시장에 이어 AI 음성인식 시장 확대에도 속도를 내며 기술력을 입증하고 나섰다. 코난테크놀로지는 지난 달 자체 음성인식 기술 '디칩스(D-Cheeps)'로 GS 인증 1등급을 획득했다고 4일 밝혔다. '디칩스'는 코난테크놀로지가 독자 개발한 STT(Speech-to-Text) 엔진의 상표명으로, 10만 시간 이상의 고품질 음성 데이터를 학습하고 중앙처리장치(CPU) 기반 다채널 환경에서도 실시간 인식이 가능한 것이 특징이다. 또 최신 거대언어모델(LLM) 아키텍처를 적용해 문자 인식률 95% 이상을 달성, 동종 업계 최고 수준의 음성인식 성능을 입증했다. 현재 코난테크놀로지의 음성인식기술(STT)·LLM·음성합성기술(TTS) 기반 자동번역 등 최신 생성형 음성 기술은 ▲회의록 자동작성 ▲음성 민원 응대 ▲통합 콜센터 시스템 등 다양한 분야로 확산되고 있다. 실제 국민건강보험공단의 스마트 회의실 구축사업에서는 회의 자동기록 업무를 지원하고 있다. 한국항공우주산업(KAI)에서는 항공기 설계업무 현장에서 음성 기반 AI 비서로 활용되고 있다. 또 경찰청 전기통신금융사기 대응센터 콜센터에서는 보이스피싱 피해 예방을 위해 '디칩스'와 '코난 챗봇'이 함께 도입됐고, 인천공항 세관 검사대에서는 AI 동시통역 시스템이 시범 적용됐다. 이 외에 지난 8월 열린 '에이펙 2025 코리아(APEC 2025 KOREA) 글로벌 디지털·AI 포럼'에서는 '코난 챗봇 플러스'와 '첨단 다국어 AI 회의 통역 시스템'을 출품해 생성형 AI 음성기술의 경쟁력을 국내외에 선보인 바 있다. 서영주 코난테크놀로지 음성그룹 상무는 "이번 GS인증 1등급 획득을 계기로 자사 음성기술이 공공기관에서도 안정적으로 활용될 수 있음이 입증됐다"묘 "(앞으로) 다양한 행정서비스 영역에서 생성형 AI 기반 음성인식 솔루션 제공에 더욱 속도를 낼 계획"이라고 밝혔다.

2025.11.04 16:41장유미 기자

구글, '노트북LM' 모바일앱 출시…기능 확대로 AI 주도권 잡기 총력

구글의 인공지능(AI) 기반 노트 필기 및 연구 도구인 '노트북LM'을 앞으로 모바일에서도 편리하게 사용할 수 있게 됐다. 20일 테크크런치 등 주요 외신에 따르면 구글은 지난 19일 '노트북LM'의 모바일 앱을 안드로이드와 iOS 플랫폼에서 공식 출시했다. 이는 당초 예고된 출시일(20일)보다 하루 앞선 것으로, 구글의 연례 개발자 컨퍼런스 '구글 I/O 2025' 개막을 하루 앞두고 발표돼 주목 받고 있다. '노트북LM'은 지난 2023년 처음 웹 기반 데스크톱 앱으로 공개된 이후 복잡한 정보의 요약과 문서 기반 질문응답 기능으로 연구자, 학생, 작가 등 정보 분석이 필요한 사용자들에게 유용한 도구로 주목 받아 왔다. 이번 모바일 버전은 이러한 기능을 스마트폰에서도 손쉽게 이용할 수 있도록 설계돼 사용자는 언제 어디서나 노트북을 생성하고 기존 노트를 열람하며 웹사이트, PDF, 유튜브 영상 등을 공유 메뉴를 통해 앱에 바로 업로드해 분석 자료로 활용할 수 있다. 특히 이번 업데이트에서 주목할 만한 기능은 '오디오 오버뷰(Audio Overviews)'로, 사용자가 업로드한 문서를 기반으로 AI가 요약된 오디오 콘텐츠를 생성해 팟캐스트 형태로 제공한다. 이 기능은 백그라운드 재생과 오프라인 지원을 통해 이동 중에도 정보 학습이 가능하도록 돕는다. 또 영어를 포함한 50개 이상의 언어를 지원해 글로벌 사용자층의 접근성을 높였다. 오디오 오버뷰의 음성은 자연스러운 억양을 갖춘 TTS(Text-to-Speech, 음성합성) 기술로 제공되며 사용자는 원하는 언어와 목소리를 설정에서 선택할 수 있다. 이번 모바일 앱 버전은 구글의 최신 AI 모델인 '제미나이 2.5 플래시(Gemini 2.5 Flash)'를 기반으로 작동돼 다단계 추론이 필요한 질문에도 보다 정밀하고 풍부한 응답을 제공한다. 또 기존보다 응답 속도와 정확성이 향상돼 복잡한 자료 분석이나 비교, 인과관계 도출 등 고차원적 작업에 적합하다는 평가를 받고 있다. 사용자는 앱 내에서 노트북별로 자료를 정리하고 관련 질문을 통해 AI로부터 요약, 인용, 내용 정리 등을 받을 수 있으며 자동 생성된 인용 링크도 함께 제공돼 연구나 글쓰기에도 활용도가 높다. 앱은 기기 설정에 따라 라이트 모드와 다크 모드를 자동으로 지원한다. 홈 화면에서는 최근 사용한 노트, 다운로드된 노트, 공유된 문서 등 다양한 필터를 통해 직관적으로 노트를 탐색할 수 있다. 앱은 현재 구글 플레이 스토어와 애플 앱스토어에서 무료로 다운로드할 수 있으며 일부 고급 기능은 구글 원(Google One)의 AI 프리미엄 구독을 통해 이용 가능하다. 구글은 이번 모바일 앱 출시를 통해 AI 기반 생산성 도구의 활용 영역을 모바일 환경으로 확장하고, 사용자가 언제 어디서나 AI의 도움을 받아 효율적으로 정보를 습득하고 활용할 수 있도록 하는 데 초점을 맞추고 있다. 테크크런치는 "구글은 이번 I/O 2025 키노트에서 노트북LM 관련 향후 기능이나 통합 계획 등을 추가로 공개할 것으로 보인다"고 예상했다.

2025.05.20 09:36장유미 기자

AWS서밋 서울 빛낸 기술 스타트업 어디

올해 AWS 서밋 서울 2025에서는 음성 AI 기술 스타트업 '수퍼톤'이 주목을 받았다. 수퍼톤은 행사에서 AI 보이스 합성, TTS(Text-to-Speech), 더빙 등 다양한 기술력을 바탕으로 신개념 콘텐츠를 선보이며 참가자들의 눈과 귀를 사로잡았다. 단순 기술 시연을 넘어 콘텐츠, 커뮤니케이션, 일상 영역으로 확장 가능한 가능성을 실감케 했다는 평가다. 18일 관련업계에 따르면 AWS 서빗 서울이 열리는 행사 첫날인 14일, 수퍼톤은 기조연설 무대에 앞서 'AI 음악 프로젝트 – 컨트롤 유(Ctrl+U)'라는 무대를 선보여 기술과 예술의 접점을 보여줬다. 이번 프로젝트는 수퍼톤과 음악 생성 AI 스타트업 포자랩스, AWS가 협업해 제작했다. 포자랩스의 AI가 작사·작곡한 곡을 수퍼톤의 가창 합성 기술로 구현된 남성 AI 보이스가 부르고, 일반인 여성 참가자가 듀엣으로 무대에 올랐다. 1절은 AI 뮤직 챌린지 참가자들의 영상과 음성으로 구성됐으며, 2절에서는 실제 여성 참가자가 AI와 호흡을 맞추며 공연을 완성했다. 실제 사람과 AI가 함께 부르는 듯한 자연스러운 무대는 관람객들로부터 뜨거운 박수를 받았다. 수퍼톤의 음성 기술은 공연뿐만 아니라 행사 운영 전반에도 활용됐다. 행사장 곳곳에서 울려 퍼진 장내 안내 방송은 '수퍼톤 플레이'의 TTS 기술을 기반으로 한 음성이다. 실제 사람의 발화 스타일을 학습해 부자연스러움이 없는 것이 특징이며, 이번 행사에서는 '에디', '수호' 캐릭터 보이스가 입·퇴장 안내, 세션 소개, 연사 소개 등에 활용됐다. 지난 2월 정식 출시된 수퍼톤 플레이는 출시 3개월여 만인 5월 현재 글로벌 누적 가입자 20만 명을 돌파한 바 있다. 가장 큰 주목을 받은 기술은 행사 둘째 날인 15일 기조연설 중 공개된 AI 더빙 기술이다. 이 기술은 기존 영상 속 인물의 목소리를 클로닝하고, 이를 기반으로 다른 언어로 자연스럽게 더빙해주는 것이다. 수퍼톤은 이번 기조연설 영상에서 아마존 CTO 버너 보겔스, AWS 부사장 디팍 싱의 음성을 영어에서 한국어로 더빙했는데, 목소리의 톤과 말투까지 유사하게 구현해 놀라움을 자아냈다. 더빙 과정에는 수퍼톤의 보이스 클로닝, TTS 기술은 물론, 공간감 재현 기술 '수퍼톤 에어', 스튜디오 음질 보정 기술 'SQSE(Studio Quality Sound Enhancement)'까지 적용돼 몰입감을 극대화했다. 수퍼톤의 기술은 전시 부스에서도 직접 체험할 수 있었다. 수퍼톤 부스에는 수퍼톤 플레이를 기반으로 AI 음성 서비스를 시연할 수 있는 공간과 함께, 음성 기반의 '캐릭터 챗'도 운영됐다. 또 골프존 부스에는 수퍼톤의 음성을 기반으로 한 'AI 골프 코치'도 함께 선보여 현장 관람객들의 관심을 끌었다. 이교구 수퍼톤 대표는 “AWS 서밋을 통해 콘텐츠 영역을 넘어 실생활 전반에 적용 가능한 음성 AI의 확장성을 보여줄 수 있었다”며 “앞으로도 수퍼톤은 누구나 쉽게 사용할 수 있는 AI 오디오 기술을 통해 산업과 일상에 기여하겠다”고 밝혔다.

2025.05.18 11:40안희정 기자

리디, 'AI TTS' 도입..."사람처럼 읽어드려요"

콘텐츠 플랫폼 '리디'를 운영하는 리디주식회사(대표 배기식, 이하 리디)는 'AI TTS(Text To Speech)'를 도입한다고 18일 밝혔다. 리디 'AI TTS'는 ▲사람이 읽는 듯한 자연스러운 음성 ▲4가지 목소리 지원 ▲온·오프라인 동시 활용 ▲최대 2배속 재생 지원 등으로 더욱 생생하고 몰입감 있는 독서 경험을 제공한다. 기존 TTS가 기계적으로 문장을 읽는 방식이었다면, 새롭게 도입한 'AI TTS'는 사람의 억양과 감정을 반영해 장르를 가리지 않고 다양한 콘텐츠를 더욱 편안하게 즐길 수 있도록 지원한다. 리디는 독서에 최적화된 'AI TTS'를 선보이기 위해 인공지능 전문 기업 셀바스AI와 협력했다. 사람의 호흡과 억양, 감성 등을 정교하게 구현한 셀바스AI의 솔루션을 활용해 몰입감 넘치는 TTS 기능을 제공할 예정이다. 리디 관계자는 “이번 'AI TTS'를 통해 읽고 보는 것을 넘어 귀로 듣는 오디오 콘텐츠 경험을 확장할 수 있게 됐다”면서, “앞으로도 고객이 리디 콘텐츠를 더욱 편리하고 가치 있게 즐길 수 있도록 서비스를 고도화해 나갈 계획”이라고 말했다.

2025.03.18 09:00안희정 기자