검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'구글 제미나이 음성'통합검색 결과 입니다. (5건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

[AI는 지금] 성우 일자리 사라지나…구글, 연기하는 'AI 음성'으로 기업 시장 공략

구글이 감정 표현과 제어 기능을 강화한 차세대 음성 합성 모델을 선보이며 인공지능(AI) 음성 시장 공략에 속도를 내고 있다. 텍스트 중심이던 생성형 AI 경쟁이 음성 인터페이스로 확장되는 흐름 속에서 기업용 수요를 겨냥한 기술 고도화가 본격화되는 양상이다. 17일 업계에 따르면 구글은 지난 15일(현지시간) 공식 블로그를 통해 차세대 텍스트 음성 변환(Text-to-Speech) 모델 '제미나이 3.1 플래시 TTS(Gemini 3.1 Flash TTS)'를 공개했다. 이번 모델은 개발자용 API와 기업용 버텍스(Vertex) AI, 협업 도구 등을 통해 순차적으로 제공된다. 이번 모델의 핵심은 음성 표현력과 제어 기능 강화다. 자연어 기반 '오디오 태그'를 통해 속도, 억양, 감정 등을 세밀하게 조정할 수 있다. '디렉터 모드'를 활용하면 장면 설정과 캐릭터 역할을 지정해 보다 정교한 음성 생성이 가능하다. 기존 TTS가 단순 낭독 중심이었다면, 이번 모델은 맥락에 맞는 감정 표현까지 반영하는 수준으로 진화했다. 여러 화자가 동시에 등장하는 대화를 한 번에 생성할 수 있는 '멀티 스피커' 기능도 적용됐다. 화자별로 개별 호출이 필요했던 기존 방식과 달리 자연스러운 대화 흐름을 구현할 수 있어 팟캐스트, 오디오 콘텐츠, AI 비서 등 다양한 분야에서 활용도가 높아질 것으로 보인다. 성능과 비용의 균형도 강조됐다. 구글은 블라인드 인간 평가 기반 TTS 벤치마크에서 높은 점수를 기록하는 동시에 '플래시' 계열 구조를 통해 연산 비용을 낮췄다. 이는 기업 고객이 대규모로 도입할 수 있는 환경을 고려한 설계다. 글로벌 확장성도 확보했다. 70개 이상의 언어와 방언을 지원하며 지역별 억양과 표현을 반영할 수 있도록 했다. 이를 통해 글로벌 서비스에서 현지화된 음성 경험 구현이 가능해질 것으로 기대된다. 아울러 생성 음성에는 신스ID(SynthID) 워터마킹을 적용했다. 사람이 인지하기 어려운 방식으로 식별 정보를 삽입해 AI 생성 여부를 판별할 수 있도록 한 것으로, 허위 정보 확산 등 부작용 대응을 고려한 조치로 풀이된다. 구글의 이 같은 움직임 속에 음성 인터페이스를 둘러싼 경쟁도 본격화되는 양상이다. 이미 오픈AI, 메타 등 주요 기업들도 음성 기반 기술 고도화에 속도를 내고 있다. 오픈AI는 대화형 AI에 실시간 음성 기능을 결합해 사람과 유사한 상호작용 구현에 집중하고 있으며, 메타는 AI 캐릭터와 음성 기반 소셜 경험을 결합하는 방향으로 투자를 확대하는 모습이다. 이 같은 기술 진화는 음성 콘텐츠 제작 방식에도 변화를 가져올 것으로 보인다. 감정 표현과 다중 화자 구현이 가능해지면서 광고, 더빙, 오디오북 등 기존 성우 중심으로 운영되던 영역 일부가 AI로 대체될 가능성이 거론된다. 다만 업계에선 고도화된 연기력과 창의성이 요구되는 영역에서 인간 성우의 역할이 당분간 유지되는 한편, 반복적·대량 제작 중심의 시장부터 구조 변화가 나타날 것으로 보고 있다. 업계 관계자는 "그동안 TTS는 정확하게 읽는 기술에 초점이 맞춰졌다면, 이제는 감정과 맥락을 얼마나 자연스럽게 구현하느냐가 경쟁력으로 바뀌고 있다"며 "표현력과 제어 기능이 결합되면서 음성 기반 콘텐츠와 AI 인터페이스 시장이 동시에 확대될 것"이라고 말했다.

2026.04.17 15:03장유미 기자

"내 기분까지 맞히네?"…오픈AI, 말 끊고 감정 읽는 새 모델 개발 중

오픈AI가 음성을 직접 이해하고 응답하는 차세대 오디오 인공지능(AI) 모델을 개발 중인 것으로 전해졌다. 이를 통해 음성 기반 AI 비서의 응답 속도와 자연스러운 대화 능력을 크게 개선한다는 목표다. 6일 디인포메이션에 따르면 오픈AI는 최근 음성 입력과 출력을 동시에 처리하는 '양방향(bidirectional) 오디오 모델'을 개발 중인 것으로 알려졌다. 이 모델은 사용자의 음성을 실시간으로 이해하고 음성으로 바로 응답하는 구조를 갖춘 것이 특징이다. 기존 음성 비서 시스템은 일반적으로 음성을 텍스트로 변환하는 음성인식(STT), 텍스트 기반 언어모델 처리, 텍스트를 다시 음성으로 변환하는 음성합성(TTS) 과정을 거친다. 이른바 '계층형(cascaded)' 구조로, 여러 단계를 거치는 과정에서 처리 지연이 발생하거나 대화 흐름이 자연스럽지 못하다는 한계가 지적돼 왔다. 반면 오픈AI가 개발 중인 모델은 음성 데이터를 입력 단계에서부터 직접 이해하고 음성으로 응답하는 '네이티브 오디오' 구조를 채택한 것으로 알려졌다. 이러한 방식은 중간 변환 단계를 줄여 보다 빠르고 자연스러운 음성 대화를 구현하는 것을 목표로 한다. 특히 해당 모델은 사용자의 발화 맥락을 실시간으로 파악해 대화 흐름에 맞춰 자연스럽게 반응하는 능력을 강화하는 데 초점을 맞추고 있는 것으로 전해졌다. 음성에 담긴 억양이나 말투, 감정 표현 등을 보다 정교하게 분석해 상황에 맞는 응답을 제공할 가능성도 제기된다. 오픈AI는 최근 음성 인터페이스를 핵심 AI 플랫폼으로 확대하는 전략을 추진하고 있다. 스마트폰과 차량, 고객 서비스 등 다양한 환경에서 실시간 음성 대화가 가능한 AI 비서를 구현하는 것이 목표다. 업계에선 음성 중심 인터페이스가 차세대 컴퓨팅 환경에서 중요한 역할을 할 것으로 보고 있다. 최근 구글은 AI 모델 제미나이에 실시간 음성 대화 기능을 결합한 '제미나이 라이브'를 선보이며 서비스를 확대하고 있다. 메타 역시 라마 계열 모델을 기반으로 음성 인터페이스 연구를 강화하고 있다. 오픈AI의 이번 기술 개발은 이러한 음성 AI 경쟁 속에서 차세대 인터페이스 주도권을 확보하기 위한 전략으로 해석된다. 업계 관계자는 "음성을 직접 처리하는 AI 모델이 상용화되면 인간과 AI 간 상호작용 방식이 크게 변화할 것"이라며 "실시간 음성 대화가 가능한 AI 비서가 새로운 플랫폼 경쟁의 핵심이 될 가능성이 크다"고 말했다.

2026.03.06 16:23장유미 기자

"읽지 말고 들으세요"...구글, '제미나이' 앞세워 문서 패러다임 전환 선언

구글이 '제미나이'를 활용해 문서 콘텐츠를 음성으로도 제공하며 콘텐츠 소비 방식의 변화를 꾀한다. 텍스트 기반의 정보 습득 방식을 청각 영역으로 확장하려는 시도다. 20일 더버지에 따르면 구글은 '구글 워크스페이스 문서'에 '제미나이' 기반의 AI 오디오 생성 기능을 도입한다. 이번 업데이트는 데스크톱 버전에 우선 적용되며 영어 문서부터 지원을 시작한다. 사용자는 두 가지 방식으로 이 기능을 활용할 수 있다. 공유 문서를 읽는 사람은 '도구' 메뉴의 '오디오' 항목을 통해 듣기를 시작할 수 있다. 문서 작성자는 '삽입' 메뉴에서 '오디오' 버튼을 추가해 독자가 클릭 한 번으로 콘텐츠를 들을 수 있도록 설정 가능하다. 새 기능은 단순 낭독을 넘어 사용자 맞춤 설정도 지원한다. 이용자는 AI가 생성하는 음성의 종류를 선택할 수 있으며 자신의 청취 습관에 맞춰 재생 속도 조절도 가능하다. 이는 지난 4월 구글이 언급했던 'AI 팟캐스트' 구상을 보다 실용적으로 구현한 형태다. 다만 모든 사용자가 이 기능을 즉시 이용할 수 있는 것은 아니다. '구글 워크스페이스'의 비즈니스 엔터프라이즈 교육용 유료 요금제 가입자와 AI 프로 및 울트라 구독자에게 우선적으로 기능이 개방된다. 더 버지는 "이 기능은 자신이 작성한 내용을 그저 듣고 싶을 때 편리하게 사용할 수 있을 것으로 보인다"고 평가했다.

2025.08.20 11:56조이환 기자

[AI는 지금] 앤트로픽도 'AI 음성 비서' 경쟁 가세…오픈AI·아마존·애플·삼성 넘을까

'오픈AI 대항마'로 꼽히는 앤트로픽이 자사 인공지능(AI) 챗봇인 '클로드'를 활용한 새로운 음성 비서 제품을 출시한다. 생성형 AI를 탑재한 'AI 음성 비서'가 최근 우후죽순 쏟아지면서 글로벌 빅테크의 새로운 격전지가 된 가운데 앤트로픽이 존재감을 키울 수 있을 지 주목된다. 16일 블룸버그통신에 따르면 앤트로픽은 '음성 모드'라고 불리는 새로운 기능을 이르면 이달 중 출시할 것으로 알려졌다. 음성 지원 기능의 도입으로 텍스트 입력 방식보다 훨씬 자연스럽게 AI와 소통할 수 있을 것으로 보인다. 초기에는 제한적인 서비스만 선보일 예정으로, '에어리'와 '멜로우', 영국식 억양의 '버터리' 등 세 가지 음성을 도입할 것으로 전해졌다. 앞서 앤트로픽은 '클로드'에 음성 기능을 추가하기 위해 음성 AI 스타트업 일레븐랩스, 아마존과 협력 중이란 소식이 전해진 바 있다. 앤트로픽 경영진도 음성 옵션을 개발 중이라고 밝힌 바 있지만, 구체적인 출시 일정과 세부 사항은 알려지지 않았다. 앤트로픽의 '음성 모드' 출시 소식은 앱 연구원 M1아스트라(M1Astra)가 앤트로픽의 코드에서 발견해 블룸버그통신에 공유하며 드러났다. 앤트로픽은 이번 일에 대해 공식 입장을 밝히지 않았다. 업계에선 앤트로픽의 이 같은 행보가 경쟁사인 오픈AI와의 격차를 줄이기 위한 움직임으로 해석했다. 앤트로픽이 최근 '클로드 리서치'란 기능을 추가한 것도 지난 2월 발표된 오픈AI '딥 리서치'를 견제하기 위한 것으로 보는 시각이 많다. 이 외에 구글 '제미나이', 미스트랄 '르샤' 역시 웹 검색 기능을 제공하고 있다. 여기에 앤트로픽은 클로드 이용자가 업무를 간소화할 수 있도록 지메일(Gmail), 구글 캘린더, 구글 문서도구에서 검색할 수 있는 기능도 조만간 추가할 예정으로, 기능 강화를 통해 시장 주도권을 잡겠다는 방침이다. 업계 관계자는 "앤트로픽의 음성 기능 도입은 경쟁사들에 비해 다소 늦은 편"이라며 "오픈AI, 구글, xAI 등은 이미 음성 기능을 공개했고 메타도 음성 모드를 강화한 '라마4'를 준비 중"이라고 말했다. 일각에선 앤트로픽이 경쟁사에 비해 다소 늦게 음성 기능을 도입한 만큼 경쟁사들보다 존재감을 더 드러낼 수 있을지 의문을 드러내기도 했다. 현재 AI 음성 비서 시장은 세계 최대 전자상거래 업체 아마존의 '알렉사 플러스'와 삼성전자 '빅스비', 구글 '제미나이 라이브', 애플 '시리' 등과 함께 오픈AI가 경쟁을 벌이고 있다. 특히 지난해 오픈AI의 GPT-4o 등장 후 AI 음성 비서 시장은 빠르게 기술 고도화가 진행되고 있다. 업계 관계자는 "알렉사, 시리, 빅스비 등 기존 음성 비서 서비스들은 음성을 텍스트로 바꿔서 인식하고 답변도 텍스트로 먼저 만든 다음 음성으로 합성하는 식이었다"며 "GPT-4o 이후에는 음성을 음성 그 자체로 인식해 처리 과정이 빨라진 데다 목소리에 담긴 감정이나 배경이 섞인 소리도 알아차릴 수 있게 됐다는 점에서 상당한 기술 차이가 있다"고 설명했다. 이처럼 생성형 AI를 활용한 음성 AI 비서 시장에서 빅테크들의 경쟁이 치열해지면서 관련 시장에 대한 전망도 긍정적이다. 실제 일본 시장조사기관 글로벌 인포메이션에 따르면 AI와 머신러닝(ML)을 사용하는 지능형 가상비서(IVA)의 지난해 시장 규모는 147억7천만 달러(약 20조1천억원)로 추정됐다. 2023~2030년 연평균 성장률(CAGR)은 26.2%로, 2030년 시장 규모는 474억 달러(약 64조6천억원)에 달할 것으로 전망된다. 업계 관계자는 "생성형 AI 음성 비서가 앞으로 돈이 될 것으로 보고 빅테크들을 중심으로 앞 다퉈 서비스를 내놓고 있는 분위기"라며 "듣고 말하는 AI가 전 산업에 걸쳐 가져올 변화는 가늠하기 어려울 정도"라고 밝혔다. 블룸버그통신은 "음성 비서는 사람들이 챗봇과 상호작용하는 방식을 바꾸고 사용자의 생산성을 높일 수 있다는 기대와 함께 오픈AI, 구글과 같은 AI 개발 업체의 핵심 기능으로 부상했다"며 "하지만 AI 음성 제품의 등장으로 다른 사람의 말투를 흉내 내는 것에 대한 우려도 커지고 있다"고 지적했다.

2025.04.16 16:12장유미 기자

애플, '시리' AI 개선 2026년으로 연기

애플이 인공지능(AI) 음성 비서 '시리' 개선을 내년으로 미뤘다고 미국 경제 방송 CNBC가 7일(현지시간) 보도했다. 애플은 올봄 시리 기능을 강화하려 했으나 내년으로 미룬다고 이날 발표했다. CNBC는 애플이 지난해 여름 '애플 인텔리전스'를 공개하면서 시리 음성 비서의 새로운 기능을 소개했으나 이를 실제로 쓰려면 멀었다고 지적했다. 애플이 '개인적 맥락'이라 부르는 또 다른 시리 개선 사항도 지연됐다고 CNBC는 전했다. 운전면허증 사진에 나오는 번호를 기반으로 사용자를 대신해 개인정보 양식을 작성하는 기능이 대표적이다. 애플 관계자는 성명을 내고 “개인화된 시리를 개발해 사용자 대신 앱을 편하게 쓰도록 조치하고 있다”며 “이런 기능을 제공하는 데 생각보다 시간이 더 걸려 내년에 선보일 것 같다”고 말했다. 오픈AI가 '챗GPT'로 2022년 생성형 AI 시대를 연 뒤 애플이 압박을 느낀다고 CNBC는 분석했다. 또 '알렉사' 음성 비서를 발표한 아마존과 '제미나이' 비서를 개발 중인 구글보다 애플이 뒤처질 수 있다고 내다봤다. 애플이 이런 어려움을 겪는 일은 이번이 처음이 아니라고 CNBC는 비판했다. 올해 초 사용자가 '애플 AI가 부정확한 사실을 표시하기 위해 헤드라인을 왜곡한다'는 사실을 발견하자 애플은 뉴욕타임스와 BBC 같은 뉴스 앱에 대한 애플 인텔리전스 요약을 비활성화했다.

2025.03.08 08:43유혜진 기자