• ZDNet USA
  • ZDNet China
  • ZDNet Japan
  • English
  • 지디넷 웨비나
뉴스
  • 최신뉴스
  • 방송/통신
  • 컴퓨팅
  • 홈&모바일
  • 인터넷
  • 반도체/디스플레이
  • 카테크
  • 헬스케어
  • 게임
  • 중기&스타트업
  • 유통
  • 금융
  • 과학
  • 디지털경제
  • 취업/HR/교육
  • 생활/문화
  • 인사•부음
  • 글로벌뉴스
인공지능
배터리
양자컴퓨팅
IT'sight
칼럼•연재
포토•영상

ZDNet 검색 페이지

'음성 모델'통합검색 결과 입니다. (5건)

  • 태그
    • 제목
    • 제목 + 내용
    • 작성자
    • 태그
  • 기간
    • 3개월
    • 1년
    • 1년 이전

투플랫폼, 30개 언어 구사하는 'AI 목소리' 공개…글로벌 비즈니스 혁신 이끈다

투플랫폼이 다양한 언어로 인간의 감정까지 표현하는 인공지능(AI) 음성 기술을 통해 글로벌 비즈니스 환경 개선을 선언했다. 투플랫폼은 29일 초고품질 다국어 음성 생성 모델 '수트라 하이파이'를 공식 출시했다. 이 모델은 한국어와 영어를 포함해 힌디어, 베트남어, 아랍어 등 30여 개 언어를 지원한다. 초저지연 실시간 음성 합성을 통해 기존 기계음과 차별화되는 고품질 음성을 제공하는 것이 특징이다. '수트라 하이파이'는 투플랫폼이 자체 개발한 AI 모델 '수트라'의 다국어 역량을 음성 영역까지 확장한 결과물이다. 기존 텍스트 요약, 질의응답, 번역 기술에 음성 합성을 통합한 것이다. 이를 통해 텍스트 이해와 음성 생성을 하나의 생태계에서 유기적으로 연결해 일관된 사용자 경험을 제공한다. 기업은 '수트라 하이파이'의 맞춤형 목소리 생성 기능을 활용해 브랜드가 추구하는 이미지에 어울리는 목소리를 만들 수 있다. 이는 브랜드 정체성을 강화하는 동시에 사용자 몰입도를 높이는 효과를 낸다. 투플랫폼은 '수트라 하이파이'를 활용한 AI 고객 상담 솔루션도 선보였다. 이 솔루션은 다국어 음성 자동 응답 기능을 통해 단순 문의는 AI가 처리하고 복잡한 문의는 즉시 상담사에게 연결한다. 산업별 전문 용어와 다양한 고객 응대 시나리오를 학습해 정교한 대응이 가능하다. 실제 KS한국고용정보는 해외 콜센터 운영에 해당 솔루션을 도입했다. 외국인 상담사는 번역을 지원하는 AI 채팅 기능으로 한국어 메시지를 이해하고 상담 톤앤매너에 맞춘 응답 메시지를 자동으로 작성한다. 그 결과 고객 응답 시간과 운영 비용이 모두 줄었다. 양측은 2~3개월 내 24시간 다국어 고객 문의에 응답하는 AI 음성 콜봇도 적용할 계획이다. 콜봇이 도입되면 운영 효율화 효과는 극대화될 전망이다. 이번 출시는 투플랫폼의 '서비스형 AI(AIaaS)' 전략의 핵심이다. 회사는 수트라 기반의 여러 AI 기능을 응용 프로그램 인터페이스(API)나 모듈 형태로 제공한다. 기업들이 각자 환경에 맞춰 신속히 AI를 도입하고 실제 서비스에 통합하도록 돕는 방식이다. 활용 범위는 컨택센터에 국한되지 않는다. 미디어 분야에서는 다양한 언어와 감정을 담은 음성 콘텐츠 자동 생성 및 더빙으로 제작 비용을 줄일 수 있다. 교육 분야에서는 몰입형 음성 콘텐츠나 AI 튜터를 통해 학습 혁신을 꾀할 수 있다. 이외에도 커머스 분야의 구매 전환율 개선이나 헬스케어 기업의 자연어 상담 대응에도 적용이 기대된다. 프라나브 미스트리 투플랫폼 대표는 "AI 음성 기술은 이제 단순한 텍스트 낭독을 넘어 사람의 감정과 뉘앙스까지 전달하며 산업의 판도를 바꾸고 있다"며 "'수트라 하이파이'는 글로벌 고객을 확보하고 지원할 수 있게 도움으로써 기업의 해외 비즈니스 환경을 개선한다"고 밝혔다.

2025.07.29 17:04조이환

KAIST, 무한대 음성 학습·평가 가능한 언어모델 공개

이론적으로 무한대로 음성을 생성할 수 있는 음성언어모델(SLM)이 공개됐다. 이 모델은 영어로된 텍스트를 자연스럽게 음성으로 전달한다. KAIST(총장 이광형)는 전기및전자공학부 노용만 교수 연구팀 박세진 연구원(박사과정)이 새로운 음성 언어 모델 '스피치SSM'을 개발했다고 4일 밝혔다. 노용만 교수는 "현재 공개한 건 영어 텍스트를 여성 음성으로 만들었다"며 "향후 박세진 연구생(박사과정)이 메타(페이스북) 인턴을 마치고 돌아오면 한글로 된 음성도 만들어 공개하게 될 것"이라고 말했다. 연구 결과는 머신러닝 국제 컨퍼런스(ICML) 2025에 구두 논문 발표 대상으로 확정됐다. 구글 딥마인드와 협력해 오는 16일 열릴 국제머신러닝학회(ICML)에서 구두로 발표할 예정이다 음성 언어 모델(SLM)은 중간에 텍스트로 변환하지 않고 음성을 직접 처리한다. 인간 화자 고유의 음향적 특성을 활용할 수 있어 대규모 모델에서도 고품질 음성을 빠르게 생성할 수 있다. 이같은 장점에도 불구하고 SLM은 음성을 아주 세밀하게 잘게 쪼개 자세한 정보까지 담는 경우, '음성 토큰 해상도'가 높아지고 메모리 소비도 증가해 장시간 일관성 있는 음성 생성이 어려웠다. 연구팀은 이 문제를 해결하기 위해 긴 음성 시퀀스를 효율적으로 처리하고 생성할 수 있도록 정보에 집중하는 '어텐션 레이어'와 전체 이야기 흐름(장기적인 맥락)을 오래 기억하는 '순환 레이어'를 교차 배치한 '하이브리드 구조' 로 설계했다. 노용만 교수는 "이 구조가 긴 시간 음성을 생성해도 흐름을 잃지 않고 이야기를 잘 이어간다는 것을 연구팀이 확인했다"고 설명했다. 연구팀은 또 음성 데이터를 각 단위별로 독립적으로 처리하고, 전체 긴 음성을 만들 경우에는 다시 붙이는 방식을 활용해 쉽게 긴 음성을 만들었다. 음성 생성 단계에서는 한 글자, 한 단어 차례대로 천천히 만들어내지 않고, 여러 부분을 한꺼번에 빠르게 만들어내는 '비자기회귀' 방식의 오디오 합성 모델을 사용해, 고품질 음성을 빠르게 생성할 수 있도록 했다. 연구팀은 "기존은 100초 정도 짧은 음성 모델을 평가했지만, 우리는 16분까지 생성할 수 있도록 자체 구축한 새로운 벤치마크 데이터셋인 '라이브리스피치-롱(LibriSpeech-Long)'을 기반으로 음성을 생성하는 평가 태스크를 새롭게 만들었다"고 설명했다. 논문 제1저자인 박세진 연구생(박사과정)은 “긴 문맥에서도 일관된 내용을 유지하면서, 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답한다"며 "다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 크게 기여할 것으로 기대한다”고 덧붙였다.

2025.07.04 09:01박희범

'클로드'도 AI 보이스 시장 참전…앤트로픽, 음성 기능 베타 출시

오픈AI가 선보인 챗GPT의 음성 기능이 인기를 끄는 가운데 경쟁사인 앤트로픽도 클로드 모델의 음성 인공지능(AI) 모드 출시를 예고하며 주목받고 있다. 28일 테크크런치에 따르면 앤트로픽은 클로드 음성 기능 베타 버전을 출시했다. 앞으로 몇 주 내에 정식 출시될 예정으로, 음성 기능은 앤트로픽의 클로드 소넷4 모델로 구동된다. 모바일 앱에서도 이용할 수 있다. 앤트로픽은 음성 기능을 활용해 사용자와 클로드 모델 간의 상호 작용 방식을 혁신한다는 목표다. 최근 오픈AI를 비롯한 여러 AI 기업이 자사 챗봇에 음성 채팅 기능을 통합해 제공 중이다. 챗GPT뿐만 아니라 구글은 제미나이 라이브를, xAI는 그록 모델의 보이스 모드를 서비스 중이다. 이런 추세에 맞춰 앤트로픽도 클로드의 음성 기능을 출시하게 됐다. 앤트로픽이 베타 버전으로 출시한 음성 기능은 문서나 이미지 등에 대한 대화도 지원한다. 서비스하는 음성 옵션은 총 다섯 가지이며 텍스트 모드와 음성 모드를 즉시 전환하고 대화 후 요약도 제공한다. 다만 현재는 베타 버전이기에 사용량에 제한이 있는 것으로 알려졌다. 클로드 무료 사용자는 20~30개의 대화만이 가능하다. 반면 유료 사용자는 음성 모드를 통해 구글 캘린더와 지메일 등 구글 워크스페이스와 연동된 서비스도 이용할 수 있다. 앤트로픽 측은 "주요 파트너사인 아마존, 음성 AI 스타트업 일레븐랩스와 향후 클로드의 음성 기능 고도화를 위한 논의를 진행 중"이라고 밝혔다.

2025.05.28 11:37한정호

"글로벌 수준"...카카오, 멀티모달 언어모델 'Kanana-o' 성능 공개

카카오가 새로운 인공지능 모델을 통해 기술 경쟁력 강화를 이어간다. 카카오(대표 정신아)는 공식 테크블로그를 통해 통합 멀티모달 언어모델 'Kanana-o'와 오디오 언어모델 'Kanana-a'의 성능과 개발 후기를 1일 공개했다. 통합 멀티모달 언어모델인 Kanana-o는 텍스트와 음성, 이미지까지 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 모델이다. 텍스트, 음성, 이미지 중 어떠한 조합으로 질문을 입력하더라도 처리 가능하며, 상황에 맞는 텍스트나 자연스러운 음성으로 응답 가능한 구조로 설계됐다. 카카오는 '모델 병합' 기술을 기반으로 이미지 처리에 특화된 모델 'Kanana-v'와 오디오 이해 및 생성에 특화된 'Kanana-a' 모델을 통합, 단기간 내 효율적으로 Kanana-o를 개발했다. 통합 후에는 이미지, 오디오, 텍스트 데이터를 동시에 학습하는 '병합 학습'을 통해 시각과 청각 정보를 동시에 이해하고, 텍스트와 연결 지을 수 있도록 통합 훈련을 거쳤다. 이런 과정을 통해 기존 LLM 구조에서 이미지 이해 능력과 음성 인식과 합성, 감정 이해 등 고도화된 오디오 능력을 확장시킨 통합 멀티모달 언어모델이 구현됐다. Kanana-o는 음성 감정 인식 기술을 통해 사용자의 의도를 올바르게 해석하고, 상황에 맞는 적절한 반응과 답변을 제공해준다. 억양, 말투, 목소리 떨림 등 비언어적 신호를 분석하고, 대화 맥락에 맞는 감정적이고 자연스러운 음성의 응답을 생성하는 것이 특징이다. 대규모 한국어 데이터셋을 활용해 한국어의 특수한 발화 구조, 억양, 어미 변화 등을 정밀하게 반영하기도 했다. 특히 제주도, 경상도 등 지역 방언을 인식하고 이를 표준어로 변환해 자연스러운 음성을 생성할 수 있다. 지속적인 성능의 고도화를 위해 카카오는 현재 독자적인 한국어 음성 토크나이저(오디오 신호를 일정 단위로 작게 분해하는 도구) 개발을 진행 중이다. 스트리밍 방식의 음성합성 기술을 적용해 사용자가 긴 대기 시간 없이 응답을 제공하는 강점도 보유했다. 예를 들어, 이미지와 함께 "이 그림에 어울리는 동화를 만들어 줘"라고 입력하면, Kanana-o는 해당 음성을 이해하고 사용자의 억양과 감정 등을 분석해 자연스럽고 창의적인 이야기를 실시간으로 생성해 들려준다. Kanana-o는 한국어 및 영어 벤치마크에서 글로벌 최고 모델들과 유사 수준을 기록했으며, 한국어 벤치마크에서는 높은 우위를 보였다. 특히, 감정인식 능력에서는 한국어와 영어 모두에서 큰 격차를 기록하며, 감정까지 이해하고 소통할 수 있는 AI 모델의 가능성을 입증했다. 이미지와 음성을 통합적으로 이해해야 하는 '이미지-음성 QA(질의응답)' 태스크에서도 강력한 성능을 달성하며, 통합 멀티모달 언어모델로서의 글로벌 경쟁력을 확인했다. 카카오는 향후 Kanana-o를 통해 ▲다중 턴 대화 처리 ▲양방향 데이터 동시 송수신 기술 대응 능력 강화 ▲부적절한 응답 방지를 위한 안전성 확보 등을 목표로 연구 개발을 지속해 갈 계획이다. 이를 통해 다중 음성 대화 환경에서의 사용자 경험을 혁신하고, 실제 대화에 가까운 자연스러운 상호작용을 실현해가는 것이 목표다. 카카오 김병학 카나나 성과리더는 "카나나 모델은 복합적인 형태의 정보를 통합적으로 처리함으로써 기존의 텍스트 중심 AI를 넘어 사람처럼 보고 듣고 말하며 공감하는 AI로 진화하고 있다"며 "독자적인 멀티모달 기술을 바탕으로 자사의 인공지능 기술 경쟁력을 강화하는 한편, 지속적 연구 결과 공유를 통해 국내 AI 생태계 발전에 꾸준히 기여할 계획"이라고 말했다.

2025.05.01 10:13백봉삼

오픈AI, 목소리 복제하는 '보이스 엔진' 미리보기 공개

오픈AI가 음성을 복제할 수 있는 인공지능(AI) 모델을 공개했다. 현재 소수 테스터들만 해당 모델에 접근할 수 있다. 29일 벤처비트는 오픈AI가 AI 음성 모델 '보이스 엔진'을 미리보기 버전으로 공개했다고 보도했다. 모델 개발 기간은 약 2년 걸렸다. 그동안 보이스 모델은 챗GPT의 음성 기능에 탑재됐다. 사용자 음성을 인식하고, 답변을 음성으로 제공하는 역할에 그쳤다. 이번에 공개된 모델은 음성 복제까지 가능하다. 사용자가 15초 분량의 음성 클립을 넣으면, 해당 목소리와 매우 유사한 음성을 생성하는 식이다. 오픈AI 측은 공식 블로그에서 해당 모델을 소수 파트너 그룹에만 우선 제공한다고 밝혔다. 각국 선거를 앞둔 상황에서 악영향을 미칠 수 있다는 우려에서다. 실제 올해 초 일레븐랩스의 음성 복제 기술을 사용해 조 바이든 미국 대통령의 목소리를 복제한 사건이 발생해 연방 정부가 조사에 나선 바 있다. 회사는 "해당 모델은 언어 장애인이나 학생들에게 유용할 것"이라며 "신뢰할 수 있는 소규모 파트너 그룹에게만 제공한 상태"라고 밝혔다. 현재 교육 업체 에이지 오브 러닝, 비디오 번역 업체 헤이젠, 의료용 도구 업체 디마지, 언어 장애용 장치 업체 리복스, 의료 및 교육 장치 업체 라이프스판 등이 보이스 엔진을 받았다. 블로그 내용에 따르면, 파트너사는 무단 사칭을 금지하고 음성 제공자의 사전 동의를 요구하는 사용 정책을 지켜야 한다. 생성된 복제 음성에는 귀에 들리지 않는 워터마크도 넣어야 한다.

2024.03.31 10:34김미정

  Prev 1 Next  

지금 뜨는 기사

이시각 헤드라인

美 정부, 인텔에 12.3조 투자 최대 주주로...사실상 '국영기업' 전환

노란봉투법, 결국 본회의 통과…다음은 '더 센' 상법 개정

글로벌 IT 업계 휩쓰는 'SaaS 종말론'…韓 산업의 해법은?

한일 정상 "한미일 협력 강화...사회문제 해결 협의체 구성"

ZDNet Power Center

Connect with us

ZDNET Korea is operated by Money Today Group under license from Ziff Davis. Global family site >>    CNET.com | ZDNet.com
  • 회사소개
  • 광고문의
  • DB마케팅문의
  • 제휴문의
  • 개인정보취급방침
  • 이용약관
  • 청소년 보호정책
  • 회사명 : (주)메가뉴스
  • 제호 : 지디넷코리아
  • 등록번호 : 서울아00665
  • 등록연월일 : 2008년 9월 23일
  • 사업자 등록번호 : 220-8-44355
  • 주호 : 서울시 마포구 양화로111 지은빌딩 3층
  • 대표전화 : (02)330-0100
  • 발행인 : 김경묵
  • 편집인 : 김태진
  • 개인정보관리 책임자·청소년보호책입자 : 김익현
  • COPYRIGHT © ZDNETKOREA ALL RIGHTS RESERVED.