검색 - IT세상을 바꾸는 힘 지디넷코리아

ZDNet 검색 페이지

'음성 AI'통합검색 결과 입니다. (38건)

태그
기간
- 3개월
- 1년
- 1년 이전

재검색

NC AI '바르코 보이스', 유엔 AI 서밋서 사회적 가치 빛났다

NC AI가 음성 생성 인공지능(AI)의 사회적 활용 성과를 국제 무대에서 인정받으며 포용적 기술 경쟁력을 입증했다. NC AI는 바르코 보이스가 유엔 산하 국제전기통신연합(ITU)이 주최한 'AI 포 굿 글로벌 서밋(AI for Good Global Summit) 2026'에서 우수 AI 활용 사례로 선정됐다고 8일 밝혔다. AI 포 굿 글로벌 서밋은 AI를 활용해 글로벌 과제 해결과 지속가능발전목표(SDGs) 달성을 논의하는 국제 행사다. 바르코 보이스는 다국어 음성 생성과 감정 표현 기술을 기반으로 콘텐츠 제작 접근성을 높인 점을 인정받아 '이노베이트 포 임팩트(Innovate for Impact)' 우수 활용 사례로 선정됐다. 창작자와 중소기업은 물론, 공공·교육 분야에서도 고품질 음성 콘텐츠 제작의 진입장벽을 낮춰 포용적인 AI 활용 환경 조성에 기여했다는 평가다. NC문화재단과 협력해 개발한 보완대체의사소통(AAC) 앱 'My AAC'도 AI 기술의 사회적 활용 사례로 소개됐다. 바르코 보이스를 적용한 My AAC는 의사소통에 어려움을 겪는 이용자에게 개인화된 음성을 제공해 자연스러운 소통을 지원하도록 설계됐다. 이번 행사에 출품한 AI 모델과 서비스도 공식 간행물에 모두 이름을 올렸다. 간행물에는 ▲바르코 3차원(3D) ▲바르코 사운드 ▲바르코 보이스 ▲바르코 트랜스레이션 ▲바르코 아트패션 ▲배키 ▲배키 에이전트 ▲도메인옵스 등 자사 AI 모델과 서비스 8종이 모두 등재됐다. NC AI는 콘텐츠 AI와 산업 AI 전환(AX)을 양대 축으로 사업을 확대하고 있다. 콘텐츠 분야에서는 바르코를 중심으로 생성형 AI 활용 사례를 넓히고 산업 분야에서는 배키를 기반으로 기업의 AI 전환을 지원하고 있다. 최근에는 피지컬 AI 분야로도 사업 영역을 확장 중이다. 이연수 NC AI 대표는 "이번 성과는 우리 기술이 산업적 효용을 넘어 인류의 삶을 실질적으로 개선할 수 있음을 보여준 뜻깊은 결과"라며 "누구나 쉽고 편리하게 고품질 AI를 활용할 수 있도록 포용적인 산업 AI 생태계를 구축하는 데 앞장서겠다"고 말했다.

2026.07.08 11:32이나연 기자

허드슨AI, 'K컬처' 행사서 실시간 AI통번역 제공

허드슨AI는 'K컬처 익스플레인드' 행사에서 실시간 AI 통번역 솔루션을 제공했다고 1일 밝혔다. 지난 30일 서울 서대문구 연세대에서 진행된 이 행사는 연세대와 K엔터테크허브가 공동 주최했으며, 국내외 대학생 300여 명이 참석했다. 한정훈 K엔터테크허브 대표는 'OTT 투어리즘'을 주제로 발표했다. 김미후 넷플릭스 한국 마케팅 부문 디렉터는 K콘텐츠를 전 세계 시청자의 대화 거리로 만드는 '컨버세이션 퍼스트' 전략을 소개했고, 이강이 한국 프로덕트 머천다이징 부문 디렉터는 시청자의 취향과 문화권에 맞춰 콘텐츠를 발견하도록 돕는 개인화 추천 전략을 설명했다. 주요 발표는 허드슨AI의 실시간 음성 인식, 번역 기술을 통해 현장에서 영어로 제공됐다. 참석자는 한국어 발표를 실시간 번역 텍스트로 확인할 수 있었고, 원하면 번역 내용을 음성으로도 들을 수 있었다. 해외 학생이 다수 참여한 만큼, 다른 참석자도 K콘텐츠와 엔터테크 산업 발표를 직관적으로 이해하도록 도왔다. 허드슨AI는 그간 KBO 등 스포츠 중계를 실시간 영어 더빙으로 제공하며 라이브 방송 환경에 실시간 음성 AI 기술을 적용해 왔다. 행사에선 이 기술을 오프라인 라이브 현장에 적용해, 방송 콘텐츠를 넘어 실시간 현장 커뮤니케이션 영역으로 활용 범위를 넓혔다. 신현진 허드슨AI 대표는 "K콘텐츠가 전 세계로 확산되려면 콘텐츠 자체의 매력뿐 아니라 언어 장벽 없이 전달되는 환경이 중요하다"며 "라이브 방송에서 쌓은 음성 AI 기술을 오프라인 행사에 적용하며 실시간 커뮤니케이션 기술로서의 확장 가능성을 확인했다"고 말했다.

2026.07.01 17:06홍지후 기자

AI가 분석하는 e스포츠 음성 데이터, 승리 공식 바꾼다

SAP가 e스포츠 게임단 팀 리퀴드와 선수 간 커뮤니케이션과 감정, 의사결정 과정까지 데이터화해 경기력 향상에 나섰다. SAP는 23일 서울 중구 HJ비즈니스센터에서 개최한 간담회를통해 팀 리퀴드와 공동 개발한 AI 기반 음성 인텔리전스 애플리케이션을 소개했다. SAP와 팀 리퀴드는 2018년부터 협력 관계를 이어오고 있다. 초기에는 경기 데이터 분석을 중심으로 협력했지만 최근에는 생성형 AI와 기계학습(ML)을 활용한 고도화된 분석 영역으로 확대되고 있다. 현재 양사는 AI 드래프트 시뮬레이터, 팀파이트 자동 탐지 기능에 이어 음성 인텔리전스 솔루션까지 공동 개발해 활용하고 있다. 음성 감정 분석…팀워크·리더십 구조 검증 이번에 공개된 AI 기반 음성 인텔리전스는 e스포츠 경기 중 선수 간에 음성 데이터를 자동 수집한 뒤 AI를 활용해 선수별 음성을 분리하고 음성 내용을 코치진이 활용할 수 있도록 데이터로 제공한다. 그동안 프로 e스포츠 팀은 매일 수시간 분량 음성 커뮤니케이션 데이터를 생성해 왔지만 대부분 오디오 형태로 저장돼 체계적인 분석이 어려웠다. 리그 오브 레전드와 같은 팀 기반 게임에서는 선수 간 의사소통과 감정 상태가 경기 결과에 직접적인 영향을 미치지만 이를 정량적으로 측정할 수단이 제한적이었다. SAP는 이번 솔루션을 통해 음성 데이터 분석 과정을 완전 자동화했다. 경기 녹화본이 확보되면 AI가 멀티채널 오디오를 수집하고 선수별 음성을 분리한 뒤 음성 활동 감지(VAD), 음성 전사(STT), 화자 식별, 감정 분석 등을 수행한다. 이를 통해 기존에 수시간이 걸리던 수동 리뷰 작업을 수분 내에 완료할 수 있다는 설명이다. 톰 발크스 파트너십 매니저는 "실제 경기 환경의 압박 속에서 팀 커뮤니케이션을 체계적으로 분석할 수 있게 된 것은 이번이 처음"이라며 "정제되지 않은 음성 채팅 데이터를 가치 있는 인사이트로 전환해 코치진이 경기 결과와 커뮤니케이션, 감정, 의사결정 과정 간의 관계를 분석할 수 있도록 지원한다"고 말했다. 이어 "이는 경기력 분석과 선수 육성, 팀 문화에 접근하는 방식을 근본적으로 변화시킬 것"이라고 강조했다. 특히 팀 리퀴드는 이번 솔루션을 단순 감정 분석 도구가 아닌 팀워크와 리더십 구조를 분석하는 플랫폼으로 활용하고 있다. 하이탐 알그보리 팀 리퀴드 LoL 애널리틱스 및 데이터 총괄은 "감정 분석 결과를 선수 평가에 직접 활용하는 것이 아니라 경기 중 평소와 다른 플레이나 의사소통 패턴이 나타났을 때 이를 객관적으로 검증하는 용도로 활용한다"고 설명했다. 그는 "선수 5명이 모두 정보만 전달하면 실제 의사결정은 이뤄지지 않는다"며 "누가 정보를 종합해 팀의 행동 방향을 제시하는지, 어떤 선수가 전략적 결정을 주도하는지 파악하는 것이 중요하다"고 말했다. 이어 "특정 선수가 지나치게 의사결정을 독점하거나 반대로 리더십 공백이 발생하는 상황도 확인할 수 있다"며 "선수들의 커뮤니케이션 성향과 협업 방식을 이해하는 데 큰 도움이 된다"고 덧붙였다. 전 프로게이머이자 현재 스트리머로 활동 중인 매즈 '브록사' 브록-페데르센은 리그 오브 레전드의 전략적 복잡성을 설명하며 데이터 분석의 중요성을 강조했다. 그는 "현재 리그 오브 레전드에는 170개가 넘는 챔피언이 존재하며 프로팀들은 경기 전 수 시간 동안 밴픽 전략과 상대 분석에 집중한다"며 "SAP의 분석 도구는 선수와 코치진이 더 나은 의사결정을 내리는 데 도움을 주고 있다"고 말했다. SAP는 현재 약 1000만 건의 리그 오브 레전드 경기 데이터를 기반으로 분석 플랫폼을 운영하고 있다. 게임 패치가 수시로 변경되는 e스포츠 특성을 고려해 최신 버전 데이터를 중심으로 AI 모델을 지속적으로 업데이트하고 있다. 객관적 지표 눈으로 확인…경기력 향상 도움 토마스 에써 SAP 글로벌 스폰서십 부문 시니어 디렉터는 "전통 스포츠에서는 데이터를 확보하기 위해 센서를 부착하거나 별도의 측정 장비가 필요하지만 e스포츠에서는 모든 행동이 디지털 데이터로 기록된다"며 "AI와 데이터 분석 기술의 가치를 보여주기에 최적의 환경"이라고 말했다. 그는 "특히 음성 데이터는 지금까지 사실상 활용되지 못했던 영역"이라며 "AI를 통해 선수들의 의사소통과 감정, 팀 내 협업 구조를 분석할 수 있게 됐다"고 설명했다. 이번 솔루션은 SAP 비즈니스 테크놀로지 플랫폼(SAP BTP)을 기반으로 구축됐다. SAP HANA 클라우드는 구조화된 데이터를 저장하고 감정 분석 기능을 수행하는 핵심 인프라 역할을 담당한다. AI 모델은 SAP AI 코어를 통해 운영되며 음성 전사와 감정 분석 등 고성능 AI 워크로드를 처리한다. 하이탐 알그보리 총괄은 "현재까지 AI 기반 음성 인텔리전스 애플리케이션은 팀 리퀴드의 수천 개 오디오 트랙을 처리하며 검색 가능하고 감정 점수가 반영된 인사이트를 제공해 왔다"며 "파편화된 커뮤니케이션 데이터를 구조화된 성과 데이터로 전환해 팀이 게임과 대회, 시즌 전반에 걸쳐 활용할 수 있도록 지원한다"고 말했다. 이어 "AI가 데이터와 맥락, 실행을 연결해 사람들이 더 빠르고 정확한 의사결정을 내릴 수 있도록 돕는 것이 자율형 엔터프라이즈의 핵심"이라며 "이번 사례는 비즈니스 AI가 실시간 성과 환경에서도 충분한 가치를 창출할 수 있음을 보여준다"고 강조했다. 실제 서비스를 체험한 선수도 AI 기반 음성 분석이 경기력 향상에 실질적인 도움을 주고 있다고 평가했다. 모건 박로한 선수는 "경기가 끝난 뒤 리뷰를 할 때 내가 얼마나 콜을 했는지 기억나지 않는 경우가 많다"며 "데이터를 통해 경기별 커뮤니케이션 패턴을 확인해보면 게임이 잘 풀렸을 때는 콜이 많았고, 반대로 잘 안 풀렸을 때는 말수가 줄어든다는 점을 객관적으로 확인할 수 있었다"고 말했다. 이어 "이런 데이터를 보면서 다음 경기에서는 어떤 부분을 보완해야 할지 준비할 수 있게 됐다"고 덧붙였다. 코어장전 조용인 선수는 "게임에서는 감정이 판단에 영향을 줄 수 있기 때문에 중요한 순간이 아니면 최대한 감정을 중립적으로 유지하려고 한다"며 "AI 분석은 경기 중 나타나는 감정 변화와 커뮤니케이션 패턴을 객관적으로 확인하는 데 도움이 된다"고 설명했다. 그는 "코칭스태프가 단순히 말이 많았다거나 적었다고 이야기하는 것보다 데이터를 통해 시각적으로 보여주면 훨씬 이해하기 쉽다"며 "잘된 경기와 그렇지 않은 경기에서 내가 어떤 방식으로 소통했는지 추적할 수 있어 선수 입장에서도 많은 도움이 된다"고 말했다.

2026.06.23 13:29남혁우 기자

"AI 더빙, 콘텐츠 맥락·감정·문화적 뉘앙스까지 함께 전달"

"AI 더빙이 단순히 음성을 다른 언어로 바꾸는 기술을 넘어 콘텐츠의 맥락과 감정, 문화적 뉘앙스까지 함께 전달하는 방향으로 진화하고 있다." 허드슨에이아이가 과학기술정보통신부와 부산광역시가 공동 주최하는 2026 코리아국제스트리밍페스티벌(KISF 2026) 개막 연사로 참여했다고 19일 밝혔다. KISF는 글로벌 스트리밍 플랫폼 축제로, 6월 21일까지 4일간 영화의전당과 파라다이스호텔 부산에서 열린다. 신현진 허드슨에이아이 대표는 이 자리에서 'AI 더빙을 통한 미디어의 확장'을 주제로 발표했다. 최근 AI 더빙 시장의 경쟁력은 빠른 제작과 비용 절감을 넘어, 원작의 정서와 연기의 고유성을 얼마나 자연스럽게 보존하느냐로 옮겨가고 있다. 신 대표가 한국 콘텐츠의 글로벌 확장을 위해 맥락 기반 AI 더빙을 강조하는 이유다. 이는 원문을 그대로 옮기는 직역이 아니라, 원작의 의도와 정서, 유머, 문화적 맥락을 목표 언어권 시청자가 자연스럽게 이해하도록 재구성하는 현지화 방식이다. 연기와 정서가 중요한 드라마·영화·예능에서는 직역보다 초월번역의 완성도가 콘텐츠 수용성과 몰입도를 좌우한다. 신 대표는 “AI를 활용하더라도 문화권에 따라 다르게 해석될 수 있는 표현, 인물 관계에서 비롯되는 말투, 장면의 감정선은 여전히 정교한 이해가 필요한 영역”이라며 “현재는 인간 번역가와 현지화 전문가의 검수 및 수정 과정이 반드시 필요하지만, 향후 에이전틱 AI 더빙 기술이 고도화되면 맥락 이해, 번역, 감정 생성, 음성 합성의 자동 완성도가 더욱 높아질 것”이라고 전망했다. 이어 “이를 통해 더 많은 로컬 콘텐츠가 더 빠르고 효율적으로 글로벌 시청자에게 전달될 수 있을 것”이라고 덧붙였다. 허드슨에이아이는 AI 미디어 더빙 스타트업으로, AI 더빙 솔루션 '허드슨 스튜디오'를 운영 중이다. 허드슨 스튜디오는 음성 분리, 화자 분리, 번역, 음성 합성 등 더빙 제작에 필요한 워크플로우를 통합적으로 지원하며, 원작의 감정 표현을 유지한 다국어 더빙을 구현한다.

2026.06.19 17:12백봉삼 기자

넥스원소프트, AI 시대 '가명·익명 정보 플랫폼' 개발 나선다

생성형 인공지능(AI) 확산으로 영상·음성·문서 등 비정형 데이터 활용 수요가 급증하는 가운데, 넥스원소프트가 개인정보 보호와 데이터 활용을 동시에 지원하는 차세대 가명·익명 정보 처리 플랫폼 개발에 나선다. 보건의료를 시작으로 공공·금융·교육 분야까지 적용 범위를 확대해 AI 시대 데이터 활용 인프라 시장을 선점한다는 목표다. 넥스원소프트는 한국인터넷진흥원(KISA)이 추진하는 개인정보보호·활용 분야 연구개발(R&D) 과제를 수주하고 가명·익명 정보 생성을 위한 비정형데이터 호환 기술 플랫폼 개발에 착수했다고 18일 밝혔다. 사업은 2028년까지 진행된다. 최근 생성형 AI와 데이터 융합 서비스가 확산되면서 영상·텍스트·음성·문서 이미지 등 다양한 형태의 비정형 데이터 활용 수요가 늘고 있다. 이에 데이터 유형별 개인정보 특성과 활용 목적을 반영한 가명·익명 정보 처리 기술 중요성도 커지고 있다. 특히 기관 간 데이터 공유와 연계가 확대되면서 일관된 품질과 신뢰성을 확보할 수 있는 통합 플랫폼 필요성이 높아지는 상황이다. 이번 과제는 데이터 유형별 특성을 반영하면서도 기관 간 동일한 품질 기준으로 가명·익명 정보를 생성할 수 있는 플랫폼 구현을 목표로 한다. 넥스원소프트는 한라대학교와 울산대, 서울아산병원, 유피에스데이터와 컨소시엄을 구성해 사업을 수행한다. 참여 기관들은 비정형 데이터 개인정보 자동 탐지·분류 엔진과 가명·익명 처리 핵심 알고리즘 패키지, 처리 검증·평가 엔진, 탐지 결과 조회 및 비식별 구역 설정 도구, 객체 비식별화 처리 도구 등 플랫폼 핵심 기술을 공동 개발할 예정이다. 플랫폼은 영상·텍스트·음성·문서 이미지 등 다양한 멀티모달 데이터 환경에서 개인정보 자동 탐지와 변환, 재식별 위험 평가, 검증 기능을 지원한다. 탐지와 변환, 검증, 운영 기능을 모듈형 구조로 설계하고 API 방식으로 연동해 다양한 데이터 유형과 서비스 환경에 유연하게 적용할 수 있도록 구현할 계획이다. 넥스원소프트는 우선 보건의료 분야를 중심으로 기술 실증에 나선다. 의료기관 실제 데이터와 기관생명윤리위원회(IRB) 기준을 연계해 의료 영상과 진료 음성, 문서 등 고난도 비정형 데이터의 개인정보 처리 기술을 검증할 예정이다. 이후 확보한 기술 신뢰성과 운영 경험을 바탕으로 공공·금융·교육 분야까지 적용 범위를 확대할 방침이다. 회사는 총 14개 실증기관을 대상으로 현장 적용성을 검증한 뒤 구축형과 모듈형 등 다양한 공급 모델을 마련해 약 40개 기관 및 기업을 대상으로 상용화를 추진할 계획이다. 이를 통해 AI와 데이터 산업 전반에서 활용 가능한 표준 플랫폼으로 발전시킨다는 구상이다. 최덕훈 넥스원소프트 대표는 "가명·익명 정보 기술은 이제 규제 대응 수단이 아니라 AI와 데이터 산업의 핵심 인프라로 자리 잡고 있다"며 "해당 플랫폼은 보건의료·공공·금융·교육 분야 실제 데이터를 기반으로 기술의 정확성과 안전성, 활용성을 검증해 특정 산업에 국한되지 않는 차세대 표준 플랫폼으로 자리매김할 수 있을 것"이라고 밝혔다.

2026.06.18 13:00한정호 기자

외국인 근로자와 실시간 소통…롯데이노베이트, 건설 현장 AI 에이전트 가동

건설업계를 중심으로 인공지능 전환(AX)이 본격화되는 가운데, 롯데이노베이트가 외국인 근로자 비중이 높은 건설 현장 특화 번역 AI 에이전트를 앞세워 제조·물류 등 다양한 산업으로 적용 범위를 넓힌다. 롯데이노베이트는 통합 AI 플랫폼 '아이멤버' 기반 실시간 AI 음성번역 에이전트를 건설 현장에 적용하며 산업 현장 AX 확대에 나선다고 4일 밝혔다. 이번 솔루션은 외국인 근로자와 현장 관리자 간 원활한 의사소통을 지원하기 위해 개발됐다. 최근 건설업계를 비롯한 산업 현장에선 외국인 인력 비중이 증가하면서 작업 지시와 안전 교육, 현장 운영 과정에서 발생하는 언어 장벽 해소가 주요 과제로 떠오르고 있다. AI 음성번역 에이전트는 롯데이노베이트의 자체 음성인식(STT) 기술을 기반으로 한다. 건설 특화 음성인식 모델과 키워드 부스팅 기법을 적용해 소음이 심한 현장 환경에서도 음성을 정확하게 텍스트로 변환할 수 있도록 설계됐다. 변환된 내용은 AI 번역 엔진을 통해 180여 개 언어로 실시간 번역된다. 특히 건설 현장에서 사용하는 전문 용어와 은어를 학습한 점이 특징이다. '가새', '띠장' 등 일반 번역 서비스가 정확하게 처리하기 어려운 현장 용어를 번역할 수 있어 작업 지시와 안전 관련 메시지 전달 정확도를 높였다. 현장 상황에 따라 신규 용어를 즉시 등록·수정·삭제할 수 있는 사용자 정의 사전 기능도 제공한다. 운영 방식도 현장 중심으로 설계됐다. 관리자가 번역 채널을 개설해 정보를 송출하면 근로자는 스마트폰으로 번역 결과를 실시간 확인할 수 있다. 관리자는 대시보드를 통해 건설용어집 관리와 사용 현황을 한눈에 파악할 수 있다. 이를 통해 소통 오류를 줄이고 작업 효율과 안전성을 동시에 높일 수 있다는 설명이다. 최근 국내 산업계에선 생성형 AI를 활용한 현장형 AI 에이전트 도입이 늘어나는 추세다. 특히 건설과 제조, 물류, 조선업 등 외국인 인력 의존도가 높은 산업에선 단순 업무 자동화를 넘어 현장 소통과 안전 관리 영역까지 AI 활용 범위가 확대되고 있다. 롯데이노베이트는 해당 솔루션에 업종별 전문 용어를 학습시킬 수 있는 사용자 정의 사전 기능과 유연한 응용프로그램 인터페이스(API) 구조를 적용했다. 이를 통해 건설뿐 아니라 제조업과 물류, 조선업 등 다양한 산업군의 기존 업무 시스템과도 손쉽게 연동할 수 있다고 강조했다. 실제 해당 AI 음성번역 에이전트는 지난해 7월 롯데건설에 처음 적용된 이후 지난달 대우건설에도 도입됐다. 현장에선 건설 특화 용어를 정확하게 처리해 외국인 근로자와의 소통 효율을 높였다는 평가를 받고 있다. AI 에이전트는 단순 번역 기능을 넘어 안전관리와 작업 지원, 현장 교육 등 다양한 영역으로 확장되면서 산업 현장 생산성과 안전성을 동시에 높이는 역할을 할 전망이다. 롯데이노베이트 관계자는 "건설 현장뿐만 아니라 외국인 인력 비중이 높은 다양한 산업 전반으로 AI 에이전트 적용을 확대해 나갈 계획"이라며 "검증된 AI 기술로 현장 소통 효율을 높이고 업무 생산성 향상에 기여하겠다"고 말했다.

2026.06.04 10:34한정호 기자

더벤처스, 온디바이스 AI 전문 스타트업 '아웃오브셋' 시드 투자

더벤처스(대표 김철우)가 온디바이스 AI 전문 스타트업 아웃오브셋(대표 김형주)에 시드 투자를 완료했다고 20일 밝혔다. 아웃오브셋은 인터넷 연결 없이 기기 자체에서 구동되는 초경량 버티컬 AI 모델을 개발하는 기술 기업이다. 개인정보 유출 위험, 네트워크 지연, 높은 운영 비용, 서버 장애 등 클라우드 AI의 구조적 제약을 기기 단(on-device)에서 해결한다. 이 문제를 풀기 위해 아웃오브셋은 AI 연구 역량을 갖춘 두 창업자를 중심으로 팀을 꾸렸다. 김형주 대표는 서울대 전기·정보공학 석사 출신으로 네오사피엔스와 수퍼톤에서 5년간 음성 AI 개발을 주도했다. 특히, 수퍼톤 재직 중 공개한 온디바이스 음성 합성 모델은 허깅페이스 분야 1위, 깃허브 별점 수천 개를 기록하며 글로벌 시장에서 기술력을 증명했다. 이현승 공동창업자는 서울대에서 음성 인식 박사 과정을 밟고 AI 동시통역 기업 XL8에서 실시간 음성 인식 시스템을 설계·개발했다. 아웃오브셋이 첫 번째로 공략하는 분야는 음성 인식과 음성 합성이다. 두 기술은 보안이 중요한 의료·법률·금융 분야는 물론, 스마트폰·자동차·로봇 등 다양한 산업에서 수요가 높다. 현재 시장의 온디바이스 AI 모델 대부분은 대형 클라우드 모델을 압축하는 방식에 의존해 실제 제품 배포까지 수개월이 걸린다. 아웃오브셋은 처음부터 기기 구동 환경을 전제로 네이티브 방식을 설계해, 성능 저하 없이 즉시 제품에 적용할 수 있는 모델을 제공한다. 이번 투자금은 모델 학습 인프라 구축과 데이터 확보, 핵심 인력 채용에 사용된다. 아웃오브셋은 고객사 요구에 맞게 모델을 자동으로 추가 학습시키는 시스템을 자체 구축했으며, 이를 통해 기존 외주 방식보다 적은 인력과 시간으로 고객사에 솔루션을 공급한다. 김형주 아웃오브셋 대표는 "AI 성능은 모델 크기가 아닌 데이터와 구조 설계로 결정된다"며 "연구 단계부터 실제 기기 배포를 전제로 설계해 온디바이스 AI 시장의 표준을 만들어나가겠다"고 밝혔다. 김철우 더벤처스 대표는 "아웃오브셋은 연구 역량을 실제 제품으로 구현해내는 실행력을 갖춘 팀"이라며 "클라우드 AI의 한계를 기기 단에서 해결할 원천 기술을 보유한 만큼, 이 시장의 핵심 기술 기업으로 성장할 것으로 기대한다"고 말했다.

2026.05.20 08:55백봉삼 기자

[AI 리더스] 일레븐랩스 "韓 성과 가시화…엔터프라이즈 시장 공략"

"우리는 한국 스타트업·디지털 네이티브 기업 중심으로 인공지능(AI) 사업 성과를 내고 있습니다. 앞으로 엔터프라이즈 고객을 비롯한 방송사, 콘텐츠 기업과 협업해 성공 사례를 글로벌 수준으로 끌어올릴 것입니다." 홍상원 일레븐랩스 한국·일본 고투마켓(GTM) 디렉터는 최근 지디넷코리아 인터뷰에서 한국 시장 성과와 전략을 이같이 밝혔다. 일레븐랩스는 AI 음성 특화 솔루션을 개발·운영하고 있다. 일레븐랩스 AI 음성은 인간 감정과 호흡 같은 비언어적 요소를 텍스트-투-보이스(TTS)로 구현할 수 있다. 현재 1만1천 개 넘는 보이스 라이브러리와 99개 언어를 지원하고 있다. TTS·STT·음성 인식·VAD 매칭 기술을 결합한 음성 에이전트 기술을 핵심 강점으로 내세웠다. 일레븐랩스는 지난해 일본 도쿄에 첫 지사를 설립했으며 같은 해 11월 한국 시장 진출을 발표했다. 홍상원 디렉터가 한국과 일본 지사를 동시에 총괄하고 있다. 홍 디렉터는 한국과 일본 AI 음성 시장 차이점을 언급했다. 일본은 보험, 금융, 통신 등 보수적 산업 중심으로 기술증명(PoC)를 거친 뒤 AI 음성을 본격적으로 도입하고 있는 반면, 한국은 스타트업과 디지털 네이티브 기업 중심으로 일레븐랩스 기술을 빠르게 받아들이고 있다는 설명이다. 홍 디렉터는 한국 시장 출범 후 6개월 만에 여러 활용 사례를 확보했다고 밝혔다. 국내 스타트업을 비롯한 게임, 미디어, 콜센터, 라이브커머스, 크리에이터 생태계 중심으로 AI 음성 기술 적용 사례를 넓히고 있다고 설명했다. 그는 최근 국내 대표 사례로 스푼랩스를 꼽았다. 그는 "스푼랩스는 기존 성우 녹음 방식으로 콘텐츠 한 편을 제작하는 데 4~7개월이 걸렸다"며 "우리 AI 음성 솔루션을 도입한 뒤 제작 기간을 수 시간 수준으로 줄였다"고 강조했다. 일레븐랩스는 케어링의 고령층 돌봄 서비스에 AI 음성 에이전트를 적용해 이용자와 대화하고, 건강 관리와 정서적 지원을 제공하는 방식을 추진하고 있다. 또 방송사와 콘텐츠 기업과 협업도 추진 중이다. 경인방송에서 고 김광한 DJ가 진행했던 '라디오 가가' 20주년 축하 메시지에 AI 기술을 공급했다. "韓, AI 음성 기대치 높아…고객사 확장 목표" 홍 디렉터는 한국 시장 공략 과제로 높은 품질 기대치와 엔터프라이즈 고객 확보를 꼽았다. 그는 "한국 고객들의 TTS 품질 기대치가 매우 높다"며 "이 수준에 맞추려면 실제 사람과 같은 대화가 가능한 AI 에이전트를 만들어야 한다"고 말했다. 이어 "발화를 인식할 뿐 아니라 말하는 기술까지 더 정교해져야 한국서 제대로 된 비즈니스를 할 수 있다고 판단했다"고 덧붙였다. 이에 홍 디렉터는 AI 음성 도입이 단순 기술 구매가 아니라 기업 운영 방식 변화도 필요하다고 봤다. 그는 "기술이 좋다고 해서 곧바로 고객사에 도입되는 것은 아니다"며 "AI 도입은 새로운 비즈니스 운영 모델 자체를 바꾸는 일"이라고 설명했다. 그러면서 "기업은 운영 매뉴얼과 24시간·주 7일 운영 방식 변화도 고민해야 할 때"라며 "우리는 고객과 AI 도입 구조를 이에 맞게 설계하는 것도 돕고 있다"고 강조했다. 홍 디렉터는 한국에서 엔터프라이즈 고객을 적극 공략하겠다고 밝혔다. 현재 스타트업과 디지털 네이티브 기업 분야에서는 사업이 순조롭게 진행되고 있지만, 엔터프라이즈 시장에는 아직 완벽하게 침투하지 못했다는 판단에서다. 그는 "국내 주요 대기업과 협업을 추진하고 있다"며 "특히 네이버, LG유플러스 등 투자사들과의 협업 사례도 공개해 나갈 것"이라고 밝혔다. 이어 "한국은 AI 음성 기술의 실험과 확산이 동시에 가능한 시장"이라며 "국내에서 검증한 활용 사례를 엔터프라이즈와 콘텐츠 산업 전반으로 넓혀 글로벌 시장에서도 통할 수 있는 성공 모델로 만들겠다"고 포부를 밝혔다.

2026.05.11 10:43김미정 기자

대화 중 끼어들어도 즉각 반응…오픈AI, 실시간 음성 AI 모델 공개

오픈AI가 실시간 음성 인공지능(AI) 모델 3종을 한꺼번에 선보였다. 자체 AI 기기 출시를 앞두고 음성 인터페이스 기술력을 끌어올리려는 행보로 풀이된다. 오픈AI는 7일(현지시간) GPT-5급 추론 능력을 갖춘 'GPT-리얼타임-2', 실시간 음성 번역 모델 'GPT-리얼타임-트랜슬레이트', 스트리밍 음성 전사 모델 'GPT-리얼타임-위스퍼'를 공개했다. 이번 발표의 핵심은 GPT-리얼타임-2다. 기존 AI 음성 모델이 이용자와 AI가 순서를 번갈아 말하는 방식이었다면 이 모델은 대화 중 끼어들거나 말을 수정해도 즉각 반응한다. 상황에 따라 말투를 조절하고 개발자가 '최소(minimal)'부터 '초고(xhigh)'까지 5단계로 추론 수준을 선택할 수 있다. 컨텍스트 윈도우도 기존 3만2000토큰에서 12만8000토큰으로 4배 확대됐다. GPT-리얼타임-트랜슬레이트는 70개 이상 언어를 13개 출력 언어로 실시간 변환하며 GPT-리얼타임-위스퍼는 말하는 동시에 텍스트로 전사한다. 부동산 플랫폼 질로는 음성으로 매물을 검색하고 방문 일정을 잡는 음성 비서를, 도이체텔레콤은 고객이 편한 언어로 말하면 실시간 번역해 응대하는 고객 지원 서비스를 구축 중이다. 오픈AI가 이 같은 음성 모델 고도화에 나선 배경엔 자체 AI 기기 준비도 있다. 오픈AI는 애플 수석 디자이너 출신 조니 아이브의 스타트업 '아이오(io)'를 65억 달러에 인수한 후 음성 기반 AI 기기를 개발 중인 것으로 알려졌다. 업계에선 스마트 안경, 핀 형태 웨어러블, 스마트 스피커 등이 거론되며 AI 에이전트 기능을 탑재한 스마트폰 개발 가능성도 제기되고 있다. 세 모델은 리얼타임 응용 프로그램 인터페이스(API)를 통해 즉시 이용 가능하다. 오픈AI는 "실시간 오디오를 단순한 문답을 넘어, 대화가 전개되는 동안 듣고 추론하며 번역하고 전사하면서 실제 작업을 수행할 수 있는 음성 인터페이스로 발전시키고 있다"고 말했다.

2026.05.08 10:16이나연 기자

[AI는 지금] 성우 일자리 사라지나…구글, 연기하는 'AI 음성'으로 기업 시장 공략

구글이 감정 표현과 제어 기능을 강화한 차세대 음성 합성 모델을 선보이며 인공지능(AI) 음성 시장 공략에 속도를 내고 있다. 텍스트 중심이던 생성형 AI 경쟁이 음성 인터페이스로 확장되는 흐름 속에서 기업용 수요를 겨냥한 기술 고도화가 본격화되는 양상이다. 17일 업계에 따르면 구글은 지난 15일(현지시간) 공식 블로그를 통해 차세대 텍스트 음성 변환(Text-to-Speech) 모델 '제미나이 3.1 플래시 TTS(Gemini 3.1 Flash TTS)'를 공개했다. 이번 모델은 개발자용 API와 기업용 버텍스(Vertex) AI, 협업 도구 등을 통해 순차적으로 제공된다. 이번 모델의 핵심은 음성 표현력과 제어 기능 강화다. 자연어 기반 '오디오 태그'를 통해 속도, 억양, 감정 등을 세밀하게 조정할 수 있다. '디렉터 모드'를 활용하면 장면 설정과 캐릭터 역할을 지정해 보다 정교한 음성 생성이 가능하다. 기존 TTS가 단순 낭독 중심이었다면, 이번 모델은 맥락에 맞는 감정 표현까지 반영하는 수준으로 진화했다. 여러 화자가 동시에 등장하는 대화를 한 번에 생성할 수 있는 '멀티 스피커' 기능도 적용됐다. 화자별로 개별 호출이 필요했던 기존 방식과 달리 자연스러운 대화 흐름을 구현할 수 있어 팟캐스트, 오디오 콘텐츠, AI 비서 등 다양한 분야에서 활용도가 높아질 것으로 보인다. 성능과 비용의 균형도 강조됐다. 구글은 블라인드 인간 평가 기반 TTS 벤치마크에서 높은 점수를 기록하는 동시에 '플래시' 계열 구조를 통해 연산 비용을 낮췄다. 이는 기업 고객이 대규모로 도입할 수 있는 환경을 고려한 설계다. 글로벌 확장성도 확보했다. 70개 이상의 언어와 방언을 지원하며 지역별 억양과 표현을 반영할 수 있도록 했다. 이를 통해 글로벌 서비스에서 현지화된 음성 경험 구현이 가능해질 것으로 기대된다. 아울러 생성 음성에는 신스ID(SynthID) 워터마킹을 적용했다. 사람이 인지하기 어려운 방식으로 식별 정보를 삽입해 AI 생성 여부를 판별할 수 있도록 한 것으로, 허위 정보 확산 등 부작용 대응을 고려한 조치로 풀이된다. 구글의 이 같은 움직임 속에 음성 인터페이스를 둘러싼 경쟁도 본격화되는 양상이다. 이미 오픈AI, 메타 등 주요 기업들도 음성 기반 기술 고도화에 속도를 내고 있다. 오픈AI는 대화형 AI에 실시간 음성 기능을 결합해 사람과 유사한 상호작용 구현에 집중하고 있으며, 메타는 AI 캐릭터와 음성 기반 소셜 경험을 결합하는 방향으로 투자를 확대하는 모습이다. 이 같은 기술 진화는 음성 콘텐츠 제작 방식에도 변화를 가져올 것으로 보인다. 감정 표현과 다중 화자 구현이 가능해지면서 광고, 더빙, 오디오북 등 기존 성우 중심으로 운영되던 영역 일부가 AI로 대체될 가능성이 거론된다. 다만 업계에선 고도화된 연기력과 창의성이 요구되는 영역에서 인간 성우의 역할이 당분간 유지되는 한편, 반복적·대량 제작 중심의 시장부터 구조 변화가 나타날 것으로 보고 있다. 업계 관계자는 "그동안 TTS는 정확하게 읽는 기술에 초점이 맞춰졌다면, 이제는 감정과 맥락을 얼마나 자연스럽게 구현하느냐가 경쟁력으로 바뀌고 있다"며 "표현력과 제어 기능이 결합되면서 음성 기반 콘텐츠와 AI 인터페이스 시장이 동시에 확대될 것"이라고 말했다.

2026.04.17 15:03장유미 기자

코히어, 차세대 음성인식 모델 공개…기업용 AI 음성 처리 시장 공략

코히어가 오픈소스 기반의 고성능 음성인식(ASR) 모델을 공개하며 기업용 인공지능(AI) 음성 시장 확대에 나섰다. 정확도와 처리속도를 동시에 끌어올린 점이 특징으로 실시간 음성 데이터 활용 수요 증가에 대응하려는 전략으로 풀이된다. 코히어는 자사 공식 뉴스룸을 통해 최신 음성인식 모델 '코히어 트랜스크라이브(cohere-transcribe)'를 공개했다고 27일 밝혔다. 해당 모델은 음성을 텍스트로 변환하는 ASR 시스템으로, 14개 언어를 지원하며 기업 환경에서 활용 가능한 수준의 성능과 효율성을 목표로 개발됐다. 이번 모델은 컨포머 기반 인코더와 트랜스포머 디코더 구조를 결합한 20억(2B) 파라미터 규모로, 음성 데이터를 로그-멜 스펙트로그램으로 변환한 뒤 텍스트를 생성하는 방식이다. 학습 과정에서는 단어 오류율(WER)을 최소화하는 데 초점을 맞췄다. 성능 측면에서도 경쟁력을 확보했다. 코히어 트랜스크라이브는 허깅페이스 오픈 ASR 리더보드에서 평균 WER 5.42%를 기록하며 기존 오픈소스 및 상용 모델을 제치고 정확도 1위를 차지했다. 이는 '위스퍼 라지(Whisper Large) v3' 등 주요 경쟁 모델 대비 낮은 오류율을 의미한다. 실제 환경에서 안정적인 성능을 보인다는 점도 주목된다. 다중 화자 환경이나 회의실 음향, 다양한 억양 조건에서도 높은 정확도를 유지했으며 인간 평가에서도 의미 보존과 오류 최소화 측면에서 우수한 결과를 나타냈다. 처리 속도 역시 주요 경쟁력으로 꼽힌다. 해당 모델은 실시간 처리 대비 속도를 나타내는 RTFx 지표에서 높은 처리량을 유지하면서도 낮은 오류율을 동시에 달성해 정확도와 효율성 간 균형을 개선했다. 코히어는 이번 모델을 오픈소스로 공개하면서 기업들이 자체 인프라 환경에서 직접 운영할 수 있도록 했다. 동시에 API와 관리형 플랫폼(Model Vault)을 통해 클라우드 기반 서비스도 제공한다는 방침이다. 최근 음성 데이터는 회의 기록, 고객 상담, 실시간 에이전트 등 다양한 분야에서 핵심 입력 수단으로 부상하고 있다. 업계에선 이번 모델 출시가 기업용 음성 AI 시장 경쟁을 한층 가속화하는 계기가 될 것으로 보고 있다. AI 투자사 래디컬 벤처스 페이지 디키 부사장은 "코히어가 트랜스크라이브를 통해 구축한 기술에 깊은 인상을 받았다"며 "수 분 분량의 오디오를 몇 초 만에 활용 가능한 텍스트로 변환하는 속도는 매우 우수하고 실시간 제품과 워크플로에서 새로운 가능성을 열어준다"고 밝혔다. 이어 "테스트 과정에서도 일상적인 음성을 매우 잘 처리한 데다 강력하고 신뢰할 수 있는 전사 품질을 보여줬다"며 "코히어와의 협력을 통해 이 기술로 무엇을 더 만들어낼 수 있을지 기대된다"고 덧붙였다.

2026.03.27 16:18장유미 기자

구글 미트·팀즈·줌 다 제쳤다…언어 전문가 96%, '딥엘 보이스' 선택

딥엘의 인공지능(AI) 음성 번역 솔루션이 번역 품질과 자막 안정성 두 영역에서 구글 미트·마이크로소프트(MS) 팀즈·줌의 내장 번역 기능을 모두 앞섰다는 독립 연구 결과가 나왔다. 26일 슬레이터가 딥엘 의뢰로 수행한 독립 벤치마크 연구에 따르면 한↔영을 포함한 14개 언어 조합 블라인드 테스트에서 '딥엘 보이스 포 줌(DeepL Voice for Zoom)'은 번역 품질 96.4점, '딥엘 보이스 포 팀즈(DeepL Voice for Teams)'는 96.3점을 기록했다. 반면 타 플랫폼 평균은 87~89점이었다. 주요 번역 오류 발생률은 타 플랫폼 대비 평균 76% 낮았으며 번역 합격률은 79%로 타 플랫폼 평균 42%를 크게 웃돌았다. 블라인드 평가에 참여한 언어 전문가 96%가 딥엘 보이스를 1순위로 선택했다. 자막 안정성에서도 딥엘 보이스가 앞섰다. 딥엘 보이스 포 줌은 자막 안정성 88.6점, 딥엘 보이스 포 팀즈는 85.8점을 기록했으며, 자막 변화 및 깜빡임 현상은 MS 팀즈 대비 평균 37.6%, 줌 대비 평균 54.7% 감소했다. 보고서는 자막이 빈번하게 수정될 경우 번역이 정확해도 실제 회의 활용성이 떨어진다고 지적했다. 슬레이터는 프레임 단위 분석으로 깜빡임·흔들림·수정 빈도까지 함께 측정했다. 이번 연구는 28명의 현직 언어 전문가를 통해 영어→한국어·일본어·스페인어·프랑스어·독일어·이탈리아어·포르투갈어, 7개국어→영어 등 14개 언어 조합을 블라인드 심사하는 방식으로 진행됐다. 슬레이터는 분석 방법과 결과에 대한 편집권을 전적으로 유지했다고 밝혔다. 딥엘은 이번 연구 결과를 바탕으로 다음 달 16일 글로벌 업데이트를 통해 딥엘 보이스의 주요 기능 개선 및 플랫폼 간 협업 기능 확장을 공개할 예정이다. 야렉 쿠틸로브스키 딥엘 창업자 겸 최고경영자(CEO)는 "현직 언어 전문가들이 하나의 솔루션을 압도적으로 선호한 것은 시장의 방향성을 보여주는 분명한 신호"라며 "딥엘 보이스가 번역 품질과 자막 안정성 영역에서 새로운 기준을 제시하고 있음을 입증했다"고 강조했다.

2026.03.26 18:38이나연 기자

직장인 90%가 원하는 음성 AI 번역…도입률 36%인 이유는

국내 직장인 10명 중 9명이 업무에 실시간 음성 인공지능(AI) 번역이 필요하다고 답했지만 실제 활용률은 3명 중 1명 수준으로 나타났다. 18일 딥엘이 국내 직장인 500명을 대상으로 실시한 음성 AI 번역 솔루션 활용 실태조사 결과에 따르면 응답자의 89.8%는 업무에 음성 AI 번역이 필요하다고 답했다. 반면 실제 사용 비율은 35.8%에 그쳤다. 82.6%는 향후 사용 의향이 있다고 밝혔다. 언어 장벽은 실시간 소통 상황에서 두드러졌다. 응답자의 69.8%가 외국어 소통 시 미묘한 감정이나 뉘앙스를 제대로 전달하지 못한 경험이 있다고 답했으며, 69%는 전달하고자 한 메시지를 충분히 설명하지 못한다고 응답했다. 적극적인 의견 표현의 어려움(64.0%), 상대방 의도 파악 실패(63.0%), 언어 문제로 인한 대화·회의 중단 경험(60.0%)도 뒤를 이었다. 음성 번역이 가장 필요한 상황은 화상 회의(48.4%), 업무 관련 전화 통화(43.6%), 대면 회의(34.4%) 순으로 꼽혔다. 직장인들이 음성 AI 번역 솔루션 선택 시 중요하게 보는 요건은 번역 정확도(58.8%), 지연 없는 실시간 번역(58.2%), 비즈니스 맥락과 전문성을 겸비한 번역(54.4%), 보안 및 안전성(52.2%) 순이었다. 도입 기대 효과로는 의사소통 정확도·이해도 향상(53.2%), 외국어 사용에 대한 심리적 부담 감소(52.0%), 실시간 커뮤니케이션 흐름 개선(50.2%)이 꼽혔다. 조직 차원의 기대도 높았다. 음성 AI 번역 도입 시 의사결정 속도가 빨라질 것이란 응답은 81.8%였다. 비영어권 직원의 의견 표현 기회 확대(81.2%), 외국어 능력보다 직무 전문성이 더 중요해질 것(80%)이란 전망도 나왔다. 곤살로 가이올라스 딥엘 최고제품책임자(CPO)는 "이번 조사를 통해 한국 직장인들이 언어 AI 기술에 높은 관심과 수용도를 보이고 있음을 확인했다"며 "기업이 요구하는 속도와 정확성, 자연스러운 대화 흐름, 엔터프라이즈급 보안을 갖춘 딥엘 보이스가 국내 기업과 글로벌 시장 사이의 언어 장벽을 낮추는 데 기여하길 기대한다"고 말했다.

2026.03.18 16:42이나연 기자

"AI 실수하면 보상"…일레븐랩스, 에이전트용 보험 운영

일레븐랩스가 기업 인공지능(AI) 도입 리스크를 관리하기 위한 제도 시스템을 공개했다. 일레븐랩스는 AI 리스크 평가 기관 AIUC 손잡고 AI 음성 에이전트 전용 종합 보험 제도를 운영한다고 18일 밝혔다. 이 보험은 고객지원과 영업 현장에서 활용되는 '일레븐에이전트' 오류로 발생한 손해를 보장할 수 있다. 이번 제도 핵심은 AI 에이전트 행위를 인간 업무 실수와 동일하게 취급한다는 점이다. 기업은 AI가 잘못된 정보를 제공하거나 부적절한 응대를 했을 경우에도 보험을 통해 손실을 보상받을 수 있다. 일레븐랩스 AI 에이전트는 AIUC가 개발한 AIUC-1 보안 신뢰성 인증을 받았다. 이 인증은 환각, 프롬프트 인젝션, 데이터 유출, 편향성 등 실제 위험 시나리오 기반으로 5000건 넘는 적대적 테스트를 통과해야 부여된다. 해당 인증을 받은 AI는 법무와 컴플라이언스 기준에서 배포 가능한 수준으로 평가된다. 일레븐랩스 기술은 현재 포춘 500 기업의 75% 이상이 사용하는 것으로 알려졌다. 보험 적용을 위해서는 개별 감사와 인증 절차를 반드시 거쳐야 한다. 인증 유효기간은 12개월이다. 최소 3개월마다 기술 검증을 수행해야 한다. 보험료는 인증 비용과 별도로 에이전트 유형에 따라 책정된다. 일레븐랩스는 이번 제도가 AI 도입 벽으로 지목된 책임 문제를 해소하는 데 초점을 맞췄다고 밝혔다. 환각으로 인한 잘못된 안내나 부적절한 발언에 따른 법적·경제적 리스크를 관리할 수 있는 수단을 제시했다. 마티 스타니셰프스키 일레븐랩스 최고경영자(CEO) 겸 공동창업자는 "이번 인증은 보안 프레임워크와 AI 보험 보장을 제공한다"며 "기업이 리스크를 최소화하고 고객 경험 구축에 집중할 수 있도록 돕는다"고 밝혔다.

2026.03.18 11:18김미정 기자

"내 기분까지 맞히네?"…오픈AI, 말 끊고 감정 읽는 새 모델 개발 중

오픈AI가 음성을 직접 이해하고 응답하는 차세대 오디오 인공지능(AI) 모델을 개발 중인 것으로 전해졌다. 이를 통해 음성 기반 AI 비서의 응답 속도와 자연스러운 대화 능력을 크게 개선한다는 목표다. 6일 디인포메이션에 따르면 오픈AI는 최근 음성 입력과 출력을 동시에 처리하는 '양방향(bidirectional) 오디오 모델'을 개발 중인 것으로 알려졌다. 이 모델은 사용자의 음성을 실시간으로 이해하고 음성으로 바로 응답하는 구조를 갖춘 것이 특징이다. 기존 음성 비서 시스템은 일반적으로 음성을 텍스트로 변환하는 음성인식(STT), 텍스트 기반 언어모델 처리, 텍스트를 다시 음성으로 변환하는 음성합성(TTS) 과정을 거친다. 이른바 '계층형(cascaded)' 구조로, 여러 단계를 거치는 과정에서 처리 지연이 발생하거나 대화 흐름이 자연스럽지 못하다는 한계가 지적돼 왔다. 반면 오픈AI가 개발 중인 모델은 음성 데이터를 입력 단계에서부터 직접 이해하고 음성으로 응답하는 '네이티브 오디오' 구조를 채택한 것으로 알려졌다. 이러한 방식은 중간 변환 단계를 줄여 보다 빠르고 자연스러운 음성 대화를 구현하는 것을 목표로 한다. 특히 해당 모델은 사용자의 발화 맥락을 실시간으로 파악해 대화 흐름에 맞춰 자연스럽게 반응하는 능력을 강화하는 데 초점을 맞추고 있는 것으로 전해졌다. 음성에 담긴 억양이나 말투, 감정 표현 등을 보다 정교하게 분석해 상황에 맞는 응답을 제공할 가능성도 제기된다. 오픈AI는 최근 음성 인터페이스를 핵심 AI 플랫폼으로 확대하는 전략을 추진하고 있다. 스마트폰과 차량, 고객 서비스 등 다양한 환경에서 실시간 음성 대화가 가능한 AI 비서를 구현하는 것이 목표다. 업계에선 음성 중심 인터페이스가 차세대 컴퓨팅 환경에서 중요한 역할을 할 것으로 보고 있다. 최근 구글은 AI 모델 제미나이에 실시간 음성 대화 기능을 결합한 '제미나이 라이브'를 선보이며 서비스를 확대하고 있다. 메타 역시 라마 계열 모델을 기반으로 음성 인터페이스 연구를 강화하고 있다. 오픈AI의 이번 기술 개발은 이러한 음성 AI 경쟁 속에서 차세대 인터페이스 주도권을 확보하기 위한 전략으로 해석된다. 업계 관계자는 "음성을 직접 처리하는 AI 모델이 상용화되면 인간과 AI 간 상호작용 방식이 크게 변화할 것"이라며 "실시간 음성 대화가 가능한 AI 비서가 새로운 플랫폼 경쟁의 핵심이 될 가능성이 크다"고 말했다.

2026.03.06 16:23장유미 기자

일레븐랩스·위츠, 성우 AI 음성 개발…"정식 라이선싱 시장 개척"

일레븐랩스가 성우 목소리를 정식 계약 기반의 인공지능(AI) 음성으로 구현하며 음성 지식재산권(IP) 시장 선점에 나섰다. 일레븐랩스는 위츠와 함께 성우 배한성씨 음성을 AI로 학습하고 활용하는 개념검증(PoC)을 진행한다고 24일 밝혔다. 양사는 이번 협업을 통해 유명인 음성의 합법적 라이선싱 체계를 구축하고 광고·콘텐츠·교육·음성 서비스 등 다양한 분야로의 확장 가능성을 확인할 계획이다. 일레븐랩스는 인간과 거의 구분되지 않는 수준의 AI 음성합성(TTS) 모델 개발로 사업을 시작했다. 음성 기술을 넘어 음성인식(STT), 사운드 이펙트, 더빙, 음악, 대화형 AI 전반에 걸친 최첨단 연구를 확장해 기업과 개발자를 위한 상용화 플랫폼을 제공하고 있다. 위츠는 브랜드 및 퍼블리시티권 라이선싱을 전문으로 하는 스타트업이다. 최근 유명인의 음성을 활용한 AI 기반 라이선싱 사업을 추진하고 있다. 박진익·김정민 위츠 공동대표는 "우리의 IP 라이선싱 역량과 글로벌 AI 음성 기술을 결합해 유명인 목소리를 다양한 산업에서 활용할 가능성을 검증하는 단계"라며 "유명인 음성 IP의 접근성을 높이고 새로운 음성 라이선싱 시장을 개척하겠다"고 밝혔다. 홍상원 일레븐랩스 한국지사장은 "우리 기술이 실제 현장에서 원활하게 구현된다는 것을 보여줄 기회"라며 "음성합성뿐 아니라 음성인식 등 최첨단 핵심 AI 기술을 기업들이 업무 현장에 활용할 수 있도록 적극 지원하겠다"고 말했다.

2026.02.24 10:42이나연 기자

목소리 하나로 15조원…일레븐랩스, 英 역대 최대 AI 스타트업 등극하나

일레븐랩스(ElevenLabs)가 기업가치를 110억 달러(약 15조7천억원) 수준으로 끌어올리는 대규모 투자 유치에 나섰다. 17일(현지시간) 파이낸셜타임스(FT) 등 외신에 따르면 일레븐랩스는 최근 투자자들과 신규 펀딩 협의에 들어갔다. 이번 펀딩이 성사되면 지난해 9월경 66억 달러였던 기업가치가 불과 4개월 만에 2배 가까이 뛰게 된다. 다만 논의는 초기 단계로 조건이 변경될 수 있다고 소식통들은 전했다. 일레븐랩스는 지난 2022년 폴란드 출신 마티 스타니셰프스키와 피오트르 담코프스키가 런던에서 공동 창업한 AI 음성 생성 기업이다. 고객 서비스, 텍스트 음성 변환, 다국어 더빙 등 다양한 분야에서 사용된다. 작년 연간 반복 매출(ARR)은 3억 3천만 달러에 달했다. 세쿼이아 캐피탈, 안드레센 호로위츠 등이 투자한 일레븐랩스는 런던과 뉴욕에 본사를 두고 바르샤바, 벵갈루루, 도쿄 등에 오피스를 운영 중이다. 미국 벤처캐피털 자금 접근성을 높이기 위해 미국에도 법인을 설립했다. 일레븐랩스는 지난해 1월 33억 달러 밸류에이션으로 1억 8천만 달러를 조달했고, 9월엔 직원 주식 매각을 통해 66억 달러로 밸류에이션을 끌어올렸다. 당시 ARR은 2억 달러 수준이었다. 이번 펀딩이 완료되면 일레븐랩스는 영국 최대 가치 AI 스타트업으로 올라서게 된다. 현재 영국 자율주행 기업 웨이브가 80억 달러, 엔비디아가 투자한 클라우드 기업 엔스케일이 30억 달러 밸류에이션을 기록 중이다. 유럽 전체로는 프랑스 미스트랄(120억 달러)에 육박하는 규모다. FT는 "AI 스타트업에 대한 투자자들의 관심이 전 세계적으로 급증하고 있지만, 유럽 AI 기업들은 펀딩과 상용화 측면에서 미국 기업들에 크게 뒤처져 있다"고 분석했다.

2026.01.19 17:07이나연 기자

"큰 모델보다 쓰임새"…네이버클라우드, 옴니모달 AI 전략 승부수

네이버클라우드가 범용 대규모언어모델(LLM) 경쟁을 넘어 텍스트·이미지·음성·도구 활용을 하나의 모델로 통합하는 '옴니모달 인공지능(AI)' 전략을 전면에 내세웠다. 상대적으로 작은 모델부터 시작해 점진적으로 고도화하는 방식으로, 현실 환경을 이해하고 행동하는 AI 에이전트 구현을 목표로 차세대 파운데이션 모델 경쟁에서 기술적 차별화를 강조했다. 네이버클라우드는 30일 과학기술정보통신부와 정보통신산업진흥원(NIPA)이 서울 코엑스에서 개최한 '독자 AI 파운데이션 모델 1차 대국민 발표회'에서 옴니모달 기반 파운데이션 모델과 이를 적용한 다양한 AI 서비스를 공개했다. 이날 네이버클라우드는 옴니 파운데이션 모델 전략을 제시했다. 전시 부스에서는 텍스트·이미지·오디오 등 서로 다른 형태의 데이터를 단일 모델에서 처음부터 함께 학습하는 네이티브 옴니모달 구조의 '하이퍼클로바X 시드 8B 옴니'와 복합 추론 능력을 강화한 '하이퍼클로바X 시드 32B 씽크' 두 가지 모델을 공개했다. 8B급 옴니모델은 규모는 비교적 작지만 멀티모달 입력을 단일 모델 구조에서 처리할 수 있도록 설계된 것이 특징이다. 텍스트·이미지·음성을 각각 다른 모델로 처리해 결합하는 기존 방식과 달리, 처음부터 하나의 의미 공간에서 학습해 응답 속도와 효율성을 높였다. 네이버클라우드는 이 모델을 시작점으로 삼아 데이터 확장과 학습 고도화를 통해 단계적으로 스케일업할 계획이다. 함께 공개된 32B급 씽크 모델은 옴니모달 입력을 바탕으로 추론과 문제 해결에 초점을 맞췄다. 이미지 이해, 음성 대화, 도구 활용 능력을 결합해 복합적인 요청을 처리하는 에이전트형 AI 경험을 구현하며 수학 문제 풀이나 시각 정보 기반 추론 등 고난도 작업을 수행하는 시연이 이뤄졌다. 부스에서는 이들 모델을 적용한 다양한 체험형 서비스도 공개됐다. 이미지 촬영만으로 문제를 이해하고 풀이 과정을 설명하는 AI 수학 에이전트, 민원 행정 상담을 돕는 AI 아바타, 법률 상담 챗봇, 감정 상담을 지원하는 마음 케어 아바타 등 공공·생활 밀착형 서비스가 관람객의 이목을 끌었다. 네이버클라우드는 이번 독자 AI 파운데이션 모델 프로젝트를 통해 대규모 파라미터 경쟁보다는 작은 모델을 촘촘하게 다져 키운다는 전략이다. 실제 서비스 환경에서 비용과 개발 부담을 줄이기 위해 8B·32B급 모델에서 옴니모달 구조와 추론 성능을 충분히 검증한 뒤 단계적으로 모델 규모를 확대하겠다는 구상이다. 이를 바탕으로 산업 및 공공 영역으로의 확장도 염두에 두고 있다. 네이버클라우드는 농기계와 모빌리티 등 다양한 산업 현장에서 음성·시각·공간 정보를 동시에 이해하는 AI 에이전트 활용 가능성을 제시하며 물리적 환경과 상호작용하는 피지컬 AI로의 진화를 준비 중이라고 설명했다. 네이버클라우드 관계자는 "옴니모달 AI는 단순히 모델을 크게 만드는 문제가 아니라, 현실 세계의 맥락을 얼마나 정교하게 이해하느냐가 핵심"이라며 "8B급 모델부터 차근차근 고도화해 나가며 산업과 일상에서 실제로 쓰이는 옴니 AI 에이전트를 구현해 나가겠다"고 말했다.

2025.12.30 14:40한정호 기자

일레븐랩스 "韓, 아시아 음성 AI 허브…K-콘텐츠 글로벌화 지원"

"한국은 아시아 음성 인공지능(AI)의 핵심 거점이 될 나라입니다. 디지털 환경이 세계 최고 수준이고, 새로운 기술을 빠르게 받아들이기 때문입니다. 여기에 K-콘텐츠의 글로벌 인기까지 더해져 음성 AI 산업에 최적화된 시장입니다.” 홍상원 일레븐랩스 한국지사장은 21일 서울 JW메리어트호텔에서 열린 한국 시장 진출 간담회에서 이같이 말했다. 일레븐랩스는 이날 한국 시장을 위한 전담 운영 체제를 가동한다고 발표했다. 우선 국내 파트너사와 협력을 확대하고, 한국어 모델을 고도화한다고 밝혔다. 이를 통해 실제 현장에서 기술을 시험 적용하는 개념검증(PoC) 프로젝트를 늘리겠다는 계획이다. 홍 지사장은 일레븐랩스가 한국 시장을 주목한 이유로 세계 최고 수준의 디지털 환경을 꼽았다. 그는 "모바일 인터넷 보급률 99.98%, 세계 1위 5G 인프라, 광케이블 보급률 89%는 대규모 음성 트래픽을 처리하기에 최적의 조건"이라고 강조했다. 홍 지사장은 한국이 이미 높은 수준의 AI 활용도를 보이고 있다는 점도 강조했다. 그는 "대기업의 65.1%가 AI를 도입했고, 근로자의 63.5%가 생성형 AI를 일상적으로 사용하고 있다"며 "이는 글로벌 평균의 두 배가 넘는 수치"라고 설명했다. 이어 "정부가 내년 AI 분야에 10조1천억 원을 투입하며 'AI 3대 강국' 도약을 선언한 점 역시 한국 시장의 전략적 가치를 더욱 높였다"고 덧붙였다. 'K-콘텐츠 글로벌화'·'CX 개선' 우선 집중 일레븐랩스는 한국에서 가장 먼저 집중할 분야로 'K-콘텐츠의 글로벌화'를 꼽았다. 한국 콘텐츠가 세계적으로 인기를 얻고 있지만, 언어 장벽은 여전히 존재한다는 판단에서다. 일레븐랩스는 최신 음성 합성 모델 '일레븐 v3'를 통해 70개 이상 언어를 지원하고 있다. 원작 속 등장인물 감정과 말투, 숨소리까지 재현하는 고정밀 더빙 기술을 제공한다. 그는 "우리 솔루션은 단순 번역이 아니라 웃음, 한숨, 감탄사 같은 미세한 감정까지 그대로 전달한다"고 설명했다. 홍 지사장은 이 기술이 제작 속도와 비용에서 큰 변화를 가져왔다고 밝혔다. 그는 "일부 K-드라마 제작사는 10개 언어 더빙 시간이 2주에서 3일로 줄었다"며 "제작 비용은 최대 95%, 작업 시간은 90% 절감됐다"고 사례를 공유했다. 실제 일레븐 v3는 국내에서 이미 시범 적용되고 있다. MBC 콘텐츠앤인베스트먼트(C&I)를 비롯한 SBS, 크래프톤, 이스트소프트 등이 베타 파트너로 참여했으며, AI 영화제 수상작과 대형 현지화 프로젝트에도 적용된 바 있다. 일레븐랩스는 또 다른 핵심 영역으로 고객 경험(CX) 개선을 꼽았다. 음성 AI 처리 구조를 최적화해 0.5초 내 응답 속도를 구현할 수 있다는 이유에서다. 이를 기반으로 24시간 다국어 상담 가능한 음성 에이전트를 제공하고 있다. 이를 통해 반복 질문의 약 70%를 AI로 대체했다. 홍 지사장은 "한국은 혁신을 가장 빠르게 수용하는 시장이자, 기준이 가장 까다로운 시장"이라며 "우리는 한국을 아시아 보이스 AI 허브로 키우는 데 집중할 것"이라고 포부를 밝혔다.

2025.11.21 15:13김미정 기자

일레븐랩스, 음성 AI로 한국 진출…"3년 내 IPO 목표"

"앞으로 자동차, 가전제품 등 모든 기기가 사람이 말하는 방식·감정을 완전히 이해할 것입니다. 우리는 한국을 포함한 전 세계 어디서든 실시간으로 번역·더빙 가능한 '보이스 인텔리전스 환경'을 구축할 것입니다." 마티 스타니셰프스키 일레븐랩스 공동 창업자 겸 최고경영자(CEO)는 21일 서울 JW메리어트호텔에서 기자간담회를 열고 한국 시장 진출 소식을 알리며 이같이 밝혔다. 일레븐랩스는 AI 음성 생성 기업이다. 음성 합성, 오디오 처리 등 인간과 유사한 상호작용을 구현하는 모델을 운영하고 있다. 텍스트-투-스피치(TTS), 스피치-투-텍스트(STT), AI 더빙, 보이스 클로닝, 사운드 효과, 음성 분리, 일레븐뮤직 등 여러 분야에서 기술력을 확장했다. 현재 글로벌 기준 월간 활성 사용자수 5천만명, 기업 가치 66억 달러를 보유하고 있다. 포춘 500대 기업 중 75%가 고객사로 참여하고 있으며, 국내에서는 이스트, 크래프톤, 네이버 등이 주요 고객사다. 이날 스타니셰프스키 CEO는 API 파운데이션을 비롯한 크리에이티브 플랫폼, 에이전트 플랫폼 등 3단 구조 서비스 모델을 제시했다. 이중 핵심 제품은 에이전트 플랫폼이다. 이 플랫폼은 0.5초 미만 응답 속도와 7천 개 이상의 보이스, 32개 언어를 지원한다. 고객관계관리(CRM)와 고객지원, 결제, 전화 시스템 등 다양한 엔터프라이즈 워크플로와 연결돼 전환율 향상과 매출 증가를 돕는다. 실시간 분석·평가·추적 기능도 갖췄다. 주요 보안·규제 기준을 충족하는 구조로 구축돼 엔터프라이즈급 안정성을 유지한다. 스타니셰프스키 CEO는 앞으로 AI 음성 분야는 더 확장할 것이라고 주장했다. 그는 "모든 디바이스가 인간 발화법까지 이해하는 보이스 인텔리전스가 될 것"이라며 "언어 장벽까지 완전히 없애 실시간 번역·더빙 환경을 구축할 것"이라고 내다봤다. 이어 "AI가 맥락 이해와 감정 반응까지 가능할 전망"이라며 "에이전트가 다양한 접점에서 일관된 상호작용을 제공하게될 것"이라고 덧붙였다. 스타니셰프스키 CEO는 기업공개(IPO)도 계획 중이라고 밝혔다. 그는 "그동안 5년 내 IPO를 목표로 세웠지만 서비스 성과가 예상보다 잘 나오고 있다"며 "현재 3년 내 IPO를 할 수 있을 것으로 보고 있다"고 내다봤다.

2025.11.21 12:08김미정 기자

Prev 1 2 Next