코히어, 차세대 음성인식 모델 공개…기업용 AI 음성 처리 시장 공략
코히어가 오픈소스 기반의 고성능 음성인식(ASR) 모델을 공개하며 기업용 인공지능(AI) 음성 시장 확대에 나섰다. 정확도와 처리속도를 동시에 끌어올린 점이 특징으로 실시간 음성 데이터 활용 수요 증가에 대응하려는 전략으로 풀이된다. 코히어는 자사 공식 뉴스룸을 통해 최신 음성인식 모델 '코히어 트랜스크라이브(cohere-transcribe)'를 공개했다고 27일 밝혔다. 해당 모델은 음성을 텍스트로 변환하는 ASR 시스템으로, 14개 언어를 지원하며 기업 환경에서 활용 가능한 수준의 성능과 효율성을 목표로 개발됐다. 이번 모델은 컨포머 기반 인코더와 트랜스포머 디코더 구조를 결합한 20억(2B) 파라미터 규모로, 음성 데이터를 로그-멜 스펙트로그램으로 변환한 뒤 텍스트를 생성하는 방식이다. 학습 과정에서는 단어 오류율(WER)을 최소화하는 데 초점을 맞췄다. 성능 측면에서도 경쟁력을 확보했다. 코히어 트랜스크라이브는 허깅페이스 오픈 ASR 리더보드에서 평균 WER 5.42%를 기록하며 기존 오픈소스 및 상용 모델을 제치고 정확도 1위를 차지했다. 이는 '위스퍼 라지(Whisper Large) v3' 등 주요 경쟁 모델 대비 낮은 오류율을 의미한다. 실제 환경에서 안정적인 성능을 보인다는 점도 주목된다. 다중 화자 환경이나 회의실 음향, 다양한 억양 조건에서도 높은 정확도를 유지했으며 인간 평가에서도 의미 보존과 오류 최소화 측면에서 우수한 결과를 나타냈다. 처리 속도 역시 주요 경쟁력으로 꼽힌다. 해당 모델은 실시간 처리 대비 속도를 나타내는 RTFx 지표에서 높은 처리량을 유지하면서도 낮은 오류율을 동시에 달성해 정확도와 효율성 간 균형을 개선했다. 코히어는 이번 모델을 오픈소스로 공개하면서 기업들이 자체 인프라 환경에서 직접 운영할 수 있도록 했다. 동시에 API와 관리형 플랫폼(Model Vault)을 통해 클라우드 기반 서비스도 제공한다는 방침이다. 최근 음성 데이터는 회의 기록, 고객 상담, 실시간 에이전트 등 다양한 분야에서 핵심 입력 수단으로 부상하고 있다. 업계에선 이번 모델 출시가 기업용 음성 AI 시장 경쟁을 한층 가속화하는 계기가 될 것으로 보고 있다. AI 투자사 래디컬 벤처스 페이지 디키 부사장은 "코히어가 트랜스크라이브를 통해 구축한 기술에 깊은 인상을 받았다"며 "수 분 분량의 오디오를 몇 초 만에 활용 가능한 텍스트로 변환하는 속도는 매우 우수하고 실시간 제품과 워크플로에서 새로운 가능성을 열어준다"고 밝혔다. 이어 "테스트 과정에서도 일상적인 음성을 매우 잘 처리한 데다 강력하고 신뢰할 수 있는 전사 품질을 보여줬다"며 "코히어와의 협력을 통해 이 기술로 무엇을 더 만들어낼 수 있을지 기대된다"고 덧붙였다.