AI 语音模型初创公司 Cartesia 日前宣布推出两款新模型 Sonic-3.5 与 Ink-2,并基于二者构建统一的实时语音智能体技术栈。其中 Sonic-3.5 负责文本转语音(TTS),Ink-2 负责语音转文本(STT),开发者可通过单一 API 同时调用两款模型,实现端到端的语音交互能力。
正文解读
Sonic-3.5 主打实时低延迟语音生成,首音输出时间缩短至 90 毫秒。出厂即支持 42 种语言,无需额外预处理即可准确处理英文异音词及字母数字的发音。Ink-2 则将字错率(Word Error Rate)降至 3.6%,并引入了原生轮次检测(Native Turn-Detection)与噪声处理机制。与传统方案单纯依赖安静时长判断不同,Ink-2 能基于句意和语义理解判定用户是否发言完毕,从而提升对话的自然流畅度。目前 Ink-2 仅提供英文版本,多语言支持将在后续更新中推出。
- Sonic-3.5 首音输出 90ms,支持 42 种语言;Ink-2 字错率 3.6%,具备语义级轮次检测。
- 两款模型在设计上实现了双向流式协同,旨在减少因「多供应商拼接」带来的传输延迟与系统损耗。
随着实时语音智能体在客服、虚拟助手、语音交互等场景的应用加速,Cartesia 的一体化技术栈降低了开发者的集成复杂度,同时也对语音模型的端到端性能和多语言覆盖提出了更高要求。不过 Ink-2 当前仅支持英文,多语言版本的推出节奏将成为其能否在更广泛市场落地的关键因素。
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/190643/



