xAI开放Grok音频API：STT词错率降至6.9%

2026年4月18日上午11:12 • 币资讯

据 [动察 Beating](https://t.me/OneMillion_AI) 监测，xAI 已上线两套独立音频 API：**Grok Speech to Text（语音转文字）**与 **Grok Text to Speech（文字转语音）**。这两项能力来自支撑 **Grok Voice**、**特斯拉车载系统**以及 **Starlink 客服**的同一套音频技术栈。此次以独立 endpoint 形式开放，开发者可直接接入到**语音代理**、**实时转录**、**无障碍工具**、**播客配音**等场景。

—

## 1）STT：语音转文字（两种接入模式）
xAI 为 STT 提供两种模式，覆盖批量处理与实时需求：

### ✅ REST API（批量转录）
– 适用于对**大音频文件**进行批量转录
– 返回速度达到**毫秒级**

### ✅ WebSocket API（实时转录）
– 面向**实时语音流**转写
– 可更好地支持交互式对话、语音助手等应用

—

## 2）STT：关键增强能力
除了基础转写，STT 还集成了多项开发者常用的能力，例如：

– **词级时间戳**（便于对齐字幕、检索片段）
– **说话人分离（diarization）**（区分不同说话人）
– **多通道分别识别**（按声道分别解析）
– **Inverse Text Normalization**
将口语中的**数字、日期、货币**等自动整形成规范的结构化文本
– **语种覆盖 25 种以上**
支持对话中**无缝切换**语言

—

## 3）性能对比：WER 更低，识别更准
xAI 同步公布了 WER（Word Error Rate）对比数据，数值越低越好：

### 综合场景
– **Grok：6.9%**
– ElevenLabs：9.0%
– Deepgram：11.0%
– AssemblyAI：12.9%

### 电话通话实体识别（差距更明显）
– **Grok：5.0%**
– 其余三家分别为：12.0%、13.5%、21.3%

此外，在**会议**、**视频播客**、**电话**三类常见业务场景下，Grok 也均有**小幅领先**。
需要注意的是：这些数字由 xAI 自行测试公布，目前**尚无第三方复测**。

—

## 4）定价
– **STT 批处理**：0.10 美元/小时
– **STT 流式**：0.20 美元/小时
– **TTS**：4.20 美元/100 万字符

—

## 5）TTS：可通过 Speech Tags 控制表达
xAI 的 TTS 支持使用 **内联 Speech Tags** 来控制情感与韵律，例如：
– `[laugh]`
– `[sigh]`
– `[whisper]`

原创文章，作者：admin，如若转载，请注明出处：https://www.23btc.com/171893/

xAI开放Grok音频API：STT词错率降至6.9%

相关推荐