据 [动察 Beating](https://t.me/OneMillion_AI) 监测,xAI 已上线两套独立音频 API:**Grok Speech to Text(语音转文字)**与 **Grok Text to Speech(文字转语音)**。这两项能力来自支撑 **Grok Voice**、**特斯拉车载系统**以及 **Starlink 客服**的同一套音频技术栈。此次以独立 endpoint 形式开放,开发者可直接接入到**语音代理**、**实时转录**、**无障碍工具**、**播客配音**等场景。
—
## 1)STT:语音转文字(两种接入模式)
xAI 为 STT 提供两种模式,覆盖批量处理与实时需求:
### ✅ REST API(批量转录)
– 适用于对**大音频文件**进行批量转录
– 返回速度达到**毫秒级**
### ✅ WebSocket API(实时转录)
– 面向**实时语音流**转写
– 可更好地支持交互式对话、语音助手等应用
—
## 2)STT:关键增强能力
除了基础转写,STT 还集成了多项开发者常用的能力,例如:
– **词级时间戳**(便于对齐字幕、检索片段)
– **说话人分离(diarization)**(区分不同说话人)
– **多通道分别识别**(按声道分别解析)
– **Inverse Text Normalization**
将口语中的**数字、日期、货币**等自动整形成规范的结构化文本
– **语种覆盖 25 种以上**
支持对话中**无缝切换**语言
—
## 3)性能对比:WER 更低,识别更准
xAI 同步公布了 WER(Word Error Rate)对比数据,数值越低越好:
### 综合场景
– **Grok:6.9%**
– ElevenLabs:9.0%
– Deepgram:11.0%
– AssemblyAI:12.9%
### 电话通话实体识别(差距更明显)
– **Grok:5.0%**
– 其余三家分别为:12.0%、13.5%、21.3%
此外,在**会议**、**视频播客**、**电话**三类常见业务场景下,Grok 也均有**小幅领先**。
需要注意的是:这些数字由 xAI 自行测试公布,目前**尚无第三方复测**。
—
## 4)定价
– **STT 批处理**:0.10 美元/小时
– **STT 流式**:0.20 美元/小时
– **TTS**:4.20 美元/100 万字符
—
## 5)TTS:可通过 Speech Tags 控制表达
xAI 的 TTS 支持使用 **内联 Speech Tags** 来控制情感与韵律,例如:
– `[laugh]`
– `[sigh]`
– `[whisper]`
原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/171893/


