
关于
语音代理代表 AI 交互的前沿——帮助构建自然语音交互的 AI 系统。
name: voice-agents description: 语音代理代表了AI交互的前沿——人类与AI系统自然对话。 risk: safe source: vibeship-spawner-skills (Apache 2.0) date_added: 2026-02-27
语音代理
语音代理代表了AI交互的前沿——人类与AI系统自然对话。挑战不仅仅是语音识别和合成,而是在处理打断、背景噪音和情感细微差别的同时,实现亚800毫秒延迟的自然对话流。
本技能涵盖两种架构:语音到语音(OpenAI Realtime API,最低延迟,最自然)和流水线(STT→LLM→TTS,更多控制,更易调试)。关键洞察:延迟是约束。人类期望在500毫秒内得到响应。每一毫秒都很重要。
84%的组织在2025年增加了语音AI预算。这是语音代理走向主流的一年。
原则
- 延迟是约束——目标端到端 <800ms
- 抖动(方差)与绝对延迟同样重要
- VAD质量决定对话流
- 打断处理决定体验的成败
- 从聚焦的MVP开始,基于真实对话迭代
- 组合最佳组件(Deepgram STT + ElevenLabs TTS)
能力
- voice-agents
- speech-to-speech
- speech-to-text
- text-to-speech
- conversational-ai
- voice-activity-detection
- turn-taking
- barge-in-detection
- voice-interfaces
范围
- phone-system-integration → backend
- audio-processing-dsp → audio-specialist
- music-generation → audio-specialist
- accessibility-compliance → accessibility-specialist
工具
语音到语音
- OpenAI Realtime API - 适用场景:最低延迟,最自然的对话 备注:gpt-4o-realtime-preview,原生语音,亚500ms
- Pipecat - 适用场景:开源语音编排 备注:Daily支持,企业级,模块化
语音转文字
- OpenAI Whisper - 适用场景:最高准确率,多语言 备注:gpt-4o-transcribe 效果最佳
- Deepgram Nova-3 - 适用场景:生产工作负载,WER降低54% 备注:150-184ms TTFT,嘈杂音频90%+准确率
- AssemblyAI - 适用场景:实时流式传输,说话人分离 备注:良好的准确率-延迟平衡
文字转语音
- ElevenLabs - 适用场景:最自然的声音,情感控制 备注:Flash模型75ms延迟,V3用于表达
- OpenAI TTS - 适用场景:与OpenAI技术栈集成 备注:gpt-4o-mini-tts,13种声音,流式传输
- Deepgram Aura-2 - 适用场景:高性价比生产TTS 备注:比ElevenLabs便宜40%,184ms TTFB
框架
- Pipecat - 适用场景:开源语音代理编排 备注:Silero VAD,SmartTurn,打断处理
- Vapi - 适用场景:托管语音代理平台 备注:无需基础设施管理
- Retell AI - 适用场景:低延迟语音代理 备注:打断时最佳上下文保持
模式
语音到语音架构
直接音频到音频处理,实现最低延迟
适用场景:最大自然度、情感保持、实时对话
语音到语音架构:
""" [用户音频] → [S2S模型] → [代理音频]
优势:
- 最低延迟(亚500ms)
- 保持情感、重音、口音
- 最自然的对话流
劣势:
- 对响应的控制较少
- 更难调试/审计
- 不容易修改所说内容 """
OpenAI Realtime API
import { RealtimeClient } from '@openai/realtime-api-beta';
const client = new RealtimeClient({
apiKey: process.env.OPENAI_API_KEY,
});
// 配置语音对话
client.updateSession({
modalities: ['text', 'audio'],
voice: 'alloy',
input_audio_format: 'pcm16',
output_audio_format: 'pcm16',
instructions: `You are a helpful customer service agent.
Be concise and friendly. If you don't know something,
say so rather than making things up.`,
turn_detection: {
type: 'server_vad', // 或 'semantic_vad'
threshold: 0.5,
prefix_padding_ms: 300,
silence_duration_ms: 500,
},
});
// 处理音频流
client.on('conversation.item.input_audio_transcription', (event) => {
console.log('User said:', event.transcript);
});
client.on('response.audio.delta', (event) => {
// 将音频流式传输到扬声器
audioPlayer.write(Buffer.from(event.delta, 'base64'));
});
// 发送用户音频
client.appendInputAudio(audioBuffer);
用例:
- 实时客户支持
- 语音助手
- 交互式语音应答(IVR)
- 实时语言翻译
流水线架构
分离的 STT → LLM → TTS 实现最大控制
适用场景:需要知道/控制确切说了什么、调试、合规
流水线架构:
""" [音频] → [STT] → [文本] → [LLM] → [文本] → [TTS] → [音频]
优势:
- 每一步都有完全控制
- 可以记录/审计所有文本
- 更容易调试
- 混合最佳组件
劣势:
- 更高延迟(典型700-1200ms)
- 丢失一些情感/细微差别
- 更多组件需要管理 """
兼容工具
Claude CodeCursor
标签
AI与机器学习