语音智能体

低风险

作者 @sickn33已验证来源

4.6407 次安装v1.0.0更新于 2026年5月25日

使用方式

在 Claude Code 中运行以下命令

第一步：添加 Marketplace

/plugin marketplace add sickn33/antigravity-awesome-skills

第二步：安装插件

/plugin install voice-agents@antigravity-awesome-skills

关于

语音代理代表 AI 交互的前沿——帮助构建自然语音交互的 AI 系统。

name: voice-agents description: 语音代理代表了AI交互的前沿——人类与AI系统自然对话。 risk: safe source: vibeship-spawner-skills (Apache 2.0) date_added: 2026-02-27

语音代理

语音代理代表了AI交互的前沿——人类与AI系统自然对话。挑战不仅仅是语音识别和合成，而是在处理打断、背景噪音和情感细微差别的同时，实现亚800毫秒延迟的自然对话流。

本技能涵盖两种架构：语音到语音（OpenAI Realtime API，最低延迟，最自然）和流水线（STT→LLM→TTS，更多控制，更易调试）。关键洞察：延迟是约束。人类期望在500毫秒内得到响应。每一毫秒都很重要。

84%的组织在2025年增加了语音AI预算。这是语音代理走向主流的一年。

原则

延迟是约束——目标端到端 <800ms
抖动（方差）与绝对延迟同样重要
VAD质量决定对话流
打断处理决定体验的成败
从聚焦的MVP开始，基于真实对话迭代
组合最佳组件（Deepgram STT + ElevenLabs TTS）

能力

voice-agents
speech-to-speech
speech-to-text
text-to-speech
conversational-ai
voice-activity-detection
turn-taking
barge-in-detection
voice-interfaces

范围

phone-system-integration → backend
audio-processing-dsp → audio-specialist
music-generation → audio-specialist
accessibility-compliance → accessibility-specialist

工具

语音到语音

OpenAI Realtime API - 适用场景：最低延迟，最自然的对话备注：gpt-4o-realtime-preview，原生语音，亚500ms
Pipecat - 适用场景：开源语音编排备注：Daily支持，企业级，模块化

语音转文字

OpenAI Whisper - 适用场景：最高准确率，多语言备注：gpt-4o-transcribe 效果最佳
Deepgram Nova-3 - 适用场景：生产工作负载，WER降低54% 备注：150-184ms TTFT，嘈杂音频90%+准确率
AssemblyAI - 适用场景：实时流式传输，说话人分离备注：良好的准确率-延迟平衡

文字转语音

ElevenLabs - 适用场景：最自然的声音，情感控制备注：Flash模型75ms延迟，V3用于表达
OpenAI TTS - 适用场景：与OpenAI技术栈集成备注：gpt-4o-mini-tts，13种声音，流式传输
Deepgram Aura-2 - 适用场景：高性价比生产TTS 备注：比ElevenLabs便宜40%，184ms TTFB

框架

Pipecat - 适用场景：开源语音代理编排备注：Silero VAD，SmartTurn，打断处理
Vapi - 适用场景：托管语音代理平台备注：无需基础设施管理
Retell AI - 适用场景：低延迟语音代理备注：打断时最佳上下文保持

模式

语音到语音架构

直接音频到音频处理，实现最低延迟

适用场景：最大自然度、情感保持、实时对话

语音到语音架构：

""" [用户音频] → [S2S模型] → [代理音频]

优势：

最低延迟（亚500ms）
保持情感、重音、口音
最自然的对话流

劣势：

对响应的控制较少
更难调试/审计
不容易修改所说内容 """

OpenAI Realtime API

import { RealtimeClient } from '@openai/realtime-api-beta';

const client = new RealtimeClient({
  apiKey: process.env.OPENAI_API_KEY,
});

// 配置语音对话
client.updateSession({
  modalities: ['text', 'audio'],
  voice: 'alloy',
  input_audio_format: 'pcm16',
  output_audio_format: 'pcm16',
  instructions: `You are a helpful customer service agent.
    Be concise and friendly. If you don't know something,
    say so rather than making things up.`,
  turn_detection: {
    type: 'server_vad',  // 或 'semantic_vad'
    threshold: 0.5,
    prefix_padding_ms: 300,
    silence_duration_ms: 500,
  },
});

// 处理音频流
client.on('conversation.item.input_audio_transcription', (event) => {
  console.log('User said:', event.transcript);
});

client.on('response.audio.delta', (event) => {
  // 将音频流式传输到扬声器
  audioPlayer.write(Buffer.from(event.delta, 'base64'));
});

// 发送用户音频
client.appendInputAudio(audioBuffer);

用例：

实时客户支持
语音助手
交互式语音应答（IVR）
实时语言翻译

流水线架构

分离的 STT → LLM → TTS 实现最大控制

适用场景：需要知道/控制确切说了什么、调试、合规

流水线架构：

""" [音频] → [STT] → [文本] → [LLM] → [文本] → [TTS] → [音频]

优势：

每一步都有完全控制
可以记录/审计所有文本
更容易调试
混合最佳组件

劣势：

更高延迟（典型700-1200ms）
丢失一些情感/细微差别
更多组件需要管理 """

兼容工具

Claude CodeCursor

语音智能体

关于

name: voice-agents description: 语音代理代表了AI交互的前沿——人类与AI系统自然对话。 risk: safe source: vibeship-spawner-skills (Apache 2.0) date_added: 2026-02-27

语音代理

原则

能力

范围

工具

语音到语音

语音转文字

文字转语音

框架

模式

语音到语音架构

语音到语音架构：

OpenAI Realtime API

用例：

流水线架构

流水线架构：

兼容工具

标签

相关推荐

RAG系统工程师

批量重构编排

Docx 文档处理

Azure AI Agents Java SDK

Azure Search 文档搜索

Azure AI Agent框架