
关于
使用 Pipecat、Gemini 和 OpenAI 构建低延迟、钢铁侠风格的战术语音助手(F.R.I.D.A.Y.)。
name: pipecat-friday-agent description: "使用Pipecat、Gemini和OpenAI构建低延迟、钢铁侠风格的战术语音助手(F.R.I.D.A.Y.)。" category: voice-agents risk: safe source: community date_added: "2026-03-10" tags: [pipecat, voice, gemini, openai, python] tools: [pipecat]
Pipecat Friday Agent
概述
此技能提供构建 F.R.I.D.A.Y.(替代集成数字助手)的蓝图,一个受钢铁侠电影中战术AI启发的本地语音助手。它使用 Pipecat 框架编排低延迟管道:
- STT:OpenAI Whisper (
whisper-1) 或gpt-4o-transcribe - LLM:Google Gemini 2.5 Flash(通过兼容性适配层)
- TTS:OpenAI TTS(
nova语音) - 传输:本地音频(硬件麦克风/扬声器)
何时使用此技能
- 想要构建实时对话语音代理时
- 使用Pipecat框架进行基于管道的AI开发时
- 需要将多个提供商(Google和OpenAI)集成到单一语音循环中时
- 构建钢铁侠主题或战术主题语音应用时
工作原理
步骤1:安装依赖
pip install pipecat-ai[openai,google,silero] python-dotenv
步骤2:配置环境
创建 .env 文件:
OPENAI_API_KEY=your_openai_key
GOOGLE_API_KEY=your_google_key
步骤3:运行代理
python scripts/friday_agent.py
核心概念
管道架构
代理遵循线性管道:麦克风 -> VAD -> STT -> LLM -> TTS -> 扬声器。这允许对每个阶段进行精细控制,不同于端到端语音到语音模型。
Google兼容性适配层
由于Google的Gemini API与OpenAI标准消息格式不同(Pipecat聚合器期望的格式),脚本包含 GoogleSafeContext 和 GoogleSafeMessage 类来桥接差异。
最佳实践
- 使用Silero VAD:对本地硬件稳健,防止背景噪音触发LLM
- 简洁提示:战术代理应给出简短、数据密集的响应以最小化延迟
- 采样率匹配:OpenAI TTS输出24kHz;确保
audio_out_sample_rate匹配以避免音频变调 - 无礼貌填充语:避免"你好,有什么可以帮你的?"改用"系统正常。等待指令。"
故障排除
- 问题: 音频断断续续或延迟
- 解决: 检查
OUTPUT_DEVICE索引。运行测试脚本找到正确的硬件索引。
- 解决: 检查
- 问题: 消息格式"验证错误"
- 解决: 确保
GoogleSafeContext适配层正确转换消息格式。
- 解决: 确保
相关技能
@voice-agents- 语音AI通用原则@agent-tool-builder- 为Friday代理添加工具@llm-architect- 优化LLM层
限制
- 仅在任务明确匹配上述范围时使用此技能。
- 不要将输出视为环境特定验证、测试或专家审查的替代品。
兼容工具
Claude CodeCursor
标签
AI与机器学习