
关于
将音频录音转化为专业的 Markdown 文档,通过 LLM 集成生成智能摘要。
name: audio-transcriber description: "将音频录音转换为专业的 Markdown 文档,并通过 LLM 集成生成智能摘要" category: content risk: safe source: community tags: "[audio, transcription, whisper, meeting-minutes, speech-to-text]" date_added: "2026-02-27"
用途
此技能自动化音频转文字转录,输出专业的 Markdown 格式,提取丰富的技术元数据(说话人、时间戳、语言、文件大小、时长),并生成结构化的会议纪要和执行摘要。它使用 Faster-Whisper 或 Whisper,零配置,无需硬编码路径或 API 密钥,可在所有项目中通用。
灵感来自 Plaud 等工具,此技能将原始音频录音转化为可操作的文档,非常适合会议、访谈、讲座和内容分析。
何时使用
在以下情况调用此技能:
- 用户需要将音频/视频文件转录为文本
- 用户希望从录音自动生成会议纪要
- 用户需要对话中的说话人识别(分离)
- 用户需要字幕/标题(SRT、VTT 格式)
- 用户希望获得长音频内容的执行摘要
- 用户提出类似"转录这段音频"、"将音频转为文本"、"从录音生成会议笔记"的请求
- 用户有常见格式的音频文件(MP3、WAV、M4A、OGG、FLAC、WEBM)
工作流程
步骤 0:发现(自动检测转录工具)
目标: 无需用户配置即可识别可用的转录引擎。
操作:
运行检测命令查找已安装的工具:
# Check for Faster-Whisper (preferred - 4-5x faster)
if python3 -c "import faster_whisper" 2>/dev/null; then
TRANSCRIBER="faster-whisper"
echo "✅ Faster-Whisper detected (optimized)"
# Fallback to original Whisper
elif python3 -c "import whisper" 2>/dev/null; then
TRANSCRIBER="whisper"
echo "✅ OpenAI Whisper detected"
else
TRANSCRIBER="none"
echo "⚠️ No transcription tool found"
fi
# Check for ffmpeg (audio format conversion)
if command -v ffmpeg &>/dev/null; then
echo "✅ ffmpeg available (format conversion enabled)"
else
echo "ℹ️ ffmpeg not found (limited format support)"
fi
如果未找到转录工具:
提供自动安装选项:
echo "⚠️ No transcription tool found"
echo ""
echo "🔧 Auto-install dependencies? (Recommended)"
read -p "Run installation script? [Y/n]: " AUTO_INSTALL
if [[ ! "$AUTO_INSTALL" =~ ^[Nn] ]]; then
SKILL_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
if [[ -f "$SKILL_DIR/scripts/install-requirements.sh" ]]; then
bash "$SKILL_DIR/scripts/install-requirements.sh"
else
echo "❌ Installation script not found"
echo ""
echo "📦 Manual installation:"
echo " pip install faster-whisper # Recommended"
echo " pip install openai-whisper # Alternative"
echo " brew install ffmpeg # Optional (macOS)"
exit 1
fi
if python3 -c "import faster_whisper" 2>/dev/null || python3 -c "import whisper" 2>/dev/null; then
echo "✅ Installation successful! Proceeding with transcription..."
else
echo "❌ Installation failed. Please install manually."
exit 1
fi
else
echo ""
echo "📦 Manual installation required:"
echo ""
echo "Recommended (fastest):"
echo " pip install faster-whisper"
echo ""
echo "Alternative (original):"
echo " pip install openai-whisper"
echo ""
echo "Optional (format conversion):"
echo " brew install ffmpeg # macOS"
echo " apt install ffmpeg # Linux"
echo ""
exit 1
fi
这确保用户可以通过一次确认安装依赖,或者选择手动安装。
如果找到转录工具:
继续步骤 0b(CLI 检测)。
步骤 1:验证音频文件
目标: 验证文件存在,检查格式,并提取元数据。
操作:
-
接受文件路径或 URL:
- 本地文件:
meeting.mp3 - URL:
https://example.com/audio.mp3(下载到临时目录)
- 本地文件:
-
验证文件存在:
if [[ ! -f "$AUDIO_FILE" ]]; then
echo "❌ File not found: $AUDIO_FILE"
exit 1
fi
- 使用 ffprobe 或文件工具提取元数据:
# Get file size
FILE_SIZE=$(du -h "$AUDIO_FILE" | cut -f1)
# Get duration and format using ffprobe
DURATION=$(ffprobe -v error -show_entries format=duration \
-of default=noprint_wrappers=1:nokey=1 "$AUDIO_FILE" 2>/dev/null)
FORMAT=$(ffprobe -v error -select_streams a:0 -show_entries \
stream=codec_name -of default=noprint_wrappers=1:nokey=1 "$AUDIO_FILE" 2>/dev/null)
# Convert duration to HH:MM:SS
DURATION_HMS=$(date -u -r "$DURATION" +%H:%M:%S 2>/dev/null || echo "Unknown")
限制
- 仅在任务明确匹配上述范围时使用此技能。
- 不要将输出视为环境特定验证、测试或专家审查的替代品。
- 如果缺少必需的输入、权限、安全边界或成功标准,请停下来要求澄清。
兼容工具
Claude CodeCursor
标签
AI与机器学习