视频音频处理

低风险

作者 @sickn33已验证来源

4.6578 次安装v1.0.0更新于 2026年5月25日

使用方式

在 Claude Code 中运行以下命令

第一步：添加 Marketplace

/plugin marketplace add sickn33/antigravity-awesome-skills

第二步：安装插件

/plugin install videodb@antigravity-awesome-skills

关于

视频和音频感知、索引和编辑。摄取文件/URL/直播流，构建视觉/语音索引，按内容搜索，以及程序化剪辑。

name: videodb description: 视频和音频感知、索引和编辑。摄取文件/URL/直播流，构建视觉/语音索引，带时间戳搜索，编辑时间线，添加叠加层/字幕，生成媒体，创建实时警报。 category: media risk: safe source: community tags: "[video, editing, transcription, subtitles, search, streaming, ai-generation, media, live-streams, desktop-capture]" date_added: "2026-02-27" allowed-tools: Read Grep Glob Bash(python:*) argument-hint: "[任务描述]"

VideoDB 技能

视频、直播流和桌面会话的感知 + 记忆 + 操作。

何时使用

需要从文件、URL、桌面会话或直播流进行视频或音频感知、索引、搜索或时间线编辑时
任务涉及时间戳、可搜索证据、字幕、片段、叠加层或实时监控警报时
需要一个结合摄取、理解、检索和媒体操作的工作流时

1) 桌面感知

启动/停止捕获屏幕、麦克风和系统音频的桌面会话
流式传输实时上下文并存储情景会话记忆
对屏幕上发生的事和说的话运行实时警报/触发器
生成会话摘要、可搜索时间线和可播放证据链接

2) 视频摄取 + 流

摄取文件或 URL并返回可播放的 Web 流链接
转码/标准化：编解码器、比特率、帧率、分辨率、宽高比

3) 索引 + 搜索（时间戳 + 证据）

构建视觉、语音和关键词索引
搜索并返回带时间戳和可播放证据的精确时刻
从搜索结果自动创建片段

4) 时间线编辑 + 生成

字幕：生成、翻译、烧录
叠加层：文字/图片/品牌、动态字幕
音频：背景音乐、配音、配音翻译
通过时间线操作进行程序化合成和导出

5) 直播流（RTSP）+ 监控

连接 RTSP/直播源
运行实时视觉和语音理解并为监控工作流发出事件/警报

常见输入

本地文件路径、公共 URL 或 RTSP URL
桌面捕获请求：启动/停止/总结会话
期望操作：获取理解上下文、转码规格、索引规格、搜索查询、片段范围、时间线编辑、警报规则

常见输出

流链接（可播放 URL）
时间戳搜索结果（带证据）
片段（视频片段）
字幕文件（SRT/VTT）
会话摘要（文本）
警报/事件（实时通知）

工作流步骤

步骤 1：初始化

from videodb import connect

conn = connect()
coll = conn.get_collection()

步骤 2：摄取媒体

# 从 URL 摄取
video = coll.upload(url="https://example.com/video.mp4")

# 从本地文件摄取
video = coll.upload(file_path="/path/to/video.mp4")

步骤 3：索引

# 语音索引（转录）
video.index_spoken_words()

# 视觉索引（场景描述）
video.index_scenes(prompt="描述每个场景中发生的事")

步骤 4：搜索

# 语义搜索
results = video.search("关键时刻")
for r in results:
    print(f"{r.start} - {r.end}: {r.text}")

步骤 5：编辑和导出

from videodb import Timeline

timeline = Timeline(conn)
# 添加片段、字幕、叠加层
# 生成最终输出
stream = timeline.generate_stream()

兼容工具

Claude CodeCursor