
关于
视频和音频感知、索引和编辑。摄取文件/URL/直播流,构建视觉/语音索引,按内容搜索,以及程序化剪辑。
name: videodb description: 视频和音频感知、索引和编辑。摄取文件/URL/直播流,构建视觉/语音索引,带时间戳搜索,编辑时间线,添加叠加层/字幕,生成媒体,创建实时警报。 category: media risk: safe source: community tags: "[video, editing, transcription, subtitles, search, streaming, ai-generation, media, live-streams, desktop-capture]" date_added: "2026-02-27" allowed-tools: Read Grep Glob Bash(python:*) argument-hint: "[任务描述]"
VideoDB 技能
视频、直播流和桌面会话的感知 + 记忆 + 操作。
何时使用
- 需要从文件、URL、桌面会话或直播流进行视频或音频感知、索引、搜索或时间线编辑时
- 任务涉及时间戳、可搜索证据、字幕、片段、叠加层或实时监控警报时
- 需要一个结合摄取、理解、检索和媒体操作的工作流时
1) 桌面感知
- 启动/停止捕获屏幕、麦克风和系统音频的桌面会话
- 流式传输实时上下文并存储情景会话记忆
- 对屏幕上发生的事和说的话运行实时警报/触发器
- 生成会话摘要、可搜索时间线和可播放证据链接
2) 视频摄取 + 流
- 摄取文件或 URL并返回可播放的 Web 流链接
- 转码/标准化:编解码器、比特率、帧率、分辨率、宽高比
3) 索引 + 搜索(时间戳 + 证据)
- 构建视觉、语音和关键词索引
- 搜索并返回带时间戳和可播放证据的精确时刻
- 从搜索结果自动创建片段
4) 时间线编辑 + 生成
- 字幕:生成、翻译、烧录
- 叠加层:文字/图片/品牌、动态字幕
- 音频:背景音乐、配音、配音翻译
- 通过时间线操作进行程序化合成和导出
5) 直播流(RTSP)+ 监控
- 连接 RTSP/直播源
- 运行实时视觉和语音理解并为监控工作流发出事件/警报
常见输入
- 本地文件路径、公共 URL 或 RTSP URL
- 桌面捕获请求:启动/停止/总结会话
- 期望操作:获取理解上下文、转码规格、索引规格、搜索查询、片段范围、时间线编辑、警报规则
常见输出
- 流链接(可播放 URL)
- 时间戳搜索结果(带证据)
- 片段(视频片段)
- 字幕文件(SRT/VTT)
- 会话摘要(文本)
- 警报/事件(实时通知)
工作流步骤
步骤 1:初始化
from videodb import connect
conn = connect()
coll = conn.get_collection()
步骤 2:摄取媒体
# 从 URL 摄取
video = coll.upload(url="https://example.com/video.mp4")
# 从本地文件摄取
video = coll.upload(file_path="/path/to/video.mp4")
步骤 3:索引
# 语音索引(转录)
video.index_spoken_words()
# 视觉索引(场景描述)
video.index_scenes(prompt="描述每个场景中发生的事")
步骤 4:搜索
# 语义搜索
results = video.search("关键时刻")
for r in results:
print(f"{r.start} - {r.end}: {r.text}")
步骤 5:编辑和导出
from videodb import Timeline
timeline = Timeline(conn)
# 添加片段、字幕、叠加层
# 生成最终输出
stream = timeline.generate_stream()
兼容工具
Claude CodeCursor
标签
前端开发