
关于
AI 驱动的浏览器自动化 — 导航网站、填写表单、提取结构化数据、使用存储的凭证登录并构建可复用工作流。
name: skyvern-browser-automation description: "AI 驱动的浏览器自动化——导航网站、填写表单、提取结构化数据、使用存储的凭据登录,以及构建可复用的工作流。" category: browser-automation risk: safe source: community source_repo: Skyvern-AI/skyvern source_type: official date_added: "2026-04-23" author: mark1ian tags: [browser-automation, mcp, web-scraping, form-filling, ai-agents, workflow-automation] tools: [claude, cursor, gemini, codex] license: "AGPL-3.0" license_source: "https://github.com/Skyvern-AI/skyvern/blob/main/LICENSE"
Skyvern 浏览器自动化 -- CLI 判断流程
Skyvern 使用 AI 来导航和与网站交互。以下每个命令都是可运行的 skyvern <command> 调用。
何时使用此技能
- 当你需要 AI 辅助的浏览器自动化来进行导航、提取、表单填写、登录流程或可复用的网站工作流时使用。
- 当确定性选择器不可用,而 Skyvern 的视觉/无障碍推理可以识别页面控件时使用。
- 当一次性浏览器任务需要变成具有运行历史和验证功能的可重复工作流时使用。
步骤 1:分类你的任务(始终首先执行此步骤)
| 分类 | 信号 | CLI 命令 | 成本 | 执行内容 |
|---|---|---|---|---|
| 快速检查(是/否) | "用户是否已登录?" | skyvern browser validate | 1 LLM + 截图 | 轻量级验证(最多 2 步),返回布尔值。最便宜的 AI 选项。 |
| 快速检查 | "页面显示了什么?" | skyvern browser extract | 1 LLM + 截图 | 专用提取 LLM + 模式验证 + 缓存。 |
| 单一操作(已知目标) | "点击 #submit" | skyvern browser click/type | 0 LLM | 确定性 Playwright。无 AI。最快。 |
| 单一操作(未知目标) | "点击提交按钮" | skyvern browser act | 2-3 LLM,无截图 | 推理中无截图。经济型无障碍树。对于视觉目标,使用混合模式(选择器 + 意图)。 |
| 同页多步骤 | "填写表单并提交" | skyvern browser act 或原语链 | 2-3 LLM 或 0 LLM | 当标签清晰时使用 act。当你知道选择器时直接使用 click/type/select。 |
| 一次性自主试验 | "试一次","看看这是否有效" | skyvern browser run-task | 较高 | 用于探索的一次性自主代理。不要用于重复或多页面生产自动化。 |
| 多页面或可复用自动化 | "导航多页面向导","设置这个","每周自动化" | skyvern workflow create + run | N LLM + 截图 | 构建每步一个块的工作流。每个块获得视觉推理、验证和可复用的运行历史。 |
MCP 注意: 如果你使用 Skyvern MCP 而非 CLI,对于同页多步骤 UI 工作优先使用 observe + execute。CLI 不直接暴露该组合。
步骤 2:应用这些决策规则
- 如果提示包含选择器、id、XPath 或精确字段目标,使用浏览器原语——而非
act。 - 如果你只需要是/否答案,使用
validate——而非extract或act。 - 如果工作停留在一个页面且标签清晰,使用
act或原语链。 - 如果用户说"试一次"、"看看这是否有效"或明确想要一次性探索性试验,使用
run-task。 - 如果任务跨越多个页面且旨在可复用、可调度、可重复,或明确"设置"为自动化,使用
workflow create。 - 永远不要输入密码。始终使用
skyvern browser login的存储凭据。
步骤 3:创建会话
每个浏览器命令都需要一个会话。首先创建一个:
# Cloud session (default -- works for public URLs)
skyvern browser session create --timeout 30
# Local session (for localhost URLs or self-hosted mode)
skyvern browser session create --local --timeout 30
# Connect to existing browser via CDP
skyvern browser session connect --cdp "ws://localhost:9222"
会话状态在命令之间持续存在。session create 之后,后续命令自动附加。
使用 --session pbs_... 覆盖。完成后关闭:skyvern browser session close。
步骤 4:按分类执行
快速检查(是/否)
skyvern browser validate --prompt "Is the user logged in? Look for a dashboard or avatar."
返回 true/false。最便宜的 AI 选项——对于布尔检查优先于 extract 或 act。
快速检查
skyvern browser extract \
--prompt "Extract all product names and prices" \
--schema '{"type":"object","properties":{"items":{"type":"array","items":{"type":"object","properties":{"name":{"type":"string"},"price":{"type":"string"}}}}}}'
使用截图 + 专用提取 LLM。比截图+读取更好,因为 Skyvern 的 LLM 会解释页面。
单一操作(已知目标)
skyvern browser click --selector "#submit-btn"
skyvern browser type --text "user@co.com" --selector "#email"
skyvern browser select --value "US" --intent "the country dropdown"
确定性操作