
关于
智能多策略网页抓取。从网页中提取结构化数据(表格、列表、价格)。支持分页、监控和 CSV/JSON 导出。
name: web-scraper description: 智能多策略网页抓取。从网页中提取结构化数据(表格、列表、价格)。支持分页、监控和CSV/JSON导出。 risk: safe source: community date_added: '2026-03-06' author: renat tags:
- scraping
- data-extraction
- automation
- csv tools:
- claude-code
- antigravity
- cursor
- gemini-cli
- codex-cli
网页抓取器
概述
智能多策略网页抓取。从网页中提取结构化数据(表格、列表、价格)。支持分页、监控和CSV/JSON导出。
何时使用此技能
- 当用户提到"抓取器"或相关主题时
- 当用户提到"网页抓取"或相关主题时
- 当用户提到"提取网页数据"或相关主题时
- 当用户提到"爬取数据"或相关主题时
- 当用户提到"采集网站数据"或相关主题时
不要在以下情况使用此技能
- 任务与网页抓取无关
- 更简单、更具体的工具可以处理该请求
- 用户需要通用帮助而不需要领域专业知识
工作原理
严格按顺序执行各阶段。每个阶段为下一个阶段提供输入。
1. 澄清 -> 2. 侦察 -> 3. 策略 -> 4. 提取 -> 5. 转换 -> 6. 验证 -> 7. 格式化
切勿跳过第1阶段或第2阶段。它们可以防止无效工作和失败的提取。
快速路径:如果用户提供了URL + 明确的数据目标 + 请求简单 (单页面、单一数据类型),将第1-3阶段压缩为单一操作: 在一次WebFetch调用中获取、分类和提取。仍需验证和格式化。
能力
- 多策略:WebFetch(静态)、浏览器自动化(JS渲染)、Bash/curl(API)、WebSearch(发现)
- 提取模式:表格、列表、文章、产品、联系方式、FAQ、定价、事件、职位、自定义
- 输出格式:Markdown表格(默认)、JSON、CSV
- 分页:自动检测并跟踪(页码、无限滚动、加载更多)
- 多URL:跨来源提取相同结构并进行比较和差异分析
- 验证:对每次提取给出置信度评级(高/中/低)
- 自动升级:WebFetch静默失败 -> 自动切换到浏览器方案
- 数据转换:清洗、标准化、去重、丰富
- 差异模式:检测抓取运行之间的变化
网页抓取器
多策略网页数据提取,具有智能方法选择、 自动回退升级、数据转换和结构化输出。
第1阶段:澄清
在访问任何URL之前确定提取参数。
必需参数
| 参数 | 解决方案 | 默认值 | |:-----|:---------|:-------| | 目标URL | 要抓取哪个页面? | (必需) | | 数据目标 | 要提取什么具体数据? | (必需) | | 输出格式 | Markdown表格、JSON、CSV还是文本? | Markdown表格 | | 范围 | 单页面、分页还是多URL? | 单页面 |
可选参数
| 参数 | 解决方案 | 默认值 | |:-----|:---------|:-------| | 分页 | 是否跟踪分页?最大页数? | 否,1页 | | 最大条目 | 要收集的最大条目数? | 无限制 | | 过滤器 | 要排除或包含的数据? | 无 | | 排序顺序 | 如何排序结果? | 源顺序 | | 保存路径 | 保存到文件?哪个路径? | 仅显示 | | 语言 | 用哪种语言回复? | 用户语言 | | 差异模式 | 与上次运行比较? | 否 |
澄清规则
- 如果用户提供了URL和明确的数据目标,直接进入第2阶段。 不要问不必要的问题。
- 如果请求模糊(例如"抓取这个网站"),只问: "您想从这个页面提取什么具体数据?"
- 默认使用Markdown表格输出。仅在相关时提及替代方案。
- 接受任何语言的请求。始终用用户的语言回复。
- 如果用户说"所有内容"或"全部数据",先进行侦察,然后展示 可用内容并让用户选择。
发现模式
当用户有主题但没有具体URL时:
- 使用WebSearch查找最相关的页面
- 展示前3-5个URL及描述
- 让用户选择要抓取哪个,或全部抓取
- 使用选定的URL进入第2阶段
示例:"查找并提取CRM工具的定价数据" -> WebSearch("CRM tools pricing comparison 2026") -> 展示热门结果 -> 用户选择 -> 提取
第2阶段:侦察
在提取之前分析目标页面。
步骤2.1:初始获取
使用WebFetch检索并分析页面结构:
WebFetch(
url = TARGET_URL,
prompt = "Analyze this page structure and report:
1. Page t