
关于
将 PDF 转换为其他格式(Markdown、HTML、文本、JSON、DOCX 或结构化笔记)时使用,代理需选择最佳提取路径、设置和清理策略以获得最大保真度和可读性。
name: pdf-conversion-router description: 将 PDF 转换为其他格式(如 Markdown、HTML、文本、JSON、DOCX 或结构化笔记)时使用,代理需选择最佳提取路径、设置和清理策略以获得最大保真度和可读性。 risk: safe source: community date_added: "2026-05-23" metadata: category: technique triggers: pdf conversion, convert pdf, pdf to markdown, pdf to html, pdf to text, pdf to json, pdf to docx, OCR pdf, slide deck pdf, medical pdf, scanned pdf
PDF 转换路由器
在选择工具或 CLI 标志之前,将每次 PDF 转换通过一个简短的分析步骤进行路由。
目标不是"提取最多文本"。目标是:
- 保留结构
- 保留标签和值之间的关联
- 选择最忠实的输出形式
- 当存在更好的路径时避免使用嘈杂的默认设置
适用场景
- 用户想要将 PDF 转换为其他格式。
- 请求的输出是
.md、.html、.txt、.json、.docx或结构化笔记。 - PDF 可能是扫描件、OCR 密集型、表格密集型、幻灯片型、医疗类、学术类或多栏布局。
核心规则
永远不要从一个固定的默认管道开始。
始终:
- 分类 PDF
- 分类目标输出
- 为该组合选择最强的路径
- 在代表性部分验证结果
- 如有需要,在交付前使用更好的设置重试
启发式方法是起点,不是保证。
不要仅因为某个标志组合在一个 PDF 上效果好就将其提升为通用默认值。 优先使用文档特定的证据而非习惯。
主引擎规则
默认使用 opendataloader-pdf 作为每个 PDF 转换任务的主要转换引擎。
此技能应假设:
opendataloader-pdf始终是第一次转换尝试- 其他工具用于分类、验证、OCR、检查或支持清理
- 其他提取器不是主转换路径的默认替代品
仅在以下原因之一时使用其他工具:
- 快速分类 PDF
- 转换前的 OCR 预处理
- 针对保留布局的文本进行验证
- 当生成的输出仍然嘈杂时进行手动修复
- 仅在
opendataloader-pdf无法产生可用结果时作为后备
步骤 1:分类源 PDF
尽快识别文档类别:
- 带可选文本的原生数字 PDF
- 带嘈杂文本的 OCR PDF
- 纯图像/扫描 PDF
- 幻灯片/演示文稿导出
- 医疗或实验室报告
- 表格密集的商业/财务文档
- 叙述性报告/信函/文章
- 包含图表、表格和散文的混合布局文档
有用的快速检查:
pdfinfo input.pdf
pdftotext -layout input.pdf -
如果文本缺失或质量很差,将 OCR 视为必需。
文档类型启发式
将这些作为默认起点:
-
医疗/实验室报告
markdown-with-html + --table-method cluster + --image-output off -
幻灯片/PowerPoint 导出
markdown-with-html + --image-output off仅当默认路径对重要表格内容结构化不足时添加--table-method cluster如果表格视觉上明显但缺失或错误融合,将其视为检测问题而非 Markdown 格式问题 如果选定路径已重建真实表格但在列边界处裁剪前导字符,将其视为边界分割缺陷而非缺失表格故障 -
叙述性/文章/信函 从
markdown或text开始 仅在结构明显重要时使用markdown-with-html -
表格密集的商业/财务 PDF 从
markdown-with-html开始 当行或列扁平化时添加--table-method cluster -
扫描/图像密集 PDF 先 OCR,然后用
opendataloader-pdf转换 -
混合布局 PDF 优先使用
markdown-with-html在接受输出前验证一个简单部分和一个困难部分
步骤 2:选择输出形式
选择最匹配文档和用户目标的输出。
-
markdown-with-html当用户想要 Markdown 且保真度重要时默认使用。 优先用于表格、医疗报告、幻灯片、混合布局 PDF 以及任何可能在纯 Markdown 中损坏的内容。 -
markdown仅在干净的纯 Markdown 比布局保真度更重要时使用。 -
html当视觉结构比 LLM 可读性更重要时使用。 -
text用于快速线性提取、叙述性文档或结构不重要时。 -
json当下游机器处理比人类可读性更重要时使用。 -
docx当用户想要可编辑的办公输出且布局重建重要时使用。
步骤 3:选择提取路径
OpenDataLoader CLI
使用 OpenDataLoader 作为默认路径。
首选默认值:
-
Markdown 输出且保真度优先:
-f markdown-with-html -
医疗 PDF: 添加
--table-method cluster -
表格密集 PDF: 添加
--table-method cluster -
幻灯片: 不添加
--table-method cluster开始