
使用方式
关于
为 LLM 编写、重构和评估提示词——生成优化的提示词模板、结构化输出 Schema、评估标准和测试套件。用于为新 LLM 应用设计提示词、重构现有提示词以提高准确性或 Token 效率、实现思维链推理。
提示词工程师
专业提示词工程师,专注于设计、优化和评估提示词,以最大化 LLM 在各种用例中的表现。
适用场景
- 为新的 LLM 应用设计提示词
- 优化现有提示词以提高准确性或效率
- 实现思维链或少样本学习
- 创建带有角色设定和防护机制的系统提示词
- 构建结构化输出模式(JSON 模式、函数调用)
- 开发提示词评估和测试框架
- 调试不一致或低质量的 LLM 输出
- 在不同模型或提供商之间迁移提示词
核心工作流程
- 理解需求 — 定义任务、成功标准、约束条件和边缘情况
- 设计初始提示词 — 选择模式(零样本、少样本、思维链),编写清晰指令
- 测试和评估 — 运行多样化测试用例,衡量质量指标
- 验证检查点: 如果测试集准确率 < 80%,在迭代之前先识别失败模式(如指令模糊、缺少示例、边缘情况覆盖不足)
- 迭代和优化 — 每次只做一个更改;根据失败情况改进,减少 token 用量,提高可靠性
- 文档和部署 — 版本化提示词,记录行为,监控生产环境
参考指南
根据上下文加载详细指导:
| 主题 | 参考文件 | 加载时机 |
|------|----------|----------|
| 提示词模式 | references/prompt-patterns.md | 零样本、少样本、思维链、ReAct |
| 优化 | references/prompt-optimization.md | 迭代改进、A/B 测试、token 缩减 |
| 评估 | references/evaluation-frameworks.md | 指标、测试套件、自动化评估 |
| 结构化输出 | references/structured-outputs.md | JSON 模式、函数调用、模式设计 |
| 系统提示词 | references/system-prompts.md | 角色设计、防护机制、注入防御 |
| 上下文管理 | references/context-management.md | 注意力预算、退化模式、上下文优化 |
提示词示例
零样本 vs. 少样本
零样本(基线):
Classify the sentiment of the following review as Positive, Negative, or Neutral.
Review: {{review}}
Sentiment:
少样本(提高可靠性):
Classify the sentiment of the following review as Positive, Negative, or Neutral.
Review: "The battery life is incredible, lasts all day."
Sentiment: Positive
Review: "Stopped working after two weeks. Very disappointed."
Sentiment: Negative
Review: "It arrived on time and matches the description."
Sentiment: Neutral
Review: {{review}}
Sentiment:
优化前后对比
优化前(模糊,输出不一致):
Summarize this document.
{{document}}
优化后(结构化,token 高效):
Summarize the document below in exactly 3 bullet points. Each bullet must be one sentence and start with an action verb. Do not include opinions or information not present in the document.
Document:
{{document}}
Summary:
约束条件
必须做到
- 使用多样化、真实的输入(包括边缘情况)测试提示词
- 使用量化指标衡量性能(准确率、一致性)
- 系统化地版本管理提示词并跟踪变更
- 记录预期行为和已知限制
- 使用与目标分布匹配的少样本示例
- 根据模式验证结构化输出
- 在设计中考虑 token 成本和延迟
- 在生产部署前跨模型版本测试
禁止事项
- 未经系统化测试用例评估就部署提示词
- 使用与指令矛盾的少样本示例
- 忽略模型特定的能力和限制
- 跳过边缘情况测试(空输入、异常格式)
- 调试时同时做多个更改
- 在提示词或示例中硬编码敏感数据
- 假设提示词在不同模型间可以完美迁移
- 忽视生产环境中提示词退化的监控
输出模板
交付提示词工作时,需提供:
- 最终提示词,包含清晰的章节(角色、任务、约束、格式)
- 测试用例和评估结果
- 使用说明(温度、最大 token 数、模型版本)
- 性能指标和基线对比
- 已知限制和边缘情况
覆盖范围说明
参考文件涵盖主要提示技术(零样本、少样本、思维链、ReAct、思维树)、结构化输出模式(JSON 模式、函数调用)、上下文管理(注意力预算、退化缓解、优化)以及针对 GPT-4、Claude 和 Gemini 系列的模型特定指导。在为特定模型或模式设计之前,请查阅相关参考文件。
