
关于
受 GAN 启发的生成器-评估器代理框架,用于自主构建高质量应用。基于 Anthropic 2026 年 3 月的框架设计论文。
name: gan-style-harness description: "GAN 风格的生成器-评估器智能体框架,用于自主构建高质量应用程序。基于 Anthropic 2026 年 3 月的框架设计论文。" origin: ECC-community tools: Read, Write, Edit, Bash, Grep, Glob, Task
GAN 风格框架技能
灵感来源于 Anthropic 的长时间运行应用开发框架设计(2026 年 3 月 24 日)
一个将生成与评估分离的多智能体框架,创建对抗性反馈循环,将质量推向远超单一智能体所能达到的水平。
核心洞察
当被要求评估自己的工作时,智能体是病态的乐观主义者——它们会赞美平庸的输出,并说服自己忽略合理的问题。但设计一个独立的评估器使其严格无情,比教会生成器自我批评要容易得多。
这与 GAN(生成对抗网络)的动态相同:生成器产出,评估器批评,反馈驱动下一次迭代。
适用场景
- 从一行提示构建完整应用程序
- 需要高视觉质量的前端设计任务
- 需要可工作功能(而非仅代码)的全栈项目
- 任何"AI 模板感"美学不可接受的任务
- 愿意投入 $50-200 获得生产级质量输出的项目
不适用场景
- 快速单文件修复(使用标准
claude -p) - 预算紧张的任务(<$10)
- 简单重构(使用 de-sloppify 模式)
- 已有良好规范和测试的任务(使用 TDD 工作流)
架构
┌─────────────┐
│ PLANNER │
│ (Opus 4.6) │
└──────┬──────┘
│ Product Spec
│ (features, sprints, design direction)
▼
┌────────────────────────┐
│ │
│ GENERATOR-EVALUATOR │
│ FEEDBACK LOOP │
│ │
│ ┌──────────┐ │
│ │GENERATOR │--build-->│──┐
│ │(Opus 4.6)│ │ │
│ └────▲─────┘ │ │
│ │ │ │ live app
│ feedback │ │
│ │ │ │
│ ┌────┴─────┐ │ │
│ │EVALUATOR │<-test----│──┘
│ │(Opus 4.6)│ │
│ │+Playwright│ │
│ └──────────┘ │
│ │
│ 5-15 iterations │
└────────────────────────┘
三个智能体
1. 规划器智能体
角色: 产品经理——将简短提示扩展为完整的产品规格。
关键行为:
- 接收一行提示并产出 16 个功能、多冲刺的规格说明
- 定义用户故事、技术需求和视觉设计方向
- 刻意雄心勃勃——保守的规划会导致平庸的结果
- 产出评估器后续将使用的评估标准
模型: Opus 4.6(需要深度推理进行规格扩展)
2. 生成器智能体
角色: 开发者——按照规格实现功能。
关键行为:
- 以结构化冲刺方式工作(或使用较新模型时的连续模式)
- 在编写代码前与评估器协商"冲刺合约"
- 使用全栈工具:React、FastAPI/Express、数据库、CSS
- 使用 git 进行迭代间的版本控制
- 阅读评估器反馈并在下一次迭代中整合
模型: Opus 4.6(需要强大的编码能力)
3. 评估器智能体
角色: QA 工程师——测试实时运行的应用程序,而非仅代码。
关键行为:
- 使用 Playwright MCP 与实时应用交互
- 点击功能、填写表单、测试 API 端点
- 按四个标准评分(可配置):
- 设计质量 — 是否感觉像一个连贯的整体?
- 原创性 — 自定义决策 vs 模板/AI 模式?
- 工艺 — 排版、间距、动画、微交互?
- 功能性 — 所有功能是否真正可用?
- 返回带有分数和具体问题的结构化反馈
- 被设计为严格无情——从不赞美平庸的工作
模型: Opus 4.6(需要强大的判断力 + 工具使用能力)
评估标准
默认四个标准,每个评分 1-10:
## Evaluation Rubric
### Design Quality (weight: 0.3)
- 1-3: Generic, template-like, "AI slop" aesthetics
- 4-6: Competent but unremarkable, follows conventions
- 7-8: Distinctive, cohesive visual identity
- 9-10: Could pass for a professional designer's work
### Originality (weight: 0.2)
- 1-3: Default colors, stock layouts, no
兼容工具
Claude CodeCursor
标签
AI与机器学习
