长任务应用开发的 Harness 设计(Anthropic)

Anthropic Labs,作者 Prithvi Rajasekaran,2026-03-24。

TL;DR

GAN 启发的 generator-evaluator 架构 让 Claude 自主造前端 + 全栈应用。三 Agent 系统:Planner(扩 spec)+ Generator(实现)+ Evaluator(Playwright 真测真打分)。引入 sprint contract——双方先谈判可交付物。

三大 Agent 角色

角色职责
Planner把 1–4 句 prompt 扩成详细 spec;刻意回避粒度过细防级联错误
Generator用 React/Vite/FastAPI/SQLite 实现,git 管理版本
EvaluatorPlaywright 真点击 + 截屏 + 按硬阈值打分

四维评分

  • design quality(颜色/字体/布局连贯)
  • originality(自定义 vs 通用模板)
  • craft(层级/间距/色彩和谐)
  • functionality(可用性/任务完成)

评分明确惩罚 “AI slop” 通用模板,逼模型敢于审美冒险。

性能对比

方案时长成本结果
单 Agent20 min$9核心功能坏
完整 Harness + Opus 4.56 hr$200抛光界面、可玩机制
完整 Harness + Opus 4.6 (DAW)3h50m$124.7主动删减组件后效率提升

最关键的发现:随模型变强主动简化 harness

模型升级到 Opus 4.6 后作者系统性地删除组件

  • 删除:Sprint 分解(模型能撑更长)
  • 保留:Planner(防 under-scoping)
  • 修改:Evaluator 从”每 sprint”移到”end-of-build QA”

Harness 复杂度应该反映模型当下的真实局限。当局限随新版本变化时,有效的 harness 需要定期简化与重构。

与本 Wiki 的关系

涉及实体 / 概念

Harness-Engineering · Agentic-AI · Long-Running-Agents

原文链接