长任务应用开发的 Harness 设计（Anthropic）

Anthropic Labs，作者 Prithvi Rajasekaran，2026-03-24。

TL;DR

用 GAN 启发的 generator-evaluator 架构 让 Claude 自主造前端 + 全栈应用。三 Agent 系统：Planner（扩 spec）+ Generator（实现）+ Evaluator（Playwright 真测真打分）。引入 sprint contract——双方先谈判可交付物。

三大 Agent 角色

角色	职责
Planner	把 1–4 句 prompt 扩成详细 spec；刻意回避粒度过细防级联错误
Generator	用 React/Vite/FastAPI/SQLite 实现，git 管理版本
Evaluator	Playwright 真点击 + 截屏 + 按硬阈值打分

四维评分

design quality（颜色/字体/布局连贯）
originality（自定义 vs 通用模板）
craft（层级/间距/色彩和谐）
functionality（可用性/任务完成）

评分明确惩罚 “AI slop” 通用模板，逼模型敢于审美冒险。

性能对比

方案	时长	成本	结果
单 Agent	20 min	$9	核心功能坏
完整 Harness + Opus 4.5	6 hr	$200	抛光界面、可玩机制
完整 Harness + Opus 4.6 (DAW)	3h50m	$124.7	主动删减组件后效率提升

最关键的发现：随模型变强主动简化 harness

模型升级到 Opus 4.6 后作者系统性地删除组件：

删除：Sprint 分解（模型能撑更长）
保留：Planner（防 under-scoping）
修改：Evaluator 从”每 sprint”移到”end-of-build QA”

Harness 复杂度应该反映模型当下的真实局限。当局限随新版本变化时，有效的 harness 需要定期简化与重构。

与本 Wiki 的关系

直接扩展 Harness-Engineering：本文引入 generator-evaluator 模式 + sprint contract + “随模型变强主动简化”原则
与 12-Parallel-Claude-C-Compiler：都是 Anthropic 一手实证；前者多 Agent 并行，本文三 Agent 协作
与 Superpowers 的”七阶段流水线”理念呼应；但本文更强调减法，呼应 10-SDD五个常识全错了 “选最轻的工具 = 赌模型变强”

涉及实体 / 概念

Harness-Engineering · Agentic-AI · Long-Running-Agents

邵的知识库

探索

13-Harness-Design-Long-Running-Apps

长任务应用开发的 Harness 设计（Anthropic）

TL;DR

三大 Agent 角色

四维评分

性能对比

最关键的发现：随模型变强主动简化 harness

与本 Wiki 的关系

涉及实体 / 概念

原文链接

关系图谱

目录

反向链接