Everything-claude-code-zh eval-harness
适用于 Claude Code 会话的正规评测框架(Evaluation Framework),实现了评测驱动开发(Eval-Driven Development, EDD)原则
install
source · Clone the upstream repo
git clone https://github.com/xu-xiang/everything-claude-code-zh
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/xu-xiang/everything-claude-code-zh "$T" && mkdir -p ~/.claude/skills && cp -r "$T/.agents/skills/eval-harness" ~/.claude/skills/xu-xiang-everything-claude-code-zh-eval-harness && rm -rf "$T"
manifest:
.agents/skills/eval-harness/SKILL.mdsource content
评测框架(Eval Harness)技能(Skill)
一个用于 Claude Code 会话的正规评测框架(Evaluation Framework),旨在落实评测驱动开发(Eval-Driven Development, EDD)原则。
何时激活
- 为 AI 辅助工作流设置评测驱动开发(EDD)
- 为 Claude Code 任务的完成情况定义通过/失败标准
- 使用 pass@k 指标衡量智能体(Agent)的可靠性
- 为提示词(Prompt)或智能体(Agent)的变更创建回归测试套件
- 跨模型版本对智能体(Agent)性能进行基准测试
核心理念
评测驱动开发(Eval-Driven Development)将评测(Eval)视为“AI 开发中的单元测试”:
- 在实现之前定义预期行为
- 在开发过程中持续运行评测(Evals)
- 跟踪每次变更带来的回归(Regressions)
- 使用 pass@k 指标进行可靠性度量
评测类型
能力评测(Capability Evals)
测试 Claude 是否能够完成其之前无法完成的任务:
[CAPABILITY EVAL: feature-name] Task: 描述 Claude 应该完成的任务 Success Criteria: - [ ] 准则 1 - [ ] 准则 2 - [ ] 准则 3 Expected Output: 预期结果的描述
回归评测(Regression Evals)
确保变更不会破坏现有功能:
[REGRESSION EVAL: feature-name] Baseline: SHA 或检查点(checkpoint)名称 Tests: - existing-test-1: PASS/FAIL - existing-test-2: PASS/FAIL - existing-test-3: PASS/FAIL Result: X/Y 通过 (之前为 Y/Y)
评分器(Grader)类型
1. 基于代码的评分器(Code-Based Grader)
使用代码进行确定性检查:
# 检查文件是否包含预期模式 grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL" # 检查测试是否通过 npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL" # 检查构建是否成功 npm run build && echo "PASS" || echo "FAIL"
2. 基于模型的评分器(Model-Based Grader)
使用 Claude 对开放式输出进行评估:
[MODEL GRADER PROMPT] 评估以下代码变更: 1. 它是否解决了所述问题? 2. 结构是否良好? 3. 是否处理了边缘情况? 4. 错误处理是否恰当? Score: 1-5 (1=差, 5=优秀) Reasoning: [解释]
3. 人工评分器(Human Grader)
标记以供人工复核:
[HUMAN REVIEW REQUIRED] Change: 变更内容描述 Reason: 为何需要人工复核 Risk Level: LOW/MEDIUM/HIGH
指标(Metrics)
pass@k
“在 k 次尝试中至少成功一次”
- pass@1: 首次尝试成功率
- pass@3: 3 次尝试内的成功率
- 典型目标:pass@3 > 90%
pass^k
“所有 k 次试验均成功”
- 更高的可靠性门槛
- pass^3: 连续 3 次成功
- 用于关键路径(Critical Paths)
评测工作流(Eval Workflow)
1. 定义(编码前)
## EVAL DEFINITION: feature-xyz ### 能力评测(Capability Evals) 1. 能够创建新用户账号 2. 能够验证邮箱格式 3. 能够安全地哈希密码 ### 回归评测(Regression Evals) 1. 现有登录功能仍然正常 2. 会话管理未改变 3. 注销流程完好无损 ### 成功指标 - 能力评测的 pass@3 > 90% - 回归评测的 pass^3 = 100%
2. 实现
编写代码以通过定义的评测(Evals)。
3. 评测
# 运行能力评测 [运行每个能力评测,记录 PASS/FAIL] # 运行回归评测 npm test -- --testPathPattern="existing" # 生成报告
4. 报告
EVAL REPORT: feature-xyz ======================== Capability Evals: create-user: PASS (pass@1) validate-email: PASS (pass@2) hash-password: PASS (pass@1) Overall: 3/3 passed Regression Evals: login-flow: PASS session-mgmt: PASS logout-flow: PASS Overall: 3/3 passed Metrics: pass@1: 67% (2/3) pass@3: 100% (3/3) Status: READY FOR REVIEW
集成模式(Integration Patterns)
实现前
/eval define feature-name
在
.claude/evals/feature-name.md 创建评测定义文件
实现中
/eval check feature-name
运行当前评测并报告状态
实现后
/eval report feature-name
生成完整的评测报告
评测存储(Eval Storage)
在项目中存储评测(Evals):
.claude/ evals/ feature-xyz.md # 评测定义 feature-xyz.log # 评测运行历史 baseline.json # 回归基准
最佳实践
- 在编码之前定义评测 - 强制对成功标准进行清晰思考
- 频繁运行评测 - 尽早发现回归问题
- 长期跟踪 pass@k - 监控可靠性趋势
- 尽可能使用代码评分器 - 确定性 > 概率性
- 安全相关的由人工复核 - 绝不要完全自动化安全检查
- 保持评测速度快 - 慢的评测不会被经常运行
- 评测与代码版本同步 - 评测是一等公民(First-class Artifacts)
示例:添加身份验证(Authentication)
## EVAL: add-authentication ### 阶段 1:定义 (10 分钟) 能力评测: - [ ] 用户可以使用邮箱/密码注册 - [ ] 用户可以使用有效凭据登录 - [ ] 无效凭据被拒绝并返回正确错误 - [ ] 会话在页面重新加载后保持 - [ ] 注销会清除会话 回归评测: - [ ] 公共路由仍然可以访问 - [ ] API 响应未改变 - [ ] 数据库架构兼容 ### 阶段 2:实现 (时间视情况而定) [编写代码] ### 阶段 3:评测 运行:/eval check add-authentication ### 阶段 4:报告 EVAL REPORT: add-authentication ============================== Capability: 5/5 passed (pass@3: 100%) Regression: 3/3 passed (pass^3: 100%) Status: SHIP IT (可以发布)