评什么
- Skill 是否会被正确触发。
- Skill 指令是否让 agent 走预期流程。
- Skill 是否改善 pass rate、成本或耗时。
- Skill 是否避免了错误工具、错误文件或错误命令。
定义实验与安装 Skill
npx skill add为你添加与配置对应的skill.
写 Eval
EVAL.ts
运行
下一步
- Fixtures — 组织任务和验证脚本。
- Experiments — 做有 Skill / 无 Skill 的对照实验。
- 评分指南 — 把最终结果和行为约束一起评分。