基本形状
一个实验文件 = 一个配置(一个 agent × 一个 model)。model 是单个字符串,不接受数组。要跨模型 / 跨 agent 对比,就在一个实验组文件夹里写多个文件,各钉对照轴之外的一切:
适合比较什么
- 不同 agent adapters。
- 不同模型。
- 不同 prompts 或 feature flags。
- 不同 sandbox 后端。
- 同一任务的 pass@N。
查看结果
Experiment 输出通常按(agent, model, eval) 维度展示:
设计 experiment 的建议
- 保持 eval 集合稳定,避免比较时混入新变量。
- 每个 cell 跑多个 attempts,尤其是非确定性 coding agent。
- 把预算和并发写清楚。
- 对“失败原因”做归类,不只看总分。
与普通运行的关系
npx niceeval exp <实验> 关注“这一批 eval 在某个配置下是否通过”;实验组关注“多组配置谁更好”。两者使用同一套 eval、agent adapter、scoring 和 artifacts。