defineEval 是编写 eval 的主要入口。每个 eval 文件调用一次,传入描述和 test(t),并默认导出结果。
不要提供
id 或 name。niceeval 从文件路径推导 eval ID。defineEval 选项
给人看的描述,出现在控制台和报告中。
当前 eval 使用的 agent 名。省略时使用配置或 CLI 的默认值。
标签,用于
--tag 过滤或组织 eval。覆盖当前 eval 的 judge 模型配置。
当前 eval 专用 reporters。
覆盖全局超时。
附加元数据,供报告或外部工具使用。
eval 主体。你在这里驱动 agent 并声明断言。
Test context: t
总是可用
给 agent 发送消息,并返回当前 turn。
记录值断言,失败不会立即中断 test。
记录前置条件断言,失败会立即中断 test。
跳过当前 eval。
对话能力
当前 session 中最后一条 assistant 文本回复。
开启新的独立会话。
工具可观测性
断言某个工具被调用。
断言某个工具未被调用。
底层事件流断言。
Workspace / sandbox 能力
断言文件被修改。
断言 sandbox 验证测试通过。
Judge 断言
Turn 返回类型
标准事件流。
结构化输出。
当前 turn 状态。
assistant 文本回复。
当前 turn 的工具调用。
数据集导出
file/0000、file/0001 等。