judge 的三种固定形状
t.judge.autoevals 只暴露三种固定形状,评什么都落进其中之一:
closedQA(question, opts?)—— 闭合式判断:输出满不满足这条标准?适合打分标准明确的检查(“语气是否礼貌、具体""是否没有编造政策细节”)。factuality(reference, opts?)—— 输出和你给的参考文本之间的事实一致性。summarizes(source, opts?)—— 输出是否忠实摘要了某个源文档。
{ on } 指定被评的值,默认值按接收者决定(见下文);{ model } 单次覆盖评判模型。
judge 挂在哪:t、session、turn
和作用域断言一样,judge 调用遵守同一条规则:接收者决定默认材料,不是调用方式决定:
t.judge / session.judge 是 session 级,适合评整段对话的回答质量或跨轮一致性;turn.judge 是 turn 级,只看这一轮的消息——多轮 eval 里不同轮次需要不同评分标准时用它:
{ on } 显式传:
judge 模型解析优先级
评判模型按从具体到笼统解析:严重级:judge 默认 soft
judge 调用和其它断言一样是评分函数,遵守 Assert · gate 与 soft 严重级 同一套机制——只是默认值和大多数值匹配器不同:.atLeast() 也不调 .gate() 时,裸的 judge 调用纯粹记一个质量分——会显示在 eval 的分数徽章上,但单独永远不会让运行失败。这是 judge 合理的默认值:一个概率模型在给另一个概率模型的输出打分,把每次没打满分都当硬失败会让整套 eval 变得脆弱、动不动就红。只有当被评的属性真的是硬底线时(比如”回复不能编造账户信息”),才用 .gate()。