跳转到主要内容
这个教程会从零开始创建一个最小 niceeval 项目,并展示三种常见 eval:进程内函数、对话 agent、沙箱里的 coding agent。 如果你已经知道自己要评什么,可以直接从对应场景开始:

如果你需要 eval 你的 Claude Code / Codex 插件

适合插件、Hook、MCP server 和项目级 coding-agent 扩展。

如果你需要 eval 你的 Claude Code / Codex Skill

适合验证 Skill 是否被触发、是否按流程执行、是否真的提升任务成功率。

如果你需要 eval 你的 AI Agent 应用

适合 HTTP agent、AI SDK、LangGraph、Pi 或自研 agent 服务。
也可以把下面的指令直接交给你的 coding agent:
1

安装

READ https://raw.githubusercontent.com/CorrectRoadH/niceeval/refs/heads/main/INIT.md and install niceeval for this repo.

2

运行测试

pnpm exec niceeval exp 实验名
3

查看结果

npx niceeval view

放进 CI

name: evals
on: [pull_request]
jobs:
  evals:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-node@v4
      - run: npm ci
      - run: npx niceeval exp ci --sandbox docker --strict
接下来读 编写 eval评分指南,把示例替换成你的真实场景。