为你的 Agent 项目设置评估

这个教程会从零开始创建一个最小 niceeval 项目，并展示三种常见 eval：进程内函数、对话 agent、沙箱里的 coding agent。如果你已经知道自己要评什么，可以直接从对应场景开始：

如果你需要 eval 你的 Claude Code / Codex 插件

适合插件、Hook、MCP server 和项目级 coding-agent 扩展。

如果你需要 eval 你的 Claude Code / Codex Skill

适合验证 Skill 是否被触发、是否按流程执行、是否真的提升任务成功率。

如果你需要 eval 你的 AI Agent 应用

适合 HTTP agent、AI SDK、LangGraph、Pi 或自研 agent 服务。

也可以把下面的指令直接交给你的 coding agent：

安装

READ https://raw.githubusercontent.com/CorrectRoadH/niceeval/refs/heads/main/INIT.md and install niceeval for this repo.

运行测试

pnpm exec niceeval exp 实验名

查看结果

npx niceeval view

放进 CI

name: evals
on: [pull_request]
jobs:
  evals:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-node@v4
      - run: npm ci
      - run: npx niceeval exp ci --sandbox docker --strict

接下来读编写 eval 和评分指南，把示例替换成你的真实场景。

niceeval: 面向 AI agents 和 LLMs 的 TypeScript eval 框架

Eval 你的 Claude Code / Codex 插件

如果你需要 eval 你的 Claude Code / Codex 插件

如果你需要 eval 你的 Claude Code / Codex Skill

如果你需要 eval 你的 AI Agent 应用

​放进 CI

放进 CI