跳转到主要内容
niceeval 是一个受eve启发的通用型 agent eval 工具。首先有非常优秀的 DX 设计,任何人可以在 10 分钟左右上手并配置。并且设计非常的通用。即可以用来 eval 给 Claude Code/Codex 写的 coding agent 的插件、Hook还有Skill。更可以直接 eval 自己的 AI Agent 框架(无论是基于 AI SDK、LangGraph、Pi还是什么接口都可以轻松接入)。

解决什么问题

  1. 太重,langfuse与bruist
  2. 非常友好的DX

你可以评什么

AI Agent

把 Claude Code、Codex、bub 放进 Sandbox,给它任务,再用真实测试和文件断言验证结果。

Web Agent

对任意运行中的 Web Agent 进行评估,断言回复、工具调用和结构化输出。

整体架构

   evals/*.eval.ts


   ┌─────────────────────┐
   │     niceeval        │
   └─────────────────────┘

        │ Agent 适配器(官方)

   ┌──────────────────────────────┐
   │        Docker Sandbox         │
   │   ┌────────────────────────┐  │
   │   │ Codex / Claude Code /  │  │
   │   │ 需要隔离工作区的应用    │  │
   │   └────────────────────────┘  │
   └──────────────────────────────┘
   evals/*.eval.ts


   ┌─────────────────────┐
   │     niceeval        │
   └─────────────────────┘

        │ Agent 适配器(官方,或者自己实现)

   ┌──────────────────────────────┐
   │       你自己的 Web Agent       │
   │   (HTTP / AI SDK·LangGraph·   │
   │    Pi 等自有框架,无需 Docker) │
   └──────────────────────────────┘

两种接入模式

Sandbox mode 适合 Codex、Claude Code 这类必须在真实文件系统中改代码、跑命令的 coding agent。 Direct mode 适合 Web Agent,不需要 Docker。

接下来读什么

快速开始 会带你安装 niceeval、构建 eval、得到 eval 报告。