niceeval: 面向 AI agents 和 LLMs 的 TypeScript eval 框架

niceeval 是一个受eve启发的通用型 agent eval 工具。首先有非常优秀的 DX 设计，任何人可以在 10 分钟左右上手并配置。并且设计非常的通用。即可以用来 eval 给 Claude Code/Codex 写的 coding agent 的插件、Hook还有Skill。更可以直接 eval 自己的 AI Agent 框架(无论是基于 AI SDK、LangGraph、Pi还是什么接口都可以轻松接入)。

解决什么问题

太重，langfuse与bruist
非常友好的DX

你可以评什么

AI Agent

把 Claude Code、Codex、bub 放进 Sandbox，给它任务，再用真实测试和文件断言验证结果。

Web Agent

对任意运行中的 Web Agent 进行评估，断言回复、工具调用和结构化输出。

整体架构

   evals/*.eval.ts
        │
        ▼
   ┌─────────────────────┐
   │     niceeval        │
   └─────────────────────┘
        │
        │ Agent 适配器(官方)
        ▼
   ┌──────────────────────────────┐
   │        Docker Sandbox         │
   │   ┌────────────────────────┐  │
   │   │ Codex / Claude Code /  │  │
   │   │ 需要隔离工作区的应用    │  │
   │   └────────────────────────┘  │
   └──────────────────────────────┘

   evals/*.eval.ts
        │
        ▼
   ┌─────────────────────┐
   │     niceeval        │
   └─────────────────────┘
        │
        │ Agent 适配器(官方，或者自己实现)
        ▼
   ┌──────────────────────────────┐
   │       你自己的 Web Agent       │
   │   (HTTP / AI SDK·LangGraph·   │
   │    Pi 等自有框架，无需 Docker) │
   └──────────────────────────────┘

两种接入模式

Sandbox mode 适合 Codex、Claude Code 这类必须在真实文件系统中改代码、跑命令的 coding agent。 Direct mode 适合 Web Agent，不需要 Docker。

接下来读什么

快速开始会带你安装 niceeval、构建 eval、得到 eval 报告。

为你的 Agent 项目设置评估

​解决什么问题

​你可以评什么