解决什么问题
- 太重,langfuse与bruist
- 非常友好的DX
你可以评什么
AI Agent
把 Claude Code、Codex、bub 放进 Sandbox,给它任务,再用真实测试和文件断言验证结果。
Web Agent
对任意运行中的 Web Agent 进行评估,断言回复、工具调用和结构化输出。
Documentation Index
Fetch the complete documentation index at: /docs/llms.txt
Use this file to discover all available pages before exploring further.
niceeval 是一个 TypeScript eval 库。用一套统一 API 评估 coding agents、HTTP 服务和进程内函数。
evals/*.eval.ts
│
▼
┌─────────────────────┐
│ niceeval │
└─────────────────────┘
│
│ Agent 适配器(官方)
▼
┌──────────────────────────────┐
│ Docker Sandbox │
│ ┌────────────────────────┐ │
│ │ Codex / Claude Code / │ │
│ │ 需要隔离工作区的应用 │ │
│ └────────────────────────┘ │
└──────────────────────────────┘
evals/*.eval.ts
│
▼
┌─────────────────────┐
│ niceeval │
└─────────────────────┘
│
│ Agent 适配器(官方,或者自己实现)
▼
┌──────────────────────────────┐
│ 你自己的 Web Agent │
│ (HTTP / AI SDK·LangGraph· │
│ Pi 等自有框架,无需 Docker) │
└──────────────────────────────┘