如果你需要 eval 你的 Claude Code / Codex 插件
适合插件、Hook、MCP server 和项目级 coding-agent 扩展。
如果你需要 eval 你的 Claude Code / Codex Skill
适合验证 Skill 是否被触发、是否按流程执行、是否真的提升任务成功率。
如果你需要 eval 你的 AI Agent 应用
适合 HTTP agent、AI SDK、LangGraph、Pi 或自研 agent 服务。
Documentation Index
Fetch the complete documentation index at: /docs/llms.txt
Use this file to discover all available pages before exploring further.
安装
READ https://raw.githubusercontent.com/CorrectRoadH/niceeval/refs/heads/main/INIT.md and install niceeval for this repo.
name: evals
on: [pull_request]
jobs:
evals:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v4
- uses: actions/setup-node@v4
- run: npm ci
- run: npx niceeval exp ci --sandbox docker --strict