Comet 有两类 eval。名字相似,但用途不同。
| 命令 | 评估对象 | 适合问题 |
|---|
comet eval run | Skill 包或 comet/eval.yaml | 这个 Skill 能不能通过产品级评估 |
comet skill eval | 某次 deterministic Engine Run | 这个 Run 是否缺 artifact 或状态 |
comet skill eval 示例
comet skill run my-skill --run-id demo-run
comet skill resume --run-id demo-run --status succeeded --summary "完成"
comet skill eval --run-id demo-run --scope completion
什么时候需要 runtime eval
- Skill 有多步骤状态。
- 需要 pending action 和 resume。
- 需要检查 artifact 是否存在。
- 需要 guardrails 或恢复语义。
准备发布 Skill 时,不要只跑 comet skill eval。发布 readiness 需要通用 comet eval 证据。