跳转到主要内容
Comet 有两类 eval。名字相似,但用途不同。

对比

命令评估对象适合问题
comet eval runSkill 包或 comet/eval.yaml这个 Skill 能不能通过产品级评估
comet skill eval某次 deterministic Engine Run这个 Run 是否缺 artifact 或状态

comet skill eval 示例

comet skill run my-skill --run-id demo-run
comet skill resume --run-id demo-run --status succeeded --summary "完成"
comet skill eval --run-id demo-run --scope completion

什么时候需要 runtime eval

  • Skill 有多步骤状态。
  • 需要 pending action 和 resume。
  • 需要检查 artifact 是否存在。
  • 需要 guardrails 或恢复语义。
准备发布 Skill 时,不要只跑 comet skill eval。发布 readiness 需要通用 comet eval 证据。