跳转到主要内容
本页是评估 Skill 的最短上手路径。只需要记两条命令,就能跑通一次评估。想了解完整机制、失败归因和报告解读,再看进阶内容

你需要什么

  • 已经通过 /comet-any 生成了一个 Skill,或
  • 有一个本地 Skill 目录。
如果你还没有 Skill,先看组合任意 Skill 快速上手

最短路径:两步评估

第一步:发现预检查

先确认 eval 能发现你的 Skill 和任务。这一步不消耗模型调用,成本最低:
comet eval collect --manifest ./generated-skill/comet/eval.yaml
如果输出没有报错,说明 manifest、路径和任务都能被正确发现。
只有本地 Skill 目录、还没有 comet/eval.yaml?用早期冒烟路径:
comet eval run --skill-path ./my-skill --skill-name my-skill --quick

第二步:执行真实评估

确认发现没问题后,跑真实评估并生成可浏览的 HTML 报告:
comet eval run --manifest ./generated-skill/comet/eval.yaml --html
运行后,CLI 会打印 Report path,指向生成的报告。打开它看结果是否通过。

看报告只需要关注三点

  1. 评估是否通过 — 报告顶部或 CLI 输出会明确告诉你。
  2. 失败归因 — 如果没通过,看失败被归到 harnessworkflowtask 还是 model,这决定了你该改什么。
  3. 报告位置 — 通常是 eval/local/logs/experiments/<experiment-id>/summary.html

评估通过后做什么

评估通过的结果会成为 /comet-any 发布前的证据。把结果交回 /comet-any 继续推进,或用 publish 命令检查 readiness:
comet publish status my-skill --project . --json
详见发布和分发 Skill

常见问题

检查路径是否正确,确认 comet/eval.yaml 文件存在。如果你不在 Comet 仓库根目录,加上 --project <dir> 指向正确的根目录。
看 CLI 输出的 ExperimentReport path。如果路径里有 <experiment-id>,用实际 experiment id 到 eval/local/logs/experiments/ 目录查找。
评估一个 Skill 的产品能力能不能通过,用 comet eval。检查某次 Engine Run 是否缺 artifact 或状态,才用 comet skill eval。发布前证据只需要 comet eval

进阶内容

基础路径到这里就结束了。如果你需要更深入地理解评估系统,看这些页面:
进阶主题适合场景
评估系统概览理解 eval 在 Skill 创建、验证、发布 readiness 中的位置
Eval harness理解 collect/run 内部机制、profile、task 选择
读取评估报告完整的失败归因、报告信号和下一步判断
Runtime eval区分 comet evalcomet skill eval
comet eval 命令完整选项、参数和故障排查参考