你需要什么
- 已经通过
/comet-any生成了一个 Skill,或 - 有一个本地 Skill 目录。
最短路径:两步评估
第一步:发现预检查
先确认 eval 能发现你的 Skill 和任务。这一步不消耗模型调用,成本最低:第二步:执行真实评估
确认发现没问题后,跑真实评估并生成可浏览的 HTML 报告:Report path,指向生成的报告。打开它看结果是否通过。
看报告只需要关注三点
- 评估是否通过 — 报告顶部或 CLI 输出会明确告诉你。
- 失败归因 — 如果没通过,看失败被归到
harness、workflow、task还是model,这决定了你该改什么。 - 报告位置 — 通常是
eval/local/logs/experiments/<experiment-id>/summary.html。
评估通过后做什么
评估通过的结果会成为/comet-any 发布前的证据。把结果交回 /comet-any 继续推进,或用 publish 命令检查 readiness:
常见问题
collect 报错说找不到 manifest
collect 报错说找不到 manifest
检查路径是否正确,确认
comet/eval.yaml 文件存在。如果你不在 Comet 仓库根目录,加上 --project <dir> 指向正确的根目录。run 报错说找不到报告
run 报错说找不到报告
看 CLI 输出的
Experiment 和 Report path。如果路径里有 <experiment-id>,用实际 experiment id 到 eval/local/logs/experiments/ 目录查找。我应该用 comet eval 还是 comet skill eval?
我应该用 comet eval 还是 comet skill eval?
评估一个 Skill 的产品能力能不能通过,用
comet eval。检查某次 Engine Run 是否缺 artifact 或状态,才用 comet skill eval。发布前证据只需要 comet eval。进阶内容
基础路径到这里就结束了。如果你需要更深入地理解评估系统,看这些页面:| 进阶主题 | 适合场景 |
|---|---|
| 评估系统概览 | 理解 eval 在 Skill 创建、验证、发布 readiness 中的位置 |
| Eval harness | 理解 collect/run 内部机制、profile、task 选择 |
| 读取评估报告 | 完整的失败归因、报告信号和下一步判断 |
| Runtime eval | 区分 comet eval 和 comet skill eval |
| comet eval 命令 | 完整选项、参数和故障排查参考 |

