跳转到主要内容
关于 comet eval 评估系统、报告解读和发布证据的常见问题。

基础概念

comet eval 通过共享 eval harness 执行真实模型任务,验证一个 Skill 作为产品能力能不能通过评估,产出发布前证据。它封装了 pytest、task registry、profile、报告生成,你不需要手工拼参数。详见评估系统概览
comet eval 评估 Skill 的产品能力,产出发布前证据。comet skill eval 检查某次 Engine Run 是否缺 artifact 或状态,不执行模型任务,不产出发布证据。发布 readiness 只需要 comet eval。详见Runtime eval
不需要。comet eval 封装了底层细节,你只需要知道用 --manifest 还是 --skill-path。底层细节由 harness 处理。详见Eval harness

两种入口

comet/eval.yaml(通常是 /comet-any 生成物)用 --manifest,这是发布前完整评估。只有本地 Skill 目录、还在早期调试用 --skill-path --quick。要进入发布 readiness 必须用 --manifest。两者互斥。
--quick 配合 --skill-path 使用,默认选中 generic-skill-smoke task,适合低成本早期冒烟。它不等于发布前完整证据,准备发布时仍需走 manifest 路径。
collect 只做发现预检查(验证 manifest、task、路径),不消耗模型调用,成本最低,适合刚生成完 Skill 后排错。run 才执行真实评估。先 collect 能快速发现配置问题,避免浪费模型调用。详见快速上手

报告与失败

CLI 输出会打印 Report path,通常是 eval/local/logs/experiments/<experiment-id>/summary.html。如果路径里有 <experiment-id> 占位符,用同一段输出里的 Experiment 值对应查找。详见读取评估报告
看报告里的 failure attribution(失败归因)。harness 说明环境/依赖/路径问题,workflow 说明 Skill 流程没达预期,task 说明任务定义/fixture 问题,model 说明模型行为不稳定。归因决定你该改什么。详见读取评估报告
检查路径是否正确,确认 comet/eval.yaml 文件存在。如果不在 Comet 仓库根目录,加 --project <dir> 指向正确根目录。
model 归因说明模型行为或工具使用不稳定,重跑通常有效。如果反复失败,考虑降低 Skill 对非确定行为的依赖。

发布证据

Eval 通过只是条件之一。/comet-any 或后端会把 eval 证据纳入 readiness:没有证据、失败、对应旧 hash 都不能 publish。通过且 hash 匹配才能进入 review/publish。详见评估系统概览
说明 Skill 在上次评估后被修改了(draft hash 变了),旧评估结果不再有效。需要重新跑 comet eval run 生成绑定当前 hash 的证据。
不要。/comet-any 会通过 Bundle 后端记录结构化证据。手工编辑 Bundle 状态或内部 JSON 会破坏 hash 绑定和 readiness 校验。
不能。--skill-path --quick 只是早期冒烟,覆盖范围有限。发布前必须通过 /comet-any 生成 comet/eval.yaml,再用 --manifest 跑完整评估。