跳转到主要内容
Comet 的 eval harness 真实位于 Comet 仓库的 eval/ 目录。comet eval 封装了启动路径、任务发现、profile、report config 和 quick smoke。

collect 和 run

命令是否执行模型任务用途
collect验证 manifest、task、profile 和路径
run执行真实评估并生成报告

manifest 模式

comet eval collect --manifest ./generated-skill/comet/eval.yaml
comet eval run --manifest ./generated-skill/comet/eval.yaml --html
manifest 通常由 /comet-any 生成,包含目标 Skill、profile、推荐任务、预期产物和交互配置。

skill-path 模式

comet eval run --skill-path ./my-skill --skill-name my-skill --quick
它适合早期冒烟。默认 quick smoke 是 generic-skill-smoke

失败归因

报告会帮助区分:
  • harness: 环境、依赖、Docker、路径或 harness 问题。
  • workflow: Skill 流程没达到预期。
  • task: 任务定义或 fixture 问题。
  • model: 模型行为不稳定或工具使用问题。