Eval harness - Comet

Comet 的 eval harness 真实位于 Comet 仓库的 eval/ 目录。comet eval 封装了启动路径、任务发现、profile、report config 和 quick smoke。

collect 和 run

命令	是否执行模型任务	用途
`collect`	否	验证 manifest、task、profile 和路径
`run`	是	执行真实评估并生成报告

manifest 模式

comet eval collect --manifest ./generated-skill/comet/eval.yaml
comet eval run --manifest ./generated-skill/comet/eval.yaml --html

manifest 通常由 /comet-any 生成，包含目标 Skill、profile、推荐任务、预期产物和交互配置。

skill-path 模式

comet eval run --skill-path ./my-skill --skill-name my-skill --quick

它适合早期冒烟。默认 quick smoke 是 generic-skill-smoke。

失败归因

报告会帮助区分：

harness: 环境、依赖、Docker、路径或 harness 问题。
workflow: Skill 流程没达到预期。
task: 任务定义或 fixture 问题。
model: 模型行为不稳定或工具使用问题。

评估系统概览

读取评估报告