eval/ 目录。comet eval 封装了启动路径、任务发现、profile、report config 和 quick smoke。
collect 和 run
| 命令 | 是否执行模型任务 | 用途 |
|---|---|---|
collect | 否 | 验证 manifest、task、profile 和路径 |
run | 是 | 执行真实评估并生成报告 |
manifest 模式
/comet-any 生成,包含目标 Skill、profile、推荐任务、预期产物和交互配置。
skill-path 模式
generic-skill-smoke。
失败归因
报告会帮助区分:harness: 环境、依赖、Docker、路径或 harness 问题。workflow: Skill 流程没达到预期。task: 任务定义或 fixture 问题。model: 模型行为不稳定或工具使用问题。

