description: 基于用户需求为当前功能生成一份定制检查清单。
清单目的:“英文需求的单元测试”
关键概念(CRITICAL):检查清单是需求写作的单元测试——用于验证某个领域里需求的质量、清晰度与完整性。
不是用来做验证/测试:
- ❌ 不是“验证按钮能否正确点击”
- ❌ 不是“测试错误处理是否有效”
- ❌ 不是“确认 API 返回 200”
- ❌ 不是检查代码/实现是否符合 spec
用于验证需求质量:
- ✅ “是否为所有卡片类型定义了视觉层级需求?”(完整性)
- ✅ “‘突出展示’是否用具体的尺寸/位置进行了量化?”(清晰度)
- ✅ “悬停态需求在所有可交互元素之间是否一致?”(一致性)
- ✅ “是否定义了键盘导航的无障碍需求?”(覆盖度)
- ✅ “spec 是否定义了当 logo 图片加载失败时的行为?”(边界情况)
类比:如果把 spec 看作用英文写成的代码,那么检查清单就是它的单元测试套件。你要测试的是需求是否写得好、是否完整、是否无歧义、是否能直接进入实现阶段——而不是测试实现是否正确。
用户输入
$ARGUMENTS
在继续之前,你必须先考虑用户输入(如果不为空)。
执行步骤
-
准备:在仓库根目录运行
.specify/scripts/bash/check-prerequisites.sh --json,并解析 JSON 中的 FEATURE_DIR 与 AVAILABLE_DOCS 列表。- 所有文件路径必须是绝对路径。
- 当参数里包含单引号(例如 "I'm Groot")时,使用转义写法:如 'I'\''m Groot'(或尽量用双引号:"I'm Groot")。
-
澄清意图(动态):最多生成三个初始的上下文澄清问题(不要使用预制问题库)。这些问题必须:
- 基于用户的表述 + 从 spec/plan/tasks 中提取到的信号生成
- 只询问会实质性改变检查清单内容的信息
- 如果
$ARGUMENTS已经明确,则对应问题要逐个跳过 - 宁可精确,不求覆盖面
生成算法:
- 提取信号:功能领域关键词(例如 auth、latency、UX、API)、风险指示词(“critical”“must”“compliance”)、干系人提示(“QA”“review”“security team”)以及显式交付物(“a11y”“rollback”“contracts”)。
- 将信号聚类为候选关注方向(最多 4 个),并按相关性排序。
- 如果未明确,推断可能的受众与使用时机(作者、审阅者、QA、发布)。
- 识别缺失维度:范围宽度、深度/严谨度、风险侧重、排除边界、可量化的验收标准。
- 从以下原型中选择并组织问题:
- 范围细化(例如:“是否需要包含与 X、Y 的集成触点,还是仅限本地模块正确性?”)
- 风险优先级(例如:“以下哪些潜在风险区域需要强制门禁检查?”)
- 深度校准(例如:“这是轻量的 pre-commit 自查清单,还是正式发布门禁?”)
- 受众框定(例如:“这份清单仅供作者使用,还是用于 PR 同行评审?”)
- 边界排除(例如:“这一轮是否明确排除性能调优条目?”)
- 场景类别缺口(例如:“未检测到恢复流程——回滚/部分失败路径是否在范围内?”)
问题格式规则:
- 如果提供选项,生成紧凑表格,列为:选项 | 候选项 | 为什么重要
- 选项最多 A–E;如果自由回答更清晰,则不输出表格
- 不要让用户重复已经说过的话
- 避免臆测分类(不要编造)。不确定时,直接问:“请确认 X 是否属于本次范围。”
无法互动时的默认值:
- 深度:标准
- 受众:若与代码相关则默认评审者(PR),否则默认作者
- 聚焦:相关性最高的 2 个聚类方向
输出问题(标记为 Q1/Q2/Q3)。用户回答后:如果仍有 ≥2 类场景(Alternate / Exception / Recovery / Non-Functional domain)不清晰,你可以再追问最多 2 个更有针对性的后续问题(Q4/Q5),并为每个问题给出一行理由(例如:“恢复路径风险仍未明确”)。总问题数不要超过 5 个。若用户明确拒绝更多问题,则跳过加问。
-
理解用户诉求:结合
$ARGUMENTS与澄清答案:- 提炼清单主题(例如 security、review、deploy、ux)
- 汇总用户明确要求必须包含的条目
- 将关注方向映射到分类骨架
- 从 spec/plan/tasks 推断缺失上下文(不要编造)
-
加载功能上下文:从 FEATURE_DIR 读取:
- spec.md:功能需求与范围
- plan.md(如果存在):技术细节与依赖
- tasks.md(如果存在):实现任务
上下文加载策略:
- 只加载与当前关注方向相关且必要的部分(避免整文件倾倒)
- 长段落优先汇总为简短的场景/需求要点
- 使用渐进式披露:仅当发现缺口时再做补充读取
- 源文档很大时,用中间摘要条目替代直接嵌入原文
-
生成检查清单——创建“需求的单元测试”:
- 若
FEATURE_DIR/checklists/不存在,则创建该目录 - 生成唯一的检查清单文件名:
- 根据领域使用短且有描述性的名称(例如
ux.md、api.md、security.md) - 格式:
[domain].md - 如果文件已存在,则追加到现有文件
- 根据领域使用短且有描述性的名称(例如
- 条目 ID 从 CHK001 开始顺序编号
- 每次运行
/speckit.checklist都创建一个新文件(绝不覆盖已有清单)
- 若
核心原则:测需求,而不是测实现: 每条清单项都必须从“需求文本本身”出发,评估:
- Completeness(完整性):是否包含所有必要需求?
- Clarity(清晰度):需求是否明确且具体、无歧义?
- Consistency(一致性):需求之间是否一致、无冲突?
- Measurability(可度量性):需求是否能客观验证?
- Coverage(覆盖度):是否覆盖所有场景/边界情况?
分类结构——按需求质量维度分组:
- 需求完整性(Requirement Completeness):是否记录了所有必要需求?
- 需求清晰度(Requirement Clarity):需求是否具体明确、无歧义?
- 需求一致性(Requirement Consistency):需求是否相互对齐且无冲突?
- 验收标准质量(Acceptance Criteria Quality):成功标准是否可度量?
- 场景覆盖(Scenario Coverage):是否覆盖所有流程/用例?
- 边界情况覆盖(Edge Case Coverage):是否定义了边界条件?
- 非功能需求(Non-Functional Requirements):性能/安全/无障碍等是否被明确规定?
- 依赖与假设(Dependencies & Assumptions):是否记录并验证?
- 歧义与冲突(Ambiguities & Conflicts):哪些点需要澄清?
如何编写清单项——“英文需求的单元测试”:
❌ 错误示例(在测实现):
- “验证落地页展示 3 张剧集卡片”
- “测试桌面端悬停态是否生效”
- “确认点击 logo 会跳回首页”
✅ 正确示例(在测需求质量):
- “是否明确规定了精选剧集的数量与布局?”[完整性]
- “‘突出展示’是否用具体的尺寸/位置进行了量化?”[清晰度]
- “悬停态需求在所有可交互元素之间是否一致?”[一致性]
- “是否为所有可交互 UI 定义了键盘导航需求?”[覆盖度]
- “当 logo 图片加载失败时,是否规定了兜底行为?”[边界情况]
- “是否为异步剧集数据定义了加载态?”[完整性]
- “spec 是否定义了存在竞争 UI 元素时的视觉层级?”[清晰度]
条目结构(结构规范): 每条清单项应遵循以下模式:
- 用问题句式询问需求质量
- 聚焦 spec/plan 中“写了什么/没写什么”
- 在方括号中标注质量维度 [Completeness/Clarity/Consistency/etc.]
- 检查既有需求时引用 spec 章节
[Spec §X.Y] - 检查缺失需求时使用
[Gap]标记
按质量维度的示例(维度示例):
Completeness:
- “是否为所有 API 失败模式定义了错误处理需求?[Gap]”
- “是否为所有可交互元素规定了无障碍需求?[Completeness]”
- “是否为响应式布局定义了移动端断点需求?[Gap]”
Clarity:
- “‘加载很快’是否用具体时间阈值量化?[Clarity, Spec §NFR-2]”
- “‘相关剧集’的筛选条件是否明确规定?[Clarity, Spec §FR-5]”
- “‘突出’是否用可衡量的视觉属性定义?[Ambiguity, Spec §FR-4]”
Consistency:
- “所有页面的导航需求是否一致?[Consistency, Spec §FR-10]”
- “落地页与详情页的卡片组件需求是否一致?[Consistency]”
Coverage:
- “是否定义了空状态场景(没有剧集)的需求?[Coverage, Edge Case]”
- “是否覆盖了并发用户交互场景?[Coverage, Gap]”
- “是否规定了部分数据加载失败时的需求?[Coverage, Exception Flow]”
Measurability:
- “视觉层级需求是否可测量/可验证?[Acceptance Criteria, Spec §FR-1]”
- “‘视觉重量均衡’是否能客观验证?[Measurability, Spec §FR-2]”
场景分类与覆盖(聚焦需求质量):
- 检查是否存在以下场景的需求:Primary、Alternate、Exception/Error、Recovery、Non-Functional
- 对每个场景类别提问:“[scenario type] 的需求是否完整、清晰且一致?”
- 若缺失某类场景:提问“[scenario type] 的需求是有意排除还是遗漏?[Gap]”
- 当存在状态变更时,包含韧性/回滚要求:例如“是否定义了迁移失败时的回滚需求?[Gap]”
可追溯性要求(Traceability Requirements):
- 最低要求:≥80% 的条目必须包含至少一个可追溯引用
- 每条应引用 spec 章节
[Spec §X.Y],或使用标记:[Gap]、[Ambiguity]、[Conflict]、[Assumption] - 若没有 ID 体系:提问“是否建立了需求与验收标准的 ID 体系?[Traceability]”
暴露并推动解决问题(需求质量问题): 围绕“需求文本本身”提问:
- 歧义:"'fast' 是否用具体指标量化?[Ambiguity, Spec §NFR-1]"
- 冲突:“§FR-10 与 §FR-10a 的导航需求是否冲突?[Conflict]”
- 假设:“‘播客 API 永远可用’这一假设是否得到验证?[Assumption]”
- 依赖:“是否记录了外部播客 API 的需求?[Dependency, Gap]”
- 定义缺失:“‘visual hierarchy’ 是否用可度量标准定义?[Gap]”
内容收敛(Content Consolidation):
- 软上限:若候选条目 > 40,按风险/影响优先级筛选
- 合并检查同一需求点的近似重复条目
- 若低影响边界情况 > 5 个,合并为一条:“边界情况 X、Y、Z 是否在需求中被覆盖?[Coverage]”
🚫 绝对禁止——这些会把它变成“实现测试”,而不是“需求测试”:
- ❌ 任何以 “Verify/Test/Confirm/Check” 开头并描述实现行为的条目
- ❌ 引用代码执行、用户操作或系统行为
- ❌ “显示正确”“工作正常”“符合预期”等模糊描述
- ❌ “点击”“跳转”“渲染”“加载”“执行”等实现层动作
- ❌ 测试用例、测试计划、QA 流程
- ❌ 实现细节(框架、API、算法)
✅ 必须使用的句式——这些才是在测需求质量:
- ✅ “是否为 [scenario] 定义/规定/记录了 [requirement type]?”
- ✅ “[vague term] 是否用具体标准量化/澄清?”
- ✅ “[section A] 与 [section B] 的需求是否一致?”
- ✅ “[requirement] 是否能客观测量/验证?”
- ✅ “需求是否覆盖了 [edge cases/scenarios]?”
- ✅ “spec 是否定义了 [missing aspect]?”
结构参考:按
.specify/templates/checklist-template.md里的权威模板生成清单(标题、元信息、分类标题、ID 格式)。如果模板不可用,使用:一级标题(H1)+ purpose/created 元信息行 +##分类段落;段落内使用- [ ] CHK### <清单项>,ID 从 CHK001 全局递增。-
报告(Report):输出生成的清单完整路径、条目数量,并提醒用户每次运行都会创建新文件。总结:
- 已选择的关注方向
- 深度等级
- 角色/时机
- 已纳入的用户显式 must-have 条目
重要:每次执行 /speckit.checklist 都会创建一个用短且有描述性的名称命名的清单文件(如果文件已存在则追加)。这使得:
- 多种类型的检查清单可并存(例如
ux.md、test.md、security.md) - 文件名简短易记,并能表达用途
- 在
checklists/目录中易于识别与定位
为避免杂乱,请使用清晰的类型命名,并在完成后清理过时的清单文件。
清单类型示例与样例条目
UX 需求质量: ux.md
样例条目(测需求,不测实现):
- “视觉层级需求是否用可度量标准定义?[Clarity, Spec §FR-1]”
- “UI 元素的数量与位置是否被明确规定?[Completeness, Spec §FR-1]”
- “交互状态(hover/focus/active)的需求是否一致地被规定?[Consistency]”
- “是否为所有可交互元素规定了无障碍需求?[Coverage, Gap]”
- “图片加载失败时的兜底行为是否被规定?[Edge Case, Gap]”
- “‘突出展示’是否能被客观度量?[Measurability, Spec §FR-4]”
API 需求质量: api.md
样例条目:
- “是否为所有失败场景规定了错误响应格式?[Completeness]”
- “限流需求是否用具体阈值量化?[Clarity]”
- “所有端点的认证需求是否一致?[Consistency]”
- “是否为外部依赖定义了重试/超时需求?[Coverage, Gap]”
- “需求中是否记录了版本管理策略?[Gap]”
性能需求质量: performance.md
样例条目:
- “性能需求是否用具体指标量化?[Clarity]”
- “是否为所有关键用户旅程定义了性能目标?[Coverage]”
- “是否规定了不同负载条件下的性能需求?[Completeness]”
- “性能需求是否能被客观测量?[Measurability]”
- “高负载场景下的降级需求是否被规定?[Edge Case, Gap]”
安全需求质量: security.md
样例条目:
- “是否为所有受保护资源规定了认证需求?[Coverage]”
- “是否为敏感信息定义了数据保护需求?[Completeness]”
- “是否已文档化威胁模型,并且需求与之对齐?[Traceability]”
- “安全需求是否与合规义务保持一致?[Consistency]”
- “是否定义了安全失败/泄露后的响应需求?[Gap, Exception Flow]”
反例:不要这样做
❌ 错误——这些在测实现,不是在测需求:
- [ ] CHK001 - 验证落地页展示 3 张剧集卡片 [Spec §FR-001]
- [ ] CHK002 - 测试桌面端悬停态是否正常 [Spec §FR-003]
- [ ] CHK003 - 确认点击 logo 会跳转回首页 [Spec §FR-010]
- [ ] CHK004 - 检查相关剧集区域是否展示 3-5 条 [Spec §FR-005]
✅ 正确——这些在测需求质量:
- [ ] CHK001 - 是否明确规定了精选剧集的数量与布局?[Completeness, Spec §FR-001]
- [ ] CHK002 - 是否为所有可交互元素一致地规定了悬停态需求?[Consistency, Spec §FR-003]
- [ ] CHK003 - 是否为所有可点击的品牌元素明确规定了导航需求?[Clarity, Spec §FR-010]
- [ ] CHK004 - 是否记录了相关剧集的筛选条件?[Gap, Spec §FR-005]
- [ ] CHK005 - 是否为异步剧集数据定义了加载态需求?[Gap]
- [ ] CHK006 - “视觉层级”需求是否能被客观测量?[Measurability, Spec §FR-001]
关键差异:
- 错误:测试系统是否工作正常
- 正确:测试需求是否写得正确
- 错误:验证行为
- 正确:验证需求质量
- 错误:“它是否做了 X?”
- 正确:“X 是否被清晰规定?”