Skill 封装实战指南

1 为什么需要 Skill？

场景还原

把"询问模型能力是否完整"这个任务放大看，常见痛点：

痛点	具体表现
重复解释	每次评估都要重新写 prompt，描述背景和目标
遗漏项	想到哪问到哪，容易漏掉关键能力点
无沉淀	评估完了没有标准输出，下次从零开始

目标：把这个重复流程，经过参数化、规则化、结构化后，封装成一个一键运行的 Skill。

2 模型能力评估的本质

2.1 什么是"能力完整"？

不是"模型能不能答"，而是在这个场景下能不能稳定、可预期地交付。

维度	检查点
任务理解	能正确理解用户意图，不跑偏
知识覆盖	不幻觉、不遗漏关键信息
推理能力	复杂问题能拆解，逻辑不跳步
工具调用	能按需正确使用外部能力 / Skill
输出稳定性	每次结果结构一致，可复现
安全边界	知道什么不能说、什么不能做

2.2 一次性提问 vs. 系统化评估

	一次性提问	系统化评估
输入	"你能做数据分析吗？"	数据类型 + 分析目标 + 输出格式
输出	泛泛回答	多维度结论 + 边界说明
可复现	无法复现	可重复、可对比

3 WorkBuddy Skill 基础

3.1 Skill 是什么？

把你和 WorkBuddy 对话中积累的经验，经过参数化、规则化、结构化后，封装成可持久复用的个人工具。

3.2 什么时候该封装成 Skill？

适合	不适合
反复做的任务（周报、审计）	一次性任务（查个数据）
纠正了 AI 多次的行为模式	AI 本来就知道的知识
有通用价值、别人也能用	纯项目配置/约定
需要固定输出格式	纯聊天/问答场景
多步骤复杂流程	一句话能说清的事

3.3 Skill 的核心 —— SKILL.md

SKILL.md 是 Skill 的灵魂，决定 AI 什么时候调用、怎么执行、输出什么。

SKILL.md 的格式

Frontmatter（头部元数据）：

name：Skill 的唯一标识
description：触发词 + 场景描述（告诉 AI 什么时候用）

Markdown 正文（工作手册）：

角色定义：AI 在这个任务中扮演什么角色
触发条件：什么情况下必须调用这个 Skill
执行步骤：按什么顺序做、每一步做什么
输出格式：结果的结构、样式、字段要求

以腾讯会议 Skill 的 description 为例：

description: 当用户需要预约或管理腾讯会议、查看参会人员、
查询会议录制或转写内容、获取智能纪要时使用；当用户访问录制
相关内容（下载地址/转写/智能纪要）出现无权限错误时，自动发起
录制权限申请流程。

作用：这段描述让 AI 精准判断"什么情况下该调用这个 Skill"，而不是随便一句话就触发。

3.4 配套目录 —— 以腾讯会议 Skill 为例

tencent-meeting-skill/
├── SKILL.md                ← 核心（唯一必需）
├── references/
│   ├── api_references.md   ← 工具调用方法、参数规则
│   └── error_dictionary.md ← 错误码对照表
├── scripts/
│   ├── tencent_meeting.py  ← 主入口：调用会议 API
│   └── utils.py            ← 工具函数：获取操作系统、校验 JSON
└── _icon.png               ← 静态资源（图标）

三者的定位：

📜 scripts/

可执行代码。AI 负责运行，比如调用会议 API、处理鉴权。

📚 references/

供 AI 阅读的文档。比如 error_dictionary.md 让 AI 遇到错误时不乱猜，而是查字典给出规范回答。

🖼 assets/

静态资源。_icon.png 是显示在 Skill 列表里的图标。

核心区别：scripts/ 是 AI 执行的代码，references/ 是 AI 阅读的知识，assets/ 是 AI 引用的资源。

3.5 四个设计模式 —— 以腾讯会议 Skill 为例

流水线 —— 任务拆成原子步骤，一步一验证

用户说"帮我查会议号 123456789 的录制"，执行顺序：

get_meeting_by_code → 9 位会议号转 meeting_id
get_records_list → 查录制列表
get_record_addresses → 获取下载地址

每一步完成才能进下一步，SKILL.md 明确写："先通过 get_meeting_by_code 查询 meeting_id，再调用目标工具"。

环境适配

utils.py 里的 get_os_name() 自动探测操作系统（macOS / Windows / Linux），通过 _client_info 参数传给 API，确保返回结果跟用户环境匹配。

安全性

前置校验：修改或取消会议前，必须向用户确认
后置脱敏：报错时 AI 不能直接把原始错误抛给用户，先查 error_dictionary.md 按规范告知（如"鉴权失败，请重新配置 Token"）

自进化（雏形）

API 返回 401 鉴权失败 → AI 自动查阅 error_dictionary.md → 字典给出修复建议 → AI 告知用户"请重新配置 Token" → 用户配置好后再次执行成功。即"遇到错误 → 诊断 → 给出方案"的闭环。

4 实战演示

以"模型能力评估"为例，演示从一段对话到封装 Skill 的完整流程：

对 WorkBuddy 说："帮我评估一下这个模型做文案生成的能力"
对话完成后说："帮我把这个评估流程封装成一个 Skill"
或直接调用：skill-creator："帮我创建一个模型能力评估 Skill"
检查生成的 SKILL.md，调整触发词和输出格式
测试：新对话中输入"评估模型能力"，看是否正确加载

核心逻辑：AI 自动分析你刚才的完整对话流程，提取参数、规则、输出模板，写入 SKILL.md。你只需要测试和调整，不需要从零写代码。

5 测试与迭代

5.1 测试用例设计

类型	示例
应该触发	"检查这个模型的写作能力" / "帮我做一次模型能力评估"
不应该触发	"推荐一个好用的 AI 模型" / "今天天气怎么样"
边界情况	"这个模型还行吧？你帮我看看"（模糊表述，测试是否误触发）

5.2 迭代 Checklist

触发词是否准确，不会误触发也不会漏触发
输入参数是否完整，覆盖所有评估场景
评估维度是否覆盖目标场景
输出格式是否可直接使用（不需要二次加工）
是否区分了"能做"和"做得好"

5.3 团队共享

导出为压缩包（包含 SKILL.md + 所有子目录）
通过企业微信 / 网盘 / 内部知识库分享
作为团队数字资产沉淀，统一全员工作标准

6 总结

核心收获

模型能力评估不是"问一句"，而是"系统跑一遍"——6 个维度，统一定论
Skill 封装把评估过程从个人经验变成团队工具——参数化 + 规则化 + 结构化
持续迭代——根据新模型、新场景不断优化 Skill 内容