Skill 封装实战指南

1 为什么需要 Skill?

场景还原

把"询问模型能力是否完整"这个任务放大看,常见痛点:

痛点具体表现
重复解释每次评估都要重新写 prompt,描述背景和目标
遗漏项想到哪问到哪,容易漏掉关键能力点
无沉淀评估完了没有标准输出,下次从零开始
目标:把这个重复流程,经过参数化、规则化、结构化后,封装成一个一键运行的 Skill。

2 模型能力评估的本质

2.1 什么是"能力完整"?

不是"模型能不能答",而是在这个场景下能不能稳定、可预期地交付

维度检查点
任务理解能正确理解用户意图,不跑偏
知识覆盖不幻觉、不遗漏关键信息
推理能力复杂问题能拆解,逻辑不跳步
工具调用能按需正确使用外部能力 / Skill
输出稳定性每次结果结构一致,可复现
安全边界知道什么不能说、什么不能做

2.2 一次性提问 vs. 系统化评估

一次性提问系统化评估
输入"你能做数据分析吗?"数据类型 + 分析目标 + 输出格式
输出泛泛回答多维度结论 + 边界说明
可复现无法复现可重复、可对比

3 WorkBuddy Skill 基础

3.1 Skill 是什么?

把你和 WorkBuddy 对话中积累的经验,经过参数化、规则化、结构化后,封装成可持久复用的个人工具。


3.2 什么时候该封装成 Skill?

适合不适合
反复做的任务(周报、审计)一次性任务(查个数据)
纠正了 AI 多次的行为模式AI 本来就知道的知识
有通用价值、别人也能用纯项目配置/约定
需要固定输出格式纯聊天/问答场景
多步骤复杂流程一句话能说清的事

3.3 Skill 的核心 —— SKILL.md

SKILL.md 是 Skill 的灵魂,决定 AI 什么时候调用、怎么执行、输出什么。

SKILL.md 的格式

Frontmatter(头部元数据):

  • name:Skill 的唯一标识
  • description:触发词 + 场景描述(告诉 AI 什么时候用)

Markdown 正文(工作手册):

  • 角色定义:AI 在这个任务中扮演什么角色
  • 触发条件:什么情况下必须调用这个 Skill
  • 执行步骤:按什么顺序做、每一步做什么
  • 输出格式:结果的结构、样式、字段要求

以腾讯会议 Skill 的 description 为例:

description: 当用户需要预约或管理腾讯会议、查看参会人员、 查询会议录制或转写内容、获取智能纪要时使用;当用户访问录制 相关内容(下载地址/转写/智能纪要)出现无权限错误时,自动发起 录制权限申请流程。

作用:这段描述让 AI 精准判断"什么情况下该调用这个 Skill",而不是随便一句话就触发。


3.4 配套目录 —— 以腾讯会议 Skill 为例

tencent-meeting-skill/ ├── SKILL.md ← 核心(唯一必需) ├── references/ │ ├── api_references.md ← 工具调用方法、参数规则 │ └── error_dictionary.md ← 错误码对照表 ├── scripts/ │ ├── tencent_meeting.py ← 主入口:调用会议 API │ └── utils.py ← 工具函数:获取操作系统、校验 JSON └── _icon.png ← 静态资源(图标)

三者的定位:

📜 scripts/

可执行代码。AI 负责运行,比如调用会议 API、处理鉴权。

📚 references/

供 AI 阅读的文档。比如 error_dictionary.md 让 AI 遇到错误时不乱猜,而是查字典给出规范回答。

🖼 assets/

静态资源。_icon.png 是显示在 Skill 列表里的图标。

核心区别:scripts/ 是 AI 执行的代码,references/ 是 AI 阅读的知识,assets/ 是 AI 引用的资源。

3.5 四个设计模式 —— 以腾讯会议 Skill 为例

流水线 —— 任务拆成原子步骤,一步一验证

用户说"帮我查会议号 123456789 的录制",执行顺序:

  1. get_meeting_by_code → 9 位会议号转 meeting_id
  2. get_records_list → 查录制列表
  3. get_record_addresses → 获取下载地址

每一步完成才能进下一步,SKILL.md 明确写:"先通过 get_meeting_by_code 查询 meeting_id,再调用目标工具"

环境适配

utils.py 里的 get_os_name() 自动探测操作系统(macOS / Windows / Linux),通过 _client_info 参数传给 API,确保返回结果跟用户环境匹配。

安全性

自进化(雏形)

API 返回 401 鉴权失败 → AI 自动查阅 error_dictionary.md → 字典给出修复建议 → AI 告知用户"请重新配置 Token" → 用户配置好后再次执行成功。即"遇到错误 → 诊断 → 给出方案"的闭环。

4 实战演示

以"模型能力评估"为例,演示从一段对话到封装 Skill 的完整流程:

  1. 对 WorkBuddy 说:"帮我评估一下这个模型做文案生成的能力"
  2. 对话完成后说:"帮我把这个评估流程封装成一个 Skill"
  3. 或直接调用:skill-creator:"帮我创建一个模型能力评估 Skill"
  4. 检查生成的 SKILL.md,调整触发词和输出格式
  5. 测试:新对话中输入"评估模型能力",看是否正确加载
核心逻辑:AI 自动分析你刚才的完整对话流程,提取参数、规则、输出模板,写入 SKILL.md。你只需要测试和调整,不需要从零写代码。

5 测试与迭代

5.1 测试用例设计

类型示例
应该触发"检查这个模型的写作能力" / "帮我做一次模型能力评估"
不应该触发"推荐一个好用的 AI 模型" / "今天天气怎么样"
边界情况"这个模型还行吧?你帮我看看"(模糊表述,测试是否误触发)

5.2 迭代 Checklist

5.3 团队共享

6 总结

核心收获