install
source · Clone the upstream repo
git clone https://github.com/seaworld008/Commonly-used-high-value-skills
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/seaworld008/Commonly-used-high-value-skills "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/ai-agent-platform/self-improving-agent" ~/.claude/skills/seaworld008-commonly-used-high-value-skills-self-improving-agent-523bd2 && rm -rf "$T"
manifest:
skills/ai-agent-platform/self-improving-agent/SKILL.mdsource content
Self Improving Agent
用于需要长期运行、持续学习和策略改进的 Agent 工作流。Self Improving Agent 核心逻辑在于“闭环进化”:它不仅执行任务,还会观察执行结果、收集反馈,并据此修改自身的 Prompts、工具调用链或决策权重,从而在下一次类似任务中表现得更好。
安装
npx clawhub@latest install self-improving-agent
使用场景
- 长周期自动化任务:如持续了一年的行业研报分析,Agent 能在月度总结中识别出之前的漏项并自动修正抓取逻辑。
- 重复任务中的策略优化:在频繁的 PR 审查或 Bug 修复中,Agent 会根据开发者的修正意见(Review Comments)动态调整自身的代码规范检测强度。
- 基于历史反馈的行为修正:如果用户多次指出 Agent 说话太啰嗦,它会自我更新
为更简洁的风格。System Prompt - 动态知识库维护:当现有的
知识过时或发生冲突时,Agent 主动发起“知识清洗”任务。MEMORY.md - 环境自适应部署:当从本地部署环境迁移到云端容器环境时,Agent 自动学习新的 API 端点和资源限制策略。
触发条件 / When to Use
- 任务失败后的复盘阶段:当一个复杂任务(如 CI/CD 流水线构建)连续失败 3 次,Agent 自动唤起
进行根因分析。self-improving-agent - 显式用户批评/点赞:当用户输入包含强烈的负面情绪或明确的指正(“别再用这个库了”)时。
- 性能/效率瓶颈期:检测到单次任务 Token 消耗过大或耗时异常增长时,主动寻找优化路径。
- 定期维护计划 (Scheduled Optimization):通过
技能每周执行一次自我诊断(Self-Diagnostics)。cron
核心能力 / Core Capabilities
1. 执行与观测 (Execution & Observation)
- 操作步骤:
- 启动目标任务(Target Task)。
- 启动后台日志收集器,记录所有的中间决策点、API 返回值和潜在错误(Error Logs)。
- 捕获最终产出物的“质量得分”(可以是用户的点赞,也可以是 Linter 的通过率)。
- 最佳实践:使用
技能运行长任务时,实时重定向process
到审计文件。stderr
2. 反射与归因 (Reflection & Attribution)
- 操作步骤:
- 调用
查找过去 10 次同类任务的成败记录。memory_search - 利用 LLM 深度对比:成功案例与失败案例在 Prompt 结构上有何区别?哪些工具调用是冗余的?
- 生成“改进策略草案”(Candidate Policy)。
- 调用
- 最佳实践:采用 A/B Testing 思想,在下一轮任务中仅改变 1 个变量。
3. Prompt/代码 动态修改 (Dynamic Modification)
- 操作步骤:
- 基于改进策略,使用
工具修改自身的edit
正文或SKILL.md
模板。System Prompt - 更新
中的“禁忌法则”和“成功套路”。MEMORY.md - 执行一次“模拟运行”以确认修改没有破坏基本功能。
- 基于改进策略,使用
- 最佳实践:修改前备份原始配置文件,并在
记录MEMORY.md
变更记录。diff
4. 知识固化与分发 (Knowledge Consolidation)
- 操作步骤:
- 将学到的新技能点(如某个冷门的 API 参数用法)沉淀为结构化的 JSON/Markdown 片段。
- 通过
将这些知识同步到共享知识库。mcp_call
常用命令/模板 / Common Patterns
自我优化日志模板 (Self-Improvement Log)
### 原始任务执行记录 (Execution Log) - **任务**: [生成 React 登录页面] - **结果**: [失败 - 样式丢失] - **反馈**: [用户反馈称样式未正确引入 Tailwind] ### 根因分析 (Root Cause) - **诊断**: 原始 Prompt 中未显式包含 `tailwind.config.js` 的引用建议。 - **关联记忆**: 3 天前在项目 B 中也遇到了同样的问题。 ### 优化决策 (Improvement Decision) - **行动**: 更新 `frontend-design` 技能的 `Core Capabilities` 模板。 - **变更点**: 强制要求在所有 React 渲染任务中包含 `style_framework_check` 步骤。 ### 下一步验证 (Verification) - [ ] 运行 `test-tailwind-render` 命令。 - [ ] 等待用户下一次 React 相关指令。
动态 Prompt 注入示例
// 示例:基于用户反馈动态调整说话风格 if (userFeedback.includes("concise")) { await mcp_call({ name: 'update_system_prompt', arguments: { modifier: "Always provide answers in bullet points, max 3 items." } }); }
进阶应用场景 / Advanced Use Cases
1. 自动重构循环
- Agent 持续监测代码库的重复率。一旦发现重复代码超过阈值,它会利用
逻辑生成重构方案,并在 PR 中提出“这是我根据之前的代码模式总结出的通用组件”。self-improving-agent
2. 销售话术/客服策略进化
- 在与客户的对话流中,Agent 会记录导致对话中断的节点,并自动调整后续的话术风格,直到找到最高转化率的路径。
边界与限制 / Boundaries
- 进化漂移 (Evolutionary Drift):长期的过度自我优化可能导致 Agent 行为偏离最初的设计初衷。建议设定“核心价值守卫者” (Guardrails) 防止过度修改。
- 资源浪费风险:自我复盘是一个高 Token 消耗的过程,应避免在琐碎的小任务上频繁触发优化逻辑。
- 配置覆盖风险:动态修改
可能覆盖用户的手工配置,需保留SKILL.md
机制。undo - 收敛速度:对于高度动态、不可预测的任务,Self-Improving 逻辑可能难以收敛,甚至产生错误的结论。
- 负反馈陷阱:如果不加辨别地吸收所有用户反馈,恶意或错误的反馈可能污染 Agent 的改进方向。
最佳实践总结
- 小步快跑:每次优化只改动一个最小逻辑单元。
- 保留追溯性:所有的进化过程必须在
中有迹可循。MEMORY.md - 设置审计阈值:关键策略的变更必须由人类(Human-in-the-loop)最终审批通过。
- 多样性评估:不仅要看当前任务是否成功,还要看修改后是否导致其他原本成功的任务失败(防止 Regression)。
- 记忆清理:过期的优化策略应定期“遗忘”,防止过时的经验干扰当前的决策。
- 分环境进化:开发环境大胆进化,生产环境稳健保守。