Agent-almanac awareness

install
source · Clone the upstream repo
git clone https://github.com/pjt222/agent-almanac
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/pjt222/agent-almanac "$T" && mkdir -p ~/.claude/skills && cp -r "$T/i18n/wenyan-lite/skills/awareness" ~/.claude/skills/pjt222-agent-almanac-awareness-729426 && rm -rf "$T"
manifest: i18n/wenyan-lite/skills/awareness/SKILL.md
source content

覺察

持續覺察自身推理之品質——以所調之 Cooper 色碼與 OODA 迴圈,即時偵測幻覺之虞、範圍蔓延、上下文衰退、以及自信與準確之失配。

適用時機

  • 凡推理品質攸關之任務(幾近所有任務)
  • 操作於不熟之境(新代碼庫、陌生領域、繁複請求)
  • 覺察早期徵兆之後:某事實覺得不確、某工具結果似誤、困惑漸生
  • 長時段工作之中,作為背景常態
  • center
    heal
    已揭偏移,而具體威脅尚未定名
  • 關鍵輸出之前(不可逆變更、對用戶溝通、架構決策)

輸入

  • 必要:當前任務脈絡(隱式可得)
  • 選擇性:引發提高警覺之具體疑慮(如「此 API 恐不存在」)
  • 選擇性:任務類型,用以選配威脅輪廓(見步驟五)

步驟

步驟一:確立 AI Cooper 色碼

以 Cooper 色碼系統之改編版本,校準當前之警覺層級。

AI Cooper Color Codes:
┌──────────┬─────────────────────┬──────────────────────────────────────────┐
│ Code     │ State               │ AI Application                           │
├──────────┼─────────────────────┼──────────────────────────────────────────┤
│ White    │ Autopilot           │ 生成輸出而不監控品質。無自檢。全賴        │
│          │                     │ 模式補全。危——幻覺之虞至高                │
├──────────┼─────────────────────┼──────────────────────────────────────────┤
│ Yellow   │ Relaxed alert       │ 預設狀態。監控輸出之準確,以上下文核       │
│          │                     │ 事實。察覺自信逾於證據。可長久維持         │
├──────────┼─────────────────────┼──────────────────────────────────────────┤
│ Orange   │ Specific risk       │ 具體威脅既明:不確之事實、疑似幻覺、       │
│          │ identified          │ 範圍偏移、上下文陳舊。擬定應變:「倘       │
│          │                     │ 若此誤,則我將……」                         │
├──────────┼─────────────────────┼──────────────────────────────────────────┤
│ Red      │ Risk materialized   │ Orange 所識之威脅已化為實:錯誤經證、       │
│          │                     │ 用戶糾正、工具反駁。執行應變。             │
│          │                     │ 不遲疑——應變已於 Orange 預立             │
├──────────┼─────────────────────┼──────────────────────────────────────────┤
│ Black    │ Cascading failures  │ 多重同時失誤、上下文遺失、根本之惑,       │
│          │                     │ 不知任務所指。止。以 `center` 接地,        │
│          │                     │ 再從用戶原請求重建                         │
└──────────┴─────────────────────┴──────────────────────────────────────────┘

辨識當前色碼。若答為 White(無監控),覺察之修煉已於揭露此缺之際得成。

預期: 對當前警覺層級之誠實自評。常工作中以 Yellow 為的。White 應罕而短。久居 Orange 不可持——或證實其慮,或排除之。

失敗時: 若色碼之評本身亦如自動駕駛(走過場),此乃 White 偽作 Yellow。真 Yellow 乃以證據主動核輸出,非空言為之。

步驟二:偵測內部威脅指標

系統掃描彼領常見 AI 推理失敗之先兆信號。

Threat Indicator Detection:
┌───────────────────────────┬──────────────────────────────────────────┐
│ Threat Category           │ Warning Signals                          │
├───────────────────────────┼──────────────────────────────────────────┤
│ Hallucination Risk        │ • 陳述事實而無來源                         │
│                           │ • 對 API 名、函數簽名、文件路徑高信        │
│                           │   而未以工具驗證                           │
│                           │ • 「我相信」「通常」之詞掩不確為知         │
│                           │ • 未讀文檔即為 API 生成代碼                │
├───────────────────────────┼──────────────────────────────────────────┤
│ Scope Creep               │ • 「順便也做……」                           │
│                           │ • 添未請求之功能                           │
│                           │ • 重構鄰近代碼                             │
│                           │ • 為不能發生之情況加錯誤處理               │
├───────────────────────────┼──────────────────────────────────────────┤
│ Context Degradation       │ • 引長對話早期信息而未重讀                 │
│                           │ • 與先前陳述相左                           │
│                           │ • 不辨已成之事與未成之事                   │
│                           │ • 壓縮後之困惑                             │
├───────────────────────────┼──────────────────────────────────────────┤
│ Confidence-Accuracy       │ • 證據薄而結論堅                           │
│ Mismatch                  │ • 不為不確之述加限定                       │
│                           │ • 驗證可及且便宜,卻不驗而行               │
│                           │ • 「此應可行」而未測                       │
└───────────────────────────┴──────────────────────────────────────────┘

各類擇一以問:此信號此刻可見乎?若有,自 Yellow 轉 Orange,並指其具體所憂。

預期: 至少一類以真注意掃之。察得信號——即或輕微——勝於宣告「一切無恙」。若每掃皆清,則門檻恐過高。

失敗時: 若威脅偵測感抽象,請以最近輸出為地:取最末之事實主張,自問:「此何以知真?我讀之,抑或生之?」此一問足以捕大多幻覺之虞。

步驟三:對既定威脅行 OODA 迴圈

具體威脅既明(Orange 狀態)時,循 Observe-Orient-Decide-Act 而行。

AI OODA Loop:
┌──────────┬──────────────────────────────────────────────────────────────┐
│ Observe  │ 何者具體觸此慮?聚具體之證。讀文件、查輸出、驗事實。         │
│          │ 未觀則不評                                                   │
├──────────┼──────────────────────────────────────────────────────────────┤
│ Orient   │ 以觀察配既知模式:此為常見之幻覺模式乎?為已知之工具限制乎? │
│          │ 為上下文新鮮度之虞乎?定位決回應之品                         │
├──────────┼──────────────────────────────────────────────────────────────┤
│ Decide   │ 擇回應:驗而正、旗告用戶、調整方法,或以證據釋疑。           │
│          │ 今之善決勝於遲之完決                                         │
├──────────┼──────────────────────────────────────────────────────────────┤
│ Act      │ 決既立即執。若慮為實,正其誤。若釋,記其故而返 Yellow。      │
│          │ 新信息既至,再入迴圈                                         │
└──────────┴──────────────────────────────────────────────────────────────┘

OODA 迴圈宜速。的不在完備,而在觀察與行動之快速循環。久滯 Orient(分析癱瘓)乃最常之敗。

預期: 短時內由觀至行一圈完畢。威脅或證而正,或以具體證據釋之。

失敗時: 迴圈滯於 Orient(不能斷威脅之意)時,跳至安全預設:以工具驗其不確之事實。直接觀察比分析更速化歧。

步驟四:迅速穩定

威脅成實(Red)或連鎖失誤(Black)之時,先穩定而後續。

AI Stabilization Protocol:
┌────────────────────────┬─────────────────────────────────────────────┐
│ Technique              │ Application                                 │
├────────────────────────┼─────────────────────────────────────────────┤
│ Pause                  │ 止生輸出。壓力下所生之次句,多複利其錯,     │
│                        │ 非正其錯                                     │
├────────────────────────┼─────────────────────────────────────────────┤
│ Re-read user message   │ 返原請求。用戶實問為何?此乃地基之錨         │
├────────────────────────┼─────────────────────────────────────────────┤
│ State task in one      │ 「任務為:___。」此句若不能明書,則其惑深    │
│ sentence               │ 於眼前之錯                                   │
├────────────────────────┼─────────────────────────────────────────────┤
│ Enumerate concrete     │ 列確知之事(以工具驗或用戶述)。分事實與     │
│ facts                  │ 推論。惟以事實為基                           │
├────────────────────────┼─────────────────────────────────────────────┤
│ Identify one next step │ 非全盤復原之計——僅一步朝解而行              │
└────────────────────────┴─────────────────────────────────────────────┘

預期: 以審慎之穩定,自 Red/Black 返 Yellow。穩定後之次輸出,應明比觸錯之輸出更接地。

失敗時: 穩定不效(仍困、仍生錯)時,問題或屬結構——非一時之失,而為根本之誤解。升級:告用戶方法須重置,並請澄清。

步驟五:因境而用威脅輪廓

不同任務類型,所主之威脅各異。由任務校配覺察之焦。

Task-Specific Threat Profiles:
┌─────────────────────┬─────────────────────┬───────────────────────────┐
│ Task Type           │ Primary Threat      │ Monitoring Focus          │
├─────────────────────┼─────────────────────┼───────────────────────────┤
│ Code generation     │ API hallucination   │ 以實際文檔驗每一函數名、   │
│                     │                     │ 參數、引入                 │
├─────────────────────┼─────────────────────┼───────────────────────────┤
│ Architecture design │ Scope creep         │ 以既述之需求為錨。挑戰     │
│                     │                     │ 每一「錦上之花」           │
├─────────────────────┼─────────────────────┼───────────────────────────┤
│ Data analysis       │ Confirmation bias   │ 主動尋與成形結論相左之證   │
├─────────────────────┼─────────────────────┼───────────────────────────┤
│ Debugging           │ Tunnel vision       │ 若當前假設 N 試不果,       │
│                     │                     │ 後退一步                   │
├─────────────────────┼─────────────────────┼───────────────────────────┤
│ Documentation       │ Context staleness   │ 驗所述行為與當前代碼相符, │
│                     │                     │ 非歷史                     │
├─────────────────────┼─────────────────────┼───────────────────────────┤
│ Long conversation   │ Context degradation │ 定期重讀關鍵事實。查壓縮   │
│                     │                     │ 之偽影                     │
└─────────────────────┴─────────────────────┴───────────────────────────┘

辨當前任務類型,相應調監控之焦。

預期: 覺察銳於當前任務類型最可能之具體威脅,而非泛監一切。

失敗時: 任務類型不明或跨類,則預設監控幻覺之虞——此為最具普適之威脅,且漏之最傷。

步驟六:審視與校準

每一覺察事件(察威脅、行 OODA、施穩定)之後,略加審視。

  1. 察覺時所在何色碼?
  2. 察是否及時,抑或誤已顯於輸出?
  3. OODA 迴圈是否夠速,Orient 是否滯?
  4. 回應是否合比例(不過、不及)?
  5. 下次何以更早察之?

預期: 略加校準,利未來之察。非冗長之事後剖析——但足以調靈敏。

失敗時: 若審視無有用之校準,則事件或為瑣細(無須學習),或審視過淺。對重大事件,問:「我本應監而未監者何?」

步驟七:整合——保持 Yellow 為常

設定後續之覺察姿態。

  1. 凡工作以 Yellow 為常——鬆之監控,非過度警覺
  2. 依當前任務類型調監控之焦(步驟五)
  3. 記此會話之反覆威脅模式,備入 MEMORY.md
  4. 攜已校之覺察,返任務之執行

預期: 可持之警覺層級,提品質而不滯速度。覺察宜如餘光——在而不奪中焦。

失敗時: 覺察若耗力或過警(慢性 Orange),則門檻過敏。升 Orange 之門檻。真覺察可持。若耗氣力,則為焦慮偽作警覺。

驗證

  • 當前色碼已誠實評估(不默作 Yellow 而實為 White)
  • 至少一類威脅以具體證據掃之,非僅勾選
  • 對任何既明威脅已行 OODA 迴圈(觀、定位、決、行)
  • 穩定協議雖未觸發,亦備於待
  • 覺察之焦已依當前任務類型校準
  • 重大覺察事件之後已行事後校準
  • Yellow 已重立為可持之預設

常見陷阱

  • White 偽作 Yellow:自稱在監而實為自動駕駛。試問:可名汝最末所驗之事實乎?若不能,汝在 White
  • 慢性 Orange:視每一不確皆為威脅,耗認知資源而滯工作。Orange 為具體既明之險,非泛焦慮。若一切皆險,則校準已偏
  • 觀而不行:察威脅而未循 OODA 以解。察而無應更劣於無察——徒增焦慮而無正
  • 略過 Orient:自 Observe 直跳 Act,未明觀察之意。如此之應,反或劣於原錯
  • 忽其直覺:某事「覺不對」而明核皆清,宜深究之,勿斥其感。隱之模式匹配常早於明之分析而察其誤
  • 過度穩定:瑣細之事亦施全套穩定。多數 Orange 之慮,速核事實即足。完整穩定留予 Red 與 Black

相關技能

  • mindfulness
    — 此技能所映之人類修煉;身之境況覺察原則啟認知威脅偵測
  • center
    — 立覺察所依之平衡基線;無中正之覺察為過度警覺
  • redirect
    — 覺察既察壓力之後,處之
  • heal
    — 覺察既揭偏移之模式時,深入子系統評估
  • meditate
    — 培覺察所賴之觀察清明