Everything-claude-code-zh cost-aware-llm-pipeline

LLM API 使用成本优化模式——基于任务复杂度的模型路由、预算跟踪、重试逻辑和提示词缓存。

install

source · Clone the upstream repo

git clone https://github.com/xu-xiang/everything-claude-code-zh

Claude Code · Install into ~/.claude/skills/

T=$(mktemp -d) && git clone --depth=1 https://github.com/xu-xiang/everything-claude-code-zh "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/cost-aware-llm-pipeline" ~/.claude/skills/xu-xiang-everything-claude-code-zh-cost-aware-llm-pipeline-54bfa1 && rm -rf "$T"

manifest: skills/cost-aware-llm-pipeline/SKILL.md

成本感知型 LLM 流水线 (Cost-Aware LLM Pipeline)

在保持质量的同时控制 LLM API 成本的模式。将模型路由 (Model Routing)、预算跟踪 (Budget Tracking)、重试逻辑 (Retry Logic) 和提示词缓存 (Prompt Caching) 组合成一个可复用的流水线。

何时启用

构建调用 LLM API（Claude、GPT 等）的应用
处理具有不同复杂度的批量项目
需要将 API 支出控制在预算范围内
在不牺牲复杂任务质量的前提下优化成本

核心概念

1. 基于任务复杂度的模型路由 (Model Routing)

为简单任务自动选择更便宜的模型，将昂贵的模型留给复杂任务。

MODEL_SONNET = "claude-sonnet-4-6"
MODEL_HAIKU = "claude-haiku-4-5-20251001"

_SONNET_TEXT_THRESHOLD = 10_000  # 字符数阈值
_SONNET_ITEM_THRESHOLD = 30     # 项目数阈值

def select_model(
    text_length: int,
    item_count: int,
    force_model: str | None = None,
) -> str:
    """根据任务复杂度选择模型。"""
    if force_model is not None:
        return force_model
    if text_length >= _SONNET_TEXT_THRESHOLD or item_count >= _SONNET_ITEM_THRESHOLD:
        return MODEL_SONNET  # 复杂任务
    return MODEL_HAIKU  # 简单任务 (便宜 3-4 倍)

2. 不可变成本跟踪 (Immutable Cost Tracking)

使用冻结的数据类 (Frozen Dataclasses) 跟踪累计支出。每次 API 调用都会返回一个新的跟踪器——绝不修改原始状态。

from dataclasses import dataclass

@dataclass(frozen=True, slots=True)
class CostRecord:
    model: str
    input_tokens: int
    output_tokens: int
    cost_usd: float

@dataclass(frozen=True, slots=True)
class CostTracker:
    budget_limit: float = 1.00
    records: tuple[CostRecord, ...] = ()

    def add(self, record: CostRecord) -> "CostTracker":
        """返回添加了新记录的新跟踪器 (绝不修改自身状态)。"""
        return CostTracker(
            budget_limit=self.budget_limit,
            records=(*self.records, record),
        )

    @property
    def total_cost(self) -> float:
        return sum(r.cost_usd for r in self.records)

    @property
    def over_budget(self) -> bool:
        return self.total_cost > self.budget_limit

3. 精细化重试逻辑 (Narrow Retry Logic)

仅在瞬时错误 (Transient Errors) 时重试。对身份验证或错误请求执行快速失败 (Fail Fast)。

from anthropic import (
    APIConnectionError,
    InternalServerError,
    RateLimitError,
)

_RETRYABLE_ERRORS = (APIConnectionError, RateLimitError, InternalServerError)
_MAX_RETRIES = 3

def call_with_retry(func, *, max_retries: int = _MAX_RETRIES):
    """仅在瞬时错误时重试，其他错误立即报错。"""
    for attempt in range(max_retries):
        try:
            return func()
        except _RETRYABLE_ERRORS:
            if attempt == max_retries - 1:
                raise
            time.sleep(2 ** attempt)  # 指数退避 (Exponential backoff)
    # AuthenticationError, BadRequestError 等 -> 立即抛出异常

4. 提示词缓存 (Prompt Caching)

缓存较长的系统提示词 (System Prompts)，避免在每次请求时重复发送。

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": system_prompt,
                "cache_control": {"type": "ephemeral"},  # 缓存此内容
            },
            {
                "type": "text",
                "text": user_input,  # 变量部分
            },
        ],
    }
]

组合使用

在单个流水线函数中组合所有四项技术：

def process(text: str, config: Config, tracker: CostTracker) -> tuple[Result, CostTracker]:
    # 1. 路由模型
    model = select_model(len(text), estimated_items, config.force_model)

    # 2. 检查预算
    if tracker.over_budget:
        raise BudgetExceededError(tracker.total_cost, tracker.budget_limit)

    # 3. 带重试与缓存的调用
    response = call_with_retry(lambda: client.messages.create(
        model=model,
        messages=build_cached_messages(system_prompt, text),
    ))

    # 4. 跟踪成本 (不可变模式)
    record = CostRecord(model=model, input_tokens=..., output_tokens=..., cost_usd=...)
    tracker = tracker.add(record)

    return parse_result(response), tracker

价格参考 (2025-2026)

模型	输入 ($/1M tokens)	输出 ($/1M tokens)	相对成本
Haiku 4.5	$0.80	$4.00	1x
Sonnet 4.6	$3.00	$15.00	~4x
Opus 4.5	$15.00	$75.00	~19x

最佳实践

从最便宜的模型开始，仅在达到复杂度阈值时路由到昂贵模型。
在批量处理前设置明确的预算限制——宁愿提前失败也不要超支。
记录模型选择决策，以便根据真实数据调整阈值。
为超过 1024 tokens 的系统提示词使用提示词缓存——既能节省成本又能降低延迟。
绝不在身份验证或校验错误时重试——仅重试瞬时故障（网络、频率限制、服务器错误）。

应避免的反模式 (Anti-Patterns)

不分复杂度，对所有请求都使用最昂贵的模型。
对所有错误进行重试（在永久性失败上浪费预算）。
修改成本跟踪状态（增加调试和审计难度）。
在整个代码库中硬编码模型名称（应使用常量或配置）。
忽视对重复系统提示词的提示词缓存。

使用场景

任何调用 Claude、OpenAI 或类似 LLM API 的应用。
成本累积迅速的批量处理流水线。
需要智能路由的多模型架构。
需要预算安全护栏 (Guardrails) 的生产系统。