Awesome-omni-skill llm-evaluate

Evaluate LLM models for cost/performance ratio. Fetches current pricing and recommends optimal model for your use case. Use during project init or when optimizing costs.

install
source · Clone the upstream repo
git clone https://github.com/diegosouzapw/awesome-omni-skill
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/diegosouzapw/awesome-omni-skill "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/data-ai/llm-evaluate" ~/.claude/skills/diegosouzapw-awesome-omni-skill-llm-evaluate && rm -rf "$T"
manifest: skills/data-ai/llm-evaluate/SKILL.md
source content

LLM Model Evaluation

Evaluiert LLM-Modelle basierend auf aktuellem Preis/Leistungs-Verhältnis.


Wann nutzen?

  • Während
    /init-project
    bei der Komplexitätsbewertung
  • Bei Kosten-Optimierung bestehender Projekte
  • Wenn neue Modelle erscheinen (regelmäßig checken)
  • Vor größeren Production-Deployments

Step 1: Use Case verstehen

Falls kein Argument übergeben, frage:

Was ist dein Use Case?

Beispiele:
• "Chat-Bot für Kundenservice" (High-Volume, schnelle Antworten)
• "Dokumenten-Analyse" (Langer Context, Reasoning)
• "Code-Generierung" (Präzision wichtig)
• "GDPR-konforme EU-App" (Compliance)
• "Budget-Projekt" (Kosten minimieren)

Step 2: Aktuelle Preise holen

WICHTIG: Preise ändern sich häufig. Hole aktuelle Daten.

2.1 Web Search für aktuelle Preise

Suche nach aktuellen Preisen mit WebSearch:

Query: "[Provider] API pricing 2026"

Für jeden Provider:

  • Anthropic Claude pricing
  • OpenAI GPT pricing
  • Google Gemini pricing
  • DeepSeek pricing
  • xAI Grok pricing
  • Mistral pricing

2.2 Pricing Endpoints (falls verfügbar)

Einige Provider haben öffentliche Pricing-Pages:

ProviderPricing URL
Anthropichttps://www.anthropic.com/pricing
OpenAIhttps://openai.com/api/pricing
Googlehttps://ai.google.dev/pricing
DeepSeekhttps://platform.deepseek.com/api-docs/pricing
Mistralhttps://mistral.ai/technology/#pricing
xAIhttps://x.ai/api

2.3 Fallback: Cached Reference

Falls Web-Fetch fehlschlägt, nutze

.claude/reference/llm-configuration.md
als Fallback (aber weise auf möglicherweise veraltete Daten hin).


Step 3: Modelle bewerten

3.1 Bewertungskriterien

KriteriumGewichtungBeschreibung
Kosten30%Input + Output Tokens
Qualität30%Benchmark-Scores, Erfahrungswerte
Latenz20%Time to first token, Throughput
Context10%Max Context Window
Features10%Vision, Tools, Streaming

3.2 Use Case Mapping

Use CaseWichtigUnwichtig
Chat-BotLatenz, KostenContext
Dokument-AnalyseContext, QualitätLatenz
Code-GenQualitätKosten
High-VolumeKosten, LatenzQualität
GDPRComplianceKosten

Step 4: Empfehlung ausgeben

4.1 Empfehlungs-Template

┌─────────────────────────────────────────────────────────────────────────────┐
│  LLM EVALUATION - [Use Case]                                                │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  📅 Preise Stand: [Datum der Abfrage]                                       │
│                                                                             │
│  TOP 3 EMPFEHLUNGEN:                                                        │
│                                                                             │
│  🥇 #1: [Modell]                                                            │
│      Provider: [Provider]                                                   │
│      Input:    $[X]/1M tokens                                               │
│      Output:   $[X]/1M tokens                                               │
│      Context:  [X]K                                                         │
│      Score:    [X]/100 (basierend auf Use Case)                             │
│      Warum:    [Begründung]                                                 │
│                                                                             │
│  🥈 #2: [Modell]                                                            │
│      ...                                                                    │
│                                                                             │
│  🥉 #3: [Modell]                                                            │
│      ...                                                                    │
│                                                                             │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  KOSTEN-SCHÄTZUNG (bei 1M Requests/Monat, 1000 Tokens avg):                │
│                                                                             │
│  Modell #1: ~$[X]/Monat                                                     │
│  Modell #2: ~$[X]/Monat                                                     │
│  Modell #3: ~$[X]/Monat                                                     │
│                                                                             │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  FALLBACK-STRATEGIE:                                                        │
│                                                                             │
│  Primary:  [Modell #1]                                                      │
│  Fallback: [Modell #2]                                                      │
│  Budget:   [Modell #3]                                                      │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

4.2 Portkey Config generieren

Falls gewünscht, generiere die Portkey-Konfiguration:

// Empfohlene Portkey Konfiguration für [Use Case]
const config = {
  strategy: {
    mode: 'fallback',
  },
  targets: [
    { provider: '[primary]', model: '[model]' },
    { provider: '[fallback]', model: '[model]' },
  ],
  cache: {
    mode: 'semantic',
    ttl: 3600,
  },
};

Step 5: Dokumentation aktualisieren

Falls signifikante Preisänderungen gefunden wurden:

  1. Weise den User darauf hin
  2. Frage ob
    .claude/reference/llm-configuration.md
    aktualisiert werden soll
  3. Bei "Ja": Update die Preistabellen

Automatische Intervall-Checks

Weekly Reminder

Dieser Skill sollte regelmäßig genutzt werden:

Empfehlung: Führe /llm-evaluate monatlich aus um:
- Neue Modelle zu entdecken
- Preisänderungen zu berücksichtigen
- Kosten-Optimierung zu prüfen

Bei Projekt-Init

Während

/init-project
wird dieser Skill automatisch bei der Komplexitätsbewertung (Step 0.2) aufgerufen um das optimale Modell für den Use Case zu empfehlen.


Modell-Datenbank (Referenz)

Anthropic

ModellInput/1MOutput/1MContextStärken
Claude Opus 4.5$15$75200KBest reasoning
Claude Sonnet 4$3$15200KBest coding
Claude Haiku 3.5$0.25$1.25200KFast, cheap

OpenAI

ModellInput/1MOutput/1MContextStärken
GPT-4o$5$15128KMultimodal
GPT-4o-mini$0.15$0.60128KBudget GPT-4
o1$15$60200KDeep reasoning

Google

ModellInput/1MOutput/1MContextStärken
Gemini 2.0 Pro$7$211MLong context
Gemini 2.0 Flash$0.10$0.401MFast, cheap
Gemini Flash 8B$0.04$0.151MUltra cheap

DeepSeek

ModellInput/1MOutput/1MContextStärken
DeepSeek V3$0.27$1.1064KOpen-weight
DeepSeek R1$0.55$2.1964KReasoning

xAI

ModellInput/1MOutput/1MContextStärken
Grok 2$2$10128KRealtime data
Grok 2 Vision$2$1032KImage understanding

Mistral

ModellInput/1MOutput/1MContextStärken
Mistral Large$2$6128KEU-hosted
Codestral$0.30$0.90256KCode
Mistral Small$0.20$0.60128KBudget

Beispiel-Ausführung

User: /llm-evaluate Chat-Bot für Kundenservice

Claude:
┌─────────────────────────────────────────────────────────────────────────────┐
│  LLM EVALUATION - Customer Service Chat Bot                                 │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  📅 Preise Stand: Januar 2026                                               │
│                                                                             │
│  TOP 3 EMPFEHLUNGEN:                                                        │
│                                                                             │
│  🥇 #1: Claude Haiku 3.5                                                    │
│      Provider: Anthropic                                                    │
│      Input:    $0.25/1M tokens                                              │
│      Output:   $1.25/1M tokens                                              │
│      Context:  200K                                                         │
│      Score:    92/100                                                       │
│      Warum:    Schnell, günstig, gute Qualität für Chat                     │
│                                                                             │
│  🥈 #2: Gemini 2.0 Flash                                                    │
│      Provider: Google                                                       │
│      Input:    $0.10/1M tokens                                              │
│      Output:   $0.40/1M tokens                                              │
│      Context:  1M                                                           │
│      Score:    88/100                                                       │
│      Warum:    Noch günstiger, aber weniger konsistent                      │
│                                                                             │
│  🥉 #3: DeepSeek V3                                                         │
│      Provider: DeepSeek                                                     │
│      Input:    $0.27/1M tokens                                              │
│      Output:   $1.10/1M tokens                                              │
│      Context:  64K                                                          │
│      Score:    82/100                                                       │
│      Warum:    Sehr günstig, aber China-based (Compliance?)                 │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

Integration mit init-project

Dieser Skill wird automatisch während

/init-project
aufgerufen:

  1. User beschreibt Projekt (Step 0.1)
  2. Komplexitätsstufe wird ermittelt (Step 0.2)
  3. /llm-evaluate
    läuft im Hintergrund
  4. Stack-Empfehlung inkl. LLM-Empfehlung (Step 0.3)

Version: 1.0 Last Updated: January 2026