Claude-skill-registry deploy_monitoring
Health checks, metrics, alerting ve rollback stratejileri.
install
source · Clone the upstream repo
git clone https://github.com/majiayu000/claude-skill-registry
Claude Code · Install into ~/.claude/skills/
T=$(mktemp -d) && git clone --depth=1 https://github.com/majiayu000/claude-skill-registry "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/data/deploy-monitoring" ~/.claude/skills/majiayu000-claude-skill-registry-deploy-monitoring && rm -rf "$T"
manifest:
skills/data/deploy-monitoring/SKILL.mdsource content
📊 Deploy Monitoring
Monitoring, alerting ve rollback stratejileri.
❤️ Health Checks
app.get('/health', (req, res) => { res.json({ status: 'healthy', version: process.env.APP_VERSION }); }); app.get('/ready', async (req, res) => { await db.$queryRaw`SELECT 1`; res.json({ status: 'ready' }); });
📈 Metrics (Prometheus)
const httpDuration = new Histogram({ name: 'http_request_duration_seconds', help: 'Duration of HTTP requests', labelNames: ['method', 'route', 'status'], });
🚨 Alert Rules
- alert: HighErrorRate expr: rate(http_requests_total{status=~"5.."}[5m]) > 0.05 for: 5m labels: severity: critical
⏪ Rollback
# Kubernetes kubectl rollout undo deployment/app # Vercel vercel rollback
🔄 Workflow
Kaynak: Google SRE Book - Monitoring & Prometheus Best Practices
Aşama 1: Observability Instrumentation
- Health Checks:
(Liveness) ve/health
(Readiness) uç noktalarını tanımla./ready - Custom Metrics: Uygulamaya özel kritik metrikleri (Örn: Sipariş sayısı, Hata oranı) Prometheus/Grafana için dışa aktar.
- Log Centralization: Dağınık logları ELK (Elasticsearch/Logstash/Kibana) veya Datadog gibi bir merkezde topla.
Aşama 2: SLI/SLO & Alerting Setup
- Defining SLIs: Başarı göstergelerini (Latency < 200ms, Error rate < %1) belirle.
- Alert Groups: Kritik hataları (P0) telefon/PagerDuty üzerinden, bilgilendirme amaçlı olanları Slack üzerinden bildir.
- Error Budget: SLO'nuzun ne kadar dışına çıkabileceğinizi (Hata Bütçesi) hesapla ve aşım yaklaştığında deployları durdur.
Aşama 3: Analysis & Incident Response
- Dashboarding: Grafana üzerinde sistem sağlığını gösteren gerçek zamanlı panolar oluştur.
- Post-Mortem: Her büyük olaydan (Incident) sonra kök neden analizi (Root Cause Analysis) yap ve dökümante et.
- Automated Rollback: Kritik alert tetiklendiğinde sistemin otomatik bir önceki stabil versiyona dönmesini sağla.
Kontrol Noktaları
| Aşama | Doğrulama |
|---|---|
| 1 | Yeni bir servis eklendiğinde monitoring otomatik devreye giriyor mu? |
| 2 | Alertler "aksiyon alınabilir" (Actionable) bilgi içeriyor mu? |
| 3 | Loglarda PII (Kişisel veri) maskeleniyor mu? |
Deploy Monitoring v1.5 - With Workflow