Claude-skill-registry deploy_monitoring

Health checks, metrics, alerting ve rollback stratejileri.

install

source · Clone the upstream repo

git clone https://github.com/majiayu000/claude-skill-registry

Claude Code · Install into ~/.claude/skills/

T=$(mktemp -d) && git clone --depth=1 https://github.com/majiayu000/claude-skill-registry "$T" && mkdir -p ~/.claude/skills && cp -r "$T/skills/data/deploy-monitoring" ~/.claude/skills/majiayu000-claude-skill-registry-deploy-monitoring && rm -rf "$T"

manifest: skills/data/deploy-monitoring/SKILL.md

📊 Deploy Monitoring

Monitoring, alerting ve rollback stratejileri.

❤️ Health Checks

app.get('/health', (req, res) => {
  res.json({ status: 'healthy', version: process.env.APP_VERSION });
});

app.get('/ready', async (req, res) => {
  await db.$queryRaw`SELECT 1`;
  res.json({ status: 'ready' });
});

📈 Metrics (Prometheus)

const httpDuration = new Histogram({
  name: 'http_request_duration_seconds',
  help: 'Duration of HTTP requests',
  labelNames: ['method', 'route', 'status'],
});

🚨 Alert Rules

- alert: HighErrorRate
  expr: rate(http_requests_total{status=~"5.."}[5m]) > 0.05
  for: 5m
  labels:
    severity: critical

⏪ Rollback

# Kubernetes
kubectl rollout undo deployment/app

# Vercel
vercel rollback

🔄 Workflow

Kaynak: Google SRE Book - Monitoring & Prometheus Best Practices

Aşama 1: Observability Instrumentation

Health Checks:
```
/health
```
(Liveness) ve
```
/ready
```
(Readiness) uç noktalarını tanımla.
Custom Metrics: Uygulamaya özel kritik metrikleri (Örn: Sipariş sayısı, Hata oranı) Prometheus/Grafana için dışa aktar.
Log Centralization: Dağınık logları ELK (Elasticsearch/Logstash/Kibana) veya Datadog gibi bir merkezde topla.

Aşama 2: SLI/SLO & Alerting Setup

Defining SLIs: Başarı göstergelerini (Latency < 200ms, Error rate < %1) belirle.
Alert Groups: Kritik hataları (P0) telefon/PagerDuty üzerinden, bilgilendirme amaçlı olanları Slack üzerinden bildir.
Error Budget: SLO'nuzun ne kadar dışına çıkabileceğinizi (Hata Bütçesi) hesapla ve aşım yaklaştığında deployları durdur.

Aşama 3: Analysis & Incident Response

Dashboarding: Grafana üzerinde sistem sağlığını gösteren gerçek zamanlı panolar oluştur.
Post-Mortem: Her büyük olaydan (Incident) sonra kök neden analizi (Root Cause Analysis) yap ve dökümante et.
Automated Rollback: Kritik alert tetiklendiğinde sistemin otomatik bir önceki stabil versiyona dönmesini sağla.

Kontrol Noktaları

Aşama	Doğrulama
1	Yeni bir servis eklendiğinde monitoring otomatik devreye giriyor mu?
2	Alertler "aksiyon alınabilir" (Actionable) bilgi içeriyor mu?
3	Loglarda PII (Kişisel veri) maskeleniyor mu?

Deploy Monitoring v1.5 - With Workflow