Posts tagged with #reliability

Found 4 posts

Feb, 28, 2026

SRE: цельная модель надежности от базовых принципов до SLO-алертинга

Единый материал по SRE: термины SLI/SLO/SLA, перцентили, error budget, on-call/incident-процессы, PRR/DR и production-подход к Prometheus/Grafana-алертингу.

Feb, 28, 2026

Системный ownership: SLI/SLO, релизные решения, DR и compliance-практики

Что реально означает инженерный опыт в SRE: построение SLI/SLO, участие в go/no-go релизах, Disaster Recovery, compliance-контроли и ответственность за сервис как за целую систему.

Feb, 21, 2026

Liveness, Readiness и Startup probes: безопасные шаблоны

Как проектировать Kubernetes probes без ложных рестартов и каскадных деградаций.

Feb, 21, 2026

Requests, Limits и QoS в Kubernetes

Как requests/limits влияют на scheduling, OOMKill и eviction, и как не допускать ресурсных инцидентов.