Feb, 28, 2026
SRE: цельная модель надежности от базовых принципов до SLO-алертинга
Единый материал по SRE: термины SLI/SLO/SLA, перцентили, error budget, on-call/incident-процессы, PRR/DR и production-подход к Prometheus/Grafana-алертингу.
Feb, 28, 2026
Системный ownership: SLI/SLO, релизные решения, DR и compliance-практики
Что реально означает инженерный опыт в SRE: построение SLI/SLO, участие в go/no-go релизах, Disaster Recovery, compliance-контроли и ответственность за сервис как за целую систему.
Feb, 21, 2026
Liveness, Readiness и Startup probes: безопасные шаблоны
Как проектировать Kubernetes probes без ложных рестартов и каскадных деградаций.
Feb, 21, 2026
Requests, Limits и QoS в Kubernetes
Как requests/limits влияют на scheduling, OOMKill и eviction, и как не допускать ресурсных инцидентов.