Путь в SRE
SRE tools
ssh, tcpdump, top
GAP
, logging, custom exporters
кейсы, реальные и абстрактные
- сервис иногда ловит
5хх
— залазишь в код и правишь через привычный пайплайн разработки - упал prod —
postmortem
, в нем выделяются action points - получаешь по запросу несвежие / разные данные - проблемы с репликацией
- один из сервисов деградировал и не проходят http запросы, тюним время ответа и etc.
- DBA скинули автоинкремент и все
id
-шники пользователей пошли с нуля == новый пользователь может получить доступ к существующему аккаунту
вопросы на интервью
- loadoverage(LA)
- Как найти кто сейчас пишет в файл?
- Кто занял порт?
- Ошибки на TCP
Google
В Google SRE бывают - SreDev или SreOps. Там спрашивают как отдебажить:
- есть web-сервер и он плохо работает.
- есть БД и она медленно работает.
- проектирование не абстрактного сервиса - например обеспечить надежность
twitter
-а с показателем 99.9%. Дано: у одного web-сервера надежность 90%, сколько rps может выдержать один сервер и какая у него пропускная способность по сети.