Путь в SRE
SRE tools
ssh, tcpdump, topGAP, logging, custom exporters
кейсы, реальные и абстрактные
- сервис иногда ловит 
5хх— залазишь в код и правишь через привычный пайплайн разработки - упал prod — 
postmortem, в нем выделяются action points - получаешь по запросу несвежие / разные данные - проблемы с репликацией
 - один из сервисов деградировал и не проходят http запросы, тюним время ответа и etc.
 - DBA скинули автоинкремент и все 
id-шники пользователей пошли с нуля == новый пользователь может получить доступ к существующему аккаунту 
вопросы на интервью
- loadoverage(LA)
 - Как найти кто сейчас пишет в файл?
 - Кто занял порт?
 - Ошибки на TCP
 
Google
В Google SRE бывают - SreDev или SreOps. Там спрашивают как отдебажить:
- есть web-сервер и он плохо работает.
 - есть БД и она медленно работает.
 - проектирование не абстрактного сервиса - например обеспечить надежность 
twitter-а с показателем 99.9%. Дано: у одного web-сервера надежность 90%, сколько rps может выдержать один сервер и какая у него пропускная способность по сети.