Skip to main content

Путь в SRE

Артём Артемьев

SRE tools

  • ssh, tcpdump, top
  • GAP, logging, custom exporters

кейсы, реальные и абстрактные

  • сервис иногда ловит 5хх — залазишь в код и правишь через привычный пайплайн разработки
  • упал prodpostmortem, в нем выделяются action points
  • получаешь по запросу несвежие / разные данные - проблемы с репликацией
  • один из сервисов деградировал и не проходят http запросы, тюним время ответа и etc.
  • DBA скинули автоинкремент и все id-шники пользователей пошли с нуля == новый пользователь может получить доступ к существующему аккаунту

вопросы на интервью

  • loadoverage(LA)
  • Как найти кто сейчас пишет в файл?
  • Кто занял порт?
  • Ошибки на TCP

Google

В Google SRE бывают - SreDev или SreOps. Там спрашивают как отдебажить:

  • есть web-сервер и он плохо работает.
  • есть БД и она медленно работает.
  • проектирование не абстрактного сервиса - например обеспечить надежность twitter-а с показателем 99.9%. Дано: у одного web-сервера надежность 90%, сколько rps может выдержать один сервер и какая у него пропускная способность по сети.