Production Engineers - всегда в команде, нет отдельных команд (как в SRE). Чем занимаются: - Мониторинг. Периодически (раз в 5 мин) апускают atop, сохраняя результат на каждой машине. Это помогает в дальнейшем разбираться с проблемами. Можно посмотреть кто когда что сломал.
Чтобы развлечь аудиторию, Элина рассказала про интересную проблему “Malloc HTTP”. Когда пришел заголовок “HTTP”, а malloc перевел 4 байта в int, и выделил ‘malloc(“HTTP”)’ памяти.
Следующий рассказ - про велосипеды в Facebook, когда компания делала решения у себя внутри, потому что не было еще общедоступных решений в Open Source.
Шутки для посвященных. Как завалить систему, интерпретируя ответ HTTP 400 от сервиса, которого надо было вызвать по совсем другому протоколу. Сервис должен был вернуть размер памяти. Ок, "HTTP" -> toHex байт зарезервируем, нет проблем).
Каждая линия - один датацентр, сколько сохраняем данных в БД, или сколько получаем 5xx ошибок. Очень много информации на одной картинке, но надо привыкнуть