Size: a a a

Hosting and so on

2019 October 16

DM

Dmitry Malkov in Hosting and so on
PQ.Hosting
А я тупо не знаю.
П - отмазки
источник

Б

БессзуГик in Hosting and so on
Dmitry Malkov
П - отмазки
Второй плюс за вечер
источник

SK

Sergey K in Hosting and so on
ему админку от биллинга не дали?
источник

P

PQ.Hosting in Hosting and so on
Честно, сам гадаю. 😂
источник

P

PQ.Hosting in Hosting and so on
Кому?
источник

SK

Sergey K in Hosting and so on
тебе от пукхостинга?
источник

P

PQ.Hosting in Hosting and so on
Причем тут оборот компании к себестоимости?
источник

D

Daniil in Hosting and so on
Sergey K
тебе от пукхостинга?
Может это ларго пишет 😁
источник

P

PQ.Hosting in Hosting and so on
Хотели бы вы, такого вежливого ларго.
источник

SK

Sergey K in Hosting and so on
Daniil
Может это ларго пишет 😁
ну если только множественные личности
источник

DM

Dmitry Malkov in Hosting and so on
Sergey K
ну если только множественные личности
В психиатрии есть даже определение подобному, шизофрения;)
источник

P

PQ.Hosting in Hosting and so on
Не самое страшное, что могло бы быть.
источник

SK

Sergey K in Hosting and so on
Dmitry Malkov
В психиатрии есть даже определение подобному, шизофрения;)
это напомнило:
- буду от армии косить, под шизофренника
- нее шизофренники они умные, коси под дегенерата
источник
2019 October 17

SK

Sergey K in Hosting and so on
"Мы хотим поделиться с вами хронологией работы над вчерашней проблемой. Рассказываем, как это происходило с нашей стороны:

23:55 Сотрудники технической поддержки в обычном режиме отвечают на рядовые вопросы, дежурные администраторы решают запланированные задачи. Спокойный рабочий вечер вторника.

23:57 Внезапно телевизоры у технической поддержки и дежурных администраторов с нагиосом залились красным цветом - наша система мониторинга забила тревогу.
Огромное количество сообщений о недоступности различных сервисов говорит о масштабности проблемы.

00:00 Дежурный администратор, проведя первичную диагностику, сообщает руководству о недоступности нашей инфраструктуры.

00:01 В нашей группе в VK появляется первый комментарий с вопросом «Что с сайтом?». Через 15 минут в группе будет больше 100 новых комментариев.

00:04 Мы вышли на связь ВК, чтобы вы были спокойны и знали: мы в курсе проблемы и занимаемся ее решением.

00:06 Один из главных подозреваемых - наш головной роутер. Одна из возможных причин - физическая неисправность. Группа эксплуатации (отвечающие за работу физического оборудования) получает информацию о возникшей проблеме.

00:09 Машины с инженерами мчатся в наш основной и резервный дата-центры, чтобы на месте проверить физическое состояние оборудования.

00:12 К решению проблемы подключена большая часть наших инженеров, их действия координируются в специальном чате. Проверяются всевозможные гипотезы.

00:15 Предположение о физической неисправности роутера не подтвердилось, резервный роутер-близнец остается не востребован. Проверяем историю последних действий.

00:18 Диагностика показала, что в конфигурацию роутера перед началом инцидента вносились изменения, связанные с отменой ограничения доступа к одному из серверов (которое ранее было добавлено в рамках борьбы с DDoS-атакой). Проще говоря, выполнялась рутинная процедура удаления специальных правил из конфигурации роутера, которая не могла привести к подобной проблеме.

00:20 Продолжается анализ конфигурации роутера. В это же время другие специалисты проверяют оставшиеся гипотезы, связанные с dns и bgp, внутренней сетью. Предположения, связанные непосредственно с самой сетью позднее не подтвердятся - у нас отличная связность и мы используем множество резервных интернет-каналов, так что падение нескольких из них не может повлиять на доступность серверов.

00:30 В группе VK уже почти 300 новых сообщений, более 100 новых подписчиков и 9 хэштегов #бегетживи

00:42 Более детальный анализ конфигурации роутера показал, что одно из последних изменений было выполнено некорректно (удаление того самого правила для борьбы с DDoS-атакой). Осталась его часть, которая запрещала доступ для всего трафика. Помимо этого, после этого изменения было сделано еще несколько незначительных коммитов. В используемом нами роутере Juniper существует автоматический возврат к предыдущей конфигурации, если в течение 5 минут новая конфигурация не была отдельно подтверждена. После возникновения сбоя изменения, которые были добавлены уже после ошибочного, не были подтверждены. Поэтому роутер автоматически восстановил некорректную конфигурацию, ограничив доступ к самому себе, и прекратил принимать внешний трафик.

00:43 В группе VK более 450 новых комментариев.

00:42 Откат на несколько коммитов полностью устраняет проблему. Работа восстановлена, сайты вновь доступны.

00:45 В группе VK появляются первые возгласы «заработало!»

00:50 Сотрудники технической поддержки начинают обрабатывать новые сообщения в тикет-системе и по телефону, дежурные администраторы, выдохнув, откидываются на спинки кресел. Впереди разбор полетов.

Спасибо, что в это время сохраняли чувство юмора, играли в города, делились своим опытом и поддерживали друг друга. Мы собрали лучших специалистов и постарались устранить проблему в самые короткие сроки, чтобы доступ к вашим проектам и сайтам был как можно более оперативно восстановлен. Нам предстоит еще многое проанализировать и сделать, чтобы эта проблема больше не повторилась, в данный же момент мы хотим еще раз поблагодарить всех вас за терпение, понимание и доверие."
источник

DM

Dmitry Malkov in Hosting and so on
Ну збс, но резервирования нет;) А они далеко не лоукост
источник

А🐎

Александр 🐎 in Hosting and so on
Это про кого?
источник

А🐎

Александр 🐎 in Hosting and so on
00:15 Предположение о физической неисправности роутера не подтвердилось, резервный роутер-близнец остается не востребован. Проверяем историю последних действий.

Если у них есть роутер "близнец" какого фига у них тогда что-то там сломалось?
источник

А🐎

Александр 🐎 in Hosting and so on
Ссут в уши
источник

𝖲

𝖲𝗍𝖺𝗇𝗂ς in Hosting and so on
Зависит от сетапа конечно.
источник

В

Владимир in Hosting and so on
окай
источник