Коллеги, вопрос на миллион, который меня уже давно беспокоит, когда вас просят рассказать самый интересный баг, что вы встречали, о чем вы рассказываете?
О! Таких историй у меня множество! #QA_answer
Самая разрушительная из on-demand команды, которая писала SQL для правки на живом продакшене (да, целая команда чтобы не ошибиться). Я тогда первую неделю как пришёл на свою вторую работу и мне выдали один скриптик. То что было в требованиях - он делал, только даты сбрасывал на 1.1.1970. Я рассказал об этом разработчику, тот сказал что это - фигня, которая проявляется только на стейджинге. Но конечно эта фигня проявилась и на проде. Так как прод огромный, то бекапы делают раз в неделю по субботам+воскресеньям (на время инцидента была среда или четверг). Но в этот раз что-то пошло не так и в эти выходные бекап не создался. В итоге откатывались на -2 недели. Данные были очень ценные - это был инструмент для ведения юридических дел больших компаний (ну знаете, на них постоянно кто-то в суд подаёт).
Вторая бага была с VmWare - там есть иерархия: виртуалка, физическая машина, кластер машин, датацентр (собрание кластеров) и сайт = собрание датацентров. И я решил настроить бекапы сайта (хорошая мысль, не находите?), так вот - так как у нас сайт был один (вообще круто что у нас целый сайт был), то и бекапить его я поставил на одну из виртуалок. Получился бекап рекурсивный: содержимое всего сайта + бекап рекурсивный. В итоге израсходовав все ресурсы сайт, как и пологается упал. Я гордо отрапортавал, что при бекапе надо запрещать выбирать узлы ниже по иерархии от объекта бекапа. И пошёл к админам говорить что у нас сайт упал. Они сначала подумали про веб-сайт и спрашивали какой же сайт упал... Кстати, веб-сайты у нас висели в том же сайте, просто в другом датацентре (то есть тоже упали). Когда они поняли про какой сайт я говорю - вот тут то и началась паника.
Третья бага - была у меня машина для работы с вирусами. Я её просто перенакатывал каждое утро с образа и пофиг что с ней было потом (через месяц образ эволюционировал и даже содержал icq на тот момент). И вот был там "вечерний баг", который запомнился многим: где-то примерно в 16 часов вечера переставал работать антивирус. На любое действие (лечить, удалить, поместить в карантин) он выдавал ошибку No files left (Нет больше файлов - вроде так это звучало в русской версии). Все повеселились, мол нефиг было столько качать из интернета, вот файлы на земле и закончились... Но чинить то этот баг как-то надо было. И самое обидное, что он воспроизводился только у меня и то только к вечеру. Иногда в 3, иногда до 5 не проявлялся, бывало что даже до поледьмого держался. В итоге выяснилось, что для любого действия антивирус сначала клал заражённый контент в карантин (чтобы не потерять пользовательские данные), а потом уже отдавал пользователю результат: вылеченный файл или удалённый, или в карантине. Короче, за день в карантине накапливалось столько файлов, что файловая система не могла выдержать в одной папке и переполнялся раздел с таблицей FAT. И в итоге именно в той папке нельзя было создать ни одного файла с вот такой вот странной ошибкой. А на следующее утро я приходил и восстанавливал систему супустой папкой карантина