Size: a a a

2019 May 30

D

DemDev in Data Engineers
George Gaál
И ещё. Я так понимаю ( в меру своей испорченности) , что системе нужно скармливать не только негативные кейсы, но и позитивные. Чтобы она могла их фильтровать.
Хм, а зачем ей позитивные кейсы, если нам нужно создать set из regex правил, чтобы match'ить причины error'ов? 🤔
источник

D

DemDev in Data Engineers
George Gaál
1000 логов это прям очень мало
А сколько надо прям чтобы минимум? 10000? Или еще больше?
источник

GG

George Gaál in Data Engineers
DemDev
Хм, а зачем ей позитивные кейсы, если нам нужно создать set из regex правил, чтобы match'ить причины error'ов? 🤔
Ну, это если расширять
источник

GG

George Gaál in Data Engineers
DemDev
А сколько надо прям чтобы минимум? 10000? Или еще больше?
Я думаю , что от мульена. Но я не de, а так - сочувствующий
источник

OP

O. Petr in Data Engineers
DemDev
Добрый вечер.

Извиняюсь за длинный текст, но очень нужна Ваша помощь по Data Science. Я DevOps engineer, который никогда не работал с Big Data, Data Science и Machine learning, но впереди у меня написание master's thesis в университете и хотел бы взять что-то интересное из того, с чем никогда не сталкивался. И чтобы как-то совместить мои знания и узнать что-то новое, решил сделать проект, включающий в себя DevOps + Infrastructure + Machine Learning.

В комании, где я работаю, у нас используется CI/CD в полноценном её виде: deployment в live environment происходит до 100 раз в день ежедневно. Во время деплоймента запускается множество Jenkins Job, которые билдят docker image, прогоняют тесты, push'ат всё в гитхаб, деплоят в production и так далее. Проблема в том, что деплойменты периодически падают на каком-нибудь этапе, а анализ поломки занимает много времени.

Я хочу написать сервис, который будет собирать информацию с упавших jenkins job, парсить из них логи и анализировать какие error message's чаще всего встречаются. Затем этот сервис будет автоматически строить regex правила на основании этих error message'ей (например, есть regex: "^(?=.*npm ERR!).*$)" и в логах будет совпадение по этому regex'у. Тогда мы можем сказать, что билд упал, потому что были проблемы с NPM'ом). Автоматически сгенерированные regex rule'ы, будет изучать инженер и категоризовать их (например, раз в неделю). В итоге у нас появится система, которая автоматически генерирует причины падений и возможно в будущем можно будет автоматизировать категоризацию этих regex rule' ов.

Вопрос: насколько это вообще глупая затея? И имеет ли этот проект хоть какую-то связь с machine learing? Если нет, то что можно было бы добавить, чтобы поработать с machine learning. Пока что все выглядит логично и выполнимо с моей точки зрения:
1. Собрать кучу jenkins job, которые имеют failed status (думаю, что надо не меньше 1000 таких логов)
2. Спарсить из них все логи
3. Проанализировать какие error message встречаются чаще всего
4. Автоматически сгенерировать regex правила
5. Категоризировать правила
6. Сделать voting систему, чтобы можно было поставить +1 или -1, когда система сама проставила причину поломки, чтобы создать рейтинг ошибок и насколько они соответствуют действительности

Буду очень благодарен любой помощи!
источник

D

DemDev in Data Engineers
George Gaál
Я думаю , что от мульена. Но я не de, а так - сочувствующий
Хм, ну мульон я буду долго собирать. В неделю у нас доходит до 1500 deployment'ов. Из них пусть будет 10% падений. Это 150 падений в неделю. За месяц соберу 600 логов упавших deployment'ов.
источник

D

DemDev in Data Engineers
Работу я планирую написать за лето к октябрю. Ну даже если я соберу изначальный датасет из 600 падений и начну с ним работать, то к концу лета буду иметь готовое решение и параллельно собирать больше данных для датасета. В итоге к концу лета у меня будет около 2500 логов, которые можно анализировать.
источник

OP

O. Petr in Data Engineers
В пдфке выше - работа "Using Distributed Traces for Anomaly Detection", можете подсмотреть идеи, дополнения к реализации
источник

D

DemDev in Data Engineers
O. Petr
В пдфке выше - работа "Using Distributed Traces for Anomaly Detection", можете подсмотреть идеи, дополнения к реализации
Спасибо большое 🙏
источник

GG

George Gaál in Data Engineers
DemDev
Спасибо большое 🙏
Понимаете , я с энтизиазмом отношусь к Вашему начинанию. Это реально крутая идея. Но фактически - на наивной реализации регекспа далеко не уедешь. И вообще, если уж на то пошло, value какой будет ? Ну, условно, упало у бизнеса 1500 пайплайнов из 100000 - и что ?
источник

D

DemDev in Data Engineers
George Gaál
Понимаете , я с энтизиазмом отношусь к Вашему начинанию. Это реально крутая идея. Но фактически - на наивной реализации регекспа далеко не уедешь. И вообще, если уж на то пошло, value какой будет ? Ну, условно, упало у бизнеса 1500 пайплайнов из 100000 - и что ?
Ну long-term идея в том, чтобы система могла автоматически анализировать логи, составлять regex'ы и категоризировать их, чтобы затем автоматически ставить причину падения для deployment'ов
источник

D

DemDev in Data Engineers
Понятное дело, что вышеописанный scope слишком обширный и его нужно сузить. Поэтому подумал, что можно начать просто со сбора данных, анализа их и обучения системы автоматически составлять regexp'ы. Если это вообще имеет какое-то отношение к ML 🤔
источник

GG

George Gaál in Data Engineers
DemDev
Ну long-term идея в том, чтобы система могла автоматически анализировать логи, составлять regex'ы и категоризировать их, чтобы затем автоматически ставить причину падения для deployment'ов
Регекспы выкиньте )
источник

GG

George Gaál in Data Engineers
Пускай там эмэль модель будет на 100500 нейронов. Вы ее тренируете. И получаете.... Черный ящик. Но вызовов много. Саму нейронку запустить, например
источник

D

DemDev in Data Engineers
George Gaál
Пускай там эмэль модель будет на 100500 нейронов. Вы ее тренируете. И получаете.... Черный ящик. Но вызовов много. Саму нейронку запустить, например
Хм, почему в итоге получаем черный ящик по итогу?
И чем заменить regexp'ы?
источник

GG

George Gaál in Data Engineers
DemDev
Хм, почему в итоге получаем черный ящик по итогу?
И чем заменить regexp'ы?
Да чего вы до регепксов то докопались
источник

AB

Alex Bal in Data Engineers
George Gaál
Да чего вы до регепксов то докопались
согласен .... regex или еще, что нужны паттерны как true так и false для обучения..... что бы система могла разпознать, что делать в конкрентной ситуации или обучится этому на истории.....
источник

OP

O. Petr in Data Engineers
Необходимо ерорам сопоставить категорию важности и все, не ?
источник

GG

George Gaál in Data Engineers
Alex Bal
согласен .... regex или еще, что нужны паттерны как true так и false для обучения..... что бы система могла разпознать, что делать в конкрентной ситуации или обучится этому на истории.....
Скорее для начала нужен классификатор отказов
источник

OP

O. Petr in Data Engineers
Алертницы так и сделаны
источник