Телеграмм чат группы hadoopusers страница 1332

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 May 30

D

DemDev in Data Engineers

И ещё. Я так понимаю ( в меру своей испорченности) , что системе нужно скармливать не только негативные кейсы, но и позитивные. Чтобы она могла их фильтровать.

Хм, а зачем ей позитивные кейсы, если нам нужно создать set из regex правил, чтобы match'ить причины error'ов? 🤔

источник

20:16пожаловаться #1

D

DemDev in Data Engineers

1000 логов это прям очень мало

А сколько надо прям чтобы минимум? 10000? Или еще больше?

источник

20:16пожаловаться #2

GG

George Gaál in Data Engineers

Хм, а зачем ей позитивные кейсы, если нам нужно создать set из regex правил, чтобы match'ить причины error'ов? 🤔

Ну, это если расширять

источник

20:16пожаловаться #3

GG

George Gaál in Data Engineers

А сколько надо прям чтобы минимум? 10000? Или еще больше?

Я думаю , что от мульена. Но я не de, а так - сочувствующий

источник

20:17пожаловаться #4

OP

O. Petr in Data Engineers

Добрый вечер.

Извиняюсь за длинный текст, но очень нужна Ваша помощь по Data Science. Я DevOps engineer, который никогда не работал с Big Data, Data Science и Machine learning, но впереди у меня написание master's thesis в университете и хотел бы взять что-то интересное из того, с чем никогда не сталкивался. И чтобы как-то совместить мои знания и узнать что-то новое, решил сделать проект, включающий в себя DevOps + Infrastructure + Machine Learning.

В комании, где я работаю, у нас используется CI/CD в полноценном её виде: deployment в live environment происходит до 100 раз в день ежедневно. Во время деплоймента запускается множество Jenkins Job, которые билдят docker image, прогоняют тесты, push'ат всё в гитхаб, деплоят в production и так далее. Проблема в том, что деплойменты периодически падают на каком-нибудь этапе, а анализ поломки занимает много времени.

Я хочу написать сервис, который будет собирать информацию с упавших jenkins job, парсить из них логи и анализировать какие error message's чаще всего встречаются. Затем этот сервис будет автоматически строить regex правила на основании этих error message'ей (например, есть regex: "^(?=.*npm ERR!).*$)" и в логах будет совпадение по этому regex'у. Тогда мы можем сказать, что билд упал, потому что были проблемы с NPM'ом). Автоматически сгенерированные regex rule'ы, будет изучать инженер и категоризовать их (например, раз в неделю). В итоге у нас появится система, которая автоматически генерирует причины падений и возможно в будущем можно будет автоматизировать категоризацию этих regex rule' ов.

Вопрос: насколько это вообще глупая затея? И имеет ли этот проект хоть какую-то связь с machine learing? Если нет, то что можно было бы добавить, чтобы поработать с machine learning. Пока что все выглядит логично и выполнимо с моей точки зрения:
1. Собрать кучу jenkins job, которые имеют failed status (думаю, что надо не меньше 1000 таких логов)
2. Спарсить из них все логи
3. Проанализировать какие error message встречаются чаще всего
4. Автоматически сгенерировать regex правила
5. Категоризировать правила
6. Сделать voting систему, чтобы можно было поставить +1 или -1, когда система сама проставила причину поломки, чтобы создать рейтинг ошибок и насколько они соответствуют действительности

Буду очень благодарен любой помощи!

LukasSteigerwald-Thesis_1.pdf

источник

20:21пожаловаться #5

D

DemDev in Data Engineers

Я думаю , что от мульена. Но я не de, а так - сочувствующий

Хм, ну мульон я буду долго собирать. В неделю у нас доходит до 1500 deployment'ов. Из них пусть будет 10% падений. Это 150 падений в неделю. За месяц соберу 600 логов упавших deployment'ов.

источник

20:22пожаловаться #6

D

DemDev in Data Engineers

Работу я планирую написать за лето к октябрю. Ну даже если я соберу изначальный датасет из 600 падений и начну с ним работать, то к концу лета буду иметь готовое решение и параллельно собирать больше данных для датасета. В итоге к концу лета у меня будет около 2500 логов, которые можно анализировать.

источник

20:23пожаловаться #7

OP

O. Petr in Data Engineers

В пдфке выше - работа "Using Distributed Traces for Anomaly Detection", можете подсмотреть идеи, дополнения к реализации

источник

20:25пожаловаться #8

D

DemDev in Data Engineers

В пдфке выше - работа "Using Distributed Traces for Anomaly Detection", можете подсмотреть идеи, дополнения к реализации

Спасибо большое 🙏

источник

20:29пожаловаться #9

GG

George Gaál in Data Engineers

Спасибо большое 🙏

Понимаете , я с энтизиазмом отношусь к Вашему начинанию. Это реально крутая идея. Но фактически - на наивной реализации регекспа далеко не уедешь. И вообще, если уж на то пошло, value какой будет ? Ну, условно, упало у бизнеса 1500 пайплайнов из 100000 - и что ?

источник

20:46пожаловаться #10

D

DemDev in Data Engineers

Понимаете , я с энтизиазмом отношусь к Вашему начинанию. Это реально крутая идея. Но фактически - на наивной реализации регекспа далеко не уедешь. И вообще, если уж на то пошло, value какой будет ? Ну, условно, упало у бизнеса 1500 пайплайнов из 100000 - и что ?

Ну long-term идея в том, чтобы система могла автоматически анализировать логи, составлять regex'ы и категоризировать их, чтобы затем автоматически ставить причину падения для deployment'ов

источник

20:51пожаловаться #11

D

DemDev in Data Engineers

Понятное дело, что вышеописанный scope слишком обширный и его нужно сузить. Поэтому подумал, что можно начать просто со сбора данных, анализа их и обучения системы автоматически составлять regexp'ы. Если это вообще имеет какое-то отношение к ML 🤔

источник

20:52пожаловаться #12

GG

George Gaál in Data Engineers

Ну long-term идея в том, чтобы система могла автоматически анализировать логи, составлять regex'ы и категоризировать их, чтобы затем автоматически ставить причину падения для deployment'ов

Регекспы выкиньте )

источник

20:52пожаловаться #13

GG

George Gaál in Data Engineers

Пускай там эмэль модель будет на 100500 нейронов. Вы ее тренируете. И получаете.... Черный ящик. Но вызовов много. Саму нейронку запустить, например

источник

20:53пожаловаться #14

D

DemDev in Data Engineers

Пускай там эмэль модель будет на 100500 нейронов. Вы ее тренируете. И получаете.... Черный ящик. Но вызовов много. Саму нейронку запустить, например

Хм, почему в итоге получаем черный ящик по итогу?
И чем заменить regexp'ы?

источник

20:55пожаловаться #15

GG

George Gaál in Data Engineers

Хм, почему в итоге получаем черный ящик по итогу?
И чем заменить regexp'ы?

Да чего вы до регепксов то докопались

источник

21:04пожаловаться #16

AB

Alex Bal in Data Engineers

Да чего вы до регепксов то докопались

согласен .... regex или еще, что нужны паттерны как true так и false для обучения..... что бы система могла разпознать, что делать в конкрентной ситуации или обучится этому на истории.....

источник

21:38пожаловаться #17

OP

O. Petr in Data Engineers

Необходимо ерорам сопоставить категорию важности и все, не ?

источник

21:40пожаловаться #18

GG

George Gaál in Data Engineers

согласен .... regex или еще, что нужны паттерны как true так и false для обучения..... что бы система могла разпознать, что делать в конкрентной ситуации или обучится этому на истории.....

Скорее для начала нужен классификатор отказов

источник

21:40пожаловаться #19

OP

O. Petr in Data Engineers

Алертницы так и сделаны

источник

21:40пожаловаться #20