Телеграмм чат группы hadoopusers страница 1333

Ну long-term идея в том, чтобы система могла автоматически анализировать логи, составлять regex'ы и категоризировать их, чтобы затем автоматически ставить причину падения для deployment'ов

Кажется, что на ваших объемах вручную проанализировать все известные ошибки и составить регэкспы будет на три порядка дешевле, чем писать артифишиал интеллидженс машин лёрнинг десижн мейкер.
На данных большего объёма можно будет выстроить систему автоматизации первой линии поддержки, наклепать эвристик для упрощения разметки и тулов для классификации новых типов ошибок. И только когда это всё будет сделано, и этого будет уже не хватать, настанет время расчехлять "честное" машинное обучение.

источник

23:27пожаловаться #9

2019 May 31

ЕГ

Евгений Глотов in Data Engineers

Alex Bal

согласен .... regex или еще, что нужны паттерны как true так и false для обучения..... что бы система могла разпознать, что делать в конкрентной ситуации или обучится этому на истории.....

Это не обязательно, есть одноклассовые методы для выявления аномалий, работают даже на небольших выборках

источник

01:11пожаловаться #10

George Gaál in Data Engineers

Евгений Глотов

Это не обязательно, есть одноклассовые методы для выявления аномалий, работают даже на небольших выборках

можно поподробнее?

источник

15:55пожаловаться #11

ЕГ

Евгений Глотов in Data Engineers

https://scikit-learn.org/stable/modules/generated/sklearn.svm.OneClassSVM.html

источник

16:02пожаловаться #12

Fedor Lavrentyev in Data Engineers

George Gaál

можно поподробнее?

Семейство алгоритмов, которые пытаются обощить исходную выборку, а потом оценивают вероятность, что новый элемент принадлежит к этой выборке. Много разных вариантов и теорий, как это сделать.
В целом, это весьма неустойчивый и требовательный к данным подход. Если есть возможность свести задачу к многоклассовой классификации - надо сводить.

источник

17:54пожаловаться #13

George Gaál in Data Engineers

Fedor Lavrentyev

Т.е. как я понимаю, категоризация (как я и говорил) все равно изначально ?

источник

17:56пожаловаться #14

Fedor Lavrentyev in Data Engineers

Я не понял, что вы имеете ввиду, простите. =(
Категоризация - это термин не из машинного обучения.

источник

17:58пожаловаться #15

George Gaál in Data Engineers

Я не mlщик 😭

источник

17:59пожаловаться #16

АП

Алексей Пахомов in Data Engineers

Как фанат ml в data engineering Вкину свои 5 копеек. Логи как сгенерированая информация я так понимаю может быть распаршена, зная алгоритмы генерации. Задача извлечения паттернов - здравствуй nlp

источник

21:07пожаловаться #17

АП

Алексей Пахомов in Data Engineers

Но я так понимаю можно сделать кластеризацию на этом пространстве. Это позволит для начала узнать типы фейлов. Для классификации пока не определены классы.

источник

21:08пожаловаться #18

АП

Алексей Пахомов in Data Engineers

Для начала попробуйте прогнать логи через Фаст текст и на предложении Провести кластеризацию. Это соберёт паттерны вполне не плохо.

источник

21:13пожаловаться #19

George Gaál in Data Engineers

О, фасттекст опять. Он же жесть какой ресурсоемкий и вроде оптимизирован для гпу ?

источник

21:25пожаловаться #20