Size: a a a

2019 May 31

FL

Fedor Lavrentyev in Data Engineers
Вы когда-нибудь видели логи? :)
источник

DM

Daniel Matveev in Data Engineers
видел логи, для которых гадалка нужна, про нлп не могу придумать кейс
источник

GG

George Gaál in Data Engineers
Fedor Lavrentyev
Вы когда-нибудь видели логи? :)
Я - да
источник

GG

George Gaál in Data Engineers
И ещё я знаю, что часто бывает кейс, что корневая причина падения не в конце лога, а где-то в середине
источник

GG

George Gaál in Data Engineers
Какое-нибудь невнятное сообщение от компилятора с++
источник

FL

Fedor Lavrentyev in Data Engineers
George Gaál
Я - да
Я к Алексею обращался, промазал, извините.
источник

FL

Fedor Lavrentyev in Data Engineers
Кажется, что задача распознавания логов требует сначала мучительной предобработки. После того, как она будет закончена, возможно, для nlp уже места не останется.
источник
2019 June 01

АП

Алексей Пахомов in Data Engineers
Fedor Lavrentyev
Я к Алексею обращался, промазал, извините.
Я действительно плохо представляю логи в данном случае. Но как я уже продолжил дальше, можно в качестве exploration применить базовые методы и оценить их актуальность для этой задачи.
источник

FL

Fedor Lavrentyev in Data Engineers
Алексей Пахомов
Я действительно плохо представляю логи в данном случае. Но как я уже продолжил дальше, можно в качестве exploration применить базовые методы и оценить их актуальность для этой задачи.
Я на недавнем Data Fest'е читал доклад "Как не обанкротиться на машинном обучении". Там был один из тезисов - задачу, которую можно решать детерминированным алгоритмом (эвристикой), нужно решать детерминированным алгоритмом. В данном случае, пока объемы не подтянулся к миллионам упавших джобов, задачу будет проще решать эвристиками. Не надо втыкать недетерминированные алгоритмы куда попало - это азартно и весело на стадии исследования, но крайне дорого в доведении до продакшена.
источник

АП

Алексей Пахомов in Data Engineers
Fedor Lavrentyev
Я на недавнем Data Fest'е читал доклад "Как не обанкротиться на машинном обучении". Там был один из тезисов - задачу, которую можно решать детерминированным алгоритмом (эвристикой), нужно решать детерминированным алгоритмом. В данном случае, пока объемы не подтянулся к миллионам упавших джобов, задачу будет проще решать эвристиками. Не надо втыкать недетерминированные алгоритмы куда попало - это азартно и весело на стадии исследования, но крайне дорого в доведении до продакшена.
Забавно, как имея одно и тоже мнение можно поспорить. Я пытался намекнуть на детерминированность задачи с логами, а вместо задачи классификация более эвристическую кластеризацию.
источник

GG

George Gaál in Data Engineers
Алексей Пахомов
Забавно, как имея одно и тоже мнение можно поспорить. Я пытался намекнуть на детерминированность задачи с логами, а вместо задачи классификация более эвристическую кластеризацию.
👍
источник
2019 June 02

Ж

Жмака in Data Engineers
Всем привет. По опыту какой дистрибутив кассандры лучше установить в продакшене: Apache Cassandra или DataStax Distribution for Apache Cassandra? Пока тестим данные на Apache Cassandra
источник

TT

Tsh Tsh in Data Engineers
По опыту второй, но все индивидуально от объема и типа данных, специфики задачи
источник

TT

Tsh Tsh in Data Engineers
Мы брали  datastax Cassandra
источник

TT

Tsh Tsh in Data Engineers
Ради графовой бд
источник

AZ

Anton Zadorozhniy in Data Engineers
ScyllaDB тоже ок
источник

Ж

Жмака in Data Engineers
Tsh Tsh
Мы брали  datastax Cassandra
Там вроде лицензия нужна насколько я из сайта понял?
источник

Ж

Жмака in Data Engineers
Anton Zadorozhniy
ScyllaDB тоже ок
Она лицензированна или можно с коммьюнити в продакш?
источник

Ж

Жмака in Data Engineers
Tsh Tsh
По опыту второй, но все индивидуально от объема и типа данных, специфики задачи
Ожидается минимум 500 гига в год, запись 15000 в сек, чтение 3000 в сек
источник

AZ

Anton Zadorozhniy in Data Engineers
Жмака
Она лицензированна или можно с коммьюнити в продакш?
AGPL
источник