Size: a a a

2017 June 13

t

tenKe in Data Engineers
NiFi
источник

t

tenKe in Data Engineers
Точнее даже не просто NiFi, а отдельный кластер HDF
источник

AM

Aleksander Melnichnikov in Data Engineers
Привет всем! Есть вопрос по hdfs, насколько быстрее писать в кластер хадупа? И быстрее ли это чем писать в монго? Нужно понимание
источник

AM

Aleksander Melnichnikov in Data Engineers
В монго я пишу голые данные, без доп индексов, кроме id
источник

NK

ID:68943332 in Data Engineers
Aleksander Melnichnikov
Привет всем! Есть вопрос по hdfs, насколько быстрее писать в кластер хадупа? И быстрее ли это чем писать в монго? Нужно понимание
Насколько быстрее чем что?
источник

NK

ID:68943332 in Data Engineers
HDFS достаточно нерасторопна
источник

AM

Aleksander Melnichnikov in Data Engineers
Неправильно сформулировал
источник

AM

Aleksander Melnichnikov in Data Engineers
У меня сейчас есть проблема в записи в монгу большого набора данных. Упираюсь сильно, спасет ли меня выкидывание монги и запись тупо в hdfs данных
источник

AK

Alexander Kapustin in Data Engineers
быстрее всего в /dev/null писать, что дальше с данными предполагается делать то? странно выбирать средство только по одному критерию...
источник

AM

Aleksander Melnichnikov in Data Engineers
Обработка на кластере спарка, построение моделей машинного обучения
источник

AM

Aleksander Melnichnikov in Data Engineers
А так же чтение и вывод в веб приложение голых данных
источник

AK

Alexander Kapustin in Data Engineers
может оказаться, что быстрее всего писать данные куда нибудь в kafka, а потом непосредственно выгребать их и обрабатывать из spark. но не зная откуда приходят данные, как часто, какими пачками, трудно что то определенное сказать... mongodb ведь не просто так изначально появилась?
источник

AM

Aleksander Melnichnikov in Data Engineers
Просто так, я делал прототип. И не думал, что данных будет столько. Чтобы понимать, база данных растет на 20гб каждый день.
источник

AM

Aleksander Melnichnikov in Data Engineers
И это еще где-то 1/15 мощности
источник

AK

Alexander Kapustin in Data Engineers
а насчет вывода данных в веб-приложение - если подразумевается куча adhoc запросов, оперирующих небольшим количеством данных, с произвольной фильтрацией, то ходить за ними в hdfs не самая лучшая идея...
источник

AM

Aleksander Melnichnikov in Data Engineers
Как тогда сделать правильную архитектуру? Выбросить просто старые данные я тоже не могу, потому, что может потребоваться их показать на вебе
источник

AM

Aleksander Melnichnikov in Data Engineers
не зная откуда приходят данные, как часто, какими пачками - данные приходят с парсеров, которые парсят статистику с различных ресурсов, этот процесс постоянный. Какими пачками не знаю, но не очень большими, за день набегает суммарно 20 гб обработанной информации.
источник

AK

Alexander Kapustin in Data Engineers
сложно сказать, не видя всей картины... тут уже скорее речь пойдет о каких то tradeoff'ах между мощностью доступного железа, потоком данных, архитектурой, возможностями системы. данные конечно при записи в hdfs можно пожать, если писать в orc/parquet, чем больше будет пачка данных тем лучше. все описанное немного напоминает идеальный случай для lambda архитектуры, но не уверен до конца. тем более что она не отвечает на вопрос про точный технологический стек
источник

AM

Aleksander Melnichnikov in Data Engineers
С проблемой столкнулся такой, что запись в монгу сильно тормозит парсеры, и они не успевают за день охватить весь объем ресурсов
источник

AK

Alexander Kapustin in Data Engineers
а даннные нативно в json формате? почему именно монга? возможно, стоить рассмотреть cassandra например? у нее с записью все лучше чем у монги, но хватает других моментов, которые могут не подойти
источник