Телеграмм чат группы hadoopusers страница 43

может оказаться, что быстрее всего писать данные куда нибудь в kafka, а потом непосредственно выгребать их и обрабатывать из spark. но не зная откуда приходят данные, как часто, какими пачками, трудно что то определенное сказать... mongodb ведь не просто так изначально появилась?

источник

18:01пожаловаться #12

Aleksander Melnichnikov in Data Engineers

Просто так, я делал прототип. И не думал, что данных будет столько. Чтобы понимать, база данных растет на 20гб каждый день.

источник

18:02пожаловаться #13

Aleksander Melnichnikov in Data Engineers

И это еще где-то 1/15 мощности

источник

18:02пожаловаться #14

Alexander Kapustin in Data Engineers

а насчет вывода данных в веб-приложение - если подразумевается куча adhoc запросов, оперирующих небольшим количеством данных, с произвольной фильтрацией, то ходить за ними в hdfs не самая лучшая идея...

источник

18:03пожаловаться #15

Aleksander Melnichnikov in Data Engineers

Как тогда сделать правильную архитектуру? Выбросить просто старые данные я тоже не могу, потому, что может потребоваться их показать на вебе

источник

18:04пожаловаться #16

Aleksander Melnichnikov in Data Engineers

не зная откуда приходят данные, как часто, какими пачками - данные приходят с парсеров, которые парсят статистику с различных ресурсов, этот процесс постоянный. Какими пачками не знаю, но не очень большими, за день набегает суммарно 20 гб обработанной информации.

источник

18:09пожаловаться #17

Alexander Kapustin in Data Engineers

сложно сказать, не видя всей картины... тут уже скорее речь пойдет о каких то tradeoff'ах между мощностью доступного железа, потоком данных, архитектурой, возможностями системы. данные конечно при записи в hdfs можно пожать, если писать в orc/parquet, чем больше будет пачка данных тем лучше. все описанное немного напоминает идеальный случай для lambda архитектуры, но не уверен до конца. тем более что она не отвечает на вопрос про точный технологический стек

источник

18:11пожаловаться #18

Aleksander Melnichnikov in Data Engineers

С проблемой столкнулся такой, что запись в монгу сильно тормозит парсеры, и они не успевают за день охватить весь объем ресурсов

источник

18:11пожаловаться #19

Alexander Kapustin in Data Engineers

а даннные нативно в json формате? почему именно монга? возможно, стоить рассмотреть cassandra например? у нее с записью все лучше чем у монги, но хватает других моментов, которые могут не подойти

источник

18:12пожаловаться #20