Size: a a a

2017 June 13

AM

Aleksander Melnichnikov in Data Engineers
Монга была выбрана для прототипа, т.к. я ее лучше знаю.
источник

GP

Grigory Pomadchin in Data Engineers
Aleksander Melnichnikov
У меня сейчас есть проблема в записи в монгу большого набора данных. Упираюсь сильно, спасет ли меня выкидывание монги и запись тупо в hdfs данных
она не решабельная; можешь попробовать тайгер (если не пробовал) но он создает иллюзию решения
источник

AM

Aleksander Melnichnikov in Data Engineers
С кассандрой работал меньше, да и то, на одном проекте она была в виде кеш хранилища.
источник

GP

Grigory Pomadchin in Data Engineers
какой продакшн размер средний банки будет?
источник

AM

Aleksander Melnichnikov in Data Engineers
Средняя банка это что? Поясните, если можно =)
источник

AM

Aleksander Melnichnikov in Data Engineers
Типа характеристики ноды ?
источник

AM

Aleksander Melnichnikov in Data Engineers
Сейчас у меня под прототип 200 тб хранилище, одна тачка
источник

AM

Aleksander Melnichnikov in Data Engineers
В случае расширения - их закупят.
источник

GP

Grigory Pomadchin in Data Engineers
размер БД да)
источник

GP

Grigory Pomadchin in Data Engineers
мне кажется монга тут не вариант)
источник

AM

Aleksander Melnichnikov in Data Engineers
200 тб по идее. Но никто не посчитал ничего, заставили быстро писать прототип
источник

NK

ID:1373407 in Data Engineers
В разрезе чего тебе парсинг нужно делать. Если есть какая-то потоковость данных простым решением будет использовать спарк джобу которая агрегирует какой-то поток из MQ  ( сам кладешь в кафку ) ,  делает первичную обработку, и сохранет  в протобаф партицированный в нужном расширении.
источник

NK

ID:1373407 in Data Engineers
Далее уже другая джоба ходит по партицированным табличкам и делает всё, что тебе нужно
источник

NK

ID:1373407 in Data Engineers
Это если предполгается какой-то etl по этим данным сложный относительно
источник

NK

ID:1373407 in Data Engineers
Ну и всё не сильно онлайново
источник

JS

Jury Sergeev in Data Engineers
для записи, если исп. агрегация - можно redis-какой нибудь, если надо очень быстро записать, и периодически - сбрасывать в другое хранилище
источник

NK

ID:1373407 in Data Engineers
Ну тут размер пачки не определен, поэтому ин мемори , как мне кажется не подходит
источник

NK

ID:1373407 in Data Engineers
придёт не 20 гигов , а 100 и всё умрет
источник

JS

Jury Sergeev in Data Engineers
ну вдруг кластер есть )
источник

JS

Jury Sergeev in Data Engineers
ну или таки агрегировать сразу в redis
источник