Телеграмм чат группы hadoopusers страница 44

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

1
«
…
‹
39
40
41
42
43
44
45
›
…
»

2017 June 13

AM

Aleksander Melnichnikov in Data Engineers

Монга была выбрана для прототипа, т.к. я ее лучше знаю.

источник

18:13пожаловаться #1

GP

Grigory Pomadchin in Data Engineers

Aleksander Melnichnikov

У меня сейчас есть проблема в записи в монгу большого набора данных. Упираюсь сильно, спасет ли меня выкидывание монги и запись тупо в hdfs данных

она не решабельная; можешь попробовать тайгер (если не пробовал) но он создает иллюзию решения

источник

18:13пожаловаться #2

AM

Aleksander Melnichnikov in Data Engineers

С кассандрой работал меньше, да и то, на одном проекте она была в виде кеш хранилища.

источник

18:13пожаловаться #3

GP

Grigory Pomadchin in Data Engineers

какой продакшн размер средний банки будет?

источник

18:13пожаловаться #4

AM

Aleksander Melnichnikov in Data Engineers

Средняя банка это что? Поясните, если можно =)

источник

18:14пожаловаться #5

AM

Aleksander Melnichnikov in Data Engineers

Типа характеристики ноды ?

источник

18:15пожаловаться #6

AM

Aleksander Melnichnikov in Data Engineers

Сейчас у меня под прототип 200 тб хранилище, одна тачка

источник

18:16пожаловаться #7

AM

Aleksander Melnichnikov in Data Engineers

В случае расширения - их закупят.

источник

18:16пожаловаться #8

GP

Grigory Pomadchin in Data Engineers

размер БД да)

источник

18:16пожаловаться #9

GP

Grigory Pomadchin in Data Engineers

мне кажется монга тут не вариант)

источник

18:16пожаловаться #10

AM

Aleksander Melnichnikov in Data Engineers

200 тб по идее. Но никто не посчитал ничего, заставили быстро писать прототип

источник

18:17пожаловаться #11

NK

ID:1373407 in Data Engineers

В разрезе чего тебе парсинг нужно делать. Если есть какая-то потоковость данных простым решением будет использовать спарк джобу которая агрегирует какой-то поток из MQ ( сам кладешь в кафку ) , делает первичную обработку, и сохранет в протобаф партицированный в нужном расширении.

источник

18:18пожаловаться #12

NK

ID:1373407 in Data Engineers

Далее уже другая джоба ходит по партицированным табличкам и делает всё, что тебе нужно

источник

18:18пожаловаться #13

NK

ID:1373407 in Data Engineers

Это если предполгается какой-то etl по этим данным сложный относительно

источник

18:19пожаловаться #14

NK

ID:1373407 in Data Engineers

Ну и всё не сильно онлайново

источник

18:19пожаловаться #15

JS

Jury Sergeev in Data Engineers

для записи, если исп. агрегация - можно redis-какой нибудь, если надо очень быстро записать, и периодически - сбрасывать в другое хранилище

источник

18:20пожаловаться #16

NK

ID:1373407 in Data Engineers

Ну тут размер пачки не определен, поэтому ин мемори , как мне кажется не подходит

источник

18:20пожаловаться #17

NK

ID:1373407 in Data Engineers

придёт не 20 гигов , а 100 и всё умрет

источник

18:21пожаловаться #18

JS

Jury Sergeev in Data Engineers

ну вдруг кластер есть )

источник

18:21пожаловаться #19

JS

Jury Sergeev in Data Engineers

ну или таки агрегировать сразу в redis

источник

18:22пожаловаться #20

1
«
…
‹
39
40
41
42
43
44
45
›
…
»