Size: a a a

2017 June 13

JS

Jury Sergeev in Data Engineers
от задачи зависит
источник

AM

Aleksander Melnichnikov in Data Engineers
Ну сейчас данные явно не приходят пачкой, а потоково =)
источник

JS

Jury Sergeev in Data Engineers
раз потоково - вполне можно in-memory, и сбрасывать в другое хранилище по какому-то эмпирически подобранному правилу...
источник

NK

ID:1373407 in Data Engineers
Aleksander Melnichnikov
Ну сейчас данные явно не приходят пачкой, а потоково =)
а поток на чём строится?
источник

AM

Aleksander Melnichnikov in Data Engineers
Возможно, я не понимаю, вопроса =) В данном случае я имею в виду не передачу потоковых данных(видео, звука), а поток, что данные приходят небольшими кусками, по мере того, как парсеры успевают собирать статистику по площадкам и куда-нибудь ее запихнуть(они парсят постоянно). У меня пока нет никакой пока нормальной инфраструктуры(хочу ее собственно в эту сторону думать, иначе не справлюсь)
источник

JS

Jury Sergeev in Data Engineers
надо заложить масштабирование... kafka или rabbitmq в помощь, как первый приемник, и далее уже куда-то еще
источник

AM

Aleksander Melnichnikov in Data Engineers
А что случится, если я переполню kaffkу?
источник

AM

Aleksander Melnichnikov in Data Engineers
Данные будут поступать быстрее, чем их будут разгребать
источник

NK

ID:1373407 in Data Engineers
Aleksander Melnichnikov
А что случится, если я переполню kaffkу?
не переполнишь
источник

NK

ID:1373407 in Data Engineers
у нее всё конфигурируется, сколько сообщений хранить, сколько дней, какой максимальный объекм
источник

NK

ID:1373407 in Data Engineers
она активно персистит данные на диск
источник

AM

Aleksander Melnichnikov in Data Engineers
Понятно, пойду тогда изучать. Спасибо
источник

NK

ID:1373407 in Data Engineers
You are welcome !
источник

t

tenKe in Data Engineers
Раз уж разговор про очереди зашел
источник

AM

Aleksander Melnichnikov in Data Engineers
Начну с каффки, а дальше подумаю, что еще можно сделать
источник

t

tenKe in Data Engineers
какую очередь лучше под 1.6.3 использовать, если требования - это в первую очередь стабильность работы
источник

t

tenKe in Data Engineers
под спарк 1.6.3
источник

t

tenKe in Data Engineers
RabbitMQ емнип под 2.0+
источник

GP

Grigory Pomadchin in Data Engineers
Aleksander Melnichnikov
Данные будут поступать быстрее, чем их будут разгребать
у меня была такая иниенсивнсть что реплика за основной не успевала никогда; подумай много раз перед тем как использовать монгу в проде
источник

NK

ID:1373407 in Data Engineers
Grigory Pomadchin
у меня была такая иниенсивнсть что реплика за основной не успевала никогда; подумай много раз перед тем как использовать монгу в проде
источник