Телеграмм чат группы hadoopusers страница 15

мы вобще в нашем микрокластере пришли к решению, когда manage сервисы всех решений крутятся на 2-3 выделенных нодах, а весь компьют\сторадж ровно размазан по остальным нодам.

источник

16:05пожаловаться #9

ID:1373407 in Data Engineers

https://www.safaribooksonline.com/library/view/spark-the-definitive/9781491912201/

O’Reilly | Safari

Spark: The Definitive Guide

Learn how to use, deploy, and maintain Apache Spark with this comprehensive guide, written by the creators of the open-source cluster-computing framework. With an emphasis on improvements and new features ... - Selection from Spark: The Definitive Guide [Book]

источник

19:53пожаловаться #10

2017 March 10

Akceptor AkceptorUA [🇺🇦, IF] in Data Engineers

Нам надо сделать приложение, работающее с HDFS\Hive но нужно поддерживать несколько дистрибутивов (Hortonworks\Cloudera\IBM) и стоит вопрос как избежать jar hell работая с либьами самого хадупа в кластере. Есть какие-то best practise? Посоветуйте

источник

16:32пожаловаться #11

2017 March 11

ID:1373407 in Data Engineers

https://www.coursera.org/learn/scala-spark-big-data
Вышел

источник

14:07пожаловаться #12

2017 March 19

ID:1373407 in Data Engineers

как же она быстро говорит в курсе по спарку

источник

15:38пожаловаться #13

ID:1373407 in Data Engineers

еще очень обидело, что скриншоты не обновили под актуальные данные

источник

15:39пожаловаться #14

Sergey Zolotov in Data Engineers

есть в монге коллекция на 100миллионов записей, если юзать агрегатор монги то это занимает вечность и сама база в это время в окололежачем состоянии. на сколько есть смысл юзать спарк чтобы сделать агрегации?

источник

18:46пожаловаться #15

λoλdog in Data Engineers

Sergey Zolotov

Ты это в Спарк будешь загружать вечно)

источник

23:06пожаловаться #16

λoλdog in Data Engineers

Но попробовать нужно

источник

23:06пожаловаться #17

Grigory Pomadchin in Data Engineers