Size: a a a

2017 January 22

GP

Grigory Pomadchin in Data Engineers
курсы под спарк
источник

NK

ID:1373407 in Data Engineers
Grigory Pomadchin
курсы под спарк
хорошо же
источник

NK

ID:1373407 in Data Engineers
Я наконец увижу, как выглядит автор курса )
источник

F

Farruh in Data Engineers
Привет всем, где нибудь пошаговое инструкция есть использование Amazon  кластеры для запуска R Spark или вообще можно в amazon запустить R Spark?
источник

GP

Grigory Pomadchin in Data Engineers
Farruh
Привет всем, где нибудь пошаговое инструкция есть использование Amazon  кластеры для запуска R Spark или вообще можно в amazon запустить R Spark?
источник

F

Farruh in Data Engineers
Спасибо👍👍👍
источник
2017 January 25

NK

ID:1373407 in Data Engineers
Решал ли кто проблему сохранения рдд на хдфс на фиксированное количество файлов?
источник

GP

Grigory Pomadchin in Data Engineers
это бин пэкинг; слишокм обще задачу ты поставил)
источник

NK

ID:1373407 in Data Engineers
а куда обще, есть рдд , по которому нужно сделать сейв ту хдфс и чтобы получилось после сохранения ровно столько то файлов ( или меньше )
источник

NK

ID:1373407 in Data Engineers
В Хайве это решается относительно просто
источник

GP

Grigory Pomadchin in Data Engineers
попробуй разбить на n партиций и засейвить; думаю что 1 партиция будет 1 файл
источник

GP

Grigory Pomadchin in Data Engineers
только это накладывает ограничения на размеры файлов как видишь
источник

GP

Grigory Pomadchin in Data Engineers
но чем больше файлов и чем они меньше тем лучше для спарка
источник

NK

ID:1373407 in Data Engineers
Grigory Pomadchin
попробуй разбить на n партиций и засейвить; думаю что 1 партиция будет 1 файл
да что то не вышло)
источник

GP

Grigory Pomadchin in Data Engineers
попробуй coalesce с и без шафла
источник

GP

Grigory Pomadchin in Data Engineers
еще можешь кастомный партишонер исопльзовать; должно работать)) я про partitionBy
источник

NK

ID:1373407 in Data Engineers
попробовали
источник

NK

ID:1373407 in Data Engineers
про коализ
источник

NK

ID:1373407 in Data Engineers
я думаю забьем
источник

NK

ID:1373407 in Data Engineers
Но хайвом это решается)
источник