Size: a a a

2019 February 26

ЕГ

Евгений Глотов... in Moscow Spark
А не таблица с кучей партиций, из которой выбирается одна?
источник

ЕГ

Евгений Глотов... in Moscow Spark
В которой лежит 1 файл)
источник

AA

Anton Alekseev in Moscow Spark
Сам ручками туда через пут залил. И читаю через read.csv
источник

ЕГ

Евгений Глотов... in Moscow Spark
Странно, откуда тогда прунинг...
источник

AA

Anton Alekseev in Moscow Spark
Евгений Глотов
Странно, откуда тогда прунинг...
Я не совсем понял что происходит при этом обрезании, поэтому буду разбираться.
источник
2019 February 27

AM

Artem Muravlev in Moscow Spark
Доброе утро) Возможно есть функция по объединению 2-ух pairRdd по ключу если типы значений одинаковы(для String - объединяет в Itterable<String>.

Сложность заключается в том что я не знаю сколько итераций join-ов у меня будет. И не хотелось бы вызывать каждый раз функцию map после объединения.
источник

N

Nikolay in Moscow Spark
А как executor получает задания от драйвера? Через какой механизм они пересылаются? Интерестно увидеть прямо класс
источник

N

Nikolay in Moscow Spark
Я бы ожилал , ,что executor слушает сокет.
источник

N

Nikolay in Moscow Spark
Но не нашел такого в классе Executor
источник

N

Nikolay in Moscow Spark
Он похоже через Rpc общается. Типа драйвер может вызвать метод экзекьютера через rpc
источник

AS

Andrey Smirnov in Moscow Spark
надо провести merge двух датафреймов (A и B) по ключу, при этом если запись (может быть только одна или ноль) уже существует, то надо провести по колонкам некоторые операции (сумма, взять min|max и т.д.),
кроме того как сделать left join и пробежаться по всем записям есть другие решения?
источник

AS

Andrey Smirnov in Moscow Spark
интересно, спасибо, есть предположение что будет быстрее (с обеих сторон  несколько десятков милионов записей, по размеру несколько терабайт)?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Да и попроще работать в одной колонке, чем в двух разных, особенно если таких пар колонок сотни
источник

IR

Igor Ruff in Moscow Spark
Всем привет! Данные залиты хайвом. После чего несколько партиций залили спарком. Как оказалось типа данных некоторых полей у этих выгрузок отличаются и если читать спарком все партиции разом, то новые партиции, выгруженные спарком зануляются (все значения none). Если отдельно читать последние партиции, то все ок. Как лучше всего привести к общему знаменателю, не меняя конфиг спарка и его схему?
источник

N

Nikolay in Moscow Spark
А какой формат хранения  у вас
источник

IR

Igor Ruff in Moscow Spark
Orc
источник

A

Artur in Moscow Spark
А если читать только старые партиции? Или если читать все хайвом?
источник

S

Stanislav in Moscow Spark
Igor Ruff
Всем привет! Данные залиты хайвом. После чего несколько партиций залили спарком. Как оказалось типа данных некоторых полей у этих выгрузок отличаются и если читать спарком все партиции разом, то новые партиции, выгруженные спарком зануляются (все значения none). Если отдельно читать последние партиции, то все ок. Как лучше всего привести к общему знаменателю, не меняя конфиг спарка и его схему?
Может прочитать старое и новое, а потом склеить уже дфами?
источник

IR

Igor Ruff in Moscow Spark
Artur
А если читать только старые партиции? Или если читать все хайвом?
Хайвом завтра попробую
источник
2019 March 02

GP

Grigory Pomadchin in Moscow Spark
источник