Size: a a a

2021 July 30

AK

Andrew Konstantinov in Moscow Spark
понедельно
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Спасибо. Я имею в виду как это было сделано технически?
источник

AK

Andrew Konstantinov in Moscow Spark
техничеки спарком
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Откуда он знал что ему нужно в новую директорию класть?
источник

AK

Andrew Konstantinov in Moscow Spark
read parquet с указанным path
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Видимо write. Ну то есть мы понимаем что это не партиции Спарка, да?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Вам нужно преобразовать данные в наборе директорий, которые для Спарка никак не связаны
источник

ПФ

Паша Финкельштейн... in Moscow Spark
У третьего Спарка есть флаг recursiveFileLookup, если его выставить в true - будет искать рекурсивно
источник

ПФ

Паша Финкельштейн... in Moscow Spark
До трёшки такого флага нет и надо изобретать что-то руками. Например цикл
источник

ЕГ

Евгений Глотов... in Moscow Spark
А партиции как называются, name=value?
источник

ЕГ

Евгений Глотов... in Moscow Spark
А в чём кстати проблема циклом пройтись😐
источник

AK

Andrew Konstantinov in Moscow Spark
week=2020-07-01
источник

AK

Andrew Konstantinov in Moscow Spark
о как -у меня как раз 3й спарк-попробую
источник

ЕГ

Евгений Глотов... in Moscow Spark
Тогда изи spark.read.parquet.withColumn(...).write.partitionBy("week").save(...)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Спарк такой нейминг сам учитывает для создания колонки
источник

ЕГ

Евгений Глотов... in Moscow Spark
И записывает так же
источник

ЕГ

Евгений Глотов... in Moscow Spark
Не нужны никакие рекурсивные файлы
источник

VI

Vladimir Ilyushkin in Moscow Spark
В этот момент он место не забивает на кластере думаю из за  указанного хинта броадкаст.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Поэтому и был вопрос, насколько маленькие остальные 5 таблиц - если они все влезают в броадкаст, то да, в память всё вычитываться не будет, так же как и шаффлиться)
источник

VI

Vladimir Ilyushkin in Moscow Spark
И не понятно почему с датафреймами он отрабатывает при таких ресурсах.
источник