Size: a a a

2021 September 29

ПФ

Паша Финкельштейн... in Moscow Spark
Для всех популярных форматов несложно прочитать метадату и составить из неё структуру датафрейма
источник

ЕГ

Евгений Глотов... in Moscow Spark
.parquet, .orc, .format(...), .load, и т д)
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ага, и все они кроме load тривиальные
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Более того, для всех вот этих csv, orc, json, parquet, avro мы уже показываем схему пользователю
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Для jdbc это умеет датагрип
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Сложно конечно если там только в рантайме появляется имя откуда читать
источник

ЕГ

Евгений Глотов... in Moscow Spark
Мне кажется, лучше научить разработчиков с самого начала культурно вынести конфигурацию в отдельный файл
источник

ЕГ

Евгений Глотов... in Moscow Spark
Где будут все инпуты и аутпуты
источник

ЕГ

Евгений Глотов... in Moscow Spark
И из этого за 0.05 сек строится линедж сам по себе без костылей
источник

ПФ

Паша Финкельштейн... in Moscow Spark
А ещё лучше научить разработчиков без багов писать
источник

ЕГ

Евгений Глотов... in Moscow Spark
Не, ну не до такой же степени😆
источник

ЕГ

Евгений Глотов... in Moscow Spark
Дейкстра сказал: если отладка - это процесс исправления ошибок, то кодирование - это процесс внесения ошибок)
источник

KR

Kagermanov Ramazan in Moscow Spark
Подскажите, если у меня таблица из 8кк записей(500мб) разбивается на 20 партиций, а количество ядер 144, как лучше поступить?
В конфиге прописано
Макс размер файла 1024*1024*144
источник

ПФ

Паша Финкельштейн... in Moscow Spark
repartition 1
источник

ЕГ

Евгений Глотов... in Moscow Spark
Эти настройки чёт нихрена не работают, лучше просто сделать read.(...).repartition(144)
источник

ЕГ

Евгений Глотов... in Moscow Spark
И дальше с этим работать уже
источник

KR

Kagermanov Ramazan in Moscow Spark
А зачем на 1 партицию бить?
источник

KR

Kagermanov Ramazan in Moscow Spark
Репартишион как-то долго выполняется
источник

ЕГ

Евгений Глотов... in Moscow Spark
На 500мб данных не должен вроде
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну там 500 метров же, одной ноды хватит, а шаффлов не будет
источник