Size: a a a

2022 January 28

ИК

Иван Калининский... in Moscow Spark
вот, полностью приватный класс, пользоваться запрещено, муазаза
источник

ЕГ

Евгений Глотов... in Moscow Spark
Вам как спартицировать?
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ты кстати похож😆
источник

ИК

Иван Калининский... in Moscow Spark
источник

ДД

Джон Дориан... in Moscow Spark
Много маленьких файлов и мало ядер (16 на весь кластер)
источник

DZ

Dmitry Zuev in Moscow Spark
тогда 15 партиций
источник

DZ

Dmitry Zuev in Moscow Spark
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

ДД

Джон Дориан... in Moscow Spark
Т.е. репартиционировать входные данные в сторону укрупнения размера партиций это правильная идея?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Правильная, до тех пор, пока не начнёшь упираться в скорость чтения малого числа файлов с большим размером
источник

ЕГ

Евгений Глотов... in Moscow Spark
128 мегов считать и распаковать тоже время надо
источник

ЕГ

Евгений Глотов... in Moscow Spark
Тем более 256
источник

ЕГ

Евгений Глотов... in Moscow Spark
Там внутри гига 2 будет +-
источник

ДД

Джон Дориан... in Moscow Spark
Понял, спасибо большое за помощь
источник

k

kvadratura in Moscow Spark
еще зависит, как row groups внутри файлов раскиданы. 1 row group в одном файле на 10ГБ будет читаться 1 таской
если в файле 10 row groups, сможете в 10 тасками один файл читать
источник

ЕГ

Евгений Глотов... in Moscow Spark
А 1 row group на 300 гигов не будет читаться...
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

ЕГ

Евгений Глотов... in Moscow Spark
Даже если он запакованный весит 128мб
источник

k

kvadratura in Moscow Spark
взять эхзехутор на 500 гигов, не?
источник