Size: a a a

2021 October 13

ЕГ

Евгений Глотов... in Data Engineers
1 гиг паркета для бродкаста это прям капец уже
источник

ЕГ

Евгений Глотов... in Data Engineers
Придётся память и на драйвере, и на экзекуторах задирать
источник

A

Aleksandr in Data Engineers
окей, понял. спасибо за ответы
источник

OI

Oleg Ilinsky in Data Engineers
всё равно больше 8 гигов в бродкаст не пойдёт
источник

K

KrivdaTheTriewe in Data Engineers
Так в скале как бы тоже помечают
источник

K

KrivdaTheTriewe in Data Engineers
И все мигрируется
источник

A

Aleksandr in Data Engineers
я гиг просто для примера привел. хотел понять можно ли как-то на глаз прикидывать размер паркета и размер дса в памяти
источник

K

KrivdaTheTriewe in Data Engineers
Нужно ещё учитывать , что пример скалы 3 и скалы 2.13 , это разные языки , но они и в ту и другую сторону относительно совместимы
источник

OI

Oleg Ilinsky in Data Engineers
на глаз не получится. Там от данных тоже зависит. Какие-то данные лучше жмутся, какие-то хуже. Можно экспериментально смотреть: прочитать в память, например, и посмотреть, сколько занялось (там с накладными расходами будет, конечно), но хоть как-то
источник

A

Alex in Data Engineers
https://github.com/scala/bug/issues/11742

типо этого когда 2.13.0 и 2.13.1 бинарно несовместимы =)
источник

A

Aleksandr in Data Engineers
вы имеете в виду, что-то типа такого?
import org.apache.spark.util.SizeEstimator
println(SizeEstimator.estimate(distFile))
источник

A

Alex in Data Engineers
перекомпилируется
источник

K

KrivdaTheTriewe in Data Engineers
Не, без перекомпиляции
источник

K

KrivdaTheTriewe in Data Engineers
Ну нашли багу , что поделать
источник

OI

Oleg Ilinsky in Data Engineers
ну это эстимейт. Прогноз, тоже не особо точно) но можно с него начать
источник

K

KrivdaTheTriewe in Data Engineers
Там же была табличка у клаудеры , в которой были запретные версии джавы 8, причем  они были ни первые, ни последние
источник

ЕГ

Евгений Глотов... in Data Engineers
А, блин, там захардкожен лимит
источник

OI

Oleg Ilinsky in Data Engineers
источник

OI

Oleg Ilinsky in Data Engineers
справедливости ради, он довольно большой и покрывает почти все случаи, когда действительно нужен бродкаст)
источник

A

Aleksandr in Data Engineers
кстати, откуда цифра 8-10? личный опыт?
источник