Size: a a a

2017 May 30

AM

Aleksander Melnichnikov in Data Engineers
По идее
источник

ὦan in Data Engineers
Даже после добавления памяти он все равно падает
источник

ὦan in Data Engineers
с offHeap ошибкой
источник

AM

Aleksander Melnichnikov in Data Engineers
Ну, про что я и говорю. Нужно найти опцию юзать диск при нехватке памяти
источник

ὦan in Data Engineers
Aleksander Melnichnikov
Ну, про что я и говорю. Нужно найти опцию юзать диск при нехватке памяти
Видимо это
источник

AM

Aleksander Melnichnikov in Data Engineers
Нет
источник

AM

Aleksander Melnichnikov in Data Engineers
Эта штука делит хип твой на пропорции для спарка и для твоего кода
источник

AM

Aleksander Melnichnikov in Data Engineers
Ой - перепутал с другой опцией
источник

ὦan in Data Engineers
я вот прочитал что tasks may split to disk often
источник

ὦan in Data Engineers
источник

AM

Aleksander Melnichnikov in Data Engineers
Sometimes, you will get an OutOfMemoryError not because your RDDs don’t fit in memory, but because the working set of one of your tasks, such as one of the reduce tasks in groupByKey, was too large. Spark’s shuffle operations (sortByKey, groupByKey, reduceByKey, join, etc) build a hash table within each task to perform the grouping, which can often be large. The simplest fix here is to increase the level of parallelism, so that each task’s input set is smaller. Spark can efficiently support tasks as short as 200 ms, because it reuses one executor JVM across many tasks and it has a low task launching cost, so you can safely increase the level of parallelism to more than the number of cores in your clusters.
источник

AM

Aleksander Melnichnikov in Data Engineers
В доке написано
источник

ὦan in Data Engineers
Ага
источник

ὦan in Data Engineers
Значит нужно level of parallelism поднять
источник

AM

Aleksander Melnichnikov in Data Engineers
Это может и не помочь
источник

ὦan in Data Engineers
время попробовать
источник

AM

Aleksander Melnichnikov in Data Engineers
На мой взгляд лучше тебе ограничить набор данных. Помнишь опцию sample?
источник

AM

Aleksander Melnichnikov in Data Engineers
Попробуй поиграться с ее значением
источник

AM

Aleksander Melnichnikov in Data Engineers
Например 0.01 - 1% датасета
источник

AM

Aleksander Melnichnikov in Data Engineers
Вообще спарк обычно запускает на тоннах памяти(n-ом количестве машин) и неудивительно, что твоих 8 не хватает
источник