Телеграмм чат группы hadoopusers страница 33

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

1
«
…
‹
28
29
30
31
32
33
34
›
…
»

2017 May 30

AM

Aleksander Melnichnikov in Data Engineers

По идее

источник

11:16пожаловаться #1

ὦ

ὦan in Data Engineers

Даже после добавления памяти он все равно падает

источник

11:17пожаловаться #2

ὦ

ὦan in Data Engineers

с offHeap ошибкой

источник

11:17пожаловаться #3

AM

Aleksander Melnichnikov in Data Engineers

Ну, про что я и говорю. Нужно найти опцию юзать диск при нехватке памяти

источник

11:17пожаловаться #4

ὦ

ὦan in Data Engineers

Aleksander Melnichnikov

Ну, про что я и говорю. Нужно найти опцию юзать диск при нехватке памяти

Видимо это

источник

11:31пожаловаться #5

AM

Aleksander Melnichnikov in Data Engineers

Нет

источник

11:33пожаловаться #6

AM

Aleksander Melnichnikov in Data Engineers

Эта штука делит хип твой на пропорции для спарка и для твоего кода

источник

11:33пожаловаться #7

AM

Aleksander Melnichnikov in Data Engineers

Ой - перепутал с другой опцией

источник

11:34пожаловаться #8

ὦ

ὦan in Data Engineers

я вот прочитал что tasks may split to disk often

источник

11:35пожаловаться #9

ὦ

ὦan in Data Engineers

https://spark.apache.org/docs/latest/configuration.html#memory-management

источник

11:35пожаловаться #10

AM

Aleksander Melnichnikov in Data Engineers

Sometimes, you will get an OutOfMemoryError not because your RDDs don’t fit in memory, but because the working set of one of your tasks, such as one of the reduce tasks in groupByKey, was too large. Spark’s shuffle operations (sortByKey, groupByKey, reduceByKey, join, etc) build a hash table within each task to perform the grouping, which can often be large. The simplest fix here is to increase the level of parallelism, so that each task’s input set is smaller. Spark can efficiently support tasks as short as 200 ms, because it reuses one executor JVM across many tasks and it has a low task launching cost, so you can safely increase the level of parallelism to more than the number of cores in your clusters.

источник

11:35пожаловаться #11

AM

Aleksander Melnichnikov in Data Engineers

В доке написано

источник

11:36пожаловаться #12

ὦ

ὦan in Data Engineers

Ага

источник

11:36пожаловаться #13

ὦ

ὦan in Data Engineers

Значит нужно level of parallelism поднять

источник

11:36пожаловаться #14

AM

Aleksander Melnichnikov in Data Engineers

Это может и не помочь

источник

11:36пожаловаться #15

ὦ

ὦan in Data Engineers

время попробовать

источник

11:37пожаловаться #16

AM

Aleksander Melnichnikov in Data Engineers

На мой взгляд лучше тебе ограничить набор данных. Помнишь опцию sample?

источник

11:37пожаловаться #17

AM

Aleksander Melnichnikov in Data Engineers

Попробуй поиграться с ее значением

источник

11:37пожаловаться #18

AM

Aleksander Melnichnikov in Data Engineers

Например 0.01 - 1% датасета

источник

11:37пожаловаться #19

AM

Aleksander Melnichnikov in Data Engineers

Вообще спарк обычно запускает на тоннах памяти(n-ом количестве машин) и неудивительно, что твоих 8 не хватает

источник

11:38пожаловаться #20

1
«
…
‹
28
29
30
31
32
33
34
›
…
»