Size: a a a

2017 May 30

AM

Aleksander Melnichnikov in Data Engineers
У меня на моей машине 64 Гб иногда выжирает
источник

AM

Aleksander Melnichnikov in Data Engineers
Но для тестов использую кластер, и там уже оч много памяти
источник

AM

Aleksander Melnichnikov in Data Engineers
Или вот . Идея лучше
источник

AM

Aleksander Melnichnikov in Data Engineers
У тебя вся проблема в том, что при получении данных на драйвер - у тебя падает с ООМ. Есть решение, в коде разделить rdd на мелкие, и последовательно их получать, выводить данные
источник

ὦan in Data Engineers
Ну я сейчас сделал sample и запустил
источник

AM

Aleksander Melnichnikov in Data Engineers
Тогда у тебя в драйвером процессе не сразу загрузится весь хип, а только часть. А то, что мы там шаманим с памятью спарка - это все фигня, он по идее по дефолту юзает диск и не упадет
источник

AM

Aleksander Melnichnikov in Data Engineers
Не падает ?
источник

ὦan in Data Engineers
и упал
источник

AM

Aleksander Melnichnikov in Data Engineers
0.001
источник

ὦan in Data Engineers
источник

AM

Aleksander Melnichnikov in Data Engineers
Ставь 0.01
источник

ὦan in Data Engineers
Все еще падает
источник

ὦan in Data Engineers
Да что за
источник

AM

Aleksander Melnichnikov in Data Engineers
А какого размера файл то? Который он грузит
источник

ὦan in Data Engineers
сейчас
источник

AM

Aleksander Melnichnikov in Data Engineers
Поиграй со значением семпла попробуй 0.001, 0.0001
источник

ὦan in Data Engineers
633 метра
источник

ὦan in Data Engineers
самый большое
источник

AM

Aleksander Melnichnikov in Data Engineers
А скинь код, что-ли
источник

ὦan in Data Engineers
секунду
источник