Телеграмм чат группы hadoopusers страница 41

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

1
«
…
‹
36
37
38
39
40
41
42
›
…
»

2017 June 12

NK

ID:68943332 in Data Engineers

вопрос то какой?:)

Я думаю, не первая такая и вопрос классический:

Py4JJavaError: An error occurred while calling o186.collectToPython.
: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 47 tasks (2.0 GB) is bigger than spark.driver.maxResultSize (2.0 GB)

У меня есть датафрейм, есть запрос к нему
sorted(df.groupby('commands').agg({"commands": "count"}).collect())
Суть в том, что как написано выше, мне не хватает памяти на вычисления, но я знаю, что можно решить эту задачу вписываясь в лимит по памяти. Может кто подсказать, в какую сторону копать?

источник

18:52пожаловаться #1

t

tenKe in Data Engineers

а если убрать collect, ошибка будет?

источник

19:09пожаловаться #2

GP

Grigory Pomadchin in Data Engineers

не будет ошибки без коллекта

источник

19:10пожаловаться #3

NK

ID:68943332 in Data Engineers

а если убрать collect, ошибка будет?

не будет

источник

19:10пожаловаться #4

GP

Grigory Pomadchin in Data Engineers

попробуй не собирать на драйвер все; что нужно на драйвере иметь?

источник

19:11пожаловаться #5

t

tenKe in Data Engineers

ID:68943332

не будет

а что дальше с данными происходит?

источник

19:11пожаловаться #6

t

tenKe in Data Engineers

как минимум сортировку можно сделать до коллекта

источник

19:12пожаловаться #7

NK

ID:68943332 in Data Engineers

Grigory Pomadchin

попробуй не собирать на драйвер все; что нужно на драйвере иметь?

У меня в таблице, полученной из логов, есть столбец с коммандами, которые вызывались. Мне нужно получить список комманд отсортированных по количеству вхождений в этот самый столбец и количество вхождений в этот столбец.

источник

19:13пожаловаться #8

GP

Grigory Pomadchin in Data Engineers

Да, Андрей верно сказал, сортируй до коллекта

источник

19:14пожаловаться #9

GP

Grigory Pomadchin in Data Engineers

после мапни, .map(_.command); и после этого только коллект делай,чтоб на драйвер только список комманд пришел

не факт что он тоже влезет

источник

19:14пожаловаться #10

t

tenKe in Data Engineers

как вариант, если с памятью туго, сохраните df.write.json() куда нибудь и дальше считывайте по строчке на здоровье

источник

19:16пожаловаться #11

NK

ID:68943332 in Data Engineers

Grigory Pomadchin

Да, Андрей верно сказал, сортируй до коллекта

сорт по каунту будет выглядеть как df.sort(df.commands.count().desc())?

источник

19:17пожаловаться #12

t

tenKe in Data Engineers

df.orderBy('count.desc) в скале

источник

19:18пожаловаться #13

t

tenKe in Data Engineers

в питоне почти также, только вроде к колонке надо явно обратиться

источник

19:19пожаловаться #14

t

tenKe in Data Engineers

еще можно сделать df.withColumn("count_sorted", sort('count))

источник

19:20пожаловаться #15

NK

ID:68943332 in Data Engineers

еще можно сделать df.withColumn("count_sorted", sort('count))

О, спасибо, нашла в PySpark этот метод

источник

19:27пожаловаться #16

NK

ID:68943332 in Data Engineers

сейчас потестим

источник

19:27пожаловаться #17

t

tenKe in Data Engineers

нзчт)

источник

19:27пожаловаться #18

2017 June 13

NK

ID:1373407 in Data Engineers

@pomadchin ты по таймзоне восточного берега живешь?

источник

12:16пожаловаться #19

GP

Grigory Pomadchin in Data Engineers

ID:1373407

@pomadchin ты по таймзоне восточного берега живешь?

да когда как

источник

12:17пожаловаться #20

1
«
…
‹
36
37
38
39
40
41
42
›
…
»