Телеграмм чат группы moscowspark страница 845

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1167 membersпожаловаться на группу

2021 October 11

NZ

Nastya Zhuk in Moscow Spark

если надо памятку тоже могу выкопать

апд «памятка» https://email.jugru.org/view.html?x=a62e&m=7pdYE&u=sh2Nv&z=IcBB4hG&o=pp_1

email.jugru.org

Памятка участника SmartData 2021

источник

21:48пожаловаться #1

GP

Grigory Pomadchin in Moscow Spark

🔥

источник

21:48пожаловаться #2

GP

Grigory Pomadchin in Moscow Spark

а есть?)

источник

21:48пожаловаться #3

NZ

Nastya Zhuk in Moscow Spark

у саппорта все есть. это в бигдате я ничего не понимаю

источник

21:49пожаловаться #4

2021 October 12

VI

Vladimir Ilyushkin in Moscow Spark

Апну

источник

09:07пожаловаться #5

А

Алексей in Moscow Spark

использую, у меня работает в таком виде, как написано

источник

09:36пожаловаться #6

ИК

Иван Калининский... in Moscow Spark

Должно работать строго так, как описано. Можно подробнее кейс, как сделана запись, что в сторадже?

И я не использую spark.sql.files.maxPartitionBytes. Этот параметр и spark.sql.files.openCostInBytes подобны двум бамбуковым палочкам, которыми нужно сложить дом из камней))

У меня есть возможность делать свои имплементации FileSourceScanExec, я делаю чтение, как нужно. Соединяю «соседние» по определенным признакам файлы, или читаю строго по файлам. Как мне нужно, так и читаю.

источник

12:20пожаловаться #7

VI

Vladimir Ilyushkin in Moscow Spark

Читал статью где про это описывается https://www.google.com/url?sa=t&source=web&rct=j&url=https://medium.com/swlh/spark-parallelization-key-factors-24e77065d523&ved=2ahUKEwiguKr7yMTzAhXpkIsKHdOaDYYQFnoECAUQAQ&usg=AOvVaw0ugeNKNzBa2ycBZcOTR-A7

источник

12:36пожаловаться #8

VI

Vladimir Ilyushkin in Moscow Spark

Пробую применить к большой табличке примерно 3тб. Не работает.

источник

12:37пожаловаться #9

ИК

Иван Калининский... in Moscow Spark

таблица читается для пересохранения, или делается groupBy().agg() или df.count?

источник

12:40пожаловаться #10

VI

Vladimir Ilyushkin in Moscow Spark

Читается с фильтром без группировки

источник

12:41пожаловаться #11

ИК

Иван Калининский... in Moscow Spark

должно получаться порядка 15000 партиций в RDD, если это таблица 3 Тб, состоящая из файлов в разделяемом формате: parquet, ORC, несжатые csv, json

источник

12:48пожаловаться #12

VI

Vladimir Ilyushkin in Moscow Spark

Партиций примерно 33500, тип таблицы паркет.

источник

12:52пожаловаться #13

ИК

Иван Калининский... in Moscow Spark

33500 партиций - в смысле hive партиции, папки в сторадже?

источник

12:53пожаловаться #14

VI

Vladimir Ilyushkin in Moscow Spark

Это что возвращает функция getNumPartition

источник

12:55пожаловаться #15

ИК

Иван Калининский... in Moscow Spark

ну, вполне может быть, скорее потому, что maxPartitionBytes не изменён, а стандартный, 128Мб

источник

12:56пожаловаться #16

VI

Vladimir Ilyushkin in Moscow Spark

Я пытался поставить 200мб их должно было стать в двое меньше примерно

источник

12:57пожаловаться #17

VI

Vladimir Ilyushkin in Moscow Spark

Но не работает

источник

12:57пожаловаться #18

ИК

Иван Калининский... in Moscow Spark

spark.read
.option("spark.sql.files.maxPartitionBytes", 200 * 1024 * 1024)
.table(table_name)

источник

13:03пожаловаться #19

ИК

Иван Калининский... in Moscow Spark

попробуй так, чтобы не спарк уклонился))

источник

13:03пожаловаться #20