Телеграмм чат группы hadoopusers страница 3767

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2586 membersпожаловаться на группу

2021 June 16

N

Nikita Blagodarnyy in Data Engineers

ну вот вычисли экспериментально в какое число портишонов получается нужный тебе размер файлов. зная число строк - получишь некоторый коэффициент К = строк на 1 партицию. Из него можно обратно вычислять количество партиций, зная число строк.

источник

13:29пожаловаться #1

N

Nikita Blagodarnyy in Data Engineers

Но надо понимать, что чем меньше выходных партиций, тем ниже параллелизм и тем медленнее все происходит. Так что файлы в 8 Гб может быть так себе история.

источник

13:30пожаловаться #2

NN

No Name in Data Engineers

И зачем это тебе? Сколько коров/экзекьюторов для процессинга доступно?

источник

13:34пожаловаться #3

UD

Uncel Duk in Data Engineers

Защем

источник

13:35пожаловаться #4

СХ

Старый Хрыч... in Data Engineers

😕потому что 120 млн файлов в hdfs это треш

источник

13:35пожаловаться #5

UD

Uncel Duk in Data Engineers

Видел больше

источник

13:35пожаловаться #6

UD

Uncel Duk in Data Engineers

Дальше чо

источник

13:35пожаловаться #7

AS

Andrey Smirnov in Data Engineers

https://forums.databricks.com/questions/918/how-to-set-size-of-parquet-output-files.html

How to set size of Parquet output files ? - Databricks Community Forum

A community forum to discuss working with Databricks Cloud and Spark

источник

13:35пожаловаться #8

UD

Uncel Duk in Data Engineers

У тебя полно вариантов, от тупых пихнуть больше оперативки в неймноду

источник

13:36пожаловаться #9

UD

Uncel Duk in Data Engineers

До апгрейда

источник

13:36пожаловаться #10

СХ

Старый Хрыч... in Data Engineers

у нейноды свободно 60% хипа

источник

13:36пожаловаться #11

UD

Uncel Duk in Data Engineers

Тогда ты решаешь бесполезную задачу

источник

13:37пожаловаться #12

UD

Uncel Duk in Data Engineers

От листинга тоже можно избавиться в пределах разумного

источник

13:37пожаловаться #13

NN

No Name in Data Engineers

Это не треш, это адекватно. А вот файлы по 8 Гб для спарка уже боль страшная, попробуй потом какой-нибудь джойн сделать, утонешь в шаффл спиле.

источник

13:37пожаловаться #14

СХ

Старый Хрыч... in Data Engineers

не скажи, например когда мы обьединили 10 млн файлов, время расчётов сократилось на 1 час

источник

13:38пожаловаться #15

СХ

Старый Хрыч... in Data Engineers

там авто файлы склеили после флинка

источник

13:38пожаловаться #16

NN

No Name in Data Engineers

Из какого размера в какой?

источник

13:39пожаловаться #17

UD

Uncel Duk in Data Engineers

Хрюч, тыж инжонир

источник

13:39пожаловаться #18

UD

Uncel Duk in Data Engineers

Метрики собери, потом решай

источник

13:39пожаловаться #19

СХ

Старый Хрыч... in Data Engineers

из 30-160 мб, в 4 гб

источник

13:39пожаловаться #20