Телеграмм чат группы hadoopusers страница 3768

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2586 membersпожаловаться на группу

2021 June 16

NN

No Name in Data Engineers

Ну, я так понимаю, мб листинг сократился из-за того, что вы неймноду разгрузили. А расчеты там какие у вас - дохера широких трансформаций, или в основном всякие селекты и выгрузки?

источник

13:45пожаловаться #1

СХ

Старый Хрыч... in Data Engineers

фуллсканы, после которых идёт обогощение

источник

13:46пожаловаться #2

СХ

Старый Хрыч... in Data Engineers

и запись

источник

13:46пожаловаться #3

AZ

Anton Zadorozhniy in Data Engineers

Мелкие файлы не только неймноду травмируют, джобы тоже тормозят

источник

13:46пожаловаться #4

NN

No Name in Data Engineers

А, ну, тогда наверное, для тебя это норм решение.

источник

13:46пожаловаться #5

СХ

Старый Хрыч... in Data Engineers

у нас сплошные фуллсканы

источник

13:46пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

Колоночное сжатие работает тем лучше чем больше файл, меньше данных с дисков (в сумме)поднимать надо

источник

13:47пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

Это первое что надо делать в любом даталейке, внедрять мониторинг размеров файлов, наказывать виновных, давать плохим командам джобы для компакции

источник

13:48пожаловаться #8

NN

No Name in Data Engineers

Блин, я вот сколько през не посмотрел, в том числе от тех же датабриксов - все как один говорят, что лучше файлы по 100-200 мб примерно, потому что эмпирически так шаффла меньше. Ну и у меня опыт такой же, здоровенные файлы ничего, кроме проблем, не вызывали - еле читаются, параллелизм снижается.

источник

13:48пожаловаться #9

А

Алексей in Data Engineers

dw.write.option("maxRecordsPerFile", N")

источник

13:49пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

200 мб это не мелкие файлы)

источник

13:49пожаловаться #11

А

Алексей in Data Engineers

какая разница, если спарк прочитает в партиции по 128мб?

источник

13:50пожаловаться #12

NN

No Name in Data Engineers

А, ну тогда ок. А то я часто с мнением встречаюсь, что в хадупе ничего, кроме гигабайтных файлов, не должно быть.

источник

13:52пожаловаться #13

NN

No Name in Data Engineers

Ну, вообще-то нет. Я вот на сколько партиций разбиваю при сохранении, вот именно столько тасок у меня и поднимается потом, если я потом эту табличку читаю, например.

источник

13:53пожаловаться #14

А

Алексей in Data Engineers

я тестил, менял настройку spark.sql.files.maxPartitionBytes и у меня менялось число партиций на входе

источник

13:53пожаловаться #15

NN

No Name in Data Engineers

Ну так и я тестил, и у меня тасок ровно столько, сколько партиций было создано.
Мб это зависит от формата/метастора/etc?

источник

13:54пожаловаться #16

А

Алексей in Data Engineers

странно, может файл был записан в 1 блок, как в соседнем чате обсуждалось. Надо еще раз проверить..

источник

13:56пожаловаться #17

СХ

Старый Хрыч... in Data Engineers

ну у нас орки

источник

13:56пожаловаться #18

NN

No Name in Data Engineers

У нас тоже

источник

13:56пожаловаться #19

СХ

Старый Хрыч... in Data Engineers

у нас орк и авро, - 80% орков и 20% авро

источник

13:56пожаловаться #20