Телеграмм чат группы hadoopusers страница 3766

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2582 membersпожаловаться на группу

2021 June 16

СХ

Старый Хрыч... in Data Engineers

я хочу чтобы фацлы были по 4-8 гб

источник

13:20пожаловаться #1

N

Nikita Blagodarnyy in Data Engineers

ты посмотри сколько было «выходных» партиций. и +- пропорционально уменьши их число.

источник

13:21пожаловаться #2

ME

Max Efremov in Data Engineers

Можно по числу строк делить

источник

13:21пожаловаться #3

AZ

Anton Zadorozhniy in Data Engineers

очень просто: перед запуском джоба ходим в каталог чтобы посмотреть сколько данных прошлый инстанс джоба поставил, считаем оптимальное количество партиций в зависимости от числа экзекьюторов, передаем как параметр джобу

источник

13:21пожаловаться #4

СХ

Старый Хрыч... in Data Engineers

там каждый день всё записывается в 0

источник

13:21пожаловаться #5

ME

Max Efremov in Data Engineers

Мы так по миллиону csv делили, чтобы excel открывал

источник

13:21пожаловаться #6

N

Nikita Blagodarnyy in Data Engineers

там нет линейной арифметической зависимости ибо сжатие

источник

13:21пожаловаться #7

СХ

Старый Хрыч... in Data Engineers

нам не нужен exel, у нас фуллсканы

источник

13:22пожаловаться #8

N

Nikita Blagodarnyy in Data Engineers

ну не знаю насчет параметра, объем данных то может меняться каждый раз. можно опираться на примерно одинаковый всегда размер строки.

источник

13:23пожаловаться #9

СХ

Старый Хрыч... in Data Engineers

то есть сначала берётся данные из флинков, добавляются ещё данные из кафки другой подсистемы, и снова записывается на диски

источник

13:23пожаловаться #10

СХ

Старый Хрыч... in Data Engineers

размер данных каждый день разный, но в пределах 10-12 тб

источник

13:23пожаловаться #11

N

Nikita Blagodarnyy in Data Engineers

Я не понимаю, что это значит.

источник

13:23пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

да, можно прям аналитику небольшую перед запуском делать, учитывать сезонность...

источник

13:24пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

это же спарк, тут каждый дата инженер сам себе оптимизатор

источник

13:24пожаловаться #14

N

Nikita Blagodarnyy in Data Engineers

это уже тянет на стартап с бигдатой и машын ленингом

источник

13:24пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers

я видел такую логику перед запуском джоба в самых обычных даталейках, в зависимости от дня недели считали разное число партиций

источник

13:25пожаловаться #16

ME

Max Efremov in Data Engineers

Взять датасет, поделить на число строк, получить средний размер строки. И от них считать, сколько строк в файл

источник

13:25пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

короче нужен способ "предсказать" размер выходного датасета, это можно сделать хорошо или плохо, тут уж каждый для себя решает

источник

13:26пожаловаться #18

ME

Max Efremov in Data Engineers

Если погрешность в сотню-другую мегабайт возможна

источник

13:27пожаловаться #19

AZ

Anton Zadorozhniy in Data Engineers

собсно то что оптимизаторы в СУБД делают

источник

13:28пожаловаться #20