Телеграмм чат группы hadoopusers страница 4314

В плане сортировки, можете на данных посмотреть, что получится, если первым в сортировку поставить уникальный id, а потом делать сортировку по остальным полям.
К примеру таблица 5 млрд строк. Сортировка по уникальному id разобьет на 5 млрд подгрупп длиной по 1 строке. И упорядочивание по последующим колонкам станет бессмысленным, бинарный алгоритм работать по ним не сможет.
Сортировка вначале по статусу из 2х уник значений разобьет на 2 подгруппы к примеру 1 и 4 млрд строк .
Далее сортировка по столбцу с 12 уник. зн. разобьет каждую подгруппу на 12 подгрупп.
То есть при таком подходе каждый шаг оставит диапазон строк для последующей сортировки.

источник

21:13пожаловаться #6

Vladislav 👻 Shishkov... in Data Engineers

Какие подгруппы, вам надо сегментировать по нодам, если вы не возьмете сегменты по уникальности, у вас будет перекос данных на нодах и перегрузка нод на запросах

источник

21:14пожаловаться #7

РБ

Руслан Бикмаев... in Data Engineers

Сегментацию проекции делают обычно такую же, как и список order by. Или исключая из них часть колонок.
В таком случае перекос между нодами возможен только при фильтрации для выгрузки в витрину или при ограничении в джоине.
С перекосом, который сильно мешает жить почти не сталкивался, обычно или его не видно или в пределах 10%.
Один раз заметили перекос, но разбираться не стали.
А вот зависы при селектах к витринам, или при сборке данных приходится чинить часто.
По моему сегментация по унику или его хэшу даст идеальный баланс между нодами, но и максимальную нагрузку при записи туда данных. Это предположение, теоретически, на реальных данных это не тестил. Если вы эту тему испытывали, плз опыт в студию.

источник

21:35пожаловаться #8

Vladislav 👻 Shishkov... in Data Engineers

Принес опыт в студию, 5 летний, свежий

источник

21:37пожаловаться #9

2021 October 09

Артем in Data Engineers

Добрый день! Подскажите, необходимо написать сервис по переносу данных из реляционной бд в Hadoop (hive), насколько актуально сейчас использовать sqoop? На официальном сайте написано что проект вышел из эксплуатации, есть ли аналоги ?

источник

15:47пожаловаться #10

ЕГ

Евгений Глотов... in Data Engineers

spark.read.jdbc

источник

16:01пожаловаться #11

ЕГ

Евгений Глотов... in Data Engineers

Наверняка ещё понадобится потом и обработать данные в хайве)

источник

16:02пожаловаться #12

Артем in Data Engineers

Спасибо, поизучаю

источник

16:40пожаловаться #13

Никита in Data Engineers

Я продолжаю использовать sqoop, потому-что там автоматическая логика разбиения на сплиты. В spark тебе нужно руками вбивать max(Id), min(id) lowerbound upperbound

источник

19:06пожаловаться #14

Attenuator in Data Engineers

тоже смотрю в сторону sqoop, но то что проект мертвый меня останавливает

источник

19:43пожаловаться #15

No Name in Data Engineers

Дело такое, смотреть в его сторону можно, но его в стеке уже редко можно встретить, а в дальнейшем ещё реже будет, очевидно, если его кто-нибудь не реанимирует. Потому завязываться на него - такое себе, в итоге следующие за Вами поколения инженеров будут все переписывать.

источник

19:48пожаловаться #16

No Name in Data Engineers

Наверное)

источник

19:48пожаловаться #17

Анна in Data Engineers

Ты амбассадор спарка 😏

источник

19:51пожаловаться #18

No Name in Data Engineers

Евангелист!