Телеграмм чат группы hadoopusers страница 3248

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2308 membersпожаловаться на группу

2021 February 13

DN

Dmitriy Novikov in Data Engineers

Всем привет, есть кто в БД шарит?
Вопрос: есть один запрос - 3 таблицы связаны лефт джойнами
можно же его разбить на два - сначала 2 связать. потом третью к результату?

можно

источник

00:20пожаловаться #1

DN

Dmitriy Novikov in Data Engineers

только я не понимаю что изменилось?)

источник

00:20пожаловаться #2

DN

Dmitriy Novikov in Data Engineers

все равно 3 джойна останется

источник

00:21пожаловаться #3

SS

Sergey Shushkov in Data Engineers

Иногда легче так киллометровые папирусы раскуривать )

источник

00:23пожаловаться #4

nn

nasdaq nice in Data Engineers

Всем привет, есть кто в БД шарит?
Вопрос: есть один запрос - 3 таблицы связаны лефт джойнами
можно же его разбить на два - сначала 2 связать. потом третью к результату?

Union????

источник

00:23пожаловаться #5

VS

Vadim Shatalov in Data Engineers

Dmitriy Novikov

только я не понимаю что изменилось?)

спарк екзекьютор на airflow валится по памяти если все 3 сразу вязать
свяжу сначала первые две - в паркет
потом второй таской - второй джойн - и тоже в паркет
параметрами кластера и ярна увы рулить не могу

источник

00:27пожаловаться #6

DN

Dmitriy Novikov in Data Engineers

спарк екзекьютор на airflow валится по памяти если все 3 сразу вязать
свяжу сначала первые две - в паркет
потом второй таской - второй джойн - и тоже в паркет
параметрами кластера и ярна увы рулить не могу

а ну вот и проблема :) просто абстрактный вопрос "есть кто в БД шарит?" как то сбивает с толку

источник

00:28пожаловаться #7

VS

Vadim Shatalov in Data Engineers

Dmitriy Novikov

а ну вот и проблема :) просто абстрактный вопрос "есть кто в БД шарит?" как то сбивает с толку

Ну там же не просто про "шарит" - там дальше конкретный вопрос был )

источник

00:31пожаловаться #8

NN

No Name in Data Engineers

спарк екзекьютор на airflow валится по памяти если все 3 сразу вязать
свяжу сначала первые две - в паркет
потом второй таской - второй джойн - и тоже в паркет
параметрами кластера и ярна увы рулить не могу

Если Вы эти джойны искусственно не прерываете записью или же кэшированием с последующим кантом, например, то планировщик все равно свяжет их в один пайплайн, и получится то же самое. Трансформы в спарке лейзи, и это позволяет оптимизатору поставить один оптимальный (на его взгляд) пайплайн.

источник

01:07пожаловаться #9

VS

Vadim Shatalov in Data Engineers

Если Вы эти джойны искусственно не прерываете записью или же кэшированием с последующим кантом, например, то планировщик все равно свяжет их в один пайплайн, и получится то же самое. Трансформы в спарке лейзи, и это позволяет оптимизатору поставить один оптимальный (на его взгляд) пайплайн.

Да, я в курсе и про лейзи и про каталист
Но рвать на куски запросы приходится из-за этой ошибки

источник

01:12пожаловаться #10

VS

Vadim Shatalov in Data Engineers

Просто данных реально много

источник

01:12пожаловаться #11

VS

Vadim Shatalov in Data Engineers

Вот такой вот даг в АФ реальный выходит - данные между тасками передаются через паркет таблицы

источник

01:15пожаловаться #12

NN

No Name in Data Engineers

Просто данных реально много

Тогда могу стандартные вопросы задать - не пробовали увеличить количество партиций? Проверяли, нет ли skew? Не делаете ли что-нибудь вроде .toPandas на гигантский датасет?

источник

01:17пожаловаться #13

NN

No Name in Data Engineers

Само собой, не говоря о том, что, может быть, излишне много шаффла, и можно как-нибудь оптимизировать запрос?

источник

01:18пожаловаться #14

VS

Vadim Shatalov in Data Engineers

нет - никаких toPandas и сторонних питоновких либ - только чистый pyspark
по партициям - нет - еще не пробовал рулить - но я правильно понимаю - что система все равно партиционирует таблицу сама, без явного указания с моей стороны на сколько - и тут хорошо бы почитать какие то бест практисы по этому делу
skew - это что?

источник

01:20пожаловаться #15

VS

Vadim Shatalov in Data Engineers

skew - нашел сам кое-что - читаю - спасибо за поинт

источник

01:23пожаловаться #16

NN

No Name in Data Engineers

нет - никаких toPandas и сторонних питоновких либ - только чистый pyspark
по партициям - нет - еще не пробовал рулить - но я правильно понимаю - что система все равно партиционирует таблицу сама, без явного указания с моей стороны на сколько - и тут хорошо бы почитать какие то бест практисы по этому делу
skew - это что?

Data skew - просто перекос в данных, в результате чего может так получиться, что большая часть данных валится на один единственный экзекутор, который потом захлёбывается, и его отстреливает ярн. Проверьте равномерность распределения.

источник

01:24пожаловаться #17

NN

No Name in Data Engineers

нет - никаких toPandas и сторонних питоновких либ - только чистый pyspark
по партициям - нет - еще не пробовал рулить - но я правильно понимаю - что система все равно партиционирует таблицу сама, без явного указания с моей стороны на сколько - и тут хорошо бы почитать какие то бест практисы по этому делу
skew - это что?

После всех широких трансформаций типа джойнов, групбая и т.д. у вас будет шаффл. По умолчанию в результате этого получится датафрейм с количеством партиций, равным параметру spark.sql.shuffle.partitions. Если Вы его не меняли, то он будет равен 200

источник

01:26пожаловаться #18

VS

Vadim Shatalov in Data Engineers

кластер на клоудере 5.3 вроде и настраивал его не я , и доступа туда нет

источник

01:27пожаловаться #19

NN

No Name in Data Engineers

кластер на клоудере 5.3 вроде и настраивал его не я , и доступа туда нет

Если вы про этот параметр, то его можно установить самостоятельно при инициализации спарк-сессии

источник

01:29пожаловаться #20