Телеграмм чат группы hadoopusers страница 1686

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 October 11

M

Mi in Data Engineers

Есть в чате знатоки спарка? Вопрос - делаю leftsemi джойн двух датафремов и вижу что проиходит полный шафл правого датафрейма, хотя от него нужна только одна колонка. Т.е. по сути мне нужно сделать селект одной колонки правого датафрейма чтобы все было в разы быстрее. Почему catalyst такое не ловит? Есть ли ишью(я не нашел)?

Так там может шафл одной колонки и происходит? Ещё наверное зависит от того какой кондишн

источник

13:39пожаловаться #1

K

Kirill in Data Engineers

df2 = охуенно широкая таблица с 100500 колонок
df1 = охуенно высокая таблица с 100500 строк

df1.join(df2, on=key, how=left_semi)

источник

13:40пожаловаться #2

K

Kirill in Data Engineers

В самом спарке в org/apache/spark/sql/catalyst/optimizer/Optimizer.scala:836 вот такое:

LeftSemi is kind of an
        // inner join, it just drops the right side in the final output.

источник

13:41пожаловаться #3

M

Mi in Data Engineers

В самом спарке в org/apache/spark/sql/catalyst/optimizer/Optimizer.scala:836 вот такое:

LeftSemi is kind of an
        // inner join, it just drops the right side in the final output.

тогда это грустно

источник

14:50пожаловаться #4

TB

Torlin Bios in Data Engineers

Есть в чате знатоки спарка? Вопрос - делаю leftsemi джойн двух датафремов и вижу что проиходит полный шафл правого датафрейма, хотя от него нужна только одна колонка. Т.е. по сути мне нужно сделать селект одной колонки правого датафрейма чтобы все было в разы быстрее. Почему catalyst такое не ловит? Есть ли ишью(я не нашел)?

Как вариант попробовать забродкастить датафрейм с одной колонкой, и если там размер все ровно большой и она автоматом не забродкастится, то можно ещё выставить размер сюда spark.sql.autoBroadcastJoinThreshold, но нужно аккуратно выставлять размер

источник

16:13пожаловаться #5

K

Kirill in Data Engineers

у меня более теоретический вопрос) то что ты говоришь правда, да

источник

16:56пожаловаться #6

R

Renarde in Data Engineers

Всем привет! Вопрос к тем, кто использует Kafka + Spark Structured Streaming.
Проблема такая - данные писались стриминговым пайплайном, с чекпоинтами. Затем пайплайн отключили на определенный промежуток времени, а потом включили вновь.
Проблема в том, что в кафке за это время накопилось очень много эвентов, и чтение этого первого батча занимает очень много времени. Как правильно лимитировать спарк, так чтобы он разбирал очередь константными частями (скажем, по X эвентов за один микро-батч)?

источник

17:46пожаловаться #7

GP

Grigory Pomadchin in Data Engineers

Всем привет! Вопрос к тем, кто использует Kafka + Spark Structured Streaming.
Проблема такая - данные писались стриминговым пайплайном, с чекпоинтами. Затем пайплайн отключили на определенный промежуток времени, а потом включили вновь.
Проблема в том, что в кафке за это время накопилось очень много эвентов, и чтение этого первого батча занимает очень много времени. Как правильно лимитировать спарк, так чтобы он разбирал очередь константными частями (скажем, по X эвентов за один микро-батч)?

попробуй выставить маленький maxRatePerPartition, но имей ввиду это рейт на партицию в секунду

источник

17:51пожаловаться #8

GP

Grigory Pomadchin in Data Engineers

и бекпрешша конечно должна быть включена

источник

17:52пожаловаться #9

N

Natalia in Data Engineers

spark.streaming.kafka.maxRatePerPartition

источник

17:52пожаловаться #10

R

Renarde in Data Engineers

Natalia

spark.streaming.kafka.maxRatePerPartition

а это в Structured Streaming работает?

источник

17:58пожаловаться #11

GP

Grigory Pomadchin in Data Engineers

а это в Structured Streaming работает?

попробуй расскажешь, есть ещё maxOffsetsPerTrigger

источник

18:04пожаловаться #12

GP

Grigory Pomadchin in Data Engineers

Я не помню что в каком случае работает, но по баззвордам нагуглишь

источник

18:04пожаловаться #13

R

Renarde in Data Engineers

и то и другое выкрутил на минимум - не работает

источник

18:04пожаловаться #14

GP

Grigory Pomadchin in Data Engineers

бекпрешша то есть?

источник

18:04пожаловаться #15

GP

Grigory Pomadchin in Data Engineers

Оно без неё работать не будет

источник

18:05пожаловаться #16

N

Natalia in Data Engineers

https://stackoverflow.com/questions/52970845/limit-kafka-batch-size-when-using-spark-structured-streaming

Limit kafka batch size when using Spark Structured Streaming

We have some historical data queued up on our topics, we don't want to process all this data in a single batch as that is harder to do (and if it fails it has to start again!).

Also, knowing how to

источник

18:05пожаловаться #17

N

Natalia in Data Engineers

Похожий вопрос. Похоже preparation не работает, per trigger - работает

источник

18:05пожаловаться #18

N

Natalia in Data Engineers

Я только в обычном стрименге задавала.

источник

18:06пожаловаться #19

t

tenKe in Data Engineers

в structured streaming maxOffsetsPerTrigger работает

источник

22:00пожаловаться #20