Телеграмм чат группы hadoopusers страница 3492

но вообще бэкенд для dplyr можно написать и иначе, у нас например бэкенд это тонкая обвязка на R вокруг гошного драйвера (и для питона этот же драйвер используется)

источник

19:14пожаловаться #7

K S in Data Engineers

Подскажите пожалуйста как легче или проще всего определить data skew в паркет файле?

источник

19:26пожаловаться #8

K S in Data Engineers

По размеру файла можно предположить, что это потенциальный кандидат с data skew, но там также может быть нормальное распределение.

источник

19:28пожаловаться #9

Anton Zadorozhniy in Data Engineers

https://spark.apache.org/docs/3.1.1/api/java/org/apache/spark/sql/functions.html#input_file_name--

источник

19:43пожаловаться #10

Anton Zadorozhniy in Data Engineers

ну и с вашим инвентарем поджоинить, чтобы размеры файла узнать

источник

19:43пожаловаться #11

K S in Data Engineers

Спасибо. Мне нужны скорее статистические характеристики, типа вот этого (нашёл по вашей ссылке):

Aggregate function: returns the skewness of the values in a group.

источник

19:53пожаловаться #12

Almaz Murzabekov in Data Engineers

Ребята, помогите плиз кмк, с performance проблемой spark structured streaming & kafka

В общем, есть кафка топик на 24 партиции, с не skew распределенными ключами. Так же есть spark-streming jobа, которая пытается выгрясти все даннные из этого топика. Message в топике достаточно маленькие, но их очень много - 13 миллиардов. Кластеру spark - консюмеру выделил 8 "жирных" (core, ram) нод, но через Spark UI вижу, что на первом стейдже висят 24 активные таски, и только один executor & driver. Все остальные 7 нод отвалились, поскольку они долго были в idle статусе.

2 часа назад запустил streamer (spark 3.1, scala 12), и за это время он обработал только 500М строк. Собственно вопрос, куда копать, чтоб увеличить пропускную способность джобы?

источник

20:18пожаловаться #13

Sergey Sheremeta in Data Engineers

Hello Almaz jan! 🙂
а 24 таски действительно что-то делают. в их логах что-то проскакивает? на стороне Кафки нет перекосов (много партиций на одном брокере)?

источник

20:22пожаловаться #14

Almaz Murzabekov in Data Engineers

Ого, какие люди)

источник

20:22пожаловаться #15

Almaz Murzabekov in Data Engineers

Так и есть, таски выгребают данные из кафки, но слишком медленно. За 2 часа они выгребли 500М сообщений, а над 13млрд.

По поводу перекосов на стороне Кафки, вроде нет, как точно это посмотреть? На дашборде от кафки ничего странного нет

источник

20:25пожаловаться #16

Sergey Sheremeta in Data Engineers

если Spark3, то у него в Spark UI появилась вкладка Structured Streaming, с графиками - input rate/ processing rate/ latency - какая там частота входящего потока?

источник

20:41пожаловаться #17

Sergey Sheremeta in Data Engineers

странно, что становятся idle и "отваливаются" 7 экзекуторов, тогда как чтение идет...

источник

20:43пожаловаться #18

Almaz Murzabekov in Data Engineers

КМК, тут проблема именно в тулинге/конективности между spark & kafka. Либо не те ключи/параметры указаны в спарк джобе, либо проблемы с офсетами на кафке, либо еще что-то, что я не знаю

Насчет отваливания нод, мне кажется здесь нет проблем, поскольку это часть Dynamic Resource Allocation и они должны отваливаться.

Почему я так думаю?
Поскольку каждый экзекютор достаточно "жирный", то спарк может на одну ноду заассайнить все 24 таски (кол-во партиций откуда считывать данные). В итоге, 24 таски аллоцируются на одну машину, все остальные 7 ждут следующих спарк стейдей/джоб, и если долгое время они его не получают - то они отваливаются. Это можно увидеть в евент логе кластера

источник

20:45пожаловаться #19

Sergey Sheremeta in Data Engineers

а если как советуют тут - увеличить опцию minPartitions до 48/72 ?

Medium

How Adobe Does Millions of Records per Second Using Apache Spark Optimizations — Part 1

A look at our optimization techniques done to scale our throughput using Apache Spark.

источник

20:54пожаловаться #20