Телеграмм чат группы moscowspark страница 811

ФПМИ МФТИ Big Data Workshops

00:14пожаловаться #1

Oleg Ivchenko in Moscow Spark

Переслано от Oleg Ivchenko

Всем привет!
Физтех-школа прикладной математики и информатики МФТИ приглашает желающих на интенсив для DE на тему real-time обработка данных.

За 3 дня интенсива Вы научитесь:
- Разрабатывать приложения на Spark и запускать на реальном Hadoop-кластере;
- Строить pipelines обработки данных в реальном времени, используя Spark Structured streaming;
- Строить приложения потоковой обработки данных с помощью Kafka Streams;
Подробности см. здесь: https://fpmi-edu.ru/bigdataworkshops

fpmi-edu.ru

Обработка больших данных

SmartData 2021. Конференция по Data Engineering.

20:45пожаловаться #2

2021 September 20

Pavel Klemenkov in Moscow Spark

Всем привет! Тут Смарт Дата грядет (не реклама). Топики довольно годные, да и Яцека пригласили, поэтому крайне рекомендую рассмотреть https://smartdataconf.ru/2021/spb/schedule/

Программа SmartData 2021

Программа конференции SmartData 2021.

Паша Финкельштейн... in Moscow Spark

19:17пожаловаться #3

ПФ

Да и ещё пара необычных докладов про Спарк есть

19:19пожаловаться #4

2021 September 21

Mikhail Epikhin in Moscow Spark

Привет. Кто-то использовал Kyuubi? Как оно?
https://kyuubi.apache.org/docs/latest/overview/architecture.html

17:49пожаловаться #5

2021 September 22

Combot in Moscow Spark

Total messages: 20114

00:53пожаловаться #6

2021 September 24

Всем привет, можно ли как то добиться, чтобы в таске спарка была ровно 1 запись? Делаю repartition(больше числа строк в таблице), но все равно есть таски в которых более 1 строки

07:24пожаловаться #7

tenKe in Moscow Spark

че нить типа мапПартишнс и внутри все элементы загоняешь в вектор

08:04пожаловаться #8

tenKe in Moscow Spark

технически это будет партиция с 1 элементом

08:05пожаловаться #9

Дмитрий in Moscow Spark

А ты с датафраймом или rdd работаешь ? Можно подсолить и работать с kv в rdd

08:08пожаловаться #10

Df, не оч понял . Т.е. нужен rdd, уникальный ключ и группировка?

08:11пожаловаться #11

Дмитрий in Moscow Spark

Ну я не до конца понимаю задачу. Но в принципе да. Но тогда а тебя будет очень много партиций, лучше mapParti... и работать с ключем.

08:14пожаловаться #12

у меня немного строк (1000), для каждой строки питон удф запускается обучение модели. Если сделать немного тасков и мапПартишен, то кудато утекает память в питоновской либе (вероятно). Есть идея разбить 1 строка = 1 таска, тогда когда обучение закончилось, то процесс таски убьется и вся память питона почистится.

09:20пожаловаться #13

Custom Partitioning an Apache Spark DataSet

репартишен же разбивает спец функцией, а не просто так
по умолчанию вроде как там hash стоит

https://blog.clairvoyantsoft.com/custom-partitioning-spark-datasets-25cbd4e2d818

Medium

Spark, as we all know, is generally used to process large data sets in a distributed manner. However, the performance of spark jobs really…

09:25пожаловаться #14

решается кастомным партишеном

09:25пожаловаться #15

дак если repartition по уникальному ключу и число строк меньше числа в репартишен, то как после хэша несколько строк в 1 партицию попадают? чет я не пойму

09:26пожаловаться #16

Уникальный ключ не гарантирует что хэши не будут совпадать

Условно hash(key)%num_part совпал и пошли они в одну партицию

09:29пожаловаться #17

Вы же не удивляетесь коллизиям в бакетах хэшмэпа, даже когда ключей меньше чем бакетов

09:29пожаловаться #18

понял, спс, буду смотреть тогда в сторону кастомного партишенера

09:31пожаловаться #19

кстати, можно чуть проще, через repartitionByRange - задать число партишенов = числу элементов, создалось честное число партишенов по 1 строке