Size: a a a

2021 September 18

Д

Дмитрий in Moscow Spark
Или трифт.
источник

OI

Oleg Ivchenko in Moscow Spark
Переслано от Oleg Ivchenko
Всем привет!
Физтех-школа прикладной математики и информатики МФТИ приглашает желающих на интенсив для DE на тему real-time обработка данных.

За 3 дня интенсива Вы научитесь:
- Разрабатывать приложения на Spark и запускать на реальном Hadoop-кластере;
- Строить pipelines обработки данных в реальном времени, используя Spark Structured streaming;
- Строить приложения потоковой обработки данных с помощью Kafka Streams;
Подробности см. здесь: https://fpmi-edu.ru/bigdataworkshops
источник
2021 September 20

PK

Pavel Klemenkov in Moscow Spark
Всем привет! Тут Смарт Дата грядет (не реклама). Топики довольно годные, да и Яцека пригласили, поэтому крайне рекомендую рассмотреть https://smartdataconf.ru/2021/spb/schedule/
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Да и ещё пара необычных докладов про Спарк есть
источник
2021 September 21

ME

Mikhail Epikhin in Moscow Spark
Привет. Кто-то использовал Kyuubi? Как оно?
https://kyuubi.apache.org/docs/latest/overview/architecture.html
источник
2021 September 22

C

Combot in Moscow Spark
Total messages: 20114
источник
2021 September 24

А

Алексей in Moscow Spark
Всем привет, можно ли как то добиться, чтобы в таске спарка была ровно 1 запись? Делаю repartition(больше числа строк в таблице), но все равно есть таски в которых более 1 строки
источник

t

tenKe in Moscow Spark
че нить типа мапПартишнс и внутри все элементы загоняешь в вектор
источник

t

tenKe in Moscow Spark
технически это будет партиция с 1 элементом
источник

Д

Дмитрий in Moscow Spark
А ты с датафраймом или rdd работаешь ? Можно подсолить и работать с kv в rdd
источник

А

Алексей in Moscow Spark
Df, не оч понял . Т.е. нужен rdd, уникальный ключ и группировка?
источник

Д

Дмитрий in Moscow Spark
Ну я не до конца понимаю задачу. Но в принципе да. Но тогда а тебя будет очень много партиций, лучше mapParti... и работать с ключем.
источник

А

Алексей in Moscow Spark
у меня немного строк (1000), для каждой строки питон удф запускается обучение модели. Если сделать немного тасков и мапПартишен, то кудато утекает память в питоновской либе (вероятно). Есть идея разбить 1 строка = 1 таска, тогда когда обучение закончилось, то процесс таски убьется и вся память питона почистится.
источник

A

Alex in Moscow Spark
репартишен же разбивает спец функцией, а не просто так
по умолчанию вроде как там hash стоит

https://blog.clairvoyantsoft.com/custom-partitioning-spark-datasets-25cbd4e2d818
источник

A

Alex in Moscow Spark
решается кастомным партишеном
источник

А

Алексей in Moscow Spark
дак если repartition по уникальному ключу и число строк меньше числа в репартишен, то как после хэша несколько строк в 1 партицию попадают? чет я не пойму
источник

A

Alex in Moscow Spark
Уникальный ключ не гарантирует что хэши не будут совпадать

Условно hash(key)%num_part совпал и пошли они в одну партицию
источник

A

Alex in Moscow Spark
Вы же не удивляетесь коллизиям в бакетах хэшмэпа, даже когда ключей меньше чем бакетов
источник

А

Алексей in Moscow Spark
понял, спс, буду смотреть тогда в сторону кастомного партишенера
источник

А

Алексей in Moscow Spark
кстати, можно чуть проще, через repartitionByRange - задать число партишенов = числу элементов, создалось честное число партишенов по 1 строке
источник