Телеграмм чат группы moscowspark страница 94

надо провести merge двух датафреймов (A и B) по ключу, при этом если запись (может быть только одна или ноль) уже существует, то надо провести по колонкам некоторые операции (сумма, взять min|max и т.д.),
кроме того как сделать left join и пробежаться по всем записям есть другие решения?

Union + row_number потом применяешь фильтр row_number=1, с group by проблема нужно будет на каждую колонку агрегирующую функцию применять

источник

19:43пожаловаться #4

2019 March 05

Artem Muravlev in Moscow Spark

Коллеги. Как можно оптимизировать distinct в Rdd? У меня одна операция занимает 80% времени от остальных. Хелп)

источник

19:11пожаловаться #5

Pavel Klemenkov in Moscow Spark

distinct - это shuffle, поэтому оптимизация distinct - это правильное партиционирование, т.е. По ключу дистинкта

источник

19:14пожаловаться #6

Artem Muravlev in Moscow Spark

Pavel Klemenkov

distinct - это shuffle, поэтому оптимизация distinct - это правильное партиционирование, т.е. По ключу дистинкта

Я новичок, поэтому не совсем понял фразу про правильное партиционирование по ключу дистинкта.

источник

19:19пожаловаться #7

Artem Muravlev in Moscow Spark

Т.е мне необходимо в дистинкте указать что то типа myRdd.distinct(myRdd..getNumPartitions())?

источник

19:20пожаловаться #8

KrivdaTheTriewe in Moscow Spark

Pavel Klemenkov

Привет, друзья, давно не слышались! Я вот раздумывал над новыми форматами для нашего митапа, и пришла в голову такая идея. Ко мне периодически обращаются за консультациями или просто задают вопросы по Spark. И чуть менее, чем всегда вопросы довольно однотипные. Как спланировать ресусры, как деплоить, есть ли какой-то стайл гайд, почему ALS такой тормозной. Я подумал, что на все вопросы никто из нас правильных ответов не знает. А если и знает, то, возможно, они не совсем правильные. Короче предлагаю на очередном митапе провести а-ля панельную дискуссию, гда мы соберем вместе нескольких экспертов и позадаем им животрепещущие вопросы. А во время дискусси родится истина. Мы эту истину осмыслим и упакуем в какой-нибудь документ (например статью на Хабр тиснем). Постепенно будем собирать знание и будет всем счастье. Задавать насущные вопросы и предлагать экспертов можно в этой форме https://goo.gl/forms/a51IZyeVunfZ2gbz2

Google Docs

Spark Q&A session

Здесь собираем животрепещущие вопросы по Spark (разработка, деплой, производительность и т.д.) и предлагаем экспертов для панельной дискуссии