Size: a a a

2019 November 14

PG

Pavel G in Moscow Spark
хинты можно использовать
источник

DG

Denis Gabaydulin in Moscow Spark
Все-таки broadcast (hash) join и другие оптимзации это только оптимизации. А фолбек всегда идет в sorted merge join. Как наиболее универсальный алгоритм.

Ну и отдельно, кажется что делать трешолд по размеру автоматически - не лучшая идея. Кластеры разные, ноды разные, запросы разные.
источник

DG

Denis Gabaydulin in Moscow Spark
КМК лучше вообще явно писать что ты хочешь, через хинты или даже иногда закатывая солнце в ручную, то есть делая самостяотельно broadcast. Так и по коду будет понятнее.
источник

SO

Simon Osipov in Moscow Spark
Окей, премного благодарен за ответы!
источник

DG

Denis Gabaydulin in Moscow Spark
Вопрос немного в сторону. А что-то делается в spark на тему skew joins? или может кто встречал передовые пейперы в этом вопросе?
источник

SS

Semyon Sinchenko in Moscow Spark
Simon Osipov
Мопед не мой)


А вот теперь мой мопед: почему не лучший - понятно. Отключился бродкаст вообще, теперь там где он мог ускорить - он не работает. Какие альтернативы?
Я бы настраивал тайм-аут все же. Просто одна из таблиц большая и действительно экзекьюторам может не хватать времени. Бродкаст значительно быстрее сорт мёржа
источник

DZ

Dmitry Zuev in Moscow Spark
KrivdaTheTriewe
Афтерпати будет ?
Будет, если ты будешь
источник

DG

Denis Gabaydulin in Moscow Spark
Там не только таймаут же но и размер.
источник

SS

Semyon Sinchenko in Moscow Spark
Denis Gabaydulin
Там не только таймаут же но и размер.
Размер лишь для автобродкаста. Если одна из таблиц явно заперсисчена, то тоже будет бродкаст (или если ещё хинт заюзать) но все упрется в тайм-аут
источник

DG

Denis Gabaydulin in Moscow Spark
А насчет таймаутов. Когда то давно разбираясь с очередной ошибкой, я за..ся и выставил по дефолту все таймауты в 800 секунд. И знаете, кол-во ошибок уменьшилось в разы ))
источник

SO

Simon Osipov in Moscow Spark
А где про хинты поподробней почитать?
источник

DG

Denis Gabaydulin in Moscow Spark
источник

DG

Denis Gabaydulin in Moscow Spark
И вообще эта книга годная.
источник

PK

Pavel Klemenkov in Moscow Spark
Denis Gabaydulin
И вообще эта книга годная.
Да и вообще Яцек годный, только на почту раз в месяц, к сожалению, отвечает
источник

SO

Simon Osipov in Moscow Spark
The internals of Spark SQL?
источник

DG

Denis Gabaydulin in Moscow Spark
Интересно, а сколько стоит его нанять, как лектора.
источник

PK

Pavel Klemenkov in Moscow Spark
Denis Gabaydulin
Интересно, а сколько стоит его нанять, как лектора.
Проблема не в деньгах, а в том, что он не отвечает на почту. Юф ю ноу вот ай мин
источник

DG

Denis Gabaydulin in Moscow Spark
Кстати, а у него нет ли рассылки аля mechanical sympathy Мартина Томпсона? Он там регулярно отвечает.
источник

DG

Denis Gabaydulin in Moscow Spark
Или у тебя личное?)
источник

PK

Pavel Klemenkov in Moscow Spark
Denis Gabaydulin
Или у тебя личное?)
Почти) Жаль, что у нас всего три доклада. А могло быть четыре)
источник