Size: a a a

2021 October 19

ЕГ

Евгений Глотов... in Moscow Spark
Попробуй не спарком, а так чем-нибудь подключиться из драйвера, просто по jdbc
источник

ЕГ

Евгений Глотов... in Moscow Spark
Качни путь и дальше читай спарком уже хдфс
источник

ИК

Иван Калининский... in Moscow Spark
походу, так и придётся. Хотелось, конечно, на готовеньком
источник

ЕГ

Евгений Глотов... in Moscow Spark
Да это прям проблема века на самом деле
источник

ЕГ

Евгений Глотов... in Moscow Spark
Что спарк только один метастор поддерживает
источник

ЕГ

Евгений Глотов... in Moscow Spark
А спарком по jdbc из хайва читать - в доке так и написано - это нецелевое использование спарка, мы это не будем поддерживать, поэтому все баги остаются и оптимизации нет)
источник

ИК

Иван Калининский... in Moscow Spark
Штош, нецелевое, зато рабочее - почему бы и нет?

Спасибо!
источник

k

kvadratura in Moscow Spark
> спарком по jdbc из хайва читать
вроде бы, проблема в том, что это не скейлится

> несколько metastores

можно создать session с одним metastore, загрузить датафоейм. потом создать session с другим metastore, загрузить второй датафрейм, и потом поджойнить их

> несколько

вроде, начиная с 3 версии, есть поддержка нескольких namespaces, я думал, работает как в престо / трино
источник

Д

Дмитрий in Moscow Spark
источник

ИК

Иван Калининский... in Moscow Spark
До третьего спарк ещё надо дорасти(
источник

ИК

Иван Калининский... in Moscow Spark
Пока что заэкспоузил протектед хайв метод и создаю отдельного клиента. Но между хайвами не всё работает (( кринж какой-то (
источник

ИК

Иван Калининский... in Moscow Spark
Разные версии хайвов имею в виду
источник

ММ

Максим Мартынов... in Moscow Spark
Спарковский dataframe живет только пока жива сессия
источник

k

kvadratura in Moscow Spark
нет. пока живет контекст. часть обьектов сессии пересоздается при getOrCreate. часть - остается
источник

k

kvadratura in Moscow Spark
вот сджоинить датафреймы из Aws Glue metastore и датафрейм созданный с помощью Hive metastore - нельзя из-за того, что класс клиента метастора остается прежний при вызове getOrCreate
источник

k

kvadratura in Moscow Spark
источник
2021 October 20

AS

Alexander Shorin in Moscow Spark
Салют! А есть ли решение такой проблемы: спарк джоба генерит много (ну вот 3TB+) shuffle write и хочется чуть не достигая таких значений её нужно убить с вопросом "дорогой разработчик, а ты хорошо подумал?".
Проблема скорее не в самом шафле, а в том что на нодах место для кэшей этого шафла быстро заканчивается и всем становится грустно, но в контексте задачи метрика шафла кажется что единственно значимая. Есть решение следить за такими вещами внешней задачей мониторя метрики спарка, но может есть решение лучше и правильнее?
Шедулер yarn - его настройки кэшей примерно никак не помогли что было ожидаемо.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Лучше особо ничего нет, если получится замониторить метрики - уже неплохо
источник

ЕГ

Евгений Глотов... in Moscow Spark
А хадуп настолько мал, что 3тб это проблема?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Или у вас параллельно тыща таких джобов по 3тб, и всё сжирается?
источник