Size: a a a

2021 November 03

GP

Grigory Pomadchin in Moscow Spark
медленный ио между воркерами
источник

SI

Sergey Ivanychev in Moscow Spark
часто бывает, что ты хочешь обучить ML-модель типа катбуста или фасттекста, и хочешь чтобы данные были на одной машине
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Видел тебя в спарк мейлинг листе )
источник

SI

Sergey Ivanychev in Moscow Spark
было дело)
источник

VV

Vladislav Verba in Moscow Spark
Привет! Пришел с вопросом про драйвер а вы тут примерно похожие вещи обсуждаете. Немного нубский вопрос. Представим ситуацию:
- есть Stand-alone spark кластер
- есть jupyter ноутбук с pyspark и доступом к кластеру в клиентском режиме
- есть данные в табличке DrltaLake
- есть запрос который эти данные трансформирует и перекладывает в другую табличку DeltaLake или паркетник на S3

Вопрос- если запускать этот запрос в ноутбуке, кластер будет перекладывать данные сам? Или же пропустит данные через драйвер, или ещё что-то такое, от чего может прилечь драйвер?
источник

DV

Denis Volkov in Moscow Spark
А новый catboost_spark как?
источник

SI

Sergey Ivanychev in Moscow Spark
коллеги говорят, баганутый пока и адовыми доками
источник

SI

Sergey Ivanychev in Moscow Spark
мой коллега упоминал про спарковый катбуст вот тут https://youtu.be/ObzrXjqWcTY?t=7645
источник

SI

Sergey Ivanychev in Moscow Spark
точный таймстемп не нашел
источник

DZ

Dmitry Zuev in Moscow Spark
через воркеры
источник

SI

Sergey Ivanychev in Moscow Spark
Типично данные не пролетают через драйвер, трансформания происходит за счет диска и оперативки экзекьютеров. Из-за этого сам драйвер можно сделать довольно тонким, если не нужно на клиент скачивать по какой-то причине большого количества данных.
источник

DZ

Dmitry Zuev in Moscow Spark
это абсолютно не важно, главное чтобы можно было распределенно учить, мы же говорим что то что учить можно на одной тачке
источник

VV

Vladislav Verba in Moscow Spark
@zuynew @ivanychev отличненько, спасибо))
источник

НК

Николай Крупий... in Moscow Spark
источник

ММ

Максим Мартынов... in Moscow Spark
Оно работает только в случае использования spark-submit с deploy-mode: cluster. Просто запустить в ноутбуке не выйдет, по крайней мере пока
источник

AT

Andrey Terekhov in Moscow Spark
Коллеги, может кто работал с aws glue.
Проблема следующая - в PostgreSQL имена столбцов в CamelCase, краулер их переводит в lower case. Пытаюсь в glue скрипте (pyspark) объявить glueContext.create_dynamic_frame.from_catalog, но тут же получаю ошибку от постгреса что поле в lower case не существует. Это происходит из-за того что постгрес case sensetive к именам столбцов.
Подскажите, кроме как переименовать столбцы или сделать view на стороне БД какие-то способы ещё могут быть победить эту проблему?
источник

k

kvadratura in Moscow Spark
1. в обычном спарке можно из jdbc данные тянуть напрямую, даже параллелить чанками и т. д.

2. зачем кроулер что-то кроулит в постгрес? разве нельзя в глу подцепить обычный namespace, присоединенный по jdbc? т. е. в глу таблицы не появятся, но, может, оно и не надо, главное, чтобы спарк их видел
источник

k

kvadratura in Moscow Spark
3. пару лет назад глу джобс были УГ. каталог еще ничего, но полупроприетарный спарк означало мизерное комюнити и мизерные возможности дебага. Чуть что не так - стучимся в техподдержку, без вариантов заглянуть в source, и т. п.
источник

k

kvadratura in Moscow Spark
возможно, в вашем случае в ТП как раз стоит написать, с вопросом, как это отконфигать
источник
2021 November 04

AT

Andrey Terekhov in Moscow Spark
1. Да, пока сделал загрузку через спарк по jdbc.
2. Чтобы иметь возможность обращаться к данным источника и s3 через Athena и плюс в джобе просто указать таблицу из каталога и сформировать из неё dynamic frame.
3. Да мне кажется несильно что-то изменилось, разве что уже третья версия glue и спарка появилась)))
Из очевидных плюсов — при наличии подходящих полей для инкремента глю умеет сам отслеживать изменения в источнике. Ну и простая интеграция с каталогом, коннектами и сервисами.
источник