Телеграмм чат группы moscowspark страница 879

Привет! Пришел с вопросом про драйвер а вы тут примерно похожие вещи обсуждаете. Немного нубский вопрос. Представим ситуацию:
- есть Stand-alone spark кластер
- есть jupyter ноутбук с pyspark и доступом к кластеру в клиентском режиме
- есть данные в табличке DrltaLake
- есть запрос который эти данные трансформирует и перекладывает в другую табличку DeltaLake или паркетник на S3

Вопрос- если запускать этот запрос в ноутбуке, кластер будет перекладывать данные сам? Или же пропустит данные через драйвер, или ещё что-то такое, от чего может прилечь драйвер?

источник

18:06пожаловаться #5

Denis Volkov in Moscow Spark

А новый catboost_spark как?

источник

18:06пожаловаться #6

Sergey Ivanychev in Moscow Spark

коллеги говорят, баганутый пока и адовыми доками

источник

18:06пожаловаться #7

Sergey Ivanychev in Moscow Spark

мой коллега упоминал про спарковый катбуст вот тут https://youtu.be/ObzrXjqWcTY?t=7645

YouTube

CatBoost: от 0 до 1.0.0

0:00:00 Вступительное слово // Стас Кириллов (Яндекс) и Кирилл Власов (Яндекс)
0:02:15 Путь к версии 1.0.0, который занял 100 лет // Стас Кириллов (Яндекс) и Андрей Гулин (Яндекс)
0:17:45 Как нейронные сети пытаются победить бустинг на его поле // Юрий Горишний (Яндекс)
0:41:18 Как мы делаем поездки беспилотных автомобилей безопасными // Сергей Яскевич (Яндекс)
0:59:25 Классификация пользователей в Яндекс.Крипте // Влад Титов (Яндекс)
1:18:17 Online Quiz: Насколько ты хорош в бустинге? // Никита Дмитриев (Яндекс)
1:43:18 Закупаем рекламу на онлайн-аукционах по-умному // Тарас Баранюк (Bidease)
2:07:25 CatBoost-модель в продакшн за день // Александр Пушин (Joom)
2:33:28 Почему полезно контрибьютить в open-source (доклад на английском языке) // Джеймс Ламб (SpotHero/LightGBM)
2:55:29 Как Intel и Яндекс вместе оптимизируют CatBoost // Дмитрий Сивков (Intel)

источник

18:09пожаловаться #8

Sergey Ivanychev in Moscow Spark

точный таймстемп не нашел

источник

18:09пожаловаться #9

Dmitry Zuev in Moscow Spark

через воркеры

источник

18:10пожаловаться #10

Sergey Ivanychev in Moscow Spark

Типично данные не пролетают через драйвер, трансформания происходит за счет диска и оперативки экзекьютеров. Из-за этого сам драйвер можно сделать довольно тонким, если не нужно на клиент скачивать по какой-то причине большого количества данных.

источник

18:12пожаловаться #11

Dmitry Zuev in Moscow Spark

это абсолютно не важно, главное чтобы можно было распределенно учить, мы же говорим что то что учить можно на одной тачке

источник

18:12пожаловаться #12

Vladislav Verba in Moscow Spark

@zuynew @ivanychev отличненько, спасибо))

источник

18:15пожаловаться #13

НК

Николай Крупий... in Moscow Spark

https://t.me/hadoopusers?voicechat

Data Engineers

Взаимное уважение и без спама. Только технические вопросы
Вакансии: @datajobschannel
Moscow Spark Meetup: @moscowspark
English group: @dataengi
Jobs: @datajobs
Jobs Channel: @datajobschannel

источник

20:04пожаловаться #14

ММ

Максим Мартынов... in Moscow Spark

Оно работает только в случае использования spark-submit с deploy-mode: cluster. Просто запустить в ноутбуке не выйдет, по крайней мере пока

источник

20:22пожаловаться #15

Andrey Terekhov in Moscow Spark

Коллеги, может кто работал с aws glue.
Проблема следующая - в PostgreSQL имена столбцов в CamelCase, краулер их переводит в lower case. Пытаюсь в glue скрипте (pyspark) объявить glueContext.create_dynamic_frame.from_catalog, но тут же получаю ошибку от постгреса что поле в lower case не существует. Это происходит из-за того что постгрес case sensetive к именам столбцов.
Подскажите, кроме как переименовать столбцы или сделать view на стороне БД какие-то способы ещё могут быть победить эту проблему?

источник

21:09пожаловаться #16

kvadratura in Moscow Spark

1. в обычном спарке можно из jdbc данные тянуть напрямую, даже параллелить чанками и т. д.

2. зачем кроулер что-то кроулит в постгрес? разве нельзя в глу подцепить обычный namespace, присоединенный по jdbc? т. е. в глу таблицы не появятся, но, может, оно и не надо, главное, чтобы спарк их видел

источник

23:11пожаловаться #17

kvadratura in Moscow Spark

3. пару лет назад глу джобс были УГ. каталог еще ничего, но полупроприетарный спарк означало мизерное комюнити и мизерные возможности дебага. Чуть что не так - стучимся в техподдержку, без вариантов заглянуть в source, и т. п.

источник

23:16пожаловаться #18

kvadratura in Moscow Spark

возможно, в вашем случае в ТП как раз стоит написать, с вопросом, как это отконфигать

источник

23:18пожаловаться #19

2021 November 04

Andrey Terekhov in Moscow Spark

1. Да, пока сделал загрузку через спарк по jdbc.
2. Чтобы иметь возможность обращаться к данным источника и s3 через Athena и плюс в джобе просто указать таблицу из каталога и сформировать из неё dynamic frame.
3. Да мне кажется несильно что-то изменилось, разве что уже третья версия glue и спарка появилась)))
Из очевидных плюсов — при наличии подходящих полей для инкремента глю умеет сам отслеживать изменения в источнике. Ну и простая интеграция с каталогом, коннектами и сервисами.

источник

01:43пожаловаться #20