Size: a a a

2021 March 04

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
Хорошо когда сервера одинаковые
я про сайзинг EMR перед пайплайном
источник

T

T in Data Engineers
Anton Zadorozhniy
другой вопрос что сайзить надо под самое широкое место пайплайна, и утилизация перед и после будет страдать, но это уже часть данного кактуса
Да это зависит от компановки. Я саизил по самой широкой джобе старался чтобы она всегда была первой. А потом можно докидывать несколько параллельно выполняющихся что бы максимально заюзать все высвободившиеся ресурсы
источник

T

T in Data Engineers
Это конечно все от задачи зависит. Но для нашего кейса работало очень хорошо
источник

AZ

Anton Zadorozhniy in Data Engineers
T
Да это зависит от компановки. Я саизил по самой широкой джобе старался чтобы она всегда была первой. А потом можно докидывать несколько параллельно выполняющихся что бы максимально заюзать все высвободившиеся ресурсы
да, мы у клиента основали такую команду "человек-оптимизатор и его друг ресурсный менеджер", они писали тулинг для динамического сайзинга EMR, а также складывали мониторинг утилизации кластера после каждого пайплайна, чтобы смотреть куда-бы еще подпихнуть джобов
источник

T

T in Data Engineers
Grigory Pomadchin
Рибята, у нас тут конфа! Онлайн!

DataLove http://datalove.konfy.care/

Инжиниринговая конференция, и DSы приветствуются не в меньшей степени чем DEы (рассказать об инжиниринговой части их работы, и просто о проблемах разработке на стыке DS / DE).

Это могут быть и интересные юзкейсы большедатные, и архитектуры построения пайплайнов, и проблемы / решения менеджемента ресурсов, а может кто вообще свой МР сделал / делает?

Конфа случится 16 апреля, CFP открыт, все доклады на английском.

Регистрация как слушатель на донатной основе - от 1$, но для бедных студентов (возможно) будут промокоды.

* QA и анконф будет в SpatialChat 🚀
* Джойнитесь в дискорд https://discord.com/invite/RSAApz8
* Фоловьте твиттер https://twitter.com/_datalove
* Видео записи в свободном доступе будут доступны тут https://www.youtube.com/konfy спустя некоторое время после конференции
* По другим вопросам можете пинать меня
Пошарил на работе, надеюсь кто нибудь прийдет докладчиком
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
да, мы у клиента основали такую команду "человек-оптимизатор и его друг ресурсный менеджер", они писали тулинг для динамического сайзинга EMR, а также складывали мониторинг утилизации кластера после каждого пайплайна, чтобы смотреть куда-бы еще подпихнуть джобов
у вас интересные задачи в рнд
источник

NN

No Name in Data Engineers
KrivdaTheTriewe
у вас интересные задачи в рнд
У меня периодически возникает ощущение, что тут почти все пилят ракеты на gpu, руками дата-центры строят, их же конфигурируют и заодно свои спарки пишут.
источник

K

KrivdaTheTriewe in Data Engineers
да, именно так и есть
источник

ME

Max Efremov in Data Engineers
No Name
У меня периодически возникает ощущение, что тут почти все пилят ракеты на gpu, руками дата-центры строят, их же конфигурируют и заодно свои спарки пишут.
А кто-то из таблички в табличку перекидывает 10 метров)
источник

ME

Max Efremov in Data Engineers
Только про это в чат писать особо не надо)
источник

A

Alex in Data Engineers
No Name
У меня периодически возникает ощущение, что тут почти все пилят ракеты на gpu, руками дата-центры строят, их же конфигурируют и заодно свои спарки пишут.
И это все как хобби, так как на работе на марс уже приходится писать приземление
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
у вас интересные задачи в рнд
это еще времен консалтинга
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
это еще времен консалтинга
Круто
источник

AE

Alexey Evdokimov in Data Engineers
Max Efremov
А кто-то из таблички в табличку перекидывает 10 метров)
три года назад мы не знали как скроссджойниться с табличкой на 10 метров, чтобы не считать датасет на мильён записей три недели, а теперь по 29ТБ за пару часов перемалываем.

так что дело наживное. ггггглавное нне бббояться
источник

P

Pavel in Data Engineers
Как сегодня дела с cloudera обстоят? Больно?
источник

o

ok in Data Engineers
Pavel
Как сегодня дела с cloudera обстоят? Больно?
репы закрыты, кто успел смироррить — тот молодец
источник

P

Pavel in Data Engineers
ok
репы закрыты, кто успел смироррить — тот молодец
Больше интересно как в плане эксплуатации
источник

MV

Mitya Volodin in Data Engineers
ok
репы закрыты, кто успел смироррить — тот молодец
В каком смысле? То что лицензионная политика изменилась?
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexey Evdokimov
три года назад мы не знали как скроссджойниться с табличкой на 10 метров, чтобы не считать датасет на мильён записей три недели, а теперь по 29ТБ за пару часов перемалываем.

так что дело наживное. ггггглавное нне бббояться
это с S3 же? если не секрет, каких размеров EMR в широком месте, узлов 50-100?
источник

AG

Alexander Gorokhov in Data Engineers
Alexey Evdokimov
три года назад мы не знали как скроссджойниться с табличкой на 10 метров, чтобы не считать датасет на мильён записей три недели, а теперь по 29ТБ за пару часов перемалываем.

так что дело наживное. ггггглавное нне бббояться
Че тюнили?
источник