Size: a a a

2021 May 06

ЕП

Евгений Погребняк... in Data Engineers
Коллеги, подскажите плс - пакет для валидации колонок фрейма pandas, похожий на pandera - никто не сталкивался? Помню читал пост, мол есть два похожих пакета, чтобы схему датафрейма pandas контролировать, с близким функционалом - pandera и еще другой. Гугглю - ни слуха ни духа про другой. Типа brute или brush назывался, еще декоратором приделывался к фрейму, мне кажется.
источник

D

Dmitry in Data Engineers
а в EMR/HDinsde разве нельзя ноды по ходу дела добавлять, убирать ?
источник

GP

Grigory Pomadchin in Data Engineers
можно
источник

D

Dmitry in Data Engineers
а зачем тогда каждый раз деплоить кластер ? я смотрел HDinside, упарился ждать пока микро поднялся
источник

ME

Max Efremov in Data Engineers
можно держать маленький и скейлить под задачи
источник

ME

Max Efremov in Data Engineers
ну и поднимается вроде минуты 3-5 всего, если задачи на часы, то норм
источник

GP

Grigory Pomadchin in Data Engineers
зависит конечн много от каких факторов, чем больше машин тем дольше поднимается
и бутстрап у всех же разный
источник

А

Алексей in Data Engineers
@SLASH_CyberPunk можете подсказать, где можно взять дистры Хортона? (Можно в личку). У нас вышла из строя 1 нода, а мы криворукие не делали бекапов установок
источник

ME

Max Efremov in Data Engineers
у меня только сендбоксы выкачаны, на всякий случай))
источник

ПБ

Повелитель Бури... in Data Engineers
А можно 2 слова по "нужной нарезкой" . Вы имеете ввиду, pod с нужными данными?
источник

GZ

Gleb Zhukov in Data Engineers
А можно поподробнее в чем кривость? Обычный ванильный хадуп с патчами там.
источник

AZ

Anton Zadorozhniy in Data Engineers
EKS + Fargate?
источник

JM

J M in Data Engineers
ECS?
источник

AZ

Anton Zadorozhniy in Data Engineers
Не видел как спарк на ecs запускается, а EKS это conformant k8s
источник

AT

Al T in Data Engineers
нету там лент давно уже... это городские мифы какие-то ))
источник
2021 May 07

K

KrivdaTheTriewe in Data Engineers
Там без ансибла даж было вроде
источник

AZ

Anton Zadorozhniy in Data Engineers
В этом же прелесть, нам все равно как оно там устроено, ведёт себя оно как ленты: стоимость хранения, WORM, но и время восстановления такое же
источник

GZ

Gleb Zhukov in Data Engineers
Нет, там уже давно deb-ки собираются автоматизированно через довольно продвинутый gradle-скрипт и катятся через ansible. Часть компонентов катится после ревью автоматически через ci (Jenkins). Вообще своих сборок хадупа на основе дебок CDH много кого есть. Обычно они появлялись после необходимости перехода с хадупа 2.6.5 из CDH5 на что-то более свежее.
источник

K

KrivdaTheTriewe in Data Engineers
Давно , это полтора года ?
источник

GZ

Gleb Zhukov in Data Engineers
Ну типа)
источник